文本內(nèi)容顯著性區(qū)域的局部特征抽取方法及系統(tǒng)

基本信息

申請(qǐng)?zhí)?/td> CN201610810851.1 申請(qǐng)日 -
公開(公告)號(hào) CN106484768B 公開(公告)日 2019-12-31
申請(qǐng)公布號(hào) CN106484768B 申請(qǐng)公布日 2019-12-31
分類號(hào) G06F16/33;G06F17/27 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 李紅全 申請(qǐng)(專利權(quán))人 天津海量信息技術(shù)股份有限公司
代理機(jī)構(gòu) 天津市尚文知識(shí)產(chǎn)權(quán)代理有限公司 代理人 天津海量信息技術(shù)股份有限公司
地址 300020 天津市和平區(qū)南馬路11號(hào)麥購(gòu)國(guó)際大廈23層
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及一種文本內(nèi)容顯著性區(qū)域的局部特征抽取方法及系統(tǒng)。該方法包括:按預(yù)設(shè)挑選規(guī)則從資訊文本中的顯著性區(qū)域中選出M個(gè)單句;對(duì)每一單句分別分詞,從分詞結(jié)果中選出每一單句的實(shí)體詞與短語(yǔ)并按預(yù)設(shè)權(quán)重排序;選出N個(gè)權(quán)重排列在前的實(shí)體詞與短語(yǔ);將每一單句中選出的N個(gè)實(shí)體詞和短語(yǔ)按漢語(yǔ)拼音序排序,分別合并成一長(zhǎng)文本;計(jì)算每一單句的長(zhǎng)文本的crc64,作為每一單句的的局部特征;將M個(gè)單句的局部特征合并成一個(gè)特征集,作為該資訊文本的局部特征。本發(fā)明通過(guò)將一篇文本內(nèi)容轉(zhuǎn)換成M個(gè)crc64字符表示,有利于創(chuàng)建基于單句的內(nèi)容檢索系統(tǒng)和基于內(nèi)容的局部特征集的內(nèi)容消重系統(tǒng)。