文本內(nèi)容顯著性區(qū)域的局部特征抽取方法及系統(tǒng)
基本信息

| 申請(qǐng)?zhí)?/td> | CN201610810851.1 | 申請(qǐng)日 | - |
| 公開(公告)號(hào) | CN106484768B | 公開(公告)日 | 2019-12-31 |
| 申請(qǐng)公布號(hào) | CN106484768B | 申請(qǐng)公布日 | 2019-12-31 |
| 分類號(hào) | G06F16/33;G06F17/27 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
| 發(fā)明人 | 李紅全 | 申請(qǐng)(專利權(quán))人 | 天津海量信息技術(shù)股份有限公司 |
| 代理機(jī)構(gòu) | 天津市尚文知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 天津海量信息技術(shù)股份有限公司 |
| 地址 | 300020 天津市和平區(qū)南馬路11號(hào)麥購(gòu)國(guó)際大廈23層 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明涉及一種文本內(nèi)容顯著性區(qū)域的局部特征抽取方法及系統(tǒng)。該方法包括:按預(yù)設(shè)挑選規(guī)則從資訊文本中的顯著性區(qū)域中選出M個(gè)單句;對(duì)每一單句分別分詞,從分詞結(jié)果中選出每一單句的實(shí)體詞與短語(yǔ)并按預(yù)設(shè)權(quán)重排序;選出N個(gè)權(quán)重排列在前的實(shí)體詞與短語(yǔ);將每一單句中選出的N個(gè)實(shí)體詞和短語(yǔ)按漢語(yǔ)拼音序排序,分別合并成一長(zhǎng)文本;計(jì)算每一單句的長(zhǎng)文本的crc64,作為每一單句的的局部特征;將M個(gè)單句的局部特征合并成一個(gè)特征集,作為該資訊文本的局部特征。本發(fā)明通過(guò)將一篇文本內(nèi)容轉(zhuǎn)換成M個(gè)crc64字符表示,有利于創(chuàng)建基于單句的內(nèi)容檢索系統(tǒng)和基于內(nèi)容的局部特征集的內(nèi)容消重系統(tǒng)。 |





