一種從文本中獲取目標詞匯的方法及系統(tǒng)
基本信息

| 申請?zhí)?/td> | CN201910152477.4 | 申請日 | - |
| 公開(公告)號 | CN109918658A | 公開(公告)日 | 2019-06-21 |
| 申請公布號 | CN109918658A | 申請公布日 | 2019-06-21 |
| 分類號 | G06F17/27(2006.01)I | 分類 | 計算;推算;計數(shù); |
| 發(fā)明人 | 曾俊瑀; 張文斌; 賈顯伏; 喬詠田; 邢毅帆 | 申請(專利權(quán))人 | 云孚科技(北京)有限公司 |
| 代理機構(gòu) | 北京世譽鑫誠專利代理事務所(普通合伙) | 代理人 | 孫國棟 |
| 地址 | 100085 北京市海淀區(qū)上地五街7號一層101A室 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明公開的從文本中獲取目標詞匯的方法及系統(tǒng),涉及數(shù)據(jù)處理技術領域,通過刪除文本中的空白符號,將文本中的標點符號設置為空格符號,在文本的首部及尾部添加空格符號,設定文本片段的最大長度為K,根據(jù)最大長度K對文本進行分割,生成多個長度不大于K的文本片段,分別計算各個文本片段的聚合度、左熵及右熵,根據(jù)公式Score=(left_entropy+right_entropy)×aggregation×frequence,分別計算各個文本片段的綜合分數(shù),選取綜合分數(shù)大于設定閾值的文本片段,得到候選詞匯,將候選詞匯與通用詞表進行對比,識別候選詞匯與通用詞表之間存在的不同的詞匯并將該詞匯作為目標詞匯,提高了獲取目標詞匯的準確度及效率。 |





