一種領域術語抽取的方法
基本信息

| 申請?zhí)?/td> | CN201410831590.2 | 申請日 | - |
| 公開(公告)號 | CN104598530B | 公開(公告)日 | 2018-06-05 |
| 申請公布號 | CN104598530B | 申請公布日 | 2018-06-05 |
| 分類號 | G06F17/30;G06F17/27 | 分類 | 計算;推算;計數(shù); |
| 發(fā)明人 | 江潮;張芃 | 申請(專利權)人 | 八方傳神數(shù)碼科技(武漢)有限公司 |
| 代理機構 | 北京康盛知識產(chǎn)權代理有限公司 | 代理人 | 語聯(lián)網(wǎng)(武漢)信息技術有限公司 |
| 地址 | 430070 湖北省武漢市東湖開發(fā)區(qū)光谷軟件園一期以西、南湖南路以南、光谷軟件園六期2幢5層205號 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 一種領域術語抽取的方法,包括:對原始語料以語素為單位進行任意長度的切分,獲得若干候選術語,其中,每個所述候選術語由至少二個語素組成;從詞頻、互信息、左右熵、獨立性和結構多個維度對每個所述候選術語進行分析,確定該候選術語的多個特征參數(shù);利用確定的所述多個特征參數(shù),計算出該候選術語的領域術語度;抽取所述領域術語度高于閾值的候選術語作為新的領域術語。本發(fā)明通過詞頻、互信息、左右熵、獨立性和結構上對候選術語進行充分的分析,保證提取的術語可靠性和準確性較高。 |





