一種領域術語抽取的方法

基本信息

申請?zhí)?/td> CN201410831590.2 申請日 -
公開(公告)號 CN104598530B 公開(公告)日 2018-06-05
申請公布號 CN104598530B 申請公布日 2018-06-05
分類號 G06F17/30;G06F17/27 分類 計算;推算;計數(shù);
發(fā)明人 江潮;張芃 申請(專利權)人 八方傳神數(shù)碼科技(武漢)有限公司
代理機構 北京康盛知識產(chǎn)權代理有限公司 代理人 語聯(lián)網(wǎng)(武漢)信息技術有限公司
地址 430070 湖北省武漢市東湖開發(fā)區(qū)光谷軟件園一期以西、南湖南路以南、光谷軟件園六期2幢5層205號
法律狀態(tài) -

摘要

摘要 一種領域術語抽取的方法,包括:對原始語料以語素為單位進行任意長度的切分,獲得若干候選術語,其中,每個所述候選術語由至少二個語素組成;從詞頻、互信息、左右熵、獨立性和結構多個維度對每個所述候選術語進行分析,確定該候選術語的多個特征參數(shù);利用確定的所述多個特征參數(shù),計算出該候選術語的領域術語度;抽取所述領域術語度高于閾值的候選術語作為新的領域術語。本發(fā)明通過詞頻、互信息、左右熵、獨立性和結構上對候選術語進行充分的分析,保證提取的術語可靠性和準確性較高。