一種基于句法依賴的實體屬性信息抽取方法及裝置

基本信息

申請?zhí)?/td> CN201711263702.9 申請日 -
公開(公告)號 CN107957991B 公開(公告)日 2021-06-01
申請公布號 CN107957991B 申請公布日 2021-06-01
分類號 G06F40/279(2020.01)I 分類 計算;推算;計數(shù);
發(fā)明人 郭建京;彭建輝 申請(專利權(quán))人 湖南星漢數(shù)智科技有限公司
代理機構(gòu) - 代理人 -
地址 410000湖南省長沙市開福區(qū)伍家?guī)X街道車站北路649號天都大廈1棟26樓
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于句法依賴的實體屬性信息抽取方法及裝置,該方法首先對待抽取文本進行預(yù)處理,得到待抽取文本實體;然后根據(jù)待抽取文本的句法依賴和詞性關(guān)系,建立詞語之間的無向有權(quán)圖,根據(jù)詞性關(guān)系得到待抽取文本實體的候選屬性信息;搜索待抽取文本實體與候選屬性信息的詞語之間的最短路徑,將最短路徑上經(jīng)過的詞語組成關(guān)聯(lián)信息詞語集合;最后計算屬性集合中的每個屬性與關(guān)聯(lián)信息詞語集合之間的語義相似度,得到實體屬性,整合實體、實體屬性和屬性信息作為最終的抽取結(jié)果。本發(fā)明將自然語言處理技術(shù)和圖論模型相結(jié)合,解決文本信息的歧義性,提高了文本抽取準確率;利用關(guān)鍵詞的語義相似度,自動歸納抽象信息的屬性,提高了抽取效率。??