利用語(yǔ)義特征的科技創(chuàng)新領(lǐng)域中文關(guān)鍵短語(yǔ)抽取方法及系統(tǒng)
基本信息

| 申請(qǐng)?zhí)?/td> | CN202110600989.X | 申請(qǐng)日 | - |
| 公開(kāi)(公告)號(hào) | CN113221559A | 公開(kāi)(公告)日 | 2021-08-06 |
| 申請(qǐng)公布號(hào) | CN113221559A | 申請(qǐng)公布日 | 2021-08-06 |
| 分類號(hào) | G06F40/289;G06F40/30;G06F40/211;G06F40/216;G06K9/62;G06F16/335;G06F16/36 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
| 發(fā)明人 | 莊越挺;宗暢;陳澤群;魯偉明;邵健 | 申請(qǐng)(專利權(quán))人 | 杭州量知數(shù)據(jù)科技有限公司 |
| 代理機(jī)構(gòu) | 杭州求是專利事務(wù)所有限公司 | 代理人 | 傅朝棟;張法高 |
| 地址 | 310058 浙江省杭州市西湖區(qū)余杭塘路866號(hào) | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明公開(kāi)了一種利用語(yǔ)義特征的科技創(chuàng)新領(lǐng)域中文關(guān)鍵短語(yǔ)抽取方法及系統(tǒng)。本發(fā)明通過(guò)挖掘中文科技創(chuàng)新文檔語(yǔ)料特征,構(gòu)建出中文停用詞及停用模式庫(kù),實(shí)現(xiàn)對(duì)無(wú)效信息的高性能過(guò)濾;此外借助領(lǐng)域?qū)<覙?biāo)注對(duì)各類關(guān)鍵短語(yǔ)抽取算法進(jìn)行量化評(píng)估分析,從而選用更加適合領(lǐng)域認(rèn)知的算法模型,并利用多種統(tǒng)計(jì)規(guī)則進(jìn)行過(guò)濾以提升短語(yǔ)抽取性能;進(jìn)一步利用文檔的結(jié)構(gòu)特點(diǎn),對(duì)文檔的主題語(yǔ)義進(jìn)行向量空間嵌入表示,并綜合利用所抽取短語(yǔ)與文檔主題的語(yǔ)義相似度,和短語(yǔ)語(yǔ)義重要程度進(jìn)行計(jì)算與排名,完成對(duì)關(guān)鍵短語(yǔ)的進(jìn)一步篩選。該方法可支撐多種下游任務(wù)和應(yīng)用,包括科技創(chuàng)新領(lǐng)域知識(shí)圖譜構(gòu)建、科技創(chuàng)新文檔語(yǔ)義檢索、科技創(chuàng)新實(shí)體精準(zhǔn)搜索等場(chǎng)景。 |





