同義詞挖掘方法及裝置

基本信息

申請(qǐng)?zhí)?/td> CN201410193704.5 申請(qǐng)日 -
公開(公告)號(hào) CN103942339B 公開(公告)日 2017-06-09
申請(qǐng)公布號(hào) CN103942339B 申請(qǐng)公布日 2017-06-09
分類號(hào) G06F17/30(2006.01)I;G06F17/27(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 車天文;王更生;劉捷;雷大偉 申請(qǐng)(專利權(quán))人 深圳宜搜天下科技股份有限公司
代理機(jī)構(gòu) 深圳市凱達(dá)知識(shí)產(chǎn)權(quán)事務(wù)所 代理人 深圳市宜搜科技發(fā)展有限公司;深圳宜搜天下科技股份有限公司
地址 518026 廣東省深圳市福田區(qū)濱河路與彩田路交匯處聯(lián)合廣場(chǎng)A棟塔樓A5501-A
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種同義詞挖掘方法,上述方法為:提取類似對(duì)齊語(yǔ)料;對(duì)每對(duì)類似對(duì)齊語(yǔ)句S1、S2分別進(jìn)行分詞處理,得到詞語(yǔ)序列S1(T1[1],T1[2],…,T1[i])、S2(T2[1],T2[2],…,T2[j]);在每對(duì)詞語(yǔ)序列的S2(T2[1],T2[2],…,T2[j])中自適應(yīng)挖掘S1(T1[1],T1[2],…,T1[i])的詞語(yǔ)的同義詞,并計(jì)算S1(T1[1],T1[2],…,T1[i])的詞語(yǔ)相對(duì)S2(T2[1],T2[2],…,T2[j])的詞語(yǔ)的同義概率;對(duì)NT1[i]相對(duì)于NT2[j]的同義概率進(jìn)行迭代運(yùn)算;計(jì)算NT1[i]相對(duì)于NT2[j]的全局同義置信度,并將置信度大于預(yù)設(shè)的置信度閾值的詞對(duì)作為同義詞輸出;本發(fā)明同時(shí)公開了一種同義詞挖掘裝置。本發(fā)明提升了同義詞挖掘的準(zhǔn)確率,易于操作實(shí)現(xiàn)。