一種文本相似度計(jì)算方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)

基本信息

申請(qǐng)?zhí)?/td> CN202110431440.2 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN113076404A 公開(kāi)(公告)日 2021-07-06
申請(qǐng)公布號(hào) CN113076404A 申請(qǐng)公布日 2021-07-06
分類號(hào) G06F16/33(2019.01)I;G06F40/289(2020.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 黃友福;肖龍?jiān)?李稀敏 申請(qǐng)(專利權(quán))人 廈門快商通科技股份有限公司
代理機(jī)構(gòu) 廈門市首創(chuàng)君合專利事務(wù)所有限公司 代理人 連耀忠;李艾華
地址 361000福建省廈門市軟件園三期誠(chéng)毅北大街63號(hào)1301單元
法律狀態(tài) -

摘要

摘要 本發(fā)明公開(kāi)了一種文本相似度計(jì)算方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì),方法包括:計(jì)算第一待匹配語(yǔ)句和第二待匹配語(yǔ)句間的基礎(chǔ)相似度;對(duì)第一待匹配語(yǔ)句和第二待匹配語(yǔ)句進(jìn)行分詞,并對(duì)分詞后的所有單詞進(jìn)行詞性標(biāo)注;分別對(duì)第一待匹配語(yǔ)句和第二待匹配語(yǔ)句分詞后的所有單詞進(jìn)行向量化以獲得詞向量;計(jì)算相似度懲罰系數(shù);基于基礎(chǔ)相似度和相似度懲罰系數(shù),獲得第一待匹配語(yǔ)句和第二待匹配語(yǔ)句間的最終相似度。本發(fā)明在計(jì)算文本間相似度時(shí)引入了與單個(gè)詞向量及詞性種類相關(guān)的相似度懲罰系數(shù),能夠有效降低相似度識(shí)別錯(cuò)誤的概率。