一種基于多維度向量化編碼的文本相似度計(jì)算方法及裝置

基本信息

申請(qǐng)?zhí)?/td> CN201911224993.X 申請(qǐng)日 -
公開(公告)號(hào) CN110956039A 公開(公告)日 2020-04-03
申請(qǐng)公布號(hào) CN110956039A 申請(qǐng)公布日 2020-04-03
分類號(hào) G06F40/289(2020.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 譚明;張建輝;袁亞洲;刁玉賢;余雯婧;高依舟 申請(qǐng)(專利權(quán))人 中國(guó)太平洋保險(xiǎn)(集團(tuán))股份有限公司
代理機(jī)構(gòu) 上海寶鼎專利代理有限公司 代理人 張寶讓
地址 200010上海市黃浦區(qū)中山南路1號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于多維度向量化編碼的文本相似度計(jì)算方法,包括:a.對(duì)第一目標(biāo)文本進(jìn)行多維度語(yǔ)義特征處理構(gòu)建四種與第一目標(biāo)文本相匹配的Embedding向量,所述Embedding向量包括S1、S2、S3以及S4;b.基于輸出向量U以及權(quán)重向量WeightingU確定用以評(píng)價(jià)四種Embedding向量加權(quán)關(guān)系的Attention向量SelfAttentionU;c.基于四種Embedding向量以及Attention向量SelfAttentionU確定第一目標(biāo)文本的多維度向量X;d.對(duì)第二目標(biāo)文本重復(fù)執(zhí)行步驟a至c,確定第二目標(biāo)文本的多維度向量Y;e.基于皮爾森相關(guān)系數(shù)確定X與Y的相似性。本方法在相似度模型訓(xùn)練時(shí),對(duì)多個(gè)向量進(jìn)行加權(quán),權(quán)重作為模型需要學(xué)習(xí)的參數(shù),通過深度學(xué)習(xí)算法對(duì)文本進(jìn)行編碼建模,從而尋找最優(yōu)參數(shù)。本發(fā)明使用方便,功能強(qiáng)大,計(jì)算精確,具有極高的商業(yè)價(jià)值。??