一種基于多維度向量化編碼的文本相似度計(jì)算方法及裝置
基本信息

| 申請(qǐng)?zhí)?/td> | CN201911224993.X | 申請(qǐng)日 | - |
| 公開(公告)號(hào) | CN110956039A | 公開(公告)日 | 2020-04-03 |
| 申請(qǐng)公布號(hào) | CN110956039A | 申請(qǐng)公布日 | 2020-04-03 |
| 分類號(hào) | G06F40/289(2020.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
| 發(fā)明人 | 譚明;張建輝;袁亞洲;刁玉賢;余雯婧;高依舟 | 申請(qǐng)(專利權(quán))人 | 中國(guó)太平洋保險(xiǎn)(集團(tuán))股份有限公司 |
| 代理機(jī)構(gòu) | 上海寶鼎專利代理有限公司 | 代理人 | 張寶讓 |
| 地址 | 200010上海市黃浦區(qū)中山南路1號(hào) | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明公開了一種基于多維度向量化編碼的文本相似度計(jì)算方法,包括:a.對(duì)第一目標(biāo)文本進(jìn)行多維度語(yǔ)義特征處理構(gòu)建四種與第一目標(biāo)文本相匹配的Embedding向量,所述Embedding向量包括S1、S2、S3以及S4;b.基于輸出向量U以及權(quán)重向量WeightingU確定用以評(píng)價(jià)四種Embedding向量加權(quán)關(guān)系的Attention向量SelfAttentionU;c.基于四種Embedding向量以及Attention向量SelfAttentionU確定第一目標(biāo)文本的多維度向量X;d.對(duì)第二目標(biāo)文本重復(fù)執(zhí)行步驟a至c,確定第二目標(biāo)文本的多維度向量Y;e.基于皮爾森相關(guān)系數(shù)確定X與Y的相似性。本方法在相似度模型訓(xùn)練時(shí),對(duì)多個(gè)向量進(jìn)行加權(quán),權(quán)重作為模型需要學(xué)習(xí)的參數(shù),通過深度學(xué)習(xí)算法對(duì)文本進(jìn)行編碼建模,從而尋找最優(yōu)參數(shù)。本發(fā)明使用方便,功能強(qiáng)大,計(jì)算精確,具有極高的商業(yè)價(jià)值。?? |





