一種文本檢索方法、系統(tǒng)、設(shè)備及存儲(chǔ)介質(zhì)
基本信息

| 申請(qǐng)?zhí)?/td> | CN202111609947.9 | 申請(qǐng)日 | - |
| 公開(公告)號(hào) | CN114003698A | 公開(公告)日 | 2022-02-01 |
| 申請(qǐng)公布號(hào) | CN114003698A | 申請(qǐng)公布日 | 2022-02-01 |
| 分類號(hào) | G06F16/33(2019.01)I;G06K9/62(2022.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
| 發(fā)明人 | 郭湘;黃鵬;江嶺 | 申請(qǐng)(專利權(quán))人 | 成都曉多科技有限公司 |
| 代理機(jī)構(gòu) | 成都睿道專利代理事務(wù)所(普通合伙) | 代理人 | 薛波 |
| 地址 | 610000四川省成都市天府新區(qū)興隆街道湖畔路西段123號(hào) | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明提供了一種文本檢索方法、系統(tǒng)、設(shè)備及存儲(chǔ)介質(zhì),步驟如下:利用預(yù)訓(xùn)練語(yǔ)言模型作為編碼器,通過(guò)編碼器對(duì)一批標(biāo)注過(guò)后的相似句對(duì)進(jìn)行自注意力和掩碼處理;對(duì)最終編碼進(jìn)行池化處理,根據(jù)交叉熵?fù)p失函數(shù)指導(dǎo)訓(xùn)練;通過(guò)數(shù)據(jù)增強(qiáng)為輸入構(gòu)造正樣本,將及輸入編碼器,得到表示向量和;計(jì)算表示向量與批內(nèi)其他向量的相似度,根據(jù)相似度對(duì)候選文本排序,通過(guò)最終損失函數(shù)指導(dǎo)網(wǎng)絡(luò)參數(shù)的迭代訓(xùn)練;基于訓(xùn)練好的模型進(jìn)行文本檢索。本申請(qǐng)通過(guò)加入有標(biāo)注樣本的有監(jiān)督訓(xùn)練,可增強(qiáng)模型的泛化能力;基于注意力掩碼機(jī)制,模型本身會(huì)有相似度文本推理能力;基于對(duì)比學(xué)習(xí),用無(wú)監(jiān)督的方式使得模型具有文本檢索的能力。 |





