一種文本檢索方法、系統(tǒng)、設(shè)備及存儲(chǔ)介質(zhì)

基本信息

申請(qǐng)?zhí)?/td> CN202111609947.9 申請(qǐng)日 -
公開(公告)號(hào) CN114003698A 公開(公告)日 2022-02-01
申請(qǐng)公布號(hào) CN114003698A 申請(qǐng)公布日 2022-02-01
分類號(hào) G06F16/33(2019.01)I;G06K9/62(2022.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 郭湘;黃鵬;江嶺 申請(qǐng)(專利權(quán))人 成都曉多科技有限公司
代理機(jī)構(gòu) 成都睿道專利代理事務(wù)所(普通合伙) 代理人 薛波
地址 610000四川省成都市天府新區(qū)興隆街道湖畔路西段123號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種文本檢索方法、系統(tǒng)、設(shè)備及存儲(chǔ)介質(zhì),步驟如下:利用預(yù)訓(xùn)練語(yǔ)言模型作為編碼器,通過(guò)編碼器對(duì)一批標(biāo)注過(guò)后的相似句對(duì)進(jìn)行自注意力和掩碼處理;對(duì)最終編碼進(jìn)行池化處理,根據(jù)交叉熵?fù)p失函數(shù)指導(dǎo)訓(xùn)練;通過(guò)數(shù)據(jù)增強(qiáng)為輸入構(gòu)造正樣本,將及輸入編碼器,得到表示向量和;計(jì)算表示向量與批內(nèi)其他向量的相似度,根據(jù)相似度對(duì)候選文本排序,通過(guò)最終損失函數(shù)指導(dǎo)網(wǎng)絡(luò)參數(shù)的迭代訓(xùn)練;基于訓(xùn)練好的模型進(jìn)行文本檢索。本申請(qǐng)通過(guò)加入有標(biāo)注樣本的有監(jiān)督訓(xùn)練,可增強(qiáng)模型的泛化能力;基于注意力掩碼機(jī)制,模型本身會(huì)有相似度文本推理能力;基于對(duì)比學(xué)習(xí),用無(wú)監(jiān)督的方式使得模型具有文本檢索的能力。