一種閱讀理解模型訓(xùn)練數(shù)據(jù)的過濾方法及裝置

基本信息

申請?zhí)?/td> CN201811644614.8 申請日 -
公開(公告)號 CN109766424B 公開(公告)日 2021-11-19
申請公布號 CN109766424B 申請公布日 2021-11-19
分類號 G06F16/332(2019.01)I;G06F16/33(2019.01)I;G06F16/35(2019.01)I 分類 計算;推算;計數(shù);
發(fā)明人 李健銓;劉小康;晉耀紅 申請(專利權(quán))人 安徽省泰岳祥升軟件有限公司
代理機構(gòu) 北京弘權(quán)知識產(chǎn)權(quán)代理有限公司 代理人 逯長明;許偉群
地址 230088安徽省合肥市高新區(qū)習(xí)友路3333號中國(合肥)國際智能語音產(chǎn)業(yè)園研發(fā)中心樓405-5室
法律狀態(tài) -

摘要

摘要 本申請公開一種閱讀理解模型訓(xùn)練數(shù)據(jù)的過濾方法及裝置,首先獲取輸入文本,將輸入文本表示為包含詞匯共現(xiàn)信息和位置編碼信息的第二詞向量;其次根據(jù)輸入文本的注意力對第二詞向量進行加權(quán);對第二詞向量的加權(quán)結(jié)果進行歸一化處理生成第一輸出矩陣;再對第一輸出矩陣進行全連接的線性變換處理并進行歸一化處理,生成第二輸出矩陣;然后根據(jù)第二輸出矩陣生成低維特征向量;最后對低維特征向量進行歸一化處理,得到所述答案與所述查詢語句的匹配度;根據(jù)預(yù)設(shè)的過濾條件過濾所述匹配度相應(yīng)的輸入文本。本申請方法按照答案與查詢語句的匹配度對閱讀理解模型訓(xùn)練數(shù)據(jù)進行過濾,優(yōu)化訓(xùn)練數(shù)據(jù),剔除錯誤數(shù)據(jù),有利于提升模型性能。