一種基于對比學(xué)習(xí)的文本識別方法與系統(tǒng)

基本信息

申請?zhí)?/td> CN202111395021.4 申請日 -
公開(公告)號 CN113920296B 公開(公告)日 2022-07-15
申請公布號 CN113920296B 申請公布日 2022-07-15
分類號 G06V10/22(2022.01)I;G06V30/10(2022.01)I;G06V10/74(2022.01)I;G06V10/82(2022.01)I;G06K9/62(2022.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 劉彩玲;吳婷婷;趙建強(qiáng);高志鵬;汪泰伸;陳德意 申請(專利權(quán))人 廈門市美亞柏科信息股份有限公司
代理機(jī)構(gòu) 廈門福貝知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 -
地址 361000福建省廈門市思明區(qū)軟件園二期觀日路12號102-402單元
法律狀態(tài) -

摘要

摘要 本發(fā)明給出了一種基于對比學(xué)習(xí)的文本識別方法與系統(tǒng),包括無標(biāo)簽的文本圖像樣本,對其中每個樣本進(jìn)行數(shù)據(jù)增強(qiáng)輸入卷積網(wǎng)絡(luò)進(jìn)行識別訓(xùn)練生成識別模型,再基于所述識別模型構(gòu)建基本編碼器來計算并輸出特征序列;將所述特征序列輸入實(shí)例映射函數(shù)生成對應(yīng)的實(shí)例再映射為多個子實(shí)例,將所有的子實(shí)例作為對比損失函數(shù)中的子元素進(jìn)行對比學(xué)習(xí),將結(jié)果反饋到所述卷積網(wǎng)絡(luò)用于更新所述卷積網(wǎng)絡(luò);獲取包含文本信息的有標(biāo)簽的文本圖像樣本輸入所述基本編碼器,對所述卷積網(wǎng)絡(luò)的參數(shù)進(jìn)行調(diào)節(jié)直到所述識別模型收斂。本方法將對比學(xué)習(xí)應(yīng)用于序列的各個元素,充分利用無標(biāo)注數(shù)據(jù)學(xué)習(xí)有效的表征信息,再基于自監(jiān)督對比學(xué)習(xí)的方法進(jìn)行建模,顯著提高了識別效果。