基于自注意力的知識蒸餾方法、裝置和計算機設(shè)備

基本信息

申請?zhí)?/td> CN202110059942.7 申請日 -
公開(公告)號 CN112365385B 公開(公告)日 2021-06-01
申請公布號 CN112365385B 申請公布日 2021-06-01
分類號 G06F17/16(2006.01)I;G06N3/04(2006.01)I;G06Q10/06(2012.01)I;G06N20/00(2019.01)I;G06Q50/20(2012.01)I 分類 計算;推算;計數(shù);
發(fā)明人 徐泓洋;王廣新;楊漢丹 申請(專利權(quán))人 深圳市友杰智新科技有限公司
代理機構(gòu) 深圳市明日今典知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 王杰輝;曹勇
地址 518000廣東省深圳市南山區(qū)招商街道蛇口南海大道1079號花園城數(shù)碼大廈A座402
法律狀態(tài) -

摘要

摘要 本申請涉及人工智能領(lǐng)域,揭示了基于自注意力的知識蒸餾方法,包括:將輸入數(shù)據(jù)輸入第一模型得到第一模型的中間層輸出的第一特征矩陣,將輸入數(shù)據(jù)輸入第二模型得到第二模型的中間層輸出的第二特征矩陣,其中,第一模型為訓(xùn)練好的老師模型,第二模型為待訓(xùn)練的學(xué)生模型;根據(jù)第一特征矩陣計算老師模型對應(yīng)的第一自注意力權(quán)重分布,根據(jù)第二特征矩陣計算學(xué)生模型對應(yīng)的第二自注意力權(quán)重分布;計算第一自注意力權(quán)重分布和第二自注意力權(quán)重分布之間的分布差異;將分布差異,作為老師模型和學(xué)生模型之間的知識蒸餾損失函數(shù);根據(jù)知識蒸餾損失函數(shù),將老師模型的中間層的數(shù)據(jù)映射關(guān)系遷移至學(xué)生模型的中間層上,能滿足不同任務(wù)類型模型的知識蒸餾訓(xùn)練。??