基于自注意力的知識蒸餾方法、裝置和計算機設(shè)備
基本信息

| 申請?zhí)?/td> | CN202110059942.7 | 申請日 | - |
| 公開(公告)號 | CN112365385B | 公開(公告)日 | 2021-06-01 |
| 申請公布號 | CN112365385B | 申請公布日 | 2021-06-01 |
| 分類號 | G06F17/16(2006.01)I;G06N3/04(2006.01)I;G06Q10/06(2012.01)I;G06N20/00(2019.01)I;G06Q50/20(2012.01)I | 分類 | 計算;推算;計數(shù); |
| 發(fā)明人 | 徐泓洋;王廣新;楊漢丹 | 申請(專利權(quán))人 | 深圳市友杰智新科技有限公司 |
| 代理機構(gòu) | 深圳市明日今典知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 王杰輝;曹勇 |
| 地址 | 518000廣東省深圳市南山區(qū)招商街道蛇口南海大道1079號花園城數(shù)碼大廈A座402 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本申請涉及人工智能領(lǐng)域,揭示了基于自注意力的知識蒸餾方法,包括:將輸入數(shù)據(jù)輸入第一模型得到第一模型的中間層輸出的第一特征矩陣,將輸入數(shù)據(jù)輸入第二模型得到第二模型的中間層輸出的第二特征矩陣,其中,第一模型為訓(xùn)練好的老師模型,第二模型為待訓(xùn)練的學(xué)生模型;根據(jù)第一特征矩陣計算老師模型對應(yīng)的第一自注意力權(quán)重分布,根據(jù)第二特征矩陣計算學(xué)生模型對應(yīng)的第二自注意力權(quán)重分布;計算第一自注意力權(quán)重分布和第二自注意力權(quán)重分布之間的分布差異;將分布差異,作為老師模型和學(xué)生模型之間的知識蒸餾損失函數(shù);根據(jù)知識蒸餾損失函數(shù),將老師模型的中間層的數(shù)據(jù)映射關(guān)系遷移至學(xué)生模型的中間層上,能滿足不同任務(wù)類型模型的知識蒸餾訓(xùn)練。?? |





