一種基于圖注意力的半結構文本分類方案

基本信息

申請?zhí)?/td> CN202110415787.8 申請日 -
公開(公告)號 CN113312477A 公開(公告)日 2021-08-27
申請公布號 CN113312477A 申請公布日 2021-08-27
分類號 G06F16/35(2019.01)I 分類 計算;推算;計數(shù);
發(fā)明人 周靖宇;黃嘉鑫;景泳霖;袁陽平;鄒鴻岳 申請(專利權)人 北京快確信息科技有限公司
代理機構 深圳華屹智林知識產權代理事務所(普通合伙) 代理人 陳裕恒
地址 201700上海市青浦區(qū)浦倉路485號1幢2層
法律狀態(tài) -

摘要

摘要 一種基于圖注意力的半結構文本分類方案,它包含以下技術方案步驟:步驟一,文本預處理、數(shù)據(jù)清洗,形成圖矩陣;步驟二,形成編碼層,采用albert預訓練模型獲取embedding矩陣;步驟三,對embedding矩陣進行attention操作,并基于圖矩陣進行加權計算;步驟四,對特征向量矩陣壓縮后進行文本分類。針對金融領域文本分類問題,尤其是在半結構化的文本的情況下,尋常的分類器無法結合結構化信息進行識別,給出一種提取結構信息并且融入到分類系統(tǒng)中,對最終的分類器準確率提升是行之有效的,同時針對模型結構,尤其是取末尾幾層transformer、跨句間結構權重比同句內更高、multi?headattention等步驟,大大提高了信息表征抽取的能力,從而增加最后softmax分類的準確率,具有較大的市場推廣價值。