一種用于突發(fā)事件新聞識(shí)別與分類的半監(jiān)督學(xué)習(xí)方法
基本信息

| 申請(qǐng)?zhí)?/td> | CN202110206548.1 | 申請(qǐng)日 | - |
| 公開(公告)號(hào) | CN112989841B | 公開(公告)日 | 2021-09-21 |
| 申請(qǐng)公布號(hào) | CN112989841B | 申請(qǐng)公布日 | 2021-09-21 |
| 分類號(hào) | G06F40/30(2020.01)I;G06F16/35(2019.01)I;G06F40/216(2020.01)I;G06K9/62(2006.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
| 發(fā)明人 | 龍飛;劉肖萌;滕輝 | 申請(qǐng)(專利權(quán))人 | 中國(guó)搜索信息科技股份有限公司 |
| 代理機(jī)構(gòu) | 北京市盛峰律師事務(wù)所 | 代理人 | 于國(guó)富 |
| 地址 | 100077北京市東城區(qū)三元街17號(hào)8幢 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明涉及自然語(yǔ)言處理領(lǐng)域,公開了一種用于突發(fā)事件新聞識(shí)別與分類的半監(jiān)督學(xué)習(xí)方法,包括以下步驟:抓取微博網(wǎng)站內(nèi)容作為初始新聞數(shù)據(jù)集,通過人工標(biāo)注得到標(biāo)注數(shù)據(jù)集Dl;對(duì)未標(biāo)注樣本進(jìn)行前置過濾操作,采用數(shù)據(jù)增強(qiáng)方法得到帶擾動(dòng)的未標(biāo)注數(shù)據(jù)集;利用所述標(biāo)注數(shù)據(jù)集Dl對(duì)基于BERT的多分類器模型進(jìn)行監(jiān)督學(xué)習(xí)、并最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)函數(shù),利用基于BERT的多分類器模型對(duì)所述預(yù)過濾后的數(shù)據(jù)集和帶擾動(dòng)的未標(biāo)注數(shù)據(jù)集進(jìn)行預(yù)測(cè),獲得半監(jiān)督學(xué)習(xí)訓(xùn)練出的基于BERT的多分類器模型實(shí)現(xiàn)突發(fā)事件新聞的識(shí)別和分類任務(wù)。本發(fā)明能夠克服標(biāo)注數(shù)據(jù)不足的情況下深度學(xué)習(xí)分類器過擬合的問題,提高對(duì)中文突發(fā)事件新聞識(shí)別和分類的準(zhǔn)確率。 |





