基于概念詞的文本聚類(lèi)方法
基本信息

| 申請(qǐng)?zhí)?/td> | CN202110536699.3 | 申請(qǐng)日 | - |
| 公開(kāi)(公告)號(hào) | CN112990388B | 公開(kāi)(公告)日 | 2021-08-24 |
| 申請(qǐng)公布號(hào) | CN112990388B | 申請(qǐng)公布日 | 2021-08-24 |
| 分類(lèi)號(hào) | G06K9/62;G06F40/216;G06F40/211 | 分類(lèi) | 計(jì)算;推算;計(jì)數(shù); |
| 發(fā)明人 | 劉世林;羅鎮(zhèn)權(quán);黃艷;曾途 | 申請(qǐng)(專利權(quán))人 | 成都數(shù)聯(lián)銘品科技有限公司 |
| 代理機(jī)構(gòu) | 北京市領(lǐng)專知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 張玲 |
| 地址 | 610015 四川省成都市自由貿(mào)易試驗(yàn)區(qū)成都高新區(qū)天府大道北段966號(hào)9棟-1層1號(hào) | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明涉及基于概念詞的文本聚類(lèi)方法,包括以下步驟:對(duì)待聚類(lèi)文本進(jìn)行分句,通過(guò)概念詞詞表識(shí)別出分句后的待聚類(lèi)文本中的概念詞;所述概念詞詞表中包含若干概念詞和若干類(lèi)別,所述類(lèi)別的數(shù)量小于等于所述概念詞的數(shù)量;將識(shí)別出的概念詞進(jìn)行masking處理后,輸入已訓(xùn)練的詞的BERT預(yù)訓(xùn)練模型中進(jìn)行預(yù)測(cè),得到各個(gè)masking處理后的概念詞基于所述概念詞詞表的概率分布;將各個(gè)masking處理后的概念詞的概率分布進(jìn)行maxpooling處理,分別得到maxpooling向量,選擇位置最大值的向量作為所述待聚類(lèi)文本的表達(dá)。本發(fā)明依據(jù)概念詞對(duì)聚類(lèi)結(jié)果進(jìn)行解釋,使得聚類(lèi)更有解釋性,提高說(shuō)服力。 |





