基于概念詞的文本聚類方法
基本信息

| 申請?zhí)?/td> | CN202110536699.3 | 申請日 | - |
| 公開(公告)號 | CN112990388A | 公開(公告)日 | 2021-06-18 |
| 申請公布號 | CN112990388A | 申請公布日 | 2021-06-18 |
| 分類號 | G06K9/62;G06F40/216;G06F40/211 | 分類 | 計算;推算;計數(shù); |
| 發(fā)明人 | 劉世林;羅鎮(zhèn)權(quán);黃艷;曾途 | 申請(專利權(quán))人 | 成都數(shù)聯(lián)銘品科技有限公司 |
| 代理機(jī)構(gòu) | 北京市領(lǐng)專知識產(chǎn)權(quán)代理有限公司 | 代理人 | 張玲 |
| 地址 | 610015 四川省成都市自由貿(mào)易試驗(yàn)區(qū)成都高新區(qū)天府大道北段966號9棟-1層1號 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明涉及基于概念詞的文本聚類方法,包括以下步驟:對待聚類文本進(jìn)行分句,通過概念詞詞表識別出分句后的待聚類文本中的概念詞;所述概念詞詞表中包含若干概念詞和若干類別,所述類別的數(shù)量小于等于所述概念詞的數(shù)量;將識別出的概念詞進(jìn)行masking處理后,輸入已訓(xùn)練的詞的BERT預(yù)訓(xùn)練模型中進(jìn)行預(yù)測,得到各個masking處理后的概念詞基于所述概念詞詞表的概率分布;將各個masking處理后的概念詞的概率分布進(jìn)行maxpooling處理,分別得到maxpooling向量,選擇位置最大值的向量作為所述待聚類文本的表達(dá)。本發(fā)明依據(jù)概念詞對聚類結(jié)果進(jìn)行解釋,使得聚類更有解釋性,提高說服力。 |





