基于概念詞的文本聚類方法

基本信息

申請?zhí)?/td> CN202110536699.3 申請日 -
公開(公告)號 CN112990388A 公開(公告)日 2021-06-18
申請公布號 CN112990388A 申請公布日 2021-06-18
分類號 G06K9/62;G06F40/216;G06F40/211 分類 計算;推算;計數(shù);
發(fā)明人 劉世林;羅鎮(zhèn)權(quán);黃艷;曾途 申請(專利權(quán))人 成都數(shù)聯(lián)銘品科技有限公司
代理機(jī)構(gòu) 北京市領(lǐng)專知識產(chǎn)權(quán)代理有限公司 代理人 張玲
地址 610015 四川省成都市自由貿(mào)易試驗(yàn)區(qū)成都高新區(qū)天府大道北段966號9棟-1層1號
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及基于概念詞的文本聚類方法,包括以下步驟:對待聚類文本進(jìn)行分句,通過概念詞詞表識別出分句后的待聚類文本中的概念詞;所述概念詞詞表中包含若干概念詞和若干類別,所述類別的數(shù)量小于等于所述概念詞的數(shù)量;將識別出的概念詞進(jìn)行masking處理后,輸入已訓(xùn)練的詞的BERT預(yù)訓(xùn)練模型中進(jìn)行預(yù)測,得到各個masking處理后的概念詞基于所述概念詞詞表的概率分布;將各個masking處理后的概念詞的概率分布進(jìn)行maxpooling處理,分別得到maxpooling向量,選擇位置最大值的向量作為所述待聚類文本的表達(dá)。本發(fā)明依據(jù)概念詞對聚類結(jié)果進(jìn)行解釋,使得聚類更有解釋性,提高說服力。