一種文本聚類方法、裝置和計算設(shè)備

基本信息

申請?zhí)?/td> CN201910779788.3 申請日 -
公開(公告)號 CN110532389A 公開(公告)日 2019-12-03
申請公布號 CN110532389A 申請公布日 2019-12-03
分類號 G06F16/35;G06F17/27;G06K9/62 分類 計算;推算;計數(shù);
發(fā)明人 吳文豪 申請(專利權(quán))人 四川睿象科技有限公司
代理機構(gòu) 北京思睿峰知識產(chǎn)權(quán)代理有限公司 代理人 謝建云;趙愛軍
地址 640041 四川省成都市自由貿(mào)易試驗區(qū)成都高新區(qū)吉泰五路88號3棟29層11號
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種文本聚類方法,適于在計算設(shè)備中執(zhí)行,該方法包括步驟:獲取多條文本數(shù)據(jù)構(gòu)成第一文本庫,并通過比較各文本的第一簽名值來對第一文本庫進行聚類,得到n個第一聚類分組;分別從各第一聚類分組中選取一個第一代表文本構(gòu)成第二文本庫,并通過計算各第一代表文本的相似度來對第二文本庫進行聚類,得到m個第二聚類分組;對于每個第二聚類分組,將其中的各第一代表文本均替換為第一代表文本所屬的第一聚類分組的文本,得到對應(yīng)的m個第三聚類分組;以及分別計算各第三聚類分組內(nèi)所有文本的最長公共子串,并根據(jù)該最長公共子串生成各第三聚類分組的文本表達模式。本發(fā)明還一并公開了對應(yīng)的文本聚類裝置和計算設(shè)備。