一種基于層次聚類的聊天記錄分析方法和裝置

基本信息

申請(qǐng)?zhí)?/td> CN201810137784.0 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN108153738A 公開(kāi)(公告)日 2018-06-12
申請(qǐng)公布號(hào) CN108153738A 申請(qǐng)公布日 2018-06-12
分類號(hào) G06F17/27;G06F17/30;G06K9/62 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 許振興;朱留鋒;榮強(qiáng);田淑寧 申請(qǐng)(專利權(quán))人 燈塔財(cái)經(jīng)信息有限公司
代理機(jī)構(gòu) 深圳市六加知識(shí)產(chǎn)權(quán)代理有限公司 代理人 燈塔財(cái)經(jīng)信息有限公司
地址 430000 湖北省武漢市東西湖區(qū)臺(tái)商投資區(qū)高橋產(chǎn)業(yè)園臺(tái)中大道特1號(hào)(3)
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,提供了一種基于層次聚類的聊天記錄分析方法和裝置。方法包括獲取聊天記錄和相關(guān)的數(shù)據(jù)信息,并對(duì)所述聊天記錄做DBSCAN聚類算法前的預(yù)處理;采用DBSCAN的聚類算法,對(duì)預(yù)處理之后的數(shù)據(jù)做聚類處理;對(duì)所述DBSCAN的聚類處理的結(jié)果數(shù)據(jù),采用TF?IDF算法提取關(guān)鍵字作為熱詞,并統(tǒng)計(jì)數(shù)據(jù)條目出現(xiàn)熱詞的次數(shù),以出現(xiàn)次數(shù)最多的熱詞作為所述聊天記錄的標(biāo)簽。本發(fā)明提出了一種基于層次聚類的聊天記錄分析方法,結(jié)合了DBSCAN的聚類算法和TF?IDF算法之間的性能特性,對(duì)現(xiàn)有的無(wú)規(guī)則的聊天記錄做了具有特征性的標(biāo)簽標(biāo)定,使得所述聊天記錄能夠被進(jìn)一步被后續(xù)操作步驟以簡(jiǎn)化的方式使用。