一種基于層次聚類的聊天記錄分析方法和裝置
基本信息

| 申請(qǐng)?zhí)?/td> | CN201810137784.0 | 申請(qǐng)日 | - |
| 公開(kāi)(公告)號(hào) | CN108153738A | 公開(kāi)(公告)日 | 2018-06-12 |
| 申請(qǐng)公布號(hào) | CN108153738A | 申請(qǐng)公布日 | 2018-06-12 |
| 分類號(hào) | G06F17/27;G06F17/30;G06K9/62 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
| 發(fā)明人 | 許振興;朱留鋒;榮強(qiáng);田淑寧 | 申請(qǐng)(專利權(quán))人 | 燈塔財(cái)經(jīng)信息有限公司 |
| 代理機(jī)構(gòu) | 深圳市六加知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 燈塔財(cái)經(jīng)信息有限公司 |
| 地址 | 430000 湖北省武漢市東西湖區(qū)臺(tái)商投資區(qū)高橋產(chǎn)業(yè)園臺(tái)中大道特1號(hào)(3) | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,提供了一種基于層次聚類的聊天記錄分析方法和裝置。方法包括獲取聊天記錄和相關(guān)的數(shù)據(jù)信息,并對(duì)所述聊天記錄做DBSCAN聚類算法前的預(yù)處理;采用DBSCAN的聚類算法,對(duì)預(yù)處理之后的數(shù)據(jù)做聚類處理;對(duì)所述DBSCAN的聚類處理的結(jié)果數(shù)據(jù),采用TF?IDF算法提取關(guān)鍵字作為熱詞,并統(tǒng)計(jì)數(shù)據(jù)條目出現(xiàn)熱詞的次數(shù),以出現(xiàn)次數(shù)最多的熱詞作為所述聊天記錄的標(biāo)簽。本發(fā)明提出了一種基于層次聚類的聊天記錄分析方法,結(jié)合了DBSCAN的聚類算法和TF?IDF算法之間的性能特性,對(duì)現(xiàn)有的無(wú)規(guī)則的聊天記錄做了具有特征性的標(biāo)簽標(biāo)定,使得所述聊天記錄能夠被進(jìn)一步被后續(xù)操作步驟以簡(jiǎn)化的方式使用。 |





