一種結(jié)合主題語(yǔ)義與TF*IDF算法的大規(guī)模文本分類(lèi)方法及系統(tǒng)
基本信息

| 申請(qǐng)?zhí)?/td> | CN202110481459.8 | 申請(qǐng)日 | - |
| 公開(kāi)(公告)號(hào) | CN113032573A | 公開(kāi)(公告)日 | 2021-06-25 |
| 申請(qǐng)公布號(hào) | CN113032573A | 申請(qǐng)公布日 | 2021-06-25 |
| 分類(lèi)號(hào) | G06F16/35;G06F40/30;G06F40/284 | 分類(lèi) | 計(jì)算;推算;計(jì)數(shù); |
| 發(fā)明人 | 任偉;吳晨;繆建明;張全;韋向峰;袁毅;徐永潛 | 申請(qǐng)(專(zhuān)利權(quán))人 | 《中國(guó)學(xué)術(shù)期刊(光盤(pán)版)》電子雜志社有限公司 |
| 代理機(jī)構(gòu) | 北京天奇智新知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 王澤云 |
| 地址 | 100084 北京市海淀區(qū)清華園清華大學(xué)36區(qū)1407、1408、1409 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明公開(kāi)了一種語(yǔ)種無(wú)關(guān)的結(jié)合主題語(yǔ)義與TF*IDF算法的大規(guī)模文本分類(lèi)方法及系統(tǒng),本方法以TF*IDF算法為基礎(chǔ),在特征向量選擇和權(quán)重計(jì)算過(guò)程中利用LDA計(jì)算的主題語(yǔ)義,通過(guò)LDA建模分析得到文檔?主題分布和主題?詞語(yǔ)分布,以此為基礎(chǔ)計(jì)算主題語(yǔ)義因子TSF,并將TSF作為新的量化維度引入特征選擇和特征向量權(quán)重計(jì)算中。本方法有效利用了特征項(xiàng)之間內(nèi)在的關(guān)聯(lián)性信息。也避免了直接根據(jù)LDA淺層主題語(yǔ)義進(jìn)行文本分類(lèi)而造成的實(shí)時(shí)增量分類(lèi)處理能力弱,計(jì)算結(jié)果不穩(wěn)定的問(wèn)題。采用數(shù)據(jù)驅(qū)動(dòng)的處理模式,與語(yǔ)種無(wú)關(guān),無(wú)需額外的語(yǔ)言知識(shí)支撐,適合大規(guī)模、多語(yǔ)種文本數(shù)據(jù)的快速高效分類(lèi)處理。 |





