詞向量的文本分類方法及終端設備

基本信息

申請?zhí)?/td> CN201610639589.9 申請日 -
公開(公告)號 CN106294684A 公開(公告)日 2017-01-04
申請公布號 CN106294684A 申請公布日 2017-01-04
分類號 G06F17/30(2006.01)I;G06K9/62(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 周誠;趙世亭 申請(專利權)人 上海高欣計算機系統(tǒng)有限公司
代理機構 上海晨皓知識產(chǎn)權代理事務所(普通合伙) 代理人 上海高欣計算機系統(tǒng)有限公司
地址 201203 上海市浦東新區(qū)自由貿(mào)易試驗區(qū)芳春路400號1幢301-103室
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及通信領域,公開了一種詞向量的文本分類方法及終端設備。本發(fā)明實施方式中,通過連續(xù)詞袋模型CBOW,計算文本分詞后包含各個詞向量的詞向量矩陣,基于該詞向量矩陣查找已知文本類型的各個訓練樣本分別包含的詞向量,并計算出每種文本類型的訓練樣本的特征向量,最后根據(jù)待分類文本的特征向量和各種文本類型的訓練樣本的特征向量,確定待分類文本的類型。通過這種方式,對詞向量化時,會考慮當前詞的前面幾個詞和后面幾個詞的聯(lián)系,使整個文本特征具有語義特性,對訓練樣本進行訓練時,效率高且耗時少,在確定待分類文本的類型時,計算量小、計算方式簡便快捷且精度高。