基于電商用戶行為數(shù)據(jù)的近義詞識別方法

基本信息

申請?zhí)?/td> CN201510129041.5 申請日 -
公開(公告)號 CN104657514B 公開(公告)日 2018-05-25
申請公布號 CN104657514B 申請公布日 2018-05-25
分類號 G06F17/30 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 王軍;甘駿;彭中正;王磊;張迪;肖琴 申請(專利權(quán))人 成都知數(shù)科技有限公司
代理機(jī)構(gòu) - 代理人 -
地址 610000 四川省成都市高新西區(qū)西芯大道4號
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于電商用戶行為數(shù)據(jù)的近義詞識別方法,解決了現(xiàn)有技術(shù)中如何識別商品標(biāo)題關(guān)鍵詞的命名實(shí)體和對命名實(shí)體的近義詞識別的問題。該識別方法包括:(1)將原始數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理;(2)隨機(jī)選擇部分商品描述數(shù)據(jù)分詞并進(jìn)行標(biāo)注;(3)返回標(biāo)注的商品描述數(shù)據(jù)并作為隱馬爾可夫算法模型的訓(xùn)練集數(shù)據(jù);(4)通過訓(xùn)練集數(shù)據(jù)訓(xùn)練出隱馬爾可夫算法模型的參數(shù),建立隱馬爾可夫算法模型,得到結(jié)果數(shù)據(jù)有效實(shí)體詞庫;(5)過濾用戶行為數(shù)據(jù);(6)組成多個(gè)相似詞類數(shù)據(jù)集;(7)組成與相似詞類數(shù)據(jù)集數(shù)量對應(yīng)的近義詞組;(8)整理匯總所有近義詞組,計(jì)算詞與詞之間的相似度;(9)輸出近義詞識別結(jié)果。