一種面向企業(yè)信息的行業(yè)全息畫像構建方法及系統(tǒng)

基本信息

申請?zhí)?/td> CN201610718328.6 申請日 -
公開(公告)號 CN106339806A 公開(公告)日 2017-01-18
申請公布號 CN106339806A 申請公布日 2017-01-18
分類號 G06Q10/06(2012.01)I;G06F17/30(2006.01)I;G06F17/27(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 袁偉;柳歡;張建偉;蔡明;王娟;艾申彪;陳濤 申請(專利權)人 北京創(chuàng)業(yè)公社數(shù)據(jù)科技有限公司
代理機構 北京永創(chuàng)新實專利事務所 代理人 祗志潔
地址 100080 北京市海淀區(qū)中關村大街15號國際創(chuàng)客中心創(chuàng)業(yè)公社C24
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種面向企業(yè)信息的行業(yè)全息畫像構建方法及系統(tǒng),屬于信息技術領域。本系統(tǒng)包括企業(yè)名稱抓取模塊、企業(yè)文本描述信息模塊、中文切詞模塊、詞頻統(tǒng)計模塊、有效詞集獲取模塊、有效行業(yè)詞集獲取模塊和企業(yè)行業(yè)全息畫像獲取模塊。本方法通過網(wǎng)絡抓取企業(yè)名稱,獲取每個企業(yè)的文本描述信息,對文本描述信息進行切詞、剔除常用詞,得到有效詞集,計算有效詞與一級、二級行業(yè)國家標準名稱的相似度分數(shù),剔除小于閾值的詞,對每個企業(yè),根據(jù)每類文本描述信息與相似度分數(shù),計算企業(yè)所屬的一級、二級行業(yè),取對應的有效行業(yè)詞集作為企業(yè)的行業(yè)全息畫像。本發(fā)明可大規(guī)??焖佾@取企業(yè)行業(yè)畫像信息,有效行業(yè)詞較人工標注的詞更加全面、精準。