一種面向企業(yè)信息的行業(yè)全息畫像構建方法及系統(tǒng)
基本信息

| 申請?zhí)?/td> | CN201610718328.6 | 申請日 | - |
| 公開(公告)號 | CN106339806A | 公開(公告)日 | 2017-01-18 |
| 申請公布號 | CN106339806A | 申請公布日 | 2017-01-18 |
| 分類號 | G06Q10/06(2012.01)I;G06F17/30(2006.01)I;G06F17/27(2006.01)I | 分類 | 計算;推算;計數(shù); |
| 發(fā)明人 | 袁偉;柳歡;張建偉;蔡明;王娟;艾申彪;陳濤 | 申請(專利權)人 | 北京創(chuàng)業(yè)公社數(shù)據(jù)科技有限公司 |
| 代理機構 | 北京永創(chuàng)新實專利事務所 | 代理人 | 祗志潔 |
| 地址 | 100080 北京市海淀區(qū)中關村大街15號國際創(chuàng)客中心創(chuàng)業(yè)公社C24 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明提供了一種面向企業(yè)信息的行業(yè)全息畫像構建方法及系統(tǒng),屬于信息技術領域。本系統(tǒng)包括企業(yè)名稱抓取模塊、企業(yè)文本描述信息模塊、中文切詞模塊、詞頻統(tǒng)計模塊、有效詞集獲取模塊、有效行業(yè)詞集獲取模塊和企業(yè)行業(yè)全息畫像獲取模塊。本方法通過網(wǎng)絡抓取企業(yè)名稱,獲取每個企業(yè)的文本描述信息,對文本描述信息進行切詞、剔除常用詞,得到有效詞集,計算有效詞與一級、二級行業(yè)國家標準名稱的相似度分數(shù),剔除小于閾值的詞,對每個企業(yè),根據(jù)每類文本描述信息與相似度分數(shù),計算企業(yè)所屬的一級、二級行業(yè),取對應的有效行業(yè)詞集作為企業(yè)的行業(yè)全息畫像。本發(fā)明可大規(guī)??焖佾@取企業(yè)行業(yè)畫像信息,有效行業(yè)詞較人工標注的詞更加全面、精準。 |





