一種基于統(tǒng)計(jì)學(xué)的企業(yè)名稱(chēng)相似度計(jì)算方法
基本信息

| 申請(qǐng)?zhí)?/td> | CN201810373227.9 | 申請(qǐng)日 | - |
| 公開(kāi)(公告)號(hào) | CN108549640A | 公開(kāi)(公告)日 | 2018-09-18 |
| 申請(qǐng)公布號(hào) | CN108549640A | 申請(qǐng)公布日 | 2018-09-18 |
| 分類(lèi)號(hào) | G06F17/27 | 分類(lèi) | 計(jì)算;推算;計(jì)數(shù); |
| 發(fā)明人 | 吳梁斌;詹進(jìn)林 | 申請(qǐng)(專(zhuān)利權(quán))人 | 易聯(lián)眾智鼎(廈門(mén))科技有限公司 |
| 代理機(jī)構(gòu) | 廈門(mén)加減專(zhuān)利代理事務(wù)所(普通合伙) | 代理人 | 易聯(lián)眾信息技術(shù)股份有限公司;易聯(lián)眾(廈門(mén))大數(shù)據(jù)科技有限公司 |
| 地址 | 361008 福建省廈門(mén)市軟件園二期觀日路18號(hào)502室 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明提供一種基于統(tǒng)計(jì)學(xué)的企業(yè)名稱(chēng)相似度計(jì)算方法,包括如下步驟:收集某區(qū)域所有的企業(yè)名稱(chēng),并進(jìn)行分詞,計(jì)算每個(gè)詞的凝固度和自由度;將凝固度和自由度滿(mǎn)足條件的新詞加入ANSJ分詞工具詞匯庫(kù)中;利用獲得的分詞工具對(duì)企業(yè)名稱(chēng)數(shù)據(jù)集中的每個(gè)企業(yè)名稱(chēng)進(jìn)行分詞,獲得每個(gè)企業(yè)名稱(chēng)的詞條集合,并對(duì)每個(gè)企業(yè)名稱(chēng)的詞條集合中的每個(gè)詞計(jì)算IDF值;根據(jù)所獲得的每個(gè)企業(yè)名稱(chēng)的詞條集合中的每個(gè)詞計(jì)算IDF值,獲得需要對(duì)比的不同企業(yè)名稱(chēng)分詞得到的詞匯所對(duì)應(yīng)的IDF值,計(jì)算不同企業(yè)名稱(chēng)的相似度。本發(fā)明提供的基于統(tǒng)計(jì)學(xué)的企業(yè)名稱(chēng)相似度計(jì)算方法,較傳統(tǒng)的編輯距離,余弦相似度計(jì)算等字符串相似度計(jì)算方法具有更高的魯棒性和可信性。 |





