一種基于多源異構(gòu)特征的文本數(shù)據(jù)集質(zhì)量評估方法
基本信息

| 申請?zhí)?/td> | CN202110548575.7 | 申請日 | - |
| 公開(公告)號 | CN112989827A | 公開(公告)日 | 2021-06-18 |
| 申請公布號 | CN112989827A | 申請公布日 | 2021-06-18 |
| 分類號 | G06F40/289;G06F40/216;G06F40/211;G06F40/30 | 分類 | 計算;推算;計數(shù); |
| 發(fā)明人 | 章海鋒;劉曉雷;丁仙峰;于廣郢 | 申請(專利權(quán))人 | 江蘇數(shù)兌科技有限公司 |
| 代理機構(gòu) | 北京細軟智谷知識產(chǎn)權(quán)代理有限責(zé)任公司 | 代理人 | 付登云 |
| 地址 | 210000 江蘇省南京市秦淮區(qū)永智路5號南京白下高新技術(shù)產(chǎn)業(yè)園區(qū)五號樓E棟101-88室 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明公開了一種基于多源異構(gòu)特征的文本數(shù)據(jù)集質(zhì)量評估方法,屬于文本數(shù)據(jù)質(zhì)量評估領(lǐng)域;在獲取待評估的文本數(shù)據(jù)集后,通過識別文本數(shù)據(jù)集的數(shù)據(jù)類型,得到待評估文本數(shù)據(jù)集是結(jié)構(gòu)化數(shù)據(jù)還是半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù),并根據(jù)文本數(shù)據(jù)集的數(shù)據(jù)類型計算文本數(shù)據(jù)集的指標(biāo)。最后根據(jù)指標(biāo)生成文本數(shù)據(jù)集的質(zhì)量評估報告。由于不同數(shù)據(jù)類型采用的指標(biāo)不同,因此針對不同的數(shù)據(jù)類型可以給出精確的質(zhì)量評估報告。 |





