一種基于多源異構(gòu)特征的文本數(shù)據(jù)集質(zhì)量評估方法

基本信息

申請?zhí)?/td> CN202110548575.7 申請日 -
公開(公告)號 CN112989827A 公開(公告)日 2021-06-18
申請公布號 CN112989827A 申請公布日 2021-06-18
分類號 G06F40/289;G06F40/216;G06F40/211;G06F40/30 分類 計算;推算;計數(shù);
發(fā)明人 章海鋒;劉曉雷;丁仙峰;于廣郢 申請(專利權(quán))人 江蘇數(shù)兌科技有限公司
代理機構(gòu) 北京細軟智谷知識產(chǎn)權(quán)代理有限責(zé)任公司 代理人 付登云
地址 210000 江蘇省南京市秦淮區(qū)永智路5號南京白下高新技術(shù)產(chǎn)業(yè)園區(qū)五號樓E棟101-88室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于多源異構(gòu)特征的文本數(shù)據(jù)集質(zhì)量評估方法,屬于文本數(shù)據(jù)質(zhì)量評估領(lǐng)域;在獲取待評估的文本數(shù)據(jù)集后,通過識別文本數(shù)據(jù)集的數(shù)據(jù)類型,得到待評估文本數(shù)據(jù)集是結(jié)構(gòu)化數(shù)據(jù)還是半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù),并根據(jù)文本數(shù)據(jù)集的數(shù)據(jù)類型計算文本數(shù)據(jù)集的指標(biāo)。最后根據(jù)指標(biāo)生成文本數(shù)據(jù)集的質(zhì)量評估報告。由于不同數(shù)據(jù)類型采用的指標(biāo)不同,因此針對不同的數(shù)據(jù)類型可以給出精確的質(zhì)量評估報告。