一種虛擬化環(huán)境下的多元數(shù)據(jù)清洗技術(shù)

基本信息

申請?zhí)?/td> CN201611002341.8 申請日 -
公開(公告)號 CN106776703A 公開(公告)日 2017-05-31
申請公布號 CN106776703A 申請公布日 2017-05-31
分類號 G06F17/30(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 肖國玉;王瑞青;高廣濤;周???陳建楠;徐金龍;劉凱;李娜 申請(專利權(quán))人 上海漢邦京泰數(shù)碼技術(shù)有限公司
代理機(jī)構(gòu) - 代理人 -
地址 200093 上海市楊浦區(qū)控江路1555號A座805-809室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種虛擬化環(huán)境下的多元數(shù)據(jù)清洗技術(shù),包含以下步驟:(1)數(shù)據(jù)分析、定義錯誤類型,(2)搜索、識別錯誤記錄,(3)修正錯誤。經(jīng)過本方法數(shù)據(jù)清洗之后:數(shù)據(jù)質(zhì)量至少達(dá)到:1)數(shù)據(jù)對用戶必須是可信的。可信性包括精確性、完整性、一致性、有效性、唯一性等指標(biāo)。(1)精確性:描述數(shù)據(jù)是否與其對應(yīng)的客觀實(shí)體的特征相一致。(2)完整性:描述數(shù)據(jù)是否存在缺失記錄或缺失字段。(3)一致性:描述同一實(shí)體的同一屬性的值在不同的系統(tǒng)是否一致。(4)有效性:描述數(shù)據(jù)是否滿足用戶定義的條件或在一定的域值范圍(5)唯一性描述數(shù)據(jù)是否存在重復(fù)記錄。