一種虛擬化環(huán)境下的多元數(shù)據(jù)清洗技術(shù)
基本信息

| 申請?zhí)?/td> | CN201611002341.8 | 申請日 | - |
| 公開(公告)號 | CN106776703A | 公開(公告)日 | 2017-05-31 |
| 申請公布號 | CN106776703A | 申請公布日 | 2017-05-31 |
| 分類號 | G06F17/30(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
| 發(fā)明人 | 肖國玉;王瑞青;高廣濤;周???陳建楠;徐金龍;劉凱;李娜 | 申請(專利權(quán))人 | 上海漢邦京泰數(shù)碼技術(shù)有限公司 |
| 代理機(jī)構(gòu) | - | 代理人 | - |
| 地址 | 200093 上海市楊浦區(qū)控江路1555號A座805-809室 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明公開了一種虛擬化環(huán)境下的多元數(shù)據(jù)清洗技術(shù),包含以下步驟:(1)數(shù)據(jù)分析、定義錯誤類型,(2)搜索、識別錯誤記錄,(3)修正錯誤。經(jīng)過本方法數(shù)據(jù)清洗之后:數(shù)據(jù)質(zhì)量至少達(dá)到:1)數(shù)據(jù)對用戶必須是可信的。可信性包括精確性、完整性、一致性、有效性、唯一性等指標(biāo)。(1)精確性:描述數(shù)據(jù)是否與其對應(yīng)的客觀實(shí)體的特征相一致。(2)完整性:描述數(shù)據(jù)是否存在缺失記錄或缺失字段。(3)一致性:描述同一實(shí)體的同一屬性的值在不同的系統(tǒng)是否一致。(4)有效性:描述數(shù)據(jù)是否滿足用戶定義的條件或在一定的域值范圍(5)唯一性描述數(shù)據(jù)是否存在重復(fù)記錄。 |





