基于數(shù)據(jù)湖的異構(gòu)數(shù)據(jù)源集成方法及裝置

基本信息

申請?zhí)?/td> CN202010809326.4 申請日 -
公開(公告)號 CN111966750A 公開(公告)日 2020-11-20
申請公布號 CN111966750A 申請公布日 2020-11-20
分類號 G06F16/27;G06F16/25 分類 計算;推算;計數(shù);
發(fā)明人 翟士丹 申請(專利權(quán))人 北京海致科技集團有限公司
代理機構(gòu) - 代理人 -
地址 100083 北京市海淀區(qū)學(xué)院路甲5號2幢平房B-1011
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了基于數(shù)據(jù)湖的異構(gòu)數(shù)據(jù)源集成方法及裝置,其方法包括如下步驟:a、根據(jù)用戶調(diào)用寫數(shù)據(jù)接口的信息,確定本次寫請求的操作標(biāo)示、數(shù)據(jù)、時間戳,其中操作標(biāo)示包含追加、更新、刪除三種類型,時間戳為寫請求達到的時間,將以上信息追加寫入到數(shù)據(jù)湖中的一個特定文件內(nèi);b、將上一步寫入到特定文件內(nèi)的數(shù)據(jù),結(jié)合操作標(biāo)示及時間戳做數(shù)據(jù)合并處理,得到最終的結(jié)果數(shù)據(jù)。本發(fā)明解決了現(xiàn)有數(shù)據(jù)湖數(shù)據(jù)集成技術(shù),無法支持數(shù)據(jù)更新操作,不能將數(shù)據(jù)湖的數(shù)據(jù)和原始數(shù)據(jù)保持一致,不能有效解決大數(shù)據(jù)集群大量小文件導(dǎo)致查詢性能低效等問題。