一種ETL流程在Spark集群中運行的方法和裝置
基本信息

| 申請?zhí)?/td> | CN201911320034.8 | 申請日 | - |
| 公開(公告)號 | CN111159268B | 公開(公告)日 | 2022-01-04 |
| 申請公布號 | CN111159268B | 申請公布日 | 2022-01-04 |
| 分類號 | G06F16/25(2019.01)I | 分類 | 計算;推算;計數(shù); |
| 發(fā)明人 | 梅綱;袁松彪 | 申請(專利權(quán))人 | 武漢達夢數(shù)據(jù)庫股份有限公司 |
| 代理機構(gòu) | 深圳市六加知識產(chǎn)權(quán)代理有限公司 | 代理人 | 向彬 |
| 地址 | 430000 湖北省武漢市東湖新技術(shù)開發(fā)區(qū)高新大道999號未來科技大廈C3棟16-19層 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明涉及數(shù)據(jù)庫技術(shù)領(lǐng)域,提供了一種ETL流程在Spark集群中運行的方法和裝置。方法包括從所述元數(shù)據(jù)庫里獲取被執(zhí)行流程的元數(shù)據(jù)信息,包括ETL功能組件、組件屬性信息、連接和連接屬性信息;在Spark應(yīng)用程序里建立一個有向圖結(jié)構(gòu)SparkGraph對象,所述SparkGraph對象由多個SparkNode對象構(gòu)成,并且,所述SparkNode對象之間由SparkEdge對象關(guān)聯(lián)。本發(fā)明在Spark應(yīng)用程序里引入圖結(jié)構(gòu)蘊含RDD之間變換的血緣關(guān)系,方便的實現(xiàn)了ETL流程在Spark集群上的執(zhí)行,并且,利用Spark集群的并行執(zhí)行特性,提高了對大數(shù)據(jù)遷移轉(zhuǎn)換的ETL流程執(zhí)行速度。 |





