一種基于Spark框架的關(guān)系型數(shù)據(jù)庫分布式讀取方法及裝置

基本信息

申請(qǐng)?zhí)?/td> CN202111055101.5 申請(qǐng)日 -
公開(公告)號(hào) CN113836197A 公開(公告)日 2021-12-24
申請(qǐng)公布號(hào) CN113836197A 申請(qǐng)公布日 2021-12-24
分類號(hào) G06F16/2458(2019.01)I;G06F16/242(2019.01)I;G06F16/28(2019.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 吳珉杰;趙凡舉;李垚;朱亮;陳國潤;錢棟軍;馬文斌 申請(qǐng)(專利權(quán))人 上海理想信息產(chǎn)業(yè)(集團(tuán))有限公司
代理機(jī)構(gòu) 上海方瀾知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 李娜
地址 201315上海市浦東新區(qū)秀沿西路189號(hào)電信信息園區(qū)B4樓
法律狀態(tài) -

摘要

摘要 本發(fā)明實(shí)施例涉及分布式計(jì)算技術(shù)領(lǐng)域,公開了一種基于Spark框架的關(guān)系型數(shù)據(jù)庫分布式讀取方法及裝置。該方法包括:獲取待讀取的數(shù)據(jù)表中的數(shù)據(jù)總量S以及分區(qū)數(shù)量n;S、n分別為正整數(shù);根據(jù)數(shù)據(jù)總量S以及分區(qū)數(shù)量n得到每個(gè)分區(qū)對(duì)應(yīng)的數(shù)據(jù)量m;對(duì)待讀取的數(shù)據(jù)表中的數(shù)據(jù)的分區(qū)用字段的字段值進(jìn)行排序之后,根據(jù)各個(gè)分區(qū)的數(shù)據(jù)量m查找得到各個(gè)分區(qū)對(duì)應(yīng)的分區(qū)用字段的字段值;其中,分區(qū)用字段的數(shù)據(jù)類型為非數(shù)值型;根據(jù)各個(gè)分區(qū)對(duì)應(yīng)的分區(qū)用字段的字段值組裝成查詢語句并分發(fā)到n個(gè)節(jié)點(diǎn)進(jìn)行讀取計(jì)算。本發(fā)明實(shí)施例可實(shí)現(xiàn)字符型分區(qū)字段的數(shù)據(jù)的并行處理,提高數(shù)據(jù)處理效率以及遷移速度。