一種基于流水線的分布式多表連接方法及系統(tǒng)

基本信息

申請(qǐng)?zhí)?/td> CN201710361245.0 申請(qǐng)日 -
公開(公告)號(hào) CN107229692B 公開(公告)日 2018-05-01
申請(qǐng)公布號(hào) CN107229692B 申請(qǐng)公布日 2018-05-01
分類號(hào) G06F17/30 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 王宏志;孫旭冉;趙志強(qiáng) 申請(qǐng)(專利權(quán))人 工創(chuàng)集團(tuán)有限公司
代理機(jī)構(gòu) 北京格允知識(shí)產(chǎn)權(quán)代理有限公司 代理人 哈工大大數(shù)據(jù)產(chǎn)業(yè)有限公司
地址 150001 黑龍江省哈爾濱市經(jīng)開區(qū)哈平路集中區(qū)渤海路6號(hào)動(dòng)漫基地F座509室
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及一種基于流水線的分布式多表連接方法及系統(tǒng),其中方法包括并行執(zhí)行的以下步驟:映射處理單元從分布式文件系統(tǒng)讀取待連接表,將所述待連接表進(jìn)行映射處理后得到對(duì)應(yīng)的數(shù)據(jù)塊,并以每?jī)蓚€(gè)待連接表為一組輸出;第二規(guī)約處理單元按序讀取第二組至末尾組表的數(shù)據(jù)塊,并對(duì)每組表的兩個(gè)數(shù)據(jù)塊進(jìn)行哈希連接得到每組表的兩表連接結(jié)果;第一規(guī)約處理單元讀取第一組表的兩個(gè)數(shù)據(jù)塊進(jìn)行哈希連接后作為初始的多表連接結(jié)果,并在等待第二規(guī)約機(jī)器群完成一組表的哈希連接后,將當(dāng)前的多表連接結(jié)果與該組表的兩表連接結(jié)果進(jìn)行順序連接,直至所有組表完成連接。本發(fā)明通過并行執(zhí)行的流水線,既實(shí)現(xiàn)了查詢操作時(shí)自適應(yīng)分割,又能快速高效的完成。