摘要: 针对Range partition算法不能优化数据集严重倾斜情形下的两表连接效率问题, 提出一种改进的数据倾斜连接算法. 该算法将倾斜数据和非倾斜数据区别处理, 利用复制、 广播方法将数据发送到每个Reduce节点, 通过一轮Map/Reduce任务完成所有的连接操作, 可有效均衡每个Reduce处理量, 解决了数据严重倾斜对两表连接性能的影响. 与传统的分区连接算法比较结果表明, 该算法有效.
中图分类号:
赵宇兰. 基于MapReduce的两表数据倾斜连接的优化算法[J]. 吉林大学学报(理学版), 2016, 54(06): 1383-1387.
ZHAO Yulan. Optimization Algorithm of Two Table DataSkew Join Based on MapReduce[J]. Journal of Jilin University Science Edition, 2016, 54(06): 1383-1387.