中国综合性科技类核心期刊(北大核心)

中国科学引文数据库来源期刊(CSCD)

美国《化学文摘》(CA)收录

美国《数学评论》(MR)收录

俄罗斯《文摘杂志》收录

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

Spark上的等值连接优化

卞昊穹 陈跃国 杜小勇 高彦杰

卞昊穹, 陈跃国, 杜小勇, 高彦杰. Spark上的等值连接优化[J]. 华东师范大学学报(自然科学版), 2014, (5): 261-270. doi: 10.3969/j.issn.1000-5641.2014.05.023
引用本文: 卞昊穹, 陈跃国, 杜小勇, 高彦杰. Spark上的等值连接优化[J]. 华东师范大学学报(自然科学版), 2014, (5): 261-270. doi: 10.3969/j.issn.1000-5641.2014.05.023
BIAN Hao-Qiong, CHEN Yue-Guo, DU Xiao-Yong, GAO Yan-Jie. Equi-join optimization on spark[J]. Journal of East China Normal University (Natural Sciences), 2014, (5): 261-270. doi: 10.3969/j.issn.1000-5641.2014.05.023
Citation: BIAN Hao-Qiong, CHEN Yue-Guo, DU Xiao-Yong, GAO Yan-Jie. Equi-join optimization on spark[J]. Journal of East China Normal University (Natural Sciences), 2014, (5): 261-270. doi: 10.3969/j.issn.1000-5641.2014.05.023

Spark上的等值连接优化

doi: 10.3969/j.issn.1000-5641.2014.05.023
基金项目: 

中国人民大学科学研究基金(中央高校基本科研业务费专项资金资助)(10XNI018)

详细信息
    作者简介:

    卞昊穹,男,博士研究生,研究方向为数据库. E-mail: bianhaoqiong@gmal.com.

    通讯作者:

    陈跃国,男,副教授,硕士生导师,研究方向为数据库、信息检索

  • 中图分类号: TP392

Equi-join optimization on spark

  • 摘要: 等值连接作为数据分析中最常用、代价最高的操作之一,在Spark上的实现和优化与传统并行数据库有很大的差别,传统并行数据仓库中基于数据预划分的连接算法在Spark上难以实现,而目前被广泛采用的Broadcast Join和Repartition Join性能较差,如何提高连接性能成为基于Spark的海量数据分析的关键.本研究将SimiJoin与Partition Join的优势相结合,并基于Spark上的特性提出了一种优化的等值连接算法.代价分析和实验表明本算法比现有基于Spark的数据分析系统中的连接算法性能提升1~2倍.
  • 加载中
计量
  • 文章访问数:  2617
  • HTML全文浏览量:  36
  • PDF下载量:  1308
  • 被引次数: 0
出版历程
  • 刊出日期:  2014-09-25

目录

    /

    返回文章
    返回