中国综合性科技类核心期刊(北大核心)

中国科学引文数据库来源期刊(CSCD)

美国《化学文摘》(CA)收录

美国《数学评论》(MR)收录

俄罗斯《文摘杂志》收录

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

异构Redis集群大规模评论数据存储负载均衡设计

张敬伟 丁志均 杨青 张会兵 张海涛 周娅

张敬伟, 丁志均, 杨青, 张会兵, 张海涛, 周娅. 异构Redis集群大规模评论数据存储负载均衡设计[J]. 华东师范大学学报(自然科学版), 2017, (5): 20-29. doi: 10.3969/j.issn.1000-5641.2017.05.003
引用本文: 张敬伟, 丁志均, 杨青, 张会兵, 张海涛, 周娅. 异构Redis集群大规模评论数据存储负载均衡设计[J]. 华东师范大学学报(自然科学版), 2017, (5): 20-29. doi: 10.3969/j.issn.1000-5641.2017.05.003
ZHANG Jing-wei, DING Zhi-jun, YANG Qing, ZHANG Hui-bing, ZHANG Hai-tao, ZHOU Ya. Storage and load balancing for large-scale comment data on heterogeneous Redis cluster[J]. Journal of East China Normal University (Natural Sciences), 2017, (5): 20-29. doi: 10.3969/j.issn.1000-5641.2017.05.003
Citation: ZHANG Jing-wei, DING Zhi-jun, YANG Qing, ZHANG Hui-bing, ZHANG Hai-tao, ZHOU Ya. Storage and load balancing for large-scale comment data on heterogeneous Redis cluster[J]. Journal of East China Normal University (Natural Sciences), 2017, (5): 20-29. doi: 10.3969/j.issn.1000-5641.2017.05.003

异构Redis集群大规模评论数据存储负载均衡设计

doi: 10.3969/j.issn.1000-5641.2017.05.003
基金项目: 

国家自然科学基金 61363005

国家自然科学基金 61462017

国家自然科学基金 U1501252

广西自然科学基金 2014GXNSFAA118353

广西自然科学基金 2014GXNSFAA118390

广西自动检测技术与仪器重点实验室基金 YQ15110

广西高校中青年教师基础能力提升项目 ky2016YB156

详细信息
    作者简介:

    张敬伟, 男, 博士, 副教授, 研究方向为海量数据管理.E-mail:gtzjw@hotmail.com

    通讯作者:

    杨青, 女, 副教授, 研究方向为智能信息处理.E-mail:gtyqing@hotmail.com

  • 中图分类号: TP315

Storage and load balancing for large-scale comment data on heterogeneous Redis cluster

  • 摘要: 大规模评论数据的存储与查询性能对构建于其上的各类应用的快速响应具有重要影响.同时,异构计算环境中各计算节点性能呈现差异,如何充分开采各节点的计算和存储性能,优化大规模评论数据的存储与查询性能,是一个关键挑战.基于Redis集群的数据管理优势,首先提出了一种同构环境下基于卡槽存储平衡的大规模评论数据存储模型;然后论证了卡槽数目与节点查询效率的关系,以"负载与访问性能相平衡"的原则分配卡槽,进一步设计了异构环境下的集群节点负载计算和存储分配方法,充分开采了异构Redis集群中不同节点的性能.实验结果表明,提出的存储模型具有很好的存储平衡效果,提升了集群的整体查询效率.
  • 图  1  不同存储负载的访问示例

    Fig.  1  Accessing illustration on different storage loading

    图  2  16 384个卡槽测试键表

    Fig.  2  Illustrating test key table for 16 384 slots

    图  3  查询负载测试过程

    Fig.  3  The test process for query performance

    图  4  节点查询性能测试

    Fig.  4  Performance test for node query

    图  5  迁移卡槽前后存储数据量对比

    Fig.  5  Comparison of data volume before and after shifting slots

    表  1  评论数据二级索引结构

    Tab.  1  Two-level index for comment data

    键名
    排序值值内容
    ItemIDStartTimeItemID: Number
    下载: 导出CSV

    表  2  评论数据存储结构

    Tab.  2  Storage structure for comment data

    键名
    排序值值内容
    ItemID: NumberTimestampUserID: comment
    下载: 导出CSV

    表  3  基于用户ID的辅助索引结构

    Tab.  3  A secondary index on UserID

    键名
    UserIDItemID: Number: Timestamp,
    ItemID: Number: Timestamp,
    ${\cdots}$
    下载: 导出CSV

    表  4  存储平衡分割参数(LineNum)的测试结果

    Tab.  4  Experimental results for parameter(LineNum) of storage partition

    分割参数(LineNum)/万节点1/M节点2/M节点3/M标准差
    1502.40501.26460.2019.63
    2495.12489.26471.2810.14
    3509.81486.51421.1237.54
    4486.44526.01433.8637.74
    5557.57414.99450.4360.61
    6644.51362.38410.35123.26
    7664.95376.70384.30134.13
    8661.56400.65373.29129.92
    9648.79469.65339.60126.76
    10602.16471.74341.24106.52
    下载: 导出CSV

    表  5  卡槽转移后存储数据比例

    Tab.  5  Ratios after shifting slots

    项目节点(1核、2核、4核)比例值
    键值235、299、6201: 1.272: 2.638
    卡槽转移后存储容量301.92 MB、382.43 MB、777.58 MB1: 1.266: 2.639
    卡槽数量3 449、4 000、8 9351: 1.159: 2.590
    下载: 导出CSV

    表  6  查询数据表

    Tab.  6  Data fact for testing queries

    商品ID评论数目/条容量/M
    1117 90827.1
    258 18215.1
    3212 70840.5
    485 23611.4
    5104 3529.07
    693 4318.73
    753 9374.65
    826 4392.60
    91 6911.12
    109850.508
    下载: 导出CSV

    表  7  范围查询测试结果

    Tab.  7  The experimental results for queries

    查询范围项目卡槽移动前/s卡槽移动后/s速度提高率/%
    1日0.022 640.018 3523.4
    1月0.278 660.223 2124.8
    半年1.112 171.032 617.71
    1年1.944 211.833 716.00
    1年半2.404 702.168 6810.9
    下载: 导出CSV
  • [1] INTEL. A yearly product cadence moves the industry forward in a predictable fashion that can be planned in advance[EB/OL].[2017-05-10]. https://www.intel.com/content/www/us/en/silicon-innovations/intel-tock-modelgeneral.html.
    [2] CHANG F, DEAN J, GHEMAWAT S. et al. Bigtable:A distributed storage system for structured data[J]. ACM Transactions on Computer Systems, 2006, 26(2):205-218.
    [3] BORTHAKUR D. The Hadoop distributed file system:Achitecture and design[EB/OL].[2017-06-02]. http://hadoop.apache.org/common/docs/r0.180/hdfsdesign.pdf.
    [4] 申德荣, 于戈, 王习特, 等.支持大数据管理的NoSQL系统研究综述[J].软件学报, 2013(8):1786-1803. http://www.cnki.com.cn/Article/CJFDTOTAL-RJXB201308008.htm
    [5] 何亚农, 宋玮, 赵跃龙.基于平衡结构的对等网络存储系统研究[J].计算机工程与设计, 2011, 32(8):2611-2613. http://www.cnki.com.cn/Article/CJFDTOTAL-SJSJ201108014.htm
    [6] KALA K A, CHITHARANJAN K. Locality Sensitive Hashing based incremental clustering for creating affinity groups in Hadoop-HDFS-An infrastructure extension[C]//International Conference on Circuits, Power and Computing Technologies. IEEE, 2013:1243-1249.
    [7] ROWSTRON A, DRUSCHEL P. Storage management and caching in PAST, a large-scale, persistent peer-topeer storage utility[C]//Proceedings of the 18th ACM Symposium on Operating Systems Principles. ACM, 2001:188-201.
    [8] OKCAN A, RIEDEWALD M. Processing theta-joins using MapReduce[C]//Proceedings of SIGMOD International Conference on Management of Data. ACM, 2011:949-960.
    [9] WEI Q, VEERAVALLI B, GONG B, et al. CDRM:A cost-effective dynamic replication management scheme for cloud storage cluster[C]//IEEE International Conference on CLUSTER Computing. 2010:188-196.
    [10] XIE C, CAI B. A decentralized storage cluster with high reliability and flexibility[C]//Proceedings of 14th Euromicro International Conference on Parallel, Distributed, and Network-Based Processing. IEEE, 2006:1-8.
  • 加载中
图(5) / 表(7)
计量
  • 文章访问数:  390
  • HTML全文浏览量:  160
  • PDF下载量:  469
  • 被引次数: 0
出版历程
  • 收稿日期:  2017-06-30
  • 刊出日期:  2017-09-25

目录

    /

    返回文章
    返回