中国综合性科技类核心期刊(北大核心)

中国科学引文数据库来源期刊(CSCD)

美国《化学文摘》(CA)收录

美国《数学评论》(MR)收录

俄罗斯《文摘杂志》收录

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于Hadoop/Hive的乳制品溯源数据计算及性能优化

朱淑鑫 李悦 袁培森 徐焕良 王康 谢忠红

朱淑鑫, 李悦, 袁培森, 徐焕良, 王康, 谢忠红. 基于Hadoop/Hive的乳制品溯源数据计算及性能优化[J]. 华东师范大学学报(自然科学版), 2018, (4): 99-108. doi: 10.3969/j.issn.1000-5641.2018.04.010
引用本文: 朱淑鑫, 李悦, 袁培森, 徐焕良, 王康, 谢忠红. 基于Hadoop/Hive的乳制品溯源数据计算及性能优化[J]. 华东师范大学学报(自然科学版), 2018, (4): 99-108. doi: 10.3969/j.issn.1000-5641.2018.04.010
ZHU Shu-xin, LI Yue, YUAN Pei-sen, XU Huan-liang, WANG Kang, XIE Zhong-hong. Data calculation and performance optimization of dairy traceability based on Hadoop/Hive[J]. Journal of East China Normal University (Natural Sciences), 2018, (4): 99-108. doi: 10.3969/j.issn.1000-5641.2018.04.010
Citation: ZHU Shu-xin, LI Yue, YUAN Pei-sen, XU Huan-liang, WANG Kang, XIE Zhong-hong. Data calculation and performance optimization of dairy traceability based on Hadoop/Hive[J]. Journal of East China Normal University (Natural Sciences), 2018, (4): 99-108. doi: 10.3969/j.issn.1000-5641.2018.04.010

基于Hadoop/Hive的乳制品溯源数据计算及性能优化

doi: 10.3969/j.issn.1000-5641.2018.04.010
基金项目: 

中央高校基本科研业务费专项资金 KYZ201551

中央高校基本科研业务费专项资金 KYZ201670

中央高校基本科研业务费专项资金 KYZ201752

中央高校基本科研业务费专项资金 KJQN201651

国家科技支撑计划 2015BAK36B05

江苏省重点研发计划项目 BE2016803

国家自然科学基金 61502236

详细信息
    作者简介:

    朱淑鑫, 女, 副教授, 研究方向为农业信息化与大数据处理.E-mail:zsx@njau.edu.cn

    通讯作者:

    谢忠红, 女, 副教授, 研究方向为农业信息化.E-mail:xiezh@njau.edu.cn

  • 中图分类号: TP39

Data calculation and performance optimization of dairy traceability based on Hadoop/Hive

  • 摘要: 为了提升传统乳制品溯源系统应对大规模企业生产数据的性能,本文分析了乳制品相关企业供应链业务流程、关键溯源单元和溯源信息,结合Hadoop/Hive大数据技术和分布式数据库技术,设计并构建了基于Hadoop/Hive的乳制品溯源框架.搭建模拟大数据环境并使用实际生产数据对系统性能进行测试,实验结果表明,引入Hadoop/Hive技术后,系统的平均数据存储速度、平均数据访问速度、平均数据交互速度分别提升了87.43%、27.10%、58.16%.改进后的乳制品溯源系统存储和处理大规模数据的能力明显优于传统的乳制品溯源系统.
  • 图  1  乳制品供应链业务流程

    Fig.  1  Business processes of the dairy supply chain

    图  2  乳制品溯源单元和溯源信息划分

    Fig.  2  Division of dairy traceability units and traceability information

    图  3  Hadoop/Hive乳制品溯源框架总视图

    Fig.  3  Overview of the Hadoop/Hive dairy traceability framework

    图  4  数据传送方式

    Fig.  4  Data transfer mode

    图  5  Hadoop/Hive乳制品溯源系统应用框架

    Fig.  5  Application architecture of the Hadoop/Hive dairy traceability management system

    图  6  基于Hadoop/Hive乳制品溯源系统部署

    Fig.  6  The deployment of a traceability system for dairy products based on Hadoop/Hive

    图  7  数据查询耗时对比

    Fig.  7  Comparison of data query times

    表  1  软硬件配置表

    Tab.  1  Hardware and software configuration

    软硬件信息和设置
    OSUbuntu 12.04LTS
    Memory/Hard Disk2 GB/100 GB
    CPUIntel(R) Core(TM)2Duo CPU E8400 @3.00GHZX2
    DatabaseMySQL Server5.0
    VersionHadoop-2.5.2, Apache-hive-0.13.1, Sqoop-1.4.6
    MySQL-Cluster-7.5.4Tomcat7, Java 1.8
    下载: 导出CSV

    表  2  数据导入时间对比

    Tab.  2  Data import consumption and time comparison

    记录条数/万条MySQL/sHadoop/Hive/s速度提升率/%
    55.4700.85384.406
    1011.1591.49186.639
    1516.6941.99588.050
    2022.3073.03886.381
    2528.3932.64590.684
    3032.8763.18790.306
    3537.7943.80289.940
    4043.6634.29590.163
    4549.9634.57990.835
    5056.3944.79891.492
    下载: 导出CSV

    表  3  MySQL Cluster-Hive数据迁移平均耗时

    Tab.  3  Average consumption time of MySQL Cluster-Hive data transfer

    记录条数/万条MySQL Cluster-Hive/sTxt-MySQL/s速度提升率/%
    20048.608118.0258.814
    400124.053248.22350.024
    600210.446451.02253.340
    800170.608497.06565.677
    1 000214.316642.31766.634
    1 200289.474831.47265.185
    1 400378.214916.44658.730
    1 600438.5891 077.74559.305
    1 800515.6561 212.64957.477
    2 000686.0561 280.41446.419
    下载: 导出CSV

    表  4  Hive-MySQL Cluster数据迁移平均耗时

    Tab.  4  Average consumption time of Hive-MySQL Cluster data transfer

    记录条数/万条Hive-MySQL Cluster/sTxt-MySQL/s速度提升率/%
    527.5795.47 -404.186
    1031.81511.159 -185.106
    1530.13216.694 -80.496
    2034.14722.307 -53.078
    2533.76428.393 -18.917
    3036.89732.876 -12.231
    3537.79837.794 -0.011
    4040.01343.6638.359
    4540.12549.96319.691
    5041.01456.39427.272
    下载: 导出CSV
  • [1] ABOUZIED A, BAJDA-PAWLIKOWSKI K, HUANG J, et al. HadoopDB in action: Building real world applications[C]//ACM SIGMOD International Conference on Management of Data. ACM, 2010: 1111-1114.
    [2] ABOUZEID A, BAJDA-PAWLIKOWSKI K, ABADI D, et al. HadoopDB:An architectural hybrid of MapReduce and DBMS technologies for analytical workloads[J]. Proceedings of the VLDB Endowment, 2009, 2(1):922-933. doi:  10.14778/1687627
    [3] ISMAIL A S, AL-FEEL H, MOKHTAR H M O. Introducing a new arabic endpoint for DBpedia internationalization project[C]//International Database Engineering & Applications Symposium. ACM, 2016: 284-289.
    [4] TORRES D, SKAF-MOLLI H, MOLLI P. et al. BlueFinder: Recommending wikipedia links using DBpedia properties[C]//Proceedings of the 5th Annual ACM Web Science Conference (WebSci'13). New York: ACM, 2013: 413-422. DOI: https://doi.org/10.1145/2464464.2464515.
    [5] 叶育鑫, 欧阳丹彤.混合语义约简和选择估值优化SPARQL[J].电子学报, 2010, 38(5):1205-1210. https://www.wenkuxiazai.com/word/9256b54d2b160b4e767fcf0c-1.doc
    [6] 王德文, 肖凯, 肖磊.基于Hive的电力设备状态信息数据仓库[J].电力系统保护与控制, 2013(9):125-130. doi:  10.7667/j.issn.1674-3415.2013.09.021
    [7] 曲朝阳, 朱莉, 张士林.基于Hadoop的广域测量系统数据处理[J].电力系统自动化, 2013, 37(4):92-97. doi:  10.7500/AEPS201111169
    [8] 刘越, 李锦涛, 虎嵩林.基于代价估计的Hive多维索引分割策略选择算法[J].计算机研究与发展, 2016, 53(4):798-810. doi:  10.7544/issn1000-1239.2016.20151163
    [9] 董新华, 李瑞轩, 周湾湾, 等. Hadoop系统性能优化与功能增强综述[J].计算机研究与发展, 2013, 50(s2):1-15. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=jsjyjyfz2013z2002
    [10] THUSOO A, SARMA J S, JAIN N, et al. Hive:A warehousing solution over a map-reduce framework[J]. Proceedings of the VLDB Endowment, 2009, 2(2):1626-1629. doi:  10.14778/1687553
    [11] OLSEN P, BORIT M. How to define traceability[J]. Trends in Food Science & Technology, 2013, 29(2):142-150. https://www.sciencedirect.com/science/article/pii/S0924224412002117
    [12] 钱建平, 刘学馨, 杨信廷, 等.可追溯系统的追溯粒度评价指标体系构建[J].农业工程学报, 2014, 30(1):98-104. http://www.oalib.com/paper/4922974
    [13] SHVACHKO K, KUANG H, RADIA S, et al. The Hadoop distributed file system[C]//Proceedings of the IEEE 26th Symposium on Mass Storage Systems and Technologies. Washington: IEEE Computer Society, 2010: 1-10. DOI: 10.1109/MSST.2010.5496972.
    [14] 张良均. Hadoop大数据分析与挖掘实战[M].北京:机械工业出版社, 2016.
    [15] 荀亚玲, 张继福, 秦啸. MapReduce集群环境下的数据放置策略[J].软件学报, 2015(8):2056-2073. http://www.oalib.com/paper/5071219
    [16] 叶晓江, 刘鹏.实战Hadoop2.0从云计算到大数据[M].北京:电子工业出版社, 2016.
    [17] 张佳兰, 昝林森, 刘永峰, 等.我国DHI测定现状及存在的问题[J].中国牛业科学, 2007, 33(5):56-59. http://epub.cqvip.com/articledetail.aspx?id=1000000427570
  • 加载中
图(7) / 表(4)
计量
  • 文章访问数:  153
  • HTML全文浏览量:  40
  • PDF下载量:  254
  • 被引次数: 0
出版历程
  • 收稿日期:  2017-06-19
  • 刊出日期:  2018-07-25

目录

    /

    返回文章
    返回