吉林大学学报(工学版) ›› 2017, Vol. 47 ›› Issue (1): 199-207.doi: 10.13229/j.cnki.jdxbgxb201701030

• 论文 • 上一篇    下一篇

支持大规模流数据在线处理的自适应检查点机制

魏晓辉, 刘智亮, 庄园, 李洪亮, 李翔   

  1. 吉林大学 计算机科学与技术学院, 长春130012
  • 收稿日期:2016-03-02 出版日期:2017-01-20 发布日期:2017-01-20
  • 作者简介:魏晓辉(1972-),男,教授,博士生导师.研究方向:分布式计算、集群计算和网络安全.E-mail:weixh@jlu.edu.cn
  • 基金资助:
    国家自然科学基金项目(61170004); 深部探测技术与实验研究专项项目(SinoProbe-09-01); 教育部高等学校博士学科点专项科研基金项目(20130061110052); 吉林省科技发展计划重点科技攻关项目(20140204013GX); 国家重点研发计划高性能计算专项项目(2016YFB0201503).

Adaptive checkpoint mechanism supporting large-scale stream data processing

WEI Xiao-hui, LIU Zhi-liang, ZHUANG Yuan, LI Hong-liang, LI Xiang   

  1. College of Computer Science and Technology,Jilin University, Changchun 130012,China
  • Received:2016-03-02 Online:2017-01-20 Published:2017-01-20

摘要: 提出了一种支持流数据处理、在线动态调节周期的检查点机制。首先,面向突发性流场景,建立恢复时间计算模型,机制为节点故障提供最大恢复时间保障。其次,针对数据流实时变化的特点,提出检查点实时性代价量化模型。最后,设计流量高峰避让协议,基于检查点实时性代价判断,动态选取最佳检查点时机。对比实验结果表明:与传统检查点方法相比,该机制在灵活性和实时性方面具有明显优势,能够满足流数据处理高可靠性和实时性容错的要求。

关键词: 计算机系统结构, 流数据处理, 检查点, 处理延迟, 恢复时间

Abstract: A novel checkpoint mechanism is presented that can support stream data processing and online dynamic adjustment of the checkpoint period. First, for the data flow burst, we propose a recovery time model to provide guarantee for the recovery time. Then, depending on the real-time variation of workload, we provide a real-time cost model for checkpoint. Finally, the peak traffic avoidance protocol can dynamically choose the best checkpoint time by updating the real-time cost of checkpoint periodically. Experiments show that, compared with existing methods, our self-adaptive mechanism has obvious advantages in flexibility and real time, and it is able to meet the requirements of high reliability and real-time fault tolerance in stream data processing.

Key words: computer system architecture, stream data processing, checkpoint, processing delay, recovery time

中图分类号: 

  • TP391
[1] Neumeyer L, Robbins B, Nair A,et al. S4: distributed stream computing platform[C]∥IEEE International Conference on Data Mining Workshops, Sydney,2010:170-177.
[2] Toshniwal A, Taneja S, Shukla A,et al. Storm@twitter[C]∥Proceedings of the 2014 ACM SIGMOD International Conference on Management of Data, Snowbird,2014:147-156.
[3] Apache Samza[DB/OL].[2015-10-12].http://samza.incubator.apache.org.
[4] Wang H, Peh L S, Koukoumidis E, et al. Meteor shower:a reliable stream processing system for commodity data centers[C]∥Parallel & Distributed Processing Symposium (IPDPS), Shanghai,2012: 1180-1191.
[5] Zaharia M, Das T, Li H, et al. Discretized streams: fault-tolerant streaming computation at scale[C]∥Proceedings of the 24th ACM Symposium on Operating Systems Principles,Farminton,2013: 423-438.
[6] Qian Z, He Y, Su C, et al. Timestream: reliable stream computation in the cloud[C]∥Proceedings of the 8th ACM European Conference on Computer Systems,Prague,2013: 1-14.
[7] Akidau T, Balikov A, Bekirog ˇ lu K, et al. MillWheel: fault-tolerant stream processing at internet scale[J]. Proceedings of the VLDB Endowment, 2013, 6(11): 1033-1044.
[8] Upadhyaya P, Kwon Y C, Balazinska M. A latency and fault-tolerance optimizer for online parallel query plans[C]∥Proceedings of ACM SIGMOD International Conference on Management of Data,Athens,2011:241-252.
[9] Sebepou Z, Magoutis K. CEC: Continuous eventual checkpointing for data stream processing operators[C]∥IEEE/IFIP 41st International Conference on Dependable Systems & Networks (DSN),Hong Kong,2011:145-156.
[10] Castro F R, Migliavacca M, Kalyvianaki E, et al. Integrating scale out and fault tolerance in stream processing using operator state management[C]∥Proceedings of the ACM SIGMOD International Conference on Management of Data,New York,2013:725-736.
[11] ApacheHadoop[EB/OL].[2015-10-13].http://hadoop.apache.org.
[12] 李翔. D-Map/Reduce拓扑动态调整机制及协议[D]. 长春:吉林大学计算机科学与技术学院, 2015.
Li Xiang.D-Map/Reduce dynamic topology management system and protocols[D].Changchun:College of Computer Science and Technology,Jilin University,2015.
[1] 余宜诚, 胡亮, 迟令, 初剑峰. 一种改进的适用于多服务器架构的匿名认证协议[J]. 吉林大学学报(工学版), 2018, 48(5): 1586-1592.
[2] 董坚峰, 张玉峰, 戴志强. 改进的基于狄利克雷混合模型的推荐算法[J]. 吉林大学学报(工学版), 2018, 48(2): 596-604.
[3] 赵博, 秦贵和, 赵永哲, 杨文迪. 基于半陷门单向函数的公钥密码[J]. 吉林大学学报(工学版), 2018, 48(1): 259-267.
[4] 刘磊, 刘利娟, 吴新维, 张鹏. 基于ECPMR的编译器测试方法[J]. 吉林大学学报(工学版), 2017, 47(4): 1262-1267.
[5] 董立岩, 王越群, 贺嘉楠, 孙铭会, 李永丽. 基于时间衰减的协同过滤推荐算法[J]. 吉林大学学报(工学版), 2017, 47(4): 1268-1272.
[6] 于斌斌, 武欣雨, 初剑峰, 胡亮. 基于群密钥协商的无线传感器网络签名协议[J]. 吉林大学学报(工学版), 2017, 47(3): 924-929.
[7] 邓昌义, 郭锐锋, 张忆文, 王鸿亮. 基于平衡因子的动态偶发任务低功耗调度算法[J]. 吉林大学学报(工学版), 2017, 47(2): 591-600.
[8] 郝娉婷, 胡亮, 姜婧妍, 车喜龙. 基于多管理节点的乐观锁协议[J]. 吉林大学学报(工学版), 2017, 47(1): 227-234.
[9] 魏晓辉, 李翔, 李洪亮, 李聪, 庄园, 于洪梅. 支持大规模流数据处理的弹性在线MapReduce模型及拓扑协议[J]. 吉林大学学报(工学版), 2016, 46(4): 1222-1231.
[10] 车翔玖, 梁森. 一种基于大顶堆的SPIHT改进算法[J]. 吉林大学学报(工学版), 2016, 46(3): 865-869.
[11] 董悦丽, 郭权, 孙斌, 康玲. 药物分子对接动态任务迁移优化[J]. 吉林大学学报(工学版), 2015, 45(4): 1253-1259.
[12] 匡哲君,师唯佳,胡亮. 基于无线传感器网络的角色成员关系剩余能量新算法[J]. 吉林大学学报(工学版), 2015, 45(2): 600-605.
[13] 张忆文,郭锐锋. 实时系统混合任务低功耗调度算法[J]. 吉林大学学报(工学版), 2015, 45(1): 261-266.
[14] 张忆文1, 2, 郭锐锋1. 制的容错节能调度算法[J]. 吉林大学学报(工学版), 2014, 44(4): 1112-1117.
[15] 付帅1, 马建峰1, 李洪涛1, 王长广2. 改进的基于分簇无线传感器网络的数据聚合算法[J]. 吉林大学学报(工学版), 2014, 44(4): 1118-1125.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!