收藏本站
《新疆大学》 2017年
收藏 | 手机打开
二维码
手机客户端打开本文

内存计算框架性能优化关键技术研究

卞琛  
【摘要】:近年来,充分利用内存的低延迟特性改进系统性能成为并行计算新的研究方向。以Berkley研究成果Spark为代表的内存计算框架,有效缓解了频繁磁盘I/O性能瓶颈,解放了多核CPU配合大容量内存硬件架构的潜在高性能,成为工业界一致认可的高性能并行计算系统。虽然内存计算框架的性能表现相对于传统的并行计算系统提高了数十倍,但与大数据时代的即时应用需求相比,还存在不小的差距。因此,从计算模型的角度研究内存计算框架的性能优化方法具有一定的现实意义。本文对内存计算框架性能优化问题展开一系列的研究,旨在通过提高内存计算集群资源利用率与计算效率,进而达到优化内存计算框架整体性能的目的。本文主要研究工作包括以下几点:(1)系统归纳了内存计算技术和应用系统的研究现状。首先,根据内存计算技术的发展历程,对内存数据管理技术、内存计算框架和典型的性能优化方法进行分类讨论,并将性能优化方法分为基于资源配置、任务调度及故障恢复三类进行综合比较。(2)提出了内存计算框架自适应缓存策略。针对内存计算框架Spark缺乏有效缓存选择机制的问题,提出自适应的缓存管理策略,分析任务的DAG(Directed Acyclic Graph)结构,自动识别重用RDD数据加载到缓存区;综合计算代价、处理数据量和使用频率等因素计算RDD权重,作为缓存替换的主要依据;通过异步清理无价值的RDD,降低作业的内存需求;从而在整体上优化缓存空间利用率。(3)提出内存计算框架局部数据优先拉取策略。针对异构环境下Stage同步导致的作业延时和计算资源浪费问题,提出局部数据优先拉取策略,通过高效节点优先调度,提高流水线与宽依赖任务的时间重合度,减少宽依赖Shuffle过程的同步延时,优化集群资源利用率;通过适度倾斜的任务分配,在保障慢节点计算连续性的前提下,提高分配任务量与节点计算能力的适应度,优化作业执行效率。(4)提出了内存计算框架并行度推断算法。针对内存计算框架任务并行度参数化设定可能导致的性能下降问题,提出内存计算框架并行度推断算法,通过分析任务并行度与作业执行效率的关系,提出并行度推断算法的问题定义;综合输入数据量、计算资源和附加开销等多个参数,计算出具有最大化资源利用率和最优状态同步的任务并行度,对作业的各个Stage进行优化调度,加速作业执行并提高计算能效。(5)提出基于分配适应度的渐进填充分区映射算法。针对异构环境下Shuffle过程数据分配与节点计算能力严重不符的问题,提出Shuffle过程的渐进填充分区映射算法;建立Shuffle过程模型,分析分配数据量与原始数据分布的联系;通过扩展式分区和多轮渐进填充映射,建立适应节点计算能力的数据分配方案,有效缩减Shuffle过程的同步延时,提高集群计算效率。(6)提出了基于回归检测的内存重复数据删除算法。为提高内存计算框架堆外存储区的利用率,提出一种基于滑动块回归检测的内存重复数据删除算法,通过未匹配数据进行回归检测,对比未匹配块的结构变化确定删冗操作类型,根据不同的操作类型选择执行折半匹配算法或二次滑动窗口检测算法,达到删除未匹配块内重复数据的目的,提高内存资源的使用效率。
【关键词】:内存计算 集群性能 Spark Shuffle优化 资源配置 效率模型
【学位授予单位】:新疆大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:TP333
【目录】:
  • 摘要2-4
  • Abstract4-10
  • 第1章 绪论10-20
  • 1.1 基础概念概述10-13
  • 1.1.1 内存计算10-11
  • 1.1.2 Spark内存计算模型11-13
  • 1.2 论文研究背景13-15
  • 1.2.1 课题来源13
  • 1.2.2 Spark内存计算模型研究现状13-15
  • 1.3 论文主要研究工作15-20
  • 1.3.1 论文研究内容15-17
  • 1.3.2 主要创新点17
  • 1.3.3 论文组织结构17-20
  • 第2章 内存计算技术发展与研究现状20-30
  • 2.1 引言20-21
  • 2.2 内存计算技术概述21-22
  • 2.3 内存数据管理技术22-23
  • 2.4 内存计算框架发展现状23-24
  • 2.5 内存计算框架性能优化方法24-28
  • 2.5.1 基于资源配置的性能优化方法25-26
  • 2.5.2 基于任务调度的性能优化方法26-27
  • 2.5.3 基于故障恢复的性能优化方法27-28
  • 2.6 本章小结28-30
  • 第3章 内存计算框架自适应缓存策略研究30-51
  • 3.1 引言30-32
  • 3.2 相关工作32-33
  • 3.3 问题的建模与分析33-40
  • 3.3.1 Spark任务执行机制33-34
  • 3.3.2 内存资源模型34-35
  • 3.3.3 任务执行效率模型35-37
  • 3.3.4 RDD权重模型37-39
  • 3.3.5 自适应缓存管理策略问题定义39-40
  • 3.4 自适应缓存管理策略40-44
  • 3.4.1 缓存自动选择算法40-42
  • 3.4.2 并行缓存清理算法42-43
  • 3.4.3 权重缓存替换算法43-44
  • 3.5 实验评价与比较44-49
  • 3.5.1 实验环境44-45
  • 3.5.2 缓存自动选择算法45-46
  • 3.5.3 并行缓存清理算法46-47
  • 3.5.4 权重缓存替换算法47-48
  • 3.5.5 综合评估48-49
  • 3.6 本章小结49-51
  • 第4章 内存计算框架局部数据优先拉取策略51-77
  • 4.1 引言51-53
  • 4.2 相关研究53-55
  • 4.3 问题的建模与分析55-63
  • 4.3.1 作业执行机制55-56
  • 4.3.2 资源需求模型56-57
  • 4.3.3 执行效率模型57-58
  • 4.3.4 任务分配及调度模型58-62
  • 4.3.5 局部数据优先拉取策略问题定义62-63
  • 4.4 局部数据优先拉取策略63-70
  • 4.4.1 构建基础数据63-64
  • 4.4.2 局部数据优先拉取算法64-67
  • 4.4.3 算法的相关原则67-69
  • 4.4.4 算法开销分析69-70
  • 4.5 实验评价与比较70-75
  • 4.5.1 实验环境70-71
  • 4.5.2 作业执行效率71-72
  • 4.5.3 节点贡献度72-74
  • 4.5.4 综合评估74-75
  • 4.6 本章小结75-77
  • 第5章 内存计算框架并行度推断算法77-95
  • 5.1 引言77-78
  • 5.2 相关工作78-79
  • 5.3 问题的建模与分析79-85
  • 5.3.1 作业执行机制79-80
  • 5.3.2 作业调度模型80-85
  • 5.3.3 并行度推断算法的问题定义85
  • 5.4 内存计算框架并行度推断算法85-89
  • 5.4.1 环境定义85-86
  • 5.4.2 构建基础数据86-87
  • 5.4.3 并行度推断算法87-89
  • 5.5 实验评价与比较89-94
  • 5.5.1 实验环境89-90
  • 5.5.2 并行度测试90-91
  • 5.5.3 参数评估实验91-92
  • 5.5.4 对比实验92-94
  • 5.6 本章小结94-95
  • 第6章 基于分配适应度的渐进填充分区映射算法95-118
  • 6.1 引言95-97
  • 6.2 相关工作97-98
  • 6.3 问题和建模与分析98-103
  • 6.3.1 作业执行机制98-99
  • 6.3.2 执行效率模型99-100
  • 6.3.3 Shuffle过程模型100-103
  • 6.3.4 目标定义103
  • 6.4 渐进填充分区映射算法103-111
  • 6.4.1 算法的总体描述103-105
  • 6.4.2 构建算法元数据105-106
  • 6.4.3 分区扩展算法106-107
  • 6.4.4 分区筛选算法107-109
  • 6.4.5 分区映射算法109-111
  • 6.5 实验评价与比较111-116
  • 6.5.1 实验环境111-112
  • 6.5.2 分区映射算法112-115
  • 6.5.3 对比实验115-116
  • 6.6 本章小结116-118
  • 第7章 基于回归检测的内存重复数据删除算法118-130
  • 7.1 引言118-119
  • 7.2 相关研究119-121
  • 7.3 滑动块检测技术的碎片分析121-123
  • 7.3.1 数据插入的碎片分析121-122
  • 7.3.2 数据删除的碎片分析122-123
  • 7.4 回归检测重复数据删除算法123-126
  • 7.4.1 折半匹配检测算法124-126
  • 7.4.2 二次滑动窗口检测算法126
  • 7.5 实验与比较126-129
  • 7.5.1 实验环境127
  • 7.5.2 结果与分析127-129
  • 7.6 本章小结129-130
  • 第8章 总结与展望130-134
  • 8.1 工作总结130-132
  • 8.2 未来工作及展望132-134
  • 参考文献134-151
  • 攻读博士学位期间主要的研究成果151-152
  • 致谢152-155

【参考文献】
中国期刊全文数据库 前4条
1 罗乐;刘轶;钱德沛;;内存计算技术研究综述[J];软件学报;2016年08期
2 文雨;孟丹;詹剑锋;;面向应用服务级目标的虚拟化资源管理[J];软件学报;2013年02期
3 付印金;肖侬;刘芳;;重复数据删除关键技术研究进展[J];计算机研究与发展;2012年01期
4 敖莉;舒继武;李明强;;重复数据删除技术[J];软件学报;2010年05期
【共引文献】
中国期刊全文数据库 前10条
1 卞琛;于炯;修位蓉;;基于回归检测的滑动块重复数据删除算法[J];新疆大学学报(自然科学版);2017年03期
2 刘博文;顾乃杰;谷德贺;苏俊杰;;移动平台Android操作系统虚拟化技术的实现[J];计算机工程与应用;2017年14期
3 张曙光;咸鹤群;刘红燕;侯瑞涛;;云存储环境中基于离线密钥传递的加密重复数据删除方法研究[J];信息网络安全;2017年07期
4 刘瑞锴;邓玉辉;;内存过载下基于重删的内存优化策略[J];小型微型计算机系统;2017年06期
5 钱磊;原昊;赵锦明;李祥;吴东;谢向辉;;基于蚁群平台的智能存储技术及应用[J];计算机工程与设计;2017年05期
6 胡竟伟;吴迪;刘娜;;链路层光纤网络被动数据存储方法研究[J];内蒙古师范大学学报(自然科学汉文版);2017年03期
7 朱江;冀鸣;杨志成;张嘉贤;曹雄;;基于重复数据删除技术的存储系统分析[J];信息系统工程;2017年04期
8 吴彦虹;;集中式数据备份系统研究[J];网络安全技术与应用;2017年04期
9 王闪;谭良;;Web大数据环境下的相似重复数据清理[J];计算机工程与设计;2017年03期
10 邓仲华;黄雅婷;;“互联网+”环境下我国科学数据共享平台发展研究[J];情报理论与实践;2017年02期
【二级参考文献】
中国期刊全文数据库 前3条
1 敖莉;舒继武;李明强;;重复数据删除技术[J];软件学报;2010年05期
2 王晓川;金士尧;夏明波;;Web集群中基于控制论的分布式QoS量化控制[J];软件学报;2007年11期
3 江滢;孟丹;;基于接纳时间比控制和比例积分调节器的接纳控制机制[J];计算机研究与发展;2007年01期
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026