收藏本站
《新疆大学》 2017年
收藏 | 手机打开
二维码
手机客户端打开本文

内存计算框架性能优化关键技术研究

卞琛  
【摘要】:近年来,充分利用内存的低延迟特性改进系统性能成为并行计算新的研究方向。以Berkley研究成果Spark为代表的内存计算框架,有效缓解了频繁磁盘I/O性能瓶颈,解放了多核CPU配合大容量内存硬件架构的潜在高性能,成为工业界一致认可的高性能并行计算系统。虽然内存计算框架的性能表现相对于传统的并行计算系统提高了数十倍,但与大数据时代的即时应用需求相比,还存在不小的差距。因此,从计算模型的角度研究内存计算框架的性能优化方法具有一定的现实意义。本文对内存计算框架性能优化问题展开一系列的研究,旨在通过提高内存计算集群资源利用率与计算效率,进而达到优化内存计算框架整体性能的目的。本文主要研究工作包括以下几点:(1)系统归纳了内存计算技术和应用系统的研究现状。首先,根据内存计算技术的发展历程,对内存数据管理技术、内存计算框架和典型的性能优化方法进行分类讨论,并将性能优化方法分为基于资源配置、任务调度及故障恢复三类进行综合比较。(2)提出了内存计算框架自适应缓存策略。针对内存计算框架Spark缺乏有效缓存选择机制的问题,提出自适应的缓存管理策略,分析任务的DAG(Directed Acyclic Graph)结构,自动识别重用RDD数据加载到缓存区;综合计算代价、处理数据量和使用频率等因素计算RDD权重,作为缓存替换的主要依据;通过异步清理无价值的RDD,降低作业的内存需求;从而在整体上优化缓存空间利用率。(3)提出内存计算框架局部数据优先拉取策略。针对异构环境下Stage同步导致的作业延时和计算资源浪费问题,提出局部数据优先拉取策略,通过高效节点优先调度,提高流水线与宽依赖任务的时间重合度,减少宽依赖Shuffle过程的同步延时,优化集群资源利用率;通过适度倾斜的任务分配,在保障慢节点计算连续性的前提下,提高分配任务量与节点计算能力的适应度,优化作业执行效率。(4)提出了内存计算框架并行度推断算法。针对内存计算框架任务并行度参数化设定可能导致的性能下降问题,提出内存计算框架并行度推断算法,通过分析任务并行度与作业执行效率的关系,提出并行度推断算法的问题定义;综合输入数据量、计算资源和附加开销等多个参数,计算出具有最大化资源利用率和最优状态同步的任务并行度,对作业的各个Stage进行优化调度,加速作业执行并提高计算能效。(5)提出基于分配适应度的渐进填充分区映射算法。针对异构环境下Shuffle过程数据分配与节点计算能力严重不符的问题,提出Shuffle过程的渐进填充分区映射算法;建立Shuffle过程模型,分析分配数据量与原始数据分布的联系;通过扩展式分区和多轮渐进填充映射,建立适应节点计算能力的数据分配方案,有效缩减Shuffle过程的同步延时,提高集群计算效率。(6)提出了基于回归检测的内存重复数据删除算法。为提高内存计算框架堆外存储区的利用率,提出一种基于滑动块回归检测的内存重复数据删除算法,通过未匹配数据进行回归检测,对比未匹配块的结构变化确定删冗操作类型,根据不同的操作类型选择执行折半匹配算法或二次滑动窗口检测算法,达到删除未匹配块内重复数据的目的,提高内存资源的使用效率。
【学位授予单位】:新疆大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:TP333

【参考文献】
中国期刊全文数据库 前4条
1 罗乐;刘轶;钱德沛;;内存计算技术研究综述[J];软件学报;2016年08期
2 文雨;孟丹;詹剑锋;;面向应用服务级目标的虚拟化资源管理[J];软件学报;2013年02期
3 付印金;肖侬;刘芳;;重复数据删除关键技术研究进展[J];计算机研究与发展;2012年01期
4 敖莉;舒继武;李明强;;重复数据删除技术[J];软件学报;2010年05期
【共引文献】
中国期刊全文数据库 前10条
1 卞琛;于炯;修位蓉;;基于回归检测的滑动块重复数据删除算法[J];新疆大学学报(自然科学版);2017年03期
2 刘博文;顾乃杰;谷德贺;苏俊杰;;移动平台Android操作系统虚拟化技术的实现[J];计算机工程与应用;2017年14期
3 张曙光;咸鹤群;刘红燕;侯瑞涛;;云存储环境中基于离线密钥传递的加密重复数据删除方法研究[J];信息网络安全;2017年07期
4 刘瑞锴;邓玉辉;;内存过载下基于重删的内存优化策略[J];小型微型计算机系统;2017年06期
5 钱磊;原昊;赵锦明;李祥;吴东;谢向辉;;基于蚁群平台的智能存储技术及应用[J];计算机工程与设计;2017年05期
6 胡竟伟;吴迪;刘娜;;链路层光纤网络被动数据存储方法研究[J];内蒙古师范大学学报(自然科学汉文版);2017年03期
7 朱江;冀鸣;杨志成;张嘉贤;曹雄;;基于重复数据删除技术的存储系统分析[J];信息系统工程;2017年04期
8 吴彦虹;;集中式数据备份系统研究[J];网络安全技术与应用;2017年04期
9 王闪;谭良;;Web大数据环境下的相似重复数据清理[J];计算机工程与设计;2017年03期
10 邓仲华;黄雅婷;;“互联网+”环境下我国科学数据共享平台发展研究[J];情报理论与实践;2017年02期
【二级参考文献】
中国期刊全文数据库 前3条
1 敖莉;舒继武;李明强;;重复数据删除技术[J];软件学报;2010年05期
2 王晓川;金士尧;夏明波;;Web集群中基于控制论的分布式QoS量化控制[J];软件学报;2007年11期
3 江滢;孟丹;;基于接纳时间比控制和比例积分调节器的接纳控制机制[J];计算机研究与发展;2007年01期
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026