收藏本站
《武汉邮电科学研究院》 2018年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Hadoop的报文数据挖掘研究与应用

曹佳豪  
【摘要】:时至今日,中国互联网已形成了巨大的规模,互联网上纷繁复杂的应用为人们带来了极大的便利,同时也在深刻地改变着人们的学习、生活以及工作方式,“大数据时代”已然来临。如今人们日常生活中很多行为都离不开各种各样的应用软件,而应用上发送的数据都是以报文数据为基础,封装成数据包在网络中传输的,因此如何用准确快速地从海量报文数据中挖掘出网络用户的具体的行为信息并对其特征进行提取已经成为一个极具价值的研究课题。为此,本文旨在研究出一种能够在大数据环境下对海量报文数据进行分析和挖掘的系统。系统功能包括:海量报文数据的采集、接入和存储,报文数据预处理和格式化,报文关联挖掘分析,可视化展示。这些功能不仅有助于网络应服务商根据用户的特征推送准确的服务,也能为相关网络监管部门在互联网舆论监控和正确引导中提供一定的助力。本文以Hadoop大数据框架为基础,提出一种改进的关联规则挖掘算法并基于MapReduce进行实现,将其运用于报文数据的分析和挖掘中,实现海量报文的关联规则挖掘,同时基于可视化插件对结果进行直观的展示。本文系统中的数据源是来自运营商设备上采集的网络数据包,由本文系统接入模块进行数据包的初步解析和存储,整个系统的存储都依赖于Hadoop的分布式文件系统HDFS。数据预处理模块负责将接入后的报文数据进行进一步的解析和清洗,将其转换为本文设计的数据类型进行存储。报文挖掘模块实现了HDFS中海量格式化报文数据的关联规则挖掘,最后通过Echarts插件实现关联数据的展示功能。同时本文也在集群规模、数据量、最小支持度三个维度下对改进Apriori算法进行了测试,结果表明该改进能够明显提高海量报文数据的挖掘效率,且随着集群规模的增大,其在大数据量下的处理效率得到显著提升。
【学位授予单位】:武汉邮电科学研究院
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP311.13

【相似文献】
中国期刊全文数据库 前10条
1 张巍;丁伟;龚俭;;抽样机制对报文长度分布测度影响的研究[J];中国海洋大学学报(自然科学版);2008年S1期
2 龚德良;程杰仁;王鲁达;吕明娥;刘平;;基于报文头与报文内容的入侵检测分析方法[J];湘南学院学报;2011年05期
3 田立勤,林闯;报文分类技术的研究及其应用[J];计算机研究与发展;2003年06期
4 王宇亮;章洋;郑昌文;;短报文可靠传输协议的设计与实现[J];计算机工程与设计;2007年18期
5 朱国胜;余少华;;高速低功耗深度报文检测方法[J];通信学报;2011年04期
6 谷静;;移动IPv6数据报文头压缩算法的分析[J];现代电子技术;2008年19期
7 卜佑军;王超;汪斌强;;一种采用流切割实现报文保序的负载均衡算法[J];计算机科学;2010年12期
8 申成祎;Ping的原理及实现[J];信息技术;2005年06期
9 董永吉;郭云飞;黄万伟;夏军波;;一种新的高速报文解析结构研究[J];电子与信息学报;2013年05期
10 樊燕红;赵立军;;信息交换报文动态解析器的设计与实现[J];信息技术与信息化;2013年05期
中国重要会议论文全文数据库 前4条
1 杜阿宁;方滨兴;;面向网络报文流分析的频繁项监测技术研究[A];全国网络与信息安全技术研讨会'2005论文集(上册)[C];2005年
2 王艳秋;赵昭灵;兰巨龙;;基于范围映射和定值映射的多域报文分类算法[A];第四届中国软件工程大会论文集[C];2007年
3 赵宇新;蒋越;;TCP报文通信在PLC控制系统中的应用[A];中国计量协会冶金分会2011年会论文集[C];2011年
4 王立志;;IPSec和GRE联合打造下一代VPN[A];第七届中国通信学会学术年会论文集[C];2010年
中国重要报纸全文数据库 前3条
1 马云飞;IPv6需要什么样的“舞台”?[N];中国计算机报;2005年
2 高亮;IPv6也有隐患[N];中国计算机报;2004年
3 ;泥泞中前行[N];网络世界;2005年
中国博士学位论文全文数据库 前4条
1 董永吉;面向资源优化的分层式高速报文解析技术研究[D];解放军信息工程大学;2013年
2 彭艳兵;TCP宏观平衡性研究[D];东南大学;2006年
3 王文杰;面向车联网安全应用的数据广播技术研究[D];北京邮电大学;2017年
4 孙全宝;基于k-ary n-tree的硬件聚合通信技术研究[D];国防科学技术大学;2008年
中国硕士学位论文全文数据库 前10条
1 张茂新;面向金融IT系统的报文自动化测试模拟器的设计与实现[D];江西理工大学;2015年
2 庞琳;基于TTCN-3的VRRPE一致性验证方法及协议研究实现[D];山东大学;2015年
3 傅根;基于SOPC技术的报文解析系统的设计与实现[D];电子科技大学;2015年
4 李翔;Hotspot2.0终端上线AP端扫描功能的分析与设计[D];北京邮电大学;2015年
5 王爱杰;Bonjour网关mDNS响应报文处理模块的设计与实现[D];北京邮电大学;2015年
6 贾文泽;HOTSPOT协议AC端GAS初始请求报文处理模块分析与设计[D];北京邮电大学;2015年
7 马骥;Hotspot2.0中报文分片传输模块的设计与实现[D];北京邮电大学;2015年
8 林一冲;mDNS查询报文解析与代答报文模块的分析与设计[D];北京邮电大学;2015年
9 张彦龙;面向多线程分组分派的线程队列状态监测技术[D];国防科学技术大学;2013年
10 郝嘉;一种MPLS VPN网络接入适配器的研究和实现[D];电子科技大学;2014年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026