收藏本站
《武汉邮电科学研究院》 2018年
收藏 | 手机打开
二维码
手机客户端打开本文

基于内容的垃圾邮件过滤系统的设计与实现

陶峰  
【摘要】:随着互联网的快速发展,电子邮件因使用方便,通信快捷,已成为我们生活中的一部分。但是,现在很多的组织或者个人利用电子邮件的便捷,发布大量垃圾信息,这就是垃圾邮件。如今垃圾邮件问题越来越严重,它不仅传播了大量不良信息,还浪费了我们大量时间。垃圾邮件分类技术中用的比较多的分类算法有朴素贝叶斯(Naive Bayes)、神经网络、K-近邻法、支持向量机(SVM)等。由于邮件分类算法都是建立特征项提取基础上的,因此特征项提取直接影响着邮件的分类效果。随着学者的研究发现,对电子邮件内容特征进行提取的有效算法有:文档频率、信息增益、互信息、期望交叉熵、文本证据权、CHI统计以及TFIDF等。TFIDF因其便于理解、操作简单、时间复杂度低等优点被广泛的运用,该算法也存在不足之处:该方法只考虑了特征词文档的绝对数量和特征词在某类邮件中的词频,没有考虑到特征词在类中的分布情况和特征词在其他类邮件中的词频,高估了低频词的作用并低估了高频词的作用。本文将重点探讨并对比现有垃圾邮件过滤技术,分别从邮件预处理、中文分词、特征提取和分类器等角度展开。在比较多种特征提取算法后,论文选择对传统的TFIDF算法进行一定的修改和优化,通过降低特例邮件中频繁出现的特征词的影响,引入了频率差,分别对类中频繁出现和出现频率小的词条的权值进行增加和减少。最终实验结果表明,改进后的方法可以选择出更适合的特征集合,从而使邮件分类的效果更好,达到更有效的垃圾邮件过滤效果。
【学位授予单位】:武汉邮电科学研究院
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP393.098

【相似文献】
中国期刊全文数据库 前10条
1 林琛;李弼程;;一种有效的垃圾邮件过滤新方法[J];计算机应用;2006年08期
2 张羿;周建国;晏蒲柳;;垃圾邮件过滤系统的研究与实现[J];计算机工程;2006年18期
3 徐卫;;一种垃圾邮件过滤网关的设计[J];电脑知识与技术;2006年35期
4 项涛;龚俭;丁伟;;垃圾邮件过滤系统的评估模型研究[J];计算机工程与设计;2007年18期
5 欧德宁;马军;;基于内含链接特征分析的垃圾邮件过滤技术[J];郑州大学学报(理学版);2009年02期
6 金彩琴;裘国永;;对垃圾邮件过滤技术的问题研究[J];计算机技术与发展;2011年09期
7 丁上凌;吕后坤;;垃圾邮件过滤技术研究[J];漯河职业技术学院学报;2012年02期
8 赵文清;一种混合型垃圾邮件过滤系统的研究与设计[J];山西电子技术;2004年06期
9 陈长伟;刘罡;洪跃枫;;电子垃圾邮件过滤技术的应用[J];办公自动化;2004年06期
10 刘震,佘堃,周明天;基于多级属性集的垃圾邮件过滤技术[J];计算机应用研究;2005年07期
中国重要会议论文全文数据库 前10条
1 李军;何晓宁;黄成哲;齐浩亮;雷国华;;基于特征贡献度的垃圾邮件过滤方法[A];第六届全国信息检索学术会议论文集[C];2010年
2 潘文锋;王斌;谭松波;;贝叶斯垃圾邮件过滤研究[A];全国网络与信息安全技术研讨会’2004论文集[C];2004年
3 刘红翼;;一种垃圾邮件过滤器的设计与实现[A];广西计算机学会2005年学术年会论文集[C];2005年
4 张尼;方滨兴;;垃圾邮件过滤技术综述[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
5 张志斌;施水才;吕学强;;基于贝叶斯方法的中文垃圾邮件过滤技术综述[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 周立兵;柳景超;;贝叶斯理论在垃圾邮件过滤中的应用分析[A];中国造船工程学会电子技术学术委员会2006学术年会论文集(上册)[C];2006年
7 张海雷;王会珍;王安慧;朱靖波;;基于朴素贝叶斯模型的垃圾邮件过滤技术比较分析[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
8 米淑云;辛阳;罗群;;一种新型垃圾邮件过滤系统的设计和研究[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
9 岑芳明;王明文;王鹏鸣;戴玉娟;;基于核偏最小二乘分类的垃圾邮件过滤[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
10 牛明珠;;病毒和垃圾邮件过滤技术浅析[A];二○○九年全国电力企业信息化大会论文集[C];2009年
中国重要报纸全文数据库 前10条
1 ;“垃圾邮件过滤系统”几乎没有一个完善的[N];新华每日电讯;2003年
2 ;测试垃圾邮件过滤系统[N];网络世界;2003年
3 本报记者 高颖;清除网络“牛皮癣”胜算几何?[N];计算机世界;2003年
4 John D. Halamka;IT手段的两面性[N];计算机世界;2007年
5 ;不止是垃圾邮件过滤[N];网络世界;2005年
6 ;2003十大网络应用电子邮箱[N];中国电脑教育报;2003年
7 本报记者 李建平;Comdex走向专注[N];计算机世界;2003年
8 张颖;东西方交流不会被“垃圾”阻断[N];中国经营报;2002年
9 ;如何选择和使用UTM设备[N];网络世界;2009年
10 ;用户关心的问题:MSN 8值吗?[N];计算机世界;2002年
中国博士学位论文全文数据库 前5条
1 董建设;协作式垃圾邮件过滤关键技术研究[D];兰州理工大学;2009年
2 惠孛;基于即时分类的垃圾邮件过滤关键技术的研究[D];电子科技大学;2009年
3 邓蔚;垃圾邮件过滤中的敌手分类问题研究[D];电子科技大学;2011年
4 孙晶涛;基于内容的垃圾邮件过滤技术研究[D];兰州理工大学;2010年
5 张泽明;人工免疫算法及其应用研究[D];中国科学技术大学;2007年
中国硕士学位论文全文数据库 前10条
1 甘棠仪;基于属性论方法的垃圾邮件过滤系统设计与研究[D];上海海事大学;2005年
2 王申;基于内容的垃圾邮件过滤技术的若干研究[D];中国科学院研究生院(计算技术研究所);2005年
3 田月霞;基于疫苗机制的垃圾邮件过滤模型的研究[D];郑州轻工业学院;2015年
4 邓曾;遗传算法和贝叶斯模型在垃圾邮件过滤中的应用[D];电子科技大学;2015年
5 徐兆志;基于AAPE分类模型的垃圾邮件过滤技术的研究与实现[D];电子科技大学;2014年
6 次曲(Tse Qu);基于朴素贝叶斯算法的藏文垃圾邮件过滤关键技术研究[D];电子科技大学;2013年
7 王浩;基于发送方异常行为检测的垃圾邮件过滤系统的研究与实现[D];东北大学;2013年
8 魏如玉;中文垃圾邮件过滤方法的研究[D];辽宁大学;2016年
9 胡玮;基于语义的垃圾邮件过滤技术的研究[D];重庆大学;2016年
10 于洋;高校办公系统垃圾邮件过滤DTFS算法的设计与实现[D];东北大学;2015年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026