收藏本站
《武汉邮电科学研究院》 2018年
收藏 | 手机打开
二维码
手机客户端打开本文

基于URL+文本的网页主题分类模型研究

程元堃  
【摘要】:随着互联网的迅猛发展,网页的数量呈现爆炸式的增长,作为信息的载体,互联网上每时每刻都在产生大量主题各异的文本,且数据量巨大。如何从海量的、动态的信息资源中获取所需的信息,已日益成为互联网信息应用的关键问题。目前,通常利用数据挖掘中的分类技术对这些网页进行组织归档,从而围绕用户有效地改善网页服务。网页分类研究主要以文本分类为基础,以单个网页为处理对象,整个过程存在大量的计算,对于大规模的流数据不具备适用性。而且考虑从用户行为角度出发,部分特定人群会有较为鲜明的HTTP访问偏好,因此,固定单一的分类流程不能体现用户的行为特点,且分类效率很低。针对传统的基于内容的网页分类方法存在的问题,本文提出了一种基于URL+文本的网页主题分类方法,结合不同场景的需求,设计并实现了两种分类模型。(1)基于词向量的网页分类模型:针对主题平稳的网页,预先定义军事、财经、娱乐、体育等八个主题,不同于传统分类算法中对于文本的向量表征,词向量模型考虑词与词之间语义上的相似性,同时在网页正文抽取上结合网页结构特点进行改善,并且采用基于密度的聚类算法进一步优化。(2)基于URL+关键词的网页分类模型:针对主题鲜明的网页,利用URL本身包含价值信息以及网页正文中存在大量特定关键词重复出现的特点,提出了URL切分算法,同时改进TextRank算法进行关键词抽取,最终通过基于朴素贝叶斯的算法模型完成对未知网页的分类。(3)实验验证了两种分类模型在面向不同场景下分类的可行性和有效性,分别给出该分类模型对互联网不同主题类别网页的分类效果。
【学位授予单位】:武汉邮电科学研究院
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.1;TP393.092

【相似文献】
中国期刊全文数据库 前10条
1 ;网页打印套餐[J];网络与信息;2000年03期
2 张东准;网页减肥工具大观[J];电脑技术;2001年04期
3 黄家贞;弹指间网页内码随心换[J];电脑知识与技术;2004年22期
4 黄家贞;弹指间网页内码随心换[J];网络与信息;2004年09期
5 宏伟;巧妙抓取防滚屏网页[J];电脑爱好者;2005年20期
6 启动;;浅谈网页文件引用[J];网络与信息;2006年05期
7 小丛;;教你轻松抓取无法滚屏的网页[J];计算机与网络;2006年08期
8 花的神明;;追寻网页上闪动的音乐[J];电脑迷;2007年12期
9 秋思;;收藏一个网页只需一个文件[J];电脑爱好者(普及版);2009年05期
10 唐永明;;浅议网页设计与制作[J];科技信息;2009年20期
中国重要会议论文全文数据库 前7条
1 张晓明;奈一雄;齐炯明;安媛媛;张建楠;王静娴;;基于信息隐藏的网页入侵检测技术与实现[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年
2 林政;吕雅娟;刘群;马希荣;;基于双语混和网页的平行语料挖掘[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
3 熊德兰;鄢靖丰;陈静;;基于论坛主题的网页褒贬倾向性识别[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 隋春明;郭志丰;;网页防篡改技术在电力信息网中的应用[A];二○○九年全国电力企业信息化大会论文集[C];2009年
5 王海源;石睿智;;高校网页恶意代码的检测、清理与预防[A];中国高等教育学会教育信息化分会第十次学术年会论文集[C];2010年
6 戴玉刚;;藏文网页采集技术研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
7 刘世杰;唐世渭;杨冬青;王腾蛟;姚小波;;自动的WEB信息提取和集成[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
中国重要报纸全文数据库 前10条
1 范德生 邓亚玲;守住网页的秘密[N];电脑报;2005年
2 贞;网页特效与瘦身专家[N];中国电脑教育报;2002年
3 网天;在自己的电脑上发布网页[N];大众科技报;2000年
4 杨兴平 六子;我的网页你别动[N];电脑报;2004年
5 杨耀祥;简繁网页批量互转有妙法[N];中国电脑教育报;2003年
6 河北 李永波;网页底图显个性[N];电脑报;2004年
7 ;让你的网页绽放最美丽的特效[N];中国电脑教育报;2004年
8 刘成富;编辑网页有妙法[N];计算机世界;2004年
9 绵阳南山 iled;让 Frontpage 2000 给我们“一了百了”[N];电脑报;2001年
10 陈宗伟;妙用查找替换功能编辑网页[N];电脑报;2004年
中国博士学位论文全文数据库 前4条
1 李浩;基于眼动特征的小屏幕设备网页内容适配研究[D];华中师范大学;2013年
2 计华;Web Spam特征分析及其检测技术研究[D];山东师范大学;2015年
3 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
4 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 杜明明;基于关键词的垃圾网页判别研究[D];哈尔滨工业大学;2015年
2 刘慕凡;基于主题与语义的作弊网页检测方法研究[D];北京化工大学;2015年
3 贺知义;基于关键词的搜索引擎网页去重算法研究[D];华中师范大学;2015年
4 李小娟;基于分类技术的网页去噪方法的研究[D];贵州师范大学;2015年
5 李亚东;网页取证若干关键问题研究[D];合肥工业大学;2014年
6 孙健;基于程序切片的网页过滤技术[D];南京邮电大学;2015年
7 朱华丽;集成网页质量特征的垃圾网页检测特征模型及模型验证[D];西南交通大学;2016年
8 孟庆飞;基于统计的Web网页分类算法研究[D];中国地质大学(北京);2016年
9 李杨;分类学术文献搜索引擎的应用和研究[D];长安大学;2016年
10 甄真;精品旅店网页界面设计研究[D];合肥工业大学;2016年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026