收藏本站
《华东师范大学》 2017年
收藏 | 手机打开
二维码
手机客户端打开本文

基于异构开放数据源的实体匹配

孔超  
【摘要】:随着"互联网+"行动计划的推进,各行各业的信息化程度越来越高,这些互联网平台都成为感知用户行为的"社会传感器"。综合各个"社会传感器"感知的用户行为,可以分析和预测用户行为、偏好和需求,从而缓解当前我国宏观经济中供需双方间的矛盾。然而,当前互联网平台上的数据呈现出碎片化特征,具体表现出零散、多重、低质、异构和相依等特征。因此,唯有匹配、关联和拼接碎片化的数据才能真正体现互联网平台作为"社会传感器"的作用,这正是本文开展实体匹配研究的动因。实体匹配作为数据管理、信息检索、机器学习等多个领域的关键问题,其早期的研究工作甚至可以追溯到上世纪40年代。经过大半个世纪的发展,实体匹配技术已被广泛应用于诸如数据集成、知识获取和用户画像等领域。由于Web2.0时代数据的碎片化特征,致使实体匹配成为一项非常具有挑战的任务,因此它依然是近年来学术界和工业界的研究热点。本文针对互联网开放数据呈现出的零散、多重、低质、异构和相依等特征,提出了:(1)基于社交网络结构的节点匹配算法;(2)面向多个异构数据源的实体匹配算法;(3)跨异构社交网络的半监督用户匹配算法。主要贡献包括以下几个方面:1.基于社交网络结构的节点匹配算法:出于人们对隐私安全的日益重视,本文研究了仅基于社交网络结构的节点匹配问题,综合考虑社交网络中节点所具备的海量、低质和相依等特征,设计并实现了 ANUM算法。本文利用少量标注的匹配用户实现用户分块,从而降低候选匹配用户集的大小;扩展Fellei-Sunter方法,使其能够处理连续分布的社交网络相似度,构建生成概率模型并运用EM算法学习参数,并同时处理数据缺失等数据质量问题。最后,在真实社交网络数据集上验证了ANUM算法的有效性和高效性。2.面向多个异构数据源的实体匹配算法:大多数已有的研究成果仅关注两个不同数据源的匹配,针对多个数据源中的实体匹配还尚待进一步研究。针对互联网平台数据的海量、异构和低质等特征,本文研究了多个数据源中的实体匹配问题,提出了多数据源实体匹配EMAD算法。为了降低候选集数量,该算法采用局部敏感哈希对来自不同数据源的实体进行分块,大大降低候选集的数量;将多数据源中实体匹配问题转化为两个数据源中实体匹配的问题,同时利用指数族分布整合实体异构属性,利用EM算法学习生成概率模型中的参数,不仅保证了算法的收敛性,而且同时可以处理数据缺失等数据质量问题。最后,在三个真实数据集上验证了EMAD算法的有效性和高效性。3.跨异构社交网络的半监督用户匹配算法:已知的匹配用户有利于改进社交网络中用户匹配的精度,但由于隐私保护和数据不均衡的原因,可用于训练模型的匹配用户数量并不多。针对海量、异构、低质和相依的社交网络数据,本文基于少量匹配用户,研究了半监督的异构社交网络用户匹配问题。为了降低候选匹配用户集的规模,该算法采用两阶段分块策略,第一阶段采用局部敏感哈希对来自不同社交网络的用户进行分块,且在每次迭代中通过社交网络结构再次对用户进行分块(第二阶段分块),大大降低候选集的数量;基于部分匹配用户,研究了跨社交网络平台的用户相似度评价方法;利用指数族分布整合用户异构属性从而构建生成概率模型,运用EM算法学习生成概率模型中的参数,并同时处理数据缺失等数据质量问题。最后,在真实社交网络数据集上验证了 CSUI算法的有效性和高效性。4.基于实体匹配方法的社交网络用户匹配和查询原型系统:在充分考虑互联网数据海量、异构、低质和相依等特征的基础上,本文设计了社交网络用户匹配的原型框架,并实现了SmnQ原型系统。依次详细介绍了SumQ的四层系统架构:数据获取、用户匹配、用户管理和用户界面以及所提供的三大服务:查询服务、可视化服务和匹配服务。以此证明我们的方法是一套完整、有效的解决方案。综上所述,本文充分考虑互联网数据海量、异构、低质和相依等特征,重点研究了基于社交网络结构的节点匹配问题、多个异构数据源间的实体匹配问题和半监督的社交网络用户匹配问题,并设计开发了SumQ原型系统。理论分析和实验结果都表明,我们提出的这些算法能够应对Web 2.0时代数据的海量性、异构性、低质性和相依性等特点,从而解决开放互联网上的实体匹配问题。
【学位授予单位】:华东师范大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:TP311.13;TP393.09

【相似文献】
中国期刊全文数据库 前10条
1 ;基于位置的手机社交网络“贝多”正式发布[J];中国新通信;2008年06期
2 曹增辉;;社交网络更偏向于用户工具[J];信息网络;2009年11期
3 ;美国:印刷企业青睐社交网络营销新方式[J];中国包装工业;2010年Z1期
4 李智惠;柳承烨;;韩国移动社交网络服务的类型分析与促进方案[J];现代传播(中国传媒大学学报);2010年08期
5 贾富;;改变一切的社交网络[J];互联网天地;2011年04期
6 谭拯;;社交网络:连接与发现[J];广东通信技术;2011年07期
7 陈一舟;;社交网络的发展趋势[J];传媒;2011年12期
8 殷乐;;全球社交网络新态势及文化影响[J];新闻与写作;2012年01期
9 许丽;;社交网络:孤独年代的集体狂欢[J];上海信息化;2012年09期
10 李玲丽;吴新年;;科研社交网络的发展现状及趋势分析[J];图书馆学研究;2013年01期
中国重要会议论文全文数据库 前10条
1 赵云龙;李艳兵;;社交网络用户的人格预测与关系强度研究[A];第七届(2012)中国管理学年会商务智能分会场论文集(选编)[C];2012年
2 宫广宇;李开军;;对社交网络中信息传播的分析和思考——以人人网为例[A];首届华中地区新闻与传播学科研究生学术论坛获奖论文[C];2010年
3 杨子鹏;乔丽娟;王梦思;杨雪迎;孟子冰;张禹;;社交网络与大学生焦虑缓解[A];心理学与创新能力提升——第十六届全国心理学学术会议论文集[C];2013年
4 毕雪梅;;体育虚拟社区中的体育社交网络解析[A];第九届全国体育科学大会论文摘要汇编(4)[C];2011年
5 杜炤;刘婷;刘奇峰;;基于社交网络服务的个人知识管理系统研究[A];中国高等教育学会教育信息化分会第十二次学术年会论文集[C];2014年
6 ;我们从未如此热闹,却又从未如此孤独——论社交网络中的自我呈现[A];第三届华中地区新闻与传播学科研究生学术论坛获奖论文[C];2012年
7 颜艳春;;电子商务的下一个浪潮:社交购物[A];第四届(2011)中国商业信息化行业大会暨第四届中国商业信息化技术展览会会刊[C];2011年
8 仲玮;刘敏;范轶;代成琴;;以社交网络为核心的校园信息系统架构[A];中国高等教育学会教育信息化分会第十二次学术年会论文集[C];2014年
9 侯映红;吕勇强;吴强;杨正文;;基于瞬时社交网络服务的位置敏感模型[A];第八届和谐人机环境联合学术会议(HHME2012)论文集PCC[C];2012年
10 刘恕;;试论传统媒体与社交网络的交互融合——从新华社电视进驻开心网说起[A];第十一届中国科协年会第33分会场新媒体与科技传播研讨会论文集[C];2009年
中国重要报纸全文数据库 前10条
1 本报驻堪培拉记者 陈小方;社交网络让人焦虑不安[N];光明日报;2010年
2 彭敏;社交网络分析异军突起成新宠[N];电脑商报;2011年
3 VAR记者 彭敏;企业拥抱社交网络的步骤及工具[N];电脑商报;2011年
4 中国电信广东公司员工 谭拯;社交网络:挖掘“连接”与“发现”的价值[N];人民邮电;2011年
5 周虎城;管理社交网络需要政治智慧[N];南方日报;2011年
6 刘一冰;方案商的社交网络[N];电脑商报;2011年
7 钟声;社交网络管理是各国共同课题[N];人民日报;2011年
8 ;企业如何创建内部社交网络[N];网络世界;2012年
9 宋平 编译;如何优化社交网络营销[N];中华读书报;2013年
10 本报记者 王娟;企业社交网络盈利未“水起”[N];中国计算机报;2013年
中国博士学位论文全文数据库 前10条
1 吕加国;在线社交网络社会影响传播与影响最大化问题研究[D];燕山大学;2015年
2 李鑫;基于位置社交网络的地点推荐方法及应用研究[D];中国科学技术大学;2015年
3 王婷;异构社交网络中社区发现算法研究[D];中国矿业大学(北京);2016年
4 张君;用户行为驱动的社交网络演化分析[D];清华大学;2015年
5 梁斌;社交网络人物搜索的研究[D];清华大学;2015年
6 冯勰;面向协作学习的社会网络结构分析与用户行为建模[D];吉林大学;2016年
7 付浩;基于社交网络结构的用户建模[D];中国科学技术大学;2016年
8 张明玉;科研社交网络中的导师推荐研究[D];中国科学技术大学;2016年
9 韩少春;社交网络信息传播特征及数据研究[D];北京交通大学;2016年
10 樊波;移动社交网络中的信息投递和资源管理技术研究[D];电子科技大学;2016年
中国硕士学位论文全文数据库 前10条
1 叶嘉颖;社交网络文化探析[D];华南理工大学;2010年
2 范海涛;社交网络在企业中的应用研究[D];河南大学;2014年
3 翟伯荫;社交网络中领域专家的识别研究[D];华东师范大学;2015年
4 张德林;老年人社交网络、社会支持与主观幸福感的关系研究[D];上海师范大学;2015年
5 张艳颖;社交网络平台广告传播的动力机制与强化策略研究[D];河北大学;2014年
6 孙绪彬;传播学视域下的SNS用户信息分享研究[D];西南大学;2015年
7 贾冲冲;基于MapReduce的微博好友推荐研究[D];东北林业大学;2015年
8 吕家琦;分布式环境下基于语义的社团发现算法研究[D];辽宁大学;2015年
9 张宁;基于用户行为的社交网络用户动态影响力模型研究[D];辽宁大学;2015年
10 孙海龙;聚美优品有限公司社交网络营销策略研究[D];哈尔滨理工大学;2014年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026