收藏本站
《中国科学技术大学》 2017年
收藏 | 手机打开
二维码
手机客户端打开本文

社区问答搜索中排序方法的研究

伍浩铖  
【摘要】:近年来,社区问答(Community Question Answering,CQA)网站聚集了大量真实用户产生的问题和回答,在CQA中进行搜索已成为信息检索领域一个重要热点研究分支。其研究方向主要包含基于查询关键词的问题搜索排序,和对问题数据(包含问题、回答和用户)本身进行质量排序两个方面。前者称之为动态排序,与输入的关键词有关;后者称之为静态排序,与关键词无关,仅与问题数据本身的质量有关。动态和静态排序的研究都面临着重要的挑战。动态排序研究面临的主要挑战是用户的关键词时而简短,难以理解用户搜索意图;时而冗长,难以抓住关键词匹配的重点。而静态排序研究面临的主要挑战是大部分与静态排序相关的研究都聚集在挖掘高质量的回答和找到权威的用户,而忽视了低质量的回答对于CQA网站的损害,以及回答质量和用户权威性之间的内在联系。因此,本文分别从以下四个方面来解决上述相应问题,从而整体上提高CQA搜索的性能。首先,提出一种通过挖掘用户搜索意图的方法来处理短关键词的动态排序问题。CQA中传统的问题搜索研究主要集中在长关键词和问句类型关键词的匹配问题。然而,当关键词很短时,由于缺乏对用户搜索意图的理解,该问题就变得很有挑战性。为解决这个问题,本文从多个不同的数据源挖掘短关键词的搜索意图,并提出一个新的基于搜索意图的语言模型。该语言模型不仅利用了目前最先进的问题搜索算法,还结合了从不同数据源中挖掘出的用户搜索意图。实验表明,该方法可以显著地提升短关键词上问题搜索的性能。其次,提出一种基于关键词切分的方法来处理长关键词的动态排序问题。本文回答了如何利用关键词切分的技术来改进问题搜索的性能。这里的关键词切分是指把输入的关键词分割成自然语言短语片段。首先,提出一种基于重排序方法的关键词切分技术。重排序的方法目前被广泛应用于自然语言处理领域,但就目前所知,该方法还没有被用在关键词切分的研究中。其次,提出一种将关键词切分应用到相关性排序的新的方法。该方法是将原关键词的单词和切分后的片段都应用到相关性匹配中。实验结果表明,该方法可以显著提升在长关键词上问题搜索的性能。再次,提出一种无监督的低质量回答检测方法,来处理回答质量评估的静态排序问题。CQA中的问题回答质量参差不齐,有精确的有用回答,也有不相关的无用回答。所以,自动检测低质量的回答有助于CQA网站的信息管理,为用户提供高质量内容。为此,提出了三个假设:大部分回答都是正常的;低质量的回答与同一问题中其它的回答有显著不同;不同的问题有不同的回答质量评价标准。基于这三个假设,本文提出了一个无监督的最优化模型,模型中每一个回答都被赋予一个软标签,以此来表示回答质量。实验结果表明,该模型可以显著提升低质量回答检测的性能。最后,提出一种基于相互强化的三元模型来处理用户权威性评估的静态排序问题。直观上,用户的权威性与回答的质量有正相关关系。所以,用户权威性评估离不开回答质量评估。与此同时,提问者通常选择质量最高的回答作为最佳回答,这样就使得最佳回答者与提问者和其他回答者之间形成竞赛关系。我们建立了一个迭代式相互强化的三元模型,分别是用户权威性模型、回答质量模型和竞赛模型。三个模型之间通过迭代方法不断地优化自身性能,最终能够同时获得用户权威性评估和回答质量评估。实验结果表明,本文方法可以显著改进用户权威性评估和回答质量评估的性能。
【关键词】:社区问答 问题搜索 用户意图 关键词切分 问题质量 用户权威性
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:TP391.3
【目录】:
  • 摘要5-7
  • ABSTRACT7-16
  • 主要符号对照表16-17
  • 第一章 绪论17-29
  • 1.1 研究背景和意义17-21
  • 1.2 国内外的研究现状21-24
  • 1.2.1 问题搜索模型21-22
  • 1.2.2 回答质量评估的研究22-23
  • 1.2.3 用户权威性评估的研究23-24
  • 1.3 研究内容24-25
  • 1.4 组织结构25-29
  • 第二章 基于短关键词的问题搜索研究29-49
  • 2.1 引言29-30
  • 2.2 相关工作30-32
  • 2.2.1 问题搜索30-31
  • 2.2.2 用户意图挖掘31
  • 2.2.3 相关性排序31-32
  • 2.3 用户意图挖掘32-35
  • 2.3.1 从CQA数据集中挖掘用户意图32-33
  • 2.3.2 从网页搜索日志中挖掘用户意图33-34
  • 2.3.3 从网页搜索结果中挖掘用户意图34-35
  • 2.4 模型描述35-37
  • 2.4.1 信息检索中的语言模型35-36
  • 2.4.2 翻译模型36
  • 2.4.3 基于翻译的语言模型36-37
  • 2.5 基于意图的语言模型37-38
  • 2.6 实验分析38-47
  • 2.6.1 实验设置38-41
  • 2.6.2 实验主要结果及分析41-42
  • 2.6.3 实验讨论42
  • 2.6.4 不同类型的用户意图的比较42-47
  • 2.7 本章小结47-49
  • 第三章 基于关键词切分的搜索排序研究49-79
  • 3.1 引言49-50
  • 3.2 相关工作50-53
  • 3.2.1 关键词切分50-51
  • 3.2.2 网页搜索中相关性排序51-52
  • 3.2.3 关键词切分在相关性排序中的应用52-53
  • 3.3 关键词切分的方法53-55
  • 3.3.1 问题描述53
  • 3.3.2 方法描述53-54
  • 3.3.3 特征描述54-55
  • 3.4 相关性排序的方法55-61
  • 3.4.1 关键词切分的应用原则55-57
  • 3.4.2 关键词切分应用于网页搜索的方法57-58
  • 3.4.3 关键词切分应用于问题搜索的方法58-61
  • 3.5 关键词切分的实验61-63
  • 3.5.1 实验设置61-62
  • 3.5.2 实验结果和分析62-63
  • 3.6 网页搜索的相关性排序实验63-72
  • 3.6.1 实验设置63-66
  • 3.6.2 主要实验结果及分析66-67
  • 3.6.3 不同类型的关键词的分析67-68
  • 3.6.4 只采用关键词切分的实验结果68-70
  • 3.6.5 不同切分方法的分析70-72
  • 3.7 问题搜索的相关性排序实验72-78
  • 3.7.1 实验设置73-76
  • 3.7.2 实验结果及分析76-78
  • 3.8 本章小结78-79
  • 第四章 社区问答中低质量回答的检测79-97
  • 4.1 引言79-80
  • 4.2 相关工作80-82
  • 4.2.1 回答质量预测81
  • 4.2.2 垃圾评价检测81-82
  • 4.2.3 异常检测82
  • 4.3 检测低质量回答的方法82-87
  • 4.3.1 问题描述82
  • 4.3.2 基本假设82-83
  • 4.3.3 方法描述83-84
  • 4.3.4 特征描述84-87
  • 4.4 实验分析87-95
  • 4.4.1 实验设置87-90
  • 4.4.2 实验结果及分析90-95
  • 4.5 本章小结95-97
  • 第五章 社区问答中用户权威性评估97-117
  • 5.1 引言97-98
  • 5.2 相关工作98-99
  • 5.2.1 基于链接分析的相关工作98
  • 5.2.2 基于回答质量的相关工作98-99
  • 5.2.3 基于竞赛的相关工作99
  • 5.2.4 基于用户权威性预测的应用99
  • 5.3 迭代式的三元模型99-109
  • 5.3.1 三元模型的提出100-101
  • 5.3.2 主问题描述101
  • 5.3.3 回答质量模型101-103
  • 5.3.4 竞赛模型103-106
  • 5.3.5 用户权威性模型106-107
  • 5.3.6 结合三个模型的迭代式三元模型的算法107-109
  • 5.4 实验分析109-116
  • 5.4.1 实验设置109-112
  • 5.4.2 用户权威性评估实验结果及分析112-114
  • 5.4.3 回答质量评估实验结果及分析114-116
  • 5.5 本章小结116-117
  • 第六章 结束语117-121
  • 6.1 本文工作总结117-119
  • 6.2 本文的主要贡献和创新之处119
  • 6.3 进一步研究方向119-121
  • 参考文献121-127
  • 致谢127-129
  • 在读期间发表的学术论文与取得的研究成果129-130

【相似文献】
中国期刊全文数据库 前10条
1 杨吕仓 ,丁廷福;浅析主题词和关键词[J];档案学通讯;1990年04期
2 苏文;王骞;;结合实际案例分析关键词的选取[J];电视技术;2013年S2期
3 黎方正;谢东;;基于完全化语义的关键词检索研究[J];计算机应用研究;2010年10期
4 王霅煜;涂惠燕;;基于内容的语音课件关键词检索系统:设计与实现[J];计算机应用与软件;2011年04期
5 姚春;浅谈主题词和关键词在检索档案中的应用[J];煤炭技术;2001年01期
6 陈宁;;基于网络的关键词检索技巧[J];中国科技信息;2008年02期
7 裘伟廷;论文写作中用关键词检索网上资料问题[J];广州广播电视大学学报;2003年03期
8 吴蓓;;对数据库上关键词检索的研究与分析[J];信息安全与技术;2012年04期
9 李丹亚;胡铁军;;关键词的扩充检索功能[J];医学情报工作;1991年02期
10 罗骏;欧智坚;;一种高效的语音关键词检索系统[J];通信学报;2006年02期
中国重要会议论文全文数据库 前6条
1 罗骏;欧智坚;;一种高效的语音关键词检索系统[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
2 万新;赵良;何瑜;;医药食品领域发明关键词检索要素的划分[A];2014年中华全国专利代理人协会年会第五届知识产权论坛论文(第三部分)[C];2014年
3 刘勘;刘萍;;一种对学术论文关键词权值的动态调整方法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
4 刘喜平;万常选;刘德喜;;基于语义返回XML关键词检索结果[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
5 向永清;邓志鸿;于航;高宁;;面向XML文档的二级索引技术及其在XML关键词检索中的应用研究[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
6 李求实;王秋月;王珊;;平衡IO和CPU的XML关键词检索技术[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
中国博士学位论文全文数据库 前4条
1 伍浩铖;社区问答搜索中排序方法的研究[D];中国科学技术大学;2017年
2 赵玉凤;图像检索中自动标注技术的研究[D];北京交通大学;2009年
3 李宝祥;语音关键词检索若干问题的研究[D];北京邮电大学;2013年
4 李经纬;云计算中数据外包安全的关键问题研究[D];南开大学;2014年
中国硕士学位论文全文数据库 前10条
1 张珍珍;云上密文数据的安全检索问题研究[D];北京邮电大学;2015年
2 胡长龙;中文微博的话题相关性分析研究[D];国防科学技术大学;2013年
3 邹旭;CNKI数据源的微博研究热点引文研究[D];天津财经大学;2014年
4 袁胜龙;资源受限情况下基于ASR的关键词检索研究[D];中国科学技术大学;2016年
5 刘远;基于内容的图像快速检索技术研究[D];中央民族大学;2016年
6 吴金蔚;大数据技术在用电需求分析中的应用研究[D];东南大学;2016年
7 袁小龙;云计算中模糊关键词可搜索加密方案研究[D];重庆大学;2016年
8 喻庚;中文手写文档的快速关键词检索[D];华中科技大学;2015年
9 袁闻;网络视频字幕中关键词的提取与检索技术研究[D];北方工业大学;2017年
10 杨洋;基于灰色关联聚类的房屋销售额预测关键词优化研究[D];吉林大学;2015年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026