收藏本站
《武汉邮电科学研究院》 2018年
收藏 | 手机打开
二维码
手机客户端打开本文

基于统一模型的中文社交媒体命名实体识别的研究

黄鹏  
【摘要】:随着信息时代的发展,人们迫切须要从海量的文本信息中快速读懂信息,命名实体识别技术运用而生。命名实体识别是指从文本中筛选和识别出人名、机构名、地名等专有名称和有意义的时间、日期等数量短语并加以归类。对很多文本挖掘任务来说,命名实体识别系统是重要的组成部分,研究命名实体识别模型来提升识别效果的方法具有学术和应用价值,意义重大。本文针对在海量未标注的中文社交媒体文本情形下如何提高其命名实体识别的效果问题,提出了一种对中文社交媒体命名实体识别的统一识别模型(UNER,Unified model of Named Entity Recognition)。统一识别模型算法通过权重将一个跨领域学习模型和一个半监督学习模型融合组成。跨领域学习需要确定通用领域和目标领域之间句子的相似度,运用学习率函数来自动调整不同领域句子的学习率,结合转移概率算法,从而实现辅助领域和目标领域之间域的相适应,提高跨领域学习模型的泛化能力。而半监督模型将主动学习与自学习相结合的中文命名实体识别方法,采用置信度函数来调整学习率的方式,不断迭代地从目标域内未标注的语料中提取样本,添加到训练集进行训练,从而选出命名实体。通过主动学习目标域内未标注的信息,极大地降低了人工标注语料的工作量,使得主动学习在海量数据上具有可操作性。实验结果表明:统一识别模型改善了中文社交媒体命名实体识别的效果。统一识别模型融合了跨领域学习模型和半监督学习模型,统一识别模型大大减小人工标注语料的工作和提高了中文社交媒体的命名实体识别效果。
【学位授予单位】:武汉邮电科学研究院
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.1

【相似文献】
中国期刊全文数据库 前10条
1 向晓雯,史晓东,曾华琳;一个统计与规则相结合的中文命名实体识别系统[J];计算机应用;2005年10期
2 张晓艳;王挺;陈火旺;;命名实体识别研究[J];计算机科学;2005年04期
3 邱莎;;几种基于机器学习的生物命名实体识别模型比较[J];电脑知识与技术(学术交流);2007年05期
4 赵军;;命名实体识别、排歧和跨语言关联[J];中文信息学报;2009年02期
5 郑强;刘齐军;王正华;朱云平;;生物医学命名实体识别的研究与进展[J];计算机应用研究;2010年03期
6 张向喆;王明辉;赵洪波;王起山;潘玉春;;生物医学文本中命名实体识别研究[J];上海交通大学学报(农业科学版);2010年02期
7 孙镇;王惠临;;命名实体识别研究进展综述[J];现代图书情报技术;2010年06期
8 滕青青;吉久明;郑荣廷;李楠;;基于文献的中文命名实体识别算法适用性分析研究[J];情报杂志;2010年09期
9 金明;杨欢欢;单广荣;;藏语命名实体识别研究[J];西北民族大学学报(自然科学版);2010年03期
10 佘俊;张学清;;音乐命名实体识别方法[J];计算机应用;2010年11期
中国重要会议论文全文数据库 前10条
1 齐振宇;赵军;杨帆;;一种开放式中文命名实体识别的新方法[A];第五届全国信息检索学术会议论文集[C];2009年
2 付瑞吉;车万翔;刘挺;;一种基于分类方法的音乐命名实体识别技术[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
3 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
4 向晓雯;史晓东;曾华琳;;一个统计与规则相结合的中文命名实体识别系统[A];第六届汉语词汇语义学研讨会论文集[C];2005年
5 王浩畅;赵铁军;刘延力;于浩;;生物医学文本中命名实体识别的智能化方法[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
6 李治国;周俏丽;;在篇章中面向产品类的命名实体识别研究[A];第三届学生计算语言学研讨会论文集[C];2006年
7 徐薇;付滨;刘柳;苑春法;李文捷;;中文命名实体识别系统的领域扩展[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
8 王浩畅;赵铁军;李艳;;生物医学命名实体识别的特征选取与评价[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 刘非凡;赵军;吕碧波;于浩;夏迎炬;;面向商务信息抽取的产品命名实体识别研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
10 陈禹;史晓东;向晓雯;张润延;;基于混合方法的中文命名实体识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国博士学位论文全文数据库 前9条
1 江会星;汉语命名实体识别研究[D];北京邮电大学;2012年
2 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
3 付瑞吉;开放域命名实体识别及其层次化类别获取[D];哈尔滨工业大学;2014年
4 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
5 豆增发;生物命名实体识别及生物文本分类[D];西安电子科技大学;2013年
6 李彦鹏;特征耦合泛化及其在文体挖掘中的应用[D];大连理工大学;2011年
7 穆一夫;基于认知的非结构化信息抽取关键技术与算法研究[D];中国矿业大学(北京);2013年
8 吴金星;蒙古语语料库加工集成平台的构建[D];内蒙古大学;2015年
9 杨黎;面向生物医学文本的疾病关系挖掘模型及算法研究[D];华中科技大学;2013年
中国硕士学位论文全文数据库 前10条
1 荀晶;面向微博数据的命名实体识别研究与实现[D];东北大学;2013年
2 朱敏;面向多领域大规模知识库的自然语言自动问答研究[D];西南交通大学;2015年
3 程志刚;基于规则和条件随机场的中文命名实体识别方法研究[D];华中师范大学;2015年
4 段超群;面向缺乏标注数据领域的命名实体识别的研究[D];哈尔滨工业大学;2015年
5 吴阳;财经领域命名实体识别方法的研究与系统实现[D];哈尔滨工业大学;2015年
6 胡桑(Husamelddin A.M. Balla);基于混合模型的阿拉伯语命名实体识别[D];哈尔滨工业大学;2013年
7 杨娅;生物医学文本中的疾病实体识别和标准化研究[D];大连理工大学;2015年
8 何红磊;基于词表示方法的生物医学命名实体识别[D];大连理工大学;2015年
9 王国昱;基于深度学习的中文命名实体识别研究[D];北京工业大学;2015年
10 刘方驰;基于文本的实体—关系抽取技术研究[D];国防科学技术大学;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026