收藏本站
《西藏大学》 2017年
加入收藏

藏文文本情感分析方法研究

李苗苗  
【摘要】:舆情分析作为自然语言处理研究的重要分支,近年来越来越受关注。随着藏文信息技术的发展,藏语也迈入了自然语言处理时代,而针对藏文文本的情感分析研究也越来越受到重视,但由于藏文文本的情感分析研究起步晚等原因使得在该领域有很多有待完善、需要提升的内容,具有很大的研究空间。本文在分析研究了国内外文本情感分析方法的基础上,结合藏文本身的特点,提出了“基于层次结构的藏文文本情感分析方法”,该方法中将藏文情感分析分为词语级、句子级、篇章级三个层次,并基于现有的资源,针对每一个层次的特点提出了不同的研究方法,并设计系统加以实现、验证。三个层次的主要工作如下:1.藏文词语级情感分析方面,针对情感词典缺乏的问题,首先人工整理包括基础情感词典、程度副词词典、否定和双否定词词典、转折词字典的藏文情感词典,验证了基于词向量扩充情感词典的几种方法,提出了knn扩充的方法最优,并用该方法从语料中自动扩充情感词,建立了一部比较实用的藏文情感词典;2.藏文句子级情感分析方面,归纳和总结了藏文句子的语言特性,抽象和提取出藏文句子情感分析的三层规则集:句型规则、句间规则、句内规则,提出了利用情感词典和规则集分析藏文句子情感的一种方法,并设计实现了藏文句子倾向性分析系统;3.藏文篇章级情感分析方面,针对藏文篇章情感分析语料建设困难的问题,先基于情感词典的方法对原始语料进行初步标注,再人工筛选得到标注语料,然后利用标注语料构建SVM模型,对篇章文本进行情感分析。针对传统的词袋模型维度大,且难以捕捉到情感特征等问题,提出采用混合情感特征的方法训练模型,得到了较好的效果。本文在现有的研究基础上,取得了以下成果:1.提出了藏文文本情感分析的三层框架;2.将词向量的方法用于藏文情感词典的扩充中,并对传统的基于相似度扩充词典的方法进行了改进,提高了准确率,获得了一部比较好的藏文情感词典;3.从藏文的文法特点出发,归纳和总结了适用于藏文的句子情感分析规则集,建立了句型规则、句间规则和句内规则,结合情感词典,设计和实现了藏文句子倾向性分析系统;4.不仅实现了基于情感词典的藏文篇章情感分析方法,而且还比较几种篇章情感计算的统计模型后,验证了基于情感特征组合的SVM方法的优越性。
【关键词】:舆情分析 藏文情感分析 藏文词向量 情感倾向 SVM
【学位授予单位】:西藏大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1
【目录】:
  • 摘要4-6
  • ABSTRACT6-12
  • 第一章 绪论12-17
  • 1.1 选题背景及意义12-13
  • 1.2 国内外研究现状13-15
  • 1.2.1 英文情感分析的发展历史13-14
  • 1.2.2 中文情感分析的发展历史14
  • 1.2.3 藏文情感分析的发展历史14-15
  • 1.3 本文工作15-17
  • 第二章 藏文文本情感分析理论基础17-25
  • 2.1 文本情感分析概述17-19
  • 2.1.1 文本情感分析的定义17
  • 2.1.2 文本情感分析的任务17-18
  • 2.1.3 文本情感分析方法18-19
  • 2.1.4 文本情感分析的性能评价指标19
  • 2.2 藏文文本的特点19-21
  • 2.2.1 藏文在信息处理上的特点19-20
  • 2.2.2 藏文情感分析的特点20-21
  • 2.3 基于层次结构的藏文文本情感分析方法21-24
  • 2.3.1 词语级情感分析21-22
  • 2.3.2 句子级情感分析22-23
  • 2.3.3 篇章级情感分析23-24
  • 2.4 本章小结24-25
  • 第三章 藏文词语级情感分析25-41
  • 3.1 基准情感词典构建25-28
  • 3.1.1 基础情感词典的构建25-27
  • 3.1.2 程度副词词典和转折词词典的构建27
  • 3.1.3 否定词典和双重否定词典的构建27-28
  • 3.2 词向量介绍28-31
  • 3.2.1 词向量的来历28-29
  • 3.2.2 词向量的原理29-31
  • 3.2.3 词向量的应用31
  • 3.3 基于词向量扩充藏文情感词典的方法探讨31-34
  • 3.3.1 有关词向量术语的介绍31-32
  • 3.3.2 基于词相似度来扩充情感词典的方法32
  • 3.3.3 KNN方法32-33
  • 3.3.4 权重增益法33-34
  • 3.3.5 SVM分类法34
  • 3.4 基于词向量扩充藏文情感词典的实现34-39
  • 3.4.1 实验准备34-35
  • 3.4.2 KNN方法35-36
  • 3.4.3 权重增益法36-38
  • 3.4.4 SVM分类法38
  • 3.4.5 实验结果分析38-39
  • 3.5 自动扩充得到的藏文情感词典39-40
  • 3.6 本章小结40-41
  • 第四章 藏文句子级情感分析41-57
  • 4.1 句子情感分析的两个关键问题41-42
  • 4.2 藏文句子情感分析规则集建立42-51
  • 4.2.1 句型分析规则的建立43-46
  • 4.2.2 句间分析规则的建立46-49
  • 4.2.3 句内分析规则的建立49-51
  • 4.3 藏文句子情感计算51-53
  • 4.4 藏文句子情感计算系统的设计与实现53-56
  • 4.4.1 藏文句子情感计算系统的设计53-54
  • 4.4.2 藏文句子情感计算系统的实现54-55
  • 4.4.3 实验结果及分析55-56
  • 4.5 本章小结56-57
  • 第五章 藏文篇章级情感分析57-73
  • 5.1 基于情感词典的藏文篇章情感分析57-59
  • 5.1.1 基于情感词典的藏文篇章情感分析的实现57-58
  • 5.1.2 实验结果及分析58-59
  • 5.2 分类模型的选择59-62
  • 5.2.1 常用的分类模型介绍60-61
  • 5.2.2 支持向量机介绍61-62
  • 5.3 基于SVM的藏文篇章情感分析理论62-66
  • 5.3.1 语料构建62-63
  • 5.3.2 特征选择63-64
  • 5.3.3 文本表示64-65
  • 5.3.4 构造SVM分类器65
  • 5.3.5 测试及评估65
  • 5.3.6 系统框架65-66
  • 5.4 基于SVM的藏文篇章情感分析系统的设计与实现66-72
  • 5.4.1 文本预处理模块66-67
  • 5.4.2 特征提取及文本向量化表示67-69
  • 5.4.3 构建SVM分类器69-70
  • 5.4.4 实验结果及分析70-72
  • 5.5 本章小结72-73
  • 第六章 总结与展望73-75
  • 6.1 本论文工作总结73-74
  • 6.2 展望74-75
  • 附录1 情感词汇本体库构建标准75-77
  • 参考文献77-82
  • 在学期间发表的论文82-83
  • 致谢83

【相似文献】
中国期刊全文数据库 前10条
1 程琦;;架起学生与文本沟通的桥梁[J];现代教学;2012年06期
2 周德志;刘怀亮;张倩;;基于复杂网络的文本语义社区的构建[J];情报杂志;2013年10期
3 徐玉坤;刘淑芬;李兵;;建模语言中的文本表面语法分析方法研究[J];计算机应用研究;2008年03期
4 林民;萨日娜;嘎日迪;;多语言复杂文本布局引擎分析及应用[J];内蒙古师范大学学报(自然科学汉文版);2008年01期
5 周扬荣;贾彦民;吴健;;基于ICU的复杂文本布局引擎设计与跨平台应用研究[J];计算机应用研究;2007年02期
6 孙卫华;;论构成媒介文本分析的方法体系[J];当代传播;2009年01期
7 李强;;广播语言和文本语言应重修旧好[J];视听界;2009年02期
8 姚大富;杨斌;;QT图形库下基于OpenType字库的复杂文本显示研究[J];成都信息工程学院学报;2010年06期
9 胡熠;陆汝占;李学宁;段建勇;陈玉泉;;基于语言建模的文本情感分类研究[J];计算机研究与发展;2007年09期
10 周扬荣;贾彦民;;复杂文本布局引擎机制及应用研究[J];中国科学院研究生院学报;2006年03期
中国重要会议论文全文数据库 前4条
1 周忠敏;张荣军;;变了味的文本拓展[A];江苏省教育学会2006年年会论文集(文科专辑)[C];2006年
2 吕建明;;语文教学要正确把握文本的度[A];江苏省教育学会2005年小学语文优秀论文集[C];2005年
3 热依玛依·买买提;维尼拉·木沙江;;基于文本的图片检索中图片相关文本提取技术的研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
4 唐剑峰;;文本语言的鉴赏和积淀摭谈[A];江苏省教育学会2005年小学语文优秀论文集[C];2005年
中国重要报纸全文数据库 前7条
1 丹阳市教师进修学校 笪红梅;巧用文本“空白”发展学生语言[N];成才导报.教育周刊;2008年
2 六盘水市第二中学 邓永方;学生与文本之间障碍原因分析[N];六盘水日报;2011年
3 东海县房山中心小学 张启道;文本解构:基于儿童自身发展的考量[N];连云港日报;2011年
4 北京师范大学 王向远;翻译的快感[N];社会科学报;2013年
5 姜堰市溱潼中心小学 吕富荣;优化语言训练 加深情感体验[N];江苏教育报;2010年
6 宝轮中学 赵开新 李应生;“削枝强干”是实施有效教学的策略[N];广元日报;2009年
7 王一川;现实症候与多样景观[N];文艺报;2003年
中国博士学位论文全文数据库 前1条
1 黄杨英;关联翻译理论与幽默讽刺文本的翻译[D];上海外国语大学;2009年
中国硕士学位论文全文数据库 前10条
1 冯贵川;基于Word2vec的文本建模及分类研究[D];深圳大学;2016年
2 李苗苗;藏文文本情感分析方法研究[D];西藏大学;2017年
3 陆彬;面向论坛回帖的文本倾向性分析研究[D];上海交通大学;2011年
4 白海艳;从《俄日联合声明》中看外交文本的语言特点及其翻译原则[D];内蒙古师范大学;2014年
5 徐易;基于短文本的分类算法研究[D];上海交通大学;2010年
6 马玲玲;旅游宣传文本的翻译策略初探[D];上海外国语大学;2011年
7 刘青;文学文本语言品味教学研究[D];四川师范大学;2014年
8 嵇怡;借助示范性文本促进高中作文教学的策略研究[D];苏州大学;2013年
9 张奕智;引导学生与不同的散文对话[D];苏州大学;2008年
10 魏珊;文史哲类中文摘要英译实践报告[D];上海师范大学;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026