收藏本站
《东华大学》 2017年
收藏 | 手机打开
二维码
手机客户端打开本文

基于聚类的串并案分析研究与实现

张凌霄  
【摘要】:随着社会经济的不断发展,人民总体生活水平的不断提高,我国犯罪职业化、团伙化、流窜化的趋势日益凸显,各种犯罪日益增多,其中多发性侵财案件增幅较大,系列案件占有较大的比重。对若干有内在关联的系列案件展开侦查,利用公安部门多年来积累的犯罪信息数据及侦察破案的经验,对其进行分析挖掘,发现犯罪行为的规律、趋势,了解案件之间的关联,进行串并案分析是当前公安机关分析人员的主要任务。本文对公安部门提供的长宁区近年来部分侵财类犯罪案件数据进行分析,确定哪些案件属于同一系列案。首先观察各案件特征描述,确定案件信息抽取范围,为信息抽取工作做好数据准备工作。将案情描述文本中涉及的案件特征进行抽取,将所有案件特征数据转换后进行聚类计算。再通过聚类结果,将分至同一簇的案件视为系列案件,对其进行串并案分析。如何通过案件的文字描述信息将不完善的案件特征进行提取补全及如何通过案件特征进行模糊聚类计算是本文研究的重点。论文最后结合实际需求,设计并实现了一个串并案分析系统。系统主要分为三个模块:案件特征提取模块、聚类分析模块及展示模块。案件特征提取模块主要用以抽取非结构化数据中的特征描述,结合中文分词技术及CRF条件随机场模型对文本进行语料标注,再通过模式匹配将案件特征提取出来。聚类分析模块则将各类案件特征数据进行预处理,通过FCM算法,选取合理的分类数及权重系数,对数据进行聚类计算。展示模块则结合JavaEE及ECharts搭建Web展示页面,将串并案分析结果以文字、图表形式进行展示。最后,通过多次测试,验证了所设计的串并案分析系统能够在一定程度上的满足此次研究实验的需求,为公安部门分析人员提供更直观、可靠的案件特征关联关系,具有一定的应用价值。
【关键词】:串并案分析 案件特征 信息提取 聚类分析 数据可视化
【学位授予单位】:东华大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:D631.2;TP311.13
【目录】:
  • 摘要4-5
  • Abstract5-8
  • 第一章 绪论8-12
  • 1.1 研究背景及意义8-9
  • 1.2 国内外研究现状9-11
  • 1.2.1 串并案分析9-10
  • 1.2.2 信息抽取10
  • 1.2.3 模糊C-均值聚类算法10-11
  • 1.3 主要研究内容与章节安排11-12
  • 第二章 相关技术12-21
  • 2.1 大数据技术12-13
  • 2.1.1 Spark12-13
  • 2.1.2 HBase13
  • 2.2 文本内容分析及信息抽取13-17
  • 2.2.1 中文分词14-15
  • 2.2.2 基于CRF条件随机场信息抽取15-16
  • 2.2.3 基于模式匹配的关系信息抽取16-17
  • 2.3 模糊C-均值聚类17-19
  • 2.4 ECharts图表库19-20
  • 2.5 本章小结20-21
  • 第三章 需求分析21-23
  • 3.1 现状分析与系统目标21
  • 3.2 系统需求分析21-22
  • 3.3 本章小结22-23
  • 第四章 案件特征分析23-32
  • 4.1 案件数据介绍23-25
  • 4.2 数据准备25-31
  • 4.2.1 词库文件26-27
  • 4.2.2 CRF训练语料及学习模板27-28
  • 4.2.3 模式库28-31
  • 4.3 本章总结31-32
  • 第五章 案件数据聚类32-36
  • 5.1 数据预处理32
  • 5.2 模糊C-均值(FCM)算法32-35
  • 5.2.1 聚类数C的自适应33-34
  • 5.2.2 优选加权指数m的研究34-35
  • 5.3 本章小结35-36
  • 第六章 系统设计与实现36-56
  • 6.1 系统架构设计36-37
  • 6.2 功能模块设计37-39
  • 6.2.1 案件特征抽取模块37-38
  • 6.2.2 聚类分析模块38
  • 6.2.3 辅助展示模块38-39
  • 6.3 系统详细设计39-42
  • 6.3.1 案件特征抽取模块39-41
  • 6.3.2 聚类分析模块41-42
  • 6.3.3 展示模块42
  • 6.4 系统运行环境42
  • 6.5 系统实现42-48
  • 6.5.1 CRF命名实体识别功能实现42
  • 6.5.2 模式匹配功能实现42-43
  • 6.5.3 聚类算法的优化实现43-44
  • 6.5.4 展示页面的实现44-48
  • 6.6 测试与分析48-54
  • 6.6.1 CRF模型测试与分析48-50
  • 6.6.2 模式匹配测试与分析50-52
  • 6.6.3 模糊聚类测试与分析52-53
  • 6.6.4 系统测试与分析53-54
  • 6.7 本章小结54-56
  • 第七章 总结和展望56-58
  • 参考文献58-61
  • 致谢61

【相似文献】
中国期刊全文数据库 前1条
1 于慧娟;崔军;毋晓志;李伟;;一种改进的凝聚图聚类方法[J];山西煤炭管理干部学院学报;2010年03期
中国重要会议论文全文数据库 前9条
1 高翠芳;吴小俊;;基于二阶差分的聚类数自动确定方法[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
2 刘洋;江志纲;丁增喜;王大玲;鲍玉斌;于戈;;一种基于图的聚类算法GB-Cluster[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 李浪波;傅彦;刘红;;基于范例推理的网格和密度聚类算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
4 娄冬梅;陈明;朱有娜;;一种基于密度的无参数聚类算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
5 魏昕路;洪志令;姜青山;;一种基于样本缩减策略的新窗口式聚类算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
6 程尊平;周鼎;王晨;周皓峰;汪卫;施伯乐;;SDPHC——基于密度的分割和分层的自校聚类算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
7 张晓峰;王丽珍;陆叶;;一种基于属性加权的不确定K-means聚类算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
8 蔡军;袁华鹏;陈金海;施伯乐;;一种基于相似性分析的聚类新算法:PDS算法[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
9 胡仲义;郭超;王永炎;刘胜航;王宏安;;基于时间衰减和特征变量的数据流聚类算法[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
中国博士学位论文全文数据库 前10条
1 王振佳;基于基因表达数据的双聚类算法研究[D];山东大学;2016年
2 胡雅婷;可能性聚类方法研究及应用[D];吉林大学;2012年
3 王纵虎;聚类分析优化关键技术研究[D];西安电子科技大学;2012年
4 周世兵;聚类分析中的最佳聚类数确定方法研究及应用[D];江南大学;2011年
5 杨燕;基于计算智能的聚类组合算法研究[D];西南交通大学;2006年
6 冯永;基于计算智能的聚类技术及其应用研究[D];重庆大学;2006年
7 刘晨;高伸缩性聚类分析方法研究[D];哈尔滨工程大学;2013年
8 王强;局部叠加基因表达模式聚类分析方法研究[D];哈尔滨工业大学;2012年
9 姜磊;混合演化聚类算法研究及其应用[D];武汉大学;2012年
10 尹学松;半监督聚类分析策略设计及其拓展性研究[D];南京航空航天大学;2009年
中国硕士学位论文全文数据库 前10条
1 魏建东;K-means初始化算法研究[D];南京理工大学;2015年
2 张依;基于MapReduce的k-means聚类算法并行化研究[D];中央民族大学;2015年
3 刘婵;蚁群与K均值聚类算法融合研究及其在用户分群中的应用[D];西南科技大学;2015年
4 朱琪;基于减法聚类的混合算法研究[D];湖南科技大学;2015年
5 韩伟森;聚类集成研究与应用[D];贵州大学;2015年
6 谭浩;K-Means算法改进及其在森林健康评价中的应用[D];中南林业科技大学;2015年
7 严巍;以KPCA为核心的FCM算法改进[D];成都理工大学;2015年
8 汪娟;基于权重设计的聚类集成算法研究[D];重庆大学;2015年
9 牛品菽;基于图模型的高效聚类算法研究[D];北京交通大学;2016年
10 蔡洪山;大数据分析中的聚类算法研究[D];安徽理工大学;2016年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026