收藏本站
《燕山大学》 2016年
加入收藏

基于连续属性离散化的属性偏序理论的知识发现

康燕茹  
【摘要】:计算机技术的迅猛发展和数据库系统的普遍使用,给人们提供了强有力的平台,去更好地利用信息技术进行生产,而且搜集和检索数据的能力也有显著提高。丰富多样的信息感知和采集设备引领我们步入大数据时代。然而,采用什么样的手段和技术从海量数据中发现对决策非常有价值的规则和知识,成为前沿科技亟需解决的关键问题。数据挖掘与机器学习作为处理数据的重要手段,已然成为当今研究的一个热点问题。但是,许多知识发现和数据挖掘的算法得以进行的先决条件就是所要处理的属性值是离散值,而在现实生活中得到的数据常常是连续属性,所以必须对连续属性进行离散化处理。本文通过以UCI数据集的知识发现和规则提取为基础,通过主流连续属性离散化方法的对数据集中的多维属性值进行离散化处理,并且以形式概念分析理论的形式背景的可视化表达为重要手段,运用离散化处理后的数据结果构建二值形式背景,以形式背景分层优化和属性偏序结构图生成方法为关键环节,生成不同数据集的属性偏序结构图,进行知识的规则提取,通过与数据集的分布特点及类标签来比较,对离散化方案进行评估。主要内容如下:1)建立了基于形式背景的知识表达原理的混合数据集成框架,实现各种数据在一个框架下可视化表示和基于属性偏序结构理论实现的数据挖掘。2)研究了基于优化形式背景生成偏序结构原理的知识发现数学方法,生成了基于属性覆盖对象(或者对象覆盖属性)原理的数据偏序结构图。3)针对现有离散化算法在高维数据处理中的局限性,研究了一种基于非线性降维技术的高维数据离散化方法-改进局部线性嵌入算法,实现基于连续属性离散化的属性偏序理论的知识发现。本文通过对UCI数据集的降维及离散化处理后,有着更高精度的知识,简化了复杂的知识规则,对大数据的知识规则提取及可视化有重要意义。
【关键词】:属性偏序理论 连续属性 离散化 知识发现 高维数据
【学位授予单位】:燕山大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13;O153.1
【目录】:
  • 摘要5-6
  • Abstract6-10
  • 第1章 绪论10-18
  • 1.1 引言10-11
  • 1.2 课题背景及意义11-12
  • 1.3 国内外研究现状12-16
  • 1.4 本论文主要研究内容16-18
  • 第2章 离散化问题描述18-36
  • 2.1 引言18
  • 2.2 认知事物的基本哲学原理18-20
  • 2.3 模式可分原理20-24
  • 2.4 形式背景基础属性与对象特征的定义24-28
  • 2.4.1 形式背景中属性特征的定义24-26
  • 2.4.2 形式背景中对象特征的定义26-28
  • 2.5 形式背景预处理及优化28-31
  • 2.5.1 形式背景的预处理28
  • 2.5.2 形式背景的分层优化28-31
  • 2.5.3 混合数据偏序图的生成方法31
  • 2.6 离散化问题描述、过程及目标31-35
  • 2.6.1 离散化问题描述31-33
  • 2.6.2 离散化过程33
  • 2.6.3 离散化目标33-35
  • 2.7 本章小结35-36
  • 第3章 基于改进的局部线性嵌入的高维数据离散化方法36-54
  • 3.1 引言36
  • 3.2 局部线性嵌入算法36-37
  • 3.3 改进的局部线性嵌入算法37-41
  • 3.4 典型的数据离散化算法41-48
  • 3.4.1 等距离划分算法和等频率划分算法41-42
  • 3.4.2 基于贪心搜索思想的启发式算法42
  • 3.4.3 基于属性重要度的离散化算法42-43
  • 3.4.4 基于信息熵的粗糙集离散化算法43-45
  • 3.4.5 基于CAIM的离散化算法45-48
  • 3.5 基于改进的CAIM的离散化方法48-50
  • 3.6 算法及性能评估50-52
  • 3.7 本章小结52-54
  • 第4章 滚动轴承振动信号的故障诊断的知识发现54-64
  • 4.1 引言54
  • 4.2 轴承故障数据54-55
  • 4.3 轴承振动信号的知识发现55-63
  • 4.4 本章小结63-64
  • 结论64-65
  • 参考文献65-70
  • 致谢70

【相似文献】
中国期刊全文数据库 前10条
1 孙英慧;孙英娟;蒲东兵;姜艳;;一种基于连续属性离散化的知识分类方法[J];东北师大学报(自然科学版);2012年01期
2 沈东升;一种连续属性离散化的新算法[J];漳州师范学院学报(自然科学版);2003年04期
3 巩建闽,王国胜,萧蓓蕾;保持分类能力不变的一种连续属性离散化方法[J];曲阜师范大学学报(自然科学版);2005年01期
4 刘伟;;基于粗集的连续属性离散化方法[J];吉林师范大学学报(自然科学版);2006年04期
5 桑琳;宫悦;陈斯;高连阳;徐满华;;基于粗糙集的连续属性离散化算法及其应用[J];高师理科学刊;2008年02期
6 张文宇;;数据挖掘过程中连续属性离散化新方法研究[J];数学的实践与认识;2007年10期
7 谢宏,程浩忠,牛东晓;基于信息熵的粗糙集连续属性离散化算法[J];计算机学报;2005年09期
8 李刚;段隆振;孙焱平;;基于信息增益的多连续属性离散化算法改进[J];江西科学;2009年02期
9 易韬辉;粗糙集理论的连续属性离散化的一种方法[J];长沙航空职业技术学院学报;2004年01期
10 周凡程;吴孟达;王丹;;基于Shadowed Sets的连续属性离散化[J];模糊系统与数学;2012年02期
中国重要会议论文全文数据库 前2条
1 阙夏;胡学钢;张玉红;;基于区间类信息熵的连续属性离散化方法[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
2 田学全;;一种基于模糊关系的连续属性离散化方法[A];第六届中国不确定系统年会论文集[C];2008年
中国硕士学位论文全文数据库 前10条
1 康燕茹;基于连续属性离散化的属性偏序理论的知识发现[D];燕山大学;2016年
2 刘磊;连续属性离散化相关研究及应用[D];辽宁师范大学;2008年
3 姜国强;基于最近邻聚类的连续属性离散化算法研究[D];郑州大学;2009年
4 桑雨;粗糙集连续属性离散化方法研究[D];辽宁师范大学;2008年
5 阙夏;连续属性离散化方法研究[D];合肥工业大学;2006年
6 林汀辉;连续属性离散化方法的研究及其在入侵检测中的应用[D];厦门大学;2009年
7 李慧;基于粗糙集理论的连续属性离散化算法研究[D];辽宁师范大学;2010年
8 李真;多值数据转换成单值定性符号的数学方法研究[D];燕山大学;2012年
9 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
10 孔祥明;基于变精度粗糙集的连续属性离散化方法及数据预处理方法[D];东北师范大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026