数据挖掘的主要技术
数据挖掘可以用到的技术有决策树法:神经网络法、遗传算法、统计分析方法、粗集方法、可视化方法。
1、决策树法
决策树法就是以信息论中的互信息(信息增益)原理为基础寻找数据库中具有最大信息量的字段建立决策树的一个结点,再根据不同取值建立树的分支;在每个分支子集中重复建立下层结点和分支,这样便生成一棵决策树。然后对决策树进行剪枝处理,最终把决策树转化为规则,再利用规则对新事例进行分类。典型的决策树方法有分类回归树(CART)、D3、C4.5等。该方法输出结果容易理解,实用效果好,影响也较大。
2、神经网络法
神经网络法建立在可以自学习的数学模型基础上。它是由一系列类似于人脑脑神经元一样的处理单元组成,那就是节点(Node)。这些节点通过网络彼此互连,如果有数据输入,它们便可以进行确定数据模式的工作。神经网络法对于非线性数据具有快速建模能力,其挖掘的基本过程是先将数据聚类,然后分类计算权值,神经网络的知识体现在网络连接的权值上,该方法更适合用于非线性数据和含噪声的数据,在市场数据分析和建模方面有广泛的应用。
3、遗传算法
遗传算法是一种模拟生物进化过程的算法,由三个基本算子组成:繁殖、交叉(重组)、变异(突变)。在遗传算法实施过程中,首先要对求解的问题进行编码(染色体),产生初始群体;然后计算个体的适应度,再进行染色体的复制、交换、突变等操作,最后产生新的个体。经过若干代的遗传,将得到满足要求的后代(即问题的解)。该方法计算简单,优化效果好,适合于聚类分析。
4、统计分析方法
统计分析方法是利用统计学、概率论的原理对数据库中的信息进行统计分析,从而找出它们之间的关系和规律。常用的统计分析方法有:判别分析、因子分析、相关分析、多元回归分析、偏最小二乘回归方法等。统计分析方法是最基本的数据挖掘技术方法之一,可用于分类挖掘和聚类挖掘。
5、粗集方法
在数据库中,将行元素看成对象,列元素看成属性,等价关系R定义为不同对象在不同属性上的取值相同,这些满足等价关系的对象组成的集合称为该等价关系R等价类。它是一种分析不完整性和不确定性的数学工具,可以有效地分析不精确、不一致、不完整等各种不完备的信息,还可以对数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律。该方法适合于不精确、不确定、不完全的信息分类和知识获取。
6、可视化方法
可视化方法是一类辅助方法,它采用比较直观的图形图表方式将挖掘出来的模式表现出来,其大大拓宽了数据的表达和理解力,使用户对数据的剖析更清楚。