深蓝海域KMPRO

从内隐到外显-浅谈知识挖掘(AMT研究院 管灿)

2004-09-08 09:37

数据库对大家来说早已不是一个陌生的概念,数据库系统提供了对纷繁复杂资料的管理和简单处理,人们可以利用这些资料进行商业分析和科学研究。但随着全球范围内资料量的急剧增加,面对庞大的数据库人们的需求已经不只是简单的查询和维护,而是希望能够对这些数据进行较高层次的处理、分析以得到关于资料、信息总体特征和对发展趋势的预测。尤其是知识管理概念的提出,对知识的有效收集、利用和共享提出了更高层次的要求,作为知识管理支撑工具之一的传统资料挖掘技术已经不能完全满足知识管理所提出的需要,于是知识挖掘应运而生。

知识挖掘技术的提出

根据Nonaka提出的著名知识螺旋图(图1)。我们明确了知识挖掘在知识管理中所起的作用。


图1 知识螺旋图

这副图说明组织中的知识不断在进行着隐性知识和显性知识的相互转化,而知识管理所要实现的,就是组织中个人的隐性知识(即内隐)到组织的显性知识(外显),再到组织的内部知识之间的转化。知识管理就是要为这样的转化创造条件,以促使转化的顺利完成,从而实现知识在组织中的有效利用和共享。在这个过程中,在从个人的内隐知识转化到组织的外显知识时,需要知识挖掘技术这个有利的支持工具。

知识挖掘的概念

知识挖掘的定义几经变动,最新的描述性定义是由Usama M.Fayyyad等给出的,即认为知识挖掘是从资料集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。这个定义可以这样来理解:资料记录的是有关事实的集合,是一些原始的信息。模式是一个用语言来表示的一个表达式,它可用来描述资料集的某个子集。对大量资料进行分析的过程,包括资料准备、模式搜索、知识评价,以及反复的修改求精,是一个非平凡的过程。因为,它要求一定程度的智能性、自动性。这个有效性,体现在发现知识的模式对于新的资料仍保持有一定的可信度。新颖性则要求发现的模式必须是新的。潜在有用性是指发现的知识在将来有实际效用,如用于决策支持系统里可提高经济效益,而可理解性体现在发现的模式能够被用户理解。

知识挖掘将无序的信息变为有序的知识,提高信息的共享程度和使用效率。知识挖掘中要研究机器学习理论,包括学习的计算复杂性和样本复杂性;研究挖掘有效的方法和算法,各种算法的评价体系,等等。

知识挖掘与数据挖掘

谈起知识挖掘,就不能不提到数据挖掘,直到现在理论界对于这两种技术仍然没有明显的区分。从某种意义上来说,两者同属于一个概念,但侧重点又有所不同。

数据挖掘就是应用一系列技术从大型数据库或者资料仓库的资料中提取人们感兴趣的信息和知识,这些知识或信息是隐含的、事先未知而潜在有用的,提取的知识表示为概念(Concepts)、规则(Rules)、模式(Patterns)等形式。随着数据库信息量的日益庞大,数据挖掘的出现,是为了解决所谓“资料丰富,但信息贫乏”的状况。

到目前为止,数据挖掘技术经过一个这样的发展过程:第一代数据挖掘软件的特点是支持一个或少数几个资料挖掘算法,典型的系统如Salford Systems公司早期的CART系统。但是,如果资料足够大,并且频繁的变化,这就需要利用数据库或者资料仓库技术进行管理,第一代系统就不能满足需求。在第一代数据挖掘软件的基础上,经过增加一定的算法,人们推出了第二代数据挖掘软件。其具有的特点是与数据库管理系统(DBMS)集成,支持数据库和资料仓库,和它们具有高性能的接口,具有高的可扩展性,并且能够挖掘大资料集、以及更复杂的资料集,还可通过支持资料挖掘模式(data mining schema)和资料挖掘查询语言增加系统的灵活性。典型的系统如DBMiner,能通过DMQL挖掘语言进行挖掘操作。同样,第二代数据挖掘软件仍然有不足之处,如只注重模型的生成。但正因为研究如何和预言模型系统集成导致了第三代数据挖掘系统的开发。

知识挖掘的概念前面已经提到过了,知识挖掘属于知识科学中的概念。与知识科学相关的其它问题还有:知识的数学理论、知识的逻辑基础、知识模型、知识共享等。从更广的范围来讲,知识挖掘的概念要大于数据挖掘,对挖掘技术本身和挖掘的结果要求也更高一些。因为知识挖掘不仅仅要求所得知识的有用,还要新颖,有潜在价值,并能被客户理解。

知识挖掘的概念较之数据挖掘要新,但它已被越来越多的领域所采用,并取得了较好效果。这些领域有科学研究、市场营销、金融投资、产品制造、通信网路管理等。不过,知识挖掘目前仍处于发展的早期,还有很多研究难题和面临的挑战,如数据的巨量性、动态性、噪声性、缺值和稀疏性,发现模式的可理解性、价值性,应用系统的集成,用户的交互操作,知识的更新管理,复杂数据库的处理等等。

知识挖掘不同于搜索引擎

信息检索指文本信息检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索。从历史上看,信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个发展阶段。知识挖掘是信息检索的一个分支,目前主要是指文本挖掘技术,目的是帮助人们更好的发现、组织、表示信息,提取知识,满足信息检索的高层次需要,其具体内容包括摘要、分类(聚类)和相似性检索等方面。

搜索引擎的发展和应用得益于互联网技术的突飞猛进,搜索引擎技术中也普遍采用了全文信息检索技术,但互联网上的信息搜索和企业信息搜索是不同的,知识挖掘和搜索引擎的区别很容易理解:

首先是资料量。知识挖掘的一般索引库规模多在GB级,但互联网网页搜索需要处理几千万上亿的网页,搜索引擎的基本策略都是采用检索服务器群集,对大多数企业应用来说,这是不适合也不必要的。

其次是内容的相关性。Google等搜索引擎发展了网页链接分析技术,根据互联网上网页被连接次数作为重要性评判的依据。而真正在作知识挖掘时,由于组织内部网站的网页链接是由网站内容采编发布系统决定的,其链接次数存在偶然因素,这时的检索要求按照内容的相关性排序,即与检索要求最相关的信息排在检索结果的前面,链接分析技术此种排序基本不起作用。

再就是安全性。互联网搜索引擎都基于文件系统,但组织在采用知识挖掘技术时,其面对的信息、知识库一般会安全和集中地存放在资料仓库中以保证资料安全和管理的要求。

最后就是个性化和智能化的程度。由于搜索引擎资料和客户规模的限制,相关反馈、知识检索、知识挖掘等计算密集的智能技术很难应用,而组织专门采用的知识挖掘应用在智能化和个性方面要去更高,走得更远。

知识挖掘与知识发现

知识发现(KDD)是从资料、信息中发现有用知识的整个过程,这个过程具体包括:

1. 学习某个应用领域:包括应用中的预先知识和目标。

2. 建立目标资料集:选择一个资料集或在多资料集的子集上聚焦。

3. 资料转换:找到数据的特征表示,用维变换或转换方法减少有效变量的数目或找到资料的不变式。

4. 知识挖掘功能:决定资料 / 知识挖掘的目的。

5. 知识挖掘:搜索或产生一个特定的感兴趣的模式或一个特定的资料集。

6. 解释:解释某个发现的模式,去掉多余的不切题意的模式,转换某个有用的模式,以使用户明白。

7. 发现知识:把这些知识结合到运行系统中,获得这些知识的作用或证明这些知识。用预先、可信的知识检查和解决知识中可能的矛盾。

由上面的过程看来,可以认为知识挖掘是知识发现(Knowledge Discovery in Database)的一个特定步骤,它是一系列技术及应用,或者说是对大容量资料及资料间关系进行考察和建模的方法集,是从数据库中抽取隐含的、以前未知的、具有潜在应用价值的信息的过程,其目标是将大容量资料转化为有用的知识和信息。知识挖掘是KDD最核心的部分,知识挖掘的成败将直接影响到所发现知识的好坏。
知识挖掘技术是为实现知识从内隐到外显转化服务的。它和数据挖掘技术从某种意义上来讲有非常多的共同点,但其对结果的要求更高,更具价值性。知识挖掘不同于目前普遍为人所熟知的互联网搜索引擎技术,它针对的是某些特定的数据库、知识库,服务的是特定的组织相关人员。知识挖掘是知识发现的其中一个步骤,但是是最关键、最核心的部分。

相关推荐