2017-03-02 16:05
知识资源计划是一种管理方法,同时也是一种可运行的信息系统。在知识资源计划中主要涉及知识表示、知识存储、知识发现和知识使用支撑组件等关键技术,以下对这四方面的关键技术进行简要分析。
1、 知识表示技术
人类对知识的认识和获取经历了一个漫长的过程。知识最原始的记载形式是信号,从信号到数据再到信息直到知识。在信息科学中,数据定义为事物、概念或指令的一种形式化的表示形式,以适合于用人工或自然的方法进行通信、解释或处理。信息是数据表达的客观事实。在上世纪四十年代,香农(Shannon)研究了信息的数学本质,用熵的概念来研究信息的容量,以比特为信息的度量单位,开辟了信息研究的新篇章。知识则是经过加工和改造过的信息。所以说,知识与信号、数据、信息之间密不可分,它们是四个不同层次的概念,其中信号是最底层,然后是数据、信息,知识位于最上层。它们四者的区别如表1所示:
表1 信号、数据、信息和知识的区别
名称 |
特征 |
示例 |
信号 |
物理特征表示 |
红灯、绿灯…… |
数据 |
未经处理的原始材料 |
张三、男、26岁…… |
信息 |
有意义的数据 |
SOS…… |
知识 |
具有一定目的的信息,并能导致一定的行动 |
紧急警报à开始营救行动 |
知识可以认为是在实践中应用并证实一个有组织的概念或框架时产生的结果,由一个包含语义信息的特征集以及与之相关的约束和规则集组成。知识表示则是描述这些结果所作的一组约定并易于被计算机接受和处理的一种表现形式。而知识表示方式常常取决于人类知识的结构及其机制。从工程的角度,知识被理解为有助于解决问题的可复用的模式化的信息,一般的表示形式为:概念、规则、规律、模式、约束和可视化。这些知识可以直接提供给决策者,用于辅助决策过程,或者提供给领域专家,修正己有的知识体系,也可以作为新的知识存储到应用系统的知识存储机构中,例如专家系统、规则库等。
知识表示领域的核心是解决如何进行信息的编码并以推理计算模型加以利用。传统的知识表达模式有谓词逻辑方法、框架表示方法、产生式规则、状态空间搜索方式、语义网络、脚本方法、过程式方法、直接表示法、面向对象的知识表示方法等。近几年,由于将本体引入知识工程领域,知识表示领域又出现了一些新的方法。近年,有专家认为知识表示由三个主要部分组成:逻辑、本体和计算。逻辑提供了通过逻辑运算从现有知识演绎出新的逻辑描述的功能;计算则是指确定一个描述是否能够从给定描述演绎得出的过程。Ontology本体是自然事物及其关系的研究,在知识表示中又被称为形式化本体和计算本体,是某个领域事物的符号描述,方便知识共享和重用的实现。
2、 知识存储——知识库系统技术
知识库系统是近十几年发展起来的一个综合性方向,它是目前知识存储领域主要的技术。由于知识库系统技术集成了知识表示、知识获取及问题求解等人工智能领域的最新成果,它又和数据库紧密地结合在一起。因此,知识库系统广泛应用于设计、决策、诊断、控制、教学等领域,并成为人们研究的热点。
对于知识库系统的定义,目前还没有统一的形式化描述。一般地,知识库系统是一个完整的系统,它是以知识库为核心的,包含人、硬件和软件的各种资源,用于实现知识共享的系统。知识库是经过合理组织的关于某一特定领域的陈述型知识和过程型知识的集合,知识通过一定的表示,存储在知识库中。知识库与传统的数据库不同,知识库不但包含大量的简单事实,还包括了用于推理及问题求解的条件和规则。
知识库系统实现需要解决知识表示、知识使用和知识获取及发现三个关键技术问题,即知识采用什么形式表示,使计算机能对之进行处理,并以一种人类能理解的方式将处理结果告知人们。知识利用则是指利用知识库中的知识进行推理,从而得出结论的过程。知识获取及发现是指从知识源获得知识来建造知识库,并可以从已有的知识库中发现新的知识。
图1 知识库系统运作流程
3、 知识发现技术
知识发现的研究始于从数据库中发现有用模式这一概念,并先后具有不同的术语,如数据开采、知识提取、信息发现、数据模式处理以及数据库中的知识发现。简言之,知识发现就是在信息环境下,从大量现有的或历史的数据集合中提取可信的、新颖的、有效的并能被人理解的模式的处理过程。它的应用对象是大型数据库、文档库或知识库,目标是发现数据库中规律性的知识。
一般来说,知识发现分为六个步骤:数据清理、集成、选择、挖掘、模式评价和知识展现。数据清理可以消除噪声和不一致的数据,使数据信息均一化;数据集成是将各种数据组合在一起;数据选择是从知识库中检索与分析任务相关的数据;数据变化将数据统一变换成适合于挖掘的形式;数据挖掘是知识发现的核心部分,使用智能方法提取数据模式;模式评价是根据某种兴趣度度量,识别表示知识真正有趣的模式;知识展现是使用可视化的方法将挖掘得来的模式展现给用户。
表2 知识发现的分类
任务 |
对象 |
方法 |
1、 分类或预测模型发现;
2、 数据总结、聚类、关联规则发现;
3、 序列模式发现;
4、 依赖关系和依赖模型发现;
5、 异常和趋势发现; |
1、 关系型数据库;
2、 面向对象数据库;
3、 空间数据库;
4、 时态数据库;
5、 文本数据库;
6、 多媒体数据库;
7、 Web/Internet |
1、 机器学习方法(决策树、规则归纳学习、基于事例学习、遗传酸法等);
2、 统计方法(多元回归、自回归、贝耶寺判别、费歇尔判别、非参数判别等);
3、 神经网络方法、数据库方法;
4、 可视化 |
4、知识使用支撑组件技术
海量数据、信息爆炸和异构的分布性知识,极大的阻碍了人们对知识的利用,对知识的创新也无法通过知识资源计划的组织来实现。既然知识资源计划是一个可执行可操作的系统,所以,要将相应的方法以及具体的需求加以实现必须由支撑组件技术提供支持。如前文所述,知识资源的使用分为两大部分:知识集成与知识共享。知识集成和知识共享之间存在互相依赖的关系,集成的目的为了共享,共享又能促进知识的更全面的集成。
知识集成旨在通过共享标准的综合数字信息来实现资源的高效组织,将分散的知识元素依据一定的逻辑规则有机结合在一起,使知识有序化、层次化,从而高效的利用信息资源,实现知识共享,有利于知识创新。知识共享是建立在知识集成的基础之上的,通过集成,实现异构系统之间的信息标准的统一,加强系统的问题求解能力,实现知识处理系统间的互操作性。
目前,对知识集成的研究主要分为四大方向:结构化集成、基于特征的集成、模型驱动集成、面向对象的集成。其中所使用的支撑技术还是以基于不同开发平台的网络组件技术为主,如基于J2EE平台的EJB技术,基于Microsoft的COM技术,以及基于.NET平台的Web Service技术等,这些技术都存在一个共同的问题:尽管它们都号称能够实现跨平台使用,但是异构平台的集成性能不是很好,例如, 使用Java开发的EJB组件很难在Microsoft的平台上使用。