2003-09-24 15:09
IBM中国研究中心 潘越博士
潘越博士于1998年加入IBM中国研究中心工作至今。他1996年于中国科学院自动化研究所获博士学位,曾就职于信息产业部信息化工程总体研究中心。先后主持过国际互联网内容选择平台(PICS)、跨语言检索(Native Search)、中文知识门户技术(Chinese Knowledge Portal)、市场情报门户(Market Intellig ence Portal)等项目的研究开发。目前的研究兴趣包括信息检索、自然语言处理、知识的表示和推理等。
知识就是以文字或语言的形式保存的信息资源与人头脑中具有的经验、思维的综合,它通常隐性地存在,不容易直接为人们发现。知识管理就是对知识加以有效的识别、获取、存储、分解、利用、传递和扩展的过程,从而改进和提高个人、部门和组织的创新能力、响应能力、生产力和技能素质。它可以在适当的时候把相关的信息与知识传送到适当的人员,使其能够有效地利用信息与知识,采取行动,产生效益。知识管理实际上是对人与信息资源的动态管理过程,人是知识管理的核心,信息是知识管理的基础,创新和效益是知识管理的最终目标。
知识管理技术是实现有效知识管理的基础,是协助人们识别、获取、存储、分解、利用、传递和扩展知识的一种技术体系。它包括的技术内容非常繁多,其中最重要的是文档管理技术、文本挖掘与检索技术、企业知识门户技术等。
主要知识管理技术
(1)文档管理技术
知识管理技术中的文档管理不是信息技术里的文件管理,更类似于档案管理。它具有分类归档、外部特征管理、关键词管理等功能。分类归档功能用于把各种体裁的文档纳入知识管理系统的文档管理系统中,包括新闻稿、产品说明书、设计资料、演示文档、工作报告等企业运营中产生的各种文档,同时系统还能将上述文档在目录中列出、打开和编辑。外部特征管理功能,能自动提取文档的外部特征,并允许按文档外部特征进行检索。关键词管理功能允许使用者给出文档的关键词以便检索。文档管理最重要的价值在于将原先要由不同系统处理的各类文档集中在一个平台下统一管理。
(2)文本挖掘与检索技术
知识管理技术的最大瓶颈是如何在海量的非结构化文档中又快、又准、又全地找到用户所需的文档。毫无疑问,检索是知识管理的核心技术,检索的效率和质量决定了知识管理解决方案的优劣。
检索技术通常采取两种方案:一是将文档归入一个有序的结构,再按结构规则提取文档(检索),这种方法也被称为文本挖掘(text mining);另一种方案是不建立结构,在检索时,用户自由地输入检索词或短语,由系统进行匹配,并将匹配到的文档按检索词出现频率的统计规则提供给用户,即全文检索。
结构化方案本身又可分为两种:一是由机器根据文档特征,按一定算法自动建立有序的结构,并将文档归入该结构;其二是人工建立结构,再人工将文档归入结构。第一种方法的代表产品是IBM的Text Miner。第二种方法通常采用的结构是树状分类表,文档内容按分类表归入某一个最终子类,检索时可按树状结构一层一层地找到文档。除分类表外,还有另一种方法——主题词表。它将本领域的主要概念(主题词)收集在一起,按文档内容所涉及的主题,从主题词表中选出若干个概念,作为该文档的标识,并存入数据库。以后,只要从主题词表中选出合适的主题词,就可以提取文档。
(3)企业知识门户技术
企业知识门户现在已经成为知识管理系统的标准配置。对用户来说,企业门户是信息系统的唯一界面,日常工作的一切事务都可在企业门户中完成。例如,在企业门户中可以打开各类文档进行编辑、访问数据库、访问Internet和Intranet、收发邮件、进入工作流操作等。企业门户还可以按不同需求定制。总之,企业门户试图将日益复杂的应用集成到一个统一的平台上。
除此之外,知识管理技术还包括数据仓库、工作流、专家系统、商业智能等技术。但是由于理解不同,至今为止还没有统一、科学和规范的知识管理技术分类标准。
针对中文的知识管理技术
中文是世界上使用人口最多的语言,但现代信息技术对中文的贡献却远远落后于其它语言。目前成熟、领先的知识管理技术都针对于英语、法语等语种,在中文内容的理解、检索和表示上都存在着或多或少不尽人意的地方,对中文内容管理技术的投入也远远低于其他语言。此外,中国企业的管理体制与西方大不相同。如果直接应用国外的知识管理工具,可能会存在很多水土不服的地方。因此需要针对中文知识管理专门开发一些技术。
IBM一直致力于中文自然语言理解技术的研究,并且在此研究基础上,开发出了一系列用于中文知识管理的技术,包括中文智能检索技术,中文摘要智能生成技术,中文文本自动分类技术,中文文本自动聚类技术,中文主题检测与追踪技术以及中文文本消重与相似检索技术。在这些技术中,IBM采用了最新的自然语言处理算法,通过运用这些技术,可以大大提高中文信息检索速度和质量,从而加快中国企业信息化和管理科学化的发展。
中文智能检索技术:中文智能检索技术是为知识发现提供服务的一项技术。它一般包括索引创建、查询处理和结果排序等内容。为了提高中文检索的速度和准确性,IBM的中文智能检索技术在检索的整个过程中都使用了先进的中文处理技术,同时还考虑最终用户的使用环境与习惯,使查询结果能够最大程度地满足用户的要求,从而提高用户的查询效率。
文本自动分类技术:分类是为知识管理提供文件分类归档的一种重要方法。通过分类,用户可以更快速、精准、有效地取得并处理所要的数据。在文本自动分类技术中,用户只需要事先定义好分类器的架构,并经过适当的训练,之后系统便可以依据分类器的内容对新的文本自动分类。分类时,除了用参考以前训练样本的统计数据外,用户还可以指定特殊的规则进行分类时的参考。这个技术可应用在多个领域中,例如:在网站管理中,管理员可以建立并训练好分类器,以后每当有新的文章到来时,就可以利用分类器快速得知它属于哪个类别。
文本自动聚类技术:自动文件聚类技术是为知识管理提供文件分类归档的另一种重要方法,它可以让用户对大量的文章进行快速且粗略的分类。用户事前完全不需要对系统进行训练,系统会根据文件的内容,自动将内容相近的文件归成同一类。通过本技术,使用者可以对大量的文章进行快速的分类。
自动摘要生成技术:自动摘要生成技术可以针对中文文档摘取出重要的句子,产生属于该文档的摘要。应用这个技术,用户可以快速从多篇文章中,挑出重要的或感兴趣的文章阅读。使用时,使用者可动态决定生成摘要的大小,摘要的内容,并可针对多篇文章产生一份摘要。
主题侦测与追踪技术:主题侦测与追踪技术包含了主题侦测和主题追踪两个功能。用于发现输入流中的新主题,并自动跟踪相关主体的文章,可应用于很大的文档集合。
自动查重和文章相似检索技术:自动查重和文本相似检索技术可以帮助用户自动发现重复文章、相似文章,可以应用于文档查重等诸多领域。
IBM所提供的这些中文信息检索技术不仅满足了中国企业知识管理的简单、快速、全面、精确的要求,通过与数据库管理软件IBM DB2 / Content Manager / Information Integrator的集成,将大大提高了工作效率和知识发现能力,而且还进一步巩固了IBM在该领域的领先地位。目前,这些技术正在一些领域得到广泛应用。
转自:新浪