深蓝海域KMPRO

知识管理:支撑企业核心竞争力

2017-03-15 14:43

  知识管理与搜索引擎
  近10年,以信息为基础的组织或知识型企业焕发勃勃生机,创造和传播知识已经成为检验企业核心能力的关键要素,知识的创造和应用能力成为不折不扣的企业核心竞争力的强力支撑。
  知识管理,是针对知识本身的,包括对知识的创造、获取、加工、存储、传播和应用的管理。对于企业而言,知识除储存于员工的大脑中外,还根植于企业长期积累的各种文档,以及其他应用系统的数据当中。如何在企业庞杂的信息数据中挖掘出知识,则需要选择相关的工具,企业知识搜索引擎则是其中之一。
  针对企业知识搜索引擎的应用需求,来自于龙卷风科技设计开发的The Information Retrieval Management System R3 (IRMS R3),希望透过IRMS R3的开发平台,让搜索引擎技术能对企业知识管理应用提供更多的支持。
  数据整合
  企业内部的知识存在于各种信息载体当中,如办公文档(MSOffice PDF等文件)、企业网站、员工论坛、OA、CRM等应用系统数据。针对企业中庞杂的非结构文档,各种应用复杂的数据存储方式,IRMS R3中提出了虚拟数据库层 (Data Virtualization Layer)的概念。
  IRMS R3中虚拟数据库层的构思与该系统其它阶层采用的平台开发理念是一致的。在这个底层,虚拟数据库层分为数据提取层(Data Source Composer)和文件解析层(Data Extraction Layer),两个组件来协同进行各种复杂的数据存储格式的解析。
  其中,数据提取层(Data Source Composer)能分析在各种文件管理系统、内容管理系统(Documentum、FileNET等)或其它信息处理软件(IBM Notes、MSExchange、各种DBMS等)中所找到的分布式数据库数据。将企业内部的各个异构数据环境整合起来,使得企业知识搜索引擎可以覆盖企业内部所有的知识载体,让价值信息无一漏网。
  而文件解析层则能分析各种文件格式(TXT、 MS Office、PDF、EML、ZIP等),并对这些文件的各种属性进行提取,从而提供使用者可以通过文件属性,文件内容等多个维度定位需要的文档,获取信息,并将其转化为知识。
  为了适应不同企业更复杂的数据环境,这两个阶层提供灵活的扩展性,都可以通过简单的程序开发来支持企业内部独特的数据存储方式及文档格式。像龙卷风数据索引系统(Indexing System)和标准的检索组件(Standard Retrieval Components)都经过特别设计,能满足以双字节字符集(如繁简中文,日文等)格式或存有多国语系文件的跨国企业知识搜索引擎的需求。
  同时,IRMS R3符合行业标准、松散耦合的开放式的组件设计,能随时加入有新功能的组件或其它厂商的组件,从而强化系统功能。
  信息总线技术
  IRMS R3中信息总线 (Info Bus) 在整个信息平台具有承先启后的关键地位。一方面,它和底层的虚拟数据层整合,各种数据源会统一经过虚拟数据层的分析,并将取得的内容统一存放到信息总线上。同时,对于上层的IR组件模块(搜寻引擎模块、自然语言处理模块、自动分类模块等)而言,信息总线则扮演信息提供者的角色,统一将透过虚拟数据层粹取出来的数据进行集中管理,并提供各IR组件取用。如此一来,各个IR组件不需负担数据源分析的工作,直接读取信息总线上的数据,即可轻易取得各种异构数据源的内容。
  值得注意的是,IRMS R3 的信息总线并不是单纯的数据储存点。为配合信息检索(Information Retrieval)的信息处理需求,R3的信息总线是被设计成一个队列式(Queue)的储存架构。一开始,所有从虚拟数据层取得的数据会先被置放在队列储存中心(Queue Store)集中管理。等到上层的各个IR组件要开始处理数据时,在队列储存中心(Queue Store)的资料会被移转到处理储存中心(Process Store)。这样可以确保原始数据的内容选取以及内容分析可同时并行。最后,当各个IR组件完成所需的数据分析,数据会被统一搬移到历史储存中心(History Store),方便将来如果有个别IR组件需要重新读取数据内容时,直接读取位于历史储存中心的数据,即可取得完整的数据内容。
  知识地图和关键词检索
  Delphi Group曾经做过的一份调查显示,一般人最希望的知识管理工具,「搜索引擎」和「自动分类」排名在前十名之中。因此,企业内若要让知识的利用率提高,提供完整的信息检索工具是必然的工作,但必须了解
  导览(Navigation) + 搜索(Search) = 完整的信息检索方式
  因此,对于企业知识搜索引擎而言,单纯的关键词检索仅能提供对已知关键词汇下的查询,而构建企业知识地图对于知识搜索则是十分必要的。
  IRMS R3中的自动分类组件提供了以机器自动学习技术为基础的内容/消息分类器(Content/Message classifier),可将暨有的内容或消息分类到预先定义的目录树中,或是更进一步的透过训练机制来做分类工作。基于IRMS R3的自动分类组件构建企业知识地图,使得使用者结合导览+搜索的完整信息检索方式,更快更准确的在企业信息数据中发现所需知识,以便应用,开拓创造思维。
  同时,IRMS R3提供最新的导览式动态分类服务,它整合了全文检索(Full-Text Search)以及自动分类(Auto-Classification)的两大信息检索技术,提供使用者一个完整的信息检索应用情境。
  IRMS R3 导览式动态分类服务将分类与搜索接口进行了完美的结合,使用者除了可以利用全文检索取得符合查询条件的结果集并且逐一浏览,还能够进一步实时的取得该查询集合对应于整个信息分类(知识地图)的分布情况。使用者可以在最短时间内了解整个查询结果集合的特性及分布情况,同时也能有效率地从众多数据集合中筛选出切合自己需要的目标信息。
  
  Java/MS COM Model
  
  ●相关链接●
  企业级搜索引擎的特点
  企业网络基础设施的逐步完善,企业业务系统和应用系统纷纷上马,导致企业积累的信息资源迅速膨胀,甚至出现了诸如“拯救被信息淹没的企业”这样的呼吁。于是,企业级搜索引擎的发展日益引人注目。与互联网搜索引擎相比较,企业级搜索引擎具有以下特点:
  GB级索引数据量
  面向企业本身的数据或与企业相关的数据,索引库规模在GB级,数据量至多以千万条计。
  多源异构数据类型
  多源异构的复杂数据结构,结构化(关系型数据库)、非结构化(HTML、Office系列、文档文件系统和邮件系统等)和半结构化(XML等)数据资源;以文本、数值以及多媒体形式存在的数据资源,可能分布在不同介质的载体和操作管理平台上。
  数据实时更新
  企业内部的搜索结果往往关系到企业的运营与决策,因此必须实时反应企业信息更新,动态更新索引,保证数据一致性。
  内容相关性
  数据源中相互链接的程度不高,只能是基于内容的相关性排序。
  严格的安全性
  做为企业级搜索引擎应能够继承数据库原有的安全机制,更要能让用户在其访问权限范围内返回相应的查询结果。
  全面搜索
  衡量搜索引擎性能的指标之一是查全率(Recall),即检索出的相关结果与网络资源库中所有相关结果的比率。互联网搜索引擎无法做到全面搜索,因为任何一个搜索引擎服务商都无法穷尽互联网上的每个网页。而企业级搜索引擎在某些应用中,是不允许有所遗漏的检索。
  准确搜索
  衡量搜索引擎性能的另一个指标是查准率(Precision),即检索出的相关结果与检索出的所有结果的比率。互联网搜索引擎受到海量数据(TB级甚至更高)和庞大用户数的限制,相对而言,企业级搜索引擎在提高信息检索结果的精度上,可以走得更远。
  对一个检索系统来讲,查全率和查准率不可能两全其美,目前有的企业级搜索引擎通过提供更加复杂细致的检索选项和检索表达式,或者是提供一些可调节的系统参数,来部分满足两全其美的需求。
  个性化检索
  基于智能代理技术(Intelligent Agents Technology)的信息过滤和个性化服务。

相关推荐