深蓝海域KMPRO

非结构化数据管理与知识提炼

2017-02-12 17:52

   随着互联时代的到来,企业面对的信息呈现爆炸式增长,据Forrest Research的统计资料表明,其中20%左右的信息有效地存储在了各种类型的结构化数据库中,但是还有80%非结构化信息分散在组织的整个业务过程及外部环境中。如何有效管理大量的非结构化数据,同时在此基础上抽取、提炼出对组织决策有辅助作用的知识,是现在所有学习型组织的基本要求。
  非结构化数据管理目的是在组织现有的分散应用环境下,把原来分散的部门和组织,通过系统的集成使其相互关联,形成广泛的、相互关联的组织应用环境。它在组织系统的构架层次上,为组织的信息流建立了一个跨越多种分散的、内部和外部的信息处理过程的系统链,完全淡化了传统的内外部分界。


  如何实现有效非结构化数据管理

  针对当前组织的需求,非结构化数据管理首先是要支持广泛的数据源(结构化和非结构化数据),包括ERP系统、Lotus Notes、数据库、文字处理和表格文件等。通过从后台系统(如数据库、ERP等)抽取业务信息、建立索引并映射到基于Internet和Intranet的内容。
  其次,非结构化数据管理必须有一个强大的、可扩展的系统用于存储和组织数据。由于后端结构数据库或者文件系统是动态的、异构的,这意味着自动抽取数据源并递交给桌面是一种非常复杂的连接,需要一种灵活的、可扩展的信息抽取机制和个性化的界面定制工具。


  知识管理系统的架构

  数据集成、应用集成和知识集成是非结构化数据管理从低到高的三个不同层面。知识集成实现将组织已建立的非结构化数据库,按照业界先进的信息采集、信息分类算法,通过系统自身对信息的理解,将信息依照用户的需求,充分有效地集成为整体。而后通过系统提供的前端工具,为用户提供所需主题、类别的相关信息,建立每个系统用户的个人档案,实现信息个人化、信息提示、信息检索等对信息利用的所有功能。

 



  实现上图所示功能,系统也必须具有知识检索引擎、知识聚类模块和用户管理模块。

 



  知识检索引擎实现概念分析、内容提取、概念模式识别、相关度计算、全文检索等关键工作。知识聚类模块负责提供诸如自动分类、自动信息群识别等功能。用户管理模块提供用户自动建档、档案搜寻、档案分析、档案实时自动更新等功能,实现用户信息个人定制。

  知识提炼技术特点

  作为知识管理系统的关键是分类算法,以及基于算法之上的知识提供途径和手段。随着技术不断的发展,分类算法现已比较成熟,实际应用比较广泛的有两种分类算法:基于内容分类和关键词分类。关键词的分类基本都是以空间向量模型为算法基础,国内外都有很成熟的产品,如Verity、Excalibur和TRS等。而近年来,基于内容的分类方法也得到了长足的进步,出现了Autonomy为代表的商业化产品。内容分类以贝叶斯概率理论和神经元网络为核心,可以识别与文字频率相匹配的自然文本模式及与特定概念相关的术语。然后,识别出在一组非结构化信息中出现频率高的模式,相应地确定某特定主题的概率百分比。然后对文档中的主要概念进行编码,因此就可以自动根据文本进行搜索、分发等活动。

  结论

  总之,组织所面临的是怎样将上述技术结合起来,从而有效地管理知识、提炼知识的问题,而这更主要地依赖于组织所要吸取的知识的类型。构建一个知识管理系统的难度差别极大。通过组合运用电子邮件、BBS和文档管理技术,你可以创建一个相当基本的知识管理系统。更为复杂的设计方案将起始于一个网络浏览器类型的用户界面,该界面是基于网络系统体系的;再下一层便是所谓的概念分类层,就是用于区分和确认各种知识的条目分类的系统。
  同时,知识提炼将重新塑造关于竞争和价值评估的基本信念。将现有的和新出现的技术进行创造性组合,并能为企业创造效益的知识提炼应具有以下特征:
  智能模式匹配:应该能够理解知识内容的上下文情境。例如,它应该能区分出医疗系统和金融证券的差别。 


 
  培训官:今天,你们应该掌握火腿的烤制。我的计算机里面有非常详细的录像培训资料,内容涵盖从小猪繁育到人体对蛋白质的吸收。如果需要加班,公司提供晚餐——你们自己做的火腿。
  完全个性化:应当能够根据用户的知识背景和经验对知识进行整理组织,按照用户的习惯与思想目标推送信息。
  灵活性:应能处理任何形式的知识,包括不同主题、结构和媒介,能将知识主题、内容按照用户的需求以自定义格式输出到相应媒介。
  后控系统智能:了解它的所有用户和系统内所贮存的知识,随着时间的流逝,它为使用者提供知识的能力应因此而不断提高。
  主动性:应能推断出用户的知识需求,并能超出用户所表达的需求对关联的知识作出提议。
  将来的知识管理技术应当建立在此基础上,即有更便于浏览与体现知识的视觉工具;更强大方便的自动化“无声”知识监控手段,能完全实现信息源的随时添加;添加信息库群体评价的机制以及更高级的能从无法图形化的音像等信息源挖掘知识的工具。尽管知识管理技术还有一段很长的路要走,但它所带来的效益值得人们普遍关注。

相关推荐