深蓝海域KMPRO

架起结构化和非结构化数据之间的桥梁(AMT 唐晓辉 编译)

2004-01-13 15:36

什么是“非结构化数据”?大家为什么大声疾呼要求提供结构化数据呢?结构化数据指的是诸如企业财务账目和生产数据、学生的分数数据等存在逻辑关系的数据和信息,非结构化数据的则是一些文本数据、图像声音等多媒体数据等等。非结构化的数据通常占到一个组织所有信息的80%~90%,比如:Word和PowerPoint文档、电子邮件以及企业网内的时事通讯等等。公司的雇员总是抱怨在开始一个新项目的时候总要从头开始寻找相关资料,从一长串文件夹中找到他们要的资料总会花费他们大量的时间。IT部门正在努力让用户能够获取并尽量多的使用组织内的数据,想把这些数据和组织内更多的活动联系起来。现在的热门话题就是如何克服现有的关系数据库中面向记录的数据和非结构化的数据包之间的差距。企业中非结构化的电子文档数据越来越多,现在的首要目标是要知道一个企业如何利用所有可能的信息才能使企业的运作更加有效?但是很多公司、企业却发现这并不是一个简单的任务。

 首先,处理所有的原始数据是一个非常令人生畏的事情;其次,对一个特定的用户或者任务而言,并不需要所有的信息,因此很多IT部门开始只关注那些价值更高的应用,这些应用只使用到那些更容易“消化”的信息;甚至更为严重的是,一些IT部门只设计获取那些特殊应用的信息访问途径,这和企业更高层次的信息访问目标是相违背的。上述这些趋势可能会打乱企业的长期的计划。

 企业在信息访问方面的最大目标――对所有信息的智能化访问――要求企业能够支持对很多不同任务、部门以及涉及到很多个人工作的项目的信息的访问。知识工作者没有那么多的时间学习很多不同的操作界面或者去很多不同的地方把各种不同的信息收集到一起去完成他们的各种工作。这是我们首先要解决的问题。这种现实已经导致了门户网站这个概念的出现和实现。然而门户网站还不够,我们想要的并不是仅仅把所有的文档集中到一点(很多公众网就是这样的)。

 “企业搜索”只能通过浏览器一页一页的上翻下翻,根本不能满足企业现在的信息需求。很多更高级的功能――分类、信息可视化、数据挖掘和分析等等――正在被逐步开发利用,以优化企业的原始资料的搜索。如果这些功能能够有效的利用,这必将给用户对信息的访问带来极大的便利。

 但是企业首先必须清楚他们所寻找的是什么?他们已经有哪些了?以及他们将如何使用这些信息?为了得到更好的信息访问,我们有必要明确关于信息的一些概念和区别。当然,现有的运行良好的结构化数据(关系数据库)与非结构化数据(文档)的区别很重要。一个企业也要区分内部和外部需求。通常,项目需求调查总是说,知识管理系统应该把信息需求的各个方面都整合其中,但实际上这并不是一件简单的事。

 结构化/非结构化:毫无疑问,用户希望从关系数据库中获取数据、从门户网站上获取相关的文档。但是我们要再次强调的是:提供很多“高质量”的网页链接是一种很不充分的、效率不高的方式。用户需要内容分析技术以展示模式或者不规则信息,需要信息可视化功能来显示并操作有用的知识。“搜索”还远远不够,知识工作者需要的是“找到”。

 内部网/外部网:非常明显,每个企业都非常价值的内部网络信息供企业内部使用,同时企业也会提供外部网页或者网站供公众访问。挑战就在于如何让企业内部人员能够随时访问自己企业的所有信息并尽可能方便的访问企业外部其它地方的信息,同时又要防范企业外部人员看到他们不应该看到的企业内部信息。比如:一个配药公司的研究人员很想通过自己的账户访问关于市场的新闻,而他自己的账户又可以随时访问很多内部网的关于公司配药方面的极有价值的信息。此时会不会出现什么问题呢?这是我们必须要考虑的问题。

 内容/上下文:现在流行的搜索方式――基于内容的搜索――只限于文档内“关键词”的搜索。文档总是包含很多词组,这些词组之间有着各种各样的关系。基于内容的搜索方式会根据关键词给出很多相关或者不相关的文档链接。如果一个文档有各种各样的关于上下文的索引,能够帮助用户决定一个特殊的资源是否能够满足他的需要,这将为用户带来很大的便利。比如对研究者而言,每篇文章后面的参考文献都可能是和他所要研究课题非常相关的文档。如果搜索引擎能够基于参考文献给出用户想要的搜索结果,这也许比基于文档内关键词给出的成千上万的搜索结果更有用。

 操作层/战略层:一些重要的文档通常都会存储起来以支持企业特定的操作层目标的实现(比如,制药公司的药物配方文档)。这些文档在使用后都会按规定或者其它原因而保留、严格的管理起来。查阅、使用这些文档都有一些困难或者风险。而通常,在未来的信息、知识管理中却不得不花费大量的时间和精力来处理这些过去的严格保存的文档。因此很多项目在进行中只去找一些很容易获得的信息。这是一个严重的错误。制定相关措施,定期公布一些保密的文档也是非常重要的。

 我们都知道“知识就是力量”,但是普遍存在的一种现象就是:一旦某些文档或者信息产生,它们就有可能在组织内保存起来、不再使用,这种情况给组织带来不必要的损失。很多CIO和CEO们对此也无能为力,不知道如何是好。对于一个有前瞻性的组织来说,答案就是增加能够广泛使用并行之有效的信息(各种形式、组织内各个部门的信息)检索方式。这也是信息时代我们要努力实现的一个目标。

作者联系方式:tangxh99@mails.tsinghua.edu.cn


相关推荐