2008-03-10 12:08
对于这些问题,在几个和知识管理相关的领域中都看的到,如自然语言处理(Natural Language Processing),图书信息科学(Library and Information Science)和信息检索(Information Retrieval),有不同的解决方案,包括实时通报(Current Alert)、文件分类(Text Categorization and Clustering)、信息撷取(Information Extraction)、文件摘要(Automatic Summarization)、问题回答(Question Answering)等。以下特别说明“实时通报”的功能。
实时通报是图书信息学界早就存在的主动提供最新变动性信息概念。图书馆的新书通报、企业界常做的剪报,都属于这种型态的信息搜集模式。在过去,这个很好的构想并不易实施,因为需要情报的机构或个人,其信息需求都不同,在搜集、纪录、表达信息需求上,以及实际筛选情报上,都需要很多的人力与时间。因此,在成本效应与时效上,传统的人工操作不见得可行。由于技术的变革,信息来源已经网络化、实时化,加上信息检索、自然语言处理的技术渐趋成熟,现在要让竞争情报做到全自动、个别化、实时化,已变成可行。
很多的软件公司提供相关的网络服务与工具。比如说,在入口网站可以透过全文检索或目录浏览,查询到媒体、竞争者、同业的网址。而利用浏览器或网页撷取的软件,像是Teleport,都可以搜集竞争信息。而如 CI Spider这样的软件,更可以将竞争者网站的所有网页加以分类,方便利用其中关心的部分。
有许多的新闻网站都提供每日或定期以电子邮件递送新闻摘要的服务,包括国外知名的纽约时报以及国内的中时电子报。目前也有递送整理过的各报每日新闻标题,可以依照类别、关键词提供个人化的网络服务。Arthur Anderson Business Consulting 的知识管理系统KnowledgeSpace的三个子系统中,最重要的就是实时新闻的提供,经过筛选的管理相关实时新闻,提供源源不断的管理知识。
如何能够有效的筛选相关新闻呢?基本的搜寻引擎,是以关键词汇为基础,在大量文件中,找出包含这些关键词汇的文件。举例来说,当透过「联电」一词去搜寻网页时,结果经常掺杂许多如「X 联计算机公司」之类的结果 ;又例如用户以「ATM」一词进行查询,会找到至少两类的文件,一类是关于提款机方面的资料,另一类是有关网络技术的资料。除非用户事先知道有这种区隔,特别加上其它辅助的查询词汇,或是搜寻引擎提供分类查询的功能,否则用户必须人工过滤许多无用的数据。
而分类型的搜寻引擎,是透过一个适切的分类架构,建立分类知识库,其中包含同一个概念的多种表达方式 (如「台湾集成电路公司」又称做「台积电」、「台积」、「TSMC」等)。
目前「实时通报」的技术已经相当的自动化,信息的类型与涵盖性也十分完备,缺点在于所提供的信息内容较浅,而且关键词的筛选机制过度的简单,不甚理想;而以分类筛选的方式而言,报纸的版面分类过分粗略,不能表达特定精细的信息需求。两者都不易排除不相关的信息,不能符合企业的需求,似乎需要更复杂的文件分类技术,才能合乎竞争情报搜寻的需求。整体而言,新闻剪报这样看似简单的情报工作,要能够充分的自动化,还真的需要结合网络自动机(Web Robot)、文件分类、文件摘要、实时通报等技术。