深蓝海域KMPRO

深蓝海域首发CICADA知识搜索引擎

2009-10-22 19:13


KMpro CICADA Search Engine
白皮书下载

一、CICADA知识搜索引擎的产生背景

·企业知识迅猛增长,总量超过互联网数据总量

  根据统计,企业数据每年以200%的速度增长,其中80%以上的数据以文件、邮件、图片等非结构化数据存放在企业内计算机系统中的各个角落。而且这些数据总量远远超过了互联网信息的总量。有数字表明,企业发布到互联网的信息只占到信息量的1%-2%,而98%以上的信息是存储在企业内部的。

·仅靠网络搜索不能解决全部问题

  互联网搜索引擎近年来获得快速发展,以及其覆盖互联网人口面积的迅速扩张,使得我们一提起搜索引擎就想到了百度、谷歌这样的互联网搜索引擎,有什么疑难问题在互联网上就可以找到答案。然而,实际上互联网搜索引擎不能解决全部的问题,如企业内部的规章制度、项目文档、工作经验等,作为企业的知识财富,是不可能通过互联网获得完美答案的。

·获取准确的知识成为提升企业核心能力的要件

  企业或组织经过多年的运作,积累了大量的运营、工作、生产、研发的经验与知识,这些信息内容散落在企业的各个服务器、IT系统,甚至个人的电脑中,这些宝贵的知识财富日益成为指导企业员工行动、减少操作失误、提升工作效率、降低运营成本的重要依托,如何快速、准确的让员工获得工作所需知识,已经成为企业是否能够建立快速响应机制、快捷低成本运作的重要一环。

·CICADA知识搜索引擎应运而生

  知识搜索引擎(Knowledge search engine)并非单纯的是一种搜索工具,它首先是知识管理的一种实现理念与工具,承担了“知识汇聚、知识发现、知识分类、知识聚类、知识门户的构建”,通过搜索引擎技术完成知识管理的使命。知识搜索引擎、知识分类体系、知识专家网络共同构成了当今世界上先进知识管理系统的主要内涵。
  知识搜索是在搜索引擎发展进入智能化阶段的过程,是建立在明确的知识来源基础上,根据明确的用户身份与诉求,回馈恰当知识结果的搜索引擎,更为强调知识的准确、标准,强调通过互动机制如评价、交流、修改、维护等进行搜索结果的自我学习,以达到知识搜索的智能化。
  深蓝海域在知识管理和知识管理技术领域拥有多年积累,依据知识管理理念推出的知识搜索引擎正是为了解决“汇聚多类知识源,依据用户身份与诉求,回馈准确知识,指导用户行动”这一命题而生,知识搜索引擎作为搜索引擎的一个分支,在为企业提供准确知识获取方面将起到不可或缺的作用。


二、CICADA知识搜索引擎与其他搜索引擎辨析


·常见搜索引擎类型

   与任何市场和工具一样,细分是搜索引擎的未来不可避免的趋势,就目前市场范围而言,搜索引擎大概可以分为如下几类:
  互联网搜索引擎:通过索引全球互联网上的信息,为互联网用户提供快速检索、查找、推荐的服务,其核心诉求是为用户提供更全、更快、更准的信息。
  垂直搜索引擎:互联网搜索引擎的一个市场分支,通过索引特定的细分网站类型,为用户提供专业领域的信息查询服务,其核心诉求是为用户提供专业、全面、快速的信息。
  企业搜索引擎:通过索引企业内部的信息源,为企业内部或企业关联的用户群提供特定的信息查询服务,其核心诉求是为用户提供企业内部信息的准确、快速定位。
  知识搜索引擎:是企业搜索引擎的一个分支,不仅仅是要实现企业范围的信息搜索引擎,更重要的是实现企业的知识管理以及知识发现,并将这些知识应用于协助、指导企业运作。

·搜索引擎对比辨析 


  下面我们通过一个对比表格了解一下这几种搜索的特征区别:

对比项

互联网搜索

垂直搜索

企业搜索

知识搜索

核心诉求

查全

专业

准确

解决问题

用户分辨率

大部分要自主分辨,对比

专业领域的协助分辨对比

通过数据源减少分辨对比

通过知识源、知识互动、用户身份等减少分辨率

数据源

互联网上的网页及特定文档类型信息

专业领域的网站网页信息

企业内部各种IT系统的信息。

组织内部IT系统、知识文档、来源于岗位和部门知识等。

信息类型与接口

互联网通讯协议

互联网通讯协议

数据库、文件系统、oa、ERP等不同类型的接口

数据库、文件系统、oa、ERP等不同类型的接口

互动性

以搜索引擎方获取用户行为为主,单项互动。

以搜索引擎方获取用户行为为主,单项互动。

以获取用户行为、用户身份为主,单项互动。

以用户身份、行为、知识互动评价等作双向、多向互动。

安全性

屏蔽部分违法信息外,无安全考虑

屏蔽部分违法信息外,无安全考虑

考虑用户权限、身份等保障信息安全

除权限、身份安全外,要考虑知识应用后的结果安全

决策支持

对信息获取者提供参考

对信息获取者提供专业参考

对信息获取者提供内部参考;对决策者提供基于搜索统计的决策支持

对信息获取者提供知识级、标准级参考;;对决策者提供基于知识用用的决策支持

身份性

弱,通过用户行为或注册信息获取部分身份。

弱,通过用户行为或注册信息获取部分身份。

强,通过用户的岗位、角色等信息获取身份。

较强,通过用户的岗位、角色、知识应用经历等获取身份。


CICADA知识搜索引擎介绍

·CICADA的产品介绍

   CICADA,蝉,同“禅”出自佛家,故称“知了”,意即知道、理解、开悟。对于知识管理或搜索引擎而言,能够达到让使用者“知了”的地步是一个最重要、最核心的目的。
  CICADA是一款面向企业和组织应用,以知识(knowledge)源、信息(information)源为依据对象,以获取准确的、具有指导和决策意义知识信息为目的,通过知识搜索结果指导人正确行动(action)的新一代知识搜索引擎。基于CICADA核心引擎构建,由国内著名知识管理软件企业深蓝海域公司耗时3年研发,拥有自主知识产权并取得了国家颁发的软件著作权(登记号:2009SRBJ0243)。
  CICADA系统技术架构采用标准的轻量级J2EE架构,核心引擎采用深蓝海域自主开发的企业级多介质搜索引擎。能够在多种数据媒介中搜索数据,并进行合理比对,筛选,排序,结合我们知识管理方面累积多年的专业词库,能为客户定制出更人性化、智能化的搜索引擎。
  CICADA已经广泛应用于金融、银行、制造、电信、汽车、电子政务、快速消费品、医药、能源、化工、房地产、服务业等行业和领域,为客户提供稳定、快速、准确的知识搜索服务。


CICADA的核心理念与功能


·CICADA的核心理念

  CICADA的构建理论基于“全文搜索+数据库检索+搜索应用”。全文搜索的诞生和数据库在大文本检索时的效率不高有极大的关系,在这个角度全文搜索成为了数据库搜索的有力补充。但是全文搜索并不能完全代替数据库检索在企业级应用里的作用,比如在准确检索所属部门、分布时间段、作者这样的精确字段时,或者要求按照某一字段逻辑进行结果的排序,全文搜索的模糊性就会带来很大的困扰和不精确性。在应用互联网搜索时,我们可能不存在也不可能做到这样精准的字段要求,但在企业级应用中这种需求就比比皆是。
  从理论角度上来说,全文搜索和数据库搜索两者在应用条件不同的情况下表现互有优劣,其中一方不会被另一方完全代替,而是应该相辅相成互为补充,为用户呈现最精准的知识和信息获取。
  对于企业级用户而言,仅仅是搜索结果集的呈现还远远不够,因此CICADA提供了丰富的搜索应用,通过丰富多彩的应用形式,为用户提供不同角度、不同体验的搜索方式,如搜索引擎时光隧道、个人搜索年轮、知识关联、个性化查询器等,通过这些应用提升用户感受,强化系统和用户之间的互动关系。

CICADA的搜索流程示意图

  基于以上,CICADA提出并采用了全新的“全文搜索+数据库检索+搜索应用”三位一体技术与产品理念,既保证了系统通过全文搜索获取快速、准确的结果,又通过结合数据库搜索的方式实现时间、来源、好评度等多种数据库字段的查询,这两者的结合使搜索结果更为符合用户的搜索诉求。同时加入搜索应用的诸多功能从应用的角度为用户提供了更为得心应手的应用,从而让系统更为智能的为用户提供服务。而这一知识搜索引擎的技术创新,也成为CICADA的产品发展方向与核心能力。

·可维护、学习式分词技术

  与英文的自然分词不同,中文分词存在着众所周知的难度,把中文的句子切分成有意义的词,就是中文分词,也称切词。目前还是一个难题———对于需要上下文区别的词以及新词(人名、地名等)很难完美的划分。国际上将同样存在分词问题的中国、日本和韩国并称为CJK(Chinese Japanese Korean)。分词机制的好坏,直接影响到用户对搜索结果的满意度,所以如何分词是搜索引擎的重中之重。
  到目前为止,中文分词包括三种方法:1)基于字符串匹配的分词;2)基于理解的分词;3)基于统计的分词。以下是三种分词方法的比较:


分词方法

基于字符串匹配分词

基于理解的分词

基于统计的分词

歧义识别

新词识别

需要词典

需要

不需要

不需要

需要语料库

需要规则库

算法复杂性

容易

很难

一般

技术成熟度

成熟

不成熟

成熟

实施难度

容易

很难

一般

分词准确性

一般

准确

较准

分词速度

一般


  Cicada知识搜索引擎系统采用“Cicada's wings knife”作为分词器,取其分词快捷、细致之意。这套分词系统采用了“基于字符串匹配分词和统计分词”相结合的方式。利用统计方法进行词典的动态扩展,即对搜索的词汇频率进行自主的阀值设置,对于超过阀值的词汇自动加入学习词库,从而克服了基于词典算法对"完全词典"的依赖,利用词典对统计的一些参数进行学习评估,避免了以往靠实验得到这些参数的不确定性,同时将RMM算法与统计算法结合起来。除了通过自主学习获得新词以外,也可以通过手工维护的方式对专业词库进行维护。目前,Cicada的基本分词词库已经达到50万条,金融、税务、制造、咨询等专业词库达到了20万条左右。
  与目前流行的算法相比,Cicada's wings knife分词器在准确率,召回率,分词效率综合平衡上有明显优势。具体对比如下。

对比项

Cicada's wings knife

Standard
(Lucene)

CJK
(Lucene)

Paoding

分词速度

非常快

分词准确性

较好

歧义识别

一般

新词识别

需要词典

需要

需要

需要语料库

需要

需要规则库

算法复杂性

复杂

简单

简单

一般

技术成熟度

成熟

成熟

成熟

成熟

实施难度

学习能力

可维护性


·多数据源跨域搜索

  经过多年的IT建设后,组织中会存在各种IT系统,如OA、HR、ERP、CRM、PM、财务系统等,这些系统因为建设时期、项目的不同,平台异构、数据分散等特征非常明显,形成了数据孤岛,彼此之间无法通过一个有效的纽带联系起来,无法同时获取多个系统中的信息,Cicada知识搜索引擎通过跨域、跨库的索引能力,实现跨库搜索,一举构建出一个融会贯通的企业信息渠道,消除信息孤岛。

·基于跨域搜索的知识门户


基于CICADA的企业(知识)门户示意图

  基于知识搜索引擎,可以对多种数据源进行索引和查询,同时通过搜索规则的建立可以将有指定特征的条件信息,返回到信息门户界面上,这就形成了统一的企业(知识)门户,用户可以在这个门户上获取最新的各个IT系统和数据源的规则性信息。

·基于身份与权限的识别

  在知识库系统或其他系统中,在企业级应用系统中,用户都有自己明确的身份与权限,这决定了我们可以通过判断他们不同的身份和权限,为其提供适合身份和权限的搜索应用,返回适合其身份和权限的结果,避免越权获取信息的情况产生,而且对其身份权限的判断能够更好的为用户推送准确信息,避免信息集合过大。

·互动学习式搜索引擎

  在知识管理或企业IT应用过程中,我们对各类知识与信息的应用效果有明确的感知与评价,在CICADA中,我们将这种感知与评价通过系统的方式记录下来,反馈给搜索引擎进行合理化处理,经过这样的互动点评知识可以综合热度、好评度、命中率等因素进行加权计算,从而提供给用户合理的结果排序,让常用的、好评度高的知识自动往前排。

·基于搜索引擎统计的决策支持

  知识搜索引擎对用户的搜索行为,关键词的分布等进行统计分析,对知识库的重点建设、发展方向从用户的需求角度给予数据支持和决策信息。这样形成企业知识在组织层面的增值利用与决策支持。

·个性化搜索应用功能

  定制搜索范围:用户可以根据自己的要求,选择想要搜索的知识范围,而不是每次都搜索全部数据库,这样可以大大减少搜索误差,可以根据业务或知识分类,定义出不同的个性化搜索项。
  搜索推荐服务:根据搜索过程的监控,推荐搜索的热点词汇;搜索行为推荐可以推荐搜索当前词汇的用户,还搜索了哪些词汇;推荐跟当前关键词相关联的关键词。通过主动的推荐服务,让用户可以快速的找到自己所需。
  搜索联想词:记录搜索人员常用的搜索关键词,当用户输入关键词的时候,自动联想提示其他用户常用频率较高的搜索关键词,以供选择。以高频率的关键词引导用户使用,提高命中率。
  文件服务器全文搜索:对于文件服务器,进行数据索引,并定制出一个全文搜索引擎,能够对文件夹中的文档名称和内容进行搜索。
  多格式附件全文搜索:对知识发布时所带的附件进行全文搜索,可以搜索附件名称和内容,按照附件格式进行搜索,并实现附件的html格式快照,打开快照可以预览附件的内容。
  逻辑关系高级搜索功能:支持包含、完全包含、至少包含一个、不包含等搜索的逻辑关系,便于用户根据自己的查询条件,设计查询公式。
  在结果中搜索功能:在搜索的结果中,进行二次筛选式搜索,实现递进式的搜索命中。
  个性化查询器:用户可以根据自己的使用习惯,将系统提供的查询条件进行组合后,保存为一个个性化查询器,输入关键词后,系统会按照查询器的条件组合进行搜索。
  时光隧道:用户可以按照时间轨迹对搜索结果进行排序,查找到距离自己最近或者某个时间段的具体信息,排除其他非所需时间段的信息。


CICADA的性能指标


  深蓝海域知识搜索引擎系统基于JAVA内核,解决海量信息检索,在民生、光大等银行知识库应用中表现出优异的性能,在普通部门级单台服务器环境下,其主要性能指标项如下:

序号

指标项

指标值

1

搜索速度

1千万条记录情况下的查询速度为毫秒级,客户端响应小于2秒

2

索引能力

创建100万条记录的索引只需3~4分钟

3

分词能力

每秒分词1200k,准确率98%

4

并发能力

支持100个并发,约2000人在线搜索

5

准确返回率

所指定查找结果(TREC)应在前10条信息之内的命中率达到95%以上。

6

良好集成能力

与其他系统进行界面、用户和数据层的集成


  在系统集成方面,CICADA可以通过系统集成的方式,与其他IT系统进行界面、数据、通讯层面的集成交互,从而实现无缝集成。本搜索引擎单独部署为一个应用.通过特定的信道监听,实现索引的更新。采用webservice方式提供搜索服务,与原知识系统解耦,避免对原有系统造成冲击,也能够更好的发挥搜索引擎效能。
  CICADA的核心采用深蓝自主研发的高性能搜索引擎,与常见的开源搜索引擎如luncen等对比,我们具有以下几个方面优势:
  一索引效率.我们采用R-Tree数据结构和R-Tree空间索引的算法.支持高维数据空间;有效分割数据空间,来适应索引的组织;高效的实现多种查询方式系统中的统一。故在索引效率和查询效率上略优与Lucene.
  二智能搜索. CICADA 具备关系查询、布尔邻近查询、文档相似度比较、以及文档的自动分类等特性。Lucene要在下一个版本才提供相关支持。
  三分词技术.深蓝在知识管理领域有多年的经验积累和完善专业词库的建设。CICADA采用基于字符串匹配分词和统计分词相结合的方式,对歧义识别,新词学习有独到的技术实现。


CICADA知识搜索引擎应用案例


相关推荐