2011-08-07 20:39
KMpro CICADA Search Engine |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
白皮书下载 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
一、CICADA知识搜索引擎的产生背景 ·仅靠网络搜索不能解决全部问题 互联网搜索引擎近年来获得快速发展,以及其覆盖互联网人口面积的迅速扩张,使得我们一提起搜索引擎就想到了百度、谷歌这样的互联网搜索引擎,有什么疑难 问题在互联网上就可以找到答案。然而,实际上互联网搜索引擎不能解决全部的问题,如企业内部的规章制度、项目文档、工作经验等,作为企业的知识财富,是不 可能通过互联网获得完美答案的。 ·获取准确的知识成为提升企业核心能力的要件 企业或组织经过多年的运作,积累了大量的运营、工作、生产、研发的经验与知识,这些信息内容散落在企业的各个服务器、IT系统,甚至个人的电脑中,这些 宝贵的知识财富日益成为指导企业员工行动、减少操作失误、提升工作效率、降低运营成本的重要依托,如何快速、准确的让员工获得工作所需知识,已经成为企业 是否能够建立快速响应机制、快捷低成本运作的重要一环。 ·CICADA知识搜索引擎应运而生 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
二、CICADA知识搜索引擎与其他搜索引擎辨析 ·常见搜索引擎类型 与任何市场和工具一样,细分是搜索引擎的未来不可避免的趋势,就目前市场范围而言,搜索引擎大概可以分为如下几类: 互联网搜索引擎:通过索引全球互联网上的信息,为互联网用户提供快速检索、查找、推荐的服务,其核心诉求是为用户提供更全、更快、更准的信息。 垂直搜索引擎:互联网搜索引擎的一个市场分支,通过索引特定的细分网站类型,为用户提供专业领域的信息查询服务,其核心诉求是为用户提供专业、全面、快速的信息。 企业搜索引擎:通过索引企业内部的信息源,为企业内部或企业关联的用户群提供特定的信息查询服务,其核心诉求是为用户提供企业内部信息的准确、快速定位。 知识搜索引擎:是企业搜索引擎的一个分支,不仅仅是要实现企业范围的信息搜索引擎,更重要的是实现企业的知识管理以及知识发现,并将这些知识应用于协助、指导企业运作。 ·搜索引擎对比辨析 下面我们通过一个对比表格了解一下这几种搜索的特征区别:
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
CICADA知识搜索引擎介绍 ·CICADA的产品介绍 CICADA,蝉,同“禅”出自佛家,故称“知了”,意即知道、理解、开悟。对于知识管理或搜索引擎而言,能够达到让使用者“知了”的地步是一个最重要、最核心的目的。 CICADA是一款面向企业和组织应用,以知识(knowledge)源、信息(information)源为依据对象,以获取准确的、具有指导和决策 意义知识信息为目的,通过知识搜索结果指导人正确行动(action)的新一代知识搜索引擎。基于CICADA核心引擎构建,由国内著名知识管理软件企业 深蓝海域公司耗时3年研发,拥有自主知识产权并取得了国家颁发的软件著作权(登记号:2009SRBJ0243)。 CICADA系统技术架构采用标准的轻量级J2EE架构,核心引擎采用深蓝海域自主开发的企业级多介质搜索引擎。能够在多种数据媒介中搜索数据,并进行合理比对,筛选,排序,结合我们知识管理方面累积多年的专业词库,能为客户定制出更人性化、智能化的搜索引擎。 CICADA已经广泛应用于金融、银行、制造、电信、汽车、电子政务、快速消费品、医药、能源、化工、房地产、服务业等行业和领域,为客户提供稳定、快速、准确的知识搜索服务。 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
CICADA的核心理念与功能 ·CICADA的核心理念 CICADA的构建理论基于“全文搜索+数据库检索+搜索应用”。全文搜索的诞生和数据库在大文本检索时的效率不高有极大的关系,在这个角度全文搜索成 为了数据库搜索的有力补充。但是全文搜索并不能完全代替数据库检索在企业级应用里的作用,比如在准确检索所属部门、分布时间段、作者这样的精确字段时,或 者要求按照某一字段逻辑进行结果的排序,全文搜索的模糊性就会带来很大的困扰和不精确性。在应用互联网搜索时,我们可能不存在也不可能做到这样精准的字段 要求,但在企业级应用中这种需求就比比皆是。 从理论角度上来说,全文搜索和数据库搜索两者在应用条件不同的情况下表现互有优劣,其中一方不会被另一方完全代替,而是应该相辅相成互为补充,为用户呈现最精准的知识和信息获取。 对于企业级用户而言,仅仅是搜索结果集的呈现还远远不够,因此CICADA提供了丰富的搜索应用,通过丰富多彩的应用形式,为用户提供不同角度、不同体 验的搜索方式,如搜索引擎时光隧道、个人搜索年轮、知识关联、个性化查询器等,通过这些应用提升用户感受,强化系统和用户之间的互动关系。
基于以 上,CICADA提出并采用了全新的“全文搜索+数据库检索+搜索应用”三位一体技术与产品理念,既保证了系统通过全文搜索获取快速、准确的结果,又通过 结合数据库搜索的方式实现时间、来源、好评度等多种数据库字段的查询,这两者的结合使搜索结果更为符合用户的搜索诉求。同时加入搜索应用的诸多功能从应用 的角度为用户提供了更为得心应手的应用,从而让系统更为智能的为用户提供服务。而这一知识搜索引擎的技术创新,也成为CICADA的产品发展方向与核心能 力。 ·可维护、学习式分词技术
·多数据源跨域搜索 经过多年的IT建设后,组织中会存在各种IT系统,如OA、HR、ERP、CRM、PM、财务系统等,这些系统因为建设时期、项目的不同,平台异构、数 据分散等特征非常明显,形成了数据孤岛,彼此之间无法通过一个有效的纽带联系起来,无法同时获取多个系统中的信息,Cicada知识搜索引擎通过跨域、跨 库的索引能力,实现跨库搜索,一举构建出一个融会贯通的企业信息渠道,消除信息孤岛。 ·基于跨域搜索的知识门户
基于知识搜索引擎,可以对多种数据源进行索引和查询,同时通过搜索规则的建立可以将有指定特征的条件信息,返回到信息门户界面上,这就形成了统一的企业(知识)门户,用户可以在这个门户上获取最新的各个IT系统和数据源的规则性信息。 ·基于身份与权限的识别 在知识库系统或其他系统中,在企业级应用系统中,用户都有自己明确的身份与权限,这决定了我们可以通过判断他们不同的身份和权限,为其提供适合身份和权 限的搜索应用,返回适合其身份和权限的结果,避免越权获取信息的情况产生,而且对其身份权限的判断能够更好的为用户推送准确信息,避免信息集合过大。 ·互动学习式搜索引擎 在知识管理或企业IT应用过程中,我们对各类知识与信息的应用效果有明确的感知与评价,在CICADA中,我们将这种感知与评价通过系统的方式记录下 来,反馈给搜索引擎进行合理化处理,经过这样的互动点评知识可以综合热度、好评度、命中率等因素进行加权计算,从而提供给用户合理的结果排序,让常用的、 好评度高的知识自动往前排。 ·基于搜索引擎统计的决策支持 知识搜索引擎对用户的搜索行为,关键词的分布等进行统计分析,对知识库的重点建设、发展方向从用户的需求角度给予数据支持和决策信息。这样形成企业知识在组织层面的增值利用与决策支持。 ·个性化搜索应用功能 定制搜索范围:用户可以根据自己的要求,选择想要搜索的知识范围,而不是每次都搜索全部数据库,这样可以大大减少搜索误差,可以根据业务或知识分类,定义出不同的个性化搜索项。 搜索推荐服务:根据搜索过程的监控,推荐搜索的热点词汇;搜索行为推荐可以推荐搜索当前词汇的用户,还搜索了哪些词汇;推荐跟当前关键词相关联的关键词。通过主动的推荐服务,让用户可以快速的找到自己所需。 搜索联想词:记录搜索人员常用的搜索关键词,当用户输入关键词的时候,自动联想提示其他用户常用频率较高的搜索关键词,以供选择。以高频率的关键词引导用户使用,提高命中率。 文件服务器全文搜索:对于文件服务器,进行数据索引,并定制出一个全文搜索引擎,能够对文件夹中的文档名称和内容进行搜索。 多格式附件全文搜索:对知识发布时所带的附件进行全文搜索,可以搜索附件名称和内容,按照附件格式进行搜索,并实现附件的html格式快照,打开快照可以预览附件的内容。 逻辑关系高级搜索功能:支持包含、完全包含、至少包含一个、不包含等搜索的逻辑关系,便于用户根据自己的查询条件,设计查询公式。 在结果中搜索功能:在搜索的结果中,进行二次筛选式搜索,实现递进式的搜索命中。 个性化查询器:用户可以根据自己的使用习惯,将系统提供的查询条件进行组合后,保存为一个个性化查询器,输入关键词后,系统会按照查询器的条件组合进行搜索。 字串4 时光隧道:用户可以按照时间轨迹对搜索结果进行排序,查找到距离自己最近或者某个时间段的具体信息,排除其他非所需时间段的信息。 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
CICADA的性能指标 深蓝海域知识搜索引擎系统基于JAVA内核,解决海量信息检索,在民生、光大等银行知识库应用中表现出优异的性能,在普通部门级单台服务器环境下,其主要性能指标项如下:
在系统集成方 面,CICADA可以通过系统集成的方式,与其他IT系统进行界面、数据、通讯层面的集成交互,从而实现无缝集成。本搜索引擎单独部署为一个应用.通过特 定的信道监听,实现索引的更新。采用webservice方式提供搜索服务,与原知识系统解耦,避免对原有系统造成冲击,也能够更好的发挥搜索引擎效能。 CICADA的核心采用深蓝自主研发的高性能搜索引擎,与常见的开源搜索引擎如luncen等对比,我们具有以下几个方面优势: 一索引效率.我们采用R-Tree数据结构和R-Tree空间索引的算法.支持高维数据空间;有效分割数据空间,来适应索引的组织;高效的实现多种查询方式系统中的统一。故在索引效率和查询效率上略优与Lucene. 二智能搜索. CICADA 具备关系查询、布尔邻近查询、文档相似度比较、以及文档的自动分类等特性。Lucene要在下一个版本才提供相关支持。 三分词技术.深蓝在知识管理领域有多年的经验积累和完善专业词库的建设。CICADA采用基于字符串匹配分词和统计分词相结合的方式,对歧义识别,新词学习有独到的技术实现。 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
CICADA知识搜索引擎应用案例 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||