2009-10-22 19:13
KMpro CICADA Search Engine |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
白皮书下载 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
一、CICADA知识搜索引擎的产生背景 ·CICADA知识搜索引擎应运而生 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
二、CICADA知识搜索引擎与其他搜索引擎辨析 ·常见搜索引擎类型 与任何市场和工具一样,细分是搜索引擎的未来不可避免的趋势,就目前市场范围而言,搜索引擎大概可以分为如下几类: 互联网搜索引擎:通过索引全球互联网上的信息,为互联网用户提供快速检索、查找、推荐的服务,其核心诉求是为用户提供更全、更快、更准的信息。 垂直搜索引擎:互联网搜索引擎的一个市场分支,通过索引特定的细分网站类型,为用户提供专业领域的信息查询服务,其核心诉求是为用户提供专业、全面、快速的信息。 企业搜索引擎:通过索引企业内部的信息源,为企业内部或企业关联的用户群提供特定的信息查询服务,其核心诉求是为用户提供企业内部信息的准确、快速定位。 知识搜索引擎:是企业搜索引擎的一个分支,不仅仅是要实现企业范围的信息搜索引擎,更重要的是实现企业的知识管理以及知识发现,并将这些知识应用于协助、指导企业运作。 ·搜索引擎对比辨析 下面我们通过一个对比表格了解一下这几种搜索的特征区别:
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
CICADA知识搜索引擎介绍 ·CICADA的产品介绍 CICADA,蝉,同“禅”出自佛家,故称“知了”,意即知道、理解、开悟。对于知识管理或搜索引擎而言,能够达到让使用者“知了”的地步是一个最重要、最核心的目的。 CICADA是一款面向企业和组织应用,以知识(knowledge)源、信息(information)源为依据对象,以获取准确的、具有指导和决策意义知识信息为目的,通过知识搜索结果指导人正确行动(action)的新一代知识搜索引擎。基于CICADA核心引擎构建,由国内著名知识管理软件企业深蓝海域公司耗时3年研发,拥有自主知识产权并取得了国家颁发的软件著作权(登记号:2009SRBJ0243)。 CICADA系统技术架构采用标准的轻量级J2EE架构,核心引擎采用深蓝海域自主开发的企业级多介质搜索引擎。能够在多种数据媒介中搜索数据,并进行合理比对,筛选,排序,结合我们知识管理方面累积多年的专业词库,能为客户定制出更人性化、智能化的搜索引擎。 CICADA已经广泛应用于金融、银行、制造、电信、汽车、电子政务、快速消费品、医药、能源、化工、房地产、服务业等行业和领域,为客户提供稳定、快速、准确的知识搜索服务。 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
CICADA的核心理念与功能 ·CICADA的核心理念 CICADA的构建理论基于“全文搜索+数据库检索+搜索应用”。全文搜索的诞生和数据库在大文本检索时的效率不高有极大的关系,在这个角度全文搜索成为了数据库搜索的有力补充。但是全文搜索并不能完全代替数据库检索在企业级应用里的作用,比如在准确检索所属部门、分布时间段、作者这样的精确字段时,或者要求按照某一字段逻辑进行结果的排序,全文搜索的模糊性就会带来很大的困扰和不精确性。在应用互联网搜索时,我们可能不存在也不可能做到这样精准的字段要求,但在企业级应用中这种需求就比比皆是。 从理论角度上来说,全文搜索和数据库搜索两者在应用条件不同的情况下表现互有优劣,其中一方不会被另一方完全代替,而是应该相辅相成互为补充,为用户呈现最精准的知识和信息获取。 对于企业级用户而言,仅仅是搜索结果集的呈现还远远不够,因此CICADA提供了丰富的搜索应用,通过丰富多彩的应用形式,为用户提供不同角度、不同体验的搜索方式,如搜索引擎时光隧道、个人搜索年轮、知识关联、个性化查询器等,通过这些应用提升用户感受,强化系统和用户之间的互动关系。
基于以上,CICADA提出并采用了全新的“全文搜索+数据库检索+搜索应用”三位一体技术与产品理念,既保证了系统通过全文搜索获取快速、准确的结果,又通过结合数据库搜索的方式实现时间、来源、好评度等多种数据库字段的查询,这两者的结合使搜索结果更为符合用户的搜索诉求。同时加入搜索应用的诸多功能从应用的角度为用户提供了更为得心应手的应用,从而让系统更为智能的为用户提供服务。而这一知识搜索引擎的技术创新,也成为CICADA的产品发展方向与核心能力。 ·可维护、学习式分词技术
·多数据源跨域搜索 经过多年的IT建设后,组织中会存在各种IT系统,如OA、HR、ERP、CRM、PM、财务系统等,这些系统因为建设时期、项目的不同,平台异构、数据分散等特征非常明显,形成了数据孤岛,彼此之间无法通过一个有效的纽带联系起来,无法同时获取多个系统中的信息,Cicada知识搜索引擎通过跨域、跨库的索引能力,实现跨库搜索,一举构建出一个融会贯通的企业信息渠道,消除信息孤岛。 ·基于跨域搜索的知识门户
基于知识搜索引擎,可以对多种数据源进行索引和查询,同时通过搜索规则的建立可以将有指定特征的条件信息,返回到信息门户界面上,这就形成了统一的企业(知识)门户,用户可以在这个门户上获取最新的各个IT系统和数据源的规则性信息。 ·基于身份与权限的识别 在知识库系统或其他系统中,在企业级应用系统中,用户都有自己明确的身份与权限,这决定了我们可以通过判断他们不同的身份和权限,为其提供适合身份和权限的搜索应用,返回适合其身份和权限的结果,避免越权获取信息的情况产生,而且对其身份权限的判断能够更好的为用户推送准确信息,避免信息集合过大。 ·互动学习式搜索引擎 在知识管理或企业IT应用过程中,我们对各类知识与信息的应用效果有明确的感知与评价,在CICADA中,我们将这种感知与评价通过系统的方式记录下来,反馈给搜索引擎进行合理化处理,经过这样的互动点评知识可以综合热度、好评度、命中率等因素进行加权计算,从而提供给用户合理的结果排序,让常用的、好评度高的知识自动往前排。 ·基于搜索引擎统计的决策支持 知识搜索引擎对用户的搜索行为,关键词的分布等进行统计分析,对知识库的重点建设、发展方向从用户的需求角度给予数据支持和决策信息。这样形成企业知识在组织层面的增值利用与决策支持。 ·个性化搜索应用功能 定制搜索范围:用户可以根据自己的要求,选择想要搜索的知识范围,而不是每次都搜索全部数据库,这样可以大大减少搜索误差,可以根据业务或知识分类,定义出不同的个性化搜索项。 搜索推荐服务:根据搜索过程的监控,推荐搜索的热点词汇;搜索行为推荐可以推荐搜索当前词汇的用户,还搜索了哪些词汇;推荐跟当前关键词相关联的关键词。通过主动的推荐服务,让用户可以快速的找到自己所需。 搜索联想词:记录搜索人员常用的搜索关键词,当用户输入关键词的时候,自动联想提示其他用户常用频率较高的搜索关键词,以供选择。以高频率的关键词引导用户使用,提高命中率。 文件服务器全文搜索:对于文件服务器,进行数据索引,并定制出一个全文搜索引擎,能够对文件夹中的文档名称和内容进行搜索。 多格式附件全文搜索:对知识发布时所带的附件进行全文搜索,可以搜索附件名称和内容,按照附件格式进行搜索,并实现附件的html格式快照,打开快照可以预览附件的内容。 逻辑关系高级搜索功能:支持包含、完全包含、至少包含一个、不包含等搜索的逻辑关系,便于用户根据自己的查询条件,设计查询公式。 在结果中搜索功能:在搜索的结果中,进行二次筛选式搜索,实现递进式的搜索命中。 个性化查询器:用户可以根据自己的使用习惯,将系统提供的查询条件进行组合后,保存为一个个性化查询器,输入关键词后,系统会按照查询器的条件组合进行搜索。 时光隧道:用户可以按照时间轨迹对搜索结果进行排序,查找到距离自己最近或者某个时间段的具体信息,排除其他非所需时间段的信息。 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
CICADA的性能指标 深蓝海域知识搜索引擎系统基于JAVA内核,解决海量信息检索,在民生、光大等银行知识库应用中表现出优异的性能,在普通部门级单台服务器环境下,其主要性能指标项如下:
在系统集成方面,CICADA可以通过系统集成的方式,与其他IT系统进行界面、数据、通讯层面的集成交互,从而实现无缝集成。本搜索引擎单独部署为一个应用.通过特定的信道监听,实现索引的更新。采用webservice方式提供搜索服务,与原知识系统解耦,避免对原有系统造成冲击,也能够更好的发挥搜索引擎效能。 CICADA的核心采用深蓝自主研发的高性能搜索引擎,与常见的开源搜索引擎如luncen等对比,我们具有以下几个方面优势: 一索引效率.我们采用R-Tree数据结构和R-Tree空间索引的算法.支持高维数据空间;有效分割数据空间,来适应索引的组织;高效的实现多种查询方式系统中的统一。故在索引效率和查询效率上略优与Lucene. 二智能搜索. CICADA 具备关系查询、布尔邻近查询、文档相似度比较、以及文档的自动分类等特性。Lucene要在下一个版本才提供相关支持。 三分词技术.深蓝在知识管理领域有多年的经验积累和完善专业词库的建设。CICADA采用基于字符串匹配分词和统计分词相结合的方式,对歧义识别,新词学习有独到的技术实现。 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
CICADA知识搜索引擎应用案例 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||