深蓝海域KMPRO

检索器与结果处理技术

2017-04-10 11:18

检索器与结果处理技术
     检索器的主要功能是根据用户输入的关键词在索引器形成的倒排表中进行检索,同时完成页面与检索之间的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。
  通过搜索引擎获得的检索结果往往成百上千,为了得到有用的信息,常用的方法是按网页的重要性或相关性给网页评级,进行相关性排序。这里的相关度是指搜索关键字在文档中出现的额度。当额度越高时,则认为该文档的相关程度越高。能见度也是常用的衡量标准之一。一个网页的能见度是指该网页入口超级链接的数目。能见度方法是基于这样的观点:一个网页被其他网页引用得越多,则该网页就越有价值。特别地,一个网页被越重要的网页所引用,则该网页的重要程度也就越高。结果处理技术可归纳为:
  (1)按频次排定次序通常,如果一个页面包含了越多的关键词,其搜索目标的相关性应该越好,这是非常合平常理的解决方案。
  (2)按页面被访问度排序在这种方法中,搜索引擎会记录它所搜索到的页面被访问的频率。人们访问较多的页面通常应该包含比较多的信息,或者有其他吸引入的长处。这种解决方案适合一般的搜索用户,而因为大部分的搜索引擎都不是专业性用户,所以这种方案也比较适合一般搜索引擎使用。
  (3)二次检索进一步净化(比flne)结果,按照一定的条件对搜索结果进行优化,可以再选择类别、相关词进行二次搜索等。
  由于目前的搜索引擎还不具备智能,除非知道要查找的文档的标题,否则排列第一的结果未必是“最好”的结果。所以有些文档尽管相关程度高,但并不一定是用户最需要的文档。
  搜索引擎技术的行业应用:
  搜索引擎的行业应用一般指类似于千瓦通信提供的多种搜索引擎行业与产品应用模式,大体上分为如下几种形式:
1、政府机关行业应用
  n实时跟踪、采集与业务工作相关的信息来源。
  n全面满足内部工作人员对互联网信息的全局观测需求。
  n及时解决政务外网、政务内网的信息源问题,实现动态发布。
  n快速解决政府主网站对各地级子网站的信息获取需求。
  n全面整合信息,实现政府内部跨地区、跨部门的信息资源共享与有效沟通。
  n节约信息采集的人力、物力、时间,提高办公效率。
  2、企业行业应用
  n实时准确地监控、追踪竞争对手动态,是企业获取竞争情报的利器。
  n及时获取竞争对手的公开信息以便研究同行业的发展与市场需求。
  n为企业决策部门和管理层提供便捷、多途径的企业战略决策工具。
  n大幅度地提高企业获取、利用情报的效率,节省情报信息收集、存储、挖掘的相关费用,是提高企业核心竞争力的关键。
  n提高企业整体分析研究能力、市场快速反应能力,建立起以知识管理为核心的竞争情报数据仓库,是提高企业核心竞争力的神经中枢。
  3、新闻媒体行业应用
  n快速准确地自动跟踪、采集数千家网络媒体信息,扩大新闻线索,提高采集速度。
  n支持每天对数万条新闻进行有效抓取。监控范围的深度、广度可以自行设定。
  n支持对所需内容智能提取、审核。
  n实现互联网信息内容采集、浏览、编辑、管理、发布的一体化。
 
  4、行业网站应用
  n实时跟踪、采集与网站相关的信息来源。n及时跟踪行业的信息来源网站,自动,快速更新网站信息。动态更新信息。
  n实现互联网信息内容采集、浏览、编辑、管理、发布的一体化。
  n针对商务网站提出商务管理模式,大大提高行业网站的商务应用需求。
  n针对资讯网站分类目录生成,提出用户生成网站分类结构。并可以实时增加与更新分类结构。不受级数限制。从而大大利高行业的应用性。
  n提供搜索引擎SEO优化专业服务,快速提高行业网站的推广。
  n提供与CCDC呼叫搜索引擎的广告合作。建立行业网站联盟,提高行业网站知名度。
  5)网络信息监察与监控
  n网络舆情系统。如“千瓦通信-网络舆情雷达监测系统”
  n网站信息与内容监察与监控系统,如“千瓦通信-网站信息与内容监测与监察系统(站内神探)”
        随着因特网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找信息,就象大海捞 针一样,搜索引擎技术恰好解决了这一难题(它可以为用户提供信息检索服务)。目前, 搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。
        搜索引擎(Search Engine)是随着WEB信息的迅速增加,从1995年开始逐渐发展起来的技术。据发表在《科学》杂志1999年7月的文章《WEB信息的可访问性》估计,全球目的网页超过8亿,有效数据超过9T,并且仍以每4个月翻一番的速度增长。用户要在如此浩 瀚的信息海洋里寻找信息,必然会"大海捞针"无功而返。搜索引擎正是为了解决这个"迷航"问题而出现的技术。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。搜索引擎提供的导航服务已经成为互联网上非常重要的网络服务,搜索引擎站点也被美誉为"网络门户"。搜索引擎技术因而成为计算机工业界和学术界争相研究、开发的对象。本文旨在对搜索 引擎的关键技术进行简单的介绍,以起到抛砖引玉的作用。

相关推荐