深蓝海域KMPRO

网络信息获取的应用:提高信息获取的质量(By AMT 路海明)

2016-12-31 15:08

网络信息获取的应用:提高信息获取的质量

by AMT 路海明

一、高质量信息获取的背景

互联网的发展,给人们带来了各个领域、形式多样的数字化媒体信息,对这些信息进行有效获取和使用,将促进人们的学习和工作效率。随着互联网的进一步发展,各种基于互联网的应用也会逐渐产生,大量应用在本质上可以抽象为信息的有效获取和使用,当信息从发送者传递到需求者的手中时,价值将随之产生,应用将随之形成。因此,信息的个性化服务,即如何将信息传递到真正需要这些信息的用户手中,成为互联网应用的基础性研究。

为帮助用户获取信息,首先产生了信息获取的研究,它可以让用户根据自己的信息需求,方便地找到在信息内容上与之匹配的网络信息资源,例如数据库的网络检索系统、网络目录、网络搜索引擎等。用户每次进行信息获取时,都要明确地表达自己的需要,通常通过关键词组合。这种方式存在如下不足:一方面,用户有时难以找到合适的关键词表达自己的需要,另一方面,随着网络信息资源的日益膨胀,检索结果中存在越来越多的非相关信息,信息获取的精度不足。

信息获取主要关注用户的短期信息需求,为提高使用的方便性和信息获取的质量,就要关注用户的长线信息需求,因此出现了对信息过滤技术的研究,信息过滤技术假设用户的兴趣将维持一段时间基本不变,利用有关用户兴趣的知识,建立用户的模型,从大量的动态信息流中,根据用户模型找出用户感兴趣的信息。

通常,我们会将经由信息过滤形成的结果主动推荐到用户手中,从而形成了个性化主动信息推荐,目前主要基于信息Agent进行。通过信息推荐技术,计算机以人为中心,主动向用户推荐信息,满足用户的信息需求,这将节省用户的时间,提高其学习和工作效率。

通过信息推荐,各种网络应用可以将相关的信息主动推荐到需要该信息的用户手中,这一方面实现了应用的价值,另一方面也提高了用户的工作与生活质量。例如企业竞争情报信息的获取、名人资讯获取、学术研究资料的获取。高质量的信息获取将成为高质量网络应用的基础,这既是网络应用提供者的需要,也是网络用户的需要。

二、高质量信息获取的含义

       高质量信息获取通常包括如下含义:

1、信息要准确:信息推荐系统提供的信息要尽可能地满足用户的需求,这就需要对用户需求的准确把握、对信息内容的准确把握、对信息内容和用户需求之间相关性的准确把握;

2、信息要及时:网络的开放式环境决定了网络上的信息随时都在变化,一方面,不断有新的信息出现;另一方面,原有的信息随时都可能成为过时的信息,因此推荐系统要及时提供用户关注的信息;

3、用户为中心:信息推荐系统要以用户为中心进行服务,这就要方便用户的使用,例如,系统主动将信息推荐给用户;用户可以方便地表达自己的需求;系统要及时适应用户需求的变化。

三、高质量信息获取的相关技术

       在信息获取领域,有两类研究方向:基于内容的信息获取和基于合作的信息获取。基于内容的信息获取通过分析资源的内容建立资源的特征向量,根据其与用户需求的相关性,决定是否将该资源推荐给用户。合作信息获取基于网上不同用户之间的相似性进行信息推荐,例如用户x和用户y有相似的信息需求,将用户x感兴趣的信息资源推荐给用户y将比较自然。下面对这两类信息获取技术的研究现状进行简介。

1、基于内容分析的信息获取

在基于内容分析的信息获取中,为判断用户是否喜欢某个信息资源,首先需要建立资源的特征向量,通常采用TFIDF (Term Frequency Inverse Document Frequency)方法生成加权关键词向量。目前,有两种常用的方法来预测用户是否喜欢某个资源:

1)      关键词匹配法。用户需求通过加权关键词向量表达,在预测用户对新资源是否感兴趣时,通过计算两个关键词向量的相似度进行,也称为矢量相似度法或矢量夹角的余弦值;

2)      向量空间法。通过用户评价过的资源集来描述用户的兴趣。当要预测用户对新资源是否感兴趣时,需要将资源转化为向量,在向量空间内进行分类计算(分为用户感兴趣的资源和不感兴趣的资源)。这种方法计算量大,但准确率高,一般需要离线进行。

基于内容分析的信息获取技术通常存在如下障碍:

1)      基于目前的技术,我们对信息资源只有有限的特征提取能力,通常只能对文本内容进行比较简单的特征提取,在很多领域,目前还没有有效的特征提取方法,如:图像、视频、音乐等;

2)      用户喜欢一个事物的原因各种各样,例如对一幅画,用户可能由于不同的原因喜欢它,例如“画中有太阳”、“画中有大海”、“画中是傍晚的景色”、“画是宋朝的”等等,这种复杂性和多样性,使得我们难以建立统一的用户模型及资源模型;

3)      有些需求难以对计算机精确地描述清楚,例如需要的文章的质量、风格或者观点;

4)      有时用户虽然明白自己喜欢什么,但是难以清楚地表达自己具体需要什么。

以上障碍影响了信息获取的质量,为提高获取质量,我们一方面可以采用新的算法,另一方面,合作信息获取也有助于解决这些问题。

2、基于合作的信息获取

人工智能主要通过计算机来模拟人的智能,在机器智能的发展过程中,我们取得了非常丰硕的成果,但是,人们也发现其存在固有的缺点,例如难以把握用户的需求、缺乏联想能力和创新性等,机器智能在很多领域难以超越人的智能。基于内容的信息获取相当于纯粹的机器智能。网络的发展,使得计算机可以通过网络相互连接,它们之间的合作将形成多机合作智能。同时计算机的背后是作为用户的人,计算机的互联也体现为人与人之间的互联,这种互联为我们提供了挖掘人的智能的环境,并将使计算机活起来,此时的智能可能不仅是机器智能,其中大量融合了人的智能,“人工智能”与“真人智能”将全面融合。这种合作智能在信息获取中的应用,就形成了合作信息获取。

 

四、高质量信息获取的商业意义

第十一次CNNIC调查结果显示,就网民上网目的来看,获取信息是第一位的,53.1%的人将其作为上网最主要的目的。其次是休闲娱乐(24.6%),交友排在第三位(7%)。获取信息仍然是网民上网最主要的目的。

根据互联网实验室的一份研究报告,11.5%的网民使用过付费网络服务(这里所指的付费网络服务是指除去在线购买书籍、光盘等实物产品之外的服务类网络消费项目),略高于10.3%的网上购物比例。这表明付费网络服务已经在中国启动。其中,电子邮箱以54.3%的绝对优势排名第一,网上游戏28.3%排名第二。有偿信息获取的比例几乎可以被忽略。

这就存在一个巨大反差,53.1%的人将获取信息作为上网的最主要目的,但是很少有人为之付费。

有人将值得付费的内容划分为四大类,即:稀缺、独家的内容;专业、权威的内容;不可或缺、赖以生活或者工作的内容;精品的授权内容或某一领域的汇总整合内容等。高质量的信息获取就是通过先进的信息处理技术,将第三类和第四类的信息进行整合,以用户为中心,及时提供准确的信息,为用户创造价值,从而推进有偿信息服务的发展。

 

 

相关推荐