谷歌三大法宝之一:知识图谱
2017-03-31 15:00
知识图谱
重大变革当中,哪项最为意义重大的?谷歌搜索团队对此毫不掩饰。搜索业务负责人辛格尔明确表示:“当然是知识图谱(Knowledge Graph),只要你开始进行打造,就能慢慢了解现实世界。第二是语音输入——因为我不能在这里打字,”他一边说着,一边向手腕上的三星智能手表打手势。“我们还意识到,除了预测外还需要一些科学,这样的话人们就不必总是提出问题,因此我们开发了 Google Now。”
知识图谱将全世界的知识打造成一个广大的数据库。语音搜索将语音带到搜索。Google Now 在用户提问之前就告知答案。所有这三项都与谷歌对移动端的关注密切相关。这些组成部分——以及它们运作的方式——已经在过去三年帮助对谷歌搜索进行改造:从一个“10 个蓝色链接”的投递系统到某些几乎超自然的东西——这个系统的行为并不像计算机,而是一个智能的知识储备库,能够聪明地解译和满足你的信息需求。在你还没有开始予以寻找的时候,它已经完成一切。
谷歌在 2010 年收购一家名为 MetaWeb 的公司,该消息并没有引起太多关注。但事实证明这笔并购成为了谷歌搜索史上一项最意义重大的变革的关键。
MetaWeb 在 2005 年由丹尼·希利斯(Danny Hillis)创办,他是一位知名的计算机科学家和企业家。在经营他的公司 Applied Minds 时,希利斯构想了大量创造性项目,不过他认为 MetaWeb 项目非常意义重大,因而将其剥离出来成为一家独立公司。MetaWeb 公司在 2007 年成立,是所谓的 Semantic Web 的首批重大利用成果之一。Semantic Web 实际上是一种处理多数据库的办法,经整合后数据库中的信息可被轻松阅读。希利斯说:“我们尝试创造一个全球性的数据库,包含全世界的信息。”由于 Metaweb 可以扫描互联网来回答问题,因而被广泛视为是谷歌的竞争对手。不过在经过几年的经营以及超过 5000 万美元融资后,希利斯意识到只有加入一家规模更大的公司——即谷歌——这个想法才能开花结果。
当时,谷歌已经在向用户提问提供一些直接的回答:如果你输入“奥巴马生日”,它会在搜索结果的顶部显示“1961 年 8 月 14 日”。不过,正如谷歌在 2010 年 7 月一篇宣布收购 Metaweb 的博客文章上解释说,谷歌的搜索引擎未能回答像“美国西岸学费低于 3 万美元的大学”或“至少夺得过一个奥斯卡奖项的 40 岁以上艺人”这样的问题。该篇博客承诺 Metaweb 将帮助谷歌提供这些答案。
产品经理艾米丽·莫斯利(Emily Moxley)从 2011 年就开始参与到 Metaweb 项目,她表示:“谷歌收购 Metaweb 的时候,知道‘物’的概念将成为搜索一个非常重要的部分。我们认为这是快速呈现一些简要事实以及人们所关注事物的有关信息的良好途径。”
在 2012 年 5 月,谷歌推出了这些 Metaweb 材料,将其称为“知识图谱”(Knowledge Graph)。该项目从 1200 万实体发展至 5 亿。该产品可以在自认为合适的时候对搜索结果提供补充性的答案:多项有关所搜索主题的关键事实,其位置位于平常的搜索排名的右侧。这看起来有点“手气不错”(I’m feeling lucky)的感觉。
在介绍谷歌如何考虑哪些词条应该获得知识图谱结果时,莫斯利引用了弗吉尼亚州里奇蒙德(Richmond, Virginia)地区的洲际高速公路系统。从西北向佛罗里达州进发的游客应该非常清楚这种情况——在里奇蒙德背部,95 号公路出现分叉,驾驶员可以选择继续沿南北主干道行驶并途径市中心,或者选择 295 号公路,在外围绕过该城市并在里奇蒙德南部再进入 95 号公路。
她解释说,如果用户提供一个搜索词条,谷歌将其扩展为替代性的形式以及同义词等,之后提供一个算法测试,从而了解它是否与“知识图谱”结果具有相关性。“然后,用户可能会选择 295 号公路的出口,说‘好,有什么可能的知识图谱内容会对这个词条有用?’——我们搜索所有的文件,给出相关的内容。之后用户再次回到 95 号公路,我们说‘好,我们认为这些内容足够有用,让我们更显著地呈现这些信息吧’。”
谷歌搜索与“知识图谱”整合的 2 年多里,该公司继续改善这款产品(谷歌并未正式公布设计“知识图谱”回答的词条比例,不过似乎大约为 25%)。最初,“知识图谱”较为动态。不过这款产品逐渐掌握谷歌搜索本身所具有的学习能力,能够分析用户的习惯。莫斯利举了“谁在电影《太空炮弹》(Spaceballs)中扮演 Barf?”作为例子,“知识图谱”已经接触了非常多词条,因而知道如何提供涉及演员和电影的图解——并且以非常快的速度完成。
“知识图谱”也在另一个重要领域——新鲜度——取得较大进步。由于谷歌假定对一个问题提供一个正确答案,因此其信息必须与时俱进。否则,答案会是错误的,对用户造成的影响会比没有答案更糟糕。莫斯利表示,“知识图谱”在 2012 年推出的时候,其中一个实体的变化——例如大众汽车(Volkswagen)决定聘请新的首席执行官——该系统可能要花长达 2 周来反映这种变化。现在该系统能够在几分钟内处理这些新闻并进行调整。但是她承认,对“知识图谱”而言,这种特定的“大众汽车首席执行官”词条既是成功也是失败。新任首席执行官要几个月后才会正式上任。“知识图谱”仍然展示当前的领导人,不过很多在谷歌输入“大众汽车首席执行官”词条的用户可能寻求的是有关继任者的信息。因此,尽管“知识图谱”是正确的,其回复可能不会令用户满意。
谷歌还需要进行很多改进。首先是增加更多领域和行业;该项目最近增加了汽车、视频游戏及雨果奖(Hugo Award)获奖者的知识。不过她表示,谷歌正尝试找出如何提供更加复杂的结果——不再只是快速事实,还提供更主观、更模糊的联想。“人们不只是对事实感兴趣,”她说。“他们对一些主观性的东西也感兴趣,如该电视节目是否好看。这些东西能帮助将‘知识图谱’提升至新的级别。”这就像谷歌并不希望让用户感觉自己在进行机械搜索,而是咨询一位圣人,这位圣人不仅无所不知而且在文化方面还具有自己的独立见解。
不过这还需要走很长的路,并且由于对“知识图谱”所提供信息的预期提升,其所犯错误也不断令用户感到失望。莫斯利最近较为烦恼,因为她意识到“知识图谱”虽然了解电视节目的信息,但是缺乏有关新节目以及何时播出的内容。她说:“我希望有这样的提醒,能告诉我本周有新节目播出,我也想知道哪些网站有放映,从而可以登陆观看,”承诺最终谷歌将穿越这个“中间阶段”,虽然该项目还没有将所有东西都收入到目录中。
谈到期望提升,可能“知识图谱”最显眼的错误是谷歌在 2010 年夏天收购 Metaweb 时提到的两个问题。4 年后,其搜索引擎仍然未能对“美国西岸学费低于 3 万美元的大学”或“至少夺得过一个奥斯卡奖项的 40 岁以上艺人”等问题提供一站式答案。