说说Google知识图谱

说说Google知识图谱

先引用一下维基百科对Google知识图谱的介绍:

Google知识图谱英语Google Knowledge Graph,也称Google知识图)是Google的一个知识库,其使用语义检索从多种来源收集信息,以提高Google搜索的质量。知识图谱2012年加入Google搜索,2012年5月16日正式发布
[1]
,首先可在美国使用。知识图谱除了显示其他网站的链接列表,还提供结构化及详细的关于主题的信息。其目标是,用户将能够使用此功能提供的信息来解决他们查询的问题,而不必导航到其他网站并自己汇总信息。

据Google称,知识图谱的信息来自许多来源,包括CIA世界概况Freebase维基百科

[1]
。其功能与Ask.comWolfram Alpha等问题问答系统相似。

截至2012年,其语义网络包含超过570亿个对象,超过18亿个介绍,这些不同的对象之间有链接关系,用来理解搜索关键词的含义。

[3]
[4]

2012年11月4日,知识图谱新增了7种语言:西班牙语、法语、德语、葡萄牙语、日语、俄罗斯语及意大利语。

引用结束,从上面的文字可以看出,首先,知识图谱是以对象为单位,组织知识,并且很多对象有介绍(用文字写的描述);其次,对象之间有链接,因此可以从一个对象快速跳到另一个对象,但是这种链接并不包含解释链接所代表的关系的信息;第三,每个对象都是一组key/value形成的结构化信息,并且key是多语言的,因此必定key是在一个受控的环境下统一定义的;最后,看来Google希望通过知识图谱实现问答系统,从目前情况看,现有的系统或许可以回答事实方面的简单问题,而不具有处理复杂逻辑结构的能力。

对于我们搞知识库的人来说,Google知识图谱基本上是一个轻量级本体和叙词表的混合物,因为每个节点都是有结构的对象,它比叙词表信息更丰富,但是因为丢弃了关系的语义,因此比真正的本体信息量要小。从前面我们已经推断它有一个受控的层级类型结构,但是在界面上并没有表现出来,界面上所表现出来的部分看起来更像是Linked Data。除了规模超级大之外,这个系统的结构倒是没什么复杂的地方,显然也无法支持逻辑推理和模拟仿真。

据说google从印度找了上万人从事图谱的人工编辑和校对,从知识库的角度来说,引入越多人工干预,潜在的逻辑不一致性就会越多,因为人类个体每个都是独一无二的,每个人对知识的理解和掌握都有很大的不同。另一方面看,人工干预的痕迹留在图谱中,倒是给机器学习人类知识现象提供了一个良好的素材,只不过这个素材库太庞大,容纳了太多个体差异,编写有效的学习算法是件具有相当挑战性的工作。

文章被以下专栏收录