罗超频道
首发于罗超频道
智能搜索时代:知识图谱有何价值?

智能搜索时代:知识图谱有何价值?

前几天,谷歌发布了一个全新的书籍搜索产品:“Talk to Books”,用户可以通过对话的方式得到一本书籍的推荐,比如输入:“What is thebest programming language?”(什么是最好的编程语言?),就会被推荐《C Programming for Arduino 》。这个产品是典型的知识图谱技术的应用,它让搜索引擎可以理解用户的问题和每一本书的内容,进而进行精准匹配——就像有人在豆瓣给你荐书一样。事实上,知识图谱仍旧在驱动着已有20多年历史的搜索引擎进化。



智能搜索时代来临

以前的搜索引擎长什么样?联想一下我们用得最多的百度,不难描述:简洁的白色页面有一个搜索框,键入关键词后,就会得到一个网页列表,而决定用户体验的只有一个因素:结果是否足够多,排序是否足够准。



然而今天的百度,已经变得截然不同。除了首页有了信息流外,搜索结果页变得更加丰富,左侧结果列表页内容更加多样化,聚合了百科、新闻、图片等等内容,右侧变得前所未有的丰富。比如你搜索马云,出现在右侧的关联内容列表就有三个:阿里创始成员、知名企业家、马云风云史。



信息的聚合似乎还不能让用户感知到搜索引擎的“智能”,顶多是“丰富”。如果你搜索“太阳的质量”、“2的五次方等于多少”、“形容大海的成语”、“成龙的老婆是谁”,就会发现百度可以精准地理解你的问题,再给你个性化的结果,它不只是可以理解一段文字,也可以理解图片和声音,比如你可以用百度App上传一张植物的图片,百度会告诉你这是什么。

在百度App搜索在精准化上表现更明显,搜索不同内容,每次的结果页面前面的卡片都截然不同。理论上来说,移动搜索更需要这样的智能聚合。手机屏幕很小,如果按照传统的列表来展示搜索结果页对用户并不友好,精准、智能和个性化地呈现结果十分重要,直接决定用户体验。PC搜索的体验是由排序算法决定的,而移动搜索的体验是由精准程度决定的,最终搜索引擎应该只给用户一个答案——他最需要的答案。

谷歌“Talk to Books”只会给你推荐一本你最需要的书,而不是一个书籍的列表,Siri、度秘这样的语音助理,给你的答案同样只有一个,PC搜索要丰富,移动搜索求精准,少即是多。

说到底,相对于五年前而言,搜索引擎更能理解你的意图——不论是自然语言、关键词、语音还是图片,都可以揣摩到你想要找什么内容的意图,同时更加智能地整合更适合的结果到一个页面。搜索的case不能穷举,搜索结果页面的不同也无法一一列举,因为这是完全个性化的,针对不同搜索需求采取不同形式,对结果进行展现,一击即中。

互联网从来不缺新技术和新产品,信息流、短视频、AI、区块链、IoT、边缘计算,新生事物层出不穷。搜索引擎作为互联网最基础也是最广泛的应用之一,每天被我们使用,其潜移默化的进化被许多人忽视。如果拿一张五年前的搜索截图和今天的进行对比,你一定会发现它们截然不同,智能化是核心变化——智能地理解搜索需求,智能地呈现个性而精准的结果。

知识图谱成搜索新基石

搜索引擎的技术基石是什么?自然语言处理技术,不论是爬取、处理和索引网页,还是理解用户的搜索诉求,关键技术就是自然语言处理技术。五年前这个答案是正确的,今天再来看这个问题,答案已经变成了知识图谱。

知识图谱是在技术层面,将现实世界的知识点进行关联,形成一个知识网络,对机器来说就是图谱。比如提到李彦宏,我们就会想到百度,互联网大佬,企业家,山西等等标签,每一个标签会有对应的内容,如互联网大佬就是马云、马化腾等等,如此不断联想不断关联就可以形成一个庞大的知识点网络。



搜索引擎的知识图谱比上面所联想的要庞大很多,因为形成知识图谱的过程本质是在建立认知,理解世界。每个人都有自己的知识面,或者说知识结构,本质就是不同的知识图谱,一个人穷尽一生能够构建的知识图谱在搜索引擎面前都是沧海一束,因为后者是映射的整个真实世界。

当构建了知识图谱,就可以利用它来让搜索变得更加智能。一方面,有知识图谱等于对世界有了认知,再加上自然语言处理技术,可以理解用户的自然语言、听懂用户的语音命令,理解各种内容进而更好地匹配答案。另一方面,基于知识图谱和自然语言处理技术孵化出了许多创新的智能搜索产品,如智能问答、对话式搜索、信息流等等,比如被视作“被动搜索引擎”的信息流,每个用户看到的结果都不一样,看了一篇文章的行为会决定接下来会被推荐什么,一切都是动态的,而其基础除了用户理解和内容理解技术以外,同样包括知识图谱:内容被建立了图谱,用户被贴上了标签(画像),进而智能推荐。

总之,今天的智能搜索逻辑,跟当年基于关键词匹配的搜索逻辑已经截然不同了。五年前搜索引擎是在理解你的搜索需求后,通过关键词去索引库匹配答案,如今的搜索引擎可以理解你的需求,结合知识图谱去关联对应的内容,知识图谱成为基石。

谷歌是知识图谱的始作俑者,而在知识图谱的探索上,百度在中国走在了前面,2014年上半年就已开始提供线上服务,四年的时间线上服务量整体上增长了300多倍,正是因为构建了知识图谱,所以百度能够提供跟五年前截然不同的智能搜索体验。日前,在苏州第十三届中国电子信息技术年会上,百度知识图谱获电子学会科技进步一等奖,证明了其学术价值。事实上,紧随百度步伐,搜狗搜索、神马搜索都已构建起自己的知识图谱,以求实现智能搜索服务。

百度副总裁,AI技术平台体系(AIG)总负责人王海峰透露,百度知识图谱已有几个亿的节点(知识点),它们基于百度对几千亿的链接(每个链接是一个内容,也是一个实体)进行智能挖掘而形成,随着百度连接的内容越来越多(包括网页和平台内容),这个知识图谱正在以几何级数量爆发式增长。同时百度在历史、商业、通信、零售、科技等等垂直行业上进行知识图谱的完善细化,让搜索引擎更懂领域知识。

王海峰认为,“互联网很大程度是真实世界的一个镜像,而搜索引擎又是互联网的一个镜像,所以,搜索引擎很大程度上成了真实世界的镜像。”知识图谱是搜索引擎描述和映射真实世界的关键。王海峰是自然语言处理领域的顶尖专家,是百度AI技术的奠基人,也是百度知识图谱的推动者。智能搜索时代来临,王海峰提前对AI和知识图谱技术的布局,给百度奠定了坚实的技术基础。



知识图谱不只是改变搜索

智能搜索是知识图谱最典型的应用,不过,既然知识图谱的本质是数字世界对真实世界的认知的构建,它的应用场景就不只是智能搜索。

很早以前,就有一种说话,互联网的本质是将原子世界变为比特。过去几十年,互联网最大的价值是让实体世界数字化,比如大量的数据可以被传感器、摄像头、人工采集录入存储。未来几十年,人工智能会让数字世界构建对实体世界的认知,不只是对现实世界从空间和时间维度进行“快照存储”,而是要理解真实世界正在发生的一切,理解这个世界,而要认知世界就要构建知识图谱。



王海峰此前曾表达过一个观点:知识是人工智能的基础,因为机器可以模仿人类的视觉、听觉等感知能力,但这种感知能力不是人类的专属,动物也具备感知能力,甚至某些感知能力比人类更强,比如狗的嗅觉,认知语言是人区别于其他动物的能力,同时,知识也使人不断地进步,不断地凝练、传承知识,是推动人不断进步的重要基础,知识对于人工智能的价值就在于让机器具备认知能力。

AlphaGo或许不需要知识图谱,不过倘若将AI应用到金融、零售、医疗、媒体、娱乐、出行诸多行业,就无法离开知识图谱。去年,我国政府制定了《新一代人工智能发展规划》,将人工智能上升到国家战略层面,并提出:人工智能产业要成为新的重要经济增长点,而且要在2030年成为世界主要人工智能创新中心,为跻身创新型国家前列和经济强国奠定重要基础。伴随着互联网+的浪潮,人工智能渗透到各行各业成为一个大趋势,它要在不同行业发挥作用的关键,就是构建知识图谱。

比如智能金融中,机器要能够反欺诈,或者智能授信,就必须建立金融行业的知识图谱——当然,技术层面这个过程可能叫做建模。百度2015年就有过尝试,将知识图谱应用在股票领域,旗下产品股市通通过数据(招股书、年报、公告、研报、新闻、行情)、信息(股东、子公司、供应商、客户、合作伙伴、竞争对手)与股票的关系,以及股票与股票之间的关系,在股票领域首创知识图谱,实现智能选股。再比如智能医疗中,机器要能给病人看病开药,没有准确和完善的医疗知识图谱根本做不到。

除了AI外,目前最热门的新技术,IoT(物联网)、区块链,其本质都是为了更好地映射真实世界——IoT更好地感知世界,区块链解决现实世界的信任问题。通过映射真实世界得到数据后,再由AI进行智能化的处理,进而给出反馈,只要涉及到映射真实世界,知识图谱都是不可或缺的技术,可见其应用将远远不止智能搜索,百度在知识图谱上的积累将会进一步释放出价值。百度使命是让复杂的世界更简单,理解这个复杂的世界,将其映射为机器可以理解的知识图谱,也是必经之路。

发布于 2018-04-22

文章被以下专栏收录

    自媒体人罗超的科技观察,超过10个顶级专栏,累积阅读量超过20 000 000次。他的微信罗超频道(luochaotmt),微博@互联网阿超