GNN 系列(一):Graph 基础知识介绍

GNN 系列(一):Graph 基础知识介绍

写在前面

图卷积神经网络(Graph Convolutional Network)作为最近几年兴起的一种基于图结构的广义神经网络结构,因为其独特的计算能力,而受到广泛学者的关注与研究。传统深度学习模型 LSTM 和 CNN 在欧几里得空间数据(语言,图像,视频等)上取得了不错的成绩,但是在对非欧几里得空间数据(eg:社交网络、信息网络等)进行处理上却存在一定的局限性。针对该问题,研究者们引入了图论中抽象意义上的图(Graph)来表示非欧几里得结构化数据。并利用图卷积网络对来图(Graph)数据进行处理,以深入发掘其特征和规律。本文首先分别介绍了欧几里得结构化数据和非欧几里得结构化数据特点;然后,针对非欧几里得结构化数据的表示问题,引入了图论中抽象意义上的图(Graph)概念,并对图(Graph)中一些表示形式进行介绍;最后,通过一个简单的例子,对图(Graph)数据的应用进行介绍,以帮助读者加深对图(Graph)的理解。

首先推荐一篇文章,原文是一篇ICLR 19的Oral文章 《How powerful are graph neural networks》,看看GNN的强大之处。

How Powerful are Graph Neural Networks?openreview.net

此文章将对Graph的基础知识进行介绍,后续将会对GNN做更多详细介绍。

原文链接:GNN 系列:Graph 基础知识介绍 作者:金良,杨开漠

目录

  1. 欧几里得结构化数据

a. 欧几里得空间

b. 常见的欧几里得结构化数据

2. 非欧几里得结构化数据

a. 非欧几里得空间

b. 非常见的欧几里得结构化数据

3.图(Graph)

a. 图(Graph)的引入

b. 图(Graph)的定义测试

c. 图(Graph)的表示形式
(1)、邻接矩阵(Adjacency matrix)
(2)、度矩阵( Degree matrix)
(3)、邻域( Neighborhood)

4.图上的学习任务

5.图数据应用举例

6.系列规划

正文

1.a.欧几里得空间

欧几里德空间(Euclidean Space),简称为欧氏空间(也可以称为平直空间),在数学中是对欧几里德所研究的2维和3维空间的一般化。这个一般化把欧几里德对于距离、以及相关的概念长度和角度,转换成任意数维的坐标系。如下图所示。

图 a 表示二维欧几里得空间图 b 表示三维欧几里得空间

1.b.常见的欧几里得结构化数据

将数据转换到欧几里得空间中,所得到的数据称为欧几里得结构化数据。

常见的欧几里得结构化数据主要包含:

1D:声音,时间序列等;

2D:图像等;

2.a.非欧几里得空间

科学研究中并不是所有的数据都能够被转换到欧几里得空间中(eg:社交网络、信息网络等),对于不能进行欧几里得结构化的数据,我们将其称为非欧几里得结构化数据。

2.b.非常见的欧几里得结构化数据

1D:社交网络(eg:Facebook,Twitter等)等;

2D:生物网络(基因,分子,大脑连接)等;

3D:基础设施网络(eg:能源,交通,互联网,通信等)等;

3.a.图(Graph)的引入

针对非欧几里得结构化数据表示问题,研究者们引入了图论中抽象意义上的图(Graph)来表示非欧几里得结构化数据。

3.b.图(Graph)的定义测试

3.c.(1)图的表示形式——邻接矩阵(Adjacency matrix)

3.c.(2)图的表示形式——度矩阵( Degree matrix)

3.c.(3)图的表示形式——邻域( Neighborhood)

4.图上的学习任务

介绍完图的基本术语之后,我们来看看有了图结构数据,我们可以进行哪些机器学习的任务

1、图节点分类任务:图中每个节点都有对应的特征,当我们已知一些节点的类别的时候,可以设计分类任务针对未知节点进行分类。我们接下来要介绍的 GCN、GraphSAGE、GAT模型都是对图上的节点分类。

2、图边结构预测任务:图中的节点和节点之间的边关系可能在输入数据中能够采集到,而有些隐藏的边需要我们挖掘出来,这类任务就是对边的预测任务,也就是对节点和节点之间关系的预测。

3、图的分类:对于整个图来说,我们也可以对图分类,图分类又称为图的同构问题,基本思路是将图中节点的特征聚合起来作为图的特征,再进行分类。

5.图数据应用举例

对于一个简单的电商的图,其包含卖家,商品和用户三个关键节点,其中,商品节点关联商品类别节点,用户节点关联注册 IP 节点和 注册地址节点。当用户在购买商品时,用户节点和商品节点就会关联交易节点,同时,交易节点也会关联用户下单时所对应的 IP 节点以及收获地址节点,对应的图结构如下图所示。

从图数据中节点间的关系以及特征,我们可以进行反欺诈以及商品推荐的操作。

1、节点分类—反欺诈:因为图中每个节点都拥有自己的特征信息。通过该特征信息,我们可以构建一个风控系统,如果交易节点所关联的用户 IP 和收货地址与用户注册 IP 和注册地址不匹配,那么系统将有可能认为该用户存在欺诈风险。

2、边结构预测—商品推荐:图中每个节点都具有结构信息。如果用户频繁购买某种类别商品或对某种类别商品评分较高,那么系统就可以认定该用户对该类商品比较感兴趣,所以就可以向该用户推荐更多该类别的商品。

总而言之,图数据的丰富应用价值促使更多的研究者加入图数据的研究当中,但是对图数据进行数据分析时,我们需要同时考虑到节点的特征信息以及结构信息。如果靠手工规则来提取,必将失去很多隐蔽和复杂的模式,那么有没有一种方法能自动化地同时学到图的特征信息与结构信息呢?这就是近年来兴起的机器学习的一个热点方向—图神经网络(Graph Neural Networks)。接下来我们将以一个系列的文章介绍它们。


6.系列规划

本文为GNN教程 [第一章 基础:三剑客] 的第一篇文章 [01 基础知识],下图展示了我们在这一系列的规划,接下来我们将会介绍图神经网络的三个基本模型,使大家对他们有所了解。

写在最后

竞赛社区(数据竞赛的一站式服务

就在前不久我和Datawhale的晶晶,还有杰少一起计划推出有关数据竞赛的高质量社区,并邀请了圈内大咖,其中包括Kaggle上的Grand Master,也有天池的数据科学家,还有顶会科研大佬。筹备社区前,我们也一直考虑如何提供更好的体验和学习服务,为此做出大量的筹划,力求为学习者提供数据竞赛的一站式服务。

知识星球嘉宾(部分)

范晶晶:开源组织Datawhale创始人

张 杰:南京大学LAMDA硕士,天池数据科学家,KDD2019全球亚军

谈志旋:北京大学硕士,社交app算法负责人

刘 洋:在读博士,IJCAI/KDD/ICME等顶会比赛前三,天池数据科学家

钱 乾:资深算法工程师,Kaggle Grand Master

数据竞赛群

下面是一个数据竞赛群,也欢迎大家加入。

知乎专栏目的传播更多机器学习干货,数据竞赛方法。欢迎投稿!

ML理论&实践zhuanlan.zhihu.com图标数与码zhuanlan.zhihu.com图标

路漫漫其修远兮,吾将上下而求索。

编辑于 2019-08-23

文章被以下专栏收录

    我是鱼遇雨欲语与余,数据挖掘竞赛爱好者,国内竞赛方案最佳分享者,一年内斩获两冠四亚一季的佳绩。 奖项: 2019,腾讯广告算法大赛,冠军 2019,KDD Cup: Context-Aware Multi-Modal Transportation Recommendation,亚军 2018,科大讯飞营销算法大赛,冠军 2019,TIANCHI-OGeek算法挑战赛,亚军 2019,JDATA-用户对品类下店铺的购买预测,亚军 2019,第四届魔镜杯大赛数据应用大赛,亚军 2019,TIANCHI-全球城市AI挑战赛,季军

    数据与代码能碰撞出怎样的火花