Graph DL Top 10引用文章简述

Graph DL Top 10引用文章简述

GNN(图神经网络)是一种典型的几何深度学习方法,其主要参考了传统神经网络的结构,并将之应用到图结构的推断中,是图深度学习(Graph Deep Learning)的一种典型模型。在开始分析Top10文章之前我先推荐一个github地址,大家可以在这里瞥见目前图深度学习领域的最新动态。

本文主要简要介绍上述github中总结的十篇图深度学习文章的基本思想、模型与实验。Top10文章按类别总结如下:

GNN概述

我们知道,在传统的深度学习邻域中,其主要目的是通过一系列深度模型(典型的比如深度神经网络、卷积层、池化层、Readout层等)学习出对原有数据的可计算的表示。同样的,图深度学习方法的核心也是学习出对图数据的可计算的表示。然而图数据是一种典型的非欧式数据,其并没有规则的欧式结构,在数学上很难定义四则运算以及一些共享权重以及卷积聚集之类的操作,因此如何定义图深度学习中的层与层之间的推断过程是一个十分重要的方向,这也是GNN所研究的一个主要问题。

在这其中,我们不得不提到2009年发表在IEEE Transactions on Neural Networks(TNN)上的文章The graph neural network model。本文可谓是GNN的开山之作,其提出了适用于图结构和节点的新的神经网络模型,并扩展了递归神经网络模型和random walk理论,以及给出了一系列参数训练的方法。

图1 变量x_1的下一层的值依赖于节点自己的label,与邻居节点相连的边的label,邻居节点的变量值以及邻居节点的label

通过定义图 \mathbf G = (\mathbf N, \mathbf E) ,其中 \mathbf N 为图中节点的集合以及 \mathbf E 为图中的边的集合,并定义每个点都有一个状态 \boldsymbol{x}_i \in \mathbb R^s ,并且定义点的label l_{n} \in \mathbb{R}^{l_{N}} 以及边的label l_{\left(n_{1}, n_{2}\right)} \in \mathbb{R}^{l_{E}} 。在本文中,解决的是一个定义在图-节点域 \mathcal{D}=\mathcal{G} \times \mathcal{N} 中的监督学习框架:

\mathcal{L}=\left\{\left(\boldsymbol{G}_{i}, n_{i, j}, \boldsymbol{t}_{i, j}\right) |, \boldsymbol{G}_{i}=\left(\boldsymbol{N}_{i}, \boldsymbol{E}_{i}\right) \in \mathcal{G} ; n_{i, j} \in \boldsymbol{N}_{i} ; \boldsymbol{t}_{i, j} \in \mathbb{R}^{m}, 1 \leq i \leq p, 1 \leq j \leq q_{i}\right\}

其中 n_{i, j} \in \boldsymbol{N}_{i}\boldsymbol{N}_{i} \in \mathcal{N} 的第 j 个节点。 \left(\boldsymbol{G}_{i}, n_{i, j}, \boldsymbol{t}_{i, j}\right) 表示第 i 个图 \boldsymbol{G}_{i} 的第 j 个节点的target \boldsymbol{t}_{i, j}

那么,传统的图GNN模型的传播过程如图1所示,公式可以表示为:

\begin{array}{l}{\boldsymbol{x}_{n}=f_{\boldsymbol{w}}\left(\boldsymbol{l}_{n}, \boldsymbol{l}_{\mathrm{co}[n]}, \boldsymbol{x}_{\mathrm{ne}[n]}, \boldsymbol{l}_{\mathrm{ne}[n]}\right)} \\ {\boldsymbol{o}_{n}=g_{\boldsymbol{w}}\left(\boldsymbol{x}_{n}, \boldsymbol{l}_{n}\right)}\end{array}

其中 f_{\boldsymbol{w}} 是叫做局部转移函数的参数方程, g_{\boldsymbol{w}} 定义为局部输出函数,这也是目前大多数基于邻居信息推断的神经网络模型的基本框架。而为了能够使用GNN模型,通常需要解决以下问题:

  • 如何求解推断方程
  • 如何使用训练集训练 f_{\boldsymbol{w}}g_{\boldsymbol{w}}
  • f_{\boldsymbol{w}}g_{\boldsymbol{w}}的具体实现
图2 将原始图使用f_w和g_w函数进行编码后的结果。其中f_w和g_w可以理解成各种非线性函数或者神经网络的映射。

因此,作者在后面定义了损失函数 \varphi_{\boldsymbol{w}} ,并证明了函数f_{\boldsymbol{w}}g_{\boldsymbol{w}}以及 \varphi_{\boldsymbol{w}} 的连续可微性,反向传播的可行性,并给出了一些GNN网络的例子,另外证明了几个典型的GNN推断模型的时间复杂度。

之后,作者使用GNN模型进行子图匹配,诱变问题,网页排名问题,parity问题等多种问题。但是,其仅仅采用了一些简单的线性和非线性的连接方法,或者一些简单的前馈网络(FNN),相应地其就具有一些诸如梯度消失,高维特征难以提取,鲁棒性差等诸多缺陷。

卷积聚集推断

在Top 10 paper中,我们可以看到关于卷积聚集的方法(GCN-based methods)占据了超过半壁江山 ,另外卷积网络也在目标识别、实体分割、图像分类等计算机视觉领域,以及文本分类、机器翻译等NLP领域中具有十分杰出的效果。因此,将卷积网络引入到图结构中也是图深度学习领域的一种重要思路。

Spectral Networks and Deep Locally Connected Networks on Graphs

这篇文章是LeCun大佬组在14年ICLR的成果,其将卷积神经网络的操作扩展为定义在通用域中的信号操作。具体的构建方法包括:

  • 空间建构方法。基于域中的层次聚类操作,也就是定义图网络中一些局部连接与池化的层
  • 谱建构方法。基于图Laplacian的谱操作两种方法,将卷积操作拆分为Fourier域的操作。

在这篇文章中,第一次考虑在图域中定义卷积核操作filter,以及层次化聚类操作(也就是图像处理中的下采样操作,神经网络中的带stride的卷积和pooling操作)。无向图 G=\left(\Omega_{0}, W\right) 的池化过程如图3所示:

图3 空间建构过程,主要进行两次的层次聚类操作(池化操作)。每一层的转换丢失空间信息但是增加了filter的数量。

在谱方法中,也定义了基于图Laplacian的特征值分解的方法将图特征进行层层之间的推断:

x_{k+1, j}=h\left(V \sum_{i=1}^{f_{k-1}} F_{k, i, j} V^{T} x_{k, i}\right) \quad\left(j=1 \ldots f_{k}\right)

本文也介绍了在常数复杂度情况下使用平滑的谱乘子的方法 ,并且将图Laplacian的特征值矩阵 V 定义为Fourier变换的基矩阵。通常graph signal函数越小,图信号就越光滑。

实验上,本文在MINST数据集上测试了池化模型和Laplacian卷积模型,并将结果进行可视化之后呈现出来。

Learning CNN for Graphs

本文发表于2016年ICML上,作者提出了一种对于 任意图结构中训练CNN的方法,这些图包括点结构和边结构的属性。具体从传统卷积网络扩展到非欧式空间的卷积过程如下所示:

图4 (a)表示的是一个3x3感受野的CNN网络(也就是使用3x3卷积核的filter)。这个卷积过程从上到下从左到右进行移动,移动的stride为1,并且不采用zero-padding的技术。(b)在图上定义节点序列与感受野的大小,感受野大小由超参决定

本文主要解决以下两个问题:

  • 给定一个图的集合,对一个未知图进行分类和回归。任意两张图的节点不一定相关。
  • 给定有一个大图,学习其中的图表示以推断诸如节点类型和丢失边的未知图特性。

因此,为了解决序列问题,并且为了消除图本身带来的偏移,因此本文的任务是确定创建邻域图的归一化过程。因此,本文提出了以下的架构:

图5 本文的架构。具体的过程是:首先从图中通过节点标注选择节点序列,对于一些序列进行邻居图的建构,之后进行归一化操作。而这个邻居图则可以被视作图的感受野,之后可以构建类似CNN的架构

个人认为本文的主要创新点是提出了在任意图中都可行的CNN结构,这也为GCN奠定了理论基础。另外,本文针对其中graph normalization问题提出了最优graph normalization的问题定义及其近似解(因为这个问题可以规约到图同构问题)

\hat{\ell}=\underset{\ell}{\arg \min } \mathbb{E}_{\mathcal{G}}\left[\left|\mathbf{d}_{\mathbf{A}}\left(\mathbf{A}^{\ell}(G), \mathbf{A}^{\ell}\left(G^{\prime}\right)\right)-\mathbf{d}_{\mathbf{G}}\left(G, G^{\prime}\right)\right|\right]

实验上,本文进行了运行时间分析,图特征可视化,以及图分类任务,证明了PATCHY-SAN与非线性特征组合与其在CNN感受野中的工作表现得特别好。

Semi-Supervised Classification with Graph Convolutional Networks

这篇发表在ICLR2017的文章可以看作GCN的经典文章,也是系统化提出图卷积操作的经典之作,目前是GNN领域引用量最大的文章。其提出了一种在图数据结构上的半监督学习方法,并且使用对图谱卷积操作(图Laplacian矩阵的一阶近似),主要为了避免在Loss function中显式的表现出基于图结构的regularization项。

显而易见地,其逐层推断的更新公式为:

H^{(l+1)}=\sigma\left(\tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}} H^{(l)} W^{(l)}\right)

其中 \tilde{A}=A+I_{N} 是对于添加了自连接边的无向图 \mathcal G 的邻接矩阵, \tilde{D}_{i i}=\sum_{j} \tilde{A}_{i j} 以及 W^{(l)} 是逐层的可训练的邻接矩阵,并外套一层非线性激活函数。 H^{(l)} \in \mathbb R^{N \times D} 是第 l 层的表示结果。这个推断公式,是图的谱filter的一阶近似。因为图Laplacian矩阵的特征值分解通常需要大量的时间开销,目前已经使用Chebyshev多项式对特征值对角矩阵进行近似。

那么,GCN的半监督体现在何处呢?在作者提出的两层GCN网络中,作者对于所有已经标注的样例在多分类问题上定义了一个交叉熵函数:

\mathcal{L}=-\sum_{l \in \mathcal{Y}_{L}} \sum_{f=1}^{F} Y_{l f} \ln Z_{l f}

这里 \mathcal Y_L 表示拥有Label的节点index。

本文主要进行了对引文网络的半监督文档分类以及对知识图谱网络的半监督实体分类。在其中,GCN的主要问题是其只能使用无向图,并且无法分析边的特征,因为有向图的Laplacian矩阵很难保证半正定。

Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering

这篇发表于NIPS 2016的文章也是基于快速局部的谱过滤方法来进行卷积操作。与之前提到的谱方法类似,这篇文章的CNN架构则是提出了一种谱的方法,并且提出了一种完整的卷积-池化操作过程。具体如图6所示:

图6 本文提到的在图上的CNN方法,以及本文中提到的使用图信号处理方法的四个步骤

在上述过程中,其包含两个关键步骤:

(1)图傅里叶变换(Graph Fourier Transform)。基于传统的离散傅里叶变换过程,我们可以定义图Laplacian使用Fourier基 U=\left[u_{0}, \ldots, u_{n-1}\right] \in \mathbb{R}^{n \times n} ,并进行特征值分解使得 L = U \Lambda U^T ,那么我们可以定义图信号的傅里叶变换为 \hat x = U^Tx \in \mathbb R^n ,并定义逆傅里叶变换为 x = U\hat x ,那么定义在傅里叶域上的卷积操作 *_ \mathcal{G} 为:

x *_{\mathcal{G}} y=U\left(\left(U^{T} x\right) \odot\left(U^{T} y\right)\right)

定义 \odot 为Hadamard乘积,定义经过图filter g_{\theta} 为:

y=g_{\theta}(L) x=g_{\theta}\left(U \Lambda U^{T}\right) x=U g_{\theta}(\Lambda) U^{T} x

这里定义 g_\theta(\Lambda) 为Fourier系数向量的对角阵。另外,本文也提出了使用Chebyshev多项式对Laplacian矩阵进行递归近似。

(2)图粗糙化(Graph Coarsening)。这个问题可以理解成将一系列图的节点和边进行聚类之后用一个点或者一条边来代替,是一个节点和边的分割问题,这个问题已经在1992年被Bui等人证明是NP-hard的。在池化操作中,通常是需要一个Table以储存所有匹配的节点。这样会导致计算无法并行,因此作者首先建立了一个二叉平衡树,然后重排节点。

这个模型在文本分类任务上具有较好的效果,可以看到使用图CNN进行图数据的 处理具有较好的效果。

Convolutional Networks on Graphs for Learning Molecular Fingerprints

这篇文章是发表于2015年的NIPS,其提供了一种对于任意大小的图的端对端的预测模型。关于端对端我们可以理解为输入和输出是同一批类型的数据,即输入是一张图,那么输出的表示也是一张图。本文主要介绍了一种基于循环指纹提取分子特征的模型,并提出了data-driven的特征。

这篇文章主要是解决了计算分子指纹时需要处理任意大小的分子的需求。本文中主要将计算分子指纹向量的神经网络层替换为可微神经网络,其中输入是代表整个分子的图模型。这种模型具有以下几种优势:

  • 较好的预测效果
  • 结构简单(可以避免对无关特征的编码)
  • 可表达性。神经网络模型比传统模型更具有表达性。

本文主要使用Hash和Index两种方法建立可微指纹。这里由于有些偏化学的东西(好歹我还是材料出身的emmm)没仔细看,然而值得注意的是本文的实验除了测试了各种合成的有机物的化学性质之外,还定义了相似性度量的方法。在本文中,作者总结了该项工作相似于神经图灵机问题,为基于数据的机器学习问题提供了一种解决思路。

其它聚集方式

在Top10 paper中,我们也可以看到一些其他类型的聚集方式,包括基于序列模型的Gate GNN(LSTM-based GNN), 基于Attention机制的GAT,以及基于推理模型的GraphSAGE,另外还有包含边聚集信息的MPNN。下面将逐一介绍。

Gated Graph Sequence Neural Networks

这篇文章发表于2016年的ICLR。本文的主要贡献是为GNN提供了一种输出序列,而传统GCN则一般解决的是图级别的分类任务,而不是输出序列结果 。

在推断过程中,作者引入了与节点label相关的node annotation,提出的推断过程如下:

\begin{aligned} \mathbf{h}_{v}^{(1)} &=\left[\boldsymbol{x}_{v}^{\top}, \mathbf{0}\right]^{\top} \\ \mathbf{a}_{v}^{(t)} &=\mathbf{A}_{v :}^{\top}\left[\mathbf{h}_{1}^{(t-1) \top} \ldots \mathbf{h}_{|\mathcal{V}|}^{(t-1) \top}\right]^{\top}+\mathbf{b} \\ \mathbf{z}_{v}^{t} &=\sigma\left(\mathbf{W}^{z} \mathbf{a}_{v}^{(t)}+\mathbf{U}^{z} \mathbf{h}_{v}^{(t-1)}\right) \end{aligned}

\begin{aligned} \mathbf{r}_{v}^{t} &=\sigma\left(\mathbf{W}^{r} \mathbf{a}_{v}^{(t)}+\mathbf{U}^{r} \mathbf{h}_{v}^{(t-1)}\right) \\ \widehat{\mathbf{h}_{v}^{(t)}} &=\tanh \left(\mathbf{W} \mathbf{a}_{v}^{(t)}+\mathbf{U}\left(\mathbf{r}_{v}^{t} \odot \mathbf{h}_{v}^{(t-1)}\right)\right) \\ \mathbf{h}_{v}^{(t)} &=\left(1-\mathbf{z}_{v}^{t}\right) \odot \mathbf{h}_{v}^{(t-1)}+\mathbf{z}_{v}^{t} \odot \widetilde{\mathbf{h}_{v}^{(t)}} \end{aligned}

并定义图级别的表示为:

\mathbf{h}_{\mathcal{G}}=\tanh \left(\sum_{v \in \mathcal{V}} \sigma\left(i\left(\mathbf{h}_{v}^{(T)}, \boldsymbol{x}_{v}\right)\right) \odot \tanh \left(j\left(\mathbf{h}_{v}^{(T)}, \boldsymbol{x}_{v}\right)\right)\right)

可以看到,作者将神经网络之间的推断则是基于LSTM中的输入门、输出门、隐藏门等门模型来实现更新。作者另外描述了一种基于门的图序列神经网络模型(GGS-NN模型),这每个GG-NN模型都会产生一个输出序列 \boldsymbol{o}^{(1)} \ldots \boldsymbol{o}^{(K)} ,整个GGS-NN模型的结构如下:

图7 GGS-NN模型的架构。可以看到每个输出都是由一个Gate GNN的模型进行推断的。

这种序列输出的结果可以很好地解决输出序列生成的问题。由于这种方法可以高效生成序列,因此这种输出序列的模型可以被应用于自然语言生成等多种实际任务。本文的实验也是测试文本因果关系的数据。

Graph Attention Netowrks

本文是基于attention机制的新型的神经网络结构,通过引入self-attention机制,其克服了GCN中的邻居聚集过程未加权的结果。

同样地,在传统的图推断过程中,其引入了一个简单的图Attention层。通过定义一系列输入的节点特征 \mathbf{h}=\left\{\vec{h}_{1}, \vec{h}_{2}, \ldots, \vec{h}_{N}\right\}, \vec{h}_{i} \in \mathbb{R}^{F} ,输出特征 \mathbf{h}^{\prime}=\left\{\vec{h}_{1}^{\prime}, \vec{h}_{2}^{\prime}, \ldots, \vec{h}_{N}^{\prime}\right\}, \vec{h}_{i}^{\prime} \in \mathbb{R}^{F^{\prime}} ,另外定义权重矩阵 \mathbf W \in \mathbb R^{F^{\prime}} ,并且定义一个共享的attention过程 a : \mathbb{R}^{F^{\prime}} \times \mathbb{R}^{F^{\prime}} \rightarrow \mathbb{R} ,定义的attention 系数为:

e_{i j}=a\left(\mathbf{W} \vec{h}_{i}, \mathbf{W} \vec{h}_{j}\right)

那么,为了定义边的权重,也就是attention系数可以用Softmax+LeakyRelu函数:

\alpha_{i j}=\frac{\exp \left(\text { Leaky ReLU }\left(\overrightarrow{\mathbf{a}}^{T}\left[\mathbf{W} \vec{h}_{i} \| \mathbf{W} \vec{h}_{j}\right]\right)\right)}{\sum_{k \in \mathcal{N}_{i}} \exp \left(\text { LeakyReLU }\left(\overrightarrow{\mathbf{a}}^{T}\left[\mathbf{W} \vec{h}_{i} \| \mathbf{W} \vec{h}_{k}\right]\right)\right)}

其中 || 定义为连接操作。整体结构的模型如图8所示:

图8 左侧为attention机制的原理,主要是连接+LeakyRelu+Softmax得到attention系数

单head的更新如下:

\vec{h}_{i}^{\prime}=\sigma\left(\sum_{j \in \mathcal{N}_{i}} \alpha_{i j} \mathbf{W} \vec{h}_{j}\right)

当使用 K 个独立的attention机制进行操作时,即为 K-head attention机制。多head的更新推断如下:

\vec{h}_{i}^{\prime}=\|_{k=1}^{K} \sigma\left(\sum_{j \in \mathcal{N}_{i}} \alpha_{i j}^{k} \mathbf{W}^{k} \vec{h}_{j}\right)

\vec{h}_{i}^{\prime}=\sigma\left(\frac{1}{K} \sum_{k=1}^{K} \sum_{j \in \mathcal{N}_{i}} \alpha_{i j}^{k} \mathbf{W}^{k} \vec{h}_{j}\right)

相比较而言,GAT更具有高效的计算性,并且为每个节点提供了加权的重要性。在实验中,作者测试了几个比较有名的引文数据集,并且建立了一系列基于图的任务进行测试,在分类任务上体现出了比GCN更好的效果。

Inductive Representation Learning on Large Graphs

本文主要介绍了一种在图上的推理学习方法。在介绍本文之前需先了解Transductive Learning 以及Inductive Learning,这个大家可以看这个问题的高赞回答。

在图数据中,transductive的方法指的是需要在训练之前必须了解图的所有节点和边的特征的方法,而作者提出的GraphSAGE模型则是一种推理框架,在训练过程中利用了已有的节点和边的信息来推断位置数据的Embedding结果。在本文中作者是通过采样和聚集邻居节点的特征来生成embedding的结果,并不需要知道全局的节点信息。因此,GraphSAGE可以应用在大规模的图数据上。

图9 GraphSAGE聚集过程展示,主要分为三步。第一,对邻居节点进行采样;第二,聚集邻居节点的信息;第三,对邻居节点的label进行预测

可以看到,这是一种典型的半监督学习方法。在本文中,作者定义了可以近似Weisfeiler-Lehman 图同构测试过程的前向推断方法。

在训练过程中,作者使用了一个输出的表示 \mathbf{z}_{u}, \forall u \in \mathcal{V} ,使用negative-sampling的方法定义损失函数为:

J_{\mathcal{G}}\left(\mathbf{z}_{u}\right)=-\log \left(\sigma\left(\mathbf{z}_{u}^{\top} \mathbf{z}_{v}\right)\right)-Q \cdot \mathbb{E}_{v_{n} \sim P_{n}(v)} \log \left(\sigma\left(-\mathbf{z}_{u}^{\top} \mathbf{z}_{v_{n}}\right)\right)

其中 v 是在 u 附近的固定长度的一个随机行走, P_n 是一种Negative Sampling的分布, Q 表示负样本的数量。另外,在聚集方法中,作者也提出了三种典型的聚集方法:

  • 均值聚集。 \mathbf{h}_{v}^{k} \leftarrow \sigma\left(\mathbf{W} \cdot \operatorname{MEAN}\left(\left\{\mathbf{h}_{v}^{k-1}\right\} \cup\left\{\mathbf{h}_{u}^{k-1}, \forall u \in \mathcal{N}(v)\right\}\right)\right. 可以看做是一种特殊的卷及操作。这种链接可以看做一种简单的“skip-connection”情况。
  • LSTM聚集。
  • 池化聚集。 \text{AGGREGATE}_{k}^{\text { pool }}=\max \left(\left\{\sigma\left(\mathbf{W}_{\text { pool }} \mathbf{h}_{u_{i}}^{k}+\mathbf{b}\right), \forall u_{i} \in \mathcal{N}(v)\right\}\right)

实验上进行了三种任务:对引文数据集,Reddit数据以及蛋白质数据集进行分类,并证明了GraphSAGE使用均值聚集的效果最好,而且LSTM的速度也比较慢。因为显然,池化和LSTM过程都会丢失相关信息。这篇文章提供了一种比较完整的思路。

Neural Message Passing for Quantum Chemistry

本文是Gilmer发表于2017年ICML上的一种推断模型,其是一种在分子学、药物推断与材料科学领域上进行监督学习的方法。本文的网络主要应用于解决分子结构之间的信息传递问题,为MPNN(Message Passing Neural Networks)。信息推断过程如下:

\begin{aligned} m_{v}^{t+1} &=\sum_{w \in N(v)} M_{t}\left(h_{v}^{t}, h_{w}^{t}, e_{v w}\right) \\ h_{v}^{t+1} &=U_{t}\left(h_{v}^{t}, m_{v}^{t+1}\right) \end{aligned}

其中 m_{v}^{t+1} 为信息, h_v^t 为每个节点的隐藏状态。定义Readout为:

\hat{y}=R\left(\left\{h_{v}^{T} | v \in G\right\}\right)

这种模型相当于是将边的信息也考虑在内,将边属性的信息引入到推断过程中。另外本文也提出了一些MPNN的变体,包括信息函数,给图结构连上虚拟边以及Readout函数创新等多种方式进行变化。

在本文的实验中,输入数据主要是化学领域的图,并对比了多个MPNN模型的结果,均体现了较低的误差。

Reference

naganandy/graph-based-deep-learning-literaturegithub.com图标

大家可以从上述链接中下载Top10 论文以及视频。

发布于 2019-07-11