美文网首页
论文粗读“GCN with Clustering Coeffic

论文粗读“GCN with Clustering Coeffic

作者: 掉了西红柿皮_Kee | 来源:发表于2021-05-12 16:24 被阅读0次

Yadav R K, Abhishek A, Sourav S, et al. GCN with Clustering Coefficients and Attention Module[C]//2020 19th IEEE International Conference on Machine Learning and Applications (ICMLA). IEEE, 2020: 185-190.

摘要翻译:

图卷积网络(GCN)通过节点的邻接矩阵来充分利用图的连通性。但是,由于对每个单跳邻居的重要性分配相同,以及对邻居内部连通性的整合限制了其性能。图注意网络(GAT)采用一种自注意机制,利用单跳邻居的加权特征对感兴趣的节点进行编码,从而解决了平等对待所有邻居的问题。这种方式赋予连接节点之间适当、基于相似度的权重。节点权值的学习考虑了节点之间的邻居内连通性。然而,这忽略了感兴趣节点的邻域性质。在这项工作中,我们提议通过适当地权衡节点的自循环,将节点的邻域性质编码到节点本身
图的局部聚类系数探讨了图中节点倾向于聚集在一起的程度。聚类系数低且度大的顶点表示不同类之间的连通性。类似地,聚类系数高、聚类度低的顶点表示属于同一类的相似顶点直接耦合。因此,使用局部聚类系数对节点自环进行权重初始化。在基准图数据集(包括Cora、Citeseer和Pubmed)上进行的实验结果表明,即使采用稀疏两层基于自环的局部聚类系数也比基线GCN高出约3%。消融研究和学习曲线证明,所提出的模型在相对较少的时期内保持稳定并学习到最优的特征表征。

注: The GAT mechanism estimates the node embedding vector of graph nodes by aggregating node embedding from the neighborhood nodes.
It indicates the importance of the nodes in the neighborhood of the node of interest.

The intrinsic topological information given by the adjacency matrix representing local graph structure and features of individual nodes are exploited during the process. (在整个探索的过程中,由邻接矩阵给定的内部拓扑结构代表着局部的图结构以及单个阶段的信息被利用。)

The problem is that the influence of a node on itself is not embodied in the adjacency matrix. (以NAE解决) It is considered by adding a self-loop i.e., by a self-edge with unity weight.

Introduction(对GCN的直观认识)
GCN一般用于学习graph data的特征表示。在大多数情况下,假设给定了相应的邻接矩阵,这说明数据点的邻居是先验的。这意味着GCN仅使用最大的子图来学习节点表示,并且主要应用池化。这种方式未能利用邻域信息来学习图中的节点之间的节点表示形式或成对亲和力(成对的关联特征关系)
In most cases, it is assumed that the corresponding adjacency matrix is given, which indicates that the neighbors of data points are known a priori. GCN uses only the largest sub-graph to learn the node representation and mainly applies pooling. These fail to leverage the neighborhood information in learning the node representation or pairwise affinity between nodes in the graph.
GCN is inherently affected by two problems: 1. Equal importance to each one-hop neighbor dilutes the similarity metric important for implicit regularization. (单跳邻居的同等重要性稀释了对重要相似性的度量) 2. Unexploredintra-neighbor connectivity, which can increase the importance of neighborhoods having larger similarities. (无法探索邻域间的连通性)

主要贡献点:

在这项工作中,作者使用局部聚类系数来考虑学习亲和力的考虑程度。

  • 局部聚类系数解决了邻居之间紧密编织时未探索的邻居内部连通性的问题,从而提高了编码中自特征的重要性。
  • 使用平方聚类系数加入两跳邻居,使模型能够在给定的局部单跳连通性之外找到相似邻居,克服了使用基于三角团的局部聚类系数的缺点。

模型算法设计( GRAPH ATTENTION WITH CLUSTERING COEFFICIENT(GACC))

数据集设定:对于给定数据X=\{ x_i ^{\rightarrow} \}_{i=1} ^ {n}, 使用欧式距离度量公式构造一个KNN graph。每个节点都有固定数量的邻居,且边缘权重统一。
局部聚类系数类似于密度度量。当节点的边密集时,聚类系数高。即相邻节点彼此相邻时也很高。因此,局部聚集系数是图形中节点趋于聚集在一起的程度的度量。节点的局部聚类系数是其一跳邻域内节点之间的边的数量除以它们之间可能存在的边缘数量所得到的比例。由局部聚类系数衡量的数据点的邻域的这种团簇性,被认为是邻域对节点本身的影响。
对于自循环矩阵的初始化由单位矩阵被替换为局部聚类系数。这准确地增加了在其附近紧密编织的节点的重要性。

Attention mechanism with Clustering Coefficient

通过引入由局部聚类系数值加权的自环,算法解决了未探索的邻域内连通性问题。图的局部聚类系数可探究图中的节点趋向于聚在一起的程度。较大的局部聚类系数表示相似地邻域中的相似邻居,相对较低的系数值表示属于几个唯一类的节点的交界处。对于包含k个一跳邻居的节点,其可能的最大连接点(无线图)有k(k-1)/2. 因此局部聚类系数可以形式化为:
CC=2|e_{ij}:x_i, x_j \in X, e_{ij} \in E|/k(k-1)
其核心思想是通过具有邻里连通性的聚类系数来代替自循环的单位系数矩阵,如下:

形式化及解释.png

特点:该框架具有基于局部聚类系数的自环,可为邻域中的节点分配适当的权重,并考虑邻居内部的连通性以增强嵌入。

从本质上来讲,作者是从概率统计的角度对self-loop矩阵进行了改进,引入self-attention对node节点的表示和权重进行了一定程度的改进,从而达到了对感兴趣的节点领域的增强表示。用作者的话来说,用聚类系数替换单位阵自循环可以适当地重视与邻居紧密相连的节点。

当前这种局部聚类系数的设定可能会存在极值差异大的问题。因此,上述系数计算的基础上,作者对其进行了正则化,以避免节点之间的聚簇系数有效值的较大变化带来的降低嵌入精度的影响。

normalizing.png

在高维特征空间中,样本点x_i邻域内的任意两个点x_jx_k被一跳边连接的可能性会降低,这种现象会造成自我特征的消失;即便节点的度很高也无法避免。因此,作者又在正则化的CC`中加入self-loop(单位矩阵)。为避免self-loop对局部聚类系数造成冲击,作者添加了对两跳邻居的小圈子的信息探索。即:平方聚类系数使模型能够通过第二跳邻居探索邻居中节点之间的近邻信息。

square clustering framework.png

不同于之前使用的聚类辅助分布的二阶信息(平方项)的引入,这里的二阶邻域信息的形成采用的是某样本表示的二跳信息。并且以交集的形式给出common neighbors的个数。

一跳和两跳的信息引入可以图形化为:

information.png

实验部分为分类任务,这里只进行结构记录
We evaluated the proposed technique under a semi-supervised framework to evaluate its effectiveness on various benchmark relational datasets in terms of classification accuracy.

  • 数据集描述和实验设置
  • 结果分析
  • 消融实验

相关文章

网友评论

      本文标题:论文粗读“GCN with Clustering Coeffic

      本文链接:https://www.haomeiwen.com/subject/azkndltx.html