ICLR 2020丨论“邻里关系”的学问:度量和改进图信息在图神经网络中的使用

作者:AI科技评论 时间:2024-01-12 阅读:924

本文介绍的是 ICLR 2020 论文《Measuring and Improving the Use of GraphInformation in Graph Neural Networks》,作者为香港中文大学计算机系的硕士二年级研究生侯逸帆。

文 侯逸帆

编 丛 末

论文地址:https://openreview.net/pdf?id=rkeIIkHKvS近年来,图神经网络(GNN)在社交网络、知识图谱、推荐系统甚至生命科学等领域得到了越来越广泛的应用。但在复杂的图数据中,我们很难高效利用实体之间的相互依赖关系。在由清华计算机系主办的 AI Time PhD直播间,香港中文大学计算机系的硕士二年级研究生侯逸帆,分享了自己的团队在被誉为深度学习中的顶会ICLR (2020)中发表的研究成果。让我们看看这位学霸是如何巧妙利用节点的邻里关系,来选择图数据和改进图神经网络吧!

1

背景知识a)图数据与数据分类图是一种强大的数据结构,能够轻松地表示实体(即节点)之间的各种关系(即边)。

实体可以是社交网络中的用户个体,或者分子结构图中的原子。

关系可以是社交网络中用户之间的朋友关系、相似性关系等,或者分子结构图中原子之间的相互关系。

一般在图数据中,节点(实体)的选择是固定的,但是边的构建方法却多种多样。例如社交网络中,既可以依据用户的相似性,也可以将其交互行为、好友关系构建成边,从而组成网络。

因此,当分布相对均匀的原始数据分类较为困难时,如果能根据一些额外的关系信息、把同类点之间的距离拉近,从而有效地调整数据分布,那么分类的边界选择会更加容易,从而其任务表现也会获得很好的性能提升。

b)图神经网络图神经网络(GNN)广泛应用于图数据的表示学习。它可以利用图中的关系信息,捕捉到节点邻居的丰富特征,从而提升下游基于图数据的任务表现。

通用的GNN框架搭建方法如下:

Step 1: 使用聚合器(Aggregate)将邻居的特征聚集起来。

不同节点的邻居数量不同,因此这一步能将任意数目的邻居点的特征向量整合为固定长度的向量。

聚合的方法:mean, sum, weighted sum

从降噪的角度出发:mean(能抑制噪声) >= weighted sum > pooling > sum(会放大噪声)。

Step 2: 使用组合器(Combine)把聚合完的特征向量和节点自身的特征向量组合为一个新的特征向量。

组合的方法:concatenate, mean, weighted sum

从保留信息的能力出发:concatenate(乘以参数矩阵来决定向量中的有用部分) > mean = weighted sum(对信息有一定失真)

实际上,并不是所有节点的邻居都包含特定任务的相关信息。因此,数据关系既可能提供正面信息也可能造成负干扰!比如图中,拉近不同类点之间的距离,反而会让分类问题更加复杂。如此利用额外信息,会起到相反效果!

问题来了:什么样的图数据(关系),是适合目前的图神经网络的?

答案:利用数据关系带来的性能提升,和原始图数据中节点从邻居获取的信息的数量和质量有关!为此,可以用两种平滑度度量方法,来衡量这两个方面!

2 两个平滑度度量a)背景:KL散度(或信息增益)

已知S(surrounding)后对原系统C(context)的信息增益:通俗来讲,C和S的欧式距离越大,其二者特征越不相似,邻居节点能带来的信息增益越大,导致对节点特征的改变越大。

b)背景:图信号处理后的平滑度

Lambda(傅里叶变换的频率)很小时,表示信号频率和很低,平滑程度很高。

Lambda很大时,表示信号频率很高,表现为很不平滑(平滑度很低)。

c)信息度量一:特征平滑度

对图上所有节点,算出每个节点与邻居节点的距离之和的平方,然后对所有节点进行加和,取曼哈顿距离,最后除以特征维度和边的数目,得到特征平滑度。数学证明KL散度与特征平滑度成正比,即信息增益的大小与特征平滑度成正相关。

d)信息度量二:标签平滑度针对图中所有的边,计算连接不同类别节点的边的比例,得到取值范围为0-1的值。直观上,标签平滑度为零时,只有同类数据会被拉近。

注意:现实中无法获知测试集的标签信息,因此可用训练集已知的标签平滑度来近似真实的位置的标签平滑度。

3 神奇的CS-GNN模型

于是,侯逸帆提出了一种新的模型CS-GNN,该模型利用这两个平滑度指标选择性地聚集邻居信息,以放大有用信息,减少负干扰!

注意这里存在一个tradeoff:尽可能地选同类别(保证信息增益的质量)的不相似的(提高信息增益的大小)邻居。

实验结果证明了的方法对于给定任务测量图形的平滑度值的有效性,并且CS-GNN能够获得更多有用的信息,以实现优于现有方法的性能!

4

答疑互动问:result部分的OOM是指什么?该程序跑起来,需要什么样的服务器?答:一般来说对于图数据,会经常有OOM(Out of memory)的情况出现。一般一个16G的卡跑带attention的GNN节点数不能超过10W。过大的话就只能通过邻居采样等方法优化,或者是持续用IO几个batch读一次。问:有点好奇特征平滑度和标签平滑度有特定阈值吗?比如达到什么范围时图数据的效果最好?答:因为这两个值是信息增益的一个近似,很难去用他们得到一些精确的结论。不过还是可以用这两个值帮助大家选择图数据或者理解改进图神经网络的。

上一篇:手机出现这三种情况,说明你要换手机了!

下一篇:厨房门口两边柜子图(冰箱放在进厨房的门边

猜你喜欢

箭牌瓷砖排名第几(箭牌地砖ACS5220809)

箭牌瓷砖排名第几(箭牌地砖ACS5220809)

资讯 2023-11-02 181
空调内机结霜结冰滴水(空调内机有时会喷出小水珠是怎么回事)

空调内机结霜结冰滴水(空调内机有时会喷出小水珠是怎么回事)

资讯 2023-11-04 1226
黑鸡翅木价格(鸡翅木与金丝檀木的区别)

黑鸡翅木价格(鸡翅木与金丝檀木的区别)

知识 2023-11-04 4548
最新管材标准(管道等级划分标准)

最新管材标准(管道等级划分标准)

知识 2023-11-06 4768
邯郸实创装饰怎么样(邯郸工装装修公司前十强)

邯郸实创装饰怎么样(邯郸工装装修公司前十强)

资讯 2023-11-09 2728
单透玻璃和镀膜玻璃(镀膜与lv0玻璃区别)

单透玻璃和镀膜玻璃(镀膜与lv0玻璃区别)

知识 2023-11-15 2516
板材价格大涨的原因(上涨趋势启动的特征是什么)

板材价格大涨的原因(上涨趋势启动的特征是什么)

资讯 2023-11-15 17
什么牌子的热水器好又省电(电热水器哪个牌子性价比高)

什么牌子的热水器好又省电(电热水器哪个牌子性价比高)

资讯 2023-11-18 4443
四芯护套线规格(240电缆的规格和型号)

四芯护套线规格(240电缆的规格和型号)

资讯 2023-12-08 2066
185平方380v带多少千瓦(380v380千瓦需要多大的铝电缆)

185平方380v带多少千瓦(380v380千瓦需要多大的铝电缆)

资讯 2023-12-19 1269
广东106-95战胜广厦!看看赛后杜锋与王博怎么说,这梁子结大了!

广东106-95战胜广厦!看看赛后杜锋与王博怎么说,这梁子结大了!

资讯 2023-12-30 1174
【pdf】GB T 5972-2023 起重机 钢丝绳 保养、维护、检验和报废

【pdf】GB T 5972-2023 起重机 钢丝绳 保养、维护、检验和报废

知识 2024-01-01 2115
大自然实木地板橡木(大自然橡木实木地板铺设时有缝隙正常吗)

大自然实木地板橡木(大自然橡木实木地板铺设时有缝隙正常吗)

资讯 2024-01-10 4892
卫浴装修注意事项 卫浴装修须知的4点风水知识

卫浴装修注意事项 卫浴装修须知的4点风水知识

资讯 2024-01-21 4997
从一个卖家的角度告诉你 水电材料购买技巧~附价格表 记得收藏

从一个卖家的角度告诉你 水电材料购买技巧~附价格表 记得收藏

知识 2024-01-25 395
欧派29800全案大家居装修套餐都包含什么

欧派29800全案大家居装修套餐都包含什么

资讯 2024-02-05 1688
买房分期多少年合适(你觉得房子是分期买好)

买房分期多少年合适(你觉得房子是分期买好)

资讯 2024-02-10 2171
2023沙发设计(2023大白墙配什么颜色沙发)

2023沙发设计(2023大白墙配什么颜色沙发)

知识 2024-02-13 1211
为何古代很少有强奸案发生?难道古代的时候没有坏人?你有所不知

为何古代很少有强奸案发生?难道古代的时候没有坏人?你有所不知

资讯 2024-02-21 866
厨房隔断设计最明智的决定(玻璃隔断可以运用到厨房中吗)

厨房隔断设计最明智的决定(玻璃隔断可以运用到厨房中吗)

知识 2024-02-29 3139