N元知识图谱上的归纳式关系推理：一种基于语义超图的推理方法

<aside> 😼

Paper: https://dl.acm.org/doi/10.1145/3690624.3709195

Code: Github Repo

Dataset: Zenodo page

Weights & Biases Report: here

Blog Author: Gongzhu Yin

Blog English Version: Inductive Link Prediction on N-ary Relational Facts via Semantic Hypergraph Reasoning

</aside>

<aside> 💡

本文亮点:

**·首次系统探究了n元知识图谱上的归纳式关系推理问题：**具体分为迁移推理（带特征/不带特征）（eg.对应现实问题：新节点出现、知识图谱演化）和成对子图推理（eg.对应现实问题：给定两公司邻域子图，判断某两公司隐含关系存在概率）两种。证明了现有适用于二元知识图谱的方法、直推式n元知识图谱推理方法在这个任务上效果并不理想。

**· 正式定义了n元语义超图结构及其子图采样方法：**对现有超图结构进行扩展，定义了更适合表达n元关系的语义超图结构（将每个N元事实建模为一条超边，实体在超边中有各自的内部语义角色）。在归纳式N 元关系推理方面，具有促进邻居采样扩展（支持从任意实体出发的多跳邻域扩展）、高表达灵活性（不用区分主、辅信息）、天然兼容现有超图神经网络（HGNN）框架。

**· 提出了面向该结构的子图学习框架及NS-HART聚合网络：**在该结构子图上，提出了基于扩展HGNN的子图学习框架，解决n元知识图谱上的归纳式关系推理问题。设计了NS-HART，在 HGNN 的双阶段消息传递（节点 → 超边、超边 → 节点）中，引入“角色感知” Transformer 聚合器，显式捕获事实内和跨事实的多跳语义模式。从评分函数优化角度证明归纳推理的表达能力应主要存于聚合网络，而非浅层的实体 / 关系向量。通过大量实验，验证了 N 元子图推理框架的优势，以及 NS-HART 在各类归纳任务上的领先性能。

</aside>

从二元关系到N元关系

1. 二元关系的缺陷

想象一下，你要描述“A、B、C三家公司共同参与AIP项目”这一事实。如果使用传统的知识图谱（三元组），可能需要拆分成多个二元关系：(公司A,参与,AIP)、(公司B,参与,AIP)、(公司C,参与,AIP)、(公司A,合作,公司B)、(公司B,合作,公司C)、(公司A,合作,公司C)。但这种方式不仅冗余，还可能丢失关键信息——三方的“合作”是一个整体行为，而非独立事件。如果混杂了大量其它事实，我们就更并不能分清A、B、C是独立参与了项目AIP还是作为一个整体参与AIP了。这正是N元关系的价值所在：它能直接表达多个实体间的复杂关联，避免信息碎片化以及整体性丢失。这在描述完整事件信息以及时十分有用。以下是一些典型例子：

eg1. 药物-疾病-治疗方案（医学知识图谱）

**n元关系：**treats(drug,disease,dosage,duration)
信息损失：拆分后，无法表达“某种剂量和持续时间组合下，药物对疾病的治疗效果”，导致治疗方案的语义信息丢失。

eg2. 科学实验（实验变量关联）

**n元关系：**experiment(method,material,temperature,pressure,result)
信息损失：拆分后，无法表示 "某个特定温度和压力组合导致的实验结果"，实验条件间的耦合关系丢失。

eg3. 事件预测（时空知识图谱）

**n元关系：**event(subject,action,object,time,location)

event(subject,action,object,time,location)\text{event}(subject, action, object, time, location)
信息损失：无法表达 "某个主体在特定时间和地点执行某个动作的完整语义"，例如 "某个嫌疑人在某个时间地点进行某个交易" 的完整事件信息。

虽然某些情况下，传统的二元关系拆分可以在结构上保持完整的信息，但由于其丢失了整体性，在推理和表示学习的过程中可能会导致信息利用不足。这种信息丢失主要体现在语义关联削弱、关系歧义性增加、推理链复杂化这几个方面。

2. N元关系的现有表达形式

![VD~XMT2SV601E6}]_SQ}$17.png](attachment:06b08783-520b-4107-87ac-e83ab8b8b44e:VDXMT2SV601E6_SQ17.png)

为描述N元关系，包含N元关系事实的知识图谱应运而生。从代数角度看，二元关系描述两实体间的练习，可表示为笛卡尔积$\mathcal{E}^2$；而N元关系则扩展为$J$重笛卡尔积$\mathcal{E}^J$,$J \geq 2$. 如上图所示，目前有两种主流的N元关系事实表示形式：超关系表示 [1] 和 键值对表示 [2]。

超关系表示(Hyper-Relational Representation)：本质上仍基于三元组，将事实表示为一个主三元组加上额外的修饰符对，修饰符对（辅信息）作为主关系的属性。即 $[(h, r, t),\left\{\left(q_i: v_i\right)\right\}_{i=1}^{n-2}]$ ，其中 $v_i$ 是修饰符对中的实体， $q_i$ 是其与主三元组的关系。例如，描述“A公司，B公司，C公司在项目AIP中合作”时，主三元组是 (公司A,合作,公司B)，而修饰符对则是 (项目：AIP)及 (合作：公司C)。
键值对表示(Key-Value Pair Representation)：将事实视为N个键值对的集合，即$[\left\{\left(r_i: v_i\right)\right\}_{i=1}^n]$ ，每个键 $q_i$ 表示实体在事实中的角色。这种表示形式更加灵活，能够完整保留事实的语义结构。例如，对于上述例子，键值对表示会直接列出每个实体的角色和对应的值，如 [合作:公司A,合作:公司B,合作:公司C,项目:AIP]。

基于超关系表示形式，过去的研究者们通常将修饰符对作为主关系边的附加属性（例如StarE模型），从而得到对应的图谱表示。然而，对于键值对表示形式，目前还没有一种与之对应的图谱表示方法。这种缺失限制了键值对表示在实际应用中的潜力，尤其是在需要获取多跳邻域的场景中。