记录两种“Multi-View Attributes Fusio

作者: 掉了西红柿皮_Kee | 来源:发表于2023-03-10 18:03 被阅读0次

Li Y, Sun B, Feng S, et al. Stop Filtering: Multi-View Attribute-Enhanced Dialogue Learning[J]. arXiv preprint arXiv:2205.11206, 2022.

写在前面：这里只对两种Fusion方法进行记录。如果想了解两种全文内容，请移步https://arxiv.org/pdf/2205.11206.pdf

Pre-Training Base Model
这里Base Model作为前置模型，这里给出文本生成中的负对数目标函数：
对于给定训练样本 $(q, r)$ ，最大化其对应的生成概率 $P_\theta(r|q)$ 。
Adaptive Fusion (AF)

将来自不同adapters的特征带权求平均：红框内则是典型的跳跃连接操作，可以看出所谓的融合，emmm == ，只能说是锦上添花。其中 $\lambda_m$ 是一个重要性的衡量，利用了输入和每个view-specific层的输出的 $L_1$ 距离。该距离越大，越说明模型需要从对应的adapter中提取特征，以提高整体特征的质量。使用 $L_1$ 的原因在于：其具有更高的计算效率，也有更高的辨别能力。AF可以使各个adapter之间保持独立，并且这种逐层融合会比集成学习更有效。

Progressive Fusion (PF)
PF在训练过程中平滑地集成了多视图特征，要求adapter按顺序进行微调。每个新的adapter不仅从相应的数据中进行学习，而且还被强制去寻找与之前的适配器学习到的特征互补的特征。因此，作者使用知识蒸馏来调整基础模型与旧适配器的预测，以及基础模型与新旧适配器的预测：其中 $\phi_n$ 是新adapter的参数， $\phi_p$ 是之前的adapters的冻结参数， $|\mathcal{V}|$ 是单词表的长度。对于训练一个新的adapter来说，是先前的生成损失和当前KD（用来量化数据中包含的信息）的叠加：这样，在训练开始时给出了一个强大的约束条件，以防止学习到的特征与以前的适配器的特征相冲突。然后，通过线性地减少这个约束，以允许新的适配器学习特定于视图的知识。因此，适配器的知识可以在减轻知识干扰的同时逐步整合到基础模型中，但会降低适配器的独立性。
通俗意义上来讲，该适配器也适用于不同的多视图场景，但是不知道多视图的排列顺序会不会影响最终的容融合结果。