美文网首页
记录两种“Multi-View Attributes Fusio

记录两种“Multi-View Attributes Fusio

作者: 掉了西红柿皮_Kee | 来源:发表于2023-03-10 18:03 被阅读0次

Li Y, Sun B, Feng S, et al. Stop Filtering: Multi-View Attribute-Enhanced Dialogue Learning[J]. arXiv preprint arXiv:2205.11206, 2022.

写在前面:这里只对两种Fusion方法进行记录。如果想了解两种全文内容,请移步https://arxiv.org/pdf/2205.11206.pdf

Two Multi-View Attributes Fusion
  • Pre-Training Base Model
    这里Base Model作为前置模型,这里给出文本生成中的负对数目标函数:

    对于给定训练样本(q, r),最大化其对应的生成概率P_\theta(r|q)
  • Adaptive Fusion (AF)

    将来自不同adapters的特征带权求平均: 红框内则是典型的跳跃连接操作,可以看出所谓的融合,emmm == ,只能说是锦上添花。其中\lambda_m是一个重要性的衡量,利用了输入和每个view-specific层的输出的L_1距离。该距离越大,越说明模型需要从对应的adapter中提取特征,以提高整体特征的质量。使用L_1的原因在于:其具有更高的计算效率,也有更高的辨别能力。AF可以使各个adapter之间保持独立,并且这种逐层融合会比集成学习更有效。
  • Progressive Fusion (PF)
    PF在训练过程中平滑地集成了多视图特征,要求adapter按顺序进行微调。每个新的adapter不仅从相应的数据中进行学习,而且还被强制去寻找与之前的适配器学习到的特征互补的特征。因此,作者使用知识蒸馏来调整基础模型与旧适配器的预测,以及基础模型与新旧适配器的预测: 其中\phi_n是新adapter的参数,\phi_p是之前的adapters的冻结参数,|\mathcal{V}|是单词表的长度。对于训练一个新的adapter来说,是先前的生成损失和当前KD(用来量化数据中包含的信息)的叠加: 这样,在训练开始时给出了一个强大的约束条件,以防止学习到的特征与以前的适配器的特征相冲突。然后,通过线性地减少这个约束,以允许新的适配器学习特定于视图的知识。因此,适配器的知识可以在减轻知识干扰的同时逐步整合到基础模型中,但会降低适配器的独立性。
    通俗意义上来讲,该适配器也适用于不同的多视图场景,但是不知道多视图的排列顺序会不会影响最终的容融合结果。

emmmm 第一种融合方式比较常见,第二种则以顺序的方式进行多视图的融合,相对来说在多视图融合任务中比较少见,因为多视图之间不存在顺序之说。 如果有问题请指正!

相关文章

网友评论

      本文标题:记录两种“Multi-View Attributes Fusio

      本文链接:https://www.haomeiwen.com/subject/eertrdtx.html