论文阅读“Distributed Representations

作者: 掉了西红柿皮_Kee | 来源:发表于2022-12-04 12:17 被阅读0次

论文阅读“Distributed Representations
句子和文件的分布式表示
《Distributed Representations of
Distributed Representations of S
Doc2vec笔记
[NLP论文笔记] Deep contextualized wo
论文
DCGAN
Deep InfoMax：基于互信息最大化的表示学习
DeepWalk：图表示的在线学习

Wang X, Zong C. Distributed representations of emotion categories in emotion space[C]//Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). 2021: 2364-2375.

这篇文章是宗成庆老师组里2021ACL的long paper。比较有趣，其思考问题的方式值得学习。类似于学习一个情感类别的中心向量。

摘要导读

不同的人可以给出不同的情感类别，因为难以清晰地区分情感、难以找出不同情感类别之间的边界。目前已有的情感检测任务主要致力于提升模型预测的准确度，这些方法中的情感是以one-hot形式表达的，不同情感之间的关系被忽视了。本文首先提出了一个通用的框架，从给定的情绪分类数据集中学习情感空间中情绪类别的分布式表示。此外，在预训练神经网络模型预测的软标签的基础上，推导了一种简单有效的算法。

本文工作：给定情感分类数据集，学习情感空间中各个情感类别的分布式表示。

语义和情感空间的不同

方法浅析

通用框架
本文将文本中包含的情感状态视为一种情感空间。特定文档中包含的情绪对应于特定的情绪状态，进一步对应于情感空间中的一个点。因此，标注了相同情绪类别的文档可能对应于空间中不同的情绪状态和点，这意味着情绪类别在情感空间中是一个随机变量，而不是空间中的一个特定的向量。
对于给定的情感类别 $K$ ，将 $x$ 定义为标记为 $K$ 的样本， $\mathcal{V}_K$ 是类别 $K$ 对应的分布式表示。 $\mathcal{V}(x)$ 是 $x$ 对应的分布式表示， $p(x)$ 是 $x$ 的概率密度。进一步，使用 $\mathcal{L}(\mathcal{V}_K, \mathcal{V}(x))$ 表示 $\mathcal{V}_K$ 和 $\mathcal{V}(x)$ 之间的距离。为了得到最好的 $\mathcal{V}_K$ ，须最小化 $\mathcal{L}$ 的期望值，因此可以得到类别 $K$ 的特定分布表示的计算公式如下:
其中， $\Omega$ 是 $x$ 的积分域。
一种简单方法
虽然不能直接获得情感空间中每个情绪类别的严格概率分布，但有许多可用的情感分类数据集，其中的实例可以被视为相应标注的情绪类别的样本。
对于情绪数据集 $\mathcal{D}$ 和情绪类别 $K$ ，可以使用数据集中被标注为类别 $K$ 的所有样本来估计类别 $K$ 的分布。因此，上述 $V_K$ 的计算可以被简化为：
积分被转化为离散样本之和，其中 $S_K$ 为数据集 $\mathcal{D}$ 中所有被标记为 $K$ 的样本形成的集合。进一步，论文中使用欧式距离的平方来衡量两个分布式表示之间的距离，因此，上式表示为：这就很眼熟了，像极了k-means的类簇中心的优化目标，解得： $N_K$ 是集合 $S_K$ 中元素的个数。
由上述公式，推导出情绪类别 $K$ 的分布表示正是数据集 $\mathcal{D}$ 中所有标记为类别 $K$ 的实例的分布表示的平均值。
那么如何得到数据集中类别对应的分布式表示呢？
本文确实给出了一种极其简单的方式：无论model如何选择，在分类任务中，model对应的输出是当前样本属于类别概率的一个软分配-soft label。（已经证明，训练模型输出的soft label往往比人工输出的one-hot label具有更高的熵和包含更多的信息）
因此，本文将model输出的soft label直接作为每个样本的分布式表示记为 $f(x)$ ，因此，目标变量 $V_K$ 的维数等于数据集 $\mathcal{D}$ 中标注的类别数。最终 $\mathcal{V}_K$ 的形式化输出为：
多标签情感分析任务上的应用
这里其实就是很简单的引入了权重分配标签表示的思想。原来的单标签情感分类中，每个 $f(x)$ 对应的权重都是1，而多标签分类中权重被分配到多个标签中。
例子：假设样本 $x$ 对应的标签为 $\mathcal{Y}(x)$ ， $|\mathcal{Y}(x)|$ 表示 $x$ 对应的标签个数。可以形式化多标签情感数据集中 $V_K$ 的计算方式：
其中， $w_K(x)=\frac{1}{|\mathcal{Y}(x)|}$ ，可以看做是 $x$ 在类别 $K$ 中的权重。
其实要是严格来说，每个样本包含的情绪类别的概率也是存在一定差异的，因此，这种等权重分配的方式似乎还是存在一点点优化空间
算法流程

基于上述铺垫，算法的实现就相对比较直接。

实验结果

作者也给出了语义空间和情感空间的对比，以及不同模型的输出对于情感类别分布式表示的影响。

(a)-(c)是语义空间的表示，可以看出，不同类型的情绪交织在一起。而(d)-(f)是使用不同model的output生成的情感类别的分布式表示，可以看出，positive/negative/ambiguous之间存在明显的线性边界。证明情感类别分布式表示是有效的。

算法及其简单，思路也比较直接，就。。。很。。。强！

各方面吧。大佬还是大佬。

论文阅读“Distributed Representations
Wang X, Zong C. Distributed representations of emotion ca...
句子和文件的分布式表示
原论文：(Distributed Representations of Sentences and Documen...
《Distributed Representations of
标题：词语和短语的分布表示及其组成性摘要：本文提出了几种提高矢量质量和训练速度的扩展方法。词语表征的一个固有限制...
Distributed Representations of S
这篇文章作者是word2vec的作者，主要做的工作是paragraph vector，就是把paragraph变成...
Doc2vec笔记
参考文献：Distributed Representations of Sentences and Documen...
[NLP论文笔记] Deep contextualized wo
Deep contextualized word representations(ELMo)阅读笔记本文是对论文...
论文
word2vector 原理Distributed Representations of Words and Ph...
DCGAN
论文：Unsupervised Representations Learning With Deep Convol...
Deep InfoMax：基于互信息最大化的表示学习
论文标题：Learning deep representations by mutual information ...
DeepWalk：图表示的在线学习
论文标题：DeepWalk: Online Learning of Social Representations论...