Wang X, Zong C. Distributed representations of emotion categories in emotion space[C]//Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). 2021: 2364-2375.
这篇文章是宗成庆老师组里2021ACL的long paper。比较有趣,其思考问题的方式值得学习。类似于学习一个情感类别的中心向量。
摘要导读
不同的人可以给出不同的情感类别,因为难以清晰地区分情感、难以找出不同情感类别之间的边界。目前已有的情感检测任务主要致力于提升模型预测的准确度,这些方法中的情感是以one-hot形式表达的,不同情感之间的关系被忽视了。本文首先提出了一个通用的框架,从给定的情绪分类数据集中学习情感空间中情绪类别的分布式表示。此外,在预训练神经网络模型预测的软标签的基础上,推导了一种简单有效的算法。
本文工作:给定情感分类数据集,学习情感空间中各个情感类别的分布式表示。
语义和情感空间的不同
方法浅析
-
通用框架
本文将文本中包含的情感状态视为一种情感空间。特定文档中包含的情绪对应于特定的情绪状态,进一步对应于情感空间中的一个点 。因此,标注了相同情绪类别的文档可能对应于空间中不同的情绪状态和点,这意味着情绪类别在情感空间中是一个随机变量,而不是空间中的一个特定的向量。
对于给定的情感类别,将
定义为标记为
的样本,
是类别
对应的分布式表示。
是
对应的分布式表示,
是
的概率密度。进一步,使用
表示
和
之间的距离。为了得到最好的
,须最小化
的期望值, 因此可以得到类别
的特定分布表示的计算公式如下:
其中,是
的积分域。
-
一种简单方法
虽然不能直接获得情感空间中每个情绪类别的严格概率分布,但有许多可用的情感分类数据集,其中的实例可以被视为相应标注的情绪类别的样本。
对于情绪数据集和情绪类别
,可以使用数据集中被标注为类别
的所有样本来估计类别
的分布。因此,上述
的计算可以被简化为:
积分被转化为离散样本之和,其中为数据集
中所有被标记为
的样本形成的集合。进一步,论文中使用欧式距离的平方来衡量两个分布式表示之间的距离,因此,上式表示为:
这就很眼熟了,像极了k-means的类簇中心的优化目标,解得:
是集合
中元素的个数。
由上述公式,推导出情绪类别的分布表示正是数据集
中所有标记为类别
的实例的分布表示的平均值。
那么如何得到数据集中类别对应的分布式表示呢?
本文确实给出了一种极其简单的方式:
无论model如何选择,在分类任务中,model对应的输出是当前样本属于类别概率的一个软分配-soft label。(已经证明,训练模型输出的soft label往往比人工输出的one-hot label具有更高的熵和包含更多的信息)
因此,本文将model输出的soft label直接作为每个样本的分布式表示记为,因此,目标变量
的维数等于数据集
中标注的类别数。最终
的形式化输出为:
-
多标签情感分析任务上的应用
这里其实就是很简单的引入了权重分配标签表示的思想。原来的单标签情感分类中,每个对应的权重都是1,而多标签分类中权重被分配到多个标签中。
例子:假设样本对应的标签为
,
表示
对应的标签个数。可以形式化多标签情感数据集中
的计算方式:
其中,,可以看做是
在类别
中的权重。
其实要是严格来说,每个样本包含的情绪类别的概率也是存在一定差异的,因此,这种等权重分配的方式似乎还是存在一点点优化空间 -
算法流程
基于上述铺垫,算法的实现就相对比较直接。
实验结果
作者也给出了语义空间和情感空间的对比,以及不同模型的输出对于情感类别分布式表示的影响。
(a)-(c)是语义空间的表示,可以看出,不同类型的情绪交织在一起。而(d)-(f)是使用不同model的output生成的情感类别的分布式表示,可以看出,positive/negative/ambiguous之间存在明显的线性边界。证明情感类别分布式表示是有效的。
算法及其简单,思路也比较直接,就。。。很。。。强!
各方面吧。大佬还是大佬。












网友评论