论文
Pre-training Entity Relation Encoder with Intra-span and Inter-span Information
-
论文链接:https://www.aclweb.org/anthology/2020.emnlp-main.132.pdf
-
论文目的:focus on joint entity relation extraction。实体关系抽取
-
论文工作:present a novel pre-training network architecture named SPE customized for entity relation extraction。提出一个针对实体关系抽取的预训练网络架构。
-
提出的预训练网络架构:1.sentence encoder。基于多层transformer实现,与BERT等预训练模型一致。2.span encoder. 在句子的每个span上employ a CNN (a single convolution layer with a max-pooling layer),实现对span内部信息的表示 3.Span Pair Encoder。两个实体s1和s2将一个句子划分成left context (L), s1, middle context (M), s2 and right context (R) 共5部分,每部分使用span encoder进行编码,得到5个特征向量,再使用position_aware attention对实体对(s1, s2)进行表示
-
各encoder的预训练objective:1.sentence encoder -> a variant MLM(masked language modeling)。训练sentence encoder的目标是mask后的完型填空。2.span encoder->Span Permutation Objective. 对于一个span,将该span内的内容划分为begin\middle\end三部分并shuffle,shuffle后的排列总共有6种(3!),span encoder需要通过softmax区别出shuffle后的span的排列方式,从而实现对span内部信息的基础理解。3.Span Pair Encoder->Contrastive Span Pair Objective (CSPO)。具体直接看原文3.2吧
-
预训练方式:先用BERT_base预训练模型初始化多层的transformer,再使用English Wikipedia and BooksCorpus,基于三个objective对整个architecture进行联合预训练
SPE_architecture
- finetune:3个encoder后面均简单的接入一个softmax就可以








网友评论