HugglingFace中的预训练模型

作者: 我喜欢过洋娃娃 | 来源:发表于2020-07-18 16:16 被阅读0次

HugglingFace中的预训练模型
深度学习:预训练模型?
Bert基础介绍
pytorch如何给预训练模型添加新的层
2020-05-18 神经网络保存训练模型
TensorFlow 同时导入多个预训练模型进行 finetun
pytorch 加载预训练模型
如何使用pytorch torchvision.models中的
UIE实体关系抽取解读
TensorFlow 调用预训练好的模型—— Python 实现

Model Name	Type	Pre-trained Tasks	Downstream Tasks	Remark
BERT	-	-	-
Transformer XL(extra long)	encoder	-	-	赋予编码器捕获长距离依赖的能力 https://zhuanlan.zhihu.com/p/56027916
GPT2	decoder-only	单向LM	语言模型，QA，摘要，机器翻译	不需要fine-tune
XLM	encoder	MLM	GLUE	BERT的跨语言版本
XLNet	encoder	Permutation Language Model	GLUE	通过排列词序看到上下文, 长文档阅读理解更好
RoBERTa	encoder	动态MLM	GLUE	https://zhuanlan.zhihu.com/p/75855973 支持更长序列
DistilBERT	-	-	-	BERT的模型压缩
CTRL	decoder	单向LM	条件控制的generation	https://zhuanlan.zhihu.com/p/100845592 以指定文章的领域、风格、主题、时间、实体，实体间的关系，以及任务相关的行为等等，因此可以将其看成命题作文
CamemBERT	-	-	-	法语版BERT
ALBERT	encoder	Masked-ngram-LM, SOP	GLUE	压缩词向量
XLM-RoBERTa	-	-	-	https://zhuanlan.zhihu.com/p/94282991 跨语言的RoBERTa
Bart	encoder decoder	DAE: sentence mask, delete, sentence shuffling, document rotation	分类，QA，摘要，机器翻译	https://zhuanlan.zhihu.com/p/90173832 对话生成更优
T5	encoder-decoder	MLM+微调（连续mask 合并）	分类，QA，摘要，机器翻译	https://zhuanlan.zhihu.com/p/89719631
ELECTRA	encoder	Replaced token detection	分类	GAN类似思想，判断MLM的结果每个词是否被Mask过
DialoGPT	decoder	自回归LM	开放域对话	-
Reformer	-	-	-	对 transformer 结构中attention的改进，建模更长的上下文信息
MarianMT	-	-	-	机翻的模型
Longformer	encoder	MLM(similar to RoBERTa	长文档阅读理解，跨文档推理	基于RoBERTa的改进(self attention -> slide window attention)
RetriBERT	-	-	long form QA	https://yjernite.github.io/lfqa.html 类似多文档摘要
ModelBERT	-	-	-	BERT压缩
DPR	-	-	-	基于检索的开放域问答