美文网首页
HugglingFace中的预训练模型

HugglingFace中的预训练模型

作者: 我喜欢过洋娃娃 | 来源:发表于2020-07-18 16:16 被阅读0次
Model Name Type Pre-trained Tasks Downstream Tasks Remark
BERT - - -
Transformer XL(extra long) encoder - - 赋予编码器捕获长距离依赖的能力 https://zhuanlan.zhihu.com/p/56027916
GPT2 decoder-only 单向LM 语言模型,QA,摘要,机器翻译 不需要fine-tune
XLM encoder MLM GLUE BERT的跨语言版本
XLNet encoder Permutation Language Model GLUE 通过排列词序看到上下文, 长文档阅读理解更好
RoBERTa encoder 动态MLM GLUE https://zhuanlan.zhihu.com/p/75855973 支持更长序列
DistilBERT - - - BERT的模型压缩
CTRL decoder 单向LM 条件控制的generation https://zhuanlan.zhihu.com/p/100845592 以指定文章的领域、风格、主题、时间、实体,实体间的关系,以及任务相关的行为等等,因此可以将其看成命题作文
CamemBERT - - - 法语版BERT
ALBERT encoder Masked-ngram-LM, SOP GLUE 压缩词向量
XLM-RoBERTa - - - https://zhuanlan.zhihu.com/p/94282991 跨语言的RoBERTa
Bart encoder decoder DAE: sentence mask, delete, sentence shuffling, document rotation 分类,QA,摘要,机器翻译 https://zhuanlan.zhihu.com/p/90173832 对话生成更优
T5 encoder-decoder MLM+微调(连续mask 合并) 分类,QA,摘要,机器翻译 https://zhuanlan.zhihu.com/p/89719631
ELECTRA encoder Replaced token detection 分类 GAN类似思想,判断MLM的结果每个词是否被Mask过
DialoGPT decoder 自回归LM 开放域对话 -
Reformer - - - 对 transformer 结构中attention的改进, 建模更长的上下文信息
MarianMT - - - 机翻的模型
Longformer encoder MLM(similar to RoBERTa 长文档阅读理解,跨文档推理 基于RoBERTa的改进(self attention -> slide window attention)
RetriBERT - - long form QA https://yjernite.github.io/lfqa.html 类似多文档摘要
ModelBERT - - - BERT压缩
DPR - - - 基于检索的开放域问答

相关文章

网友评论

      本文标题:HugglingFace中的预训练模型

      本文链接:https://www.haomeiwen.com/subject/yswayctx.html