| Model Name | Type | Pre-trained Tasks | Downstream Tasks | Remark |
|---|---|---|---|---|
| BERT | - | - | - | |
| Transformer XL(extra long) | encoder | - | - | 赋予编码器捕获长距离依赖的能力 https://zhuanlan.zhihu.com/p/56027916 |
| GPT2 | decoder-only | 单向LM | 语言模型,QA,摘要,机器翻译 | 不需要fine-tune |
| XLM | encoder | MLM | GLUE | BERT的跨语言版本 |
| XLNet | encoder | Permutation Language Model | GLUE | 通过排列词序看到上下文, 长文档阅读理解更好 |
| RoBERTa | encoder | 动态MLM | GLUE | https://zhuanlan.zhihu.com/p/75855973 支持更长序列 |
| DistilBERT | - | - | - | BERT的模型压缩 |
| CTRL | decoder | 单向LM | 条件控制的generation | https://zhuanlan.zhihu.com/p/100845592 以指定文章的领域、风格、主题、时间、实体,实体间的关系,以及任务相关的行为等等,因此可以将其看成命题作文 |
| CamemBERT | - | - | - | 法语版BERT |
| ALBERT | encoder | Masked-ngram-LM, SOP | GLUE | 压缩词向量 |
| XLM-RoBERTa | - | - | - | https://zhuanlan.zhihu.com/p/94282991 跨语言的RoBERTa |
| Bart | encoder decoder | DAE: sentence mask, delete, sentence shuffling, document rotation | 分类,QA,摘要,机器翻译 | https://zhuanlan.zhihu.com/p/90173832 对话生成更优 |
| T5 | encoder-decoder | MLM+微调(连续mask 合并) | 分类,QA,摘要,机器翻译 | https://zhuanlan.zhihu.com/p/89719631 |
| ELECTRA | encoder | Replaced token detection | 分类 | GAN类似思想,判断MLM的结果每个词是否被Mask过 |
| DialoGPT | decoder | 自回归LM | 开放域对话 | - |
| Reformer | - | - | - | 对 transformer 结构中attention的改进, 建模更长的上下文信息 |
| MarianMT | - | - | - | 机翻的模型 |
| Longformer | encoder | MLM(similar to RoBERTa | 长文档阅读理解,跨文档推理 | 基于RoBERTa的改进(self attention -> slide window attention) |
| RetriBERT | - | - | long form QA | https://yjernite.github.io/lfqa.html 类似多文档摘要 |
| ModelBERT | - | - | - | BERT压缩 |
| DPR | - | - | - | 基于检索的开放域问答 |











网友评论