BERT 详解(五)

作者: 6c643a7fc0e6 | 来源:发表于2019-12-30 23:41 被阅读0次

Fine-tuning 微调

微调阶段根据不同任务使用不同网络模型。在微调阶段,大部分模型的超参数跟预训练时差不多,除了 batchsize,学习率,epochs。

训练参数:

  • Batch size: 16, 32
  • Learning rate (Adam): 5e-5, 3e-5, 2e-5
  • Number of epochs: 3, 4

1. 文本长度

随着文本长度的增加,所需显存容量也会随之呈现线性增加, 运行时间也接近线性,对于不同任务而言, 文本长度所带来的影响也不相同。对于分类问题, 到一定的文本长度后,模型表现就几乎没有变化了,这个时候再去提升文本长度意义就不大了。

预训练 BERT 模型的文本长度最多支持 512, 这是由于 Position Embedding 决定的,如果你的文本长度很长, 你就需要采用截断或分批读取的方式来读入。

2. 截取文本

由于 BERT 支持最大长度为 512 个 token,有三种方式截取文本:

  • head-only: 保存前 510 个 token (留两个位置给 [CLS] 和 [SEP] )
  • tail-only: 保存最后 510 个token
  • head + tail : 选择前128个 token 和最后382个 token

这三种思路都值得一试。

相关文章

  • BERT 详解(五)

    Fine-tuning 微调 微调阶段根据不同任务使用不同网络模型。在微调阶段,大部分模型的超参数跟预训练时差不多...

  • Bert PyTorch 实现

    本文主要介绍如何使用PyTroch复现BERT。在此之前可以先阅读文章BERT详解(附带ELMo、GPT 介绍[h...

  • BERT详解(附带ELMo、GPT 介绍)

    本文为转载,原文链接BERT 详解(附带 ELMo、GPT 介绍)[https://wmathor.com/ind...

  • BERT 详解(一)

    今天来聊聊谷歌的自然语言处理框架 BERT,BERT 已经对自然语言处理有着显著的变革,那么 BERT 到底是什么...

  • BERT 详解(四)

    BERT 有两个自然语言处理任务的预训练: Masked Language Modeling Next Sente...

  • BERT 详解(三)

    BERT 有两个自然语言处理任务的预训练: Masked Language Modeling Next Sente...

  • BERT 详解(二)

    1. BERT 结构 BERT是以 Transformer 为基础的,目前有两种变体: BERT Base:12层...

  • BERT使用详解(实战)

    BERT模型,本质可以把其看做是新的word2Vec。对于现有的任务,只需把BERT的输出看做是word2vec,...

  • Sentence-BERT 详解

    本文为转载,原文链接:https://wmathor.com/index.php/archives/1496/[h...

  • BERT模型详解与实战

    BERT的全称是Bidirectional Encoder Representation from Transfo...

网友评论

    本文标题:BERT 详解(五)

    本文链接:https://www.haomeiwen.com/subject/mwssoctx.html