BERT 详解(二)

作者: 6c643a7fc0e6 | 来源:发表于2019-12-27 22:34 被阅读0次

1. BERT 结构

BERT是以 Transformer 为基础的,目前有两种变体:

  • BERT Base:12层(指transformer blocks),12个 attention head,以及 1.1 亿个参数;
  • BERT Large:24层(指transformer blocks),16个attention head,以及 3.4 亿个参数。
bert_01.png

2. 文本处理

BERT 加入了一组特定规则来代表模型的输入文本,每个输入的表示由三种 Embedding 求和而成,##表示分词:

bert_02.png
  • 标记嵌入 (Token Embeddings):词向量,第一个单词是 CLS 标志,可以用于之后的分类任务,从 WordPiece 标记词汇表中学习特定标记的嵌入。

  • 片段嵌入 (Segment Embeddings):用来区别两种句子,BERT 还可以将句子对作为任务的输入。这就是为什么它学习了第一个和第二个句子的嵌入,以帮助模型区分二者。在上面的例子中,所有标记为 EA 的标记都属于句 A(EB同理)。

  • 位置嵌入 (Position Embeddings):BERT 学习并使用位置嵌入来表达词在句子中的位置,这些为了克服 Transformer 的限制而添加的。与 RNN 不同,Transformer 不能捕获“序列”或“顺序”信息。

相关文章

  • BERT 详解(二)

    1. BERT 结构 BERT是以 Transformer 为基础的,目前有两种变体: BERT Base:12层...

  • Bert PyTorch 实现

    本文主要介绍如何使用PyTroch复现BERT。在此之前可以先阅读文章BERT详解(附带ELMo、GPT 介绍[h...

  • BERT详解(附带ELMo、GPT 介绍)

    本文为转载,原文链接BERT 详解(附带 ELMo、GPT 介绍)[https://wmathor.com/ind...

  • BERT 详解(五)

    Fine-tuning 微调 微调阶段根据不同任务使用不同网络模型。在微调阶段,大部分模型的超参数跟预训练时差不多...

  • BERT 详解(一)

    今天来聊聊谷歌的自然语言处理框架 BERT,BERT 已经对自然语言处理有着显著的变革,那么 BERT 到底是什么...

  • BERT 详解(四)

    BERT 有两个自然语言处理任务的预训练: Masked Language Modeling Next Sente...

  • BERT 详解(三)

    BERT 有两个自然语言处理任务的预训练: Masked Language Modeling Next Sente...

  • BERT使用详解(实战)

    BERT模型,本质可以把其看做是新的word2Vec。对于现有的任务,只需把BERT的输出看做是word2vec,...

  • Sentence-BERT 详解

    本文为转载,原文链接:https://wmathor.com/index.php/archives/1496/[h...

  • BERT(二) BERT解读及应用

    前面已经说了transformer(BERT(一) Transformer原理理解[https://www.jia...

网友评论

    本文标题:BERT 详解(二)

    本文链接:https://www.haomeiwen.com/subject/ewcjoctx.html