美文网首页
Transformer-Bert模型学习笔记

Transformer-Bert模型学习笔记

作者: 林桉 | 来源:发表于2022-03-03 12:06 被阅读0次

Transformer结构

image.png

Self-Attention

image.png

上图是论文中 Transformer 的内部结构图,左侧为 Encoder block,右侧为 Decoder block。红色圈中的部分为 Multi-Head Attention,是由多个 Self-Attention组成的,可以看到 Encoder block 包含一个 Multi-Head Attention,而 Decoder block 包含两个 Multi-Head Attention (其中有一个用到 Masked)。Multi-Head Attention 上方还包括一个 Add & Norm 层,Add 表示残差连接 (Residual Connection) 用于防止网络退化,Norm 表示 Layer Normalization,用于对每一层的激活值进行归一化。

Bert模型结构

image.png
  • 干了啥事?


    image.png

输入部分:


image.png

Input=token emb + segment emb+ position emb
CLS向量+句子+sep分割


image.png

cls向量是啥:


image.png

预训练如何做

// MLM-掩码语言模型
无监督

  • AR,也就是autoregressive,我们称之为自回归模型;只能考虑单侧的信息,典型的就是GPT
    P(我爱吃饭) = P(我)P(爱|我)P(吃|我爱)P(饭|我爱吃);

  • AE,也就是autoencoding,我们称之为自编码模型;从损坏的输入数据中预测重建原始数据。可以使用上下文的信息
    mask之后:【我爱mask饭】文本重建之后预测,前提假设,mask目标相互独立
    P(我爱吃饭|我爱mask饭)=P(吃|我爱饭)

image.png

随机mask15%单词,10%替换成其他,10%保持不变,80%替换为mask。


image.png

// NSP任务
为了做下一句预测。
NSP样本如下:

  • 从训练语料库中取出两个连续的段落作为正样本
  • 从不同的文档中随机创建一对段落作为负样本
    缺点:主题预测和连贯性预测合并为一个单项任务

微调的玩法?

image.png

代码读一读

https://zhuanlan.zhihu.com/p/360988428

仅供学习 无关利益

https://www.youtube.com/watch?v=ugWDIIOHtPA&list=PLJV_el3uVTsOK_ZK5L0Iv_EQoL1JefRL4&index=61
https://zhuanlan.zhihu.com/p/338817680
https://arxiv.org/pdf/1810.04805.pdf
https://www.bilibili.com/video/BV1Ey4y1874y?from=search&seid=10522068071476269918&spm_id_from=333.337.0.0
https://zhuanlan.zhihu.com/p/51413773

相关文章

  • Transformer-Bert模型学习笔记

    Transformer结构 Self-Attention 上图是论文中 Transformer 的内部结构图,左侧...

  • 学习之学习:思维模型

    以下是我学习混沌大学成甲的《思维模型》课的学习笔记与收获(应用了新学习的五星笔记法):课程笔记:成甲:思维模型(学...

  • TCP/IP协议族

    TCP/IP协议族学习笔记 了解TCP/IP协议族,需要先学习OSI七层模型 OSI七层参考模型 OSI参考模型(...

  • 目标检测学习资料

    RCNN学习笔记(10):SSD:Single Shot MultiBox Detector 深度学习目标检测模型...

  • 统计机器学习基本概念

    -------- 李航《统计学习方法》 笔记 1. 统计学习三要素模型 策略 算法 1.1 模型 监督学习过程中,...

  • 《机器学习》西瓜书学习笔记(二)

    上一篇笔记在这里:《机器学习》西瓜书学习笔记(一) 第三章 线性模型 3.1 基本形式 线性模型:试图学得一个通过...

  • 模型学习笔记

    1.个体——整体模型 两条假设 ①一切事物在底层上都是相互联系的。 ②整体能提供比个体本身更多的信息。 我们永远不...

  • Spark机器学习笔记

    Spark机器学习笔记 机器学习 机器学习是数据通过算法构建出模型并对模型进行评估,评估的性能如果达到要求就拿这个...

  • 个人战略、职业规划 学习笔记D1

    【No.1 我的学习笔记】 (学习秘诀:写心得) 冰山模型给我的启示: 冰山模型是对职业发展或是个人战略规划,非常...

  • 50-R语言机器学习:集成模型与多类分类

    《精通机器学习:基于R 第二版》学习笔记 1、集成模型简介 集成学习的定义是:“有策略地建立多个模型(如分类器或专...

网友评论

      本文标题:Transformer-Bert模型学习笔记

      本文链接:https://www.haomeiwen.com/subject/soadrrtx.html