Generated with sparks and insights from 53 sources

img6

img7

img8

img9

img10

img11

Introduction

  • BERT(Bidirectional Encoder Representations from Transformers)是由Google发布的预训练语言模型。

  • BERT的架构基于Transformer的编码器部分,采用多层堆叠的方式。

  • BERT模型没有使用解码器层,因此没有掩码多头注意力子层。

  • BERT的训练包括两个主要任务:掩码语言建模(Masked Language Modeling, MLM)和下一句预测(Next Sentence Prediction, NSP)。

  • BERT-base模型包含12层编码器,BERT-large模型包含24层编码器。

  • BERT的输入包括特殊的[CLS]和[SEP]标记,用于分类和句子分隔。

  • BERT的预训练过程使用了大规模无监督语料,之后可以通过微调(fine-tuning)应用于各种下游NLP任务。

模型架构 [1]

  • BERT的架构基于Transformer的编码器部分,采用多层堆叠的方式。

  • BERT-base模型包含12层编码器,BERT-large模型包含24层编码器。

  • BERT没有使用解码器层,因此没有掩码多头注意力子层。

  • BERT引入了双向注意力机制,一个注意力头从左到右,另一个从右到左。

  • BERT的架构图显示了Embedding模块、Transformer模块和预微调模块。

img6

img7

img8

预训练任务 [1]

  • BERT的预训练包括两个主要任务:掩码语言建模(MLM)和下一句预测(NSP)。

  • 掩码语言建模:随机掩码句子中的15%的单词,模型需要预测这些被掩码的词。

  • 下一句预测:输入句子对,模型预测第二个句子是否是第一个句子的真实下一句。

  • MLM任务中,80%的被选中词用[MASK]替换,10%用随机词替换,10%保持不变。

  • NSP任务中,50%的句子对是连续的,50%是随机的。

img6

img7

img8

img9

img10

img11

输入与输出 [1]

  • BERT的输入包括特殊的[CLS]和[SEP]标记,用于分类和句子分隔。

  • 输入文本被分词为token,并转换为对应的索引值。

  • BERT的输出是每个位置的向量表示,大小为hidden_size(BERT-base中为768)。

  • 第一个位置的向量输出(对应[CLS])通常用于分类任务。

  • BERT使用WordPiece Tokenization,将单词拆分为更小的wordpieces。

img6

img7

img8

img9

img10

img11

模型参数 [1]

  • BERT-base模型:L=12,H=768,A=12,参数总量110M。

  • BERT-large模型:L=24,H=1024,A=16,参数总量340M。

  • L表示网络的层数(即Transformer blocks的数量)。

  • H表示隐藏层的大小。

  • A表示Multi-Head Attention中self-Attention的数量。

img6

img7

img8

img9

img10

img11

应用场景 [2]

  • BERT可以用于句子分类任务,如垃圾邮件分类。

  • BERT可以用于情感分析,判断评价是正面还是负面。

  • BERT可以用于问答系统,回答用户提出的问题。

  • BERT可以用于序列标注任务,如命名实体识别。

  • BERT的预训练模型可以通过微调应用于各种下游NLP任务。

img6

img7

img8

img9

img10

img11

特征提取 [2]

  • BERT可以提取输入序列的所有token的向量表示。

  • 可以使用最后一层BERT的输出连接任务网络进行微调。

  • 可以直接使用这些token的向量作为特征输入现有的特定任务神经网络。

  • 可以提取每一层encoder的token表示作为特征。

  • 特征提取可以用于各种NLP任务,如分类、问答、序列标注等。

img6

img7

img8

img9

img10

img11

Related Videos

<br><br>

<div class="-md-ext-youtube-widget"> { "title": "\u76f8\u5173\u602704\uff1aBERT\u6a21\u578b (Part 1) - \u6a21\u578b\u7ed3\u6784\u3001\u7ebf\u4e0a\u63a8\u7406", "link": "https://www.youtube.com/watch?v=G7GW7hhvkwg", "channel": { "name": ""}, "published_date": "1 month ago", "length": "" }</div>

<div class="-md-ext-youtube-widget"> { "title": "\u751f\u6210\u5f0fAI\u5b66\u4e609\u2014\u2014Transformer\u6a21\u578b\u548cBERT\u6a21\u578b\uff08\u4e0b\uff09\u6f14\u793a", "link": "https://www.youtube.com/watch?v=MaC2yDy2_pg", "channel": { "name": ""}, "published_date": "Jun 26, 2023", "length": "" }</div>

<div class="-md-ext-youtube-widget"> { "title": "\u6df1\u5ea6\u5b78\u7fd2\u7cfb\u5217- BERT \u539f\u7406\u8207\u6a21\u578b\u67b6\u69cb", "link": "https://www.youtube.com/watch?v=gciHGREJdJ4", "channel": { "name": ""}, "published_date": "May 24, 2019", "length": "" }</div>