1 3 Transformer
第一章 Transformer背景介绍1.1 Transformer的诞生
2018年10月,Google发出一篇论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》, BERT模型横空出世, 并横扫NLP领域11项任务的最佳成绩!
论文地址: https://arxiv.org/pdf/1810.04805.pdf
而在BERT中发挥重要作用的结构就是Transformer, 之后又相继出现XLNET,roBERT等模型击败了BERT,但是他们的核心没有变,仍然是:Transformer.
1.2 Transformer的优势
相比之前占领市场的LSTM和GRU模型,Transformer有两个显著的优势:
121, Transformer能够利用分布式GPU进行并行训练,提升模型训练效率. 2, 在分析预测更长的文本时, 捕捉间隔较长的语义关联效果更好.
下面是一张在测评比较图:
1.3 Transformer的市场
在著名的SOTA机器翻译 ...
陈硕--Transformer-Attention Is All You Need
Transformer-Attention Is All You Need为什么提出Transformer,它到底是何方神圣?
它到底是如何表现高的性能,是否值得去研究?
(1) Transformerself-attention
(2) 位置编码
(3) 网络编码模块
(4) 网络解码模块
为什么引入Transformer?Transformer模型使用了Self-Attention机制,不采用RNN顺序结构,使得模型可以并行化训练,而且能够拥有全局信息。说白了:并行加速计算+学习全局信息
CNN缺点:只能考虑有限的内容CNN优点:并行化处理
如何既能并行又能学习到全局信息?→Self-Attention
为什么提出Transformer,它到底是何方神圣?
它到底是如何表现高的性能,是否值得去研究?
(1)Transformerself-sttention
(2)位置编码
(3)网络编码模块
(4)网络解码模块
具体如何实现Self-Attention?(q、k、v计算)
系统框架
具体如何实现Self-Attention?(q、k、v计算)
123456q:q: ...
Transformer学习笔记四:ResNet(残差网络)
Transformer学习笔记四:ResNet(残差网络)关于Transformer的笔记,预计出如下几篇:
Positional Encoding (位置编码),点击跳转
Self-attention(自注意力机制),点击跳转
Batch Norm & Layer Norm(批量标准化/层标准化),点击跳转
ResNet(残差网络)
Subword Tokenization(子词分词法),点击跳转
组装:Transformer
封面介绍一下Brainstorm小诸葛:【派别】:汽车人【职责】:生化机械工程师【优点也是缺点】:想法太多太快,导致脑电路过热或者短路。【经历】在赛博坦星球时,作为一个理性的理想主义者而抑郁不得志。最终在星云找到了自己的世外桃源,潜心做开发研究工作,主要成就是人机互换领域的突破。“再强大的暴君也无法抑制思想的自由。”
在Transformer中,数据过Attention层和FFN层后,都会经过一个Add & Norm处理。其中,Add为residule block(残差模块),数据在这里进行residule connection( ...
Transformer学习笔记二:Self-Attention(自注意力机制)
Transformer学习笔记二:Self-Attention(自注意力机制)一、笔记架构
Transformer中的三处Attention
关于Transformer的系列笔记,预计出如下几篇:
Positional Encoding (位置编码),点击跳转
Self-attention(自注意力机制)
Batch Norm & Layer Norm(批量标准化/层标准化),点击跳转
ResNet(残差网络),点击跳转
Subword Tokenization(子词分词法),点击跳转
组装:Transformer
笔记持续更新中~希望和各位小伙伴们一起学习~
在Transformer中,一共涉及到三个Attention零件。这篇笔记将基于这三个零件,对attention机制进行探讨,主要内容包括:
(1)Attention机制的基本框架(2)Attention Score的计算方法- Dot product- Additive product- Scaled dot product (Transformer论文使用的方法,这里将探讨乘上因子$1/\sq ...
Transformer学习笔记一:Positional Encoding(位置编码)
Transformer学习笔记一:Positional Encoding(位置编码)
小小引流一下,最近在更新ChatGPT系列,感兴趣的朋友可以移步猛猿:ChatGPT技术解析系列之:训练框架InstructGPT
自从2017年Transformer模型被提出以来,它已经从论文最初的机器翻译领域,转向图像,语音,视频等等方面的应用(实现作者们在论文结论里的大同之梦)。原论文的篇幅很紧密,不看代码的话,缺乏了很多细节描述。我的学历经历大概是两周啃paper+代码 => 两周挖细节=>未来这个模型还有很多值得端详。在Transformer系列的笔记里,我把模型拆成了各个零件进行学习,最后把这些零件组装成Transformer,涵盖内容如下:
Positional Encoding (位置编码)
Self-attention(自注意力机制),点击跳转
Batch Norm & Layer Norm(批量标准化/层标准化),点击跳转
ResNet(残差网络),点击跳转
Subword Tokenization(子词分词法),点击跳转
组装 ...
第二章 Transformer
2.2 输入部分实现 P4
学习目标
了解文本嵌入层和位置编码的作用.
掌握文本嵌入层和位置编码的实现过程.
输入部分包含:
源文本嵌入层及其位置编码器
目标文本嵌入层及其位置编码器
文本嵌入层的作用
无论是源文本嵌入还是目标文本嵌入,都是为了将文本中词汇的数字表示转变为向量表示, 希望在这样的高维空间捕捉词汇间的关系.
pytorch 0.3.0及其必备工具包的安装:
安装版本
12345# 使用pip安装的工具包包括pytorch-0.3.0, numpy, matplotlib, seabornpip install http://download.pytorch.org/whl/cu80/torch-0.3.0.post4-cp36-cp36m-linux_x86_64.whl numpy matplotlib seaborn# MAC系统安装, python版本<=3.6pip install torch==0.3.0.post4 numpy matplotlib seaborn
1234567conda create -n postc ...
Transformer学习笔记三:为什么Transformer要用LayerNorm/Batch Normalization & Layer Normalization (批量&层标准化)
Transformer学习笔记三:为什么Transformer要用LayerNorm/Batch Normalization & Layer Normalization (批量&层标准化)20230225更新:最新在更新ChatGPT系列,感兴趣的朋友可以移步:猛猿:ChatGPT技术解析系列之:训练框架InstructGPT
关于Transformer的笔记,预计出如下几篇:
Positional Encoding (位置编码),点击跳转
Self-attention(自注意力机制),点击跳转
Batch Norm & Layer Norm(批量标准化/层标准化)
ResNet(残差网络),点击跳转
Subword Tokenization(子词分词法),点击跳转
组装:Transformer
这一篇写Transformer里标准化的方法。在Transformer中,数据过Attention层和FFN层后,都会经过一个Add & Norm处理。其中,Add为residule block(残差模块),数据在这里进行residule ...
23 沧州植物园
2024.04.14 沧州植物鱼
喜欢你就像今日之春风,暖柔和煦,微风拂来,透彻心脾,想和你漫步于这浪漫的春天,欣赏嫩枝吐出新芽,花骨朵绽放自己的色彩春天已经来了,万物复苏,又到了动物们欢快的季节。这些天,我时刻想着你,做梦然后梦到你,回念在一起的日子,想你想的春梦都出来。在这暖人暖景的氛围里,想把你揽入怀中,紧紧拥抱,闭上眼睛,轻触嘴唇,探尝这人世间最甜最美味的尤物,两个小东西相互打架,纠缠,撕扯,做着自然界最本能的事,享受着无与伦比的快乐。你的笑容,亲近可爱,富有张力与感染力,侧容又似高圆圆之姿,远观仙女头仙凡,近观西施赛貂蝉。和你在一起,就是世界上最开心幸福的事情,能让我感受幸福平静的生活,在这喧嚣的世界中,给予我一片宁静的港湾。我想一辈子呵护着份爱情,记录每一个温馨快乐的瞬间,直至退休养老。
来吃的第一顿饭
下次再战!!!
21. 长城2-我拍的
2024.03.23 爬长城
不一样的精彩
爬长城
精彩继续中!!!
22 颐和园之行
2024.03.24 雨路之颐和园
小雨走着,特别有感觉,诗情画意
漫步于颐和园中
享受慈禧的想不到的快乐
中午的饭 - 南京大排档
颐和园南门-刚进来
2024.03.06 土豆烧肉 晚上11点吃的饭
精彩继续中!!!