01程序员

Transformer架构学习

malong 发布于 2025-01-09

训练数据和批处理

我们在标准WMT 2014英语德语数据集上进行了训练，该数据集包含约450万个句子配对。句子使用字节对编码[3]进行编码，该编码具有共享源-目标词汇约37000个令牌。对于英语-法语，我们使用了明显更大的WMT2014年英法数据集，由3600万个句子和32000个单词组成词汇[31]。句子对按大致的序列长度分组在一起。每次培训该批包含一组句子对，其中包含约25000个源令牌和25000个目标令牌。

正则化

我们在训练过程中采用了三种正则化方法：

Residual Dropout

我们将dropout[27]应用于每个子层的输出，然后再将其添加到子层输入和归一化。此外，我们将dropout应用于嵌入和编码器和解码器堆栈中的位置编码。对于基本模型，我们使用以下比率Pdrop = 0.1.

表2：Transformer在BLEU方面的得分高于之前最先进的模型英语到德语和英语到法语的newstest2014测试只需培训成本的一小部分

malong

关注私信

文章

关注

粉丝