为什么Transformer自回归生成时只拿最后一个token的隐藏状态去预测下一个词？

在Transformer架构的自回归语言模型中，仅使用最后一个token的输出来计算下一个词的概率，这主要源于其**自回归生成机制**和**因果注意力掩码**的设计，其根本目的是为了模拟人类逐词阅读和生成文本的时序过程，并确保模型在预测时仅依赖于已知的历史信息[ref_1][ref_2]。 ### 一、核心原理：自回归生成与因果注意力自回归语言模型（如GPT系列）的核心任务是：给定一个已生成的token序列（即历史上下文），预测序列中下一个最可能出现的token。这个过程是**单向且顺序**的[ref_3]。 1. **因果注意力掩码 (Causal Attention Mask)**：在Transformer的解码器或仅解码器架构中，自注意力层会应用一个上三角掩码矩阵。这个掩码确保在计算第 `t` 个位置的token表示时，它只能“看到”位置 `1` 到 `t-1` 的token，而无法“看到”当前位置及未来的token[ref_1][ref_4]。这强制模型仅基于历史信息进行预测。 2. **序列生成的迭代过程**：生成是一个循环过程。假设当前已生成序列为 `[x1, x2, ..., xt]`，模型将整个序列输入，经过嵌入、位置编码和多层Transformer块处理后，会得到每个输入位置对应的上下文感知表示 `[h1, h2, ..., ht]`。其中，最后一个隐藏状态 `ht` 汇聚了**整个历史序列 `[x1, x2, ..., xt]` 的全部信息**[ref_2][ref_5]。因此，`ht` 是预测下一个token `x_{t+1}` 最直接、最完整的依据。 ### 二、技术实现：从最后一个隐藏状态到概率分布模型的输出层通常由一个线性投影层（词汇表大小的权重矩阵）和一个Softmax函数组成。具体步骤如下表所示： | 步骤 | 操作 | 说明 | | :--- | :--- | :--- | | **1. 获取最终表示** | 取最后一个Transformer层在序列最后一个位置的输出向量 `h_t` | `h_t` 的维度为 `(batch_size, hidden_dim)`，它编码了整个输入序列的语义[ref_2][ref_5]。 | | **2. 线性投影** | 将 `h_t` 与输出投影矩阵 `W_vocab` 相乘 | `logits = h_t @ W_vocab.T`，得到未归一化的得分（logits），维度为 `(batch_size, vocab_size)`，每个分数对应词汇表中一个token的“可能性”[ref_1][ref_4]。 | | **3. 概率化** | 对logits应用Softmax函数 | `P(x_{t+1} | x_1, ..., x_t) = Softmax(logits)`，生成一个概率分布，表示在给定历史下，词汇表中每个token作为下一个出现的概率[ref_1][ref_5]。 | 以下是该过程的一个简化代码示例： ```python import torch import torch.nn as nn import torch.nn.functional as F class AutoregressiveLMHead(nn.Module): def __init__(self, hidden_size, vocab_size): super().__init__() # 线性投影层，将隐藏状态映射到词汇表空间 self.lm_head = nn.Linear(hidden_size, vocab_size, bias=False) def forward(self, hidden_states): """ Args: hidden_states: Transformer最后一层的输出，形状为 (batch_size, seq_len, hidden_size) Returns: next_token_logits: 下一个token的logits，形状为 (batch_size, seq_len, vocab_size) 但在自回归中，我们只关心最后一个位置的输出用于预测。 """ # 1. 线性投影，得到所有位置的logits logits = self.lm_head(hidden_states) # (batch, seq_len, vocab_size) # 2. 在自回归生成时，我们只取最后一个时间步的logits用于预测下一个词 # 假设我们处理的是单个生成步骤 last_token_logits = logits[:, -1, :] # (batch_size, vocab_size) # 3. 应用Softmax得到概率分布 (通常在采样时进行) # next_token_probs = F.softmax(last_token_logits, dim=-1) return last_token_logits # 返回最后一个token的logits # 模拟数据 batch_size = 2 seq_len = 10 hidden_size = 768 vocab_size = 50000 # 假设这是Transformer最后一层的输出 last_hidden_states = torch.randn(batch_size, seq_len, hidden_size) # 初始化头部 lm_head = AutoregressiveLMHead(hidden_size, vocab_size) # 前向传播 next_token_logits = lm_head(last_hidden_states) # 形状: (2, 50000) # 若要获取下一个token的概率分布 next_token_probs = F.softmax(next_token_logits, dim=-1) print(f"下一个token logits的形状: {next_token_logits.shape}") print(f"下一个token 概率分布的形状: {next_token_probs.shape}") # 输出: 下一个token logits的形状: torch.Size([2, 50000]) # 输出: 下一个token 概率分布的形状: torch.Size([2, 50000]) ``` ### 三、为何不平均或使用其他位置的输出？ 1. **信息完整性**：在因果注意力机制下，第 `t` 个位置的隐藏状态 `h_t` 已经聚合了从第 `1` 到第 `t` 个位置的所有相关信息。平均所有位置的输出 (`h1` 到 `ht`) 并不会引入新的信息，反而可能稀释 `h_t` 所携带的、专门为预测下一个位置而优化的最新上下文信号[ref_2]。 2. **任务对齐**：语言建模是一个序列预测任务，目标是在每个时间步基于**当前为止的全部历史**做出一次预测。最后一个隐藏状态天然地与这个“当前时刻”对齐，是模型计算序列“最终状态”或“总结”的自然输出[ref_5]。 3. **效率与简洁性**：只使用一个向量（最后一个token的表示）进行预测，在计算和概念上都最为简单直接。这避免了需要设计复杂的池化或聚合策略，并且与自回归生成循环（预测->添加新token->重新输入）完美契合[ref_3]。 ### 四、扩展：训练与推理的视角 * **训练阶段**：虽然模型并行处理整个序列并产生每个位置的输出，但训练时的损失函数（通常是交叉熵）是计算**每个位置**的预测（基于其之前的上下文）与真实下一个token之间的误差。然而，在技术实现上，这等同于用所有位置的输出分别计算损失并求和，但每个位置的预测都依赖于其自身及之前的上下文，而非整个序列的某种平均[ref_4][ref_6]。 * **推理/生成阶段**：当模型实际生成文本时，过程是严格自回归的。模型接收当前序列，输出最后一个位置的概率分布，采样或选择出一个新token，将其追加到序列末尾，然后将这个增长后的新序列作为下一轮输入。这个过程反复进行，因此始终是“最后一个token”的表示在驱动下一词的生成[ref_1][ref_3]。 **总结**：Transformer架构在自回归语言模型中仅使用最后一个token的输出来计算下一个词的概率，这是由其**因果建模目标**、**注意力掩码机制**和**自回归生成范式**共同决定的。最后一个隐藏状态作为整个历史上下文的浓缩表示，是执行下一词预测的最直接、最有效的单一信号源。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇为什么用 typedef 给 fmtflags 和 streamsize 起别名？setFormat 和 restore 函数在流格式控制中起什么作用？

目录

为什么Transformer自回归生成时只拿最后一个token的隐藏状态去预测下一个词？

Python内容推荐

Python-Transformer的一个TensorFlow实现

Python-PyTorch实现基于Transformer的神经机器翻译

2026年电工杯A 题 绿电直连型电氢氨园区优化运行【思路、Python代码、Matlab代码、论文(持续更新中......)】

2026年电工杯B题：嵌入式社区养老服务站的建设与优化问题【思路、Python代码、Matlab代码、论文(持续更新中......)】

大模型预测next token原理[源码]

基于Transformer实现文本预测任务 数据集

从seq2seq模型到Transformer以及机器翻译小记

时间序列预测与深度学习：文献综述与应用实例.pdf

使用LSTM和Transformer模型进行时序预测源码

Transformer-Transducer

一个包含有关GPT模型内部工作原理、学习到的知识、模型训练时使用的提示等信息大全

vit.zip视觉transformer代码

rasa 使用内置bert时 transformer所需要加载的9个文件。

基于Transformer架构的量化金融预测研究 完整代码+数据 毕业设计

【光伏预测】基于飞蛾扑火优化算法MFO优化Transformer回归预测实现光伏预测附Matlab代码.pdf

【光伏预测】基于被囊群优化算法TSA优化Transformer回归预测实现光伏预测附Matlab代码.pdf

Transformer学习总结——原理篇

Transformer-Tensorflow2：用于分类的Transformer架构

3.Transformer模型原理详解.pdf

上海大学《机器学习》课程项目，选题时序数据预测

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

Java线程池运行时状态怎么实时掌握？有哪些靠谱的监控手段？

桌面工具软件项目效益评估及市场预测分析

告别遮挡！UniApp中WebView与原生导航栏的和谐共处方案（附完整可运行代码）

OSPF是怎么在企业网里自动找最优路径并分区域管理的？

UML建模课程设计：图书馆管理系统论文

2026年电工杯A 题绿电直连型电氢氨园区优化运行【思路、Python代码、Matlab代码、论文(持续更新中......)】

基于Transformer实现文本预测任务数据集

基于Transformer架构的量化金融预测研究完整代码+数据毕业设计