transformer中输入编码器的source和输入解码器的target，还有整体transformer的输出分别是什么，能举个例子吗

### Transformer模型中的Source输入、Target输入及整体输出 #### 编码器输入 (Source Input) Transformer 的编码器接收的是源语言序列，通常表示为词嵌入向量加上位置编码的结果。 - **词嵌入**：将单词映射到高维空间中的稠密向量表示。假设词汇表大小为 \(V\)，则每个单词会被转换为一个维度为 \(d_{model}\) 的向量[^1]。 - **位置编码**：由于 Transformer 不像 RNN 那样具有固有的时间依赖性，因此引入了位置编码来提供词语的位置信息。位置编码可以是正弦/余弦函数的形式或者简单的可学习参数矩阵。最终的编码器输入形式如下： \[ \text{Input to Encoder} = \text{Word Embedding} + \text{Positional Encoding} \] #### 解码器输入 (Target Input) 解码器的输入是由目标语言序列组成的移位版本（即右偏移一位）。这种设计是为了防止解码器在预测第 \(t\) 时刻的目标词时看到未来的信息。具体来说： - 对于给定的目标序列 \(y_1, y_2, ..., y_n\)，实际传递给解码器的输入序列为 `<start>, y_1, y_2, ..., y_{n-1}`，其中 `<start>` 是起始标记[^1]。 - 同样的，这些输入也会经过词嵌入和位置编码处理后再送入解码器。 #### 整体输出 Transformer 的输出是对目标语言序列的概率分布估计。对于每一个解码步长 \(t\)，都会生成一个长度等于目标词汇表大小的向量，该向量通过 softmax 函数转化为概率分布。例如，在翻译任务中，如果目标词汇表中有 10,000 个可能的单词，则每一步输出都是一个形状为 [batch_size, vocab_size] 的张量。以下是具体的例子： | Source Sequence | Target Sequence | |------------------|------------------| | `I love apples` | `<start> J'aime les pommes </end>` | 在这个例子中， - 源序列 (`source`) 被编码为 `[Embed(I), Embed(love), Embed(apples)] + Positional_Encoding()` 并传入编码器； - 目标序列 (`target`) 则被调整为 `<start>, J', aime`, 然后同样应用嵌入层与位置编码并馈送到解码器； - 最终输出将是形如 `[P(J'), P(aime), ... ]` 这样的概率分布列表，用于选取最有可能的下一个词。 ```python import torch from transformers import AutoTokenizer, AutoModelForSeq2SeqLM tokenizer = AutoTokenizer.from_pretrained("Helsinki-NLP/opus-mt-en-fr") model = AutoModelForSeq2SeqLM.from_pretrained("Helsinki-NLP/opus-mt-en-fr") input_text = "I love apples" tokenized_input = tokenizer(input_text, return_tensors="pt").input_ids outputs = model.generate(tokenized_input) translated_text = tokenizer.decode(outputs[0], skip_special_tokens=True) print(f"Translated Text: {translated_text}") ```

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 godot4.4版本中AUTOLOAD在哪

目录

transformer中输入编码器的source和输入解码器的target，还有整体transformer的输出分别是什么，能举个例子吗

Python内容推荐

PSO-LSTM基于PSO优化LSTM网络的电力负荷预测（Python代码实现）

代码演示如何使用Transformer模型进行机器翻译的任务

Transformer面筋1

Transformer处理序列数据的深度学习模型架构

[] - 2022-12-11 提升小场景时间序列预测效果的方法。.pdf

Attention本质理解1

读书笔记之16Attention机制说明及代码实现

tensorflow_datasets.zip

Gemma 4 12B本地部署指南[源码]

Neural visUal World creAtion .pdf

AI AgentHivemind 多智能体协同框架完整源码

三相桥式全控整流及有源逆变电路实验仿真模型，三相整流器逆变器研究（Simulink仿真实现）

实用代码脚本易语言源码取功能键状态

图纸图例、编号字符显示异常？分类精选字体逐一修正画面问题.rar

易语言源码强力窗口隐藏(易语言2007年大赛三等奖)

公园 揭秘demo 收集星星 过关 有水印

让跨版图纸无缝显示，完备字体全面兼容.rar

智慧果园苹果树木死亡死树检测数据集VOC+YOLO格式5184张1类别.md

log4j清理jakarta依赖脚本

深度学习基于LoRA的大语言模型微调技术：单卡GPU环境下7B参数模型训练与本地部署实践指南

处理minio文件分析链接的python

minio 文件服务器

minio-py:用于 Python 的 MinIO 客户端 SDK

二、python+前端 实现MinIO分片上传

Python连接MinIO[项目代码]

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

公园揭秘demo 收集星星过关有水印

二、python+前端实现MinIO分片上传