LoRA为什么只在Transformer每层加两个小矩阵，就能实现高效微调？

LoRA（Low-Rank Adaptation）微调对Transformer每层进行微调，是指在Transformer架构的每一层中都应用LoRA的微调机制。其基本原理是冻结预训练的模型参数，然后在Transformer的每一层中加入一个可训练的旁路矩阵（低秩可分离矩阵），接着将旁路输出与初始路径输出相加输入到网络当中，并只训练这些新增的旁路矩阵参数 [^3]。具体来说，低秩可分离矩阵由两个矩阵组成，第一个矩阵负责降维，第二个矩阵负责升维，中间层维度为r，从而来模拟本征秩（intrinsic rank），这两个低秩矩阵能够大幅度减小参数量 [^3]。例如，在LoRA的策略下，先用一个Linear层A，将数据从高维降到低维，这个低维的维度r也就是LoRA的秩，是LoRA中最重要的一个超参数，一般会远远小于高维维度，像常见的取值有4、8等 [^4]。以Transformer模型为例，在对其进行LoRA微调时，会在每一层都执行这样的操作，最终可以使得模型微调参数量大大减少。当部署到生产环境中时，只需要计算和存储W = W0 + BA，并像往常一样执行推理，而且与其它方法相比，没有额外的延迟，因为不需要附加更多的层 [^1]。 ```python # 以下是一个简单的伪代码示例，用于说明LoRA微调的基本概念 import torch import torch.nn as nn # 假设这是一个Transformer层 class TransformerLayer(nn.Module): def __init__(self, input_dim, output_dim): super(TransformerLayer, self).__init__() self.linear = nn.Linear(input_dim, output_dim) # 初始化LoRA的低秩矩阵 self.lora_A = nn.Parameter(torch.randn(input_dim, 4)) # r = 4 self.lora_B = nn.Parameter(torch.randn(4, output_dim)) def forward(self, x): # 原始线性变换 output = self.linear(x) # LoRA旁路 lora_output = torch.matmul(x, self.lora_A) lora_output = torch.matmul(lora_output, self.lora_B) # 合并结果 final_output = output + lora_output return final_output ```

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 CANoe怎么用Python自动跑测试？具体要装什么、连什么、测哪些内容？

目录

LoRA为什么只在Transformer每层加两个小矩阵，就能实现高效微调？

Python内容推荐

文件同步备份项目 Python完整源码与测试部署文档

非线性薛定谔方程的物理信息神经网络PINN研究（Python代码实现）

chatglm使用lora进行模型微调训练.zip

LoRA微调技术详解[代码]

在ChatGLM大模型上利用LoRA方法进行小参数学习，训练语料库选择中文alpaca-zh

Qwen1.5大模型微调、基于PEFT框架LoRA微调，在数据集HC3-Chinese上实现文本分类。.zip

Qwen1.5大模型微调、基于PEFT框架LoRA微调，在数据集HC3-Chinese上实现文本分类

LLMs_interview_notes-LoRA模型微调实战项目

多模态大模型LoRA微调全攻略[可运行源码]

LoRA模型是什么？.pdf

基于bert4torch的大模型微调代码，含chatglm+pv2, lora, plora等多种方式.zip

LoRA微调指南[项目源码]

LORA LOW-RANK ADAPTATION OF LARGE.pdf

用于扩散模型的LoRA训练脚本使用kohya-ss的训练器

大模型微调实战示例文档

LoRA训练脚本使用kohya-ss的训练器，用于扩散模型.zip

在您自己的数据上预训练、微调、部署 20+ LLM

LoRA-大型语言模型的低秩适配器.pdf.zip

如何对ChatGLM2-6B进行微调

Qwen3.5-9B LoRA微调与领域适配教程[可运行源码]

pytorch 查看cuda 版本方式

安装GPU版本Pytorch安装GPU版本Pytorch

解决pytorch GPU 计算过程中出现内存耗尽的问题

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

Java线程池运行时状态怎么实时掌握？有哪些靠谱的监控手段？

桌面工具软件项目效益评估及市场预测分析