LoRA技术详解：让大模型微调变得如此简单，小白也能轻松上手！

LoRA是参数高效微调技术，通过冻结原始参数并插入低秩旁路来训练少量参数。它解决了大模型微调的高计算成本问题，大幅降低显存需求(从TB到GB)，可训练参数不到1%，性能与全参数微调相当。LoRA已成为大模型平民化的关键技术，使中小企业和个人开发者也能基于大模型开发垂直应用。

Python官方资料 · 2025-11-27 13:44:04 发布

前排提示，文末有大模型AGI-CSDN独家资料包哦！

自从 ChatGPT 出圈后，大模型（LLM, Large Language Model）已经成为 AI 领域的“兵家必争之地”。无论是 GPT-4、文心一言，还是 ChatGLM、LLaMA，背后都是动辄数百亿甚至千亿参数的庞然大物。

然而，这也带来一个现实问题：大模型虽好，普通人玩不起。

那么，有没有办法在 保持大模型能力的同时，又能低成本地针对新任务做适配？

答案是肯定的，这就是 LoRA（Low-Rank Adaptation）。它被微软在 2021 年提出，随后迅速成为参数高效微调（PEFT, Parameter-Efficient Fine-Tuning）的明星方法。

LoRA 的核心思想可以用一句话概括：
👉 冻结大模型的原始参数，只在关键位置插入一个“低秩旁路”，并训练这个旁路的参数。

具体来说：

这样一来：

你可以把 LoRA 想象成在大模型主干外面挂了几个“小插件”，每个插件只负责一个小任务，灵活又高效。

设预训练模型中的权重矩阵为
。

在传统微调中，我们要更新：

其中与尺寸相同，参数量巨大。

而在 LoRA 中，我们假设是一个低秩矩阵，可以分解为：

于是更新后的权重为：

在前向传播时，输入向量的输出为：

其中：

为什么不能初始化为全零而可以？
因为若与同时为零矩阵，则，任一方的梯度都会为零，参数无法更新。通常做法是用小随机值初始化（例如高斯或 Kaiming 初始化），而把初始化为零，这样训练初期梯度能流入，随后会被更新，令逐步变为非零。

LoRA 与全参数微调（Full Fine-Tuning）的关系
当秩增大到与矩阵维度相当时，LoRA 恢复为等价于全参数更新的情形；因此全参数微调是 LoRA 的一个极限情况，但在实践中通常不需要这么大。

LoRA 的提出，使得大模型微调真正变得“平民化”：

显存需求大幅降低：从 TB 级别降到几百 GB，甚至几十 GB 就能跑。
参数量极小：可训练参数占比通常不到 1%，便于存储和迁移。
性能稳定：在 GLUE、GPT-3 等任务中，LoRA 微调的效果往往与全参数微调持平甚至更优。
生态繁荣：从 HuggingFace 的 peft 库到各类模型社区（例如 Stable Diffusion 的 LoRA 插件），LoRA 已成为社区默认的轻量微调方案。

读者福利：倘若大家对大模型感兴趣，那么这套大模型学习资料一定对你有用。

针对0基础小白：