【LLaMA-Factory】微调方法详解：LoRA、Freeze、OFT与Full对比-Euler的博客

在使用LLaMA-Factory进行模型微调时，我们经常会遇到一个关键选择：应该使用哪种微调方法？LLaMA-Factory提供了四种主要的微调方法：LoRA、Freeze、OFT和Full。每种方法都有其独特的原理、适用场景和资源需求。本文将深入解析这四种方法的区别，帮助你在实际项目中做出合适的选择。

技术背景

大语言模型的微调是一个资源密集型任务。传统的全参数微调（Full Fine-tuning）需要更新模型的所有参数，这对于动辄数十亿参数的大模型来说，意味着需要大量的显存和计算资源。在实际工程实践中，我们往往需要在效果和资源消耗之间找到平衡点。

参数高效微调（Parameter-Efficient Fine-Tuning, PEFT）技术应运而生，它通过只训练模型的一小部分参数，在保持较好效果的同时大幅降低资源需求。LLaMA-Factory作为目前最流行的开源微调框架之一，集成了多种PEFT方法，为不同场景提供了灵活的解决方案。

四种微调方法详解

LoRA：低秩适应的经典方案

LoRA（Low-Rank Adaptation）是目前最流行的参数高效微调方法。它的核心思想是在原始权重矩阵旁边添加低秩分解矩阵，只训练这些新增的小矩阵，而保持原始权重冻结。

技术原理

LoRA将权重更新分解为两个低秩矩阵的乘积。对于原始权重矩阵 $W \in \mathbb{R}^{d \times k}$ ，LoRA引入两个矩阵 $A \in \mathbb{R}^{r \times k}$ 和 $B \in \mathbb{R}^{d \times r}$ ，其中 $r \ll \min(d,k)$ 是秩（rank）。前向传播时的计算为：

$W' = W + \frac{\alpha}{r} \cdot BA$

其中 $\alpha$ 是缩放因子，通常设置为 $r$ 的倍数。这个设计的巧妙之处在于，通过低秩分解，我们可以用极少的参数（ $r \times (d + k)$ ）来近似完整的权重更新（ $d \times k$ 个参数）。

配置示例

在LLaMA-Factory中，LoRA的配置如下：

finetuning_type: lora
lora_rank: 16          # 低秩分解的秩，通常设置为8-64
lora_alpha: 32        # LoRA缩放参数，通常设置为rank的2倍
lora_dropout: 0.05    # Dropout率，防止过拟合
lora_target: all      # 目标模块，可以是"all"或指定模块列表

实际使用体验

在实际使用中，我发现LoRA有几个非常实用的特性。首先，训练后的LoRA权重可以轻松合并回原始模型，这意味着你可以得到一个完整的、独立的模型文件，而不需要同时保存基础模型和适配器。其次，LoRA支持多个适配器的组合使用，这在需要同时适配多个任务时特别有用。不过需要注意的是，LoRA的效果很大程度上依赖于rank的选择，过小的rank可能无法充分表达任务特性，而过大的rank又会增加资源消耗。

Freeze：层级别的选择性训练

Freeze方法采用了一种更直观的策略：冻结模型的大部分层，只训练指定的层。这种方法在资源受限但需要训练完整层参数的场景下特别有用。

技术原理

Freeze方法的核心是选择性解冻。LLaMA-Factory允许你指定训练最后N层（正数）或前N层（负数），还可以额外指定特定的模块如embedding层或输出层。在实现上，它会将非训练层的参数设置为 requires_grad=False，并将训练层转换为float32精度以确保训练稳定性。

配置示例

finetuning_type: freeze
freeze_trainable_layers: 2        # 训练最后2层（正数）或前2层（负数）
freeze_trainable_modules: all     # 训练哪些模块：all、attention、mlp等
freeze_extra_modules: embed_tokens,lm_head  # 额外训练的模块

适用场景分析

Freeze方法的一个明显优势是训练速度快，因为只需要更新部分参数。但它的灵活性相对较低，你只能选择训练完整的层，而不能像LoRA那样精细控制每个模块的参数更新量。在实际项目中，我通常会在需要快速验证某个假设时使用Freeze方法，或者当数据集较大但资源有限时，Freeze可以在效果和效率之间提供一个不错的折中。

OFT：正交约束的优雅方案

OFT（Orthogonal Fine-Tuning）是一种相对较新的微调方法，它通过正交变换来修改权重，在保持权重空间结构的同时实现参数高效微调。

技术原理

OFT的核心思想是使用正交矩阵来变换权重。正交矩阵的一个重要性质是它保持向量的长度和角度不变，这意味着OFT可以在不破坏模型原有几何结构的情况下进行微调。在实现上，OFT将权重矩阵分解为块状结构，每个块使用一个小的正交矩阵进行变换。

配置示例

finetuning_type: oft
oft_rank: 0            # OFT的秩（0表示使用block_size）
oft_block_size: 32     # 块大小，控制正交矩阵的维度
oft_target: all       # 目标模块
module_dropout: 0.0    # Dropout率

方法特点

OFT的一个有趣特性是它通过正交约束保持了权重空间的某些结构特性。这在某些任务中可能带来更好的效果，特别是当任务需要保持模型的某些内在特性时。不过，OFT的实现相对复杂，而且目前的支持不如LoRA广泛。在实际使用中，我发现OFT在某些特定场景下确实能取得比LoRA稍好的效果，但差异通常不大，而LoRA的生态和工具支持更加完善。

Full：全参数微调的终极方案

Full Fine-tuning是最传统也是最直接的方法：训练模型的所有参数。虽然资源消耗最大，但在效果上通常也是最好的。

技术原理

Full微调没有特殊的技巧，就是标准的反向传播更新所有参数。所有层的权重都会根据梯度进行更新，这使得模型能够最大程度地适应目标任务。

配置示例

finetuning_type: full
# 不需要额外参数，所有参数都会训练

资源需求分析

Full微调的资源需求是巨大的。对于一个7B参数的模型，即使使用混合精度训练，通常也需要至少40GB的显存。在实际工程中，Full微调通常需要多GPU训练或使用DeepSpeed等分布式训练框架。但如果你有足够的资源，Full微调往往能获得最好的效果，特别是在数据集较大、任务较复杂的情况下。

方法对比与实践建议

资源与效果权衡

在实际项目中，选择微调方法本质上是在资源消耗和效果之间做权衡。我整理了一个对比表格，帮助你快速了解各方法的特点：

方法	参数量占比	显存占用	训练速度	效果	灵活性
LoRA	0.1%-1%	低	快	好	高
Freeze	5%-20%	中	中	中	中
OFT	0.5%-2%	低-中	中	好	中
Full	100%	高	慢	最好	低

选择建议

基于我的实践经验，以下是一些具体的选择建议：

选择LoRA的场景：资源受限、需要快速实验、需要同时适配多个任务、希望保持模型的通用性。LoRA是目前最平衡的方案，在大多数场景下都能取得不错的效果。

选择Freeze的场景：需要训练完整层参数但资源有限、数据集较大需要快速迭代、对特定层的微调有明确需求。Freeze在需要快速验证假设时特别有用。

选择OFT的场景：需要保持模型结构的某些特性、在特定任务上LoRA效果不佳、有足够的实验时间进行方法对比。OFT是一个值得尝试的替代方案，但需要更多的实验来验证效果。

选择Full的场景：资源充足、追求最佳效果、数据集足够大、任务复杂度高。Full微调是效果最好的方案，但需要确保有足够的计算资源。

实践中的注意事项

在实际使用中，我发现有几个常见的陷阱需要注意。首先是LoRA的rank选择，过小的rank可能导致欠拟合，而过大的rank又会增加资源消耗。通常建议从rank=16开始，根据效果和资源情况调整。其次是Freeze的层数选择，训练层数太少可能效果不佳，太多又失去了Freeze的意义。建议从最后2-3层开始，逐步增加。

对于Full微调，最大的挑战是资源管理。建议使用梯度检查点（gradient checkpointing）来减少显存占用，使用混合精度训练来加速，并考虑使用DeepSpeed ZeRO来进一步优化显存使用。

总结

LLaMA-Factory提供的四种微调方法各有特点，没有绝对的最佳选择，只有最适合你当前场景的方案。LoRA是最通用和平衡的选择，适合大多数场景；Freeze适合需要快速迭代的场景；OFT是值得探索的替代方案；Full微调则是资源充足时的最佳选择。

在实际项目中，我建议采用渐进式的策略：先用LoRA进行快速实验和验证，如果效果满足需求就使用LoRA；如果效果不够好且资源允许，再考虑Full微调。这种策略既能保证开发效率，又能在需要时获得最佳效果。