【大模型】Hugging Face常见模型格式详解-Euler的博客

Hugging Face作为全球最大的机器学习模型社区，支持多种不同的模型格式。这些格式各有特点，适用于不同的使用场景。本文将详细介绍Hugging Face上常见的模型格式，帮助开发者选择合适的模型格式。

模型格式分类概览

Hugging Face上的模型格式主要可以分为以下几类：

1. 原始框架格式

PyTorch格式 (.bin, .pt, .pth)
TensorFlow格式 (.h5, .pb, SavedModel)
JAX格式 (.flax)

2. 优化格式

SafeTensors格式 (.safetensors)
ONNX格式 (.onnx)
TensorRT格式 (.engine)

3. 量化格式

BitsAndBytes格式 (.bnb)
GPTQ格式 (.gptq)
AWQ格式 (.awq)
GGUF格式 (.gguf)

4. 特殊格式

GGML格式 (.ggml)
GGUF格式 (.gguf)
Hugging Face Hub格式 (标准目录结构)

详细格式说明

PyTorch格式 (`.bin`, `.pt`, `.pth`)

特点：

最原始的PyTorch模型保存格式
使用Python的pickle序列化
文件大小较大，加载速度较慢
可能存在安全风险（pickle反序列化漏洞）

文件结构：

model/
├── config.json          # 模型配置
├── pytorch_model.bin    # 模型权重（单个文件）
├── tokenizer.json       # 分词器配置
├── tokenizer_config.json
└── special_tokens_map.json

使用场景：

模型开发和调试
需要完整模型信息的场景
兼容性要求高的环境

SafeTensors格式 (`.safetensors`)

特点：

Hugging Face开发的安全格式
不使用pickle，避免安全风险
加载速度快，内存效率高
支持并行加载

文件结构：

model/
├── config.json
├── model.safetensors    # 安全格式权重文件
├── tokenizer.json
└── tokenizer_config.json

优势：

安全性：避免pickle反序列化漏洞
性能：更快的加载速度
内存效率：更好的内存管理
并行性：支持多进程并行加载

使用场景：

生产环境部署
对安全性要求高的场景
需要快速加载的场景

ONNX格式 (`.onnx`)

特点：

跨平台、跨框架的模型格式
支持多种推理引擎
优化后的推理性能
硬件加速友好

优势：

跨平台：支持多种硬件和操作系统
性能优化：专门的推理优化
硬件加速：支持GPU、CPU、专用芯片
标准化：开放标准，生态丰富

使用场景：

生产环境推理
边缘设备部署
需要硬件加速的场景
跨框架部署

量化格式

BitsAndBytes格式 (`.bnb`)

特点：

使用BitsAndBytes库进行量化
支持4-bit和8-bit量化
内存占用大幅减少
推理速度提升

量化类型：

4-bit量化：内存减少75%，性能损失较小
8-bit量化：内存减少50%，性能损失最小

使用场景：

内存受限的环境
需要快速推理的场景
大模型部署

GPTQ格式 (`.gptq`)

特点：

专门为GPT类模型设计的量化格式
使用GPTQ算法进行量化
支持2-bit、3-bit、4-bit量化
保持较好的模型性能

优势：

高压缩比：2-bit量化可减少87.5%内存
性能保持：量化后性能损失较小
专门优化：针对Transformer架构优化

使用场景：

大语言模型部署
内存极度受限的环境
需要高压缩比的场景

AWQ格式 (`.awq`)

特点：

激活感知的量化格式
考虑激活值分布进行量化
比GPTQ更精确的量化
支持混合精度量化

优势：

更高精度：激活感知量化提高精度
灵活量化：支持不同层的不同量化精度
性能优化：针对实际推理场景优化

GGUF格式 (`.gguf`)

特点：

llama.cpp项目开发的格式
支持多种量化级别
跨平台兼容性好
支持CPU推理

量化级别：

q2_K：2-bit量化
q3_K：3-bit量化
q4_K：4-bit量化
q5_K：5-bit量化
q6_K：6-bit量化
q8_0：8-bit量化

使用场景：

本地部署
CPU推理
移动设备部署

特殊格式

GGML格式 (`.ggml`)

特点：

llama.cpp的旧格式
已被GGUF替代
主要用于CPU推理
文件大小较小

Hugging Face Hub格式

特点：

标准的Hugging Face模型格式
包含完整的模型信息
支持版本管理
自动处理依赖关系

目录结构：

model/
├── config.json              # 模型配置
├── pytorch_model.bin        # PyTorch权重
├── model.safetensors        # SafeTensors权重
├── tokenizer.json           # 分词器
├── tokenizer_config.json    # 分词器配置
├── special_tokens_map.json  # 特殊token映射
├── generation_config.json   # 生成配置
├── README.md               # 模型说明
└── .gitattributes         # Git属性

格式选择指南

按使用场景选择

开发调试阶段

推荐格式：PyTorch格式或SafeTensors
原因：完整信息，易于调试

生产环境部署

推荐格式：SafeTensors + ONNX
原因：安全性高，性能优化

内存受限环境

推荐格式：GGUF (q4_K) 或 GPTQ (4-bit)
原因：内存占用小，性能可接受

边缘设备部署

推荐格式：ONNX + 量化格式
原因：跨平台，硬件加速

本地CPU推理

推荐格式：GGUF格式
原因：CPU优化，易于使用

按模型大小选择

小型模型 (< 1GB)

可以使用原始格式
SafeTensors推荐

中型模型 (1GB - 10GB)

SafeTensors + 8-bit量化
ONNX格式

大型模型 (> 10GB)

4-bit量化格式
GGUF或GPTQ

格式转换工具

常用转换工具

1. Transformers库

from transformers import AutoModel, AutoTokenizer

# 加载模型
model = AutoModel.from_pretrained("model_name")
tokenizer = AutoTokenizer.from_pretrained("model_name")

# 保存为SafeTensors格式
model.save_pretrained("output_path", safe_serialization=True)
tokenizer.save_pretrained("output_path")

2. Optimum库

from optimum.onnxruntime import ORTModelForCausalLM

# 转换为ONNX格式
model = ORTModelForCausalLM.from_pretrained("model_name", export=True)
model.save_pretrained("onnx_model_path")

3. AutoGPTQ

from auto_gptq import AutoGPTQForCausalLM

# 转换为GPTQ格式
model = AutoGPTQForCausalLM.from_pretrained("model_name")
model.quantize(["example_text"], bits=4)
model.save_quantized("gptq_model_path")

4. llama.cpp

# 转换为GGUF格式
python convert.py model_path --outfile model.gguf --outtype q4_k_m

性能对比

加载速度对比

格式	加载速度	内存占用	安全性
PyTorch	慢	高	低
SafeTensors	快	中	高
ONNX	快	中	高
GGUF (q4_K)	快	低	高
GPTQ (4-bit)	快	低	高

推理性能对比

格式	CPU推理	GPU推理	精度
PyTorch	中等	好	高
SafeTensors	中等	好	高
ONNX	好	好	高
GGUF	好	中等	中等
GPTQ	中等	好	中等

最佳实践建议

1. 开发阶段

使用SafeTensors格式进行开发和调试
保持完整的模型信息
使用版本控制管理模型

2. 测试阶段

测试多种格式的性能
验证量化后的模型质量
进行压力测试

3. 部署阶段

根据部署环境选择合适的格式
考虑安全性和性能的平衡
准备多种格式的备选方案

4. 维护阶段

定期更新模型格式
监控模型性能
优化部署策略

总结

Hugging Face支持多种模型格式，每种格式都有其特定的优势和使用场景。选择合适的模型格式需要综合考虑：

使用场景：开发、测试、生产部署
硬件环境：CPU、GPU、边缘设备
性能要求：速度、内存、精度
安全要求：生产环境的安全性
兼容性：跨平台、跨框架需求

通过合理选择模型格式，可以显著提升模型的部署效率和运行性能。建议在实际使用中根据具体需求进行测试和优化，找到最适合的格式组合。

【大模型】Hugging Face常见模型格式详解

模型格式分类概览

1. 原始框架格式

2. 优化格式

3. 量化格式

4. 特殊格式

详细格式说明

PyTorch格式 (.bin, .pt, .pth)

SafeTensors格式 (.safetensors)

ONNX格式 (.onnx)

量化格式

BitsAndBytes格式 (.bnb)

GPTQ格式 (.gptq)

AWQ格式 (.awq)

GGUF格式 (.gguf)

特殊格式

GGML格式 (.ggml)

Hugging Face Hub格式

格式选择指南

按使用场景选择

开发调试阶段

生产环境部署

内存受限环境

边缘设备部署

本地CPU推理

按模型大小选择

小型模型 (< 1GB)

中型模型 (1GB - 10GB)

大型模型 (> 10GB)

格式转换工具

常用转换工具

1. Transformers库

2. Optimum库

3. AutoGPTQ

4. llama.cpp

性能对比

加载速度对比

推理性能对比

最佳实践建议

1. 开发阶段

2. 测试阶段

3. 部署阶段

4. 维护阶段

总结

评论区

PyTorch格式 (`.bin`, `.pt`, `.pth`)

SafeTensors格式 (`.safetensors`)

ONNX格式 (`.onnx`)

BitsAndBytes格式 (`.bnb`)

GPTQ格式 (`.gptq`)

AWQ格式 (`.awq`)

GGUF格式 (`.gguf`)

GGML格式 (`.ggml`)