GGUF 格式：本地 LLM 推理完整指南

GGUF 将模型权重、分词器数据与元数据打包为一个可携带文件。了解如何选择合适的量化等级，并使用 Ollama 快速上手。

更新 2026年6月17日 · 15分钟读

用 AI 探索

在 ChatGPT 中打开在 Claude 中打开在 Perplexity 中打开

您找到了一个 70 亿参数的语言模型，想在本地试试。但问题随之而来：仅 FP16 权重就约 14 GB，而您的笔记本只有 16 GB 内存。

在不考虑操作系统、推理运行时、上下文缓存和临时缓冲区之前，模型已经在挤压您的硬件上限了。这正是 GGUF 旨在解决的问题。

GGUF 已成为在本地运行开放权重大语言模型最重要的格式之一。您无需企业级 GPU 或云端 API，GGUF 让在笔记本、台式机、Apple Silicon 设备，甚至部分移动或边缘设备上运行量化模型成为可行。

本文将介绍 GGUF 格式及其工作原理，说明量化如何缩小模型体积以及如何选择合适的量化等级，最后讲解如何使用 Ollama 和 llama.cpp 上手。

一览

GGUF（GGML Unified Format）是一种二进制文件格式，将模型权重、分词器数据、架构元数据和量化信息打包到一个可携带文件中
它在 2023 年取代了较早的 GGML 格式，现已成为 Hugging Face 上分发量化 LLM 的主流格式
GGUF 被 llama.cpp、Ollama、LM Studio、GPT4All、KoboldCpp 等本地推理工具使用
量化是关键特性：7B 模型的 FP16 约为 ~14 GB；Q4_K_M 版本约 ~4–5 GB
常见量化等级从 Q2_K（最小，质量最低）到 Q8_0（最大，接近全精度）——Q4_K_M 是多数硬件的标准起点
GGUF 可运行于 CPU、Apple Silicon（Metal）、NVIDIA GPU（CUDA）、AMD GPU（ROCm/Vulkan）等
选择合适的量化等级需要在内存、输出质量、推理速度和上下文长度间权衡

什么是 GGUF？

GGUF，即 GGML Unified Format，是一种二进制文件格式，将模型权重、分词器数据、架构元数据和量化信息打包成一个便携文件，以便在基于 GGML 的运行时（尤其是 llama.cpp）进行推理。

GGUF 解决了LLM 部署难题。许多模型格式要求用户同时保管多个文件，包括模型权重、分词器文件、配置文件以及特定架构的加载代码。GGUF 通过让模型文件在很大程度上自我描述来简化此过程。

一个 GGUF 文件通常包含：

模型张量
量化或未量化的权重
分词器词表
分词器配置
模型架构元数据
上下文长度设置
嵌入维度
注意力头数量
RoPE 配置
张量名称、形状和数据类型

核心思想是文件可自我描述。运行时可以检查元数据、理解架构、加载分词器并映射张量，而无需依赖单独的 config.json 或分词器文件夹。

这并不意味着每个 GGUF 文件永远对所有运行时通用兼容。运行时仍需支持文件中使用的模型架构和张量类型。然而，GGUF 让兼容性比旧格式容易得多，因为文件携带了更多结构化信息。

GGUF 的四个关键特征是：

单文件部署
支持内存映射以高效加载
可扩展的带类型键值元数据
支持多种量化类型，从激进的低比特到全精度

GGUF 于 2023 年作为 llama.cpp 和 GGML 生态的一部分引入。它现已成为在 Hugging Face 上分发本地量化 LLM 的主导格式。

GGUF 与 GGML

GGML（Georgi Gerganov Machine Learning）格式是 GGUF 的前身。它在早期本地推理的实现中发挥过重要作用。但随着生态扩展到原始 LLaMA 模型之外，它显露出一些实际限制。

常见的 GGML 痛点包括：

元数据处理不够灵活
更多依赖于特定架构的加载假设
分词器与配置处理不够自包含
随着新模型家族出现，扩展性更难

GGUF 通过更结构化的格式解决了这些限制。它引入了带类型的元数据、更好的分词器嵌入以及更清晰的文件布局。这使得 llama.cpp 及相关工具在支持更多架构时无需频繁重构加载管线。

对用户而言，重要区别很简单：GGUF 是现代格式。如果您今天要下载模型，几乎总应选择 GGUF，而不是较旧的 GGML 文件。

GGUF 与 GPTQ、AWQ

在研究文件格式时，您很可能会遇到 GGUF、GPTQ（Generative Post-Training Quantization）和 AWQ（Activation-Aware Weight Quantization）。它们常被放在一起讨论，因为三者都用于提升 LLM 推理效率。但它们并非相同范畴。

GGUF 主要是文件格式与部署容器。它支持多种量化类型，并与 llama.cpp 风格的本地推理紧密相关。

GPTQ 和 AWQ 是量化方法与生态，常用于 GPU 优化推理，尤其是在通过 Transformers、ExLlama、AutoGPTQ 和 vLLM 兼容工作流等框架在 NVIDIA 硬件上运行。

特性	GGUF	GPTQ	AWQ
主要目标	可移植的本地推理	GPU 推理	GPU 推理
常见硬件	CPU、Apple Silicon、NVIDIA、AMD、Vulkan、移动端	NVIDIA GPU	NVIDIA GPU
CPU 支持	强	有限	有限
可移植性	很高	中等	中等
典型生态	llama.cpp、Ollama、LM Studio、GPT4All	Transformers、ExLlama、AutoGPTQ	Transformers、TensorRT-LLM 风格工作流
GPU 吞吐	良好，配合卸载更佳	通常非常强	通常非常强
最佳用例	本地与混合硬件推理	高吞吐 GPU 服务	高吞吐 GPU 服务

如果您的目标是在笔记本、台式机、Apple Silicon 与混合硬件之间获得最大兼容性，GGUF 通常是更稳妥的选择。

如果您的目标是在专用 NVIDIA 推理服务器上获得最大吞吐，GPTQ、AWQ、FP8 或其他针对 GPU 的服务格式可能更合适。

为何使用 GGUF？

GGUF 之所以流行，是因为它解决了实际部署问题。在本地部署时，我也发现它们非常省心，避免了繁琐的环境配置。

过去运行本地 LLM 往往要面对割裂的工具链、巨大的未压缩权重、不兼容的模型格式和复杂的设置步骤。如今 GGUF 能帮助您标准化其中很大一部分流程。

用户无需操心一堆独立文件和加载脚本，可以将精力放在选对模型、确定量化等级并开始推理上。

在本地运行模型

GGUF 允许您在自己的机器上运行 LLM。这意味着：

无按 token 计费的 API 成本
不依赖托管推理服务商
无需将提示发送到第三方 API
下载模型后可离线推理

这对隐私敏感的工作流程尤其有用。开发者可能不愿将专有代码、内部文档、客户记录或机密提示发送至外部 API。

需要注意，本地推理并不会自动带来安全性。您仍需妥善管理机器、日志、应用和访问控制。但 GGUF 让私有本地部署的门槛大幅降低。

如需动手练习本地运行模型，请参阅我们关于使用 SGLang 部署 Mistral Medium 3.5、本地运行 DeepSeek V4 Flash、在旧笔记本上运行高效的 Bonsai 1-bit 模型以及将 MiniMax M2 作为编码助手本地运行的教程。

硬件灵活性

GGUF 的价值在于它适用于多种硬件配置。

根据运行时与后端不同，GGUF 模型可运行于：

仅 CPU 机器
通过 CUDA 的 NVIDIA GPU
通过 Metal 的 Apple Silicon
通过 HIP 或 Vulkan 的 AMD GPU
通过 SYCL 或 Vulkan 的 Intel GPU
部分 ARM 与移动环境

这种灵活性是 llama.cpp 具有影响力的主要原因之一。它并非只为高端服务器 GPU 设计，而是旨在让广泛硬件上的本地推理成为可能。

例如，Mac 用户可能依赖 Metal 加速，而 Linux 桌面用户可能使用 CUDA 或 Vulkan。仅 CPU 用户仍可运行更小的量化模型，但生成速度会更慢。

广泛的生态支持

许多本地推理工具都支持 GGUF。例如：

用于命令行和服务端推理的 llama.cpp
以 CLI 为先的模型管理与 API 访问工具 Ollama
提供桌面 GUI 的 LM Studio
专注隐私本地聊天的 GPT4All
用于本地角色扮演与文本生成流程的 KoboldCpp
用于本地 AI 界面的 Jan 与 Open WebUI

这很重要，因为用户不会被锁定在单一界面中。同一种通用模型格式可用于不同工作流。

开发者可能用 llama.cpp 基准测试模型，在 LM Studio 中聊天，通过 Ollama 提供服务，并通过 Open WebUI 连接到浏览器界面。

Hugging Face 分发

Hugging Face 已成为 GGUF 模型的重要分发中心。

来源：Hugging Face

许多热门的开放权重模型在发布后不久，会收到社区上传的 GGUF 变体。这些仓库通常提供多种量化选项，方便用户根据硬件选择合适模型。

常见上传变体包括：

Q4_K_M
Q5_K_M
Q6_K
Q8_0
IQ4_XS
IQ3_M
IQ2_XXS

这意味着往往无需手动转换。对于最受欢迎的模型，社区成员已为常见量化等级制作了 GGUF 文件。

精细的体积—质量控制

GGUF 让用户可以细粒度地权衡体积与质量。您可以选择：

更小的量化以适配低内存机器
中等量化用于日常均衡使用
更高比特量化以应对编码、推理或结构化输出
当内存不受限时使用全精度或近全精度

这种灵活性是该格式的一大优势。GGUF 不是单一固定的部署目标，而是让用户将同一模型家族适配至多种硬件层级。

GGUF 如何工作？

一个 GGUF 文件由三大部分组成：

文件头
元数据与张量信息
张量数据

具体结构由 GGUF 规范定义。关键点是元数据与张量信息位于原始张量数据之前，使运行时在加载前就能理解所要读取的内容。

文件头

文件头用于标识 GGUF 文件并告知运行时如何解析后续内容。它包括：

GGUF 的魔数
格式版本
张量数量
元数据键值数量

现代 GGUF 文件通常使用 GGUF 版本 3。

推理引擎会先检查魔数。如果文件开头不是预期的 GGUF 标识，运行时可在尝试解析张量或分配内存之前直接拒绝。

这是个简单却重要的安全与可靠性步骤，可防止运行时误将无关二进制文件当作模型处理。

元数据键值对

GGUF 元数据是带类型的键值存储。它可以描述：

通用模型信息
架构家族
上下文长度
嵌入尺寸
层数
注意力头数量
RoPE 参数
分词器词表
特殊 token
量化信息

键通常带命名空间。例如：

general.architecture
general.alignment
llama.context_length
tokenizer.ggml.tokens

命名空间很重要，因为它允许 GGUF 在不更改整个文件格式的前提下支持多种架构。LLaMA 家族模型可使用 llama.* 键，其他模型家族可以使用各自的架构特定元数据。

这也是 GGUF 能很好适配原始 LLaMA 之外模型的原因之一，包括 Qwen、Mistral、Gemma、DeepSeek、Phi 等架构。

张量信息与张量数据

在元数据之后，文件存储张量信息与张量数据。

张量信息描述：

张量名称
形状
数据类型
在张量数据段中的偏移

张量数据段包含实际的模型权重。这些权重可能以全精度存储，或使用 GGUF 支持的某种量化张量类型存储。

GGUF 使用在元数据中定义的对齐值，通常为 general.alignment。许多 GGUF 文件使用 32 字节对齐，但更准确的表述是：对齐由元数据控制，而非永久硬编码。

对齐很重要，因为它能让运行时高效访问张量块。

内存映射

GGUF 的一个实用优势是内存映射，通常称为 mmap。

借助内存映射，操作系统可以将模型文件映射到虚拟内存，而无需强制运行时在启动时将整个文件拷贝到 RAM。

这能让模型启动更快，尤其在 SSD 上。同时操作系统也可按需换入换出模型数据。

但内存映射并非魔法。模型仍然需要足够的内存带宽和可用 RAM/VRAM 才能良好运行。如果系统频繁从磁盘分页，推理可能会变慢。

更好的理解 mmap 的方式是：

提升加载效率
减少不必要的拷贝
让操作系统管理分页
并不消除推理所需的内存

理解 GGUF 的量化类型

量化将模型权重压缩为更低精度的表示。

量化模型不再用 16 位浮点存储每个权重，而是用更少的比特近似表示。这降低了磁盘体积、RAM 与 VRAM 占用，以及内存带宽压力。

关键洞见是：许多神经网络权重在推理时并不需要完全的浮点精度。经过仔细量化的模型可以在显著缩小的同时，保留大部分原始行为。

GGUF 量化命名

GGUF 的量化名称通常遵循以下模式：

Q 表示已量化
数字表示每个权重的近似比特数
K 指 k-quant 家族
S、M、L 通常表示小、中、大变体

示例包括：

Q4_K_M
Q5_K_M
Q6_K
Q8_0

命名具有参考意义，但不总能精确反映总文件大小。真实体积取决于张量组合、架构、元数据、分词器大小以及是否保留部分张量为更高精度。

常见 GGUF 量化类型

量化	大致行为	约 7B 文件体积	质量说明
Q2_K	超低比特量化	约 2.5–3 GB	体积小，但质量损失常较明显
Q3_K_M	低比特的均衡量化	约 3.5–4 GB	可用于轻量聊天，但不适合复杂推理
Q4_K_M	均衡的 4 比特量化	约 4–5 GB	多数本地用户的强力默认选
Q5_K_M	更高质量的 5 比特量化	约 5.5–6.5 GB	更适合编码、推理和结构化任务
Q6_K	高质量量化	约 7–8 GB	常接近更高精度的表现
Q8_0	8 比特量化	约 8–9 GB	质量高，但比 Q4/Q5 大很多

这些数字是针对 7B 级稠密模型的近似值。较新的架构、专家混合（MoE）模型、更大的分词器以及不同的张量布局都会影响实际文件大小。

在实践中，Q4_K_M 成为热门默认选项，因为它在体积与质量之间取得了良好平衡。许多用户认为它足以应对通用聊天、摘要、改写和探索性本地 AI 工作。

对于更高要求的工作负载（如编码或多步指令跟随），Q5_K_M 和 Q6_K 往往更合适。

原因很简单：这些任务对微小的质量下降更敏感。

K-quant 与 I-quant

K-quant 是广泛使用的量化家族，代表格式如 Q4_K_M、Q5_K_M 和 Q6_K。

它们采用分组量化方案与缩放信息，既能降低内存需求，又更好地保留模型行为。因其可靠、支持广泛且在社区 GGUF 发布中易于获取而流行。

I-quant（常记作 IQ）是较新的量化类型，例如：

IQ4_XS
IQ3_M
IQ2_XXS
IQ1_S

I-quant 旨在在非常小的体积下获得更好的质量。它们可能使用诸如重要性感知量化和非线性量化码本等技术。有些流程会使用重要性矩阵（imatrix）来在量化时更好地保留重要权重。

权衡在于复杂度。I-quant 在非常低的比特率下可产生出色的体积—质量结果，但可能需要更谨慎的量化流程与运行时支持。

对大多数初学者而言，K-quant 仍是最容易的起点。

为您的硬件选择量化等级

下表提供了实用的起步建议。请将其视为经验法则，而非严格保证。上下文长度、操作系统开销、GPU 卸载、KV 缓存大小以及具体模型架构都会改变内存需求。

硬件档位	7B/8B 模型	13B/14B 模型	30B/34B 模型	70B 级模型
8 GB RAM/VRAM	Q4_K_M 或更小	Q2_K/Q3_K 或许能跑但较慢	不实用	不实用
16 GB RAM/VRAM	Q5_K_M 或 Q6_K	Q4_K_M	不实用或极度受限	不实用
24 GB RAM/VRAM	Q8_0 或 Q6_K	Q5_K_M/Q6_K	Q3_K/Q4_K 有限制	对多数用户不实用
32 GB RAM/VRAM	Q8_0	Q6_K/Q8_0	Q4_K_M/Q5_K_M	Q2_K/Q3_K 仅作试验
48 GB+ RAM/VRAM	Q8_0 或支持处用 FP16/BF16	Q8_0	Q5_K_M/Q6_K	在限制下可用 Q4_K_M
64 GB+ RAM/VRAM	高精度	高精度	Q6_K/Q8_0	Q4_K_M/Q5_K_M 更实际

通用经验：

多数本地推理使用 Q4_K_M 作为安全默认。
当质量优先于“每一 GB 的节省”时，用 Q5_K_M。
当内存充足且需要更高保真度时，用 Q6_K 或 Q8_0。
除非极端内存受限测试，否则严肃工作避免使用 Q2_K。
为 KV 缓存预留额外内存，特别是在使用长上下文窗口时。

KV 缓存很容易被忽视。模型也许在短上下文长度时能装入内存，但在更长上下文下会失败或变慢，因为缓存会随序列长度增长。

GGUF 生态

GGUF 的普及既源于格式本身，也离不开工具链。

只有当用户可以轻松下载、运行、检查、转换并提供模型服务时，格式才真正有用。GGUF 受益于命令行工具、桌面应用、API 和托管模型仓库构成的强大生态。

1. llama.cpp

llama.cpp 是最初也是最重要的 GGUF 运行时。它是由 Georgi Gerganov 创建并由 GGML 社区维护的轻量级 C/C++ 推理引擎。其主要目标是以最小化的设置在多种硬件平台上实现高效 LLM 推理。

现代 llama.cpp 支持多种后端，包括：

CPU
用于 NVIDIA GPU 的 CUDA
用于 Apple 设备的 Metal
Vulkan
通过 ROCm 的 AMD GPU（HIP）
用于 Intel GPU 的 SYCL
特定环境中的 OpenCL
视平台支持而定的 CANN、OpenVINO、WebGPU 等专用后端

它还包含转换、量化、服务、基准测试与命令行推理工具。常见工具包括：

convert_hf_to_gguf.py
llama-quantize
llama-cli
llama-server
llama-bench

创建基础 CPU CMake 构建的命令为：

cmake -B build
cmake --build build --config Release

在某些配置中，需要在第一条命令中加入特定选项：

在 macOS 上禁用默认启用的 Apple Metal：-DGGML_METAL=OFF
Vulkan 构建：-DGGML_VULKAN=1
NVIDIA GPU 的 CUDA 构建：-DGGML_CUDA=ON

请注意，当前构建使用 GGML_* CMake 选项，如 GGML_CUDA、GGML_VULKAN 和 GGML_HIP。

2. Ollama

Ollama 是最容易运行本地模型的方式之一。它提供：

简洁的 CLI
模型拉取与管理
本地 REST API
官方 Python 与 JavaScript 库
与众多本地 AI 前端集成

Ollama 会为您存储和管理模型，因此用户通常不会直接与 .gguf 文件交互。但 Ollama 围绕与 llama.cpp 兼容的本地推理构建，也可通过 Modelfile 工作流导入 GGUF 文件。

Ollama 在以下地址提供本地 API：

http://localhost:11434/api

两个常用端点是：

/api/generate 用于提示补全
/api/chat 用于聊天式消息

对初学者而言，Ollama 往往是从零到本地推理的最快路径。

3. LM Studio

来源：LM Studio

LM Studio 是一款桌面应用，用于发现、下载并与本地模型聊天。它适合偏好图形界面的用户，而非命令行工具。

4. GPT4All

来源：GPT4All

GPT4All 是另一款跨平台本地 AI 应用，专注隐私、在地化的聊天机器人工作流。它支持 GGUF 模型，并为本地推理提供对新手友好的环境。

这些工具让非专业人士也能轻松使用 GGUF。用户无需了解 CMake、张量布局或量化内部细节即可尝试本地模型。

如何开始使用 GGUF 模型

有两种实用的上手方式：

使用 Ollama，体验最简单。
直接使用 llama.cpp，获得更多控制。

使用 Ollama 运行模型

最简单的流程是下载模型并启动交互式会话：

ollama pull llama3.3
ollama run llama3.3

通过 REST API 使用 Python 调用模型：

import requests

payload = {
    "model": "llama3.3",
    "prompt": "Give me three practical use cases for GGUF.",
    "stream": False
}

response = requests.post(
    "http://localhost:11434/api/generate",
    json=payload
)

print(response.json()["response"])

针对聊天应用，请使用 /api/chat：

import requests

payload = {
    "model": "llama3.3",
    "messages": [
        {"role": "user", "content": "What is GGUF used for?"}
    ],
    "stream": False
}

response = requests.post(
    "http://localhost:11434/api/chat",
    json=payload
)

print(response.json()["message"]["content"])

对于简单脚本，stream: false 很重要。否则，Ollama 会返回一串 JSON 流，而不是单个最终 JSON 响应。

您也可以使用Ollama 官方 Python 库：

from ollama import chat

response = chat(
    model="llama3.3",
    messages=[
        {"role": "user", "content": "Explain GGUF quantization simply."}
    ]
)

print(response.message.content)

用 llama.cpp 运行 GGUF 文件

如果您已有 .gguf 文件，构建项目后可以直接用 llama.cpp 运行。

示例：

./build/bin/llama-cli \
  -m models/model.Q4_K_M.gguf \
  -p "Explain the difference between GGUF and GPTQ." \
  -n 256

若启用了 GPU 支持，可以将层卸载到 GPU：

./build/bin/llama-cli \
  -m models/model.Q4_K_M.gguf \
  -p "Summarize GGUF in five bullet points." \
  -n 256 \
  -ngl 99

-ngl 标志用于控制卸载到 GPU 的层数。像 99 这样的高值常用于尽可能多地卸载，前提是模型能放入显存。

要提供 API 服务，请使用 llama-server：

./build/bin/llama-server \
  -m models/model.Q4_K_M.gguf \
  -ngl 99 \
  --host 127.0.0.1 \
  --port 8080

这为将 llama.cpp 集成到应用中提供了本地服务接口。

将 Hugging Face 模型转换为 GGUF

大多数用户无需手动转换，因为社区版 GGUF 发布非常普遍。

然而，以下情况手动转换很有用：

您微调了自己的模型
尚无 GGUF 版本
您想自己把控量化流程
您需要特定的量化类型

典型流程：

下载 Hugging Face 模型。
转换为 GGUF。
对 GGUF 文件进行量化。

示例：

huggingface-cli download mistralai/Mistral-7B-Instruct-v0.3 \
  --local-dir mistral-7b

然后转换为 GGUF：

python convert_hf_to_gguf.py mistral-7b \
  --outfile mistral-f16.gguf \
  --outtype f16

再进行量化：

./build/bin/llama-quantize \
  mistral-f16.gguf \
  mistral-q4_k_m.gguf \
  Q4_K_M

在当前 llama.cpp 工作流中，convert_hf_to_gguf.py 与 llama-quantize 是相关工具。较旧的教程可能会提到已弃用的转换脚本或旧的二进制名称。

GGUF 格式的优势与局限

GGUF 针对实用的本地推理进行了优化。它并非每种模型格式或服务栈的通用替代。

优势	局限
单文件模型部署	不面向从零训练
强大的本地推理生态	超低比特量化可能损伤质量
适配多种硬件后端	大模型仍需大量内存
支持内存映射	GPU 吞吐可能低于专用 GPU 服务栈
量化选择丰富	运行时仍需支持模型架构与张量类型
在 Hugging Face 上易于分发	上下文长度通过 KV 缓存会增加内存占用