查看“︁GGUF”︁的源代码

GGUF （'''G'''PT-'''G'''enerated '''U'''nified '''F'''ormat）是专为'''本地 CPU/GPU''' 推理优化 的模型文件格式，由 llama.cpp 团队设计，用于替代早期的 GGML 格式。它的核心目标是：

* 高效推理 ：支持量化（4-bit、5-bit、8-bit 等），大幅降低模型内存占用（例如 7B 模型可压缩至 3-5GB）。
* 跨平台兼容 ：适配 [[CPU]]、[[GPU]]（[[CUDA]]、[[Metal]]）、手机端等场景。
* 扩展性 ：内置元数据系统，支持灵活添加模型超参数、提示模板等信息。

==== GGUF 的典型使用场景 ====

* 在个人电脑（无高端显卡）上运行[[大型语言模型|大模型]]（如 Llama3、Mistral）。
* 通过 llama.cpp 、[[Ollama]] 等工具实现本地部署。

== 另请参阅 ==

* [https://huggingface.co/docs/hub/gguf GGUF - Hugging Face]
* {{使用搜索引擎搜索}}
[[分类:信息技术]]