跳转到内容

GGUF

来自天明的百科全书

GGUF （GPT-Generated Unified Format）是专为本地 CPU/GPU 推理优化的模型文件格式，由 llama.cpp 团队设计，用于替代早期的 GGML 格式。它的核心目标是：

高效推理：支持量化（4-bit、5-bit、8-bit 等），大幅降低模型内存占用（例如 7B 模型可压缩至 3-5GB）。
跨平台兼容：适配 CPU、GPU（CUDA、Metal）、手机端等场景。
扩展性：内置元数据系统，支持灵活添加模型超参数、提示模板等信息。

GGUF 的典型使用场景

在个人电脑（无高端显卡）上运行大模型（如 Llama3、Mistral）。
通过 llama.cpp 、Ollama 等工具实现本地部署。

另请参阅

检索自“https://wiki.ztm0929.cn/index.php?title=GGUF&oldid=2563”

分类：

信息技术