GGUF (GPT-Generated Unified Format)是专为本地 CPU/GPU 推理优化 的模型文件格式,由 llama.cpp 团队设计,用于替代早期的 GGML 格式。它的核心目标是:

  • 高效推理 :支持量化(4-bit、5-bit、8-bit 等),大幅降低模型内存占用(例如 7B 模型可压缩至 3-5GB)。
  • 跨平台兼容 :适配 CPU、GPU(CUDA、Metal)、手机端等场景。
  • 扩展性 :内置元数据系统,支持灵活添加模型超参数、提示模板等信息。

GGUF 的典型使用场景

  • 在个人电脑(无高端显卡)上运行大模型(如 Llama3、Mistral)。
  • 通过 llama.cpp 、Ollama 等工具实现本地部署。

另请参阅