GGUF:修订间差异
创建页面,内容为“GGUF ('''G'''PT-'''G'''enerated '''U'''nified '''F'''ormat)是专为'''本地 CPU/GPU''' 推理优化 的模型文件格式,由 llama.cpp 团队设计,用于替代早期的 GGML 格式。它的核心目标是: * 高效推理 :支持量化(4-bit、5-bit、8-bit 等),大幅降低模型内存占用(例如 7B 模型可压缩至 3-5GB)。 * 跨平台兼容 :适配 CPU、GPU(CUDA、Metal)、手机端等场景。 * 扩展性 :内置元…” |
小无编辑摘要 |
||
| 第2行: | 第2行: | ||
* 高效推理 :支持量化(4-bit、5-bit、8-bit 等),大幅降低模型内存占用(例如 7B 模型可压缩至 3-5GB)。 | * 高效推理 :支持量化(4-bit、5-bit、8-bit 等),大幅降低模型内存占用(例如 7B 模型可压缩至 3-5GB)。 | ||
* 跨平台兼容 :适配 | * 跨平台兼容 :适配 [[CPU]]、[[GPU]]([[CUDA]]、[[Metal]])、手机端等场景。 | ||
* 扩展性 :内置元数据系统,支持灵活添加模型超参数、提示模板等信息。 | * 扩展性 :内置元数据系统,支持灵活添加模型超参数、提示模板等信息。 | ||
==== GGUF 的典型使用场景 ==== | ==== GGUF 的典型使用场景 ==== | ||
* | * 在个人电脑(无高端显卡)上运行[[大型语言模型|大模型]](如 Llama3、Mistral)。 | ||
* 通过 llama.cpp 、[[Ollama]] 等工具实现本地部署。 | * 通过 llama.cpp 、[[Ollama]] 等工具实现本地部署。 | ||
| 第13行: | 第13行: | ||
* [https://huggingface.co/docs/hub/gguf GGUF - Hugging Face] | * [https://huggingface.co/docs/hub/gguf GGUF - Hugging Face] | ||
* {{使用搜索引擎搜索}} | |||
[[分类:信息技术]] | |||