跳转到内容
主菜单
主菜单
移至侧栏
隐藏
导航
首页
最近更改
随机页面
特殊页面
搜索
搜索
外观
登录
个人工具
登录
查看“︁GGUF”︁的源代码
页面
讨论
大陆简体
阅读
查看源代码
查看历史
工具
工具
移至侧栏
隐藏
操作
阅读
查看源代码
查看历史
刷新
常规
链入页面
相关更改
页面信息
外观
移至侧栏
隐藏
←
GGUF
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
GGUF ('''G'''PT-'''G'''enerated '''U'''nified '''F'''ormat)是专为'''本地 CPU/GPU''' 推理优化 的模型文件格式,由 llama.cpp 团队设计,用于替代早期的 GGML 格式。它的核心目标是: * 高效推理 :支持量化(4-bit、5-bit、8-bit 等),大幅降低模型内存占用(例如 7B 模型可压缩至 3-5GB)。 * 跨平台兼容 :适配 CPU、GPU(CUDA、Metal)、手机端等场景。 * 扩展性 :内置元数据系统,支持灵活添加模型超参数、提示模板等信息。 ==== GGUF 的典型使用场景 ==== * 在个人电脑(无高端显卡)上运行大模型(如 Llama3、Mistral)。 * 通过 llama.cpp 、[[Ollama]] 等工具实现本地部署。 == 另请参阅 == * [https://huggingface.co/docs/hub/gguf GGUF - Hugging Face]
返回
GGUF
。
搜索
搜索
查看“︁GGUF”︁的源代码
添加话题