打开/关闭搜索
搜索
打开/关闭菜单
573
15
4
3103
导航
首页
随机页面
特殊页面
参与编写
上传文件
打开/关闭外观设置菜单
通知
打开/关闭个人菜单
未登录
未登录用户的IP地址会在进行任意编辑后公开展示。
user-interface-preferences
个人工具
登录
查看“︁GGUF”︁的源代码
来自天明的百科全书
分享此页面
更多操作
←
GGUF
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
GGUF ('''G'''PT-'''G'''enerated '''U'''nified '''F'''ormat)是专为'''本地 CPU/GPU''' 推理优化 的模型文件格式,由 llama.cpp 团队设计,用于替代早期的 GGML 格式。它的核心目标是: * 高效推理 :支持量化(4-bit、5-bit、8-bit 等),大幅降低模型内存占用(例如 7B 模型可压缩至 3-5GB)。 * 跨平台兼容 :适配 [[CPU]]、[[GPU]]([[CUDA]]、[[Metal]])、手机端等场景。 * 扩展性 :内置元数据系统,支持灵活添加模型超参数、提示模板等信息。 ==== GGUF 的典型使用场景 ==== * 在个人电脑(无高端显卡)上运行[[大型语言模型|大模型]](如 Llama3、Mistral)。 * 通过 llama.cpp 、[[Ollama]] 等工具实现本地部署。 == 另请参阅 == * [https://huggingface.co/docs/hub/gguf GGUF - Hugging Face] * {{使用搜索引擎搜索}} [[分类:信息技术]]
该页面使用的模板:
模板:使用搜索引擎搜索
(
查看源代码
)
返回
GGUF
。
查看“︁GGUF”︁的源代码
来自天明的百科全书