跳转到内容

大型语言模型:修订间差异

来自天明的百科全书
Ztm0929留言 | 贡献
无编辑摘要
Ztm0929留言 | 贡献
无编辑摘要
 
第7行: 第7行:
== 本地部署模型 ==
== 本地部署模型 ==
通常使用的文件格式是 [[GGUF]],Instruct 和 Base 这两个术语描述的是模型的训练阶段和功能定位,如果需要研究模型底层能力选择 Base,如果想要快速实现对话与执行任务选择 Instruct。
通常使用的文件格式是 [[GGUF]],Instruct 和 Base 这两个术语描述的是模型的训练阶段和功能定位,如果需要研究模型底层能力选择 Base,如果想要快速实现对话与执行任务选择 Instruct。
== 训练与推理 ==
通常来说,参数量越大,模型知识越丰富,整体性能越强。
温度、top-k、top-p等虽然也被叫作“参数”,但它们影响的是模型在推理阶段的表现结果。


== 另请参阅 ==
== 另请参阅 ==

2025年11月1日 (六) 18:29的最新版本

大型语言模型(英语:large language model,LLM),也称大语言模型,是由具有大量参数(通常数十亿个权重或更多)的人工神经网络组成的一类语言模型,使用自监督学习或半监督学习对大量未标记文本进行训练。大语言模型在2018年左右出现,并在各种任务中表现出色。

尽管这个术语没有正式的定义,但它通常指的是参数数量在数十亿或更多数量级的深度学习模型。大语言模型是通用模型,在广泛的任务中表现出色,而不是针对一项特定任务(例如情感分析、命名实体识别或数学推理)进行训练。

尽管大语言模型仅在预测句子中的下一个单词等简单任务上接受过训练,但具有足够训练和参数计数的神经语言模型可以捕获人类语言的大部分句法和语义。 此外大语言模型还展示了相当多的关于世界的常识,并且能够在训练期间“记住”大量事实。

本地部署模型

通常使用的文件格式是 GGUF,Instruct 和 Base 这两个术语描述的是模型的训练阶段和功能定位,如果需要研究模型底层能力选择 Base,如果想要快速实现对话与执行任务选择 Instruct。

训练与推理

通常来说,参数量越大,模型知识越丰富,整体性能越强。

温度、top-k、top-p等虽然也被叫作“参数”,但它们影响的是模型在推理阶段的表现结果。

另请参阅