查看“︁大型语言模型”︁的源代码

'''大型语言模型'''（英语：large language model，LLM），也称'''大语言模型'''，是由具有大量参数（通常数十亿个权重或更多）的人工神经网络组成的一类语言模型，使用自监督学习或半监督学习对大量未标记文本进行训练。大语言模型在2018年左右出现，并在各种任务中表现出色。

尽管这个术语没有正式的定义，但它通常指的是参数数量在数十亿或更多数量级的深度学习模型。大语言模型是通用模型，在广泛的任务中表现出色，而不是针对一项特定任务（例如情感分析、命名实体识别或数学推理）进行训练。

尽管大语言模型仅在预测句子中的下一个单词等简单任务上接受过训练，但具有足够训练和参数计数的神经语言模型可以捕获人类语言的大部分句法和语义。 此外大语言模型还展示了相当多的关于世界的常识，并且能够在训练期间“记住”大量事实。

== 本地部署模型 ==
通常使用的文件格式是 GGUF，Instruct 和 Base 这两个术语描述的是模型的训练阶段和功能定位，如果需要研究模型底层能力选择 Base，如果想要快速实现对话与执行任务选择 Instruct。

== 另请参阅 ==

* [https://zh.wikipedia.org/wiki/%E5%A4%A7%E5%9E%8B%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B 大型语言模型 - 维基百科，自由的百科全书]