【第四回】什么是LLM（大规模语言模型）——驱动生成式AI的“核心大脑”

LLM示意图

生成式AI的核心技术“LLM”

LLM是“Large Language Model（大规模语言模型）”的缩写，是驱动ChatGPT、Gemini、Claude等生成式AI服务的核心技术。

这些服务并非仅由LLM构成，还结合了界面、语音输入、搜索、外部工具及安全措施等多种机制。而LLM则作为理解和生成文本的“引擎”，相当于生成式AI的“头脑”。

LLM的特点在于利用海量文本数据和强大计算资源进行训练。

LLM通过大量文本数据学习预测“下一个最可能出现的词语”。

例如输入“明天的天气是”，模型会计算“晴天”、“雨天”等词出现的概率，并选择最自然的词语逐步生成完整句子。这里的词语单位称为“Token”，模型通过逐个预测Token来构建文本。

目前大多数LLM基于2017年提出的“Transformer”技术发展而来。

此外，实际应用中的LLM会根据用途进行“微调”，并结合人类反馈（如RLHF）优化响应，使生成的内容更自然、实用。

在大规模LLM普及之前，AI多专注于特定任务，如垃圾邮件识别或图像识别。

而LLM能广泛处理人类日常使用的自然语言，使单一模型适应多种应用场景成为可能。

它在文本创作、摘要、翻译、编程辅助等多领域的灵活应用，正是LLM成为AI突破性技术的关键。

未来LLM不仅会提升准确度，还将增强对更长文本上下文的理解和更精准捕捉用户意图的能力。

同时，融合文本、图像、语音等多模态信息的技术也在快速发展。

基于LLM的AI代理人正逐步实现从简单应答向实际执行任务的转变。

此外，体积更小的“SLM（小规模语言模型）”也开始出现，推动AI在智能手机等终端设备上的应用普及。

LLM是支撑生成式AI的基础技术，是当前AI热潮的核心。

未来，AI服务将更加多样化，而大多数创新都将基于LLM及其相关技术展开。

理解LLM，是掌握AI基础知识的重要一步。