大模型基础logo
 

本项目致力于打造一个开源、系统、深入的大规模预训练语言模型(LLM)教程。

项目以 斯坦福 CS324李宏毅生成式AI课程 为理论基石,结合开源社区的最新实践与前沿动态,涵盖从数据准备、模型构建、训练策略模型评估、安全伦理的全链路知识。

🎯 适用人群

  • 🎓 学术/从业者:希望深入了解 LLM 最新动态与技术细节的研究人员。
  • 🏢 行业探索者:对 LLM 在医疗、金融、教育等领域应用感兴趣的专业人士。
  • 🛠️ 开源贡献者:不仅想学习,更想参与到 LLM 开源建设中的开发者。
  • ⚖️ 相关从业者:关注 AI 法律、伦理、版权及社会影响的跨领域专家。

🗺️ 学习路径

为了帮助初学者更高效地入门,Datawhale 构建了完整的 LLM 学习矩阵:

  1. 理论基石(本项目)so-large-lm —— 深入理解原理、架构与算法。
  2. 应用开发llm-universe —— 快速入门 LLM 开发,搭建 Demo。
  3. 模型实战self-llm —— 基于 AutoDL 的开源模型部署与微调指南。

📚 课程大纲

第一部分:基础与架构

章节内容亮点链接
01. 引言项目背景、GPT-3 崛起、LLM 发展简史阅读
02. 大模型的能力迁移学习、In-context Learning、性能评估分析阅读
03. 模型架构Transformer 深度解析、位置编码、注意力机制阅读
04. 新的架构方向混合专家模型 (MoE)、基于检索的模型 (RAG基础)阅读

第二部分:数据与训练

章节内容亮点链接
05. 数据工程The Pile 数据集、数据清洗、分词策略 (Tokenization)阅读
06. 模型训练目标函数设计、优化算法选择阅读
07. 适配与微调Adaptation 必要性、PEFT (高效微调)、Probing阅读
08. 分布式训练数据并行、模型并行、流水线并行、混合策略阅读

第三部分:安全、伦理与前沿

章节内容亮点链接
09/10. 有害性分析社会偏见、有毒信息检测、虚假信息 (Hallucination)上篇 / 下篇
11. 法律与伦理版权法挑战、合理使用、司法案例汇总阅读
12. 环境影响碳排放估算、绿色 AI阅读
13. 智能体 (Agent)Agent 组件详解、挑战与机遇阅读
14. Llama 家族Llama 1-3 进化史、架构对比、生态复盘阅读