课程设计
- 第一部分先建立决策框架:微调能解决什么,不能解决什么,为什么多数 Agent 应用应先尝试 Prompt、RAG、Function Calling 和流程编排。
- 第二部分进入方法谱系:区分全参数微调、参数高效微调、LoRA、QLoRA、CPT、SFT 与 DPO/RLHF 的目标、成本和风险。
- 第三部分落到工程执行:围绕数据格式、数据质量、训练工具、评估集、回归测试、显存估算、推理指标和部署框架建立上线闭环。
适合人群
- 正在构建 Agent、RAG 或 LLM 应用,希望判断微调是否值得投入的工程师。
- 需要把业务场景、数据工程、模型训练和推理部署串起来的 AI 应用负责人。
- 已经了解基础 LLM 概念,希望系统补齐微调工程能力的人。
学习方式
- 先把每节里的判断清单读完,再回到自己的业务场景做映射。
- 如果已有 bad case、Prompt 版本或 RAG 日志,可以把它们当成潜在微调数据来源来对照课程内容。
学习目标
能判断 Agent 场景下应优先优化 Prompt、RAG、工具调用还是进入微调
能估算微调项目的数据、训练、评估、部署和维护成本
能区分全参数微调、LoRA、QLoRA、CPT、SFT、DPO/RLHF 的适用边界
能按微调目标设计 JSONL 数据格式、清洗流程、标注规范和质量评估机制
能选择合适的微调工具链,并用评估集证明模型收益与回归风险
能规划微调模型的显存预算、推理指标、多卡策略和生产部署框架
课程目录
Chapter 1
3 课时第一章:微调决策与方法谱系
先判断微调是否值得做,再建立 CPT、SFT、DPO、全参数微调和 PEFT 的选择框架。
Chapter 2
2 课时第二章:数据工程与训练工具
把微调目标落到可执行的数据格式、数据处理流程和训练工具链。
Chapter 3
2 课时第三章:评估、部署与推理
建立微调模型上线前后的质量闭环,并规划显存、并发、推理框架和回滚策略。