Agent 工程进阶2026-05-18 更新

Agent 工程师需要掌握的微调技能

先用 Agent 工程解题,再把微调作为有边界的最后手段

这门课不是把微调包装成万能解法,而是帮助 Agent 工程师建立一套更稳的工程判断:先用 Prompt Engineering、Function Calling、RAG 和工具调用把问题拆清楚,再决定是否值得把能力固化进模型参数。

课程从微调的 ROI 与成本边界开始,依次拆解全参数微调、PEFT、LoRA/QLoRA、持续预训练、指令微调、人类偏好对齐、数据工程、训练工具、效果评估和生产推理。

学完后,你应该能回答三个关键问题:这个 Agent 场景是否真的需要微调;如果要做,应该选择哪种微调路径;上线前如何证明它比原模型更好,而且没有破坏通用能力和安全边界。

课程设计

  • 第一部分先建立决策框架:微调能解决什么,不能解决什么,为什么多数 Agent 应用应先尝试 Prompt、RAG、Function Calling 和流程编排。
  • 第二部分进入方法谱系:区分全参数微调、参数高效微调、LoRA、QLoRA、CPT、SFT 与 DPO/RLHF 的目标、成本和风险。
  • 第三部分落到工程执行:围绕数据格式、数据质量、训练工具、评估集、回归测试、显存估算、推理指标和部署框架建立上线闭环。

适合人群

  • 正在构建 Agent、RAG 或 LLM 应用,希望判断微调是否值得投入的工程师。
  • 需要把业务场景、数据工程、模型训练和推理部署串起来的 AI 应用负责人。
  • 已经了解基础 LLM 概念,希望系统补齐微调工程能力的人。

学习方式

  • 先把每节里的判断清单读完,再回到自己的业务场景做映射。
  • 如果已有 bad case、Prompt 版本或 RAG 日志,可以把它们当成潜在微调数据来源来对照课程内容。

学习目标

能判断 Agent 场景下应优先优化 Prompt、RAG、工具调用还是进入微调
能估算微调项目的数据、训练、评估、部署和维护成本
能区分全参数微调、LoRA、QLoRA、CPT、SFT、DPO/RLHF 的适用边界
能按微调目标设计 JSONL 数据格式、清洗流程、标注规范和质量评估机制
能选择合适的微调工具链,并用评估集证明模型收益与回归风险
能规划微调模型的显存预算、推理指标、多卡策略和生产部署框架

课程目录