第十一章:Agentic-RL从SFT到GRPO的强化学习训练流程60分钟2025-12-29强化学习RLHFDPO第十一章:Agentic-RL 训练流程 预训练 → SFT → RLHF/DPO → GRPO 下一步 学习 第十二章:智能体性能评估