第十一章：Agentic-RL

从SFT到GRPO的强化学习训练流程

60分钟

2025-12-29

强化学习RLHFDPO

第十一章：Agentic-RL

训练流程

预训练 → SFT → RLHF/DPO → GRPO

下一步

学习第十二章：智能体性能评估

AI导航助手

Powered by DeepSeek

你好！我是AI导航助手，由DeepSeek驱动。

我可以帮你： • 推荐适合你的AI模型 • 解答AI相关问题 • 直接带你跳转到相关页面

试试点击下方问题，或直接输入你的问题！

快捷提问：

哪个AI模型最好？有免费的AI吗？写代码用哪个？API怎么接入？

点击按钮可直接跳转到相关页面