第十一章:Agentic-RL

从SFT到GRPO的强化学习训练流程

60分钟
2025-12-29
强化学习RLHFDPO

第十一章:Agentic-RL

训练流程

预训练 → SFT → RLHF/DPO → GRPO

下一步

学习 第十二章:智能体性能评估

AI导航助手

Powered by DeepSeek

你好!我是AI导航助手,由DeepSeek驱动。

我可以帮你: • 推荐适合你的AI模型 • 解答AI相关问题 • 直接带你跳转到相关页面

试试点击下方问题,或直接输入你的问题!

快捷提问:

哪个AI模型最好?有免费的AI吗?写代码用哪个?API怎么接入?

点击按钮可直接跳转到相关页面