模型排行榜
基于LMArena、SWE-bench等权威评测的AI大模型排名,帮助你选择最适合的模型
Gemini 3 Pro
综合第一
Claude Opus 4.5
代码第一
Gemini 3 Pro
中文第一
Kimi K2
开源第一
综合能力排行榜
基于LMArena Elo评分的综合排名,反映模型在日常对话中的整体表现(4.8M+用户投票)
评测说明
- 综合能力:基于LMArena Elo评分系统,通过真实用户盲评得出
- 代码能力:基于SWE-bench Verified,评估解决真实GitHub Issue的能力
- 数学推理:基于AIME 2025和MATH数据集,考察复杂数学问题求解能力
- 中文能力:综合多项中文评测数据,包括理解、生成、对话等维度
- 视觉理解:基于MMMU和MMBench等多模态评测基准
- Agent能力:评估模型自主规划、工具调用和任务执行能力
注:排行榜数据每小时自动从LMArena等平台同步更新,点击"刷新数据"可手动获取最新排名。