模型排行榜

基于LMArena、SWE-bench等权威评测的AI大模型排名，帮助你选择最适合的模型

Gemini 3 Pro

综合第一

Claude Opus 4.5

代码第一

Gemini 3 Pro

中文第一

Kimi K2

开源第一

综合能力排行榜

基于LMArena Elo评分的综合排名，反映模型在日常对话中的整体表现（4.8M+用户投票）

数据来源: LMArena Text Arena

更新时间: 2025-12-16

查看原始数据

Gemini 3 Pro

Google

1492

分数

Grok 4.1 Thinking

xAI

1478

分数

Gemini 3 Flash

Google

1477

分数

Claude Opus 4.5 (Thinking)

Anthropic

1469

分数

Claude Opus 4.5

Anthropic

1465

分数

Grok 4.1

xAI

1465

分数

NEW

GPT-5.1 High

OpenAI

1458

分数

Gemini 2.5 Pro

Google

1451

分数

-2

Claude Sonnet 4.5 (Thinking)

Anthropic

1450

分数

DeepSeek V3.2

DeepSeek

1435

分数

NEW

评测说明

综合能力：基于LMArena Elo评分系统，通过真实用户盲评得出
代码能力：基于SWE-bench Verified，评估解决真实GitHub Issue的能力
数学推理：基于AIME 2025和MATH数据集，考察复杂数学问题求解能力
中文能力：综合多项中文评测数据，包括理解、生成、对话等维度
视觉理解：基于MMMU和MMBench等多模态评测基准
Agent能力：评估模型自主规划、工具调用和任务执行能力

注：排行榜数据每小时自动从LMArena等平台同步更新，点击"刷新数据"可手动获取最新排名。

AI导航助手

你好！我是AI导航助手，由DeepSeek驱动。我可以帮你： • 推荐适合你的AI模型 • 解答AI相关问题 • 直接带你跳转到相关页面试试点击下方问题，或直接输入你的问题！

快捷提问：

哪个AI模型最好？有免费的AI吗？写代码用哪个？API怎么接入？

点击按钮可直接跳转到相关页面