Learning Chain Logo
Tổng hợp bảng xếp hạng AI Tổng hợp Bảng xếp hạng AI văn bản Văn bản Bảng xếp hạng AI lập trình Lập trình Bảng xếp hạng AI tạo ảnh Tạo ảnh Bảng xếp hạng AI chỉnh sửa ảnh Chỉnh ảnh Bảng xếp hạng AI tìm thông tin Tìm thông tin Bảng xếp hạng AI ảnh thành video Ảnh thành video

LẬP TRÌNH

So sánh khả năng thực hiện các tác vụ lập trình web của nhiều công cụ AI khác nhau trong không gian code

Rank Rank Spread (Upper-Lower) Model Score 95% CI (±) Votes Organization License
1 1◄─►1
claude-opus-4-5-20251101-thinking-32k
1519 +13/-13 2.993 Anthropic Proprietary
2 2◄─►4
gpt-5.2-high
1486 +17/-17 1.641 OpenAI Proprietary
3 2◄─►4
claude-opus-4-5-20251101
1483 +13/-13 3.039 Anthropic Proprietary
4 2◄─►4
gemini-3-pro
1482 +10/-10 7.897 Google Proprietary
5 5◄─►11
gpt-5-medium
1400 +12/-12 3.945 OpenAI Proprietary
6 5◄─►11
gpt-5.2
1399 +15/-15 1.639 OpenAI Proprietary
7 5◄─►11
claude-sonnet-4-5-20250929-thinking-32k
1395 +10/-10 6.974 Anthropic Proprietary
8 5◄─►11
claude-opus-4-1-20250805
1395 +10/-10 6.705 Anthropic Proprietary
9 5◄─►11
gpt-5.1-medium
1394 +11/-11 4.119 OpenAI Proprietary
10 5◄─►12
claude-sonnet-4-5-20250929
1387 +9/-9 8.006 Anthropic Proprietary
11 10◄─►13
glm-4.6
1369 +10/-10 6.461 Z.ai MIT
12 5◄─►15
deepseek-v3.2-thinking
1369 +29/-29 410 DeepSeek AI MIT
13 11◄─►15
gpt-5.1
1358 +10/-10 5.955 OpenAI Proprietary
14 12◄─►15
kimi-k2-thinking-turbo
1345 +10/-10 5.792 Moonshot Modified MIT
15 12◄─►15
gpt-5.1-codex
1340 +11/-11 4.298 OpenAI Proprietary
16 16◄─►17
minimax-m2
1317 +10/-10 6.457 MiniMax Apache 2.0
17 17◄─►20
deepseek-v3.2-exp
1295 +10/-10 5.155 DeepSeek AI MIT
18 17◄─►20
qwen3-coder-480b-a35b-instruct
1290 +9/-9 6.674 Alibaba Apache 2.0
19 16◄─►22
deepseek-v3.2
1289 +22/-22 725 DeepSeek AI MIT
20 17◄─►21
claude-haiku-4-5-20251001
1287 +10/-10 6.702 Anthropic Proprietary
21 19◄─►22
KAT-Coder-Pro-V1
1265 +15/-15 1.943 KwaiKAT Proprietary
22 20◄─►24
gpt-5.1-codex-mini
1252 +17/-17 1.565 OpenAI Proprietary
23 22◄─►26
grok-4-1-fast-reasoning
1228 +13/-13 3.710 xAI Proprietary
24 22◄─►26
mistral-large-3
1227 +20/-20 1.023 Mistral Apache 2.0
25 23◄─►26
gemini-2.5-pro
1214 +12/-12 3.504 Google Proprietary
26 23◄─►26
grok-4.1-thinking
1206 +19/-19 1.260 xAI Proprietary
27 27◄─►28
grok-4-fast-reasoning
1154 +23/-23 944 xAI Proprietary
28 27◄─►29
grok-code-fast-1
1144 +21/-21 1.014 xAI Proprietary
29 28◄─►29
devstral-medium-2507
1103 +21/-21 1.032 Mistral Proprietary

Battle Count for Each Combination of Models (without Ties)

Confidence Intervals on Model Strength (Elo)

Elo scores computed from battle counts. Error bars = 95% CI via Bootstrapping.

Average Win Rate Against All Other Models (Uniform Sampling and No Ties)

Fraction of Model A Wins for All Non-tied A vs. B Battles