LẬP TRÌNH

So sánh khả năng thực hiện các tác vụ lập trình web của nhiều công cụ AI khác nhau trong không gian code

Rank	Rank Spread (Upper-Lower)	Model	Score	95% CI (±)	Votes	Organization	License
1	1◄─►1	claude-opus-4-5-20251101-thinking-32k	1519	+13/-13	2.993	Anthropic	Proprietary
2	2◄─►4	gpt-5.2-high	1486	+17/-17	1.641	OpenAI	Proprietary
3	2◄─►4	claude-opus-4-5-20251101	1483	+13/-13	3.039	Anthropic	Proprietary
4	2◄─►4	gemini-3-pro	1482	+10/-10	7.897	Google	Proprietary
5	5◄─►11	gpt-5-medium	1400	+12/-12	3.945	OpenAI	Proprietary
6	5◄─►11	gpt-5.2	1399	+15/-15	1.639	OpenAI	Proprietary
7	5◄─►11	claude-sonnet-4-5-20250929-thinking-32k	1395	+10/-10	6.974	Anthropic	Proprietary
8	5◄─►11	claude-opus-4-1-20250805	1395	+10/-10	6.705	Anthropic	Proprietary
9	5◄─►11	gpt-5.1-medium	1394	+11/-11	4.119	OpenAI	Proprietary
10	5◄─►12	claude-sonnet-4-5-20250929	1387	+9/-9	8.006	Anthropic	Proprietary
11	10◄─►13	glm-4.6	1369	+10/-10	6.461	Z.ai	MIT
12	5◄─►15	deepseek-v3.2-thinking	1369	+29/-29	410	DeepSeek AI	MIT
13	11◄─►15	gpt-5.1	1358	+10/-10	5.955	OpenAI	Proprietary
14	12◄─►15	kimi-k2-thinking-turbo	1345	+10/-10	5.792	Moonshot	Modified MIT
15	12◄─►15	gpt-5.1-codex	1340	+11/-11	4.298	OpenAI	Proprietary
16	16◄─►17	minimax-m2	1317	+10/-10	6.457	MiniMax	Apache 2.0
17	17◄─►20	deepseek-v3.2-exp	1295	+10/-10	5.155	DeepSeek AI	MIT
18	17◄─►20	qwen3-coder-480b-a35b-instruct	1290	+9/-9	6.674	Alibaba	Apache 2.0
19	16◄─►22	deepseek-v3.2	1289	+22/-22	725	DeepSeek AI	MIT
20	17◄─►21	claude-haiku-4-5-20251001	1287	+10/-10	6.702	Anthropic	Proprietary
21	19◄─►22	KAT-Coder-Pro-V1	1265	+15/-15	1.943	KwaiKAT	Proprietary
22	20◄─►24	gpt-5.1-codex-mini	1252	+17/-17	1.565	OpenAI	Proprietary
23	22◄─►26	grok-4-1-fast-reasoning	1228	+13/-13	3.710	xAI	Proprietary
24	22◄─►26	mistral-large-3	1227	+20/-20	1.023	Mistral	Apache 2.0
25	23◄─►26	gemini-2.5-pro	1214	+12/-12	3.504	Google	Proprietary
26	23◄─►26	grok-4.1-thinking	1206	+19/-19	1.260	xAI	Proprietary
27	27◄─►28	grok-4-fast-reasoning	1154	+23/-23	944	xAI	Proprietary
28	27◄─►29	grok-code-fast-1	1144	+21/-21	1.014	xAI	Proprietary
29	28◄─►29	devstral-medium-2507	1103	+21/-21	1.032	Mistral	Proprietary

LẬP TRÌNH

Battle Count for Each Combination of Models (without Ties)

Confidence Intervals on Model Strength (Elo)

Average Win Rate Against All Other Models (Uniform Sampling and No Ties)

Fraction of Model A Wins for All Non-tied A vs. B Battles