VĂN BẢN

Xem cách các công cụ AI được xếp hạng dựa trên độ linh hoạt, mức độ chính xác ngôn ngữ và hiệu quả xử lý trong các tác vụ văn bản

Rank	Rank Spread (Upper-Lower)	Model	Score	95% CI (±)	Votes	Organization	License
1	1◄─►1	gemini-3-pro	1490	±5	27.827	Google	Proprietary
2	2◄─►4	grok-4.1-thinking	1477	±5	27.985	xAI	Proprietary
3	2◄─►8	gemini-3-flash	1472	±6	13.245	Google	Proprietary
4	2◄─►8	claude-opus-4-5-20251101-thinking-32k	1470	±5	19.898	Anthropic	Proprietary
5	3◄─►9	claude-opus-4-5-20251101	1467	±5	21.241	Anthropic	Proprietary
6	3◄─►9	grok-4.1	1465	±5	32.015	xAI	Proprietary
7	3◄─►10	gemini-3-flash (thinking-minimal)	1462	±7	9.644	Google	Proprietary
8	3◄─►15	ernie-5.0-0110	1459	±9	4.829	Baidu	Proprietary
9	5◄─►14	gpt-5.1-high	1458	±5	24.439	OpenAI	Proprietary
10	8◄─►18	gemini-2.5-pro	1451	±3	87.641	Google	Proprietary
11	8◄─►18	claude-sonnet-4-5-20250929-thinking-32k	1451	±4	38.441	Anthropic	Proprietary
12	7◄─►20	ernie-5.0-preview-1203	1450	±7	9.709	Baidu	Proprietary
13	8◄─►18	claude-sonnet-4-5-20250929	1450	±4	35.025	Anthropic	Proprietary
14	9◄─►18	claude-opus-4-1-20250805-thinking-16k	1449	±4	50.061	Anthropic	Proprietary
15	10◄─►20	claude-opus-4-1-20250805	1445	±3	67.599	Anthropic	Proprietary
16	8◄─►24	gpt-5.2	1445	±9	5.187	OpenAI	Proprietary
17	10◄─►22	gpt-4.5-preview-2025-02-27	1444	±6	14.549	OpenAI	Proprietary
18	14◄─►22	chatgpt-4o-latest-20250326	1442	±3	74.853	OpenAI	Proprietary
19	10◄─►25	glm-4.7	1441	±7	9.556	Z.ai	MIT
20	14◄─►33	gpt-5.2-high	1436	±8	8.594	OpenAI	Proprietary
21	16◄─►27	gpt-5.1	1435	±5	26.241	OpenAI	Proprietary
22	16◄─►28	gpt-5-high	1435	±5	32.688	OpenAI	Proprietary
23	18◄─►31	qwen3-max-preview	1434	±5	27.894	Alibaba	Proprietary
24	18◄─►32	o3-2025-04-16	1433	±4	61.435	OpenAI	Proprietary
25	19◄─►35	grok-4-1-fast-reasoning	1430	±5	21.151	xAI	Proprietary
26	20◄─►38	kimi-k2-thinking-turbo	1429	±5	26.054	Moonshot	Modified MIT
27	21◄─►44	gpt-5-chat	1426	±4	31.883	OpenAI	Proprietary
27	20◄─►46	ernie-5.0-preview-1103	1428	±7	9.066	Baidu	Proprietary
28	23◄─►45	glm-4.6	1425	±4	33.537	Z.ai	MIT
29	20◄─►45	qwen3-max-2025-09-23	1424	±6	9.225	Alibaba	Proprietary
30	24◄─►45	claude-opus-4-20250514-thinking-16k	1424	±4	38.020	Anthropic	Proprietary
31	22◄─►48	deepseek-v3.2-exp	1423	±7	11.812	DeepSeek	MIT
32	22◄─►48	deepseek-v3.2-exp-thinking	1423	±7	9.017	DeepSeek	MIT
33	26◄─►45	qwen3-235b-a22b-instruct-2507	1422	±3	62.099	Alibaba	Apache 2.0
34	22◄─►50	grok-4-fast-chat	1422	±8	7.001	xAI	Proprietary
35	26◄─►51	deepseek-v3.2-thinking	1420	±6	15.802	DeepSeek	MIT
36	27◄─►52	deepseek-v3.2	1418	±5	20.503	DeepSeek	MIT
37	27◄─►52	deepseek-r1-0528	1418	±6	19.306	DeepSeek	MIT
38	27◄─►53	kimi-k2-0905-preview	1418	±6	11.981	Moonshot	Modified MIT
39	25◄─►55	ernie-5.0-preview-1022	1417	±9	4.643	Baidu	Proprietary
40	27◄─►52	kimi-k2-0711-preview	1417	±5	28.683	Moonshot	Modified MIT
41	27◄─►53	deepseek-v3.1-thinking	1417	±7	11.984	DeepSeek	MIT
42	27◄─►53	deepseek-v3.1	1417	±6	15.294	DeepSeek	MIT
43	26◄─►57	deepseek-v3.1-terminus	1416	±10	3.764	DeepSeek	MIT
44	25◄─►57	deepseek-v3.1-terminus-thinking	1416	±10	3.552	DeepSeek	MIT
45	28◄─►55	qwen3-vl-235b-a22b-instruct	1415	±6	11.700	Alibaba	Apache 2.0
46	32◄─►53	claude-opus-4-20250514	1413	±4	45.596	Anthropic	Proprietary
47	32◄─►53	gpt-4.1-2025-04-14	1413	±4	52.274	OpenAI	Proprietary
48	34◄─►55	mistral-medium-2508	1412	±3	55.868	Mistral	Proprietary
48	39◄─►58	claude-haiku-4-5-20251001	1402	±4	28.180	Anthropic	Proprietary
49	32◄─►57	mistral-large-3	1411	±5	16.782	Mistral	Apache 2.0
49	39◄─►59	grok-4-fast-reasoning	1402	±5	18.823	xAI	Proprietary
50	34◄─►57	grok-3-preview-02-24	1410	±4	33.991	xAI	Proprietary
50	38◄─►56	gemini-2.5-flash	1408	±3	79.419	Google	Proprietary
50	36◄─►59	grok-4-0709	1409	±4	42.343	xAI	Proprietary
50	39◄─►60	gemini-2.5-flash-preview-09-2025	1405	±4	31.666	Google	Proprietary
50	42◄─►59	o1-2024-12-17	1401	±4	28.039	OpenAI	Proprietary
50	43◄─►61	qwen3-next-80b-a3b-instruct	1400	±5	23.044	Alibaba	Apache 2.0
50	34◄─►58	glm-4.5	1409	±5	24.723	Z.ai	MIT

Battle Count for Each Combination of Models (without Ties)

Confidence Intervals on Model Strength (Elo)

Elo scores computed from battle counts. Error bars = 95% CI via Bootstrapping.

Average Win Rate Against All Other Models (Uniform Sampling and No Ties)

Fraction of Model A Wins for All Non-tied A vs. B Battles