VĂN BẢN

Xem cách các công cụ AI được xếp hạng dựa trên độ linh hoạt, mức độ chính xác ngôn ngữ và hiệu quả xử lý trong các tác vụ văn bản.

Rank	Rank Spread (Upper-Lower)	Model	Score	95% CI (±)	Votes	Organization	License
1	1◄─►1	gemini-3-pro	1492	±6	15.871	Google	Proprietary
2	2◄─►4	grok-4.1-thinking	1478	±6	16.660	xAI	Proprietary
3	2◄─►6	claude-opus-4-5-20251101-thinking-32k	1470	±7	9.879	Anthropic	Proprietary
4	2◄─►6	claude-opus-4-5-20251101	1467	±7	10.659	Anthropic	Proprietary
5	3◄─►6	grok-4.1	1465	±6	16.501	xAI	Proprietary
6	3◄─►9	gpt-5.1-high	1457	±6	13.953	OpenAI	Proprietary
7	6◄─►11	gemini-2.5-pro	1451	±3	76.975	Google	Proprietary
8	6◄─►11	claude-sonnet-4-5-20250929-thinking-32k	1450	±5	28.019	Anthropic	Proprietary
9	6◄─►12	claude-opus-4-1-20250805-thinking-16k	1448	±4	43.836	Anthropic	Proprietary
10	7◄─►15	claude-sonnet-4-5-20250929	1445	±5	23.185	Anthropic	Proprietary
11	7◄─►17	gpt-4.5-preview-2025-02-27	1443	±6	14.644	OpenAI	Proprietary
12	9◄─►16	claude-opus-4-1-20250805	1441	±4	56.830	Anthropic	Proprietary
13	10◄─►18	chatgpt-4o-latest-20250326	1440	±3	63.299	OpenAI	Proprietary
14	10◄─►20	gpt-5.1	1437	±6	15.063	OpenAI	Proprietary
15	10◄─►19	gpt-5-high	1436	±5	32.884	OpenAI	Proprietary
16	12◄─►20	o3-2025-04-16	1433	±4	61.581	OpenAI	Proprietary
17	11◄─►24	qwen3-max-preview	1433	±5	28.133	Alibaba	Proprietary
18	14◄─►39	grok-4-1-fast-reasoning	1428	±7	9.096	xAI	Proprietary
19	13◄─►39	ernie-5.0-preview-1103	1428	±9	5.738	Baidu	Proprietary
20	15◄─►39	kimi-k2-thinking-turbo	1426	±6	15.621	Moonshot	Modified MIT
21	17◄─►39	gpt-5-chat	1425	±4	32.128	OpenAI	Proprietary
22	17◄─►39	glm-4.6	1425	±5	24.502	Z.ai	MIT
23	17◄─►39	qwen3-max-2025-09-23	1423	±6	9.251	Alibaba	Proprietary
24	17◄─►39	deepseek-v3.2-exp	1423	±7	11.973	DeepSeek AI	MIT
25	18◄─►39	claude-opus-4-20250514-thinking-16k	1423	±4	37.863	Anthropic	Proprietary
26	18◄─►39	qwen3-235b-a22b-instruct-2507	1421	±4	51.250	Alibaba	Apache 2.0
27	18◄─►42	deepseek-v3.2-exp-thinking	1421	±7	9.220	DeepSeek AI	MIT
28	18◄─►45	grok-4-fast-chat	1420	±8	7.056	xAI	Proprietary
29	18◄─►46	deepseek-v3.2-thinking	1418	±9	5.948	DeepSeek AI	MIT
30	18◄─►45	kimi-k2-0905-preview	1418	±7	11.836	Moonshot	Modified MIT
31	18◄─►45	deepseek-r1-0528	1418	±6	19.236	DeepSeek	MIT
32	18◄─►45	kimi-k2-0711-preview	1417	±5	28.658	Moonshot	Modified MIT
33	18◄─►46	deepseek-v3.1	1416	±6	15.256	DeepSeek	MIT
34	18◄─►46	deepseek-v3.1-thinking	1416	±7	11.987	DeepSeek	MIT
35	18◄─►48	mistral-large-3	1415	±8	6.377	Mistral	Apache 2.0
36	18◄─►47	qwen3-vl-235b-a22b-instruct	1415	±7	8.532	Alibaba	Apache 2.0
37	18◄─►50	deepseek-v3.1-terminus	1415	±10	3.745	DeepSeek AI	MIT
38	18◄─►51	deepseek-v3.2	1414	±8	6.494	DeepSeek AI	MIT
39	18◄─►52	deepseek-v3.1-terminus-thinking	1414	±10	3.520	DeepSeek AI	MIT
40	27◄─►47	claude-opus-4-20250514	1412	±4	45.672	Anthropic	Proprietary
41	27◄─►47	gpt-4.1-2025-04-14	1412	±4	52.571	OpenAI	Proprietary
42	27◄─►49	mistral-medium-2508	1411	±4	45.391	Mistral	Proprietary
43	28◄─►50	grok-3-preview-02-24	1410	±4	34.122	xAI	Proprietary
44	28◄─►52	grok-4-0709	1409	±4	42.568	xAI	Proprietary
45	28◄─►53	glm-4.5	1408	±5	24.820	Z.ai	MIT
46	32◄─►52	gemini-2.5-flash	1408	±3	76.434	Google	Proprietary
47	35◄─►57	gemini-2.5-flash-preview-09-2025	1405	±4	29.427	Google	Proprietary
48	38◄─►58	claude-haiku-4-5-20251001	1402	±5	26.365	Anthropic	Proprietary
49	38◄─►58	grok-4-fast-reasoning	1402	±5	18.876	xAI	Proprietary
50	42◄─►59	o1-2024-12-17	1401	±4	28.039	OpenAI	Proprietary

VĂN BẢN

Battle Count for Each Combination of Models (without Ties)

Confidence Intervals on Model Strength (Elo)

Average Win Rate Against All Other Models (Uniform Sampling and No Ties)

Fraction of Model A Wins for All Non-tied A vs. B Battles