Đấu trường mới của các "chatbot siêu trí tuệ"
Giải đấu đặc biệt này quy tụ 8 mô hình ngôn ngữ lớn đến từ Mỹ và Trung Quốc, gồm: o3 và o4-mini của OpenAI; Claude 4 Opus của Anthropic; Gemini 2.5 Flash và 2.5 Pro của Google; Grok 4 (thuộc xAI của Elon Musk); Kimi K2 (Moonshot AI); Deepseek R1 (Deepseek AI)

Các mô hình sẽ thi đấu loại trực tiếp trên nền tảng Kaggle một hệ thống thi đấu trực tuyến do Google phát triển. Trước khi bắt đầu, các AI được kiểm tra thực lực để xác định hệ số Elo, từ đó phân hạt giống và xếp cặp đấu.
Mỗi trận gồm 4 ván cờ, AI thắng được 1 điểm, hòa 0,5 điểm, thua không có điểm. AI nào đạt 2,5 điểm trở lên sẽ giành quyền đi tiếp. Trường hợp hòa 2-2 sẽ bước vào ván quyết định kiểu "Armageddon", trong đó quân trắng buộc phải thắng. Nếu bất kỳ AI nào đi sai luật 4 nước liên tiếp, sẽ bị xử thua ngay lập tức.
Hai kỳ thủ hàng đầu thế giới là Hikaru Nakamura (số hai thế giới) và Magnus Carlsen (đương kim số một) sẽ tham gia phát trực tuyến và bình luận trực tiếp các trận đấu, tăng sức nóng cho giải đấu vốn đã rất "độc đáo".

LLMs không phải là AI cờ vua chuyên biệt
Các mô hình ngôn ngữ lớn (LLMs) như ChatGPT, Gemini hay Claude không được thiết kế để chơi cờ chuyên nghiệp. Khác với Stockfish hay Leela Chess Zero (Lc0) những AI chuyên dụng có Elo trên 3.600, LLMs chủ yếu xử lý ngôn ngữ và hoạt động theo nguyên tắc dự đoán từ tiếp theo.

Điều này giúp LLMs chơi khá tốt ở giai đoạn khai cuộc, nhưng dễ mắc sai lầm ở trung và tàn cuộc, thậm chí đi sai luật. Trong một trận biểu diễn, ChatGPT từng thua Magnus Carlsen mà không ăn nổi quân nào. Trong khi đó, Lc0 từng đánh bại Nakamura dù kỳ thủ này được chấp xe minh chứng rõ ràng cho sự chênh lệch giữa AI chuyên dụng và AI xử lý ngôn ngữ.
Giải đấu này không nhằm mục tiêu xác lập đỉnh cao chiến thuật, mà là dịp để giới công nghệ thử nghiệm, giải trí và đánh giá mức độ “hiểu biết” chiến lược của các chatbot. Đây có thể là bước đi đầu tiên để đưa các LLMs ra khỏi phạm vi xử lý ngôn ngữ và khám phá khả năng sáng tạo trong các lĩnh vực mới.