.png)
DeepSeek-Math-V2 là phiên bản chuyên sâu trong lĩnh vực toán học, kế thừa từ DeepSeek-V3.2-Exp, là một mô hình thử nghiệm từng được giới thiệu vào tháng 9 năm nay. DeepSeekMath-V2 được công khai mã nguồn trên hai nền tảng Hugging Face và GitHub. Mô hình tích hợp một khung tự xác minh nhằm kiểm tra tính hợp lý của chuỗi lập luận, bên cạnh việc tạo ra đáp án chính xác, điều mà nhiều mô hình AI hiện nay vẫn gặp hạn chế.
Kết quả đánh giá cho thấy DeepSeekMath-V2 đạt mức huy chương vàng tại Olympic Toán học quốc tế (IMO) 2025 và Olympic Toán học Trung Quốc (CMO) 2024. Đặc biệt, mô hình đạt 118/120 điểm trong kỳ thi Putnam 2024, vượt xa mức 90 điểm, kỷ lục cao nhất từng được con người thực hiện.
Năng lực suy luận logic của mô hình được kiểm tra bằng hệ thống IMO-ProofBench, bộ đánh giá chuyên dụng dùng để xác minh độ chính xác lập luận của các mô hình AI. DeepSeekMath-V2 thể hiện hiệu suất vượt trội so với nhiều mô hình tiên tiến khác, được đánh giá ngang tầm với các mô hình của OpenAI và Google DeepMind, là hai đơn vị vốn thống trị lĩnh vực AI toán học.
IMO-ProofBench vận hành theo cơ chế kiểm tra chéo: một mô hình đảm nhiệm vai trò “chứng minh,” tạo ra chuỗi lập luận toán học, trong khi mô hình còn lại giữ vai trò “thẩm định”, đánh giá mức độ chặt chẽ của lập luận. Cơ chế này cho phép phát hiện sai sót trong tư duy của mô hình, điểm yếu cố hữu của các hệ thống AI đương đại.
Năm 2025 cũng là lần đầu tiên IMO chính thức công nhận các mô hình AI tham gia, đánh dấu sự chuyển mình của cộng đồng toán học. Mặc dù Google nằm trong nhóm được công nhận đầu tiên, DeepSeek và OpenAI lại chưa được đưa vào danh sách này. Các chuyên gia nhận định sự phát triển của những mô hình AI có khả năng suy luận chuyên sâu có thể giúp giải quyết nhiều bài toán kéo dài hàng thập kỷ trong các lĩnh vực như mật mã học, vật lý lý thuyết hay khám phá không gian.
DeepSeek-Math-V2 được kỳ vọng là bước đệm quan trọng cho thế hệ AI toán học tiếp theo. Theo nhóm phát triển, phương pháp tự kiểm chứng của DeepSeekMath-V2 giúp giải quyết hạn chế lớn nhất của các mô hình AI hiện nay: khả năng tạo ra câu trả lời đúng nhưng dựa trên lập luận sai hoặc không nhất quán. DeepSeek nhận định những tiến bộ này cho thấy hướng tiếp cận "suy luận toán học tự xác minh" có tiềm năng trở thành nền tảng cốt lõi cho thế hệ AI toán học mạnh mẽ, đáng tin cậy và minh bạch hơn trong tương lai.
