- Published on
Vào năm 2023, các nhà nghiên cứu đã giới thiệu các chuẩn mực mới—MMMU, GPQA và SWE-bench—để kiểm tra giới hạn của các hệ thống AI tiên tiến. Chỉ một năm sau, hiệu suất tăng mạnh: điểm số tăng lần lượt là 18,8, 48,9 và 67,3 phần trăm trên MMMU, GPQA và SWE-bench. Vượt ngoài các bộ đánh giá tiêu chuẩn, các hệ thống AI đã có những bước tiến lớn trong việc tạo ra video chất lượng cao và trong một số cài đặt, các tác nhân mô hình ngôn ngữ thậm chí còn vượt trội hơn con người trong các tác vụ lập trình với ngân sách thời gian hạn chế.