OpenAI vừa công bố GPT-4.5, phiên bản AI tiên tiến nhất của hãng dành cho ChatGPT. Theo OpenAI, GPT-4.5 là mô hình tốt nhất từ trước đến nay cho trò chuyện, với khả năng học không giám sát (unsupervised learning) được mở rộng, giúp AI nhận diện mẫu, liên kết dữ liệu và tạo ra những insight sáng tạo tốt hơn.
Cải thiện khả năng hội thoại và xử lý thông tin
GPT-4.5 mang lại trải nghiệm hội thoại tự nhiên hơn, với tính cách được cải thiện và khả năng hướng dẫn người dùng qua các ý tưởng một cách rõ ràng hơn. OpenAI cho biết, GPT-4.5 vượt trội so với GPT-4o trong hầu hết các lĩnh vực, bao gồm:
- Truy vấn hằng ngày: Trả lời chính xác hơn, phản hồi nhanh và thân thiện hơn.
- Truy vấn chuyên môn: Hiểu rõ hơn về ngữ cảnh chuyên nghiệp, hữu ích trong nhiều lĩnh vực.
- Trí thông minh sáng tạo: Viết lách, lập trình và giải quyết vấn đề hiệu quả hơn.
So với GPT-4o, GPT-4.5 sở hữu kho kiến thức rộng hơn, khả năng bám sát ý định của người dùng tốt hơn và chỉ số EQ cao hơn. Điều này giúp mô hình có thể tương tác gần gũi và tự nhiên hơn, đồng thời giảm thiểu hiện tượng “ảo giác AI”.
Bảng đánh giá hiệu suất mô hình AI
Chỉ số đánh giá mô hình | GPT-4.5 | GPT-4o | OpenAI o3-mini-high |
---|---|---|---|
GPQA (hiểu biết khoa học) | 71.4% | 53.6% | 79.7% |
AIME ‘24 (toán học) | 36.7% | 9.3% | 87.3% |
MMMLU (hiểu biết đa ngôn ngữ) | 85.1% | 81.5% | 81.1% |
MMMU (đa phương thức) | 74.4% | 69.1% | – |
SWE-Lancer Diamond (lập trình) | 32.6% | 23.3% | 10.8% |
SWE-Lancer Diamond (thu nhập) | $186,125 | $138,750 | $89,625 |
SWE-Bench Verified (lập trình) | 38.0% | 30.7% | 61.0% |
Giải thích thuật ngữ:
- GPQA (General Physics and Quantum AI) → Hiểu biết khoa học, do chỉ số này liên quan đến đánh giá khả năng hiểu các vấn đề khoa học và vật lý lượng tử.
- AIME (American Invitational Mathematics Examination) → Toán học, vì đây là bài kiểm tra đánh giá tư duy toán học.
- MMMLU (Massive Multitask Multilingual Understanding) → Hiểu biết đa ngôn ngữ, đánh giá khả năng xử lý nhiều ngôn ngữ khác nhau.
- MMMU (Massive Multimodal Model Understanding) → Đa phương thức, vì mô hình này đánh giá khả năng xử lý cả văn bản, hình ảnh và nhiều loại dữ liệu đầu vào khác.
- SWE (Software Engineering) Lancer Diamond → Lập trình, đánh giá năng lực lập trình thông qua thử thách mã hóa.
- SWE Lancer Diamond → Thu nhập đây là chỉ số về mức lương giả lập mà mô hình có thể kiếm được từ việc giải quyết bài toán lập trình.
- SWE-Bench Verified → Lập trình, một bài kiểm tra khác về lập trình nhưng có độ chính xác cao hơn.
Không phải mô hình chuyên về suy luận như o1 và o3-mini
Dù mạnh mẽ hơn GPT-4o, OpenAI nhấn mạnh rằng GPT-4.5 không phải là mô hình chuyên về suy luận như o1 hay o3-mini. Điều này có nghĩa là các mô hình chuyên biệt như o1 và o3-mini vẫn vượt trội hơn GPT-4.5 trong các tác vụ đòi hỏi tư duy logic như lập trình và toán học.
GPT-4.5 được huấn luyện theo hai giai đoạn: pre-training và post-training, giúp nó trở thành mô hình đa dụng, thích hợp cho các nhiệm vụ tổng quát thay vì chỉ tập trung vào một lĩnh vực cụ thể.
Khả dụng cho người dùng ChatGPT Pro từ hôm nay
OpenAI triển khai GPT-4.5 cho người dùng Pro ngay từ hôm nay. Người dùng thuộc các gói Team và Plus sẽ có quyền truy cập vào tuần tới, tiếp theo là các tổ chức giáo dục và doanh nghiệp.
Ngoài ra, các nhà phát triển thuộc tất cả các gói trả phí cũng có thể bắt đầu sử dụng GPT-4.5 ngay từ hôm nay.
GPT-4.5 hỗ trợ tải lên tệp và hình ảnh, có thể xử lý nội dung viết và lập trình, nhưng không hỗ trợ Voice Mode, video hoặc chia sẻ màn hình.