OpenAI ra mắt Flex processing: Lựa chọn tiết kiệm cho tác vụ AI ưu tiên thấp

OpenAI giới thiệu Flex processing, API mới giảm 50% chi phí, hỗ trợ mô hình o3 và o4-mini, nhắm đến tác vụ ưu tiên thấp với thời gian phản hồi chậm.

Để tăng sức cạnh tranh với các đối thủ như Google, OpenAI vừa giới thiệu Flex processing – tuỳ chọn API mới cho phép người dùng truy cập các mô hình AI với chi phí thấp hơn, đổi lại là thời gian phản hồi chậm hơn và khả năng bị gián đoạn tài nguyên trong một số trường hợp.

Flex processing hiện đang ở giai đoạn public beta và áp dụng cho hai mô hình suy luận mới ra mắt là o3 và o4-mini. Theo OpenAI, tùy chọn này nhắm đến các tác vụ ưu tiên thấp, không yêu cầu xử lý tức thì như đánh giá mô hình, làm giàu dữ liệu hay xử lý bất đồng bộ.

Về mức giá, Flex giúp người dùng tiết kiệm 50% chi phí so với truy cập tiêu chuẩn. Cụ thể:

  • Với mô hình o3: 5 USD cho mỗi triệu token đầu vào và 20 USD cho mỗi triệu token đầu ra (so với mức tiêu chuẩn 10 USD và 40 USD).
  • Với o4-mini: 0.55 USD mỗi triệu token đầu vào và 2.20 USD mỗi triệu token đầu ra (giảm từ 1.10 USD và 4.40 USD).

Việc giới thiệu Flex processing diễn ra trong bối cảnh chi phí vận hành các mô hình AI tiên tiến không ngừng tăng cao, trong khi các đối thủ như Google đang đẩy mạnh chiến lược mô hình giá rẻ. Gần đây, Google đã công bố Gemini 2.5 Flash – một mô hình suy luận nhẹ, tiết kiệm tài nguyên nhưng vẫn có hiệu năng ấn tượng, thậm chí vượt qua DeepSeek R1 trong một số bài benchmark.

Theo nội dung email thông báo gửi đến khách hàng, OpenAI cũng cho biết các nhà phát triển thuộc tier 1–3 (phân loại theo mức chi tiêu) sẽ cần hoàn tất quy trình xác minh danh tính mới để có quyền truy cập o3. Một số tính năng như tóm tắt suy luận (reasoning summaries) và API dạng streaming cũng chỉ khả dụng sau khi xác minh.

OpenAI khẳng định, việc áp dụng xác minh danh tính nhằm ngăn chặn các hành vi lạm dụng và vi phạm chính sách sử dụng dịch vụ, đặc biệt trong bối cảnh các mô hình ngày càng được tích hợp vào những ứng dụng có khả năng gây ảnh hưởng lớn.

NguồnTechCrunch
Quảng cáospot_img

Tin liên quan