Trong buổi họp Microsoft Build, NVIDIA đã công bố sẽ tối ưu hóa và tích hợp hiệu suất AI mới cho Windows, giúp mang lại hiệu suất tối đa trên các PC AI NVIDIA GeForce RTX và các máy trạm NVIDIA RTX.
Các mô hình ngôn ngữ lớn (LLM) là nền tảng cho một số ứng dụng thú vị nhất trong lĩnh vực AI tạo sinh, và giờ chúng có thể chạy nhanh hơn tới 3 lần nhờ ONNX Runtime (ORT) và DirectML sử dụng trình điều khiển NVIDIA R555 Game Ready mới. ORT và DirectML là các công cụ hiệu suất cao được sử dụng để chạy các mô hình AI cục bộ trên các máy tính Windows.
WebNN là một giao diện lập trình ứng dụng dành cho nhà phát triển web để triển khai các mô hình AI, hiện cũng đã được tăng tốc với RTX thông qua DirectML, cho phép các ứng dụng web tích hợp các tính năng nhanh chóng nhờ hỗ trợ bởi AI. Bên cạnh đó, PyTorch sẽ hỗ trợ các nền tảng thực thi DirectML, cho phép các nhà phát triển Windows đào tạo các mô hình AI phức tạp. NVIDIA và Microsoft đang hợp tác để mở rộng hiệu suất trên GPU RTX.
Những tiến bộ này dựa trên nền tảng AI hàng đầu thế giới của NVIDIA, giúp tăng tốc hơn 500 ứng dụng và trò chơi trên hơn 100 triệu PC và máy trạm sử dụng NVIDIA RTX trên toàn thế giới.
Các PC RTX AI – Nâng cấp AI cho game thủ, những nhà sáng tạo và lập trình viên
NVIDIA đã giới thiệu các mẫu GPU dành cho PC có tính năng tăng tốc AI chuyên dụng, đó là dòng GeForce RTX 20 Series với Tensor Cores, cùng với mô hình AI được áp dụng rộng rãi đầu tiên chạy trên Windows – NVIDIA DLSS, vào năm 2018. Các GPU mới nhất của NVIDIA hiện cung cấp hiệu suất AI chuyên dụng lên đến 1,300 nghìn tỷ phép tính mỗi giây.
Trong những tháng sắp tới, khi các máy tính Copilot+(Copilot Plus) được trang bị các hệ thống SoC tiết kiệm năng lượng mới và GPU RTX sẽ được phát hành, mang đến cho game thủ, nhà sáng tạo, người đam mê và nhà phát triển hiệu suất cao hơn để giải quyết các khối lượng công việc AI cục bộ đòi hỏi khắt khe, cùng với các tính năng Copilot+ mới của Microsoft.
Đối với game thủ trên các máy tính trang bị RTX AI, NVIDIA DLSS sẽ tăng tốc độ khung hình lên đến 4 lần, trong khi NVIDIA ACE giúp nhân vật game trở nên sống động hơn với hội thoại, hoạt hình và giọng nói được điều khiển bằng AI.
Đối với những nhà sáng tạo nội dụng thì họ sẽ có thể cải thiện quy trình làm việc nhờ hỗ trợ AI trong các ứng dụng như Adobe Premiere, Blackmagic Design DaVinci Resolve và Blender để tự động hóa các tác vụ tẻ nhạt.
Với những người tạo ra mod game thì NVIDIA RTX Remix, được xây dựng trên nền tảng NVIDIA Omniverse sẽ cung cấp các công cụ tăng tốc AI để tạo bản remaster RTX cho các game PC cổ điển. Nó giúp việc chụp tài nguyên game, cải thiện chất lượng bằng các công cụ AI tổng hợp và kết hợp tính năng ray tracing dễ dàng hơn.
Với người dùng livestream, ứng dụng NVIDIA Broadcast sẽ cung cấp khả năng loại bỏ nền và loại bỏ nhiễu bằng AI chất lượng cao, trong khi NVIDIA RTX Video cung cấp tính năng nâng cấp và dynamic range cao tự động được hỗ trợ bởi AI sẽ nâng cao chất lượng video.
Ngoài ra các LLM được hỗ trợ bởi GPU RTX thực thi các trợ lý AI và trình điều khiển nhanh hơn, đồng thời có thể xử lý nhiều yêu cầu cùng một lúc. Những máy tính tích hợp RTX AI sẽ cho phép nhà phát triển xây dựng và tinh chỉnh các mô hình AI trực tiếp trên thiết bị của họ bằng cách sử dụng các công cụ dành cho nhà phát triển AI của NVIDIA, bao gồm NVIDIA AI Workbench, NVIDIA cuDNN và CUDA trên Windows Subsystem for Linux.
LLM nhanh hơn và các khả năng mới cho nhà phát triển web
Microsoft gần đây đã phát hành tiện ích AI tạo sinh cho ORT, một thư viện đa nền tảng cho suy luận AI. Tiện ích mở rộng này hỗ trợ cho các kỹ thuật tối ưu như lượng tử hóa cho các LLM như Phi-3, Llama 3, Gemma và Mistral. ORT hỗ trợ các nhà cung cấp các lệnh thực thi khác nhau để suy luận thông qua các ngăn xếp phần mềm và phần cứng khác nhau, bao gồm cả DirectML.
ORT với nền tảng back-end DirectML cung cấp cho các nhà phát triển AI trên Windows một con đường nhanh chóng để phát triển các khả năng của AI. Các tối ưu hóa của NVIDIA cho tiện ích mở rộng AI tạo sinh cho ORT, hiện có sẵn trong NVIDIA RTX Enterprise, Studio và Game Ready R555, giúp các nhà phát triển đạt được hiệu suất nhanh hơn tới 3 lần trên RTX so với các trình điều khiển trước đó.
Các nhà phát triển có thể khai thác toàn bộ khả năng của phần cứng RTX với driver R555 mới, mang lại trải nghiệm AI tốt hơn cho người dùng, nhanh hơn. Nó bao gồm:
- Hỗ trợ siêu lệnh DQ-GEMM để xử lý INT4 cho LLM
- Các phương pháp chuẩn hóa RMSNorm mới cho các mô hình Llama 2, Llama 3, Mistral và Phi-3
- Cơ chế Attention nhóm và cơ chế Attention cửa sổ trượt để hỗ trợ Mistral
- Cập nhật KV tại chỗ để cải thiện hiệu suất chú ý
- Hỗ trợ GEMM của các tensor không phải bội số của 8 để cải thiện hiệu suất
Bên cạnh đó, NVIDIA đã tối ưu hóa quy trình làm việc AI trong WebNN để mang lại hiệu suất mạnh mẽ của GPU RTX trực tiếp trong trình duyệt. Tiêu chuẩn WebNN giúp các nhà phát triển ứng dụng web tăng tốc các mô hình học sâu với các bộ tăng tốc AI trên thiết bị, như Tensor Cores.