Google DeepMind ra mắt Gemini Robotics: Mô hình AI mới cho robot thông minh hơn

Google DeepMind giới thiệu Gemini Robotics và Gemini Robotics-ER, nâng cao khả năng của robot trong thực hiện tác vụ phức tạp và tương tác an toàn với con người.

Google DeepMind vừa công bố hai mô hình AI mới là Gemini Robotics và Gemini Robotics-ER, được thiết kế để giúp robot thực hiện các tác vụ vật lý phức tạp và thích nghi với môi trường thực tế.

Gemini Robotics: Nâng tầm khả năng của robot

Dựa trên nền tảng Gemini 2.0, Gemini Robotics là một mô hình “vision-language-action” (VLA), kết hợp thị giác, ngôn ngữ và hành động để điều khiển robot. Theo Google DeepMind, mô hình này cải thiện khả năng của robot ở ba khía cạnh chính:

  • Tính linh hoạt (generality): Gemini Robotics có thể xử lý các tình huống mới mà không cần được huấn luyện trước, ví dụ như gấp giấy origami hoặc đóng gói đồ ăn vào túi Zip-loc.
  • Tương tác (interactivity): Robot có thể giao tiếp tự nhiên hơn với con người và môi trường xung quanh, hiểu lệnh bằng ngôn ngữ tự nhiên và thực hiện các thao tác phù hợp.
  • Độ khéo léo (dexterity): Mô hình giúp robot thực hiện các tác vụ đòi hỏi sự chính xác cao, như đeo kính vào hộp hoặc gấp quần áo.

Gemini Robotics-ER, phiên bản nhẹ hơn, được thiết kế để các nhà nghiên cứu sử dụng nhằm đào tạo mô hình riêng cho việc điều khiển robot. Google cũng công bố một tiêu chuẩn đánh giá rủi ro mới mang tên Asimov, giúp đảm bảo an toàn khi sử dụng AI trong robot.

Google DeepMind ra mắt Gemini Robotics: Mô hình AI mới cho robot thông minh hơn

Ứng dụng thực tế và tiềm năng phát triển

Google DeepMind đã thử nghiệm Gemini Robotics trên nhiều loại robot, từ robot hình người như Apollo của Apptronik đến các thiết bị của Boston Dynamics và Agile Robots. Các video demo cho thấy robot có thể thực hiện các tác vụ như gấp giấy, đóng gói đồ ăn, hay thậm chí úp bóng rổ, nhờ khả năng kết hợp nhận diện thị giác, hiểu ngôn ngữ, và lập kế hoạch hành động.

Google DeepMind ra mắt Gemini Robotics: Mô hình AI mới cho robot thông minh hơn

Carolina Parada, trưởng nhóm robotics của Google DeepMind, chia sẻ: “Khi bạn đóng gói một hộp cơm trưa, bạn cần biết vị trí của mọi thứ, cách mở hộp, cách cầm đồ vật và đặt chúng vào đâu. Đó là loại suy luận mà Gemini Robotics-ER có thể thực hiện.” Mô hình này cũng cải thiện khả năng suy luận không gian (spatial reasoning) và lập kế hoạch, giúp robot hoạt động hiệu quả hơn trong môi trường thực tế phức tạp.

An toàn và triển khai

Google DeepMind nhấn mạnh rằng an toàn là ưu tiên hàng đầu. Gemini Robotics được tích hợp “common sense safety”, đảm bảo robot hoạt động an toàn trong môi trường vật lý, đặc biệt khi tương tác với con người. Công ty cho biết các mô hình mới vẫn đang trong giai đoạn “khám phá ban đầu”, và việc triển khai sẽ diễn ra thận trọng, bắt đầu với các robot hoạt động ở khoảng cách an toàn với con người trước khi tăng mức độ tương tác.

Google cũng đang hợp tác với nhiều công ty để phát triển thêm Gemini Robotics-ER, bao gồm Apptronik (phát triển robot hình người), Agile Robots, Agility Robots, Boston Dynamics, và Enchanted Tools. Mục tiêu của Google là hướng tới “general purpose robotics” – những robot đa năng có thể xử lý nhiều loại nhiệm vụ khác nhau trong thế giới thực.

NguồnTheVerge
Quảng cáospot_img

Tin liên quan

Tin gần đây