Apple đang nghiên cứu dữ liệu tổng hợp để nâng cấp Apple Intelligence mà không xâm phạm quyền riêng tư

Apple công bố phương pháp mới sử dụng bảo mật vi sai để huấn luyện AI và Siri, tối ưu hóa tính năng trong khi bảo vệ quyền riêng tư người dùng.

Apple đang đối mặt với thách thức trong việc huấn luyện các mô hình ngôn ngữ lớn phục vụ Apple Intelligence và Siri, bởi cam kết không khoan nhượng về quyền riêng tư khiến họ không thể thu thập dữ liệu người dùng theo cách truyền thống.

Để giải quyết bài toán này, Apple đã công bố nghiên cứu mới trên blog Machine Learning Research, trình bày phương pháp sử dụng dữ liệu tổng hợp và kỹ thuật gọi là “differential privacy” (tạm dịch: bảo mật vi sai) để cải thiện khả năng AI, trong khi vẫn bảo vệ danh tính cá nhân tuyệt đối.

Thay vì thu thập email thật từ người dùng, Apple tạo ra các email tổng hợp (synthetic emails) mô phỏng nội dung phổ biến như: lời mời chơi tennis lúc 3 giờ chiều. Những email này được chuyển thành dạng “embedding” – tập hợp thông tin về ngôn ngữ, chủ đề và độ dài văn bản. Các embedding tổng hợp này sau đó được gửi đến một số lượng nhỏ thiết bị iPhone có bật tính năng Device Analytics.

Trên mỗi iPhone, hệ thống sẽ chọn ngẫu nhiên email thực tế từ người dùng (hoàn toàn thực hiện trên thiết bị), tạo embedding tương ứng và so sánh với các embedding tổng hợp. iPhone sẽ tự quyết định embedding nào gần giống nhất, mà không cần gửi email thật về máy chủ Apple.

Apple đang nghiên cứu dữ liệu tổng hợp để nâng cấp Apple Intelligence mà không xâm phạm quyền riêng tư

Tiếp theo, Apple sử dụng kỹ thuật bảo mật vi sai để xác định những embedding tổng hợp nào được chọn thường xuyên nhất trên toàn bộ thiết bị – từ đó suy ra xu hướng viết email mà không biết cụ thể nội dung email của ai hoặc thiết bị nào đã chọn. Những embedding được chọn nhiều nhất có thể dùng làm dữ liệu huấn luyện hoặc kiểm thử, giúp cải thiện khả năng tóm tắt email, viết văn bản và nhiều tính năng khác trong Apple Intelligence.

Phương pháp tương tự cũng được áp dụng cho tính năng Genmoji. Apple xác định các mẫu lệnh tạo Genmoji phổ biến thông qua dữ liệu đã được xử lý bằng bảo mật vi sai, chỉ chấp nhận những lệnh đã được hàng trăm người dùng – đảm bảo không ai bị định danh qua lệnh hiếm gặp.

Tất cả dữ liệu Apple thu được đều không gắn với địa chỉ IP hoặc bất kỳ ID người dùng nào, đồng thời đã được làm nhiễu ngẫu nhiên để tránh truy vết. Người dùng vẫn giữ quyền kiểm soát: chỉ những ai đã bật gửi dữ liệu phân tích thiết bị (Device Analytics) mới tham gia quá trình này, và hoàn toàn có thể tắt bất kỳ lúc nào trong phần cài đặt.

Apple cho biết họ sẽ mở rộng việc áp dụng kỹ thuật bảo mật vi sai trong các bản cập nhật iOS 18.5, iPadOS 18.5 và macOS Sequoia 15.5 – đặc biệt là đối với các tính năng như Image Playground, Memories Creation, Writing Tools và Visual Intelligence, nhằm mang lại trải nghiệm AI mạnh mẽ hơn mà vẫn đảm bảo quyền riêng tư người dùng.

NguồnMacrumors
Quảng cáospot_img

Tin liên quan