Apple đang nghiên cứu dữ liệu tổng hợp để nâng cấp Apple Intelligence mà không xâm phạm quyền riêng tư

Apple đang đối mặt với thách thức trong việc huấn luyện các mô hình ngôn ngữ lớn phục vụ Apple Intelligence và Siri, bởi cam kết không khoan nhượng về quyền riêng tư khiến họ không thể thu thập dữ liệu người dùng theo cách truyền thống.

Để giải quyết bài toán này, Apple đã công bố nghiên cứu mới trên blog Machine Learning Research, trình bày phương pháp sử dụng dữ liệu tổng hợp và kỹ thuật gọi là “differential privacy” (tạm dịch: bảo mật vi sai) để cải thiện khả năng AI, trong khi vẫn bảo vệ danh tính cá nhân tuyệt đối.

Thay vì thu thập email thật từ người dùng, Apple tạo ra các email tổng hợp (synthetic emails) mô phỏng nội dung phổ biến như: lời mời chơi tennis lúc 3 giờ chiều. Những email này được chuyển thành dạng “embedding” – tập hợp thông tin về ngôn ngữ, chủ đề và độ dài văn bản. Các embedding tổng hợp này sau đó được gửi đến một số lượng nhỏ thiết bị iPhone có bật tính năng Device Analytics.

Trên mỗi iPhone, hệ thống sẽ chọn ngẫu nhiên email thực tế từ người dùng (hoàn toàn thực hiện trên thiết bị), tạo embedding tương ứng và so sánh với các embedding tổng hợp. iPhone sẽ tự quyết định embedding nào gần giống nhất, mà không cần gửi email thật về máy chủ Apple.

Tiếp theo, Apple sử dụng kỹ thuật bảo mật vi sai để xác định những embedding tổng hợp nào được chọn thường xuyên nhất trên toàn bộ thiết bị – từ đó suy ra xu hướng viết email mà không biết cụ thể nội dung email của ai hoặc thiết bị nào đã chọn. Những embedding được chọn nhiều nhất có thể dùng làm dữ liệu huấn luyện hoặc kiểm thử, giúp cải thiện khả năng tóm tắt email, viết văn bản và nhiều tính năng khác trong Apple Intelligence.

Đọc thêm: iOS 18.4 chính thức hỗ trợ Siri tiếng Việt, nhưng Apple Intelligence thì chưa

Phương pháp tương tự cũng được áp dụng cho tính năng Genmoji. Apple xác định các mẫu lệnh tạo Genmoji phổ biến thông qua dữ liệu đã được xử lý bằng bảo mật vi sai, chỉ chấp nhận những lệnh đã được hàng trăm người dùng – đảm bảo không ai bị định danh qua lệnh hiếm gặp.

Tất cả dữ liệu Apple thu được đều không gắn với địa chỉ IP hoặc bất kỳ ID người dùng nào, đồng thời đã được làm nhiễu ngẫu nhiên để tránh truy vết. Người dùng vẫn giữ quyền kiểm soát: chỉ những ai đã bật gửi dữ liệu phân tích thiết bị (Device Analytics) mới tham gia quá trình này, và hoàn toàn có thể tắt bất kỳ lúc nào trong phần cài đặt.

Apple cho biết họ sẽ mở rộng việc áp dụng kỹ thuật bảo mật vi sai trong các bản cập nhật iOS 18.5, iPadOS 18.5 và macOS Sequoia 15.5 – đặc biệt là đối với các tính năng như Image Playground, Memories Creation, Writing Tools và Visual Intelligence, nhằm mang lại trải nghiệm AI mạnh mẽ hơn mà vẫn đảm bảo quyền riêng tư người dùng.

Sắp có máy ảnh số half frame đầu tiên của Fujifilm?

Insta360 X5 là camera 360 độ bền nhất và thông minh nhất từng có

vivo X200 Ultra ra mắt với ống kính gắn ngoài, vivo X200s gây chú ý với viên pin khủng

Ransomware tấn công toàn cầu: Doanh nghiệp mất trắng 23 triệu đôla

vivo V50 Lite sắp ra mắt tại Việt Nam, trang bị pin BlueVolt 6500mAh và sạc nhanh 90W

FPT nhận loạt giải Sao Khuê 2025: FPT Play, Camera Agent và giám sát AI lọt top

Epson phát động cuộc thi ảnh toàn cảnh quốc tế lần thứ 16 với tổng giải thưởng hơn 50,000 USD

HTV CafeTek phát động cuộc thi “Sáng tạo vì Tương lai 2025” – THE NEXT INNOVATOR 2025