Shane Jones, Giám đốc kỹ thuật phần mềm chính của Microsoft, công khai cho biết đã phát hiện ra lỗ hổng trong trình tạo hình ảnh DALL-E 3 của OpenAI vào đầu tháng 12. Lỗ hổng này cho phép người dùng bỏ qua các quy định an toàn để tạo ra hình ảnh bạo lực và tục tĩu.
Jones tuyên bố Microsoft đã tìm cách che đậy vấn đề này. Do đó, ông đã gửi thư tới các nhà lập pháp tại Quốc hội Mỹ. Theo bức thư do GeekWire xuất bản, Jones đã báo cáo lỗ hổng này cho Microsoft và được hướng dẫn chuyển vấn đề trực tiếp cho OpenAI và anh đã làm như vậy.
Ngày 14/12, kỹ sư này đăng trên LinkedIn lá thư gửi ban giám đốc phi lợi nhuận của OpenAI, kêu gọi họ tạm dừng cung cấp DALL-E 3 để “ưu tiên an toàn hơn là thương mại hóa”.
Tuy nhiên, theo kỹ sư này, ngay sau đó “bộ phận pháp lý của Microsoft đã yêu cầu” ông phải xoá bài đăng ngay lập tức.
“Bất đắc dĩ, tôi xóa bức thư và chờ đợi lời giải thích từ đội ngũ pháp lý của Microsoft. Tôi chưa bao giờ nhận được lời giải thích hay biện minh nào từ họ”, Jones nói.
Jones kêu gọi một giải pháp pháp lý để giám sát các rủi ro liên quan đến AI và buộc các công ty công nghệ phải chịu trách nhiệm về sự an toàn của các sản phẩm AI.
Ngoài ra, kỹ sư của Microsoft còn nêu lên mối lo ngại về việc đảm bảo nhân viên công nghệ có thể báo cáo các vấn đề một cách độc lập mà không bị “đe dọa phải giữ im lặng”.
Đại diện công ty cho biết, họ đã triển khai một công cụ báo cáo nội bộ, cho phép nhân viên nêu lên và báo cáo bất kỳ mối lo ngại nào liên quan đến các sản phẩm AI, bao gồm cả những mục đích sử dụng nhạy cảm.
“Chúng tôi đã thiết lập các kênh báo cáo nội bộ mạnh mẽ để điều tra và khắc phục đúng cách mọi vấn đề. Công ty khuyến nghị nhân viên nên sử dụng kênh này để chúng tôi có thể xác thực và kiểm tra mối lo ngại một cách thích hợp trước khi báo cáo công khai”, trích tuyên bố của đại diện Microsoft.
Về trường hợp lỗ hổng trên DALL-E 3, đại diện OpenAI nói rằng đã điều tra ngay lập tức vấn đề nhưng nhận thấy các kỹ thuật Jones báo cáo “không vượt ra ngoài bộ lọc an toàn”.
“Trong mô hình DALL-E 3 cơ bản, chúng tôi đã nỗ lực lọc nội dung dung tục nhất khỏi dữ liệu đào tạo, bao gồm nội dung đồ họa khiêu dâm và bạo lực, đồng thời đã phát triển các bộ phân loại hình ảnh mạnh mẽ giúp mô hình tránh tạo ra các hình ảnh có hại”, người phát ngôn tuyên bố.
Ngoài ra, công ty cũng đã triển khai các biện pháp bảo vệ bổ sung cho ChatGPT và API DALL-E, bao gồm cả việc từ chối các yêu cầu liên quan đến các nhân vật nổi tiếng của công chúng.
Tuần trước, các hình ảnh khiêu dâm deepfake ca sỹ Taylor Swift do AI tạo ra lưu hành trên mạng xã hội X (Twitter) đã nhận được 47 triệu lượt truy cập trước khi nền tảng này đình chỉ từ khoá.
(Theo Cybernews)