Cuộc điều tra từ Proof News cho thấy, các công ty này đã sử dụng bộ dữ liệu tạo bởi công ty phi lợi nhuận có tên EleutherAI, chứa các bản ghi lại nội dung video YouTube của hơn 48.000 kênh mà không hề có sự xin phép chủ sở hữu hay nhà sáng tạo nội dung.
Mặc dù tập dữ liệu không chứa hình ảnh hay video, song các nội dung được lấy lại từ những nhà sáng tạo nội dung hàng đầu trên nền tảng, chẳng hạn như Marques Brownlee và MrBeast, cũng như các nhà xuất bản tin tức lớn như The New York Times, BBC và ABC News. Ngoài ra, còn có phụ đề từ các video thuộc về Engadget.
“Apple lấy dữ liệu cho AI của họ từ một số công ty”, Brownlee - một YouTuber nổi tiếng đăng trên X. “Một trong số đó là hàng tấn dữ liệu/bản ghi từ các video trên YouTube, bao gồm cả của tôi”.
Trước đó, CEO YouTube Neal Mohan khẳng định, việc các công ty sử dụng dữ liệu của YouTube để đào tạo các mô hình AI là vi phạm các điều khoản và dịch vụ của nền tảng này.
Hiện các công ty AI vẫn chưa minh bạch về dữ liệu được sử dụng để đào tạo thuật toán. Đầu tháng này, các nghệ sĩ và nhiếp ảnh gia đã chỉ trích Apple vì không tiết lộ nguồn dữ liệu đào tạo cho Apple Intelligence - tính năng AI mới sẽ có mặt trên hàng triệu thiết bị của “nhà táo” trong năm nay.
YouTube, kho lưu trữ video lớn nhất thế giới, cũng là “mỏ vàng” dữ liệu để đào tạo AI, khi bao gồm bản ghi, âm thanh, video và hình ảnh.
Hồi đầu năm, giám đốc công nghệ OpenAI, Mira Murati, đã né tránh các câu hỏi từ The Wall Street Journal về việc liệu công ty có sử dụng video YouTube để đào tạo Sora, công cụ tạo video AI sắp ra mắt của OpenAI hay không.
“Tôi sẽ không đi sâu vào chi tiết về dữ liệu đã được sử dụng, nhưng đó là dữ liệu được cấp phép hoặc có sẵn công khai”, Murati cho biết vào thời điểm đó. Trong khi đó, CEO Alphabet Sundar Pichai cũng nhấn mạnh, các công ty sử dụng dữ liệu từ YouTube để đào tạo các mô hình AI là vi phạm các điều khoản dịch vụ của nền tảng này.
(Theo Proof News, WSJ)