Nhóm “lưu trữ lậu” cào sạch 300TB nhạc của Spotify, tung torrent miễn phí 86 triệu bài hát
Sau sách, đến lượt âm nhạc trở thành mục tiêu: một nhóm tự xưng là “nhà lưu trữ” tuyên bố đã thu thập gần như toàn bộ thư viện Spotify và phát tán trái phép qua torrent, buộc nền tảng này phải mở cuộc điều tra.
Spotify – nền tảng nghe nhạc trực tuyến lớn nhất thế giới với hàng trăm triệu người dùng – được cho là đã trở thành nạn nhân của một vụ thu thập dữ liệu quy mô cực lớn do Anna’s Archive thực hiện. Nhóm này tuyên bố đã cào (scrape) gần như toàn bộ thư viện Spotify, tải xuống khoảng 300TB dữ liệu âm nhạc và hiện đang phát tán trái phép thông qua các torrent công khai.
Spotify đã xác nhận vụ việc và đưa ra phản hồi với Android Authority, cho biết họ đã phát hiện hành vi truy cập trái phép. Theo tuyên bố, một bên thứ ba đã thu thập metadata công khai và sử dụng các phương thức bất hợp pháp để vượt qua DRM, từ đó truy cập vào một phần các tệp âm thanh trên nền tảng. Spotify khẳng định đang chủ động điều tra sự cố này.
Điểm đáng chú ý nằm ở chữ “một phần”. Trên thực tế, bộ dữ liệu bị rò rỉ bao gồm khoảng 86 triệu tệp nhạc, tương đương 37% tổng số bài hát có trên Spotify, nhưng lại chiếm tới 99,9% lượt nghe trên nền tảng. Phần lớn các bài hát được lưu ở định dạng gốc OGG Vorbis 160kbps của Spotify. Riêng những ca khúc có mức độ phổ biến bằng 0 đã bị nén lại xuống 75kbps để tiết kiệm dung lượng.

Trang web của Anna’s Archive
Không chỉ có nhạc, nhóm này còn công bố một kho metadata khổng lồ với 256 triệu dòng dữ liệu, bao phủ 99,6% tổng lượt nghe trên Spotify. Toàn bộ được biên dịch thành các cơ sở dữ liệu SQL có thể truy vấn. Anna’s Archive thậm chí còn tái dựng gần như hoàn chỉnh API của Spotify dưới dạng JSON, bao gồm 186 triệu mã ISRC duy nhất – mã định danh toàn cầu cho từng bản ghi âm, có thể hiểu như ISBN đối với sách. Thông tin album, nghệ sĩ, ảnh bìa… đều có mặt đầy đủ.
Bài blog mà Anna’s Archive đăng tải về vụ việc này cũng cung cấp nhiều thống kê thú vị về cách Spotify vận hành thư viện âm nhạc. Ví dụ, khoảng 70% bài hát trên nền tảng hầu như không có ai nghe, trong khi chỉ 0,1% ca khúc đạt mức độ phổ biến cực cao. Phần lớn nhạc trên Spotify là đĩa đơn thay vì album, và 120 BPM là nhịp độ phổ biến nhất.
Theo Anna’s Archive, mục đích của hành động này không chỉ là chia sẻ miễn phí, mà là “bảo tồn âm nhạc”. Nhóm vốn nổi tiếng với việc phát tán sách không bản quyền, và giờ áp dụng cùng một lập luận cho âm nhạc, cho rằng Spotify quá thiên về nghệ sĩ nổi tiếng và chất lượng âm thanh thương mại. Theo họ, cần có một “danh mục torrent mang tính chuẩn mực, đại diện cho toàn bộ âm nhạc từng được tạo ra”.
Các torrent hiện được tự lưu trữ, đóng gói bằng định dạng riêng mang tên Anna’s Archive Containers (AAC) – một chuẩn mà nhóm này đã sử dụng trong nhiều năm. Metadata đã được phát hành trước, trong khi phần dữ liệu âm thanh còn lại sẽ được tung ra dần theo từng đợt lớn, phân loại dựa trên mức độ phổ biến. Điều đó đồng nghĩa với việc tác động thực sự của vụ việc có thể chỉ lộ rõ trong thời gian tới.
Với quy mô lên tới hàng trăm terabyte và hàng chục triệu bài hát, đây được xem là một trong những vụ rò rỉ – phát tán âm nhạc lớn nhất từ trước đến nay, đặt Spotify và toàn ngành công nghiệp âm nhạc trước một bài toán pháp lý và bảo mật cực kỳ đau đầu.
NỔI BẬT TRANG CHỦ
-
Kỷ nguyên RAM giá rẻ đã hết: chính OpenAI là nguyên nhân khi nắm độc quyền 40% sản lượng DRAM toàn cầu vài năm tới
Trừ khi có sự đảo ngược trong cơn sốt AI hiện tại, nếu không OpenAI có thể đã đẩy giá RAM toàn thế giới thiết lập một mặt bằng giá cao mới và sẽ không còn rẻ như trước nữa.
-
Cách các gã khổng lồ AI Trung Quốc 'lách luật' để sử dụng công nghệ của NVIDIA