Un grupo de Hackers crea un backup de casi toda la música existente en Spotify
Por primera vez en la historia de la música digital, una parte sustancial del catálogo de la mayor plataforma de streaming del mundo ha sido preservada de forma abierta y distribuida. Anna’s Archive, un proyecto conocido hasta ahora por su foco en libros y artículos académicos, ha anunciado que ha respaldado Spotify a gran escala: no solo su metadata, sino también decenas de millones de archivos de audio. El resultado es, según sus propios datos, el mayor archivo público de información musical jamás creado, con profundas implicaciones culturales, tecnológicas, económicas y legales para la industria musical.
Un archivo sin precedentes
Las cifras son difíciles de asimilar. El proyecto incluye metadata de unos 256 millones de tracks, con 186 millones de ISRC únicos, y alrededor de 86 millones de archivos de audio, lo que representa aproximadamente el 99,6% de todas las escuchas en Spotify hasta julio de 2025. El peso total ronda los 300 TB, distribuidos mediante torrents y agrupados por popularidad.
Más allá del volumen, lo verdaderamente disruptivo es el planteamiento: se trata del primer “archivo de preservación” musical totalmente abierto, diseñado para ser replicado por cualquiera que disponga del almacenamiento y la voluntad de hacerlo. En términos conceptuales, esto sitúa a la música grabada al mismo nivel que los libros o los papers científicos dentro del movimiento de preservación digital descentralizada.
Por qué Spotify (y por qué ahora)
Anna’s Archive parte de una premisa clara: su misión es preservar el conocimiento y la cultura humana, independientemente del formato. Aunque la música, a diferencia del texto, ya ha sido históricamente bien archivada por coleccionistas y comunidades de fans, estos esfuerzos presentan limitaciones estructurales.
Por un lado, existe un sesgo hacia los artistas más populares. El llamado long tail: música con pocas escuchas, ediciones locales, catálogos en desuso, depende a menudo de una sola persona que decida compartirla, lo que hace que muchos archivos estén mal distribuidos o directamente desaparezcan. Por otro, la obsesión por la máxima calidad posible (FLAC, masters sin compresión) genera archivos enormes que dificultan la creación de un archivo verdaderamente completo de “toda la música jamás producida”.
Spotify, con todos sus defectos, ofrece algo que ningún otro actor tiene: una base de datos casi totalizante del consumo musical global contemporáneo, con identificadores estandarizados (ISRC, UPC), métricas de popularidad y una cobertura sin precedentes del catálogo mundial. No es “toda la música del mundo”, pero es, hoy por hoy, el mejor punto de partida.
Metadata: el verdadero tesoro
Desde un punto de vista industrial, incluso más que los archivos de audio, la joya de este proyecto es la metadata. Anna’s Archive afirma haber capturado alrededor del 99,9% de artistas, álbumes y canciones presentes en Spotify, publicados en bases de datos SQLite compactas y consultables, con una conversión casi sin pérdidas desde las respuestas originales de la API.
Para ponerlo en contexto: MusicBrainz, uno de los pilares históricos de la metadata musical abierta, cuenta con unos 5 millones de ISRC únicos. Este archivo incluye 186 millones. La diferencia no es incremental, es de orden de magnitud.
Esto abre la puerta a usos que van mucho más allá de la preservación: análisis de catálogos globales, estudios de repertorio, investigación musicológica a gran escala, entrenamiento de modelos de recomendación o incluso auditorías independientes del funcionamiento del mercado musical digital.
Audio, calidad y pragmatismo
En cuanto al audio, el proyecto adopta una postura claramente pragmática. Para los tracks con popularidad mayor que cero, se conserva el OGG Vorbis original a 160 kbps, añadiendo metadata sin reencodificar el sonido. Para los tracks con popularidad cero, se opta por una reencodificación a OGG Opus a 75 kbps, una calidad que, según los autores, es perceptualmente equivalente para la mayoría de oyentes, aunque detectable por expertos.
Esta decisión es clave desde el punto de vista de la preservación: reduce drásticamente el tamaño total del archivo y hace viable mantener una colección casi completa del catálogo de Spotify. Es una lógica opuesta a la del coleccionismo audiófilo, pero coherente con un objetivo de archivo cultural global.
La “verdadera” aleatoriedad y el poder del dato
Un detalle aparentemente anecdótico, pero muy revelador, es la mención al True Shuffle. Al disponer de metadata de prácticamente todo Spotify, es técnicamente posible crear una reproducción aleatoria real entre todas las canciones de la plataforma, algo que muchos usuarios sienten que Spotify no ofrece.
Esto apunta a una cuestión más profunda: el control algorítmico. Spotify no es solo un catálogo, es un sistema de mediación cultural. Tener acceso abierto a su estructura de datos, aunque no al algoritmo propietario, permite imaginar alternativas, auditorías y experimentos que cuestionan el monopolio de la plataforma sobre cómo se descubre y consume música.
Implicaciones para la industria musical
Las implicaciones de este archivo son enormes y, en muchos casos, incómodas para los actores tradicionales del sector.
Preservación vs. control
La industria ha delegado de facto la preservación de la música grabada en plataformas privadas. Este proyecto expone el riesgo de ese modelo: si Spotify desapareciera, cambiara radicalmente su estrategia o perdiera licencias clave, una parte significativa de la memoria musical digital podría perderse. Un archivo abierto descentraliza ese riesgo.Cuestiones legales y éticas
Aunque el objetivo declarado es la preservación y no el consumo masivo, el hecho de que los archivos de audio estén disponibles vía torrent entra en un terreno legal extremadamente gris (o directamente negro, según jurisdicciones). Esto reabre el eterno debate entre derechos de autor, acceso cultural y archivo histórico, ahora en la era del streaming.Asimetría de poder
Spotify y otras plataformas concentran no solo el acceso al público, sino también el acceso a los datos. Un archivo abierto de esta magnitud reduce esa asimetría, al menos en el plano de la información, y podría empoderar a investigadores, desarrolladores y, potencialmente, a artistas y sellos.El long tail, por fin visible
Al incluir millones de tracks con popularidad cero o marginal, el archivo ofrece una radiografía única de la música que existe pero no se escucha. Para analistas del negocio musical, esto es oro puro: permite estudiar dinámicas de saturación, sobreoferta y visibilidad con una precisión inédita.
¿Una amenaza o un síntoma?
Más que una amenaza directa, este proyecto es un síntoma. Refleja una creciente desconfianza en la capacidad —o la voluntad— de las grandes plataformas para actuar como custodios del patrimonio cultural. También conecta con un movimiento más amplio de archivos abiertos, descentralización y resistencia a la dependencia de infraestructuras privadas.
Para la industria musical, el mensaje es claro: el streaming resolvió el problema del acceso, pero no el de la preservación. Y cuando ese vacío existe, alguien acaba llenándolo, aunque sea desde los márgenes y con métodos polémicos.
Este proyecto de Anna’s Archive marca un punto de inflexión en la relación entre tecnología, cultura y música grabada. Es, al mismo tiempo, un logro técnico extraordinario, un gesto político en favor del acceso y la preservación, y un desafío frontal al statu quo del negocio musical digital.
Independientemente de cómo evolucionen las reacciones legales o industriales, una cosa es segura: a partir de ahora, ya no es posible ignorar la pregunta fundamental que este proyecto pone sobre la mesa: Si la música define nuestra cultura, ¿quién debería ser responsable de preservarla para el futuro?



Esto es mucho más grande de lo que parece, cuando lo leía (por medio de una VPN porque se ha capado en España el acceso) flipaba!
¿por que spotify? Y como hicieron para hackear el DRM? Y como para hacer scrape de tal cantidad de datos sin que spotify se diera cuenta. Cómo Cómo Cómo. Dijeron que empezaron por los más populares…. Creo que el mas popular de todos era Birds of a feather. No conozco la canción. Pero si el disco anterior de la arista. Muy bueno. https://annas-archive.org/blog/backing-up-spotify.html Aca pueden seguir el tema, aparentemente ya publicaron o publicaran los metadatos, las canciones aun no.