¿Cómo saber si mi música fue utilizada para entrenar modelos de IA?
Una base de datos permite buscar qué artistas han sido incluidos en el scraping
Uno de los problemas que más ocupan a analistas, ejecutivos y abogados dentro de la industria musical, es demostrar que obras musicales protegidas por copyright fueron utilizadas para entrenar los modelos de inteligencia artificial que han tomado por asalto a la economía creativa.
Es una tarea realmente difícil, por no decir imposible, aunque algunos expertos aseguran haber desarrollado tecnología capaz de establecer atribución entre música original y resultados de canciones hechas con prompts, actualmente no es posible a ciencia cierta hacer estas conexiones.
Las plataformas de generación de música con IA (Suno, Udio, etc) han aplicado una filosofía de cero transparencia cuando se les ha increpado por el material que han utilizado para entrenar sus modelos. Básicamente han dicho que sí han utilizado obras disponibles públicamente en internet, sin entrar en detalles sobre las fuentes exactas, y argumentando que, por el simple hecho de estar en internet, su utilización está amparada bajo la premisa de “fair use”, algo que todavía se está discutiendo en tribunales.
Sin embargo, el periodista investigador Alex Reisner, del medio estadounidense The Atlantic, ha descubierto una serie de datasets, que según afirma, son iguales a los que han sido utilizados para entrenar los modelos de IA generativa comerciales, y está cada uno disponible en la sección de su web AI Watchdog para que cualquier arista pueda buscarse a sí mismo, o a cualquiera, y confirmar si su música ha sido utilizada sin su consentimiento.
Reisner explica que encontró estos datasets en artículos de investigación publicados por desarroladores y en sitios web donde se comparten datos para entrenar IA. Estos datasets han sido descargados miles de veces, pero debido a la falta de transparencia en el sector, no es posible saber por quién, pero lo cierto es que están allí disponibles para cualquiera.
Dataset de tracks de Spotify
En esta base de datos hay 114.000 tracks extraídos de Spotify. El conjunto fue recopilado por un desarrollador anónimo de IA en la plataforma Hugging Face, una comunidad de desarrolladores. Se ha descargado más de 70.000 veces para el final de Mayo de 2026. Spotify no tiene afiliación con este dataset.
Para buscar artistas dentro de esta base de datos haz click aquí
Dataset Sleeping-DISCO-9M
Esta colección contiene 9,713,413 extraídos de YouTube, así como letras de Genius.com. Fue compilado por Sleeping AI, un grupo de investigadores que construyen datasets y comparten sus investigaciones sobre desarrollos de IA públicamente
Para buscar artistas dentro de esta base de datos haz click aquí
Dataset LAION-DISCO-12M
Este conjunto tiene 12,320,916 de canciones extraídas de YouTube, abarcando 91 años de música. Fue compilado por LAION, una organización sin fines de lucro alemana que construye grandes datasets y ha recibido financiación de Hugging Face y el co-fundador de Stability AI Emad Mostaque.
Para buscar artistas dentro de esta base de datos haz click aquí
Dataset del Free Music Archive
Una recopilación de 106 574 canciones descargadas del Free Music Archive en 2016. El conjunto de datos fue recopilado por la École Polytechnique Fédérale de Lausanne, en Suiza. La mayoría de las canciones están sujetas a licencias Creative Commons que exigen que se mencione al artista siempre que se utilice la canción y prohíben su uso en proyectos comerciales. Google utilizó este conjunto de datos para entrenar modelos de IA generativa, y Stability AI utilizó un subconjunto de 13.874 canciones.
Para buscar artistas dentro de esta base de datos haz click aquí
Todas las piezas investigativas de Alex Reisner en The Atlantic son lectura obligada para estar al día en el avance vertiginoso de la inteligencia artificial en la economía creativa. Están disponibles en este enlace.



