Stable Audio 3.0 es la nueva versión del modelo de generación de audio de Stability AI, la empresa detrás de Stable Diffusion. Según el comunicado oficial, el modelo puede crear canciones de más de seis minutos con coherencia estructural que incluye intro, desarrollo, clímax y cierre. No se trata de fragmentos musicales sueltos sino de piezas completas con evolución tonal y dinámica.

La generación musical con inteligencia artificial ha avanzado rápidamente en los últimos dos años. Modelos anteriores como Stable Audio 2.0 podían producir clips de unos segundos con calidad aceptable, pero carecían de capacidad para mantener una línea narrativa a lo largo de varios minutos. Stable Audio 3.0 resuelve ese problema mediante una arquitectura que procesa el contexto musical de manera global.

El sistema también mejora la calidad de las voces generadas, que ahora suenan más naturales y con menos artefactos digitales. Los instrumentos mantienen coherencia armónica durante toda la pieza, algo especialmente difícil cuando se trabaja con generación puramente sintética. Los creadores señalan que el modelo fue entrenado con un dataset de música con licencia, diferenciándose de aproximaciones que scrapean contenido protegido.

El lanzamiento se produce en un momento de tensión creciente entre la industria musical y las empresas de IA generativa. Varios artistas y discográficas han interpuesto demandas contra Stability AI por usar su música para entrenar modelos sin autorización.