Cómo crear música con Inteligencia artificial usando solo texto

La función Stable Audio utiliza técnicas de IA para crear efectos de sonido y audio de hasta 90 segundos

Stable Audio que utiliza técnicas de inteligencia artificial generativa para crear música a partir de textos. (Stability AI)

La inteligencia artificial generativa también puede ser utilizada para que de solo un texto sea posible crear música y efectos de sonido; al menos esa es la gran promesa de Stable Audio, un modelo de IA que es capaz de sintetizar sonidos a partir de descripciones por escrito que fue desarrollado por Stability AI.

La herramienta puede generar clips de hasta 95 segundos en una variedad de géneros musicales, incluidos poprock y hip-hop. Y para entrenar al modelo, la compañía se asoció con AudioSparx, proveedora de música de catálogo, con el objetivo de obtener la licencia de un conjunto de datos compuesto por más de 800,000 archivos de audio, así como los metadatos de texto correspondientes.

Después de introducir 19,500 horas de audio, la IA sabe imitar ciertos sonidos que ha escuchado cuando se le ordena porque los sonidos se han asociado con descripciones textuales de ellos dentro de su red neuronal. De hecho, Stable Audio utiliza una técnica llamada difusión latente, que es un tipo de aprendizaje automático que crea nuevos datos tras reducir el archivo de audio de una manera que mantiene sus características importantes y elimina el ruido innecesario. A medida que la plataforma se expone a más ruido, aprende a generar audios más complejos y realistas.

Diagrama de la arquitectura de Stable Audio proporcionado por Stability AI. (Stability AI)

Otra parte utiliza texto como las descripciones de metadatos de la música y los sonidos, para ayudar a guiar qué tipo de audio se genera. Y para acelerar las cosas, opera en una representación de audio comprimida y simplificada para reducir el tiempo de inferencia, que es la cantidad de tiempo que tarda un modelo de aprendizaje automático en generar una salida una vez que se le ha dado una entrada.

Si bien el audio generado puede cumplir con las especificaciones del formato de CD en profundidad de bits y frecuencia de muestreo, la calidad de percepción real de la música que produce puede variar enormemente debido a que el audio se genera a partir de una representación comprimida en el conjunto de datos.

Cómo crear música con esta IA

– Lo primero que se debe hacer es ingresar en la web principal de Stable Audio, y crear una cuenta o iniciar sesión con alguna existente.

– Una vez realizado el ingreso, lo único que hay que hacer es escribir el tipo de música que se desee obtener en el cuadro que hay en la columna de la izquierda.

-También existe posibilidad de elegir el tiempo de duración del audio.

– Una vez se definan estas características, se debo pulsar en el botón de la flecha hacia la derecha para crear.

– A los pocos segundos se generará un resultado en la columna de la derecha, con un botón de reproducción para poder escucharlo. También es posible descargarlo.

Es importante aclarar que cuanto más preciso y detallado sea el texto con las indicaciones, mejores serán los resultados.

Tipos de servicio

Con esta herramienta es posible generar música a partir de texto. (Stability AI)

Stable Audio fue diseñado para crear música para cualquier uso, tanto comercial como no comercial, ya sea si se trata de un loop para alguna canción o ideas de riffs de guitarra que luego se pueden desarrollar en una canción completa.

La herramienta está disponible de forma gratuita que permite a los usuarios crear hasta 45 segundos de audio para 20 pistas al mes. También cuenta con un un plan Pro mensual de 12 dólares, que incluye 500 pistas de hasta 90 segundos de duración; y una suscripción Empresarial, a través de la cual las compañías pueden personalizar su uso y precio.

Sin embargo, aquellos que utilicen la versión gratuita no pueden usar comercialmente el audio que creen con Stable Audio