Un programa de edición de sonido | PEXELS

TW
0

Los desarrolladores del modelo de inteligencia artificial (IA) Stable Difussion han adaptado esta tecnología para que sea capaz de crear espectrogramas capaces de convertirse en clips de audio o música a partir de un texto.

Stable Difussion es un modelo de aprendizaje automático ('machine learning') de texto a imagen desarrollado por Stability AI, que se utiliza para generar imágenes digitales de alta calidad a partir de texto.

Dos desarrolladores llamados Seth Forsgren y Hayk Martiros han creado un proyecto llamado Rifussion mediante el cual adaptan esta solución a la música. Con ella se pueden generar espectrogramas que se pueden traducir, a su vez, en clips de audio.

Tal y como explican los creadores de este proyecto en su página web, un espectrograma de audio o sonograma es una representación visual basada en conjuntos de indicaciones de texto introducidos por el usuario.

Estos sonogramas disponen de dos ejes: X, que representa el tiempo, e Y, que representa la frecuencia. El color de cada píxel de cada espectrograma de audio, en cambio es su amplitud. Precisamente es este dato el que tiene en cuenta Torchaudio, que toma la imagen generada por Stable Diffusion y la convierte en audio.

Desde Rifussion anuncian que no solo es posible generar música a partir de imágenes y texto, sino que también se permite combinar, experimentar y fusionar estilos.

Los desarrolladores han puntualizado que, en caso de disponer de una GPU lo suficiente potente, se pueden crear sonogramas con un tamaño de imágenes generadas de 512 x 512 píxeles y de cinco segundos de duración. No obstante, se pueden introducir variaciones infinitas basándose en la misma imagen original.

Rifussion incluye actualmente un generador de clips, así como indicaciones y detalles técnicos para poder utilizar esta tecnología en su página web. Además, su código está disponible en su repositorio en GitHub.