Stability AI, la empresa responsable del modelo Stable Diffusion, ha anunciado el lanzamiento de Stable Cascade. Un modelo de generación de imagen que, según la compañía, es más rápido y poderoso que su predecesor.
Por el momento, Stable Cascade solo está disponible en GitHub para investigadores, además su licencia no contempla el uso comercial.
Cómo funciona Stable Cascade
Esta nueva IA presenta una mayor capacidad en cuanto a calidad, flexibilidad, ajuste y eficiencia a la hora de crear imágenes. Al igual que otras IAs generadoras de imágenes, Stable Cascade puede generar imágenes a partir de una descripción de texto, además de producir variaciones posteriores de esa misma imagen. Así mismo, con la función «image-to-image» puedes introducir nuevas indicaciones de texto para crear variaciones con nuevos matices.
Un atributo interesante de esta IA es la posibilidad de aumentar por dos la resolución de las imágenes ya existentes. Por ejemplo, puede hacer que una imagen de 1024 x 1024 tenga una resolución de 2048 x 2048.
Otras de las funciones de edición de texto a imagen que incluye la herramienta son «inpainting» y «outpainting», con las que el modelo puede rellenar una parte en específico de la imagen.
Igualmente, está «Canny Edge», con la que los usuarios pueden realizar una obra nueva usando solo los bordes de una imagen existente. También es capaz de ampliar bocetos.
De acuerdo con el comunicado de Stability AI, estas son solo algunas de las funciones de Stable Cascade, por lo que asumimos que, a medida que se presente al público general, podremos descubrir más capacidades de la herramienta.
Stable Cascade: tres modelos en uno
Lo que diferencia a Stable Cascade con otros modelos emblemáticos de Stable Diffusion, es que este no es un modelo de lenguaje grande, sino que se trata de tres modelos diferentes basados en la arquitectura Würstchen.
Su funcionamiento se reparte en tres etapas, que han llamado A,B y C. Según Stability AI, «esta arquitectura permite una compresión jerárquica de imágenes, logrando resultados notables mientras utiliza un espacio latente altamente comprimido».
La etapa C recoge la entrada de texto del usuario y las comprime en fragmentos de código más pequeños. Estos pasan a las etapas B y A para decodificar la solicitud y generar la imagen final. Esta división de las solicitudes en bits más pequeños hace que se requiera menos memoria y menos horas de entrenamiento en GPU, pudiendo ejecutarse más rápido y permitiendo un mejor funcionamiento.
Foto: Stable Cascade
Mantente informado de las noticias más relevantes en nuestro canal de Telegram