Vía El Economista

El terreno del vídeo sigue siendo uno de los pocos que se resisten a la inteligencia artificial generativa, pero cada vez va superando más etapas. Google ha presentado Lumiere, un generador de video basado en IA descrito como un «modelo de difusión espacio-temporal para la generación realista de video».

Esta tecnología parece ser capaz de crear videos que representan movimientos realistas y diversos, convirtiéndolo en uno de los generadores de video IA de texto a animal más avanzados demostrados hasta ahora. En la presentación se mostró cómo desde un texto podía crear imágenes de distintos animales con diversos estilos. Y si bien el resultado aún sigue estando alejado de lo que podría ser una filmación o una animación convencional, cada vez convence más.

La propuesta de Lumiere

Lumiere destaca por encima de otros modelos de generación de video debido a su arquitectura única. A diferencia de los modelos existentes que sintetizan fotogramas clave distantes seguidos de una superresolución temporal, Lumiere genera toda la duración temporal de un video de una sola vez. Este enfoque permite una consistencia temporal global, haciendo que los videos resultantes sean fluidos y coherentes.

Los aspectos espacio-temporales del video son manejados simultáneamente por Lumiere, lo que le permite crear videos de principio a fin en un proceso continuo. Esto elimina la necesidad de unir pequeñas partes o fotogramas, resultando en una experiencia de generación de video más eficiente y simplificada.

Qué se podrá hacer cuando esté disponible

Aunque aún está en desarrollo, cuando esté disponible Lumiere ofrece una amplia gama de características impresionantes que demuestran sus capacidades como generador de video IA. Algunas de estas características son:

  • Generación de texto a video: Lumiere puede convertir una instrucción escrita en un video nuevo.
  • Conversión de imagen a video: Al convertir imágenes fijas en videos, Lumiere agrega movimiento y dinamismo fotos o dibujos.
  • Generación de video basada en estilo: Con la ayuda de una imagen de referencia, Lumiere puede generar videos en estilos específicos.
  • Edición de video basada en texto: Lumiere permite además la edición de video mediante indicaciones basadas en texto, facilitando la creación de videos de aspecto profesional.
  • Capacidades de inpainting de video: Lumiere puede cambiar la apariencia de objetos en un video, como alterar la ropa que llevan las personas que ha generado con una segunda instrucción.

También tiene limitaciones

El artículo de investigación que acompaña el lanzamiento de Lumiere menciona que el modelo de IA produce videos de cinco segundos de duración con una resolución de 1024×1024 píxeles. Aunque esta resolución se considera baja, los investigadores realizaron un estudio de usuario y descubrieron que las salidas de Lumiere fueron preferidas sobre los modelos existentes de síntesis de video IA.

Google entrenó el modelo de texto a video en un conjunto de datos que contiene 30 millones de videos junto con sus leyendas de texto. Los videos en el conjunto de datos tienen 80 fotogramas de duración, con una velocidad de cuadro de 16 fotogramas por segundo. El modelo base fue entrenado a una resolución de 128×128 píxeles.

Los videos generados por IA han avanzado mucho en términos de calidad y capacidades en los últimos años, hace unos meses Google ya presentó Gemini, que conseguía interpretar también vídeo a nivel contextual.

Meta también reveló su generador de video por IA, al igual que TikTok. Por ahora estos avances han permitido la creación de vídeos paródicos surrealistas, pero su llegada también viene acompañada de dudas sobre cómo puede usarse para manipular y crear deepfakes de personalidades o políticos.