Google анонсировала Lumiere, нейронную сеть для создания реалистичных видеороликов

Компания Google анонсировала Lumiere — нейронную сеть для создания реалистичных коротких видеороликов. В ней используется модель пространственно-временного распространения информации Space-Time-U-Net (STUNet).

Lumiere создает пятисекундный видеоролик на основе текстового описания. Основное отличие модели Space-Time-U-Net, используемой в Lumière, заключается в том, что она генерирует видео за один проход. Другие нейросети сначала генерируют ключевые кадры, а затем заполняют время между ними. Это часто приводит к несоответствиям между кадрами.

Для обучения модели «текст-видео» были использованы 30 миллионов наборов данных «текст-видео». Все видео в наборе имеют разрешение 128 x 128 пикселей, длину 80 кадров и частоту 16 кадров в секунду. Нейронная сеть выдавала на выходе 5-секундный ролик размером 1024 x 1024 пикселя.

Lumiere имеет несколько режимов работы. Нейросеть может создавать видео на основе текстовых аннотаций, анимировать изображения, придерживаться определенного стиля или изменять только некоторые части ролика.

Инженеры опубликовали подробное исследование нового метода создания видео на портале arxive.org, а рабочие примеры нейросети можно увидеть на сайте проекта Lumiere.