SORA : Генеративные модели видео как симуляторы мира

Анонс  модели для генерации видео от OpenAI.

+ Разнообразие: способность создавать видео в различных разрешениях, соотношениях сторон и продолжительности.
+ Понимание: короткие указания на разных языках дополняются деталями, точно описывающими сцену (как в Dally3).
+ Редактирование: создание зацикленных видео, удлинение видео, изменение окружения и объектов, плавные переходы между двумя видео, анимация неподвижных изображений (что уже никого не удивляет) и т. д.
+ Согласованность: кадры достаточно последовательны, а объекты сохраняют свое положение в пространстве. Это особенно ощущается, когда камера вращается вокруг места или объекта.
+ Интерактивность: модели могут имитировать действия, которые влияют на состояние мира в сцене. Например, художник делает мазки на холсте. Старые мазки сохраняются, а новые появляются.
— Из минусов выделяют просадки с точным моделированием физики основных взаимодействий и поддержанием согласованности в длительных выборках

По мере развития Sora обещает стать еще более мощным симулятором физического и цифрового миров.

В настоящее время исследуется масштабное обучение генеративных моделей для видеоданных. В частности, мы совместно обучаем модели распространения текста для видео и изображений различной продолжительности, разрешения и соотношения сторон. Мы используем архитектуру преобразователей, которая работает с пространственно-временной областью скрытых кодов в видео и изображениях. Наша самая большая модель, Sora, способна производить одну минуту видео высокого разрешения. Наши результаты показывают, что масштабирование моделей видеопроизводства — это перспективное направление для создания универсального симулятора физического мира.

Масштабируемые конвертеры для производства видео

Sora — это диффузионная модель, которая, получив на вход зашумленный участок (а также информацию об условиях, например, текстовые подсказки), обучается предсказывать исходный «чистый» участок. Важно отметить, что Sora является диффузионным преобразователем (трансформатором). Трансформаторы продемонстрировали замечательные свойства масштабирования в таких разных областях, как моделирование языка, компьютерное зрение и генерация изображений.

Изменение продолжительности, разрешение и соотношение сторон

Прежние подходы к созданию изображений и видео часто предполагали изменение размера, обрезку и подгонку видео под стандартные размеры. Например, четырехсекундный ролик с разрешением 256×256. Вместо этого обучение с использованием данных исходного размера имеет ряд преимуществ

Гибкость выборки

Sora может сэмплировать широкоэкранное видео 1920x1080p, портретное видео 1080×1920 и все, что между ними. Это позволяет Sora создавать контент для различных устройств непосредственно на основе исходного соотношения сторон. Это также позволяет пользователям быстро создавать прототипы контента в небольших размерах и выводить его в полном разрешении.
Еще о  улучшенном кадрировании и композиции, распознавании речи и т.д.:

Подробнее на сайте OpenAI

 

  

Read More