Мгновенное видео может представлять собой следующий скачок в технологии искусственного интеллекта

К Кейд Мец

Кейд Мец уже более десяти лет пишет о достижениях в области искусственного интеллекта.

Ян Сансавера, архитектор программного обеспечения нью-йоркского стартапа Runway AI, напечатал краткое описание того, что он хотел увидеть в видео. «Спокойная река в лесу, — писал он.

Менее чем через две минуты экспериментальный интернет-сервис сгенерировал короткое видео спокойной реки в лесу. Бегущая вода реки блестела на солнце, когда она прорезала деревья и папоротники, поворачивала за угол и мягко плескалась о камни.

Runway, которая планирует открыть свой сервис для небольшой группы тестировщиков на этой неделе, является одной из нескольких компаний, разрабатывающих технологию искусственного интеллекта, которая вскоре позволит людям создавать видео, просто вводя несколько слов в поле на экране компьютера.

Они представляют собой следующий этап в отраслевой гонке — в которой участвуют такие гиганты, как Microsoft и Google, а также гораздо более мелкие стартапы — для создания новых видов систем искусственного интеллекта, которые, по мнению некоторых, могут стать следующим большим шагом в технологии, столь же важным, как и веб-браузеры или iPhone.

Новые системы генерации видео могут ускорить работу кинематографистов и других цифровых художников, став новым и быстрым способом создания трудно обнаруживаемой онлайн-дезинформации, из-за чего становится еще труднее сказать, что реально в Интернете.

Эти системы являются примерами так называемого генеративного ИИ, который может мгновенно создавать текст, изображения и звуки. Другой пример — ChatGPT, онлайн-чат-бот, созданный стартапом OpenAI из Сан-Франциско, который в конце прошлого года ошеломил технологическую отрасль своими возможностями.

Google и Meta, материнская компания Facebook, представили первые системы генерации видео в прошлом году, но не поделились ими с общественностью, потому что опасались, что эти системы в конечном итоге могут быть использованы для распространения дезинформации с новой скоростью и эффективностью.

Но исполнительный директор Runway Крис Валенсуэла сказал, что, по его мнению, технология слишком важна, чтобы держать ее в исследовательской лаборатории, несмотря на связанные с ней риски. «Это одна из самых впечатляющих технологий, которые мы создали за последние сто лет», — сказал он. «Вам нужно, чтобы люди действительно использовали это».

Конечно, в возможности редактировать и манипулировать фильмами и видео нет ничего нового. Кинематографисты занимаются этим уже более века. В последние годы исследователи и цифровые художники используют различные технологии искусственного интеллекта и программное обеспечение для создания и редактирования видео, которые часто называют дипфейковыми видео.

Но системы, подобные той, которую создала Runway, могли бы со временем заменить навыки редактирования одним нажатием кнопки.

Технология Runway генерирует видеоролики из любого краткого описания. Для начала вы просто вводите описание так же, как вводите быструю заметку.

Это работает лучше всего, если в сцене есть какое-то действие, но не слишком много — что-то вроде «дождливый день в большом городе» или «собака с мобильным телефоном в парке». Нажмите Enter, и система сгенерирует видео через минуту или две.

Технология может воспроизводить обычные изображения, например, кошку, спящую на ковре. Или он может комбинировать разрозненные концепции для создания видео, которые выглядят странно забавными, как корова на вечеринке по случаю дня рождения.

Видео длятся всего четыре секунды, и если присмотреться, видео получается прерывистым и размытым. Иногда изображения странные, искаженные и тревожные. В системе есть способ объединения животных, таких как собаки и кошки, с неодушевленными предметами, такими как мячи и мобильные телефоны. Но при правильном подсказке он создает видеоролики, которые показывают, куда движется технология.

«На данный момент, если я увижу видео с высоким разрешением, я, вероятно, поверю ему, — сказал Филипп Изола, профессор Массачусетского технологического института, специализирующийся на искусственном интеллекте. — Но это довольно быстро изменится».

Как и другие технологии генеративного ИИ, система Runaway учится, анализируя цифровые данные — в данном случае фотографии, видео и подписи, описывающие, что эти изображения содержат. Исследователи уверены, что обучая эту технологию работе со все большими объемами данных, они смогут быстро улучшить и расширить ее возможности. Эксперты считают, что вскоре они будут создавать профессиональные мини-фильмы с музыкой и диалогами.

Трудно определить, что система создает в настоящее время. Это не фото. Это не мультфильм. Это набор множества пикселей, смешанных вместе для создания реалистичного видео. Компания планирует предложить свою технологию с другими инструментами, которые, по ее мнению, ускорят работу профессиональных художников.

В прошлом месяце социальные сети пестрили изображениями Папы Франциска в белом пуховике Balenciaga — удивительно модном наряде для 86-летнего понтифика. Но изображения не были реальными. 31-летний строитель из Чикаго создал вирусную сенсацию, используя популярный инструмент искусственного интеллекта под названием Midjourney.

Доктор Изола потратил годы на создание и тестирование такого рода технологий, сначала в качестве исследователя в Калифорнийском университете в Беркли и в OpenAI, а затем в качестве профессора в Массачусетском технологическом институте. полностью поддельные изображения Папы Франциска.

«Было время, когда люди публиковали дипфейки, и они не могли меня одурачить, потому что они были такими диковинными или не очень реалистичными», — сказал он. «Теперь мы не можем принимать изображения, которые мы видим в Интернете, за чистую монету».

Midjourney — один из многих сервисов, которые могут генерировать реалистичные неподвижные изображения из короткой подсказки. Другие включают Stable Diffusion и DALL-E, технологию OpenAI, которая положила начало этой волне фотогенераторов, когда она была представлена год назад.

Midjourney опирается на нейронную сеть, которая обучается своим навыкам, анализируя огромные объемы данных. Он ищет шаблоны, прочесывая миллионы цифровых изображений, а также текстовые подписи, которые описывают, что изображено на каждом изображении.

Когда кто-то описывает образ для системы, он генерирует список функций, которые может включать этот образ. Одной из особенностей может быть изгиб в верхней части уха собаки. Другим может быть край мобильного телефона. Затем вторая нейронная сеть, называемая диффузионной моделью, создает изображение и генерирует пиксели, необходимые для функций. В конечном итоге он преобразует пиксели в связное изображение.

Такие компании, как Runway, в которой работает около 40 сотрудников и которая привлекла 95,5 млн долларов, используют эту технику для создания движущихся изображений. Анализируя тысячи видеороликов, их технология может научиться объединять множество неподвижных изображений таким же последовательным образом.

«Видео — это просто серия кадров — неподвижных изображений, которые объединены таким образом, что создается иллюзия движения», — сказал г-н Валенсуэла. «Хитрость заключается в обучении модели, которая понимает взаимосвязь и согласованность между каждым кадром».

Подобно ранним версиям таких инструментов, как DALL-E и Midjourney, эта технология иногда любопытным образом сочетает концепции и изображения. Если вы попросите плюшевого мишку, играющего в баскетбол, он может дать своего рода плюшевую игрушку-мутанта с баскетбольным мячом вместо руки. Если вы попросите собаку с мобильным телефоном в парке, она может дать вам щенка с мобильным телефоном и странным человеческим телом.

Но эксперты считают, что они могут сгладить недостатки, обучая свои системы на все большем количестве данных. Они считают, что технология в конечном итоге сделает создание видео таким же простым, как написание предложения.

«В прежние времена, чтобы сделать что-то подобное удаленно, у вас должна была быть камера. У вас должен был быть реквизит. У вас должно было быть место. Вы должны были получить разрешение. У вас должны были быть деньги», — сказала Сьюзен Бонсер, автор и издатель из Пенсильвании, которая экспериментировала с ранними воплощениями технологии генеративного видео. «Тебе не обязательно иметь ничего из этого сейчас. Вы можете просто сесть и представить это».

Мгновенное видео может представлять собой следующий скачок в технологии искусственного интеллекта

Новое поколение чат-ботов

Related posts

Поделитесь статьей!