Nvidia научила нейросеть генерировать видео по текстовому описанию
Nvidia разработала нейросеть, способную генерировать видео по текстовому описанию. Новую разработку компания представила на конференции IEEE по компьютерному зрению и распознаванию образов.
За основу разработки взяты наработки нейросети Stable Diffusion. По словам разработчиков, обучение идет очень быстро.
Нейросеть генерирует видео с разрешением до 1280x2048 пикселей с частотой 24 кадра в секунду и учитывает около 4,1 млрд параметров, из которых 2,7 млрд обучаются на видео.
Как примеры Nvidia показала сгенерированные видео по описаниям: "Одетая в костюм танцующая в парке лиса", "Одинокий путешественник в туманном лесу на рассвете", "Снежный человек в метель" и другие.
Поскольку это лишь исследовательская разработка, о появлении новой нейросети в публичном доступе пока речь не идет.
В марте компания OpenAI, создавшая чат-бот ChatGPT, анонсировала выпуск более мощной и усовершенствованной версии искусственного интеллекта – GPT-4. Нейросеть «научили» обрабатывать не только текст, но и картинки.
Самое главное новшество – возможность использовать изображения в качестве входных данных и комбинировать их с текстом. Теперь нейросеть может понимать, что изображено на фото, и учитывать рисунки и схемы при решении задач. Также ИИ может объяснять данные, представленные в качестве диаграмм. В настоящее время работа с изображениями находится на стадии закрытого тестирования и пока недоступна.