Nvidia навчила нейромережу генерувати відео за текстовим описом
Nvidia розробила нейромережу, здатну генерувати відео за текстовим описом. Нову розробку компанія представила на конференції IEEE з комп'ютерного зору і розпізнавання образів.
За основу розробки взято напрацювання нейромережі Stable Diffusion. За словами розробників, навчання йде дуже швидко.
Нейромережа генерує відео з роздільною здатністю до 1280x2048 пікселів з частотою 24 кадри на секунду і враховує близько 4,1 млрд параметрів, з яких 2,7 млрд навчаються на відео.
Як приклади Nvidia показала згенеровані відео за описами: "Одягнена в костюм лисиця, яка танцює в парку", "Самотній мандрівник у туманному лісі на світанку", "Снігова людина в хуртовину" та інші.
Оскільки це лише дослідницька розробка, про появу нової нейромережі в публічному доступі поки що не йдеться.
У березні компанія OpenAI, яка створила чат-бот ChatGPT, анонсувала випуск потужнішої та вдосконаленої версії штучного інтелекту – GPT-4. Нейромережу "навчили" обробляти не тільки текст, а й картинки.
Найголовніше нововведення – можливість використовувати зображення як вхідні дані та комбінувати їх із текстом. Тепер нейромережа може розуміти, що зображено на фото, і враховувати малюнки та схеми під час розв'язання завдань. Також ШІ може пояснювати дані, представлені як діаграми. Наразі робота із зображеннями перебуває на стадії закритого тестування і поки недоступна.