ИИ VASA-1 ОТ microsof : реалистичные говорящие лица, управляемые звуком, генерируемые в реальном времени

Мы представляем VASA, платформу для создания реалистичных говорящих лиц виртуальных персонажей с привлекательными визуально-аффективными навыками (VAS) на основе одного статического изображения и речевого аудиоклипа. Наша премьерная модель VASA-1 способна не только производить движения губ, которые прекрасно синхронизируются со звуком, но также улавливать широкий спектр нюансов лица и естественных движений головы, которые способствуют восприятию аутентичности и живости. Основные инновации включают в себя целостную модель генерации динамики лица и движений головы, которая работает в скрытом пространстве лица, а также разработку такого выразительного и распутанного скрытого пространства лица с помощью видео. Посредством обширных экспериментов, включая оценку набора новых показателей, мы показываем, что наш метод значительно превосходит предыдущие методы по различным параметрам. Наш метод не только обеспечивает высокое качество видео с реалистичной динамикой лица и головы, но также поддерживает онлайн-генерацию видео 512×512 со скоростью до 40 кадров в секунду с незначительной начальной задержкой. Это открывает путь к взаимодействию в реальном времени с реалистичными аватарами, имитирующими разговорное поведение человека.

(Примечание: все портретные изображения на этой странице являются виртуальными, несуществующими личностями, созданными StyleGAN2 или DALL·E-3 (за исключением Моны Лизы). Мы изучаем создание визуальных аффективных навыков для виртуальных интерактивных персонажей, НЕ выдавая себя за какого-либо человека в реальный мир. Это всего лишь демонстрация исследования, и здесь нет плана выпуска продукта или API. Дополнительные сведения об ответственном ИИ см. в нижней части этой страницы.)

Реально живой ИИ VASA-1 ОТ microsof

Наш метод способен не только обеспечить синхронизацию губ и звука, но также создать широкий спектр выразительных нюансов лица и естественных движений головы. Он может обрабатывать звук произвольной длины и стабильно выводить бесшовное видео с говорящим лицом.

Управляемость генерации

Наша модель диффузии принимает в качестве условия дополнительные сигналы, такие как направление основного взгляда и расстояние до головы, а также смещение эмоций.

Результаты генерации при разных основных направлениях взгляда (вперед, влево, вправо и вверх соответственно)

Результаты генерации при различных масштабах расстояния до головы

Результаты генерации при различных смещениях эмоций (нейтральность, счастье, гнев и удивление соответственно)

Обобщение вне распределения

Наш метод демонстрирует способность обрабатывать входные фото и аудио, которые находятся за пределами обучающего распределения. Например, он может обрабатывать художественные фотографии, аудиозаписи пения и неанглийскую речь. Эти типы данных не присутствовали в обучающем наборе.

Сила распутывания

Наше скрытое представление распутывает внешний вид, трехмерную позу головы и динамику лица, что позволяет раздельно управлять атрибутами и редактировать сгенерированный контент.

Одна и та же входная фотография с разными последовательностями движений (два случая слева) и одна и та же последовательность движений с разными фотографиями (три случая справа)

Редактирование позы и выражения (необработанный результат генерации, результат только позы, результат только выражения и выражение с вращающейся позой)

Эффективность в реальном времени

Наш метод генерирует видеокадры размером 512×512 со скоростью 45 кадров в секунду в автономном режиме пакетной обработки и может поддерживать до 40 кадров в секунду в режиме онлайн-потоковой передачи с предшествующей задержкой всего 170 мс, оцененной на настольном ПК с одним графическим процессором NVIDIA RTX 4090.

Риски и вопросы ответственного использования ИИ

Наши исследования направлены на создание визуальных аффективных навыков для виртуальных аватаров ИИ с целью их положительного применения. Он не предназначен для создания контента, который будет использоваться для введения в заблуждение или обмана. Однако, как и другие связанные методы создания контента, его все равно потенциально можно использовать не по назначению для выдачи себя за людей. Мы выступаем против любого поведения, направленного на создание вводящего в заблуждение или вредного контента реальных людей, и заинтересованы в применении нашей технологии для более эффективного обнаружения подделок. В настоящее время видео, созданные этим методом, все еще содержат идентифицируемые артефакты, а численный анализ показывает, что все еще существует пробел для достижения подлинности реальных видео.

Признавая возможность неправильного использования, крайне важно признать существенный положительный потенциал нашей техники. Преимущества – такие как повышение равенства в образовании, улучшение доступности для людей с проблемами общения, предложение дружеского общения или терапевтической поддержки тем, кто в ней нуждается, среди многих других – подчеркивают важность наших исследований и других связанных с ними исследований. Мы стремимся ответственно подходить к разработке ИИ с целью улучшения благосостояния людей.

Учитывая такой контекст, у нас нет планов выпускать онлайн-демоверсию, API, продукт, дополнительные сведения о реализации или любые связанные предложения, пока мы не будем уверены, что технология будет использоваться ответственно и в соответствии с надлежащими правилами.

источник:

https://www.microsoft.com/en-us/research/project/vasa-1/

https://info.arxiv.org/labs/index.html

https://arxiv.org/abs/2404.10667