IT ИИ ИИ VASA-1 ОТ microsof : реалистичные говорящие лица, управляемые звуком, генерируемые в реальном времени VOST 11 мая, 2024 0 ИИ VASA-1 ОТ microsof TL;DR: одиночное портретное фото + звук речи = сверхреалистичное видео говорящего лица с точной синхронизацией губ и звука, реалистичным поведением лица и натуралистичными движениями головы, генерируемыми в реальном времени.TL;DR: single portrait photo + speech audio = hyper-realistic talking face video with precise lip-audio sync, lifelike facial behavior, and naturalistic head movements, generated in real time.Мы представляем VASA, платформу для создания реалистичных говорящих лиц виртуальных персонажей с привлекательными визуально-аффективными навыками (VAS) на основе одного статического изображения и речевого аудиоклипа. Наша премьерная модель VASA-1 способна не только производить движения губ, которые прекрасно синхронизируются со звуком, но также улавливать широкий спектр нюансов лица и естественных движений головы, которые способствуют восприятию аутентичности и живости. Основные инновации включают в себя целостную модель генерации динамики лица и движений головы, которая работает в скрытом пространстве лица, а также разработку такого выразительного и распутанного скрытого пространства лица с помощью видео. Посредством обширных экспериментов, включая оценку набора новых показателей, мы показываем, что наш метод значительно превосходит предыдущие методы по различным параметрам. Наш метод не только обеспечивает высокое качество видео с реалистичной динамикой лица и головы, но также поддерживает онлайн-генерацию видео 512×512 со скоростью до 40 кадров в секунду с незначительной начальной задержкой. Это открывает путь к взаимодействию в реальном времени с реалистичными аватарами, имитирующими разговорное поведение человека.(Примечание: все портретные изображения на этой странице являются виртуальными, несуществующими личностями, созданными StyleGAN2 или DALL·E-3 (за исключением Моны Лизы). Мы изучаем создание визуальных аффективных навыков для виртуальных интерактивных персонажей, НЕ выдавая себя за какого-либо человека в реальный мир. Это всего лишь демонстрация исследования, и здесь нет плана выпуска продукта или API. Дополнительные сведения об ответственном ИИ см. в нижней части этой страницы.)Реально живой ИИ VASA-1 ОТ microsofНаш метод способен не только обеспечить синхронизацию губ и звука, но также создать широкий спектр выразительных нюансов лица и естественных движений головы. Он может обрабатывать звук произвольной длины и стабильно выводить бесшовное видео с говорящим лицом.Управляемость генерацииНаша модель диффузии принимает в качестве условия дополнительные сигналы, такие как направление основного взгляда и расстояние до головы, а также смещение эмоций.Результаты генерации при разных основных направлениях взгляда (вперед, влево, вправо и вверх соответственно)Результаты генерации при различных масштабах расстояния до головыРезультаты генерации при различных смещениях эмоций (нейтральность, счастье, гнев и удивление соответственно)Обобщение вне распределенияНаш метод демонстрирует способность обрабатывать входные фото и аудио, которые находятся за пределами обучающего распределения. Например, он может обрабатывать художественные фотографии, аудиозаписи пения и неанглийскую речь. Эти типы данных не присутствовали в обучающем наборе.Сила распутыванияНаше скрытое представление распутывает внешний вид, трехмерную позу головы и динамику лица, что позволяет раздельно управлять атрибутами и редактировать сгенерированный контент.Одна и та же входная фотография с разными последовательностями движений (два случая слева) и одна и та же последовательность движений с разными фотографиями (три случая справа)Редактирование позы и выражения (необработанный результат генерации, результат только позы, результат только выражения и выражение с вращающейся позой)Эффективность в реальном времениНаш метод генерирует видеокадры размером 512×512 со скоростью 45 кадров в секунду в автономном режиме пакетной обработки и может поддерживать до 40 кадров в секунду в режиме онлайн-потоковой передачи с предшествующей задержкой всего 170 мс, оцененной на настольном ПК с одним графическим процессором NVIDIA RTX 4090.Риски и вопросы ответственного использования ИИНаши исследования направлены на создание визуальных аффективных навыков для виртуальных аватаров ИИ с целью их положительного применения. Он не предназначен для создания контента, который будет использоваться для введения в заблуждение или обмана. Однако, как и другие связанные методы создания контента, его все равно потенциально можно использовать не по назначению для выдачи себя за людей. Мы выступаем против любого поведения, направленного на создание вводящего в заблуждение или вредного контента реальных людей, и заинтересованы в применении нашей технологии для более эффективного обнаружения подделок. В настоящее время видео, созданные этим методом, все еще содержат идентифицируемые артефакты, а численный анализ показывает, что все еще существует пробел для достижения подлинности реальных видео.Признавая возможность неправильного использования, крайне важно признать существенный положительный потенциал нашей техники. Преимущества – такие как повышение равенства в образовании, улучшение доступности для людей с проблемами общения, предложение дружеского общения или терапевтической поддержки тем, кто в ней нуждается, среди многих других – подчеркивают важность наших исследований и других связанных с ними исследований. Мы стремимся ответственно подходить к разработке ИИ с целью улучшения благосостояния людей.Учитывая такой контекст, у нас нет планов выпускать онлайн-демоверсию, API, продукт, дополнительные сведения о реализации или любые связанные предложения, пока мы не будем уверены, что технология будет использоваться ответственно и в соответствии с надлежащими правилами.источник:https://www.microsoft.com/en-us/research/project/vasa-1/https://info.arxiv.org/labs/index.htmlhttps://arxiv.org/abs/2404.10667 25H8d7vbP94SaZhuBGTrmTAbout Author VOST See author's posts ЕЩЕ ПО ТЕМЕ IT ИСКУССТВО Дипфейк Синтетические медиа, созданные искусственным интеллектом VOST 17 сентября, 2023 0 Добавить комментарий Отменить ответВаш адрес email не будет опубликован. Обязательные поля помечены *Комментарий *Имя * Email * Сайт Сохранить моё имя, email и адрес сайта в этом браузере для последующих моих комментариев.