Мы попросили Петра Сухоруких, основателя проекта AI2CLONE, дать пояснительное интервью про цифровых аватаров.
Пётр, добрый день. Спасибо, что пришли, откликнулись поговорить про цифрового аватара, про двойников, которые создаются с помощью нейросетей. Расскажите немного о себе.
У нас видеопродакшн, мы занимаемся созданием видеоконтента при помощи цифровых двойников. Цифровый двойник это такой робот, который выглядит как наш заказчик, который говорит как наш заказчик, но это не реальный человек, а это продукт созданный с помощью нейросети и пока мы создаем видеоролики с человеком в кадре, этот человек может заниматься своими какими-то делами. Это удобно, потому что освобождает огромное количество времени.
Вот создаем такие ролики для YouTube, TikTok, Instagram, и тем самым помогаем человеку набрать медийность, подписчиков, но в то же время без своего личного участия перед камерой.
Как применяется цифровой аватар?
Ну вот смотрите, цифровой аватар применяется в тех сферах, когда у человека по какой-то причине нет возможности либо желания снимать видеоконтент, но в этом необходимость есть. То есть желания нет, а необходимость есть. Например, есть медицинские клиники и очень важен личный бренд, имидж врача.
Если у врача нет личных социальных сетей, где что-то регулярно не выходит, то тогда могут сделать клиенты выбор в сторону другого специалиста.
Или брокеры, им надо ездить, показывать какие-то объекты, разговаривать с клиентами. У них есть необходимость что-то регулярно выкладывать в социальные сети, чтобы поддерживать коммуникацию. Например, там обзоры каких-то новых жилых комплексов, новых районов, какие-то специальные предложения от застройщиков. Ну вот и это все. И это все нужно как-то делать, а у него времени нет. Плюс цифровой аватар применяется для экспертов, предпринимателей, которым важно либо вовне, либо для внутренней какой-то коммуникации использовать это внутри компании.
А почему человек не может сам снимать видеоролики?
Ну, он, конечно, может снимать, но вы представьте, сколько времени на это требуется, потому что нужно оператор позвать, свет выставить, студию какую-то арендовать и так далее, так далее, так потом все это смонтировать и прочее. Сценарий написать, записать все с одного дубля, да, желательно. Вот, и так как.
На это уходит огромное количество времени и сил, и когда мы говорим про создание видеоконтента с помощью цифровых двойников, то это занимает сильно меньше времени, меньше усилий и соответственно стоит дешевле, потому что мы роботу дали какой-то текст, да, он его проговорил, если нам не нравится, мы подкорректировали звуковую дорожку, ну а самое главное, что человек, который в кадре, который как цифровой двойник, он там занят своими какими-то вопросами и в создании этого ролика уже не участвует, он просто чисто на согласование нравится-не нравится. Вот. И поэтому человек, конечно, может снимать, но это занимает сильно больше времени.
Как устроен процесс создания двойника, насколько много сил вообще уходит на создание этого продукта, сколько часов это, сколько лет?
Смотрите, здесь все просто, потому что для того, чтобы нейросеть поняла, как вы выглядите, она может обучиться на основании даже 30-секундного видеоролика. Можно загружать от 30 секунд до 5 минут, и если вы даете ей какой-то видеоролик, в котором вы просто что-то говорите, смотрите в камеру, что-то говорите, то нейросеть может вас запомнить и дальше воспроизводить на любом языке, на котором вам потребуется этот контент и все. Поэтому процесс создания выглядит следующим образом. Присылается видеоролик на одну-две минуты. Дальше мы загружаем этот ролик в нейросеть. После того, как нейросеть обучается, мы делаем моделирование голоса. То есть мы создаем, чтобы голос был похож на нашего заказчика, либо берем голос диктора, если он не хочет свой голос использовать, и после этого уже переходим к подготовке самого контента.
Ага, понятно. Так, очень интересно откуда вы берете контент?
Ну, смотрите, один из способов, который можно делать, можно писать либо ролики самостоятельно, либо делать там умное копирование, да, это когда вы берете какие-то чужие блоги иностранные, вы работаете на русскоязычной аудитории, возьмите ролики иностранные, отберите их по популярности и, сохранив тему, сохранив тезисы, перепишите, поменяйте визуал, ну и вот сделайте что-то подобное. То есть это уже упрощает время при создании контента.
Подскажите, какие нейросети вы используете в работе при создании цифрового двойника?
О, их несколько. Одна из основных – это Heygen, которая производит самого аватара. И есть отдельные нейросети, которые работают с голосом. Например, с голосом работает система Elevenlabs. Для картинок мы используем Canva и многие другие, но это, наверное, основные.
Подскажите, а на что обращать внимание тем, кто будет делать аватара самостоятельно? Можно ли его вообще сделать самостоятельно?
Конечно, можно. Для того, чтобы сделать робот самостоятельно, нужно пройти регистрацию на сервисе Heygen, следовать инструкции, которые там указаны, и вы получите робота. Но он будет, может быть, местами неказистый, он, может быть, будет набирать там мало просмотров, и это будет не совсем похоже вообще на контент, но вот с точки зрения попробовать, это можно легко сделать. Самое главное, на что обращать внимание. Обращать внимание на качество звука, обращать внимание на качество видео изначального, на основании которого вы обучаете нейросеть.
Потому что нейросеть она копирует не только хорошие моменты, но и копирует, соответственно, все шумы помехи и прочее. Поэтому, если вы запишите видео низкого качества, то и аватар у вас будет низкого качества. Запишите голос с шумами, он копирует все эти шумы и будет вас копировать вместе с помехами. Будете использовать однотипные какие-то движения, то, соответственно, робот тоже это копирует, и у вас будет очень механизированный аватар.
Если вы не знаете, например, с чего начать, то можете к нам обратиться, мы сделаем пробное видео для вас бесплатно, и вы посмотрите, как это работает, а дальше уже примите решение работать с этим самостоятельно, либо с помощью каких-то внешних подрядчиков.
Все понятно, Петр. Спасибо, что поделились нюансами создания цифрового аватара, цифрового двойника. Увидимся. До новых встреч.