Как сделать нейросеть со своим голосом

0
18

Как сделать ИИ-кавер при помощи нейросети

Как сгенерировать трек на сайте musicfy

Музыка защищена авторским правом, поэтому использовать в коммерческих целях ее нельзя. Будьте готовы к тому, что ваш сгенерированный трек могут удалить с «Ютуба» или других платформ по требованию правообладателя. Либо выбирайте песни, доступные по лицензии Creative Commons.

Нейросеть из Google Colab позволяет сгенерировать трек сотней голосов, модели которых сделали пользователи. Этот способ затратен по времени: нужно ждать загрузки кода, часто он выдает ошибки. Разобраться в причинах с ходу сложно — сервис не говорит, в чем именно проблема. Порой приходится проводить время на форумах и «Ютубе», чтобы устранить ошибку — а через пять минут наткнуться уже на новую.

История про трек разошлась, и позже его удалили со всех площадок по требованию правообладателя Universal. Но в соцсетях стали появляться другие коллаборации: голосом Фредди Меркьюри исполнили песню Imagine Dragons, а Канье Уэст «спел» Just The Two of Us. Тренд добрался и до рунета: песни стали перепевать голосами Доры и Элджея. А ИИ-каверы нейро-Моргенштерна сильно разошлись в «Тиктоке».

Охват глобальных данных и небольших сообществ. В компании Dimagi, занимающейся разработкой мобильных приложений для сбора, хранения и обработки статической информации в здравоохранении, тоже заинтересовались Voice Engine. Там начали применять ее для интерактивной обратной связи с медработниками в удаленных уголках планеты. А еще для создания обучающих роликов (например, по грудному вскармливанию младенцев) на редких языках. Только в Кении насчитывается 68 диалектов, и каждая община говорит на своем. Яркий пример — шэн — смесь английского и суахили.

Шаг 7. Выберите голос, который будет исполнять вашу песню. Для этого под заголовком Other Downloads (.zip) Step o.1 найдите поле model_url и добавьте туда ссылку на папку с моделью голоса. Ссылки можно взять из списка предложенных в этой же ячейке: Канье Вест, Кендрик Ламар, Дрейк.

Хотя эта технология не нова (ее разработали в конце 2022 года), возможности Voice Engine впечатляют. Например, с помощью нейросети девушка, которая потеряла способность нормально говорить из-за сосудистой опухоли головного мозга, теперь вновь может общаться своим привычным голосом. Для этого разработчики использовали звуковую запись, которую она когда-то сделала для школьного проекта.

OpenAI, разработчик ChatGPT, не так давно удивлял реалистичными видеороликами, которые научилась генерировать его нейросеть Sora. И вот новое детище компании — модель ИИ под названием Voice Engine, способная заговорить вашим голосом, послушав его лишь 15 секунд. Расскажем, где это уже применяется и какие меры безопасности выбраны, чтобы избежать мошенничества.

Musicfy позволяет генерировать треки гораздо проще: с коротким ожиданием, без запуска кода и возможности столкнуться с ошибками. С этим способом даже не требуется конвертировать аудиофайлы. Главный минус — на сайте представлен ограниченный набор голосов.

ЧИТАТЬ ТАКЖЕ:  Как создать изображение с помощью нейросети

Шаг 6. Поочередно запустите ячейки Check GPU, Setup 1, Setup 2, Download ContentVec, Setup HF Downloads. Для этого нужно нажать кнопку Play возле соответствующего заголовка. Когда код загрузится, возле названия ячейки появится зеленая галочка. Запускайте следующую ячейку, только когда закончится загрузка предыдущей. Если вы пропустите одну из строчек, программа не сработает.

Дольше всего загружается Setup 1 — около 10 минут. Остальным требуется несколько секунд. Вам не придется загружать код для каждого трека, достаточно сделать это один раз. Но спустя примерно два часа код автоматически сбросится. В таком случае придется начинать весь процесс заново.

Шаг 9. Нажмите на иконку папки и перетащите в пустое пространство аудиофайл с а капеллой в формате wav, который вы подготовили в третьем шаге. Загрузка файла может занять несколько минут — все зависит от его длины. Когда файл загрузится, запустите код.

Voice Engine сейчас тестируют на небольших группах людей. И хотя ее создатели опасаются, что их детище попадет в руки мошенников, они в итоге намерены сделать новинку доступной и безопасной для массового пользования. Ведь она может стать полезной во многих сферах жизни.

Например, в обучении маленьких детей, школьников и студентов. На образовательных интернет-платформах можно найти массу курсов, и если их будет читать не механический, а естественно звучащий голос, слушать такие лекции будет намного приятнее. А значит, усваивать материал будет проще. OpenAI уже заключила контракт с одной из таких компаний, которая раньше занималась программами для обучения детей чтению и математике. Теперь с помощью Voice Engine и GPT-4 они разработали и другие курсы — например, по химии и физике.

Шаг 4. Выберите один из предложенных голосов. На сайте доступны вокалы Арианы Гранде, Дрейка, Граймс, Канье Уэста, Трэвиса Скотта и других. Есть два персонажа мультфильмов — Губка Боб Квадратные Штаны и Питер Гриффин. При этом все эти голоса могут воспроизводить русскоязычный текст.

Способ, не требующий навыков программирования или мощного компьютера: воспользоваться нейросетью на Google Colab. Полностью готовый ИИ-кавер можно сделать примерно за полчаса. Сгенерировать песню можно с голосом исполнителя, чью модель выложили в открытый доступ энтузиасты.

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь