Содержание статьи
Нейросеть меняющая голос — список из 11 сайтов
Об авторе
Эх ладно я нашел живой гайд и живой коллаб по которому уже успешно обучаю) Дам ссылки тута
Инструкция по обучению увы токмо на ангельском но с картинками! https://youtu.be/x-jelyl6dyE
Коллаб для тренировки по этой инструкции https://colab.research.google.com/drive/1TU-kkQWVf-PLO_hSa2QCMZS1XF5xVHqs#scrollTo=MErtbNbp4wn0
Коллаб живой и рабочий остальное что находил нерабочий мусор.
Да суперкомпы гугла бесплатно попашут на вас 3 часа в сутки мощей стоимостью в пару миллионов)
1. Количество эпох это степень обучения модели, больше>лучше. 41.6k — это качество дискретизации, больше>лучше.
2. Модели есть, но их нужно ещё поискать. В основном все их обучают сами и мало кто делится в итоге. Погуглите модели или гайд по обучению. Я хотел продолжить гайд обучением, но обнаружил, что это мало кому интересно. В общем, решил не тратить силы.
Почему у всех в описании так всё просто? Запустите и работайте 🙂 Так она не запускается просто. Моя система Win7 64, видео АМД, 32 память. При запуске не может загрузить модуль cudart64_110.dll, который точно есть. И нигде никто не пишет, как это можно исправить. Или, какие требования, чтоб RVC точно работала :(((
Скажу откровенно, меня пугает уровень развития современных технологий. Но кроме страха я ощущаю ещё и надежду. Надежду на то, что человечество может и не искоренит свои пороки, но благодаря развитию технологий подарит утешение миллионам людей по всему миру. Уважайте свободу, используйте свободное ПО и ни в коем случае не предавайте себя!
Например, в обучении маленьких детей, школьников и студентов. На образовательных интернет-платформах можно найти массу курсов, и если их будет читать не механический, а естественно звучащий голос, слушать такие лекции будет намного приятнее. А значит, усваивать материал будет проще. OpenAI уже заключила контракт с одной из таких компаний, которая раньше занималась программами для обучения детей чтению и математике. Теперь с помощью Voice Engine и GPT-4 они разработали и другие курсы — например, по химии и физике.
Также Voice Engine пригодится тем, кто общается жестами. Существуют приложения с искусственным интеллектом, которые позволяют коммуницировать людям с ограниченными возможностями. Используя новую нейросеть, они могут выбирать из числа уникальных, нероботизированных голосов.
RVC-GUI — это удобная оболочка с открытым исходным кодом созданная для упрощения управления параметрами нейронной сети RVC применяемой для синтеза любого голоса/музыкальной композиции. По сравнению с аналогами, не требует установки и настройки сложных библиотек или использования Linux. Для работы программы достаточно Windows 10/11 и относительно современного ПК.
Кроме того, с помощью Voice Engine можно переводить текст. Нейросеть способна воспроизводить голос человека не только на его родном языке, но и на любых других, при этом сохраняя акцент. Например, если франкоговорящий захочет создать аудио на английском языке, ИИ сгенерирует запись с французским произношением. Так, в компании HeyGen, которая специализируется на создании маркетинговых образов и аватаров, Voice Engine используют для перевода видеороликов. Английскую речь там трансформируют в испанскую, китайскую, немецкую, французскую, японскую. И все это голосом одной женщины.
App.kits.ai
Эта платформа находится на передавой по разработке алгоритмов преобразования текста в закадровый голос для коммерческого использования. Представьте, что вы можете создать видеоролики за считанные минуты с помощью естественного человеческого голоса. Технологии преобразования текста в речь Synthesys (TTS) и преобразования текста в видео Synthesys (TTV) воплотят все ваши сценарические задумки.
3. Чтобы программа могла воссоздать полноценную музыкальную композицию с интересующем нас голосом, необходимо заранее подготовить голосовую модель и отделить вокал солиста от инструментала в интересующей нас композиции. В общем, чтобы голос стал отдельно от музыки.
Так это обычная демонстрация, что в итоге получится. Ссылки указаны на оригинал под видео и в самом видео. Присмотритесь. Не говоря уже о том, что я дополнил видео и создаю в видеоредакторе совершенно другую композицию. Гайд структрурирован и дополнен для ixbt/live.
____________________
https://sun9-68.userapi.com/impg/kd6PbLiwqeZXUQUaGrhvfO7RzOsKtzyNKRdvrA/nqmmeGHt7uM.jpg?size=408×799&quality=96&sign=732996bb6c0bcb3d8034bd250d444997&type=album
_____________________
https://sun9-44.userapi.com/impg/xPuiy1N3LeDzaej6LE9FLz5RQ5zA7jnLboEJng/hXQC4cymEEI.jpg?size=1118×211&quality=95&sign=6aa0749ba4a3e0c6e2520597d41d4f62&type=album
Дополню что собирать музло обратно гораздо удобнее во FL Studio
А Отковыривать голос и музыку отдельно в Ultimate Vocal Remover
ЗЫ я хз как комент сюда попал вместо того чтобы пойти вниз… ну да ладно.
По теме отвечу что для телефона есть гугл коллаб он всё за телефон сделает по быстрому)
Но это огромная тема есть на ютубе lunnaholy он инструкции подробные снимал для бедолаг с телефонами
С появлением передовых технологий искусственного интеллекта и синтеза голоса на рынке появилось множество компьютерных генераторов голоса. Эти быстрые достижения также сделали ненужным использование больших объемов голосовых сэмплов или высокопрофессионального оборудования.
У вас есть трек или какая-то запись и вы хотите заменить голос с помощью нейросети — смело читайте статью и пробуйте ниже приведенные нейросети меняющие голос. При помощи их можно изменять голос музыканта в песне, исполнителя любого фильма и ролика. В общем, всё что можно сделать со звуком.
Инструкция
Отдельно дополню для тех кто попробует натянуть на экстремальный вокал — чистый голос
Возможны неприятные открытия типа экстрим вокалиста орущего мимо нот но при экстрим вокале это было нормально а на чистом звучит как испанский стыд))
Ещё обнажается хреновое качество записи или недостаточная тренировка модели (не только малое количество эпох но и неудачно собранный датасет для тренировки с однообразным или слишком небольшим по количеству материалом) — слова могут звучать неразборчиво.
Ну и на совсем высоком скриме или шрайке уменьшайте питч иначе чистым голосом будет совсем шептать)
Speechify — это приложение для преобразования текста в голос. Сервис может преобразовывать PDF-файлы, электронные письма, документы или статьи в аудио, которое можно слушать, а не читать. Есть инструменты, которые позволяют регулировать скорость чтения, библиотека из более чем 200 голосов.
Traceback (most recent call last):
File «site.py», line 169, in addpackage
File «», line 1, in
File «», line 562, in module_from_spec
AttributeError: ‘NoneType’ object has no attribute ‘loader’
Remainder of file ignored
Error processing line 1 of G:\Archive\Deep Fake\runtime\lib\site-packages\matplotlib-3.6.2-py3.9-nspkg.pth:
Traceback (most recent call last):
File «site.py», line 169, in addpackage
File «», line 1, in
File «», line 562, in module_from_spec
AttributeError: ‘NoneType’ object has no attribute ‘loader’
Remainder of file ignored
Error processing line 7 of G:\Archive\Deep Fake\runtime\lib\site-packages\pywin32.pth:
Traceback (most recent call last):
File «site.py», line 169, in addpackage
File «», line 1, in
ModuleNotFoundError: No module named ‘pywin32_bootstrap’
Remainder of file ignored
Traceback (most recent call last):
File «G:\Archive\Deep Fake\rvcgui.py», line 3, in
from tkinter import filedialog
ModuleNotFoundError: No module named ‘tkinter’
Press any key to continue.. .
((((
Охват глобальных данных и небольших сообществ. В компании Dimagi, занимающейся разработкой мобильных приложений для сбора, хранения и обработки статической информации в здравоохранении, тоже заинтересовались Voice Engine. Там начали применять ее для интерактивной обратной связи с медработниками в удаленных уголках планеты. А еще для создания обучающих роликов (например, по грудному вскармливанию младенцев) на редких языках. Только в Кении насчитывается 68 диалектов, и каждая община говорит на своем. Яркий пример — шэн — смесь английского и суахили.
Мощный генератор Play.ht преобразования текста в речь с помощью нейросети. Может клонировать и изменять голоса. Можно загружать закадровый текст в формате MP3 и WAV-файлов. Возможность создавать голосовые виджеты для сайтов и переводить текст в речь мужскими и женскими голосами.
Сервис предоставляет широкий выбор голосов, постоянно совершенствуя свои модели синтеза голоса. LOVO недавно запустила Genny, генератор голоса искусственного интеллекта нового поколения, оснащенный функциями преобразования текста в речь и редактирования видео. Он может воспроизводить голоса, похожие на человеческие, с потрясающим качеством, а создатели контента могут одновременно редактировать свое видео.
Здравствуйте, не пойму что нужно делать, к примеру я хочу заменить песенку про мамонтенка, голосом Розенбаума, мои действия какие должны быть. 1) взять песенку мамонтенка и сделать один вокал или наоборот один Розенбаум. 2)где мне брать модель под мамонтёнка в формате RVC/RVC2, 3) МОЖНО пожалуйста дополнить инструкцию.
К слову если ваша любимая поп певица или певец никогда не будет петь ваш любимый всякий лютый метал это не проблема.
Нейросеть в недавних версиях наловчилась адекватно переваривать гроул и скрим и петь его внятно чистым голосом))
Например вот так Милен Фармер поёт лютый похоронный дум митол)
https://www.youtube.com/watch?v=TfkuXjirPYU
А вот так русскую алтьтернативу 2007го))
https://www.youtube.com/watch?v=nne3wxyzeZU