Содержание статьи
Озвучка текста голосом ИИ — наделите свой контент силой речи
Инструкция
Дополню что собирать музло обратно гораздо удобнее во FL Studio
А Отковыривать голос и музыку отдельно в Ultimate Vocal Remover
ЗЫ я хз как комент сюда попал вместо того чтобы пойти вниз… ну да ладно.
По теме отвечу что для телефона есть гугл коллаб он всё за телефон сделает по быстрому)
Но это огромная тема есть на ютубе lunnaholy он инструкции подробные снимал для бедолаг с телефонами
Скажу откровенно, меня пугает уровень развития современных технологий. Но кроме страха я ощущаю ещё и надежду. Надежду на то, что человечество может и не искоренит свои пороки, но благодаря развитию технологий подарит утешение миллионам людей по всему миру. Уважайте свободу, используйте свободное ПО и ни в коем случае не предавайте себя!
1. Количество эпох это степень обучения модели, больше>лучше. 41.6k — это качество дискретизации, больше>лучше.
2. Модели есть, но их нужно ещё поискать. В основном все их обучают сами и мало кто делится в итоге. Погуглите модели или гайд по обучению. Я хотел продолжить гайд обучением, но обнаружил, что это мало кому интересно. В общем, решил не тратить силы.
Отдельно отмечу что по крайней мере для SVC не все эпохи одинаково полезны)
Лучше тестить промежуточные итерации (я сохраняю каждую 1000ю потому говорю за них) скажем 42000 шаг может звучать с откровенный металлическим голосом робота работая хуже чем 16000й а тем временем 41000 был идеален о_о а 40000 тоже мусор.
Металл кстати многое прощает! Как раз плотное музло скрывает многие косяки) Голос понизил в редакторе на децибел и ваще хорошо стало)
А вот с простым музлом типа голоса под гитару засада) косяки как на ладони — их нечем маскировать!
Естественно всё это зависит от того чей голос куда натягивать)
Когото проще когото сложнее.
Это индивидуально даже не для каждого исполнителя а для для каждой песни.
Почему у всех в описании так всё просто? Запустите и работайте 🙂 Так она не запускается просто. Моя система Win7 64, видео АМД, 32 память. При запуске не может загрузить модуль cudart64_110.dll, который точно есть. И нигде никто не пишет, как это можно исправить. Или, какие требования, чтоб RVC точно работала :(((
К слову если ваша любимая поп певица или певец никогда не будет петь ваш любимый всякий лютый метал это не проблема.
Нейросеть в недавних версиях наловчилась адекватно переваривать гроул и скрим и петь его внятно чистым голосом))
Например вот так Милен Фармер поёт лютый похоронный дум митол)
https://www.youtube.com/watch?v=TfkuXjirPYU
А вот так русскую алтьтернативу 2007го))
https://www.youtube.com/watch?v=nne3wxyzeZU
Здравствуйте, не пойму что нужно делать, к примеру я хочу заменить песенку про мамонтенка, голосом Розенбаума, мои действия какие должны быть. 1) взять песенку мамонтенка и сделать один вокал или наоборот один Розенбаум. 2)где мне брать модель под мамонтёнка в формате RVC/RVC2, 3) МОЖНО пожалуйста дополнить инструкцию.
Благодаря развитию нейронных сетей эффект «Зловещей Долины» с каждым днём всё ближе и ближе к человечеству, ибо то, что когда-то считалось невозможным, в наши дни становится вполне осуществимым. В этой небольшой инструкции вы узнаете, как выполнить Deepfake голоса и на его основе создать совершенно новую композицию, даже если его обладатель давно покинул нас.
Преимущества использования нейросетей в озвучке текста онлайн
Нейросети обучаются создавать речь, используя обучающие данные. Для этого изначально задается обучающий набор текстов и соответствующих им голосовых записей. На основе этих данных создается искусственный интеллект, который научится создавать звуковую последовательность слов и звуков.
Эх ладно я нашел живой гайд и живой коллаб по которому уже успешно обучаю) Дам ссылки тута
Инструкция по обучению увы токмо на ангельском но с картинками! https://youtu.be/x-jelyl6dyE
Коллаб для тренировки по этой инструкции https://colab.research.google.com/drive/1TU-kkQWVf-PLO_hSa2QCMZS1XF5xVHqs#scrollTo=MErtbNbp4wn0
Коллаб живой и рабочий остальное что находил нерабочий мусор.
Да суперкомпы гугла бесплатно попашут на вас 3 часа в сутки мощей стоимостью в пару миллионов)
Нейросети – это программы, которые обрабатывают данные, используя алгоритмы, аналитические и статистические методы. Для того, чтобы нейросеть научилась говорить, ее необходимо обучить. Для этого используются записи речи человека, различные языковые звуки и алгоритмы декодирования звуков.
Отдельно дополню для тех кто попробует натянуть на экстремальный вокал — чистый голос
Возможны неприятные открытия типа экстрим вокалиста орущего мимо нот но при экстрим вокале это было нормально а на чистом звучит как испанский стыд))
Ещё обнажается хреновое качество записи или недостаточная тренировка модели (не только малое количество эпох но и неудачно собранный датасет для тренировки с однообразным или слишком небольшим по количеству материалом) — слова могут звучать неразборчиво.
Ну и на совсем высоком скриме или шрайке уменьшайте питч иначе чистым голосом будет совсем шептать)
RVC-GUI — это удобная оболочка с открытым исходным кодом созданная для упрощения управления параметрами нейронной сети RVC применяемой для синтеза любого голоса/музыкальной композиции. По сравнению с аналогами, не требует установки и настройки сложных библиотек или использования Linux. Для работы программы достаточно Windows 10/11 и относительно современного ПК.
Так это обычная демонстрация, что в итоге получится. Ссылки указаны на оригинал под видео и в самом видео. Присмотритесь. Не говоря уже о том, что я дополнил видео и создаю в видеоредакторе совершенно другую композицию. Гайд структрурирован и дополнен для ixbt/live.
____________________
https://sun9-68.userapi.com/impg/kd6PbLiwqeZXUQUaGrhvfO7RzOsKtzyNKRdvrA/nqmmeGHt7uM.jpg?size=408×799&quality=96&sign=732996bb6c0bcb3d8034bd250d444997&type=album
_____________________
https://sun9-44.userapi.com/impg/xPuiy1N3LeDzaej6LE9FLz5RQ5zA7jnLboEJng/hXQC4cymEEI.jpg?size=1118×211&quality=95&sign=6aa0749ba4a3e0c6e2520597d41d4f62&type=album