Swój głos można dziś sklonować za darmo i bez wysyłania nagrania do chmury. Odpowiada za to VoxCPM2, otwarty model do zamiany tekstu na mowę od chińskiego zespołu OpenBMB. Obsługuje 30 języków, w tym polski, potrafi odtworzyć barwę głosu z kilkunastosekundowej próbki, a całość działa na własnym komputerze. Sprawdziłem, jak blisko jest do rynkowego standardu, czyli ElevenLabs.

Czym jest VoxCPM2

VoxCPM2 to model liczący dwa miliardy parametrów, udostępniony na licencji Apache 2.0. Oznacza to, że można z niego korzystać legalnie również komercyjnie, bez opłat i bez limitu znaków. Model działa dwojako. Po pierwsze klonuje głos z krótkiej próbki nagrania. Po drugie potrafi stworzyć zupełnie nowy głos wyłącznie z opisu słownego, w którym podajesz płeć, wiek, ton i tempo. Żadne nagranie ani tekst nie opuszczają twojej maszyny, bo wszystko liczy się lokalnie.

Jak wypada przy ElevenLabs

ElevenLabs to obecnie punkt odniesienia i robi swoją pracę bardzo dobrze, ale jest usługą w chmurze opartą na abonamencie. Darmowy plan ma ograniczenia, między innymi co do użytku komercyjnego, a pełne klonowanie głosu jest dostępne w płatnych pakietach. VoxCPM2 odwraca ten układ. Pobierasz go raz, uruchamiasz u siebie i płacisz zero złotych, niezależnie od tego, ile materiału wygenerujesz.

Trzeba być uczciwym: nie w każdym zdaniu VoxCPM2 dorówna ElevenLabs. Jakość mocno zależy od tego, jak czystą próbkę mu podasz, i czasem trzeba wygenerować nagranie kilka razy, żeby trafić w dobry wynik. Jak na narzędzie darmowe i lokalne, efekt jest jednak zaskakująco blisko.

Dwie drogi do startu

Pierwsza, dostępna dla każdego, to wersja w przeglądarce. Nie wymaga żadnej instalacji, wystarczy wgrać próbkę głosu i wpisać tekst. Druga to uruchomienie modelu lokalnie, co daje pełną prywatność i brak limitów, ale wymaga karty graficznej NVIDIA z około 8 GB pamięci. Na zwykłym laptopie czy na MacBooku to nie zadziała, dlatego na początek polecam wersję online.

Od czego zacząć

Przygotowałem gotowy pakiet startowy: instrukcję uruchomienia krok po kroku, bezpośrednie linki do dema online i repozytorium projektu oraz wskazówki, jak nagrać próbkę, żeby wynik był naprawdę dobry. Posłuchasz tam też próbki mojego sklonowanego głosu, żeby ocenić jakość samodzielnie. Pakiet odbierzesz tutaj: krupinskiai.pl/linki/glos.

Najczęstsze pytania

Czy klonowanie głosu jest za darmo?

Tak. VoxCPM2 jest darmowy i otwarty na licencji Apache 2.0, bez abonamentu i bez limitu znaków. Płatne usługi w chmurze, jak ElevenLabs, pobierają opłaty za pełne klonowanie, tutaj nie zapłacisz ani złotówki.

Czy VoxCPM2 obsługuje język polski?

Tak. Polski jest jednym z trzydziestu języków oficjalnie wspieranych przez model, więc klonowanie i synteza mowy działają po polsku.

Jak sklonować swój głos za darmo?

Najprościej zacząć od dema online w przeglądarce: wgrywasz kilkanaście sekund swojego głosu, wpisujesz tekst i słuchasz wyniku. Pełną instrukcję, także dla wersji lokalnej, znajdziesz w darmowym pakiecie startowym.

Czy mogę używać sklonowanego głosu komercyjnie?

Tak. Licencja Apache 2.0 pozwala na użytek komercyjny, co odróżnia VoxCPM2 od darmowych planów usług chmurowych, które takich praw zwykle nie dają.

Czy do uruchomienia potrzebuję mocnego komputera?

Do wersji lokalnej tak: potrzebna jest karta NVIDIA z około 8 GB pamięci. Jeśli nie masz takiego sprzętu, korzystaj z dema online, które działa w przeglądarce na dowolnym urządzeniu. Jeśli chcesz nauczyć się praktycznie wykorzystywać takie narzędzia AI w pracy, zajrzyj do kursu Skuteczne Prompty i darmowej bazy promptów.