Klíčové poznatky
- Společnosti se předhánějí v hledání způsobů, jak učinit počítačově generovanou řeč realističtější.
- NVIDIA nedávno představila nástroje, které dokážou zachytit zvuk přirozené řeči tím, že vám umožní trénovat AI vlastním hlasem.
- Intonace, emoce a muzikálnost jsou vlastnosti, které počítačovým hlasům stále chybí, říká jeden odborník.
Počítačově generovaná řeč může brzy znít mnohem lidštěji.
Výrobce počítačových dílů NVIDIA nedávno představil nástroje, které dokážou zachytit zvuk přirozené řeči tím, že vám umožní trénovat AI pomocí vašeho hlasu. Software také může dodat slova jednoho mluvčího pomocí hlasu jiné osoby. Je to součást rozvíjejícího se úsilí, aby byla počítačová řeč realističtější.
„Pokročilá technologie hlasové umělé inteligence umožňuje uživatelům mluvit přirozeně, spojuje mnoho dotazů do jediné věty a eliminuje potřebu neustále opakovat podrobnosti z původního dotazu,“Michael Zagorsek, provozní ředitel společnosti SoundHound pro rozpoznávání řeči., řekl Lifewire v e-mailovém rozhovoru.
„Přidání několika jazyků, které jsou nyní dostupné na většině platforem hlasové umělé inteligence, zpřístupňuje digitální hlasové asistenty ve více geografických oblastech a pro více obyvatel,“dodal.
Robořeč na vzestupu
Amazonská Alexa a Siri od Applu zní mnohem lépe než počítačová řeč z doby před deseti lety, ale v dohledné době si je nespletou s autentickými lidskými hlasy.
Aby umělá řeč zněla přirozeněji, tým výzkumu převodu textu na řeč společnosti NVIDIA vyvinul model RAD-TTS. Systém umožňuje jednotlivcům učit model převodu textu na řeč (TTS) svým hlasem, včetně tempa, tonality, zabarvení a dalších faktorů.
Společnost použila svůj nový model k vytvoření více konverzačně znějícího hlasového vyprávění pro svou sérii videí I Am AI.
S tímto rozhraním by se náš producent videa mohl nahrát, jak čte scénář videa, a poté pomocí modelu umělé inteligence převést svou řeč do hlasu ženského vypravěče. Pomocí tohoto základního vyprávění by pak producent mohl řídit umělou inteligenci jako hlasový herec – vyladění syntetizované řeči, aby zdůraznil konkrétní slova, a úprava tempa vyprávění, aby lépe vyjadřoval tón videa,“napsala společnost NVIDIA na své webové stránky.
Těžší, než to zní
Zajistit, aby počítačově generovaná řeč zněla přirozeně, je podle odborníků složitý problém.
„Abyste vytvořili jeho počítačovou verzi, potřebujete nahrát stovky hodin něčího hlasu,“řekl Lifewire v e-mailovém rozhovoru Nazim Ragimov, generální ředitel softwarové společnosti pro převod textu na řeč Kukarella. „A nahrávka musí být kvalitní, natočená v profesionálním studiu. Čím více hodin kvalitní řeči se načte a zpracuje, tím lepší bude výsledek."
Převod textu na řeč lze použít při hraní her, k pomoci jednotlivcům s hlasovým postižením nebo k pomoci uživatelům překládat mezi jazyky vlastním hlasem.
Intonace, emoce a muzikálnost jsou vlastnosti, které počítačové hlasy stále postrádají, řekl Ragimov.
Pokud umělá inteligence dokáže přidat tyto chybějící odkazy, počítačově generovaná řeč bude „nerozeznatelná od hlasů skutečných herců,“dodal. "Na tom se pracuje. Ostatní hlasy budou moci konkurovat moderátorům rádia. Brzy uvidíte hlasy, které umí zpívat a číst audioknihy."
Technologie řeči se stává populárnější v celé řadě podniků.
„Automobilový průmysl nedávno přijal hlasovou umělou inteligenci jako způsob, jak vytvořit bezpečnější a propojenější zážitky z jízdy,“řekl Zagorsek.
„Od té doby jsou hlasoví asistenti stále více všudypřítomní, protože značky hledají způsoby, jak zlepšit zákaznickou zkušenost a uspokojit poptávku po snadnějších, bezpečnějších, pohodlnějších, účinnějších a hygieničtějších způsobech interakce s jejich produkty a službami.“
Hlasová umělá inteligence obvykle převádí dotazy na odpovědi ve dvoustupňovém procesu, který začíná přepisem řeči do textu pomocí automatického rozpoznávání řeči (ASR) a poté vložením tohoto textu do modelu porozumění přirozenému jazyku (NLU).
Přístup SoundHound kombinuje tyto dva kroky do jednoho procesu pro sledování řeči v reálném čase. Společnost tvrdí, že tato technika umožňuje hlasovým asistentům porozumět významu uživatelských dotazů ještě předtím, než dotyčná osoba domluví.
Budoucí pokroky v počítačové řeči, včetně dostupnosti různých možností připojení od pouze vestavěného (nevyžaduje připojení ke cloudu) po hybridní (vestavěné plus cloud) a pouze cloud „poskytnou společnostem napříč odvětvími větší výběr pokud jde o náklady, soukromí a dostupnost výpočetního výkonu,“řekl Zagoresk.
NVIDIA uvedla, že její nové modely umělé inteligence jdou nad rámec práce s hlasem.
„Převod textu na řeč lze použít při hraní her, k pomoci jednotlivcům s hlasovým postižením nebo k pomoci uživatelům překládat mezi jazyky jejich vlastním hlasem,“napsala společnost. „Dokonce dokáže znovu vytvořit výkony ikonických zpěváků a sladit nejen melodii písně, ale také emocionální výraz za vokály.“