Klíčové poznatky
- DeepZen používá AI (umělou inteligenci) k vytváření překvapivě realistických audioknih z textu.
- Tato technologie využívá skutečné lidské hlasové herce, aby poskytla stavební kameny.
- Amazon a Audible v současnosti nepřijímají počítačově generované audioknihy.
DeepZen je společnost, která vytváří počítačové hlasy používané v audioknihách na základě skutečných hlasů lidských herců. Kvalita je děsivá - dostatečně dobrá na to, abyste ji mohli poslouchat celé hodiny. Vychytávkou je zde složka AI (umělá inteligence), která dokáže přečíst text a na základě kontextu odvodit správnou emoční reakci. Poté tuto emoci vloží do hlasu.
Je to působivé a velmi pohodlné. Ale opravdu chceme homogenizovaný zážitek z audioknih? A co tito hlasoví herci?
"Z pohledu nezávislého vydavatele je cokoli, co snižuje náklady na výrobu audioknih, velmi zajímavé," řekl Lifewire e-mailem Rick Carlile, majitel nezávislého vydavatelství Carlile Media.
"Ale tato přitažlivost předpokládá, že produkt bude mít stejnou kvalitu jako tradiční vyprávění. Myslím, že tam ještě nejsme na sto procent. Nechápejte mě špatně, DeepZen je úžasně dobrý. Je to ohromný průlom a jeho tvůrci si zaslouží nesmírnou chválu a úspěch. Ale ještě to není dokonalé."
Zvuk, který je „dost dobrý“
Nejlepší způsob, jak porozumět kvalitě DeepZen, je poslechnout si ukázky. Pokud byste nevěděli, že byly vytvořeny počítačem, možná si to ani neuvědomíte. Nějakou dobu stejně ne. Předpokládejme, že umělá inteligence DeepZen je dokonalá a že nikdy špatně interpretuje emocionální tóny, které má zasáhnout.
Dokonce i tehdy může člověk nabídnout jemnější a často překvapivější interpretace. Herec by mohl vnést do slov neočekávaný obrat, který by počítač nikdy ani nenapadl. A ve skutečnosti interpretace umělé inteligence ještě určitě není tak dobrá jako u profesionálního hlasového herce.
„Jako člověk, který pracuje na filmech a v poslední době ve světě zvukového vyprávění, jsem ohromen umělou inteligencí – vím jistě, že existují hluboké hlubiny významu, které stroj nedokáže interpretovat,“profesionální hlas herec Paul Cram řekl Lifewire e-mailem.
"Dojde k nárůstu neznámých autorů, kteří jej budou používat? Zaručuji, že ano, protože je to ‚dost dobré'."
Být dostatečně dobrý v kombinaci s pohodlím a úsporou nákladů může stačit k tomu, aby k této službě přivedli nezávislé vydavatele.
„Audioknihy mohou stát až 500 USD za dokončenou hodinu zvuku (mnohem více pro hlas celebrit), a to nezahrnuje časové náklady na správu a administrativu,“říká Carlile. „Možnost snížit tyto náklady na polovinu pouhým nahráním rukopisu poskytovateli, jako je DeepZen, je nesmírně atraktivní.“
Talking Trouble
Zatím to není tak snadné, jako vyhodit své hlasové herce a nahrát rukopisy do DeepZen. V současné době existuje jedna překážka snadného vyjadřování umělé inteligence audioknih, a to je od Amazonu.
„V současné době ACX, cesta vlastního vydavatele k distribuci audioknih Audible a Amazon, nepřijímá audioknihy, které člověk nenahrál,“říká Carlile.
Proč? Kvalitní. Zde je záznam FAQ z webu:
"Převod textu na řeč nebo jiné automatizované nahrávky nejsou povoleny. Slušní posluchači si vybírají audioknihy pro provedení materiálu i příběhu. Aby toto očekávání splnil, musí být audiokniha nahrána člověkem."
To znamená, že audioknihy generované DeepZen jsou alespoň prozatím mimo. To je čistá spekulace, ale DeepZen by se pro Amazon zdál jako docela dobrá akvizice, nechal ji prodat službu a ponechat ji pouze pro knihy Audible. A i kdyby se to nestalo, pokud je kvalita počítačově generovaných audioknih tak dobrá jako tato, nezdá se, že by existoval jen malý důvod neudělat z tohoto pravidla výjimku.
Budete rádi poslouchat audioknihy vytvořené tímto způsobem? Když se to stane, většina lidí nebude ani tušit. Někteří mohou preferovat dokonalost počítačově generovaných hlasů, protože se zbaví vokálních tiků a zvyků, které mohou někdy rozptylovat. Tato technologie je také vhodná pro videohry, televizní a rozhlasové reklamy a jakýkoli jiný scénář, kde byste najímali hlasového herce.
Technologie DeepZen by také představovala skvělý způsob, jak automaticky vytvářet zpravodajské podcasty z napsaných článků, což by se mohlo hodit při dojíždění.
A co tito hlasoví herci? No, bude tu alespoň jedna příležitost: Mohou jít pracovat pro DeepZen.