Brzy možná nebudete vědět, že mluvíte s počítačem

Obsah:

Brzy možná nebudete vědět, že mluvíte s počítačem
Brzy možná nebudete vědět, že mluvíte s počítačem
Anonim

Klíčové poznatky

  • Rychle se blíží den, kdy nebudete schopni rozeznat počítačově generovanou řeč od skutečné věci.
  • Google nedávno představil LaMDA, model, který by mohl umožnit přirozenější konverzace.
  • Produkce lidské řeči také vyžaduje obrovské množství výpočetního výkonu.
Image
Image

Právě teď je snadné rozpoznat, když mluvíte do počítače, ale to se může brzy změnit díky nedávnému pokroku v AI.

Google nedávno představil LaMDA, experimentální model, o kterém společnost tvrdí, že by mohl zvýšit schopnosti jejích konverzačních asistentů AI a umožnit přirozenější konverzace. Cílem LaMDA je nakonec normálně konverzovat téměř o čemkoli bez jakéhokoli předchozího školení.

Je to jeden z rostoucího počtu projektů umělé inteligence, který by vás mohl nechat přemýšlet, jestli mluvíte s lidskou bytostí.

„Odhaduji, že během příštích 12 měsíců začnou uživatelé být vystaveni těmto novým, emotivnějším hlasům a zvykají si na ně,“James Kaplan, generální ředitel společnosti MeetKai, konverzačního virtuálního hlasového asistenta a vyhledávání AI. motor, řekl v e-mailovém rozhovoru.

„Jakmile k tomu dojde, dnešní syntetizovaná řeč bude znít uživatelům jako řeč z počátku 21. století zní dnes nám.“

Hlasoví asistenti s charakterem

Google LaMDA je postaven na Transformeru, architektuře neuronové sítě vynalezené výzkumem Google. Na rozdíl od jiných jazykových modelů byl LaMDA společnosti Google vyškolen na skutečném dialogu.

Součástí výzvy k vytvoření přirozeně znějící řeči umělé inteligence je otevřená povaha konverzací, napsal Eli Collins z Googlu v příspěvku na blogu.

Image
Image

„Chat s kamarádem o televizním pořadu by se mohl vyvinout v diskusi o zemi, kde se pořad natáčel, než se usadí v debatě o nejlepší regionální kuchyni této země,“dodal.

S robotickou řečí se věci rychle pohybují. Eric Rosenblum, vedoucí partner společnosti Tsingyuan Ventures, která investuje do konverzační umělé inteligence, řekl, že některé z nejzásadnějších problémů v počítačově podporované řeči jsou prakticky vyřešeny.

Například přesnost v porozumění řeči je již extrémně vysoká ve službách, jako jsou přepisy prováděné softwarem Otter.ai nebo lékařské poznámky pořízené DeepScribe.

"Další hranice je však mnohem obtížnější," dodal.

„Zachování porozumění kontextu, což je problém, který daleko přesahuje zpracování přirozeného jazyka, a empatie, protože počítače interagující s lidmi potřebují porozumět frustraci, hněvu, netrpělivosti atd. Na obou těchto otázkách se pracuje, ale obě jsou dost daleko od spokojenosti."

Klíčem jsou neuronové sítě

K generování realistických hlasů používají společnosti technologie, jako jsou hluboké neuronové sítě, forma strojového učení, která klasifikuje data prostřednictvím vrstev, Matt Muldoon, severoamerický prezident společnosti ReadSpeaker, společnosti, která vyvíjí software pro převod textu na řeč, řekl v e-mailovém rozhovoru.

"Tyto vrstvy zpřesňují signál a třídí jej do složitějších klasifikací," dodal. "Výsledkem je syntetická řeč, která zní záhadně jako člověk."

Další vyvíjenou technologií je Prosody Transfer, která zahrnuje kombinaci zvuku jednoho hlasu pro převod textu na řeč se stylem mluvení jiného, řekl Muldoon. K dispozici je také přenosové učení, které snižuje množství trénovacích dat potřebných k vytvoření nového neuronového převodu textu na řeč.

Kaplan řekl, že vytváření řeči podobné lidské také vyžaduje obrovské množství výpočetního výkonu. Společnosti vyvíjejí čipy neuronových akcelerátorů, což jsou vlastní moduly, které fungují ve spojení s běžnými procesory.

„Další fází v tomto bude umístění těchto čipů do menšího hardwaru, jak se v současné době již provádí u kamer, kde je vyžadována AI pro vidění,“dodal. "Nebude to dlouho trvat, než bude tento typ výpočetní schopnosti dostupný v samotných sluchátkách."

Jedním z problémů při vývoji řeči řízené umělou inteligencí je, že každý mluví jinak, takže počítače nám obvykle těžko rozumějí.

„Přemýšlejte o akcentech Gruzie vs. Boston vs. Severní Dakota a o tom, zda je vaším primárním jazykem angličtina,“uvedla v e-mailu Monica Dema, která pracuje na analýze hlasového vyhledávání ve společnosti MDinc. "Z globálního hlediska je to nákladné udělat pro všechny regiony Německa, Číny a Indie, ale to neznamená, že to není nebo nelze."

Doporučuje: