Konverzace s vaším počítačem mohou být realističtější

Obsah:

Konverzace s vaším počítačem mohou být realističtější
Konverzace s vaším počítačem mohou být realističtější
Anonim

Klíčové poznatky

  • Meta používá AI k vytváření programů, které dokážou vyjádřit emoce řečí.
  • Tým společnosti pro umělou inteligenci uvedl, že dosáhl pokroku v modelování výrazových vokalizací, jako je smích, zívání, pláč a „spontánní klábosení“v reálném čase.
  • AI se také používá k vylepšení rozpoznávání řeči.
Image
Image

Brzy budete moci mít přirozenější chat se svým počítačem díky síle umělé inteligence (AI).

Meta uvedla, že dosáhla významného pokroku ve svém úsilí o vytvoření realističtějších řečových systémů generovaných umělou inteligencí. Tým společnosti pro umělou inteligenci uvedl, že dosáhl pokroku ve schopnosti modelovat expresivní vokalizace, jako je smích, zívání a pláč, kromě „spontánního klábosení“v reálném čase.

„V jakékoli konverzaci si lidé vyměňují přeplněné neverbální signály, jako jsou intonace, emocionální výrazy, pauzy, akcenty, rytmy – to vše je důležité pro lidské interakce,“napsal tým v nedávném příspěvku na blogu.. „Dnešní systémy umělé inteligence však nedokážou zachytit tyto bohaté, expresivní signály, protože se učí pouze z psaného textu, který zachycuje to, co říkáme, ale ne to, jak to říkáme.“

Chytřejší řeč

V příspěvku na blogu tým Meta AI uvedl, že pracuje na překonání omezení tradičních systémů umělé inteligence, které nedokážou porozumět neverbálním signálům v řeči, jako jsou intonace, emocionální výrazy, pauzy, akcenty a rytmy. Systémy se drží zpátky, protože se mohou učit pouze z psaného textu.

Práce Meta se však od předchozích snah liší, protože její modely umělé inteligence mohou využívat modely zpracování přirozeného jazyka k zachycení celé povahy mluvené řeči. Výzkumníci z Meta říkají, že nové modely mohou umožnit systémům umělé inteligence vyjádřit sentiment, který chtějí sdělit – jako je nuda nebo ironie.

"V blízké budoucnosti se zaměříme na aplikaci beztextových technik k vytváření užitečných následných aplikací, aniž bychom vyžadovali textové štítky náročné na zdroje nebo systémy automatického rozpoznávání řeči (ASR), jako je odpovídání na otázky (např. počasí?"), " napsal tým v příspěvku na blogu. "Věříme, že prozódie v řeči může pomoci lépe analyzovat větu, což zase usnadňuje pochopení záměru a zlepšuje výkon při zodpovídání otázek."

Pochopení schopností AI

Počítače se nejen zlepšují ve sdělování významu, ale umělá inteligence se také používá k vylepšení rozpoznávání řeči.

Počítačoví vědci pracují na počítačovém rozpoznávání řeči přinejmenším od roku 1952, kdy tři výzkumníci z Bell Labs vytvořili systém, který dokáže rozpoznat jednotlivé číslice, uvedl v e-mailu Ryan Monsurate, technologický ředitel společnosti AI Dynamics. Lifewire. V 90. letech 20. století byly systémy rozpoznávání řeči komerčně dostupné, ale stále měly chybovost, která byla dostatečně vysoká, aby odrazovala od použití mimo velmi specifické aplikační domény, jako je zdravotnictví.

„Nyní, když modely hlubokého učení umožnily skupinovým modelům (jako jsou ty od Microsoftu) dosáhnout nadlidského výkonu při rozpoznávání řeči, máme technologii, která umožní verbální komunikaci s počítači nezávisle na mluvčích,“řekl Monsurate. „Další fáze bude zahrnovat snížení nákladů, aby každý, kdo používá Siri nebo asistenty AI od Googlu, měl přístup k této úrovni rozpoznávání řeči.“

Image
Image

AI je užitečná pro rozpoznávání řeči, protože se může postupem času zlepšovat učením, řekl Ariel Utnik, hlavní výnosový ředitel a generální ředitel hlasové společnosti AI Verbit.ai, v e-mailovém rozhovoru pro Lifewire. Například společnost Verbit tvrdí, že její interní technologie umělé inteligence detekuje a filtruje hluk na pozadí a ozvěny a přepisuje reproduktory bez ohledu na přízvuk, aby vytvořila podrobné, profesionální přepisy a titulky z živého a nahraného videa a zvuku.

Utnik ale řekl, že většina současných platforem pro rozpoznávání řeči je pouze 75-80% přesná.

"AI nikdy plně nenahradí lidi, protože osobní recenze přepisovatelů, korektorů a redaktorů jsou nezbytné pro zajištění vysoké kvality a nejvyšší přesnosti konečného přepisu," dodal.

Lepší rozpoznávání hlasu by také mohlo být použito k zabránění hackerům, uvedl v e-mailu Sanjay Gupta, viceprezident globálního vedoucího vývoje produktů a společnosti ve společnosti pro rozpoznávání hlasu Mitek Systems. Výzkum naznačuje, že do dvou let bude 20 procent všech úspěšných útoků na převzetí účtu využívat syntetické rozšíření hlasu, dodal.

"To znamená, že jak se technologie deep fake stává sofistikovanější, musíme současně vytvořit pokročilé zabezpečení, které dokáže bojovat s těmito taktikami spolu s hlubokými padělky obrázků a videa," řekl Gupta. "Boj proti falšování hlasu vyžaduje technologii detekce živosti, která je schopna rozlišit mezi živým hlasem a nahranou, syntetickou nebo počítačově generovanou verzí hlasu."

Oprava 2022-05-04: Opraven pravopis jména Ryan Monsurate v odstavci 9.

Doporučuje: