AI nyní porozumí vašim videím tím, že je zhlédne

Obsah:

AI nyní porozumí vašim videím tím, že je zhlédne
AI nyní porozumí vašim videím tím, že je zhlédne
Anonim

Klíčové poznatky

  • Výzkumníci říkají, že mohou naučit umělou inteligenci označovat videa sledováním a poslechem.
  • Systém umělé inteligence se učí reprezentovat data, aby zachytil koncepty sdílené mezi vizuálními a zvukovými daty.
  • Je to součást snahy naučit umělou inteligenci chápat koncepty, které lidé nemají problém se naučit, ale které počítače těžko chápou.

Image
Image

Nový systém umělé inteligence (AI) by mohl sledovat a poslouchat vaše videa a označovat věci, které se dějí.

Výzkumníci z MIT vyvinuli techniku, která učí umělou inteligenci zachycovat akce sdílené mezi videem a zvukem. Jejich metoda například dokáže pochopit, že akt pláče dítěte ve videu souvisí s mluveným slovem „pláč“ve zvukovém klipu. Je to součást snahy naučit umělou inteligenci, jak porozumět konceptům, které lidé nemají problém se naučit, ale které počítače těžko chápou.

„Převládající paradigma učení, učení pod dohledem, funguje dobře, když máte datové sady, které jsou dobře popsané a úplné,“řekl Lifewire expert na AI Phil Winder v e-mailovém rozhovoru. "Bohužel, datové sady jsou zřídka úplné, protože skutečný svět má špatný zvyk prezentovat nové situace."

Chytřejší AI

Počítače mají potíže s vymýšlením každodenních scénářů, protože potřebují zpracovávat data místo zvuku a obrazu jako lidé. Když stroj „vidí“fotografii, musí tuto fotografii zakódovat do dat, která může použít k provedení úkolu, jako je klasifikace obrázků. Umělá inteligence může uvíznout, když vstupy přicházejí v různých formátech, jako jsou videa, zvukové klipy a obrázky.

"Hlavním problémem zde je, jak může stroj sladit tyto různé modality? Jako pro lidi je to pro nás snadné," řekl Alexander Liu, výzkumník z MIT a první autor článku na toto téma. tisková zpráva. "Vidíme auto a pak slyšíme zvuk projíždějícího auta a víme, že je to totéž. Ale pro strojové učení to není tak jednoduché."

Liuův tým vyvinul techniku umělé inteligence, která se podle nich učí reprezentovat data, aby zachytila koncepty sdílené mezi vizuálními a zvukovými daty. Pomocí těchto znalostí může jejich model strojového učení identifikovat, kde se konkrétní akce ve videu odehrává, a označit ji.

Nový model bere nezpracovaná data, jako jsou videa a jejich odpovídající textové titulky, a kóduje je extrakcí prvků nebo pozorování objektů a akcí ve videu. Poté mapuje tyto datové body do mřížky, známé jako prostor pro vkládání. Model shlukuje podobná data dohromady jako jednotlivé body v mřížce; každý z těchto datových bodů nebo vektorů je reprezentován samostatným slovem.

Například videoklip žonglujícího člověka může být namapován na vektor označený jako „žonglování“.

Výzkumníci navrhli model tak, aby mohl k označení vektorů použít pouze 1 000 slov. Model se může rozhodnout, které akce nebo koncepty chce zakódovat do jednoho vektoru, ale může použít pouze 1 000 vektorů. Model si vybere slova, která podle něj nejlépe reprezentují data.

„Pokud existuje video o prasatech, model může přiřadit slovo „prase“k jednomu z 1 000 vektorů. Pokud pak model slyší někoho říkat slovo „prase“ve zvukovém klipu, k zakódování by měl stále používat stejný vektor, “vysvětlil Liu.

Vaše videa, dekódovaná

Lepší systémy označování, jako je ten vyvinutý MIT, by mohly pomoci snížit zaujatost v AI, řekla Marian Beszedes, vedoucí výzkumu a vývoje biometrické firmy Innovatrics, Lifewire v e-mailovém rozhovoru. Beszedes navrhl, aby datový průmysl mohl nahlížet na systémy AI z perspektivy výrobního procesu.

"Systémy přijímají nezpracovaná data jako vstup (suroviny), předzpracovávají je, ingestují, dělají rozhodnutí nebo předpovědi a výstupní analýzy (hotové zboží), " řekl Beszedes. "Tento procesní tok nazýváme "datová továrna" a stejně jako ostatní výrobní procesy by měl podléhat kontrole kvality. Datový průmysl musí zkreslení AI považovat za problém kvality.

„Z pohledu spotřebitele chybně označená data ztěžují například online vyhledávání konkrétních obrázků/videí,“dodal Beszedes. „Se správně vyvinutou AI můžete štítkování provádět automaticky, mnohem rychleji a neutrálněji než s ručním štítkováním.“

Image
Image

Model MIT má ale stále určitá omezení. Za prvé se jejich výzkum soustředil na data ze dvou zdrojů současně, ale v reálném světě se lidé setkávají s mnoha typy informací současně, řekl Liu

„A víme, že na tomto druhu datové sady funguje 1 000 slov, ale nevíme, jestli to lze zobecnit na problém reálného světa,“dodal Liu.

Výzkumníci z MIT tvrdí, že jejich nová technika překonává mnoho podobných modelů. Pokud lze umělou inteligenci vycvičit, aby porozuměla videím, možná budete moci přeskočit sledování videí z dovolené svého přítele a místo toho získat počítačově generovanou zprávu.

Doporučuje: