AI lahko zdaj razume vaše videoposnetke tako, da jih gleda

Kazalo:

AI lahko zdaj razume vaše videoposnetke tako, da jih gleda
AI lahko zdaj razume vaše videoposnetke tako, da jih gleda
Anonim

Ključni izsledki

  • Raziskovalci pravijo, da lahko umetno inteligenco naučijo označevanja videoposnetkov z gledanjem in poslušanjem.
  • Sistem umetne inteligence se nauči predstavljati podatke, da zajame koncepte, ki si jih delijo vizualni in zvočni podatki.
  • To je del prizadevanj, da bi umetno inteligenco naučili razumeti pojme, ki se jih ljudje brez težav naučijo, vendar jih računalniki težko razumejo.

Image
Image

Nov sistem umetne inteligence (AI) bi lahko gledal in poslušal vaše videoposnetke ter označeval stvari, ki se dogajajo.

Raziskovalci MIT so razvili tehniko, ki umetno inteligenco uči zajemati dejanja, ki si jih delita video in zvok. Njihova metoda lahko na primer razume, da je otrokov jok v videu povezan z izgovorjeno besedo "jok" v zvočnem posnetku. To je del prizadevanj, da bi umetno inteligenco naučili, kako razumeti koncepte, ki se jih ljudje brez težav naučijo, vendar jih računalniki težko razumejo.

»Prevladujoča učna paradigma, nadzorovano učenje, deluje dobro, če imate nabore podatkov, ki so dobro opisani in popolni,« je strokovnjak za umetno inteligenco Phil Winder povedal za Lifewire v intervjuju po elektronski pošti. "Na žalost so nabori podatkov le redko popolni, ker ima resnični svet slabo navado predstavljati nove situacije."

Pametnejši AI

Računalniki imajo težave pri ugotavljanju vsakodnevnih scenarijev, ker morajo obdelati podatke namesto zvoka in slik kot ljudje. Ko stroj "vidi" fotografijo, mora to fotografijo kodirati v podatke, ki jih lahko uporabi za izvedbo naloge, kot je klasifikacija slik. AI se lahko zatakne, ko so vhodi v več oblikah, kot so videoposnetki, zvočni posnetki in slike.

"Glavni izziv tukaj je, kako lahko stroj uskladi te različne modalitete? Kot ljudem je to za nas enostavno," je dejal Alexander Liu, raziskovalec MIT in prvi avtor članka o tej temi sporočilo za javnost. "Vidimo avto in nato slišimo zvok avtomobila, ki vozi mimo, in vemo, da gre za isto stvar. Toda za strojno učenje ni tako preprosto."

Liujeva ekipa je razvila tehniko umetne inteligence, za katero pravijo, da se nauči predstavljati podatke za zajemanje konceptov, ki si jih delijo vizualni in zvočni podatki. S pomočjo tega znanja lahko njihov model strojnega učenja prepozna, kje v videoposnetku poteka določeno dejanje, in ga označi.

Novi model zajema neobdelane podatke, kot so videoposnetki in njihovi ustrezni besedilni napisi, in jih kodira tako, da ekstrahira funkcije ali opažanja o predmetih in dejanjih v videu. Te podatkovne točke nato preslika v mrežo, znano kot prostor za vdelavo. Model združuje podobne podatke kot posamezne točke v mreži; vsaka od teh podatkovnih točk ali vektorjev je predstavljena s posamezno besedo.

Na primer, video posnetek osebe, ki žonglira, se lahko preslika v vektor z oznako "žongliranje."

Raziskovalci so zasnovali model tako, da lahko za označevanje vektorjev uporablja le 1000 besed. Model se lahko odloči, katera dejanja ali koncepte želi kodirati v en vektor, vendar lahko uporabi le 1000 vektorjev. Model izbere besede, za katere meni, da najbolje predstavljajo podatke.

Če obstaja videoposnetek o prašičih, lahko model dodeli besedo 'prašič' enemu od 1000 vektorjev. Nato, če model sliši nekoga, ki v zvočnem posnetku izgovori besedo 'prašič', za kodiranje tega bi moral še vedno uporabljati isti vektor, « je pojasnil Liu.

Vaši videoposnetki, dekodirani

Boljši sistemi označevanja, kot je tisti, ki ga je razvil MIT, bi lahko pomagali zmanjšati pristranskost pri umetni inteligenci, je v intervjuju za Lifewire po elektronski pošti povedala Marian Beszedes, vodja raziskav in razvoja pri biometričnem podjetju Innovatrics. Beszedes je predlagal, da si podatkovna industrija lahko ogleda sisteme AI z vidika proizvodnega procesa.

"Sistemi sprejmejo neobdelane podatke kot vhod (surovine), jih predhodno obdelajo, zaužijejo, sprejemajo odločitve ali napovedi in izhodne analitike (končni izdelki)," je dejal Beszedes. »Ta tok procesa imenujemo »tovarna podatkov« in tako kot drugi proizvodni procesi bi moral biti predmet nadzora kakovosti. Podatkovna industrija mora pristranskost umetne inteligence obravnavati kot problem kakovosti.

»Z vidika potrošnika napačno označeni podatki na primer otežijo spletno iskanje določenih slik/videoposnetkov,« je dodal Beszedes. "S pravilno razvitim AI lahko označevanje izvajate samodejno, veliko hitreje in bolj nevtralno kot z ročnim označevanjem."

Image
Image

Toda model MIT ima še vedno nekaj omejitev. Prvič, njihova raziskava se je osredotočila na podatke iz dveh virov hkrati, toda v resničnem svetu se ljudje sočasno srečujejo z mnogimi vrstami informacij, je dejal Liu

"In vemo, da 1000 besed deluje na tovrstnem naboru podatkov, vendar ne vemo, ali ga je mogoče posplošiti na problem iz resničnega sveta," je dodal Liu.

Raziskovalci MIT pravijo, da njihova nova tehnika prekaša številne podobne modele. Če je umetno inteligenco mogoče usposobiti za razumevanje videoposnetkov, boste morda sčasoma lahko preskočili gledanje prijateljevih videoposnetkov s počitnic in namesto tega prejeli računalniško ustvarjeno poročilo.

Priporočena: