AI lahko zdaj razume vaše videoposnetke tako, da jih gleda

👤 Avtor Abigail Brown 📧 brown@technologyhumans.com.
⏱ Public 2023-12-17 07:00.
🖍 Nazadnje spremenjeno 2025-01-24 12:23.

Ključni izsledki

Raziskovalci pravijo, da lahko umetno inteligenco naučijo označevanja videoposnetkov z gledanjem in poslušanjem.
Sistem umetne inteligence se nauči predstavljati podatke, da zajame koncepte, ki si jih delijo vizualni in zvočni podatki.
To je del prizadevanj, da bi umetno inteligenco naučili razumeti pojme, ki se jih ljudje brez težav naučijo, vendar jih računalniki težko razumejo.

Nov sistem umetne inteligence (AI) bi lahko gledal in poslušal vaše videoposnetke ter označeval stvari, ki se dogajajo.

Raziskovalci MIT so razvili tehniko, ki umetno inteligenco uči zajemati dejanja, ki si jih delita video in zvok. Njihova metoda lahko na primer razume, da je otrokov jok v videu povezan z izgovorjeno besedo "jok" v zvočnem posnetku. To je del prizadevanj, da bi umetno inteligenco naučili, kako razumeti koncepte, ki se jih ljudje brez težav naučijo, vendar jih računalniki težko razumejo.

»Prevladujoča učna paradigma, nadzorovano učenje, deluje dobro, če imate nabore podatkov, ki so dobro opisani in popolni,« je strokovnjak za umetno inteligenco Phil Winder povedal za Lifewire v intervjuju po elektronski pošti. "Na žalost so nabori podatkov le redko popolni, ker ima resnični svet slabo navado predstavljati nove situacije."

Pametnejši AI

Računalniki imajo težave pri ugotavljanju vsakodnevnih scenarijev, ker morajo obdelati podatke namesto zvoka in slik kot ljudje. Ko stroj "vidi" fotografijo, mora to fotografijo kodirati v podatke, ki jih lahko uporabi za izvedbo naloge, kot je klasifikacija slik. AI se lahko zatakne, ko so vhodi v več oblikah, kot so videoposnetki, zvočni posnetki in slike.

"Glavni izziv tukaj je, kako lahko stroj uskladi te različne modalitete? Kot ljudem je to za nas enostavno," je dejal Alexander Liu, raziskovalec MIT in prvi avtor članka o tej temi sporočilo za javnost. "Vidimo avto in nato slišimo zvok avtomobila, ki vozi mimo, in vemo, da gre za isto stvar. Toda za strojno učenje ni tako preprosto."

Liujeva ekipa je razvila tehniko umetne inteligence, za katero pravijo, da se nauči predstavljati podatke za zajemanje konceptov, ki si jih delijo vizualni in zvočni podatki. S pomočjo tega znanja lahko njihov model strojnega učenja prepozna, kje v videoposnetku poteka določeno dejanje, in ga označi.

Novi model zajema neobdelane podatke, kot so videoposnetki in njihovi ustrezni besedilni napisi, in jih kodira tako, da ekstrahira funkcije ali opažanja o predmetih in dejanjih v videu. Te podatkovne točke nato preslika v mrežo, znano kot prostor za vdelavo. Model združuje podobne podatke kot posamezne točke v mreži; vsaka od teh podatkovnih točk ali vektorjev je predstavljena s posamezno besedo.

Na primer, video posnetek osebe, ki žonglira, se lahko preslika v vektor z oznako "žongliranje."

Raziskovalci so zasnovali model tako, da lahko za označevanje vektorjev uporablja le 1000 besed. Model se lahko odloči, katera dejanja ali koncepte želi kodirati v en vektor, vendar lahko uporabi le 1000 vektorjev. Model izbere besede, za katere meni, da najbolje predstavljajo podatke.

Če obstaja videoposnetek o prašičih, lahko model dodeli besedo 'prašič' enemu od 1000 vektorjev. Nato, če model sliši nekoga, ki v zvočnem posnetku izgovori besedo 'prašič', za kodiranje tega bi moral še vedno uporabljati isti vektor, « je pojasnil Liu.

Vaši videoposnetki, dekodirani

Boljši sistemi označevanja, kot je tisti, ki ga je razvil MIT, bi lahko pomagali zmanjšati pristranskost pri umetni inteligenci, je v intervjuju za Lifewire po elektronski pošti povedala Marian Beszedes, vodja raziskav in razvoja pri biometričnem podjetju Innovatrics. Beszedes je predlagal, da si podatkovna industrija lahko ogleda sisteme AI z vidika proizvodnega procesa.

"Sistemi sprejmejo neobdelane podatke kot vhod (surovine), jih predhodno obdelajo, zaužijejo, sprejemajo odločitve ali napovedi in izhodne analitike (končni izdelki)," je dejal Beszedes. »Ta tok procesa imenujemo »tovarna podatkov« in tako kot drugi proizvodni procesi bi moral biti predmet nadzora kakovosti. Podatkovna industrija mora pristranskost umetne inteligence obravnavati kot problem kakovosti.

»Z vidika potrošnika napačno označeni podatki na primer otežijo spletno iskanje določenih slik/videoposnetkov,« je dodal Beszedes. "S pravilno razvitim AI lahko označevanje izvajate samodejno, veliko hitreje in bolj nevtralno kot z ročnim označevanjem."

Toda model MIT ima še vedno nekaj omejitev. Prvič, njihova raziskava se je osredotočila na podatke iz dveh virov hkrati, toda v resničnem svetu se ljudje sočasno srečujejo z mnogimi vrstami informacij, je dejal Liu

"In vemo, da 1000 besed deluje na tovrstnem naboru podatkov, vendar ne vemo, ali ga je mogoče posplošiti na problem iz resničnega sveta," je dodal Liu.

Raziskovalci MIT pravijo, da njihova nova tehnika prekaša številne podobne modele. Če je umetno inteligenco mogoče usposobiti za razumevanje videoposnetkov, boste morda sčasoma lahko preskočili gledanje prijateljevih videoposnetkov s počitnic in namesto tega prejeli računalniško ustvarjeno poročilo.

Priporočena:

AI lahko zdaj razume vaše videoposnetke tako, da jih gleda

Kazalo:

Ključni izsledki

Pametnejši AI

Vaši videoposnetki, dekodirani

Priporočena:

OtterBox bo zdaj polnil vaše naprave in jih varoval

Kako lahko halucinacije pomagajo AI, da vas bolje razume

10 najboljših filmov iz leta 2010, ki si jih lahko ogledate prav zdaj

10 najboljših filmov iz 80. let, ki si jih lahko ogledate prav zdaj

Kako ugotoviti, kdo gleda vaše videoposnetke YouTube

10 najboljših aplikacij, združljivih s Tizen, za pametne ure Samsung

Kako spremeniti način plačila na Netflixu

Kaj je Facebook Marketplace?

Kako povečati internetno hitrost

Kaj je Microsoft Word za Mac?

Kako popraviti napako povezave »Ni interneta, zavarovano«

Kako odpraviti praznjenje baterije v sistemu iOS 11

Kako popraviti napako »Zadnje varnostne kopije ni bilo mogoče dokončati«

Koda napake 0x80070005: kaj je in kako jo popraviti

Brezplačno pretakajte protirasistične filme

Kako dodati denar v Apple Pay

Kako upravljati vtičnike v spletnem brskalniku Safari

Kako preveriti prostor za shranjevanje na bliskovnem pogonu

Zamenljive EV baterije so tukaj, vendar niso za vsakogar

Kako razdeliti zaslon s postavitvijo Snap Layout v sistemu Windows 11