Kmalu morda ne boste vedeli, da se pogovarjate z računalnikom

2025 Avtor: Abigail Brown | [email protected]. Nazadnje spremenjeno: 2025-01-24 12:23

Ključni izsledki

Bliža se dan, ko ne boste mogli razlikovati računalniško ustvarjenega govora od pravega.
Google je nedavno predstavil LaMDA, model, ki bi lahko omogočil bolj naravne pogovore.
Izdelava govora, podobnega človeškemu, zahteva tudi ogromno procesorske moči.

Trenutno je enostavno ugotoviti, kdaj se pogovarjate z računalnikom, vendar se bo to morda kmalu spremenilo zaradi nedavnega napredka v AI.

Google je pred kratkim predstavil LaMDA, eksperimentalni model, za katerega podjetje trdi, da bi lahko izboljšal zmožnost pogovornih pomočnikov AI in omogočil bolj naravne pogovore. LaMDA želi sčasoma normalno govoriti o skoraj vsem brez predhodnega usposabljanja.

To je eden od vedno večjega števila projektov umetne inteligence, zaradi katerih se lahko sprašujete, ali se pogovarjate s človekom.

"Moja ocena je, da bodo uporabniki v naslednjih 12 mesecih začeli biti izpostavljeni tem novim, bolj čustvenim glasovom in se nanje navajati," James Kaplan, izvršni direktor MeetKai, pogovornega virtualnega glasovnega pomočnika z umetno inteligenco in iskanja motor, je dejal v intervjuju po elektronski pošti.

"Ko se bo to zgodilo, bo današnji sintetizirani govor uporabnikom zvenel tako, kot nam danes zveni govor zgodnjih 2000-ih."

Glasovni pomočniki z znaki

Googlov LaMDA je zgrajen na Transformerju, arhitekturi nevronske mreže, ki jo je izumil Google Research. Za razliko od drugih jezikovnih modelov je bil Googlov LaMDA usposobljen za pravi dialog.

Del izziva pri ustvarjanju naravno zvenečega govora z umetno inteligenco je odprta narava pogovorov, je v objavi na spletnem dnevniku zapisal Googlov Eli Collins.

"Klepet s prijateljem o televizijski oddaji bi se lahko razvil v razpravo o državi, kjer je bila oddaja posneta, preden bi se odločil za razpravo o najboljši regionalni kuhinji te države," je dodal.

Z govorom robota se stvari odvijajo hitro. Eric Rosenblum, poslovodni partner pri Tsingyuan Ventures, ki vlaga v pogovorno umetno inteligenco, je dejal, da so nekatere najbolj temeljne težave v računalniško podprtem govoru praktično rešene.

Na primer, stopnja natančnosti pri razumevanju govora je že izjemno visoka pri storitvah, kot so prepisi, ki jih izvaja programska oprema Otter.ai, ali zdravstveni zapiski, ki jih posname DeepScribe.

"Naslednja meja pa je veliko težja," je dodal.

"Ohranjanje razumevanja konteksta, kar je težava, ki presega obdelavo naravnega jezika, in empatije, kot je na primer, da morajo računalniki v interakciji z ljudmi razumeti frustracijo, jezo, nepotrpežljivost itd. Obe zadevi se rešujeta, vendar sta obe precej daleč od zadovoljive."

Nevronske mreže so ključ

Za ustvarjanje realističnih glasov podjetja uporabljajo tehnologijo, kot so globoke nevronske mreže, oblika strojnega učenja, ki razvršča podatke po plasteh, Matt Muldoon, severnoameriški predsednik ReadSpeakerja, podjetja, ki razvija programsko opremo za besedilo v govor, je rekel v intervjuju po elektronski pošti.

"Te plasti izboljšajo signal in ga razvrstijo v bolj zapletene klasifikacije," je dodal. "Rezultat je sintetični govor, ki zveni nenavadno kot človeški."

Druga tehnologija v razvoju je Prosody Transfer, ki vključuje združevanje zvoka enega glasu za pretvorbo besedila v govor z govornim slogom drugega, je dejal Muldoon. Obstaja tudi prenos učenja, ki zmanjša količino podatkov za usposabljanje, potrebnih za ustvarjanje novega živčnega glasu pretvorbe besedila v govor.

Kaplan je dejal, da ustvarjanje človeškega govora prav tako zahteva ogromno procesorske moči. Podjetja razvijajo čipe za nevronske pospeševalnike, ki so moduli po meri, ki delujejo v povezavi z običajnimi procesorji.

"Naslednja stopnja pri tem bo namestitev teh čipov v manjšo strojno opremo, saj se trenutno že izvaja za kamere, ko je potrebna umetna inteligenca za vid," je dodal. "Kmalu bo ta vrsta računalniške zmogljivosti na voljo v samih slušalkah."

Eden od izzivov pri razvoju govora, ki ga poganja umetna inteligenca, je, da vsi govorijo drugače, zato nas računalniki običajno težko razumejo.

»Pomislite na naglase Georgie vs. Bostona vs. Severne Dakote in ne glede na to, ali je angleščina vaš primarni jezik ali ne,« je v elektronskem sporočilu povedala Monica Dema, ki dela na analitiki glasovnega iskanja pri MDinc. "Če razmišljamo globalno, je drago narediti to za vse regije Nemčije, Kitajske in Indije, vendar to ne pomeni, da ni ali ni mogoče storiti."

Priporočena:

Kmalu morda ne boste vedeli, da se pogovarjate z računalnikom

Kazalo:

Ključni izsledki

Glasovni pomočniki z znaki

Nevronske mreže so ključ

Priporočena:

Kmalu boste lahko na prvi pogled izbrali dober igralni monitor

Kmalu boste lahko občutili občutek pitja vode v VR

Morda boste lahko kmalu vstopili v Metaverse brez slušalk

Kmalu boste lahko pretakali igre naslednje generacije na vaš Xbox One

Nastavite dejanja mape OS X, da boste vedeli, kdaj je datoteka dodana

Novi oglaševalski program družbe Twitch bi lahko pomagal ali škodoval pretakalcem

7 najboljših etuijev in etuijev za prenosnike leta 2022

Kako nastaviti potezo dvojnega dotika v sistemu Android 12

Kako ustvariti bližnjico do tiskalnika v sistemu Windows 10

Kako počistiti piškotke v mobilnih brskalnikih Android

Natisnite PowerPoint izroček v formatu PDF brez datuma

Kaj je Pokemon Go Adventure Sync

Kaj počne COM Surrogate na mojem računalniku z operacijskim sistemom Windows?

Kaj je CDMA in kako deluje?

Povežite podatke v Excelu, Wordu in PowerPointu s povezavo za lepljenje

Nove zasnove slušalk bi lahko naredile VR bolj udobno

Kako posaditi semena v Minecraftu

Kako se znebiti Binga

Hitro polnjenje je uporabno, vendar ima svojo ceno

Cena Amazon Luna, datum izdaje, specifikacije, igre, novice in govorice