Ključni izsledki
- Bliža se dan, ko ne boste mogli razlikovati računalniško ustvarjenega govora od pravega.
- Google je nedavno predstavil LaMDA, model, ki bi lahko omogočil bolj naravne pogovore.
- Izdelava govora, podobnega človeškemu, zahteva tudi ogromno procesorske moči.
Trenutno je enostavno ugotoviti, kdaj se pogovarjate z računalnikom, vendar se bo to morda kmalu spremenilo zaradi nedavnega napredka v AI.
Google je pred kratkim predstavil LaMDA, eksperimentalni model, za katerega podjetje trdi, da bi lahko izboljšal zmožnost pogovornih pomočnikov AI in omogočil bolj naravne pogovore. LaMDA želi sčasoma normalno govoriti o skoraj vsem brez predhodnega usposabljanja.
To je eden od vedno večjega števila projektov umetne inteligence, zaradi katerih se lahko sprašujete, ali se pogovarjate s človekom.
"Moja ocena je, da bodo uporabniki v naslednjih 12 mesecih začeli biti izpostavljeni tem novim, bolj čustvenim glasovom in se nanje navajati," James Kaplan, izvršni direktor MeetKai, pogovornega virtualnega glasovnega pomočnika z umetno inteligenco in iskanja motor, je dejal v intervjuju po elektronski pošti.
"Ko se bo to zgodilo, bo današnji sintetizirani govor uporabnikom zvenel tako, kot nam danes zveni govor zgodnjih 2000-ih."
Glasovni pomočniki z znaki
Googlov LaMDA je zgrajen na Transformerju, arhitekturi nevronske mreže, ki jo je izumil Google Research. Za razliko od drugih jezikovnih modelov je bil Googlov LaMDA usposobljen za pravi dialog.
Del izziva pri ustvarjanju naravno zvenečega govora z umetno inteligenco je odprta narava pogovorov, je v objavi na spletnem dnevniku zapisal Googlov Eli Collins.
"Klepet s prijateljem o televizijski oddaji bi se lahko razvil v razpravo o državi, kjer je bila oddaja posneta, preden bi se odločil za razpravo o najboljši regionalni kuhinji te države," je dodal.
Z govorom robota se stvari odvijajo hitro. Eric Rosenblum, poslovodni partner pri Tsingyuan Ventures, ki vlaga v pogovorno umetno inteligenco, je dejal, da so nekatere najbolj temeljne težave v računalniško podprtem govoru praktično rešene.
Na primer, stopnja natančnosti pri razumevanju govora je že izjemno visoka pri storitvah, kot so prepisi, ki jih izvaja programska oprema Otter.ai, ali zdravstveni zapiski, ki jih posname DeepScribe.
"Naslednja meja pa je veliko težja," je dodal.
"Ohranjanje razumevanja konteksta, kar je težava, ki presega obdelavo naravnega jezika, in empatije, kot je na primer, da morajo računalniki v interakciji z ljudmi razumeti frustracijo, jezo, nepotrpežljivost itd. Obe zadevi se rešujeta, vendar sta obe precej daleč od zadovoljive."
Nevronske mreže so ključ
Za ustvarjanje realističnih glasov podjetja uporabljajo tehnologijo, kot so globoke nevronske mreže, oblika strojnega učenja, ki razvršča podatke po plasteh, Matt Muldoon, severnoameriški predsednik ReadSpeakerja, podjetja, ki razvija programsko opremo za besedilo v govor, je rekel v intervjuju po elektronski pošti.
"Te plasti izboljšajo signal in ga razvrstijo v bolj zapletene klasifikacije," je dodal. "Rezultat je sintetični govor, ki zveni nenavadno kot človeški."
Druga tehnologija v razvoju je Prosody Transfer, ki vključuje združevanje zvoka enega glasu za pretvorbo besedila v govor z govornim slogom drugega, je dejal Muldoon. Obstaja tudi prenos učenja, ki zmanjša količino podatkov za usposabljanje, potrebnih za ustvarjanje novega živčnega glasu pretvorbe besedila v govor.
Kaplan je dejal, da ustvarjanje človeškega govora prav tako zahteva ogromno procesorske moči. Podjetja razvijajo čipe za nevronske pospeševalnike, ki so moduli po meri, ki delujejo v povezavi z običajnimi procesorji.
"Naslednja stopnja pri tem bo namestitev teh čipov v manjšo strojno opremo, saj se trenutno že izvaja za kamere, ko je potrebna umetna inteligenca za vid," je dodal. "Kmalu bo ta vrsta računalniške zmogljivosti na voljo v samih slušalkah."
Eden od izzivov pri razvoju govora, ki ga poganja umetna inteligenca, je, da vsi govorijo drugače, zato nas računalniki običajno težko razumejo.
»Pomislite na naglase Georgie vs. Bostona vs. Severne Dakote in ne glede na to, ali je angleščina vaš primarni jezik ali ne,« je v elektronskem sporočilu povedala Monica Dema, ki dela na analitiki glasovnega iskanja pri MDinc. "Če razmišljamo globalno, je drago narediti to za vse regije Nemčije, Kitajske in Indije, vendar to ne pomeni, da ni ali ni mogoče storiti."