Pogovori z računalnikom lahko postanejo bolj realistični

Kazalo:

Pogovori z računalnikom lahko postanejo bolj realistični
Pogovori z računalnikom lahko postanejo bolj realistični
Anonim

Ključni izsledki

  • Meta uporablja AI za izdelavo programov, ki lahko izražajo čustva v govoru.
  • Ekipa podjetja za umetno inteligenco je povedala, da je dosegla napredek pri modeliranju izraznih vokalizacij, kot so smeh, zehanje, jok in "spontani klepet" v realnem času.
  • Umetna inteligenca se uporablja tudi za spodbujanje izboljšav pri prepoznavanju govora.
Image
Image

Morda boste lahko kmalu imeli bolj naraven klepet s svojim računalnikom, zahvaljujoč moči umetne inteligence (AI).

Meta je dejala, da je dosegla pomemben napredek v svojih prizadevanjih za ustvarjanje bolj realističnih govornih sistemov, ki jih ustvari umetna inteligenca. Ekipa podjetja za umetno inteligenco je povedala, da je napredovala pri zmožnosti modeliranja izraznih vokalizacij, kot so smeh, zehanje in jok, poleg "spontanega klepetanja" v realnem času.

»V katerem koli pogovoru si ljudje izmenjajo polno neverbalnih signalov, kot so intonacije, čustveno izražanje, premori, poudarki, ritmi – kar je vse pomembno za medčloveško interakcijo,« je ekipa zapisala v nedavni objavi na blogu. "Toda današnji sistemi umetne inteligence ne uspejo zajeti teh bogatih, izraznih signalov, ker se učijo samo iz pisnega besedila, ki zajame, kaj rečemo, ne pa tudi, kako to rečemo."

Pametnejši govor

V objavi v blogu je ekipa Meta AI povedala, da si prizadeva premagati omejitve tradicionalnih sistemov AI, ki ne morejo razumeti neverbalnih signalov v govoru, kot so intonacije, čustveni izrazi, premori, poudarki in ritmi. Sistemi so zadržani, ker se lahko učijo samo iz pisnega besedila.

Toda Metino delo se razlikuje od prejšnjih prizadevanj, ker lahko njeni modeli AI uporabljajo modele obdelave naravnega jezika, da zajamejo celotno naravo govorjenega jezika. Meta raziskovalci pravijo, da lahko novi modeli omogočijo sistemom umetne inteligence, da prenesejo občutke, ki jih želijo prenesti – na primer dolgčas ali ironijo.

"V bližnji prihodnosti se bomo osredotočili na uporabo tehnik brez besedila za izdelavo uporabnih nadaljnjih aplikacij, ne da bi potrebovali besedilne oznake, ki zahtevajo veliko virov, ali sisteme za samodejno prepoznavanje govora (ASR), kot je odgovarjanje na vprašanja (npr. "Kako je vreme?«), je ekipa zapisala v objavi na blogu. "Verjamemo, da lahko prozodija v govoru pomaga bolje razčleniti stavek, kar posledično olajša razumevanje namena in izboljša učinkovitost odgovarjanja na vprašanja."

Razumevanje moči AI

Ne le, da postajajo računalniki vse boljši pri sporočanju pomena, ampak se AI uporablja tudi za izboljšanje prepoznavanja govora.

Računalniški znanstveniki se ukvarjajo z računalniškim prepoznavanjem govora vsaj od leta 1952, ko so trije raziskovalci Bell Labs ustvarili sistem, ki je lahko prepoznal posamezne številske števke, je v e-pošti povedal Ryan Monsurate, glavni tehnološki direktor AI Dynamics. Lifewire. Do devetdesetih let prejšnjega stoletja so bili sistemi za prepoznavanje govora komercialno dostopni, vendar je bila stopnja napak še vedno dovolj visoka, da je odvračala od uporabe zunaj zelo specifičnih področij uporabe, kot je zdravstvo.

»Zdaj, ko so modeli globokega učenja omogočili skupinskim modelom (kot so tisti iz Microsofta), da dosežejo nadčloveško zmogljivost pri prepoznavanju govora, imamo tehnologijo, ki omogoča verbalno komunikacijo z računalniki v velikem obsegu, neodvisno od govorca,« je dejal Monsurate. "Naslednja stopnja bo vključevala znižanje stroškov, tako da bodo imeli vsi, ki uporabljajo Siri ali Googlove AI pomočnike, dostop do te ravni prepoznavanja govora."

Image
Image

Umetna inteligenca je uporabna za prepoznavanje govora, ker se lahko sčasoma izboljša z učenjem, je v intervjuju za Lifewire po elektronski pošti povedal Ariel Utnik, glavni direktor prihodkov in generalni direktor glasovnega podjetja AI Verbit.ai. Verbit na primer trdi, da njegova interna tehnologija umetne inteligence zaznava in filtrira hrup v ozadju ter odmeva in prepisuje govorce ne glede na naglas, da ustvari podrobne, profesionalne prepise in napise iz videa in zvoka v živo in posnetega.

Toda Utnik je dejal, da je večina trenutnih platform za prepoznavanje govora natančnih le 75-80 %.

"Umetna inteligenca ne bo nikoli v celoti nadomestila ljudi, saj je osebni pregled prepisovalcev, lektorjev in urednikov nujen za zagotovitev visokokakovostnega in najnatančnejšega končnega prepisa," je dodal.

Boljše prepoznavanje glasu bi lahko uporabili tudi za preprečevanje hekerjev, je v elektronskem sporočilu dejal Sanjay Gupta, podpredsednik globalnega vodje produktnega in korporativnega razvoja pri podjetju za prepoznavanje glasu Mitek Systems. Raziskave kažejo, da bo v dveh letih 20 odstotkov vseh uspešnih napadov na prevzem računa uporabljalo sintetično povečanje glasu, je dodal.

"To pomeni, da ko tehnologija globokega ponarejanja postane bolj sofisticirana, moramo hkrati ustvariti napredno varnost, ki se lahko bori proti tem taktikam poleg globokih ponaredkov slik in videoposnetkov," je dejal Gupta. "Boj proti ponarejanju glasu zahteva tehnologijo zaznavanja živahnosti, ki lahko razlikuje med glasom v živo in posneto, sintetično ali računalniško ustvarjeno različico glasu."

Popravek 2022-05-04: Popravljeno črkovanje imena Ryan Monsurate v odstavku 9.

Priporočena: