Ključni izsledki
- Podjetja tekmujejo v iskanju načinov, kako narediti računalniško ustvarjen govor bolj realističen.
- NVIDIA je nedavno predstavila orodja, ki lahko zajamejo zvok naravnega govora, tako da vam omogočajo, da usposobite AI z lastnim glasom.
- Intonacija, čustva in muzikalnost so lastnosti, ki jih računalniški glasovi še vedno nimajo, pravi en strokovnjak.
Računalniško ustvarjen govor bo morda kmalu zvenel veliko bolj človeško.
Proizvajalec računalniških delov NVIDIA je pred kratkim predstavil orodja, ki lahko zajamejo zvok naravnega govora, tako da vam omogočajo, da s svojim glasom trenirate AI. Programska oprema lahko prenese tudi besede enega govorca z uporabo glasu druge osebe. To je del naraščajočega prizadevanja, da bi računalniški govor postal bolj realističen.
"Napredna tehnologija glasovne umetne inteligence omogoča uporabnikom, da govorijo naravno, združuje številne poizvedbe v en stavek in odpravlja potrebo po nenehnem ponavljanju podrobnosti iz izvirne poizvedbe," Michael Zagorsek, glavni operativni direktor podjetja za prepoznavanje govora SoundHound, je povedal Lifewire v intervjuju po elektronski pošti.
"Dodajanje več jezikov, ki je zdaj na voljo na večini platform glasovne umetne inteligence, omogoča dostopnost digitalnih glasovnih pomočnikov na več območjih in za več prebivalcev," je dodal.
Robospeech Rising
Amazonova Alexa in Applova Siri zvenita veliko bolje kot računalniški govor izpred desetletja, vendar ju ne bo kmalu zamenjati za pristne človeške glasove.
Za bolj naraven zvok umetnega govora je NVIDIA-ina raziskovalna skupina za pretvorbo besedila v govor razvila model RAD-TTS. Sistem posameznikom omogoča učenje modela besedila v govor (TTS) s svojim glasom, vključno s tempo, tonaliteto, tembrom in drugimi dejavniki.
Podjetje je uporabilo svoj novi model za izdelavo bolj pogovorno zveneče glasovne pripovedi za svojo serijo videoposnetkov I Am AI.
S tem vmesnikom bi se naš video producent lahko posnel med branjem video scenarija in nato uporabil model umetne inteligence za pretvorbo svojega govora v glas pripovedovalke. S to osnovno pripovedjo bi lahko producent nato usmerjal umetno inteligenco kot glasovni igralec – prilagodi sintetiziran govor, da poudari določene besede in spremeni tempo pripovedi, da bolje izrazi ton videoposnetka, « je NVIDIA zapisala na svoji spletni strani.
Težje, kot se sliši
Poskrbeti, da računalniško ustvarjen govor zveni naravno, je težavna težava, pravijo strokovnjaki.
»Morate posneti na stotine ur nečijega glasu, da ustvarite njegovo računalniško različico, « je v intervjuju za Lifewire po elektronski pošti povedal Nazim Ragimov, izvršni direktor podjetja za programsko opremo Kukarella za pretvorbo besedila v govor. »In posnetek mora biti kakovosten, posnet v profesionalnem studiu. Več ur kakovostnega govora je naloženih in obdelanih, boljši je rezultat."
Pretvorbo besedila v govor je mogoče uporabiti pri igranju iger, za pomoč posameznikom z glasovnimi motnjami ali za pomoč uporabnikom pri prevajanju med jeziki z lastnim glasom.
Intonacija, čustva in muzikalnost so lastnosti, ki jih računalniški glasovi še vedno nimajo, je dejal Ragimov.
Če lahko umetna inteligenca doda te manjkajoče povezave, se računalniško ustvarjen govor "ne bo razlikoval od glasov resničnih igralcev," je dodal. "To je v teku. Drugi glasovi bodo lahko tekmovali z radijskimi voditelji. Kmalu boste videli glasove, ki znajo peti in brati zvočne knjige."
Govorna tehnologija postaja vse bolj priljubljena v številnih podjetjih.
"Avtomobilska industrija je nedavno sprejela glasovno umetno inteligenco kot način za ustvarjanje varnejših in bolj povezanih vozniških izkušenj," je dejal Zagorsek.
"Od takrat so glasovni pomočniki postali vse bolj navzoči, saj blagovne znamke iščejo načine za izboljšanje uporabniške izkušnje in izpolnjevanje povpraševanja po enostavnejših, varnejših, bolj priročnih, učinkovitih in higieničnih metodah interakcije z njihovimi izdelki in storitvami."
Običajno glasovna umetna inteligenca pretvori poizvedbe v odgovore v dvostopenjskem procesu, ki se začne s prepisovanjem govora v besedilo z uporabo samodejnega prepoznavanja govora (ASR) in nato podaja to besedilo v model razumevanja naravnega jezika (NLU).
SoundHoundov pristop združuje ta dva koraka v en postopek za sledenje govoru v realnem času. Podjetje trdi, da ta tehnika omogoča glasovnim pomočnikom, da razumejo pomen uporabniških poizvedb, še preden oseba neha govoriti.
Prihodnji napredek v računalniškem govoru, vključno z razpoložljivostjo različnih možnosti povezovanja od samo vdelane (ni potrebna povezava z oblakom) do hibrida (vdelani plus oblak) in samo v oblaku, bo dal več izbire podjetjem v različnih panogah v smislu stroškov, zasebnosti in razpoložljivosti procesorske moči, «je dejal Zagoresk.
NVIDIA je dejala, da njeni modeli umetne inteligence za novice presegajo glasovno delo.
"Pretvorbo besedila v govor je mogoče uporabiti pri igranju iger, za pomoč posameznikom z vokalnimi motnjami ali za pomoč uporabnikom pri prevajanju med jeziki z lastnim glasom," je zapisalo podjetje. "Lahko celo poustvari nastope ikoničnih pevcev, pri čemer se ne ujema samo z melodijo pesmi, ampak tudi s čustvenim izrazom za vokalom."