Kako bi lahko umetna inteligenca naredila računalniški govor bolj naraven

👤 Avtor Abigail Brown 📧 brown@technologyhumans.com.
⏱ Public 2023-12-17 07:00.
🖍 Nazadnje spremenjeno 2025-06-01 07:18.

Ključni izsledki

Podjetja tekmujejo v iskanju načinov, kako narediti računalniško ustvarjen govor bolj realističen.
NVIDIA je nedavno predstavila orodja, ki lahko zajamejo zvok naravnega govora, tako da vam omogočajo, da usposobite AI z lastnim glasom.
Intonacija, čustva in muzikalnost so lastnosti, ki jih računalniški glasovi še vedno nimajo, pravi en strokovnjak.

Računalniško ustvarjen govor bo morda kmalu zvenel veliko bolj človeško.

Proizvajalec računalniških delov NVIDIA je pred kratkim predstavil orodja, ki lahko zajamejo zvok naravnega govora, tako da vam omogočajo, da s svojim glasom trenirate AI. Programska oprema lahko prenese tudi besede enega govorca z uporabo glasu druge osebe. To je del naraščajočega prizadevanja, da bi računalniški govor postal bolj realističen.

"Napredna tehnologija glasovne umetne inteligence omogoča uporabnikom, da govorijo naravno, združuje številne poizvedbe v en stavek in odpravlja potrebo po nenehnem ponavljanju podrobnosti iz izvirne poizvedbe," Michael Zagorsek, glavni operativni direktor podjetja za prepoznavanje govora SoundHound, je povedal Lifewire v intervjuju po elektronski pošti.

"Dodajanje več jezikov, ki je zdaj na voljo na večini platform glasovne umetne inteligence, omogoča dostopnost digitalnih glasovnih pomočnikov na več območjih in za več prebivalcev," je dodal.

Robospeech Rising

Amazonova Alexa in Applova Siri zvenita veliko bolje kot računalniški govor izpred desetletja, vendar ju ne bo kmalu zamenjati za pristne človeške glasove.

Za bolj naraven zvok umetnega govora je NVIDIA-ina raziskovalna skupina za pretvorbo besedila v govor razvila model RAD-TTS. Sistem posameznikom omogoča učenje modela besedila v govor (TTS) s svojim glasom, vključno s tempo, tonaliteto, tembrom in drugimi dejavniki.

Podjetje je uporabilo svoj novi model za izdelavo bolj pogovorno zveneče glasovne pripovedi za svojo serijo videoposnetkov I Am AI.

S tem vmesnikom bi se naš video producent lahko posnel med branjem video scenarija in nato uporabil model umetne inteligence za pretvorbo svojega govora v glas pripovedovalke. S to osnovno pripovedjo bi lahko producent nato usmerjal umetno inteligenco kot glasovni igralec - prilagodi sintetiziran govor, da poudari določene besede in spremeni tempo pripovedi, da bolje izrazi ton videoposnetka, « je NVIDIA zapisala na svoji spletni strani.

Težje, kot se sliši

Poskrbeti, da računalniško ustvarjen govor zveni naravno, je težavna težava, pravijo strokovnjaki.

»Morate posneti na stotine ur nečijega glasu, da ustvarite njegovo računalniško različico, « je v intervjuju za Lifewire po elektronski pošti povedal Nazim Ragimov, izvršni direktor podjetja za programsko opremo Kukarella za pretvorbo besedila v govor. »In posnetek mora biti kakovosten, posnet v profesionalnem studiu. Več ur kakovostnega govora je naloženih in obdelanih, boljši je rezultat."

Pretvorbo besedila v govor je mogoče uporabiti pri igranju iger, za pomoč posameznikom z glasovnimi motnjami ali za pomoč uporabnikom pri prevajanju med jeziki z lastnim glasom.

Intonacija, čustva in muzikalnost so lastnosti, ki jih računalniški glasovi še vedno nimajo, je dejal Ragimov.

Če lahko umetna inteligenca doda te manjkajoče povezave, se računalniško ustvarjen govor "ne bo razlikoval od glasov resničnih igralcev," je dodal. "To je v teku. Drugi glasovi bodo lahko tekmovali z radijskimi voditelji. Kmalu boste videli glasove, ki znajo peti in brati zvočne knjige."

Govorna tehnologija postaja vse bolj priljubljena v številnih podjetjih.

"Avtomobilska industrija je nedavno sprejela glasovno umetno inteligenco kot način za ustvarjanje varnejših in bolj povezanih vozniških izkušenj," je dejal Zagorsek.

"Od takrat so glasovni pomočniki postali vse bolj navzoči, saj blagovne znamke iščejo načine za izboljšanje uporabniške izkušnje in izpolnjevanje povpraševanja po enostavnejših, varnejših, bolj priročnih, učinkovitih in higieničnih metodah interakcije z njihovimi izdelki in storitvami."

Običajno glasovna umetna inteligenca pretvori poizvedbe v odgovore v dvostopenjskem procesu, ki se začne s prepisovanjem govora v besedilo z uporabo samodejnega prepoznavanja govora (ASR) in nato podaja to besedilo v model razumevanja naravnega jezika (NLU).

SoundHoundov pristop združuje ta dva koraka v en postopek za sledenje govoru v realnem času. Podjetje trdi, da ta tehnika omogoča glasovnim pomočnikom, da razumejo pomen uporabniških poizvedb, še preden oseba neha govoriti.

Prihodnji napredek v računalniškem govoru, vključno z razpoložljivostjo različnih možnosti povezovanja od samo vdelane (ni potrebna povezava z oblakom) do hibrida (vdelani plus oblak) in samo v oblaku, bo dal več izbire podjetjem v različnih panogah v smislu stroškov, zasebnosti in razpoložljivosti procesorske moči, «je dejal Zagoresk.

NVIDIA je dejala, da njeni modeli umetne inteligence za novice presegajo glasovno delo.

"Pretvorbo besedila v govor je mogoče uporabiti pri igranju iger, za pomoč posameznikom z vokalnimi motnjami ali za pomoč uporabnikom pri prevajanju med jeziki z lastnim glasom," je zapisalo podjetje. "Lahko celo poustvari nastope ikoničnih pevcev, pri čemer se ne ujema samo z melodijo pesmi, ampak tudi s čustvenim izrazom za vokalom."

Priporočena:

Kako bi lahko umetna inteligenca naredila računalniški govor bolj naraven

Kazalo:

Ključni izsledki

Robospeech Rising

Težje, kot se sliši

Priporočena:

Kako bi umetna inteligenca lahko spremljala svoje nevarne potomce

Visokotehnološka oblačila bi lahko naredila VR bolj prepričljivo

Umetna inteligenca bi lahko naredila avtomobilske nesreče preteklost

Ali nas lahko umetna inteligenca nauči biti bolj človeški?

Kako bi lahko umetna inteligenca dokazala, da živimo v računalniški simulaciji

Xiaomi Mi Smart Band 4 Pregled Pregled: Moj najljubši Budget Fitness Tracker

Tehnične specifikacije materialov za 3D-tiskanje

Garmin Vivosmart 4 Pregled: telesna baterija, nadzor stresa in več

Kako uporabiti Aero Shake v sistemu Windows, da poiščete okno, ki ga želite

Vrste induktorjev v elektroniki

Bi morali kupiti iPad?

5 aplikacij, kot je Snapchat, s filtri za sledenje obrazom

Nastavitve e-pošte iCloud za vse platforme

20 najbolj navdihujočih filmov vseh časov

Kaj je PCI Express (PCIe)?

PS4 & 5 Pridobite nove možnosti zabave, glasovne ukaze in več

Ipad Air 5: cena, datum izdaje, specifikacije in novice

Linux na M1 že premaga Apple v njegovi igri

Zakaj ima zaslon Apple Studio iPhone v sebi

Kako izbrisati en ali več stikov na vašem iPhoneu