Ali so ti izjemno impresivni glasovi zvočne knjige z umetno inteligenco dobri ali slabi?

Kazalo:

Ali so ti izjemno impresivni glasovi zvočne knjige z umetno inteligenco dobri ali slabi?
Ali so ti izjemno impresivni glasovi zvočne knjige z umetno inteligenco dobri ali slabi?
Anonim

Ključni izsledki

  • DeepZen uporablja AI (umetno inteligenco) za ustvarjanje osupljivo realističnih zvočnih knjig iz besedila.
  • Tehnologija uporablja prave človeške glasovne igralce za gradnike.
  • Amazon in Audible trenutno ne sprejemata računalniško ustvarjenih zvočnih knjig.
Image
Image

DeepZen je podjetje, ki ustvarja računalniške glasove, ki se uporabljajo v zvočnih knjigah, na podlagi resničnih glasov človeških igralcev. Kakovost je strašljivo dovolj dobra, da jo lahko poslušate več ur naenkrat. Trik tukaj je komponenta AI (umetna inteligenca), ki lahko prebere besedilo in na podlagi konteksta sklepa o pravilnem čustvenem odzivu. To čustvo nato prenese v glas.

Impresivno je in zelo priročno. Toda ali res želimo homogeno izkušnjo zvočne knjige? Kaj pa ti glasovni igralci?

"Z vidika indie založnika je vse, kar zmanjša stroške produkcije zvočnih knjig, zelo zanimivo," je za Lifewire po elektronski pošti povedal Rick Carlile, lastnik neodvisne založbe Carlile Media.

"Toda ta privlačnost predvideva, da bi bil izdelek enake kakovosti kot tradicionalna pripoved. Mislim, da še nismo stoodstotno dosegli. Ne razumite me narobe, DeepZen je osupljivo dober. Je izjemen preboj, njegovi ustvarjalci pa si zaslužijo ogromno pohval in uspeha. Vendar še ni popoln."

Zvok, ki je 'dovolj dober'

Najboljši način za razumevanje kakovosti DeepZen je poslušanje vzorcev. Če niste vedeli, da so računalniško ustvarjeni, se morda sploh ne boste zavedali. Nekaj časa vseeno ne. Predpostavimo, da je umetna inteligenca DeepZen popolna in da nikoli napačno ne interpretira čustvenih not, ki naj bi jih zadel.

Image
Image

Tudi takrat lahko človek ponudi bolj niansirane in pogosto bolj presenetljive interpretacije. Igralec bi lahko nepričakovano zasukal besede, ki jih računalnik sploh ne bi upošteval. In v resnici interpretacija umetne inteligence zagotovo še ni tako dobra kot interpretacija profesionalnega glasovnega igralca.

»Kot nekdo, ki dela na filmih in nazadnje v svetu zvočnega pripovedovanja, sem sicer navdušen nad umetno inteligenco – zagotovo vem, da obstajajo globoke globine pomena, ki jih stroj ne more interpretirati, « profesionalni glas igralec Paul Cram je povedal Lifewire po e-pošti.

"Ali bo naval neznanih avtorjev, ki ga bodo uporabljali? Zagotavljam, da ga bo, ker je 'dovolj dober'."

Biti dovolj dober, skupaj s priročnostjo in prihranki pri stroških, bi lahko zadostoval, da neodvisne založnike pritegne k storitvi.

"Zvočne knjige lahko stanejo do 500 USD na končano uro zvoka (veliko več za glas slavnih), kar ne vključuje stroškov upravljanja in skrbništva," pravi Carlile. "Izjemno privlačno je možnost prepoloviti ta strošek s preprostim nalaganjem rokopisa k ponudniku, kot je DeepZen."

Talking Trouble

Še ni tako enostavno kot odpuščanje glasovnih igralcev in nalaganje rokopisov v DeepZen. Trenutno obstaja ena ovira za preprosto govorjenje z umetno inteligenco zvočnih knjig, in to iz Amazona.

Image
Image

"Trenutno ACX, samozaložniška pot do distribucije zvočnih knjig Audible in Amazon, ne sprejema zvočnih knjig, ki jih ni posnel človek," pravi Carlile.

Zakaj? Kakovost. Tukaj je vnos pogostih vprašanj s spletne strani:

"Pretvorba besedila v govor ali drugi avtomatizirani posnetki niso dovoljeni. Zvočni poslušalci izberejo zvočne knjige za izvedbo gradiva in zgodbe. Da bi izpolnili to pričakovanje, mora vašo zvočno knjigo posneti človek."

To pomeni, da zvočnih knjig, ki jih ustvari DeepZen, vsaj za zdaj ni več. To je čista špekulacija, vendar bi se DeepZen zdel precej dobra pridobitev za Amazon, ki bi mu dovolil prodajo storitve in jo obdržal samo za knjige Audible. In tudi če se to ne zgodi, če je kakovost računalniško ustvarjenih zvočnih knjig tako dobra, se zdi malo razlogov, da ne bi naredili izjeme od tega pravila.

Ali bi z veseljem poslušali tako narejene zvočne knjige? Ko se to zgodi, večina ljudi ne bo niti slutila. Nekaterim bo morda bolj všeč popolnost računalniško ustvarjenih glasov, ker bodo brez vokalnih tikov in navad, ki lahko včasih odvrnejo pozornost. Tehnologija je primerna tudi za video igre, televizijske in radijske oglase ter vse druge scenarije, kjer bi najeli glasovnega igralca.

Tehnologija DeepZen bi bila tudi odličen način za samodejno ustvarjanje novičarskih podcastov iz napisanih člankov, kar bi lahko bilo priročno na poti.

Kaj pa ti glasovni igralci? No, vsaj ena priložnost bo: lahko gredo delat za DeepZen.

Priporočena: