21 Febbraio 2018
Tacotron 2 è il nome dell’innovativo sistema text-to-speech sviluppato da Google tramite l’intelligenza artificiale il cui funzionamento viene dettagliatamente descritto all’interno di un paper pubblicato dalla Cornell University. Si tratta di una soluzione estremamente avanzata, capace di replicare alla perfezione la voce umana, intonazione inclusa.
Tacotron 2 si basa sulle reti neurali, traducendo il testo in uno spettrogramma e inserendo successivamente quest’ultimo all’interno di WaveNet, sistema implementato dal laboratorio di ricerca sull’AI DeepMind acquistato da Alphabet nel 2016 capace di interpretare il grafico spettrografico traducendolo in una traccia audio.
Google garantisce che Tacotron 2 non solo è pressoché indistinguibile da una voce umana “reale” (solamente femminile, al momento, ma siamo certi che in futuro vi saranno ulteriori sviluppi), ma è anche capace di leggere “a voce alta” parole e nomi complessi, nonché di interpretare la punteggiatura e le lettere maiuscole, utilizzate nel testo per enfatizzare una specifica parola di particolare importanza all’interno della frase.
L’azienda di Mountain View sfrutterà il nuovo sistema text-to-speech per migliorare ulteriormente l’assistente vocale Google Assistant. Vi invitiamo a consultare QUESTA PAGINA per ascoltare alcune frasi d’esempio pronunciate da una voce umana e dall’intelligenza artificiale. Riconoscere la differenza pare essere davvero arduo!
Commenti
"She sells sea-shells on the sea-shore. The shells she sells are sea-shells I'm sure."
Voglio il contornto con Renzie D:
Ma non si stavano estinguendo?
You know nothing, Jon Snow
Vediamo a gennaio com'è il panino nuovo di Macdonald progettato con le reti neurali. Dicono dall'estero che sia un' esperienza assouta.
glielo chiesi tempo fa
Sapete nulla riguardo future API?
Se gli chiedi di cambiare voce, risponde che per ora ha solo questa, confidiamo negli update..
minghia ma siete tutti anglofoni che riuscite a cogliere le sfumature dell'accento inglese?
Non so se dico una cavolata o meno ma mi sembrano preregistrate.
Esiste un modo per far leggere a Cortana testi abbastanza lunghi? Es. interi articoli?
La seconda è la voce artificiale. Davvero differenze impercettibili ma stando attento ho colto. Comunque tanto di cappello, è eccellente
è davvero impressionante, hanno fatto un ottimo lavoro e sicuramente migliorerà ulteriormente in futuro.
è incredibile, chissà quando potremmo usarlo, l'attuale TTS di google translate (per esempio) è agghiacciante
No
Anche io sono rimasto notevolmente sorpreso dalla sua espressività, fa sembrare assistant e siri vecchi di decenni. Peccato poi che non mi sembri così utile su Windows 10 alla fine
Per me Cortana é ancora irraggiungibile, ha un espressività quasi umana.
Concordo!
c'è un modo per avere la voce femminile di Google Assistant? Quella maschile mi fa venire voglia di spaccare il telefono
nelle frasi con parole complesse si riesce a intuire che sia un sistema TTS mentre le frasi comuni sono davvero notevoli. Bisogna vedere se con periodi molto lunghi fa anche delle pause per simulare la respirazione o se spara tutto in un sol fiato.
A me ha impressionato non poco
No, sono mescolate. Se guardi i sorgenti pagina lo si capisce dal nome del file "_gen" e "_gt" (e immagino Tacotron sia quello con "_gen").
https://uploads.disquscdn.c...
Finalmente niente più romeni o albanesi che si spacciano per italiani quando ti chiamano dai call-center! Hurrà! :D
Comunque è spettacolare la fluidità audio, anche se queste sono frasi demo. Non vedo l'ora quindi di provare il loro text-to-speech con testi più lunghi per vedere come si comporta. Non mi dispiacerebbe usarla per farmi leggere i libri...
benvenuto nel presente, ovvero il futuro di alcuni romanzi che all'apparenza potevano sembrare distopici.
PENSIERO PERSONALE: in un futuro nel quale è facile pensare interagiremo sempre più con AI (e non parlo SOLO dei nostri cellulari), la possibilità di riconosce "a voce" che -ad esempio- il call center chiamato è una AI e non un umano lo trovo importante. Stesso discorso per ogni tipologia di interfaccia audio possa coinvolgere la mia vita; chiamare la polizia o un qualunque soccorso pubblico, un ospedale, un medico, etc...
Non vedo questa corsa al "voce replica 101%" per forza una cosa apprezzabile a tout court... A ME non convince a pieno...
Secondo me nel confronto la voce di Tacotron è sempre la seconda :D
Il secondo paragrafo letto con leggerezza mi ha ricordato le supercazzole di Amici Miei XD