Tutti i prezzi sono validi al momento della pubblicazione. Se fai click o acquisti qualcosa, potremmo ricevere un compenso.

Tacotron 2, la voce artificiale di Google è identica a quella umana

27 Dicembre 2017 26

Tacotron 2 è il nome dell’innovativo sistema text-to-speech sviluppato da Google tramite l’intelligenza artificiale il cui funzionamento viene dettagliatamente descritto all’interno di un paper pubblicato dalla Cornell University. Si tratta di una soluzione estremamente avanzata, capace di replicare alla perfezione la voce umana, intonazione inclusa.

Tacotron 2 si basa sulle reti neurali, traducendo il testo in uno spettrogramma e inserendo successivamente quest’ultimo all’interno di WaveNet, sistema implementato dal laboratorio di ricerca sull’AI DeepMind acquistato da Alphabet nel 2016 capace di interpretare il grafico spettrografico traducendolo in una traccia audio.

Google garantisce che Tacotron 2 non solo è pressoché indistinguibile da una voce umana “reale” (solamente femminile, al momento, ma siamo certi che in futuro vi saranno ulteriori sviluppi), ma è anche capace di leggere “a voce alta” parole e nomi complessi, nonché di interpretare la punteggiatura e le lettere maiuscole, utilizzate nel testo per enfatizzare una specifica parola di particolare importanza all’interno della frase.

L’azienda di Mountain View sfrutterà il nuovo sistema text-to-speech per migliorare ulteriormente l’assistente vocale Google Assistant. Vi invitiamo a consultare QUESTA PAGINA per ascoltare alcune frasi d’esempio pronunciate da una voce umana e dall’intelligenza artificiale. Riconoscere la differenza pare essere davvero arduo!


26

Commenti

Regolamento Commentando dichiaro di aver letto il regolamento e di essere a conoscenza delle informazioni e norme che regolano le discussioni sul sito. Clicca per info.
Caricamento in corso. Per commentare attendere...
Marco Seregni

"She sells sea-shells on the sea-shore. The shells she sells are sea-shells I'm sure."
Voglio il contornto con Renzie D:

MetalSir

Ma non si stavano estinguendo?

MaxArt

You know nothing, Jon Snow

scrofalo

Vediamo a gennaio com'è il panino nuovo di Macdonald progettato con le reti neurali. Dicono dall'estero che sia un' esperienza assouta.

Jon Snow

glielo chiesi tempo fa

crissstian96

Sapete nulla riguardo future API?

Leonardo Paglia

Se gli chiedi di cambiare voce, risponde che per ora ha solo questa, confidiamo negli update..

Jon Snow

minghia ma siete tutti anglofoni che riuscite a cogliere le sfumature dell'accento inglese?

Martino Fontana

Non so se dico una cavolata o meno ma mi sembrano preregistrate.

MirkoHW

Esiste un modo per far leggere a Cortana testi abbastanza lunghi? Es. interi articoli?

Fabio

La seconda è la voce artificiale. Davvero differenze impercettibili ma stando attento ho colto. Comunque tanto di cappello, è eccellente

Dea1993

è davvero impressionante, hanno fatto un ottimo lavoro e sicuramente migliorerà ulteriormente in futuro.
è incredibile, chissà quando potremmo usarlo, l'attuale TTS di google translate (per esempio) è agghiacciante

Lollo Costa

No

Darkat

Anche io sono rimasto notevolmente sorpreso dalla sua espressività, fa sembrare assistant e siri vecchi di decenni. Peccato poi che non mi sembri così utile su Windows 10 alla fine

rusp95

Per me Cortana é ancora irraggiungibile, ha un espressività quasi umana.

Marco Fantin

Concordo!

Jon Snow

c'è un modo per avere la voce femminile di Google Assistant? Quella maschile mi fa venire voglia di spaccare il telefono

Davide

nelle frasi con parole complesse si riesce a intuire che sia un sistema TTS mentre le frasi comuni sono davvero notevoli. Bisogna vedere se con periodi molto lunghi fa anche delle pause per simulare la respirazione o se spara tutto in un sol fiato.

The

A me ha impressionato non poco

virtual

No, sono mescolate. Se guardi i sorgenti pagina lo si capisce dal nome del file "_gen" e "_gt" (e immagino Tacotron sia quello con "_gen").

Jon Snow

https://uploads.disquscdn.c...

delpinsky

Finalmente niente più romeni o albanesi che si spacciano per italiani quando ti chiamano dai call-center! Hurrà! :D
Comunque è spettacolare la fluidità audio, anche se queste sono frasi demo. Non vedo l'ora quindi di provare il loro text-to-speech con testi più lunghi per vedere come si comporta. Non mi dispiacerebbe usarla per farmi leggere i libri...

kust0r

benvenuto nel presente, ovvero il futuro di alcuni romanzi che all'apparenza potevano sembrare distopici.

Paolo Giulio

PENSIERO PERSONALE: in un futuro nel quale è facile pensare interagiremo sempre più con AI (e non parlo SOLO dei nostri cellulari), la possibilità di riconosce "a voce" che -ad esempio- il call center chiamato è una AI e non un umano lo trovo importante. Stesso discorso per ogni tipologia di interfaccia audio possa coinvolgere la mia vita; chiamare la polizia o un qualunque soccorso pubblico, un ospedale, un medico, etc...
Non vedo questa corsa al "voce replica 101%" per forza una cosa apprezzabile a tout court... A ME non convince a pieno...

Michele Lapina

Secondo me nel confronto la voce di Tacotron è sempre la seconda :D

davidebravo

Il secondo paragrafo letto con leggerezza mi ha ricordato le supercazzole di Amici Miei XD

Recensione e Riprova Google Pixel Buds Pro, rinate con l'aggiornamento

24H con Oppo Find N2 Flip, la sfida a Samsung è servita | VIDEO

Abbiamo provato i nuovi Galaxy Z Fold4 e Z Flip4, ecco le novità! | VIDEO

Copertura 5G, a che punto siamo davvero? La nostra esperienza in città