L'AI di DeepMind riconosce il labiale meglio degli umani professionisti

24 Novembre 2016 26

Google DeepMind, in collaborazione con un team di ricercatori dell'Università di Oxford, ha sviluppato un'intelligenza artificiale in grado di leggere il labiale molto meglio di un umano che lo fa per lavoro. Il sistema è stato allenato usando circa 5.000 ore di registrazioni di show della BBC, tra cui Newsnight, BBC Breakfast e Question Time, che contenevano complessivamente 118.000 frasi e poco più di 17.500 parole. Molto importante anche la varietà di interlocutori: oltre 1.000 volti diversi assicurano flessibilità e capacità di adattamento del sistema.

Il test è stato condotto mostrando al professionista un sample casuale proveniente da oltre 200 dei video della BBC usati per formare l'intelligenza artificiale. Il professionista è riuscito a decifrare meno del 25 per cento delle parole, mentre l'intelligenza artificiale ha raggiunto il 50 per cento, ed è riuscita ad estrapolare il senso di frasi complesse.


I risultati sono ancora più impressionanti se si passa allo scritto: il professionista è riuscito a scrivere correttamente solo il 12 per cento delle parole pronunciate, mentre l'intelligenza artificiale addirittura il 46 per cento. Inoltre, buona parte degli errori del software erano banali, come non cogliere una "s" alla fine di una parola.

Questo tipo di tecnologia potrebbe tornare molto utile in diversi campi. Migliorerà le capacità di riconoscimento vocale degli assistenti digitali, anche in ambienti rumorosi, permetterà di aggiungere il sonoro ai film muti, e aiuterà a risolvere il problema di trascrizione di discorsi in cui più interlocutori parlano in contemporanea.

È possibile consultare tutta la relazione della ricerca scaricando QUESTO PDF.

Il top di Huawei al miglior prezzo? Huawei P30 Pro, in offerta oggi da Mobzilla a 484 euro oppure da Unieuro a 569 euro.

26

Commenti

Regolamento Commentando dichiaro di aver letto il regolamento e di essere a conoscenza delle informazioni e norme che regolano le discussioni sul sito. Clicca per info.
Caricamento in corso. Per commentare attendere...
Leox91

Guarda ci lavoro da 2 anni quindi conosco abbastanza e, visto che vuoi fare flame, potresti spiegarmi dov'è il senso nel testare un NN su dati che ha già visto, grazie. :)

Zeph

Non per fare flame ma... forse dovresti studiare un pò di machine learning e le principali tecniche di apprendimento

Leox91

Bhe non è facile fare un esempio che sia alla portata di tutti, provaci tu se vuoi. Il punto è che loro hanno testato su dati utilizzati per trainare, quindi il fatto che abbiano diviso in 3 set non c'entra niente: hanno preso risultati usando dati già visti in precedenza.

istin

C'è comunque training, validation e test set. Inoltre -non so se lo hai letto - sul pdf dicono chiaramente che le registrazioni usati sono di vario tipo e vanno dal 2010 al 2016, preservando così l'eterogeneità del campione anche in fase di test. Ovviamente c'è un bias, come in tutti i dataset d'altronde, ma è accettabilissimo e ciò rende il tuo paragone con i formaggi del tutto fuori luogo ;)

ErCipolla

Idem a te, visto che non hai notato il ":D"

superfrenc

Ironia, questa sconosciuta...

Emanuele Gori

Certo, come no! Con la qualità dei video di allora e il fatto che le inquadrature non erano quasi mai dei primi piani durante le conversazioni sarà facilissimo per l'IA leggere le labbra!!!!

Roland

Doppiaggio questo sconosciuto

Leox91

Certo questo a tutti voi sembra un risultato importante.

Tuttavia vi invito a leggere fra le righe, la frase: "200 dei video della BBC ->usati per formare l'intelligenza artificiale<-". Questo significa che la rete neurale aveva GIA' VISTO precedentemente quei video, e quindo non ha GENERALIZZATO, ma ha usato il suo MODELLO sugli stessi dati che ha usato per MODELLARE! Non so se sono stato abbastanza chiaro: è come se noi giudicassimo un tipo di formaggio provando solo quelli che già conosciamo.

Attenzione a questi risultati, per quanto possano essere notevoli, non sempre sono davvero significativi: cosa succederebbe se ora IO andassi di fronte la telecamera e parlassi? Mi riconoscerebbe? Difficile, perché io mi DISCOSTO molto dal SUO MODELLO. Io non sono previsto nei suoi dati.

Esistono inoltre molte pubblicazioni che effettuano riconoscimento del labbiale, e con precisione maggiore, tuttavia su un training set minore, vi invito a cercarle.

Riconosco sempre i meriti, ma questo mi sembra un pò tirato.

M.5.0 il

Beh dipende...grandi o piccole?

boosook

Spettacolare. Pensate all'utilita' che avrebbe per i non udenti in accoppiata con un paio di google glass (chissa' se mai li rivedremo...)

boosook

Grandissima citazione, complimenti! :)

boosook

Piu' che altro sara' divertente scoprire che magari dicevano parole a caso! :)

sardanus

c'è qualcuno che fa ancora film muti? :D

Dove posso scaricare l'app?

Roland

Azz..dovrò iniziare ad affiancare una bandana al cappello di stagnola

Peppol

non dureremo molto google ha pronta la distruzione del genere umano

Tbrt

serve per i suggerimenti senza voce (e/o frecciatine) :)

TeoCrysis

https://uploads.disquscdn.com/...

Giovanni Vaccaro

In quel caso ti registrano col microfono

ciro

Cosa devo studiare per diventare lettore di labbra professionista? Non fate battute sulla parola labbra.

ErCipolla

Francamente non penso sia l'ambito di applicazione principale sai :D

ErCipolla

Stiamo arrivando ad avere abbastanza potenza di calcolo per cominciare ad ottenere risultati notevoli con le tecniche di machine learning, ma soprattutto per poter applicare questi risultati ai servizi "al pubblico" e non solo nei laboratori... negli anni a venire ho idea che ne vedremo delle belle.

Emanuele

Aggiungere il sonoro ai film muti è proprio una priorità eh...

Tbrt

Viva la fotocamera frontale del pc o del telefono! A parte gli scherzi può essere davvero un passo importante

Raffael

Impressionante!!!

Sky Wifi: l'offerta in fibra (FTTH) è ufficiale. Come funziona e quanto costa

App Immuni è disponibile al download su Android e iOS

Covid-19: come non cadere nella trappola della falsa informazione | Podcast

Apple e Google, più privacy per le app di tracciamento: cosa cambia per l'utente