"Dov'è stata scattata la foto?" Le reti neurali di Google battono gli umani nell'indovinarlo

27 Febbraio 2016 19

Google ha svelato in un articolo scientifico i risultati ottenuti dal progetto "PlaNet", un modello di intelligenza artificale progettato per il riconoscimento del luogo in cui delle fotografie casualmente scaricate da internet sono state scattate. Gli ingegneri Google Tobias Weyand e James Philbin hanno istruito una rete neurale -una particolare tipologia di intelligenza artificiale che simula i metodi di apprendimento umani- con 126 milioni di immagini geolocalizzate prelevate dal Web (esclusi diagrammi, clip-art e foto osé).

Gli attuali sistemi di riconoscimento della località fotografate si basano principalmente sul confronto 2D dell'immagine con altre foto geolocalizzate, sono specializzate in particolari tipologie di soggetti e, secondo gli autori dell'articolo, raggiungerebbero buoni risultati solo nel riconoscimento di paesaggi o località molto note. PlaNet segue invece un approccio più "umano": raccoglie e integra i piccoli indizi visivi che appaiono nella foto e li riconduce alle aree geografiche nelle quali più probabilmente potrebbero esser state scattate.

Nei test eseguiti, PlaNet riconosce senza problemi l'immagine della Tour Eiffel di Parigi, mentre è indeciso su una foto di un fiordo che potrebbe essere stata scattata in Norvegia o in Nuova Zelanda. Più problematiche le foto con pochi indizi e molto comuni, come una spiaggia, che potrebbe essere del Mediterraneo, del Messico o della California. Per verificare l'accuratezza del sistema sono state utilizzate 2,3 milioni di foto casuali di Flickr: nel 48% dei casi PlaNet ha indovinato il continente, nel 28,4% il paese, nel 10,1% la città e nel 3,6% addirittura la strada. A seguire alcune foto che sono state indovinate da PlaNet:


Non siamo ancora di fronte a risultati impeccabili, ma sembrerebbero essere migliori dei risultati ottenuti in precedenza dal altri sistemi simili e, secondo un primo testa a testa, alle capacità umane. Dieci umani hanno sfidato PlaNet nel gioco online "GeoGuessr" cercando di riconoscere dove sono state scattate 50 foto panoramiche differenti. Dei 50 round totali, PlaNet ne ha vinti 28, con un errore di localizzazione medio di 1.131 km contro i 2.320 della controparte umana.

Gli sviluppi futuri che riguardano il progetto cercheranno di estendere il sistema con un'architettura di rete neurale a memoria di breve-lungo termine (LSTM), che assicurerebbe risultati 50% più precisi. In questo caso il riconoscimento non viene più fatto in base ad una singola foto ma ad una galleria di immagini relative allo stesso contesto.


19

Commenti

Regolamento Commentando dichiaro di aver letto il regolamento e di essere a conoscenza delle informazioni e norme che regolano le discussioni sul sito. Clicca per info.
Caricamento in corso. Per commentare attendere...
The User

ma infatti mi pare che google stia cercando di vendere come strabiliante una tecnologia che esiste da un decennio a occhio e croce

acca

Bellissima!

Andrej Peribar

Onestamente non mi pare molto impressionante come dato.

Davide

beh dipende, se la probabilità dell'evento non è bassissima con un campione di 50 potresti arrivare tranquillamente ad applicare il TCL avendo un'approssimazione che non è da buttare.
In questo caso la probabilità che il computer indovini è prossima al 50% per quanto riguarda il continente e al 30% per il paese quindi in questi due casi dovrebbe fornire un'approssimazione accettabile.
Per la città e la via invece non si possono fare considerazioni valide.

Davide

io Miami. Ma anche Tokio...boh, potevo averla scattata io nel giardino di casa mia. Idem la seconda di Parigi.

persson

e fatte na c@zzo de risata! era una battuta! :D

M3r71n0

E poi google immagini funziona "per colori"...

R2-D2

Si ma qui lo confronta con tutti i luoghi del mondo...
Stiamo parlando dell'efficienza delle reti neurali, non di probabilità

Nico Ds

fidati, qualche esame di statistica e di materie di laboratorio di fisica (che sono per il 50% statistiche) l'ho fatto, non sio possono trarre conclusioni statisticamente significative su 50 eventi.
Se lanci una moneta 50 volta magari viene testa -o croce- 28 volte (come nel caso dell'articolo), non è improbabile.

Yellowt

Solo se le scelte fossero due. In questo caso sono 5 continenti... Il caso avrebbe dato un 20%

R2-D2

Beh insomma

R2-D2

Mah.. Los Angeles io avrei detto Malaga... Sembra uguale

Nico Ds

A livello statistico 50 non è rilevante.

Maurizio Mugelli

il problema e' che la domanda era su -dove- e' stata scattata la foto, non la genealogia della zinna :)

persson

i veri esperti sanno riconoscere a colpo d'occhio una zinna svedese da una islandese, da una cilena, da una paraguaiana, da una polacca, ecc. ecc.
ma tu che ne sai!!! :D

rsMkII

Beh, dal tipo di zinne alcuni riescono a dire anche la provenienza.

Maurizio Mugelli

certo. perche' se ti mettono le zinne in faccia tu badi a dove e' stata fatta la foto...

persson

se avessero incluso le foto osè gli umani avrebbero vinto!!! :D

Anto.b93

se avessero incluso le foto "osé" sarebbero state almeno il doppio

Apple

iPhone 15 Pro Max vs 14 Pro Max: tutte le differenze e le nostre impressioni | VIDEO

HDMotori.it

Fiat 600e, ecco come va il nuovo B-SUV elettrico | Video

Tecnologia

Recensione Ecovacs Deebot X2 Omni: si fa quadrato ma pulisce a tutto tondo | VIDEO

Articolo

Nuove Amazon Fire TV 4k ufficiali. Arriva Echo Hub, novità per Ring e Show