Con ImageBind Meta vuole realizzare un'IA generativa multisensoriale

10 Maggio 2023 19

Meta ha annunciato un nuovo progetto di ricerca riguardante un modello di intelligenza artificiale che, se i presupposti saranno rispettati, sarà in grado di processare svariate tipologie di dati, da quelli testuali ai flussi audio, a quelli visivi o legati al movimento, ad altri come la misurazione della temperatura.

Non c'è nulla di concreto al momento, ma con ImageBind (è questo il suo nome), si punta a un futuro di intelligenza artificiale generativa ancora più coinvolgente e addirittura "multisensoriale" come la descrive Meta stessa. Il progetto è completamente open source e il concetto alla base prevede il collegamento di più flussi dati da molteplici fonti, all'interno di un unico indice multidimensionale.

Sebbene possa sembrare tutto molto astratto, in realtà questo è il principio base di tutti i sistemi IA attuali, ad esempio quelli che generano immagini da testo, e che quindi mettono in relazioni questi due elementi. Altri esempi simili sono gli strumenti che mettono in relazione componenti video e componenti audio, e così avanti. Secondo Meta, il suo ImageBind sarà il primo modello in grado di combinare sei diverse fonti di dati. Il comunicato scende nello specifico, spiegando anche quali saranno.

  • Dati visivi (immagini e video).
  • Dati Termici (immagini a infrarossi)
  • Testo
  • Audio
  • Dati di profondità
  • Dati inerziali (da IMU/GUI )

Quest'ultimi, i dati sensoristici, sono molto interessanti poiché si parla ad esempio di quelle informazioni che negli smartphone definiscono l'orientamento del display, le attività svolte, e che sono chiaramente legate ai sensori presenti. L'obiettivo è rendere ImageBind in grado di incrociare rapidamente tutte queste informazioni. Ma saranno solo le fonti iniziali, poiché Meta prevede la possibilità di aggiungerne altre in futuro, ad esempio informazioni olfattive, tattili e molto altro.

A quale scopo tutto ciò? Una tecnologia così potente potrebbe trovare impiego nell'ambito della realtà virtuale, magari nella generazione in tempo reale di ambienti complessi o di situazioni di vita simulate, ma si parla davvero di fantascienza. Naturalmente serviranno GPU potenti e in gran numero, poiché è noto che la gestione di dati simili è moto energivora e complessa. Meta descrive così il suo sistema.

ImageBind fornirà alle macchine una comprensione olistica capace di collegare gli oggetti in una foto al loro suono, la loro forma 3D, quanto sono caldi o freddi e come si muovono.

Meta è attualmente impegnata in più tipologie di progetti legati all'intelligenza artificiale, ad esempio il tool Animated Drawings, pensato per creare animazioni da immagini statiche, o Segment Anything, l'IA che rileverà oggetti senza la necessità di dover addestrare l'algoritmo.

Sul concetto di open source applicato al segmento dell'intelligenza artificiale generativa c'è un certo scontro tra i protagonisti principali. C'è chi come OpenAI ritiene cha sia una pratica dannosa, poiché il lavoro svolto potrebbe essere copiato e usato a proprio vantaggio anche da malintenzionati. Meta al contrario si affida saldamente all'open source, che ha il vantaggio di consentire il reclutamento di un gran numero di sviluppatori di terze parti.


19

Commenti

Regolamento Commentando dichiaro di aver letto il regolamento e di essere a conoscenza delle informazioni e norme che regolano le discussioni sul sito. Clicca per info.
Caricamento in corso. Per commentare attendere...
Kator Den

Credo sia molto probabile :)

Maurizio

Con la mano destra

Maurizio

L'importante è che nasca una nuova specie migliore di noi.

biggggggggggggg

Quelli che ho trovato credo siano più nuovi, e vedendoli bene si, direi che sono deepfake.
Prevedo molti problemi in futuro.

Kator Den

Certo.
Gira qualche video demo di Scarlett Johansson (e di Ermione di Harry Potter che non ricordo mai come si chiama).
Non sono attrici somiglianti. Sono proprio deepfake di questo sito.
Quello di Scarlett è molto realistico. Anche al rallenty.
L'unico difetto che noto è che quando si muove troppo velocemente allora compare qualche errorino qua e là.
Comunque se uno non lo sapesse ci cascherebbe in pieno.
Io ero rimasto di sasso (anche se lo sapevo).

Kator Den

Si. Me lo ricordo.
L'ho visto su Rai News mi pare.
Poi non si è saputo più niente.

Mark Vox

Stranamente (o finalmente) nell’articolo non si parla di metaverso, giungono voci che Zuckerberg ha dato finalmente ascolto agli ingegneri che lo stanno progettando per lui: https://uploads.disquscdn.c...

T. P.

è dell'app che spogliava sai niente?
ne hanno parlato anche i tg e, se ben ricordo, è partita pure qualche denuncia...

biggggggggggggg

Anche se uno non dovrebbe dire che è per curiosità, chiedo per curiosità, come sono i risultati (se li fanno vedere in qualche demo)? Perchè se sono realistici diventa un problema.

Kator Den

Si probabile.
Ma sai con internet è sempre difficile dato che non ci sono confini ben visibili.

Melon Fax

è anche inquietante e spero illegale

Kator Den

Salutamelo :)

Valentino Rendina

il mio amico è dispiaciuto.

Kator Den

Puoi dire al tuo amico che non è gratis.
E ci vuole qualche giorno quando va bene.

Valentino Rendina

Chiedo per un amico è gratis?

Jotaro

Si adatta molto bene a un cervello positronico.

Kator Den

Io ho trovato (per puro caso) un sito dove puoi richiedere video p0rno deepfake di tutte le persone che vuoi.
Devi solo spedire qualche foto e/o video.
E' simpatico.

Kator Den

Finalmente abbiamo trovato il motivo per la fine dell'umanità.
Non era la guerra mondiale come tutti pensavano.

Melon Fax

Dai che siamo sempre più vicini ai p0rno personalizzati, basta poppe giganti e plastica

Articolo

Prime Video: tutti i film e le serie TV in arrivo a ottobre 2023

Android

Recensione Sony Xperia 5 V: funziona alla grande, ma è fuori tempo massimo? | VIDEO

Android

Samsung Galaxy S24, primi render svelano il design: avrà bordi piatti e squadrati

Articolo

Netflix: tutti i film e le serie TV in arrivo a ottobre 2023