Intel, nuovi modelli di intelligenza artificiale open source per computer vision

23 Marzo 2023 3

La stima della profondità rappresenta un'importante sfida nell'ambito della computer vision ed è essenziale per una vasta gamma di applicazioni nel campo della robotica, della realtà aumentata (AR) e della realtà virtuale (VR). Ad oggi, le soluzioni esistenti spesso incontrano difficoltà nel corretto calcolo delle distanze, un aspetto cruciale per pianificare il movimento e evitare ostacoli durante la navigazione visiva.

Per cercare di risolvere questa problematica, i ricercatori di Intel Labs hanno rilasciato due modelli di intelligenza artificiale che consentono la stima della profondità da immagini monoculare: MiDaS versione 3.1 per la stima della profondità relativa e VI-Depthv versione 1.0 per la stima visivo-inerziale della profondità

MIDAS STIMA LA PROFONDITÀ RELATIVA

Con questa nuova versione di MiDaS, grazie ad una precisione aumentata di circa il 30%, i computer saranno in grado di eseguire una gamma più ampia di attività e di funzionare in molteplici ambienti. Ciò è reso possibile da un set di dati più ampio e diversificato.

Addestrato su ampi e diversificati set di dati di immagini, MiDaS è utile per un'ampia gamma di applicazioni, tra cui robotica, realtà aumentata (AR), realtà virtuale (VR) e visione artificiale. MiDaS è stato recentemente integrato in Stable Diffusion 2.0, un modello di diffusione latente da testo a immagine e di apprendimento automatico (open source e gratuito) in grado di restituire un’immagine dopo una richiesta sottoforma di descrizione testuale e partendo da una esistente. Stable Diffusion, arrivato recentemente anche su Android, deduce la profondità di un'immagine di input utilizzando MiDaS, quindi genera nuove immagini utilizzando sia il testo che le informazioni sulla profondità


Un altro esempio del utilizzo di questo modello sono gli ambienti VR a 360 gradi creati da Scottie Fox utilizzando una combinazione di Stable Diffusion e MiDaS. Questi esperimenti potrebbero potenzialmente portare a nuove applicazioni virtuali, tra cui la ricostruzione della scena del crimine per casi giudiziari, ambienti terapeutici per l'assistenza sanitaria ed esperienze di gioco sempre più immersive.


Con questo ultimo aggiornamento, MiDaS 3.1 consente ora la possibilità di eseguire una stima della profondità in tempo reale partendo dal feed della telecamera, cosa che potrebbe essere utile in una varietà di applicazioni nella visione artificiale e nella robotica, tra cui la navigazione e ricostruzione 3D, include nuovi modelli basati su cinque diversi tipi di trasformatori (BEiT, Swin2, Swin, Next-ViT e LeViT) ed offre un ampliamento da 10 a 12 dei set di dati di addestramento, inclusa l'aggiunta di KITTI e NYU Depth V2 utilizzando BTS split.

MiDaS 3.1 è disponibile su GitHub, dove ha ricevuto oltre 2.600 stelle dalla community.

VI-DEPHT STIMA LA PROFONDITÀ VISIVO-INERZIALE

Alcune applicazioni visive richiedono una profondità stimata più accurata metricamente, in cui ogni valore di profondità viene fornito in unità metriche assolute e rappresenta la distanza fisica. L'accurata stima della profondità offerta da VI-Depth può aiutare nella ricostruzione della scena, nella mappatura e nella manipolazione degli oggetti.


VI-Depth è in grado di combinare la stima della profondità basata su dati con il modello di previsione della profondità relativa di MiDaS, oltre all'unità di misurazione del sensore IMU. La combinazione di tutte questi dati consente a VI-Depth di generare una profondità metrica densa più affidabile per ogni pixel di un'immagine.

VI-Depth è disponibile con licenza MIT open source su GitHub.


3

Commenti

Regolamento Commentando dichiaro di aver letto il regolamento e di essere a conoscenza delle informazioni e norme che regolano le discussioni sul sito. Clicca per info.
Caricamento in corso. Per commentare attendere...
Il corpo di Cristo in CH2O

si, hai ragione, peccato che la roba movidius, che dovrebbe essere la parte interessante, soprattutto considerando l'articolo, sia praticamente ferma da anni.

Jotaro
Goose

Intel ha fatto un bel po' di roba interessante, soprattutto Openvino che da un boost di prestazioni in inference con le CPU Intel.

Apple

iPhone 15 Pro Max vs 14 Pro Max: tutte le differenze e le nostre impressioni | VIDEO

HDMotori.it

Fiat 600e, ecco come va il nuovo B-SUV elettrico | Video

Tecnologia

Recensione Ecovacs Deebot X2 Omni: si fa quadrato ma pulisce a tutto tondo | VIDEO

Articolo

Nuove Amazon Fire TV 4k ufficiali. Arriva Echo Hub, novità per Ring e Show