
30 Novembre 2023
OpenAI ha annunciato il lancio di DALL-E 3, l'ultima versione del suo modello di creazione di immagini basato sull'intelligenza artificiale generativa, ora pensato per integrarsi con ChatGPT.
Per coloro che non avessero mai usati i suoi predecessori, DALL-E 3 è in grado di generare immagini sulla base di descrizioni testuali complesse, nonché di gestire la generazione di testo all'interno delle stesse, come etichette e segnali, sfidando così modelli precedenti. OpenAI non ha condiviso dettagli tecnici su DALL-E 3 all'interno del suo articolo promozionale, pertanto possiamo solo ipotizzare che il modello segua la stessa formula dei precedenti modelli.
Ecco un primo esempio di creazione basato sul prompt foto di una sedia sferica ispirata al litchi, con un esterno bianco irregolare e un interno lussuoso, su uno sfondo tropicale.
Gli esempi forniti da OpenAI sono piuttosto impressionanti e dimostrano che DALL-E 3 migliora drasticamente come capacità, superando la maggior parte delle altre soluzioni. Le immagini condivise denotano una maggior capacità di seguire le istruzioni testuali e una precisione aumentata, tanto da scendere in dettagli complessi, come visibile poco sopra. A un primo sguardo sembra molto più preciso di uno dei maggiori competitor, Midjourney, avvicinandosi anche in una delle sue caratteristiche chiave, ossia la generazione di dettagli fotorealistici
Se guardiamo alla generazione del testo interno, anche in questo caso sembra che OpenAI abbia fatto un ottimo lavoro con DALL-E 3 . Prendiamo ad esempio il prompt che includeva la seguente descrizione: un'illustrazione di un avocado seduto su una sedia da terapeuta, che dice "I just feel so empty inside" (Mi sento così vuoto dentro) con un buco delle dimensioni di un nocciolo al centro". Questo è il risultato in stile fumettoso.
Nonostante non siano stati svelati specifici sui miglioramenti introdotti, OpenAI ha però condiviso un'importante novità: DALL-E 3 è stato realizzato per integrarsi nativamente con ChatGPT e sarà disponibile come funzionalità di ChatGPT Plus. Ciò significa anche che ChatGPT sarà in grado di generare immagini in ase al contesto della conversazione, aprendo la strada a nuove forme d'utilizzo. In questo Bing Chat di Microsoft ha fatto da apripista, poiché è in grado di generare immagini interno di una conversazione già dallo scorso marzo.
DALL-E 3 è attualmente disponibile in anteprima chiusa a fini di ricerca e per pochi fortunati, ma a quanto pare sarà disponibile per i clienti ChatGPT Plus ed Enterprise all'inizio di ottobre.
Commenti
Provati Dall-E 2 e Stable Diffusion: un bambino di 4 anni, che inizia a giocare coi pastelli a cera, capisce molto meglio le richieste tecniche relative al linguaggio visivo.
Non c'è la minima "competenza tecnica" da parte di una AI: non sa creare prospettive coerenti o quantomeno fisse, non sa lavorare sulla teoria delle luci e delle ombre, per offrirti punti di luce o proiezione di ombre che seguano una logica, non sa neppure lavorare in modo corretto gli accostamenti di colore.
Quel che riesce a offrire è solo un'immagine che nel suo insieme appare accattivante, al netto degli infiniti errori formali, ma che mai può essere accettata da un editore che sa fare il suo lavoro, o comunque da chiunque abbia un minimo di cultura dell'immagine, un "chiunque" che però negli spettatori sta velocemente sparendo (unico vero motivo per cui le AI TTI hanno tanto mordente nell'immaginario comune attuale).
Hai provato a specificare nel prompt lo stile/linguaggio che desideri? Se si, quali strumenti hai provato? Sono curioso perche' non ho competenze in questo settore per valutarne la bonta', finora la maggioranza di quelli che ho usato io nel mio campo (codice e testo - sia generico che tecnico) non saranno perfetti ma si avvicinano molto a quello che chiedi se riesci a spiegarlo bene (meglio in inglese). Chiaro che poi devi avere le competenze per capire se quello che ha sputato fuori ha senso e nel caso ritoccarlo.
No, non fa risparmiare tempo, visto che una AI non capisce le tecniche e i linguaggi dei diversi settori grafici (un disegno pubblicitario ha un linguaggio diverso da quello per una copertina, che ne ha uno diverso da quello architetturale, che ne ha uno diverso da quello fumettistico, ecc.).
Laddove puoi sfangarti uno storyboard o un concept con un paio di minuti di disegni grezzi a matita, con una AI devi digitare centinaia di prompt diversi prima di imboccare quello giusto (e devi dimostrare poi che il risultato sia perfettamente ripetibile, cosa che è assolutamente impossibile visto che la stessa AI, se le dai lo stesso identico prompt, può pure darti un risultato completamente diverso).
Non sono un grafico ma il tuo esempio non farebbe risparmiare tempo, fosse anche solo per mostrare una preview? Se si, hai gia' trovato un caso d'uso per la quale molti professionisti pagherebbero.
Se funziona bene potrebbe bastare cambiare il prompt. In ogni caso non mi stupirebbe se questi strumenti fossero utili proprio ai professionisti per velocizzare il loro lavoro (un po' come AI per la generazione del codice, molto utili se sai usarle)
Salti di gioia da parte dei fumettisti e disegnatori
Vero, li ancora non sono open, però lato api, etc si stanno comportando bene. Una cosa totalmente open non so quanto sarà possibile nel breve termine, ci sono in ballo costi troppo alti di ricerca e sviluppo, però in una decina d'anni la situazione secondo me migliora molto
anche le braccia dell'avocado non mi tornano ma nel complesso passa!
Sì, anche la gamba destra dell'avocado è più sopra rispetto alla sinistra, inoltre la cartellina portafogli che ha in mano lo psicologo dovrebbe essere completamente bianca e fare una piega, qualora ci fosse un foglio girato, ma invece è piatta e si vedono le scritte, poi i piedi posteriori del lettino finiscono nello schienale.
Hai visto le scarpe dello psicologo? Sembra avere due sinistre.
Fatti un giro su HuggingFace. C'è pieno di progetti open di IA, di tutti i generi, spesso molto più all'avanguardia di OpenAi e compagnia bella.
Specie sulle immagini, StableDiffusion, che è open source, non ha certo niente da temere...
Sui chatbot, GPT-4 è ancora un pochino avanti, ma c'è già roba che supera GPT 3.5, come Falcon 180B, o lo equivale come llama 2.
Insomma questo è un campo in cui l'open source non ha nulla di meno, se non, al solito, un marketing aggressivo a sostenerlo.
belle parole ma non ha rilasciato al pubblico proprio niente.
trovami il brevetto open di dall-e 2.
Oh no
Per usare decentemente questi programmi hai comunque bisogno di qualcuno che conosca l argomento e sappia indirizzarli, li unici clienti che perdi sono quelli che chiedono al cugino
Nell'illustrazione il tovagliolo sotto la pianta è storto, inoltre la testa dello psicologo ossia il cucchiaio, risulta dritta rispetto al corpo, anche un angolo del lettino dov'è seduto l'avocado è storto. Comunque è carina come illustrazione.
Letteralmente Open AI... "Fondata il 10 dicembre 2015, l'organizzazione, con sede a San Francisco,[4] ha lo scopo di "collaborare liberamente" con altre istituzioni e ricercatori rendendo i suoi brevetti e ricerche aperti al pubblico.[5][6] " da Wikipedia
Anche in ambito sviluppo, io li vedo più come acceleratori. Non possono sostituire la persona, ma semplificano notevolmente il suo lavoro.
Ad esempio, se avessi tempo per creare un videogioco, sono sicuro che creerei molti asset, tipo la musica, tramite IA. Ovviamente non ne uscirebbe un'opera di Morricone, ma più che idonea ad un titolo indie.
La IA non può sopperire all'inventiva di un artista, non a caso anche oggi pur esistendo macchinari industriali di ogni genere per realizzare qualunque prodotto in maniera totalmente automatizzata si da comunque molto più valore intrinseco al prodotto artigianale, che sia un dipinto, una scultura scolpita a mano, un pezzo d'arredo di design, una brano suonato dal vivo, un bel disegno o una fotografia d'autore...
La differenza sarà che online peggiorerà ancora di più la situazione contenuti spam/fake o che violano le proprietà intellettuali altrui, venendo sommersi di roba generata automaticamente (cosa che sta già avvenendo), tutta diversa ma in fondo tutta uguale. Perché alla fine l'internet attuale è soltanto un grosso carrozzone, dove ci si rincorre a vicenda per ottenere il proprio minuto di gloria cavalcando l'ennesimo trend... L'originalità e lo studio progettuale sono l'esatto opposto e completamente estranee a quelle dinamiche.
Pure gli smartphone avrebbero dovuto renderci tutti fotografi, eppure i professionisti veri sono sopravvissuti tranquillamente... Perché la differenza non la fanno solo gli strumenti, ma la mano che li adopera. Fermo restando che i professionisti stessi possono usufruire e godere di questi nuovi strumenti per semplificarsi alcune fasi del proprio lavoro all'occorrenza, non sto certo demonizzando il fenomeno, anzi.
Per cui se il discorso è sul fatto che online la situazione diverrà
fuori controllo probabilmente hai ragione, considerato come funzionano
certe cose, ma dal punto di vista del settore dubito ci saranno grosse
crisi, al massimo si evolverà adeguandosi in parte al cambiamento.
Un creativo o artista può dormire sogni tranquilli, se mai perderà dei clienti ne perderà solo di quelli "sbagliati"... Per fortuna c'è un mondo intero là al di fuori dei social.
Tanto già ora vengono pagati in "visibilità", cambierebbe poco
Il problema è che tutta questa tecnologia, che sarà indispensabile per far fronte al mercato, sarà in mano a pochissimi. Si creeranno ulteriori monopoli. Similmente a quanto vediamo oggi ad esempio con la suite Adobe, Autodesk, solo su scala molto più grande. Dobbiamo seriamente pensare ad un progetto IA open per il mondo.
Beh. Con risultati del genere vedo molto male i Grafici/Renderisti nei prossimi anni.....