11 agosto 2022

Imagen e gli altri: l'AI crea immagini a partire da un testo

Scritto daAlex Baldarelli

Tempo stimato per la lettura7 minuti

Negli ultimi anni, l’intelligenza artificiale ha fatto passi da gigante, tanto da suscitare addirittura polemiche circa la possibilità che la tecnologia sostituisca, in un futuro prossimo, l’uomo in tantissime attività.

Abbiamo parlato della potenzialità degli “scrittori-robot” nella realizzazione di contenuti testuali per il web, ora ci troviamo di fronte a uno strumento, avallato proprio da Google, che consente di creare delle immagini a partire da un testo.
Proprio Big G aveva espresso scetticismo, per usare un eufemismo, in merito ai testi generati dall’AI, classificandoli negativamente in SERP, sebbene si dimostrino di una qualità perlomeno accettabile.

Ecco che allora il colosso di Mountain View ha ideato Imagen: tu scrivi e la piattaforma realizza un’immagine perfettamente in linea con le parole scritte.
Al momento Imagen non è a disposizione degli utenti, ma sono online solo i risultati ottenuti dal gruppo di ricerca, che a dire il vero sembrano veramente sensazionali. Proprio Google, ad ogni modo, sembra andarci cauto: “Lo strumento può potenziare la creatività tra uomo e macchina, ma si basa su codificatori di testo addestrati su scala web; pertanto esiste un concreto rischio che Imagen abbia codificato stereotipi e rappresentazioni dannose. Per questo motivo, prima di aver ottenuto ulteriori garanzie, abbiamo deciso di non rilasciare Imagen per uso pubblico”.

In sostanza, il modello sarebbe in grado di produrre immagini di stampo razzista, violento o pornografico, pertanto Google lo ha limitato, almeno per il momento, a beta tester opportunamente selezionati.

Imagen di Google: come funziona
Il Brain Team di Google stavolta ha dato veramente il meglio di sé. Imagen è un modello di diffusione text-to-image che sfrutta machine learning e intelligenza artificiale. Il sistema interpreta un testo e restituisce un’immagine, che sia un cervello a bordo di un’astronave diretta verso la luna, oppure orsacchiotti che nuotano alle olimpiadi.

Si tratta di un modello di diffusione di tipo generativo: viene addestrato a partire da un database di fotografie, combinando gli elementi presenti. Questo sistema text-to-image utilizza, pertanto, set di dati formati da coppie testo-immagine, ossia un’immagine con una propria descrizione fatta di parole scritte.

L’analisi del testo, non avviene esaminando le parole di una frase in sequenza, ma step by step sulla frase nel suo complesso, fino a trovare le relazioni tra le parole, a prescindere dalla loro posizione nella frase, “modellando” l’output generato. Alla base c’è quindi una correlazione tra il contenuto semantico espresso dal testo e la rappresentazione grafica.

Imagen, per i motivi sopra esplicitati da Google, al momento, è limitato in termini di input di testo: diciamo che è tenuto sotto controllo dal Brain Team, altrimenti, per sua natura, potrebbe restituire qualsiasi tipologia di immagine, anche quelle poco piacevoli.
È stato, infatti, creato addirittura un benchmark per la valutazione del modello text-to-image, denominato DrawBench. A partire da questi parametri, il team dei beta tester ha notato una convergenza ottima e sicuramente superiore a quella dell’intelligenza artificiale di Microsoft, messa in gioco anche nello stesso modello text-to-imag

Imagen: l’evoluzione di Deep Dream?
Se Imagen sembra, almeno all’apparenza, uno strumento rivoluzionario, l’assist per cambiare idea arriva proprio da Google. Era il 2015 quando Big G lanciò Deep Dream, il software che utilizza algoritmi e reti neurali per creare immagini legate al mondo dei sogni. Forse è vero, con Imagen siamo su un altro livello, ma non siamo certi lontani dal poter essere considerata un’evoluzione di Deep Dream.

Il tool Deep Dream permette di realizzare degli effetti allucinogeni tipici del mondo onirico e delle sostanze psichedeliche. A differenza, di Imagen, parte da un input grafico, quindi un’immagine, per poi restituire una fotografia dal mood onirico. Si basa su un codice che analizza e identifica alcuni pattern, come i volti e la vegetazione, per modificare l’immagine e trasportarla in un’altra dimensione.

“Questa tecnica ci permette di capire e di vedere come le reti neurali sono in grado di svolgere classificazioni complesse, allargare l’architettura della rete e controllare quanto la rete stessa stia imparando” – dichiararono Alexander Mordvintsev, Christopher Olah e Mike Tyka, tre ingegneri del Team Google Depp Dream.

Prima di Imagen, prima di Google: Midjourney e OpenAI
Il progetto di intelligenza artificiale applicata alle immagini avviato da Google non è di certo il capostipite del settore. Uno di quelli che ha anticipato Mountain View è stato Midjourney, un software che sostanzialmente svolge le stesse funzioni di Imagen. Tutto parte da un database di documenti e testi analizzati e appresi dal machine learning. È possibile, con questo strumento, contestualizzare l’immagine in output, selezionando il concept desiderato, che sia un’opera d’arte, oppure una scena distopica. Al momento, questo strumento, viene utilizzato soprattutto in ambito videogame ed è tuttora in fase di beta test.

OpenAI, invece, è un’organizzazione di ricerca sull’intelligenza artificiale fondata da Elon Musk e Sam Altman. Proprio dalle loro menti, sono nati Dall.E e Dall.E2, dei generatori di immagini a partire da una descrizione. Il modello viene addestrato mediante le immagini presenti online a cui corrispondono le rispettive didascalie.

Google sostiene che il suo Imagen restituisca immagini con un’elevata nitidezza e con estrema corrispondenza con il testo inserito, tuttavia DALL-E 2 è ad oggi più di un documento di ricerca, come di fatto lo è Imagen, bensì è una beta privata con persone che lo utilizzano. Lo strumento conta già oltre un milione di utenti che si erano preventivamente inseriti nella lista d'attesa per poterlo provare. Dall.E2 non è però gratuito: dopo un numero limitato di immagini create ogni mese, si dovranno acquistare dei crediti virtuali, per poter continuare a usarlo. Ma ti sveliamo un segreto: dai un’occhiata ai Dall.E mini… e inizia da qui per scoprire il mondo dell’AI applicato alle immagini!

Google vs. Microsoft: Imagen vs. NUWA Infinity
E Microsoft in questa lotta all’ultima AI non sta di certo a guardare. È notizia di queste settimane che il team di ricerca di casa Redmond ha introdotto NUWA Infinity, un modello generativo multimodale in grado di creare immagini e addirittura video a partire da un testo.

Come riporta Microsoft nel suo documento di ricerca, la valutazione dello strumento si è basata su cinque attività:
- Generazione di immagini incondizionata
- Da testo a immagine
- Da testo a video
- Animazione dell'immagine
- Immagine Outpainting.

NUWA Infinity consente, inoltre, di creare dei video da dei semplici schizzi su carta e può prevedere i fotogrammi successivi in un video.
Ciò che distingue Microsoft dai concorrenti sta proprio in questa capacità di realizzare non solo semplici immagini, ma anche video, a partire da un testo o da una semplice fotografia o fotogramma.

Inoltre, a differenza degli strumenti di Google, OpenAI e Midjourney, la piattaforma di Microsoft è in grado di supportare la creazione di immagini di dimensioni arbitrarie, poiché la dimensione delle immagini di output è predefinita prima dell'addestramento del modello. Un addestramento che vedrà presto quattro nuovi database con risoluzione molto elevate.

Google Imagen: gli aspetti SEO da valutare
Se, per quanto riguarda i contenuti testuali generati dall’intelligenza artificiale, Google si è dichiarata contraria, tanto da prevedere delle penalizzazioni in SERP, la questione per le immagini AI potrebbe essere diversa. Ad oggi, non esiste una presa di posizione chiara da parte di Big G sul tema, ma cerchiamo di fare dei ragionamenti che possano prevederla.

A parte Imagen, Google sta lavorando su servizi di Vision AI come AutoML Vision e API Vision, ossia piattaforme che hanno il compito di “leggere” le immagini. La prima automatizza l’addestramento dei modelli di machine learning customizzati e consente di ottimizzare l’accuratezza dei modelli, esportarli e utilizzarli nella piattaforma; la seconda, invece, mette a disposizione modelli avanzati di AI pronti all’uso e pre-addestrati tramite API. Il sistema classifica le immagini attraverso milioni di categorie predefinite ed è in grado di rilevare oggetti e volti e riconoscere luoghi geografici noti.

Quello che fa oggi Google e che farà presumibilmente anche con le immagini generate tramite il proprio strumento è valutare la pertinenza e la rilevanza delle immagini. Gli algoritmi non fanno altro che determinare se le persone mostrano interesse per le immagini, piuttosto che testi, quando fanno una ricerca, per fornire ciò che considerano pertinente e rilevante per gli utenti in quella determinata ricerca. Non è tanto importante l’associazione tra keyword e immagine, ma il contesto della ricerca degli utenti: mostrare agli utenti ciò che realmente vogliono.

Lato utente, invece, è importante capire quante persone possono trovarti tramite un’immagine, quale immagine è più interessante da far vedere in relazione al contenuto. I consigli che ci sentiamo di dare, quando si utilizzeranno immagini generate dall’AI sono:

- Evitare di inserire testo all’interno dell’immagine (può essere letto come una ripetizione).
- Posizionare l’immagine vicino al testo a cui fa riferimento e da completamento.
- Alta priorità alla qualità delle immagini: Google la considera un fattore di ranking molto importante.
- Ricordati sempre dell’attributo ALT all’interno del tag <img>.
- Cerca di ridurre al minimo il tempo di caricamento delle immagini.

In sostanza, in attesa che Google stabilisca dei fattori di ranking dedicati alle immagini AI, occupati sempre delle immagini dal punto di vista SEO. Il principio è che gli utenti devono avere una user experience all’altezza, fatta di pertinenza delle immagini con il contenuto e alta qualità. Questi due elementi non devono mai mancare, che siano immagini intelligenti artificialmente o meno!

Vuoi maggiori informazioni su Google Imagen e sull’ottimizzazione SEO per le immagini? Contattaci!