L'interfaccia utente incontra l'intelligenza artificiale: lezioni apprese dall'implementazione dell'immagine

L'artista 2D di Playkot Tatiana Mironova ha spiegato in dettaglio come lo studio ha implementato gli strumenti di generazione di immagini nella propria pipeline per creare elementi dell'interfaccia utente per Spring Valley. Ecco cosa ha imparato il team durante questo processo e quali sono i chiari vantaggi e le insidie dell'addestramento dei propri modelli.

Tatiana Mironova

Tutto è iniziato con una domanda a livello aziendale: come possiamo dedicare meno tempo alle attività attuali senza compromettere la qualità?

Molti di noi avevano già esplorato modelli di deep learning e strumenti genAI per puro entusiasmo, ma capire se potevamo integrare l’intelligenza artificiale nei nostri processi richiedeva un approccio più sistematico. Ora quasi tutti i team di Playkot stanno sperimentando le reti neurali per i loro compiti. Condividiamo esperienze nelle chat a tema AI su Slack e quando qualcuno fa una piccola svolta, adottiamo le sue soluzioni.

Parliamo quindi di ciò che abbiamo provato nel nostro team dell'interfaccia utente mentre lavoravamo su Spring Valley.

Ho iniziato ad esplorare attivamente le reti neurali all'inizio di quest'anno. Ho trascorso tre o quattro giorni solo per familiarizzare con gli strumenti: comprendere le tecnologie e gli approcci, capire il lato tecnico delle cose.

Ho provato Midjourney per la prima volta perché sembrava l'opzione più accessibile: avevamo già un account aziendale per gli esperimenti. Ben presto mi sono reso conto che non ci avrebbe aiutato a risparmiare tempo nella creazione delle icone: nella quarta versione che stavo testando, la qualità dell'immagine lasciava molto a desiderare. Nella nuova quinta versione, la qualità è migliorata in modo significativo, ma per i nostri compiti i risultati richiedevano ancora revisioni sostanziali.

L'ostacolo più grande era che Midjourney non poteva corrispondere allo stile richiesto. In poche parole, ha tutta Internet caricata al suo interno, quindi produce risultati molto imprevedibili e non puoi addestrarlo affinché corrisponda al tuo stile.

Tuttavia, si è scoperto che Midjourney è uno strumento ausiliario decente per concetti o per generare singoli elementi. Se hai bisogno di comunicare un'idea o di trovare una forma per essa, lo gestisce bene.

Ad esempio, dovevo creare un ornamento con cammeo. Ho dedicato un po' di tempo alla generazione e ho capito che nessuno dei risultati era adatto a me: sarebbe stato più semplice costruire tutto in 3D. Ma i ritratti cameo stessi sembravano decenti: non si distinguevano dallo stile, non avevano due nasi o bocche storte, quindi perché non usarli?

Nei programmi 3D c'è uno strumento chiamato mappa di spostamento: aggiunge altezza alle aree luminose di un oggetto e rientra alle aree scure. Ho ritagliato rapidamente il cameo di Midjourney in Photoshop, vi ho applicato il mio materiale e non ho dovuto disegnare il ritratto a mano. Ho trascorso sull'icona lo stesso tempo previsto inizialmente, ma l'immagine cameo si è rivelata interessante, più naturale.

Ed ecco un altro esempio: avevo bisogno di realizzare un ramo con i cristalli. Ci vuole un bel po' di tempo per pensare a come apparirà ciascuno di essi. Ho fatto un esempio a Midjourney e ha generato una miriade di questi cristalli. Successivamente, ho scelto la generazione che più mi si addiceva, ho aggiunto il seme richiesto (cioè la variabile di quella generazione) al prompt e ho ottenuto rapidamente abbastanza materiale grafico, che alla fine ho utilizzato nell'icona.

Poi ho iniziato a sperimentare con Stable Diffusion. Ti consente di prendere come base un modello già creato, aggiungere le tue immagini e addestrarlo su questo set di dati. A quel punto, il nostro progetto aveva accumulato molte buone icone nello stile necessario, che potevano essere utilizzate per i set di dati.

Stable Diffusion ha diversi metodi di formazione: estensione Dreambooth, Hypernetwork, LoRA. L'idea era di testarli ciascuno e vedere cosa avrebbe funzionato. Abbiamo scartato subito LoRA perché è più adatto a volti e ritratti. Tuttavia, l'estensione Dreambooth ha funzionato bene.

Addestrare un modello è un'impresa rischiosa. All'inizio potresti avere la sensazione ingannevole che lo allenerai con successo una volta e poi ne raccoglierai i benefici. Ma quando inizi a capire quanti dettagli devono essere presi in considerazione… Se vedi che i risultati non sono eccezionali, devi ricominciare da capo. Quasi tutti i modelli AI sono molto impegnativi per le schede video e se il tuo computer ha una memoria video limitata, la riqualificazione richiederà altre tre ore. Di conseguenza, qualsiasi errore minore prolunga il processo e non vi è alcuna garanzia che il risultato sia sufficientemente buono da poter essere utilizzato.