I ricercatori della CMU propongono GILL: un metodo di intelligenza artificiale per fondere LLM con modelli di codifica e decodificazione di immagini

Notizia

CasaCasa / Notizia / I ricercatori della CMU propongono GILL: un metodo di intelligenza artificiale per fondere LLM con modelli di codifica e decodificazione di immagini

May 16, 2023

I ricercatori della CMU propongono GILL: un metodo di intelligenza artificiale per fondere LLM con modelli di codifica e decodificazione di immagini

Con il rilascio del nuovo GPT 4 di OpenAI è stata introdotta la multimodalità nei modelli linguistici di grandi dimensioni. A differenza della versione precedente, GPT 3.5, che viene utilizzata solo per consentire al noto ChatGPT di acquisire testi

Con il rilascio del nuovo GPT 4 di OpenAI è stata introdotta la multimodalità nei modelli linguistici di grandi dimensioni. A differenza della versione precedente, GPT 3.5, che veniva utilizzata solo per consentire al noto ChatGPT di ricevere input testuali, l'ultima GPT-4 accetta testo e immagini come input. Recentemente, un team di ricercatori della Carnegie Mellon University ha proposto un approccio chiamato Generating Images with Large Language Models (GILL), che si concentra sull’estensione di modelli linguistici multimodali per generare immagini uniche e straordinarie.

Il metodo GILL consente l'elaborazione di input mescolati con immagini e testo per produrre testo, recuperare immagini e creare nuove immagini. GILL riesce a raggiungere questo obiettivo nonostante i modelli utilizzino codificatori di testo distinti trasferendo lo spazio di incorporamento dell'output di un LLM congelato di solo testo a quello di un modello di generazione di immagini congelato. A differenza di altri metodi che richiedono dati immagine-testo interfogliati, la mappatura viene eseguita perfezionando un numero limitato di parametri utilizzando accoppiamenti immagine-didascalia.

Il team ha affermato che questo metodo combina modelli linguistici di grandi dimensioni per il testo congelato con modelli per la codifica e decodifica delle immagini che sono già stati addestrati. Può fornire un'ampia gamma di funzionalità multimodali, come il recupero di immagini, la produzione di immagini uniche e il dialogo multimodale. Ciò è stato fatto mappando gli spazi di incorporamento delle modalità al fine di fonderle. GILL funziona condizionando input misti di immagini e testo e produce output coerenti e leggibili.

Questo metodo fornisce un'efficace rete di mappatura che basa l'LLM su un modello di generazione da testo a immagine per ottenere grandi prestazioni nella generazione di immagini. Questa rete di mappatura converte le rappresentazioni di testo nascosto nello spazio di incorporamento dei modelli visivi. In tal modo, utilizza le potenti rappresentazioni testuali di LLM per produrre output esteticamente coerenti.

Con questo approccio, il modello può recuperare immagini da un set di dati specificato oltre a creare nuove immagini. Il modello sceglie se produrre o ottenere un'immagine al momento dell'inferenza. Per fare questa scelta viene utilizzato un modulo decisionale appreso condizionato alle rappresentazioni nascoste del LLM. Questo approccio è efficiente dal punto di vista computazionale poiché funziona senza la necessità di eseguire il modello di generazione delle immagini al momento dell'addestramento.

Questo metodo offre prestazioni migliori rispetto ai modelli di generazione di base, soprattutto per attività che richiedono un linguaggio più lungo e sofisticato. In confronto, GILL supera il metodo di diffusione stabile nell'elaborazione di testi di forma più lunga, inclusi dialoghi e discorsi. GILL offre maggiori prestazioni nella generazione di immagini condizionate dal dialogo rispetto ai modelli di generazione non basati su LLM, beneficiando del contesto multimodale e generando immagini che corrispondono meglio al testo fornito. A differenza dei tradizionali modelli testo-immagine che elaborano solo input testuali, GILL può anche elaborare input immagine-testo arbitrariamente intercalati.

In conclusione, GILL (Generating Images with Large Language Models) sembra promettente poiché descrive una gamma più ampia di abilità rispetto ai precedenti modelli linguistici multimodali. La sua capacità di sovraperformare i modelli di generazione non basati su LLM in varie attività di conversione del testo in immagine che misurano la dipendenza dal contesto lo rende una potente soluzione per attività multimodali.

Dai un'occhiata aCartaEPagina del progetto.Non dimenticare di iscrivertiil nostro subReddit da 26k+ ML,Canale Discordia, ENewsletter via e-mail , dove condividiamo le ultime notizie sulla ricerca sull'intelligenza artificiale, interessanti progetti sull'intelligenza artificiale e altro ancora. Se avete domande riguardanti l'articolo sopra o se ci siamo persi qualcosa, non esitate a contattarci via email a[email protected]

🚀 Dai un'occhiata a 100 strumenti AI nell'AI Tools Club

Tanya Malhotra è una studentessa dell'ultimo anno presso l'Università degli studi sul petrolio e sull'energia, Dehradun, che persegue un BTech in ingegneria informatica con una specializzazione in intelligenza artificiale e apprendimento automatico. È un'appassionata di scienza dei dati con un buon pensiero analitico e critico, insieme a un ardente interesse nell'acquisizione di nuove competenze, nella guida di gruppi e nella gestione del lavoro in modo organizzato.