Meta ha recentemente rilasciato Llama 3.2, una nuova collezione di modelli di intelligenza artificiale che rappresenta un importante passo avanti nel campo dell’AI multimodale. Questa nuova versione introduce capacità di visione e modelli di testo leggeri ottimizzati per dispositivi mobili, aprendo nuove possibilità per sviluppatori e utenti.
Indice
I modelli Meta Llama 3.2 Vision: ragionamento visivo e testuale insieme
I modelli Llama 3.2 Vision da 11B e 90B parametri sono i primi della serie Llama a supportare compiti di visione, richiedendo una nuova architettura in grado di elaborare sia input di immagini che di testo. Questa innovazione permette ai modelli di interpretare e ragionare su immagini insieme a prompt testuali.
L’architettura si basa su un meccanismo di adattatori che collega modelli del linguaggio pre-addestrati a codificatori di immagini. Gli adattatori consistono in layer di cross-attention che alimentano le rappresentazioni delle immagini dal codificatore al modello linguistico. Un aspetto chiave è che mentre il codificatore di immagini viene messo a punto durante l’addestramento, i parametri del modello linguistico rimangono intatti. Questa scelta intenzionale preserva le capacità di elaborazione del testo di Llama.
Il processo di addestramento si articola in diverse fasi:
Pre-addestramento su grandi quantità di dati rumorosi immagine-testo, per apprendere pattern generali di corrispondenza tra immagini e linguaggio.
Fine-tuning su dati di alta qualità e specifici per il dominio, per migliorare l’allineamento tra contenuto visivo e comprensione testuale.
Ulteriore raffinamento attraverso tecniche come supervised fine-tuning, rejection sampling e direct preference optimization.
Il risultato finale sono modelli in grado di elaborare efficacemente sia input di immagini che di testo, offrendo capacità avanzate di comprensione e ragionamento multimodale. Questo apre la strada ad applicazioni più sofisticate, spingendo i modelli Llama verso capacità agentive ancora più ricche.
I modelli di testo leggeri: ottimizzare l’efficienza
Parallelamente ai progressi nei modelli di visione, Meta si è concentrata sulla creazione di versioni leggere di Llama che mantengono le prestazioni pur essendo efficienti dal punto di vista delle risorse. I modelli Llama da 1B e 3B parametri sono progettati per funzionare su dispositivi con risorse computazionali limitate, senza compromettere le loro capacità.
Per ridurre le dimensioni dei modelli sono state utilizzate principalmente due tecniche:
Pruning: rimuove sistematicamente le parti meno importanti del modello, riducendone le dimensioni mantenendo le prestazioni. I modelli da 1B e 3B hanno subito un pruning strutturato, eliminando componenti di rete ridondanti e regolando i pesi per renderli più compatti ed efficienti.
Knowledge distillation: un modello più grande funge da “insegnante” per trasferire la sua conoscenza al modello più piccolo. Per i modelli Llama da 1B e 3B, gli output di modelli più grandi come Llama 3.1 8B e 70B sono stati utilizzati come target a livello di token durante l’addestramento. Questo approccio aiuta i modelli più piccoli a eguagliare le prestazioni di controparti più grandi catturando le loro generalizzazioni.
I processi post-addestramento affinano ulteriormente questi modelli leggeri, inclusi supervised fine-tuning, rejection sampling e preference optimization. Inoltre, il supporto per la lunghezza del contesto è stato esteso a 128K token mantenendo intatta la qualità, permettendo a questi modelli di gestire input di testo più lunghi senza cali di prestazioni.
Meta ha collaborato con importanti aziende hardware come Qualcomm, MediaTek e Arm per garantire che questi modelli funzionino efficientemente su dispositivi mobili. I modelli da 1B e 3B sono stati ottimizzati per funzionare senza problemi sui moderni SoC mobili, aprendo nuove opportunità per applicazioni AI on-device.
Llama Stack: semplificare l’esperienza degli sviluppatori
Meta ha anche introdotto la Llama Stack API, un’interfaccia standardizzata per il fine-tuning, la generazione di dati e la creazione di applicazioni agentive con i modelli Llama. L’obiettivo è fornire agli sviluppatori una catena di strumenti coerente e facile da usare per distribuire i modelli Llama in vari ambienti, da soluzioni on-premise a servizi cloud e dispositivi mobili.
Il rilascio include un set completo di strumenti:
- Llama CLI: un’interfaccia a riga di comando per configurare ed eseguire i modelli Llama.
- Container Docker: container pronti all’uso per eseguire server Llama Stack.
- Codice client: disponibile in più linguaggi come Python, Node, Kotlin e Swift.
Meta ha collaborato con importanti cloud provider come AWS, Databricks e Fireworks per offrire distribuzioni Llama Stack nel cloud. L’introduzione di queste API e meccanismi di distribuzione rende più facile per gli sviluppatori innovare con i modelli Llama, indipendentemente dal loro ambiente di distribuzione.
Sicurezza a livello di sistema: migliorare l’AI responsabile
Parallelamente a questi progressi, Meta si concentra sulla sicurezza e sullo sviluppo responsabile dell’AI. Con il lancio di Llama Guard 3 11B Vision, l’azienda ha introdotto un filtraggio avanzato per prompt di testo+immagine, garantendo che questi modelli operino entro limiti sicuri. Inoltre, i modelli Llama Guard più piccoli da 1B e 3B sono stati ottimizzati per ridurre i costi di implementazione, rendendo più fattibile implementare meccanismi di sicurezza in ambienti vincolati.
Valutazione dei modelli
Modelli di visione Llama 3.2 11B e 90B
I modelli di visione Llama 3.2 mostrano prestazioni eccellenti su diversi benchmark:
Matematica e visione: Llama 3.2 90B eccelle nella risoluzione di problemi matematici complessi utilizzando input multimodali, superando modelli come Claude 3 e GPT-4o mini.
Comprensione di grafici e diagrammi: Llama 3.2 90B mostra ottime capacità di interpretazione di dati visivi, superando Claude 3 in compiti come ChartQA.
Comprensione visiva e testuale generale: Llama 3.2 90B ottiene buoni risultati in test come VQA v2, dimostrando una forte comprensione delle immagini.
- Ragionamento testuale: Llama 3.2 90B eccelle in test di ragionamento e conoscenza generale come MMLU.
In sintesi, Llama 3.2 90B si distingue particolarmente nei compiti legati alla visione, superando modelli concorrenti in molti benchmark. Il modello più grande da 90B mostra capacità di problem-solving e ragionamento nettamente superiori rispetto alla versione da 11B.
Modelli di testo Llama 1B e 3B
I modelli di testo leggeri Llama 3.2 mostrano prestazioni interessanti:
Conoscenza generale: Llama 3.2 3B supera significativamente la versione 1B in test come MMLU, dimostrando una migliore comprensione e ragionamento linguistico.
Riscrittura e parafrasi: Llama 3.2 1B leggermente superiore al 3B in compiti di riscrittura di testo.
Ragionamento matematico: Llama 3.2 3B si comporta molto meglio del 1B in problemi matematici basati su testo.
Ragionamento astratto: Llama 3.2 3B supera il 1B in test di ragionamento logico e astratto.
Contesti lunghi: Llama 3.2 3B gestisce meglio input di testo lunghi rispetto al 1B.
In generale, Llama 3.2 3B si dimostra più versatile e capace in una vasta gamma di compiti rispetto alla versione 1B, pur mantenendo dimensioni contenute adatte ai dispositivi mobili.
Conclusione
Con l’introduzione di capacità di visione, modelli leggeri e un toolkit per sviluppatori ampliato, Llama 3.2 rappresenta una pietra miliare significativa nello sviluppo dell’AI. Queste innovazioni non solo migliorano le prestazioni e l’efficienza dei modelli, ma garantiscono anche che gli sviluppatori possano costruire sistemi AI sicuri e responsabili.
Promuovendo la collaborazione con partner in tutta la comunità AI, Meta sta gettando le basi per un ecosistema AI aperto, innovativo e sicuro. Il futuro di Llama è luminoso e le possibilità sono infinite.
Meta Llama 3.2 – Domande frequenti
Utilizzano un’architettura con adattatori che collega modelli linguistici pre-addestrati a codificatori di immagini, permettendo di interpretare sia input testuali che visivi.
Utilizzano un’architettura con adattatori che collega modelli linguistici pre-addestrati a codificatori di immagini, permettendo di interpretare sia input testuali che visivi.
I modelli leggeri da 1B e 3B parametri sono stati creati utilizzando tecniche come pruning strutturato e knowledge distillation per ridurne le dimensioni mantenendo alte prestazioni.
Llama Stack fornisce un’API standardizzata e strumenti come CLI, container Docker e codice client per semplificare lo sviluppo e la distribuzione di applicazioni basate sui modelli Llama.
0 commenti