• LinkedIn
  • Telegram
  • FB
  • FB

Magazine Intelligenza Artificiale: l'IA è più di quello che appare

Magazine Intelligenza Artificiale: l'IA è più di quello che appare

Meta rilascia Chamaleon, una nuova famiglia di modelli di IA

Imagine del logo di Meta.

Meta, la società madre di Facebook e Instagram, ha appena rilasciato Chameleon, una nuova famiglia di modelli di intelligenza artificiale (Large Language Vision Models, nello specifico) in grado di comprendere e generare sia testo che immagini in modo integrato.

A differenza dei precedenti approcci che combinavano modelli separati per le due modalità, Chameleon utilizza un’architettura unificata. Immagini e testo vengono rappresentati in un unico spazio vettoriale grazie all’uso di speciali “tokenizers”.

Addestrare un modello del genere non è stato semplice. I ricercatori di Meta hanno dovuto escogitare soluzioni innovative per garantire la stabilità dell’addestramento su larga scala, come riordinare i livelli di normalizzazione e utilizzare una speciale loss function.

Per l’addestramento sono stati utilizzati enormi set di dati testuali e visivi, inclusi dati di alta qualità raccolti da fornitori esterni. I modelli Chameleon sono stati poi raffinati su attività specifiche come chat multi-modale e la generazione di immagini.

Chameleon ha ottenuto risultati notevoli rispetto ad altri modelli open-weights, ma è stato superato da GPT-4V e Gemini su VQAv2, probabilmente per i migliori dati proprietari utilizzati. Inoltre, l’integrazione della modalità visiva non sembra aver deteriorato le prestazioni sui compiti solo testuali.

Meta ha rilasciato Chameleon in due taglie, 7B e 34B parametri. Chissà se in futuro riusciranno a scalare ulteriormente questa promettente architettura senza incorrere in problemi di stabilità. Nel frattempo, non resta che esplorare le potenzialità di questi modelli nel combinare parole e immagini.

Leggi l’articolo completo: Chameleon, Meta’s Mixed-Modal Foundation Model su azizbelaweid.substack.com.

Foto di Dima Solomin su Unsplash.

Esplora altri articoli su questi temi