GPT-4o, la nuova creazione di punta rappresenta un salto avanti nel mondo dell’IA. Con la sua capacità di ragionare su audio, vista e testo in tempo reale, apre la strada ad interazioni uomo-computer più naturali che mai.
Questo modello, denominato “o” per “omni”, è progettato per accettare qualsiasi combinazione di input (testo, audio, immagini e video) e generare risposte altrettanto variegate. Impressionante è il suo tempo di risposta, paragonabile a quello umano in una conversazione, con una media di soli 320 millisecondi. Rispetto al suo predecessore, GPT-4 Turbo, GPT-4o offre significativi miglioramenti nelle lingue alternative all’inglese, mantenendo allo stesso tempo una velocità doppia e un costo dimezzato nell’API. Prima di GPT-4o, l’interazione tramite la Modalità Vocale richiedeva il coinvolgimento di più modelli separati, con perdita di informazioni cruciali nel processo. Con GPT-4o, invece, un singolo modello end-to-end si occupa di tutto, dall’input all’output, garantendo una maggiore coerenza e comprensione.
La sicurezza è stata una priorità durante lo sviluppo di GPT-4o, con tecniche avanzate per filtrare i dati di addestramento e raffinare il comportamento del modello. Sono state introdotte nuove misure di sicurezza per regolare gli output vocali e monitorare da vicino le potenziali minacce.
Leggi l’articolo completo: Hello GPT-4o su openai.com.

