Magazine Intelligenza Artificiale: l'IA è più di quello che appare

OpenAI: nuovi modelli audio per trascrizioni vocali più accurate

Marta Baronio

28/03/2025

OpenAI ha introdotto nuovi modelli audio nella sua API per migliorare la precisione della trascrizione vocale e la naturalezza delle voci sintetiche.

I nuovi modelli speech-to-text, gpt-4o-transcribe e gpt-4o-mini-transcribe, offrono trascrizioni più accurate, anche in ambienti rumorosi o con accenti complessi. Invece, il modello text-to-speech, gpt-4o-mini-tts, consente di personalizzare il tono di voce, migliorando applicazioni come assistenti virtuali e narrazioni digitali.

Basati su architetture GPT-4o, i modelli sfruttano tecniche avanzate di apprendimento per rinforzo e distillazione per ottimizzare le prestazioni. OpenAI prevede ulteriori miglioramenti e lo sviluppo di agenti multimodali che integrano anche il video.

Leggi l’articolo completo: Introducing next-generation audio models in the API su openai.com.

Immagine generata tramite DALL-E 3, 2025.