OpenAI ha introdotto nuovi modelli audio nella sua API per migliorare la precisione della trascrizione vocale e la naturalezza delle voci sintetiche.
I nuovi modelli speech-to-text, gpt-4o-transcribe e gpt-4o-mini-transcribe, offrono trascrizioni più accurate, anche in ambienti rumorosi o con accenti complessi. Invece, il modello text-to-speech, gpt-4o-mini-tts, consente di personalizzare il tono di voce, migliorando applicazioni come assistenti virtuali e narrazioni digitali.
Basati su architetture GPT-4o, i modelli sfruttano tecniche avanzate di apprendimento per rinforzo e distillazione per ottimizzare le prestazioni. OpenAI prevede ulteriori miglioramenti e lo sviluppo di agenti multimodali che integrano anche il video.
Leggi l’articolo completo: Introducing next-generation audio models in the API su openai.com.
Immagine generata tramite DALL-E 3, 2025.

