GPT-4o : multimodalité en temps réel
Résumé
OpenAI a présenté GPT-4o, un modèle capable de traiter simultanément du texte, de l'audio et des images en temps réel. Il réduit la latence vocale à moins de 300 ms et améliore l'expressivité émotionnelle, ouvrant de nouvelles perspectives pour les assistants conversationnels.
Source
openai.com/blog/gpt-4o