OpenAI presentó GPT-Realtime-2, un modelo de voz que incorpora razonamiento de clase GPT-5 y puede manejar solicitudes complejas manteniendo conversaciones naturales. La compañía también lanzó dos componentes adicionales: GPT-Realtime-Translate para traducción y GPT-Realtime-Whisper para transcripción.

Hasta ahora, los agentes de voz eran difíciles de orquestar y costosos de operar porque los límites de contexto para manejar conversación simultánea eran restrictivos. GPT-Realtime-2 resuelve esto integrando capacidades de razonamiento avanzado en el propio modelo de voz.

La estrategia de OpenAI separa las funciones en componentes discretos: cada modelo está especializado en una tarea específica. Aunque técnicamente Realtime-2 podría realizar transcripción, OpenAI enruta específicamente a componentes separados para optimizar cada caso de uso empresarial.

Cada vez más empresas ven valor en agentes de voz a medida que crece la comodidad de los usuarios para conversar con inteligencia artificial. La reducción de costos operativos también ha contribuido a la adopción acelerada.

Con estos lanzamientos, OpenAI busca consolidarse en el segmento de agentes de voz empresariales donde la competencia con Anthropic, Google y empresas emergentes se intensifica rápidamente.