Los modelos de inteligencia artificial han demostrado capacidades sobrehumanas en ajedrez, go, programación competitiva y exámenes universitarios. Pero un nuevo estudio publicado esta semana sugiere que hay toda una categoría de problemas del mundo real en los que estos sistemas siguen fallando de manera sistemática: aquellos que involucran riesgo a largo plazo, información incompleta y variables humanas impredecibles.
La startup General Reasoning diseñó lo que bautizó como KellyBench, un entorno de prueba basado en la temporada 2023-24 de la Premier League inglesa. El objetivo era sencillo pero representativo: cada modelo debía decidir cuánto apostar en cada jornada sabiendo que las probabilidades de cada partido y el historial de resultados. Ocho modelos de primera línea fueron evaluados, incluyendo sistemas de Google, OpenAI e Anthropic.
El resultado fue categórico: todos perdieron dinero. El modelo Grok, de xAI, registró el peor desempeño, seguido de cerca por otros sistemas que en principio deberían haber tenido acceso a información suficiente para al menos romper equilibrio. Los investigadores no culpan a la falta de datos, sino a la incapacidad de los modelos para calibrar correctamente la incertidumbre a lo largo de docenas de decisiones encadenadas.
La intuición detrás del criterio de Kelly, la fórmula matemática que subyace al estudio, es que apostadores exitosos no maximizan ganancias en cada apuesta individual sino que optimizan el crecimiento compuesto a lo largo del tiempo. Eso requiere no solo estimar probabilidades correctamente, sino también gestionar el tamaño de las apuestas en función de la confianza. Los investigadores creen que los grandes modelos de lenguaje tienen dificultades con este segundo componente porque tienden a expresar certeza excesiva cuando producen texto fluido de manera generativa.
El hallazgo se alinea con otras investigaciones recientes que han identificado debilidades similares de la IA en planificación financiera personal, diagnóstico médico secuencial y negociaciones prolongadas. En todos estos casos, el problema no es que el modelo no sepa cosas, sino que su arquitectura no está diseñada para mantener una distribución de creencias que se actualice limpiamente a lo largo de decisiones interdependientes.
Para la industria, el mensaje es doble. Por un lado, los puntos de referencia tradicionales que las empresas usan para presumir de sus modelos están claramente sesgados hacia tareas bien definidas. Por otro, la evaluación de modelos para aplicaciones del mundo real requiere métricas fundamentalmente distintas que midan el rendimiento compuesto, no solo el rendimiento por pregunta.
xAI, cuyo modelo Grok obtuvo el peor resultado en KellyBench, no ha comentado públicamente sobre el estudio. Varios investigadores externos han señalado que la metodología tiene limitaciones, particularmente la cuestión de si recrear las probabilidades exactas que enfrentaban los apostadores reales es factible para un sistema que solo tiene acceso a información histórica.
Lee la historia completa en Ars Technica.
Comentarios (0)
Sé el primero en comentar.