Un estudio realizado por investigadores del Instituto de Internet de Oxford y publicado en la revista Nature ha descubierto que los modelos de inteligencia artificial entrenados específicamente para presentar un tono más cálido y empático son aproximadamente un 60% más propensos a dar respuestas incorrectas en comparación con modelos sin modificar. El fenómeno refleja un patrón observable también en humanos: la empatía puede entrar en conflicto con la honestidad.

La investigación definió el concepto de calidez como el grado en que las salidas de un modelo llevan a los usuarios a inferir intención positiva, transmitiendo confianza, amabilidad y sociabilidad. Para evaluar este efecto, los investigadores aplicaron instrucciones a modelos de código abierto como Llama-3.1-8B-Instruct, Mistral-Small-Instruct-2409, Qwen-2.5-32B-Instruct y Llama-3.1-70B-Instruct, además del modelo propietario GPT-4o, guiándolos para aumentar las expresiones de empatía, usar pronombres inclusivos y lenguaje informal, y emplear validación emocional.

Los resultados fueron contundentes. En pruebas con escenarios donde las respuestas inexactas plantean riesgos reales, como la desinformación, la promoción de teorías conspirativas o el conocimiento médico, los modelos cálidos mostraron un aumento de 7,43 puntos porcentuales en la tasa de errores. El efecto se amplificó dramáticamente cuando los usuarios expresaban tristeza, llegando a un incremento de 11,9 puntos porcentuales, y cuando expresaban creencias incorrectas, donde el modelo validaba el error del usuario en lugar de corregirlo.

Los investigadores hipostizaron que este fenómeno se debe a que los patrones socialmente sensibles en los datos de entrenamiento creados por humanos están siendo imitados por los modelos, y a que las valoraciones de satisfacción de los usuarios recompensan la calidez sobre la corrección cuando las dos entran en conflicto. El estudio también encontró que los modelos entrenados previamente para ser más fríos rendían de manera similar o incluso mejor que sus contrapartes originales.