El Índice de Inteligencia Artificial de Stanford 2026, publicado esta semana, traza un panorama de la industria de modelos de lenguaje que combina avances sin precedentes con riesgos sistémicos profundos. El documento más esperado del año académico sobre IA señala que la concentración de la cadena de suministro de semiconductores representa una vulnerabilidad crítica para toda la industria a nivel global, mientras documenta el impacto ambiental creciente de los centros de datos que alimentan la actual fiebre por la inteligencia artificial.

El dato más alarmante del informe es la dependencia absoluta de la industria respecto a Taiwan Semiconductor Manufacturing Company. TSMC fabrica prácticamente la totalidad de los chips de inteligencia artificial de última generación, incluyendo los aceleradores que utilizan OpenAI, Google, Meta y Anthropic en sus centros de datos. Esta concentración significa que cualquier disrupción en la producción de la empresa taiwanesa, ya sea por tensiones geopolíticas, desastres naturales o problemas técnicos, detendría la capacidad de entrenamiento de modelos de frontera durante meses.

En el frente ambiental, el índice documenta que los centros de datos de inteligencia artificial en Estados Unidos consumen actualmente 29,6 gigavatios de potencia, suficiente para atender la demanda eléctrica completa del estado de Nueva York en su punto máximo. El informe estima que hacer funcionar GPT-4o durante un año completo consume un volumen de agua equivalente a las necesidades anuales de 12 millones de personas, lo que genera tensiones con comunidades locales en regiones donde el agua ya es un recurso escaso.

La desconexión entre percepción y realidad también ocupa un lugar central en el análisis. Mientras el 73% de los expertos que trabajan directamente con sistemas de inteligencia artificial expresa opiniones positivas sobre la tecnología, solo el 23% del público general comparte ese optimismo. Los expertos, que utilizan los modelos principalmente para programación e investigación donde los avances son notables, tienen una experiencia radicalmente distinta a la de los ciudadanos que perciben la IA a través de la lente del reemplazo laboral y los errores públicos de los sistemas.

El índice también cuestiona la fiabilidad de los propios mecanismos de evaluación. Los benchmarks matemáticos más utilizados presentan tasas de error del 42%, y los modelos están siendo objeto de críticas crecientes por entrenar específicamente para superar pruebas controladas sin que eso se traduzca en mejoras reales de razonamiento. Los autores del informe recomiendan desarrollar nuevos marcos de evaluación que midan capacidades del mundo real y no solo respuestas a pruebas diseñadas para ser superadas.

Lee la historia completa en MIT Technology Review.