Los avances en inteligencia synthetic (IA) podrían ser menos significativos de lo que aparentan. Esta es la principal conclusión de un estudio realizado por investigadores de la Universidad Nacional de Educación a Distancia (UNED), en España, quienes sugieren que las capacidades de modelos como OpenAI o3-mini o DeepSeek R-1 dependen más de la memorización que del razonamiento genuino.
El desarrollo de sistemas de IA con habilidades de razonamiento se ha convertido en el nuevo foco de competencia dentro del sector. La mayoría de estos modelos han sido entrenados para responder a solicitudes mediante “cadenas privadas de pensamiento”, un procedimiento que les permite “reflexionar” antes de generar una respuesta, según empresas como OpenAI. Los sistemas están habilitados para segmentar la petición y vincularla con información previa para ofrecer una respuesta más precisa.
La industria sostiene que esta es una forma avanzada de razonamiento que se asemeja a la de los humanos, y que se evalúa a través de pruebas de referencia conocidas como benchmarks. Los modelos con mejores puntuaciones en estos exámenes suelen considerarse los más potentes. Sin embargo, los especialistas advierten que estos assessments presentan problemas de fiabilidad, una situación que se ha agravado debido a la intensa competencia en el sector.
Julio Gonzalo, coautor del estudio y catedrático de Lenguajes y Sistemas Informáticos de la UNED, ha dicho a El País que “si hay mucha presión competitiva, se presta demasiada atención a los benchmarks, y a las empresas les resultaría fácil y conveniente manipularlos, así que no podemos fiarnos completamente de los números que nos reportan”.
Para evaluar la confiabilidad de estas pruebas, Gonzalo y los investigadores de la UNED, Eva Sánchez Salido y Guillermo Marco, diseñaron un sencillo, pero eficaz experimento. Su objetivo period determinar si los modelos responden a los assessments mediante razonamiento actual o si simplemente buscan la opción más possible en función de sus datos de entrenamiento.
Las capacidades de la IA dependen de la memoria, no del razonamiento
El ensayo consistió en modificar los benchmarks tradicionales con la introducción de una opción de respuesta genérica: “Ninguna de las anteriores”. Con ello, se pretendía obligar a las IA a razonar en lugar de identificar patrones previamente aprendidos.
Las pruebas se aplicaron a 16 modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés), entre los que destacan DeepSeek-R1, OpenAI o3, Gemma 2-27b, Claude-3.5, Llama 3, GPT-4 y Mistral 7B. Los hallazgos fueron reveladores. “Los resultados muestran que todos los modelos pierden precisión de forma notable con nuestra variación propuesta, con una caída promedio del 57% y del 50% [en dos indicadores tradicionales de referencia], y oscilando entre el 10% y el 93% según el modelo”, señalan los autores en su artículo.
Los investigadores también indicaron que el idioma influye en el desempeño de los modelos de IA. Las pruebas en inglés suelen arrojar mejores resultados, mientras que el rendimiento disminuye en español y se cut back drásticamente con lenguas menos comunes. Gonzalo explica que la diferencia entre idiomas es más notoria en modelos con estructuras de procesamiento neuronal más limitadas. Las versiones compactas de los LLM, que pueden ejecutarse en dispositivos y ofrecen mayor privacidad, tienden a presentar más sesgos lingüísticos, dependiendo del idioma utilizado.
El estudio, realizado en el marco del proyecto Odesia en colaboración con la plataforma Purple.es, concluye que los modelos de IA dependen en gran medida de la memorización más que del razonamiento genuino. Guillermo Marco destaca que este tipo de variaciones ya se había puesto a prueba en la formulación de preguntas en los benchmarks. Sin embargo, resalta que la modificación en las opciones de respuesta “permite evaluar con mayor precisión el progreso actual en las capacidades de razonamiento aproximado de los sistemas, sin que el acierto por memorización distorsione los resultados”.
Pese a las limitaciones identificadas, el estudio reconoce que los desarrolladores están explorando nuevas técnicas para mejorar el razonamiento de sus modelos. Un ejemplo es OpenAI o3-mini, que, aunque pierde precisión en las pruebas modificadas, es el único que logra aprobar uno de los benchmarks. Asimismo, DeepSeek-R1-70b destacó por registrar la menor caída en rendimiento en las evaluaciones adaptadas.