DeepSeek-R1 es un modelo de inteligencia synthetic (IA) desarrollado en China que está llamando la atención de la comunidad científica y el sector tecnológico. El desarrollo se posiciona como una alternativa más económica y accesible frente a algoritmos con capacidades avanzadas de razonamiento, como OpenAI o1.
El algoritmo, creado por la startup DeepSeek, tiene un rendimiento related al demostrado por el sistema más avanzado de la firma liderada por Sam Altman al resolver problemas matemáticos, químicos y de codificación, según un documento técnico publicado en la revista Nature. El modelo alcanza una precisión del 97% en la resolución de los desafíos de matemáticas evaluados con el parámetro MATH-500 y supera al 96% de los participantes humanos en las pruebas de programación de la iniciativa Codeforces.
DeepSeek-R1 en medio de las tensiones entre China y Estados Unidos
El programa, al igual que su homólogo estadounidense, procesa las solicitudes a través de “cadenas de pensamiento” que emulan los procesos de razonamiento humano. Fue entrenado con base en el funcionamiento del chatbot V3, también de DeepSeek, mediante técnicas de aprendizaje de refuerzo, donde los ingenieros recompensaron al sistema por llegar a una respuesta correcta y por describir su “pensamiento” en los procesos de resolución. Los investigadores también utilizaron una arquitectura de “mezcla de expertos”, que habilita al modelo para decidir qué redes de procesamiento debe activar para cada tarea.
La metodología resultó en un costo de entrenamiento cercano a los 6 millones de dólares, según algunos expertos. La cifra es notablemente menor a los más de 60 millones que Meta destinó para capacitar a su modelo Llama 3.1. El ahorro en recursos informáticos scale back de manera drástica los precios de acceso para los usuarios. El uso de DeepSeek-R1 cuesta una trigésima parte de lo que implica utilizar OpenAI o1.
Mario Krenn, director del Laboratorio de Ciencias Artificiales del Instituto Max Planck, señala que “un experimento que costaba más de 300 libras con OpenAI o1, ahora puede hacerse por menos de 10 dólares. Esta es una diferencia drástica que influirá en la futura adopción [del algoritmo chino]”.
DeepSeek-R1 se ha publicado bajo una licencia del Instituto Tecnológico de Massachusetts, como una herramienta “open-weight“. Esto significa sus cadenas de pensamiento son accesibles para los investigadores y el modelo puede reutilizarse sin restricciones. No se considera completamente como un producto de código abierto, debido a que sus datos de entrenamiento no están disponibles. Pese a ello Marco Dos Santos, científico informático de la Universidad de Cambridge, afirma que la accesibilidad del programa “permite una mejor interpretación de los procesos de razonamiento del modelo”.
Los expertos destacan que DeepSeek-R1 se ha construido a pesar de los estrictos controles de exportación impuestos por Estados Unidos. El expresidente estadounidense Joe Biden presentó a principios de este mes un programa para limitar aún más el envío de chips y modelos base de inteligencia synthetic a China y otros países. François Chollet, investigador de IA y creador de la biblioteca de aprendizaje profundo Kera, enfatiza en que “el hecho de que DeepSeek-R1 provenga de China demuestra que la eficiencia en el uso de recursos es más essential que la mera escala de cómputo”. Por su parte, Alvin Wang Graylin, vicepresidente world de HTC, concluye que “la ventaja que Estados Unidos alguna vez percibió tener se ha reducido. Ambas naciones deben adoptar un enfoque colaborativo para desarrollar una IA avanzada en lugar de perpetuar la precise competencia estéril de carrera armamentista”.