El mejor modelo de inteligencia synthetic del mercado es chino, barato, gratuito y de código abierto. Lo que parece una buena noticia para los consumidores ha hecho que el fabricante de chips Nvidia sufra la caída más grande de la historia de la bolsa, con mordiscos importantes a Google, Amazon, y Microsoft; que Meta declare el estado de emergencia y el inversor tecnológico Marc Andreessen declare que estamos viviendo un momento Sputnik. Todo eso fue el pasado lunes. Ahora por fin tenemos un momento para reflexionar.
Lo primero que hay que tener en cuenta es que el mercado de inversión estaba deseando este correctivo. El año pasado, grandes instituciones financieras como Goldman Sachs, Sequoia Capital, Moody’s o Barclays, publicaron informes poniendo en duda la rentabilidad de las faraónicas infraestructuras que demandan las empresas de IA, con promesas que no se materializan. “Para justificar una inversión de un trillón de dólares, la IA necesita resolver problemas complejos y ayudarnos a hacer cosas que no podíamos hacer antes”, dijo Jim Covello, de Goldman Sachs, en The Atlantic. DeepSeek les ha dado la prueba que necesitaban: entrenar grandes modelos no requiere 100.000 tarjetas Nvidia H100s ni una arquitectura faraónica en continua expansión. Se puede hacer más con mucho menos. La Ley de Kaplan, que cube que es inevitable escalar el modelo, no es verdad.
Lo segundo, que al menos uno de “los siete magníficos” sabía que esto iba a pasar. En un documento interno filtrado hace dos años, un ingeniero de Google advertía que el código abierto estaban a punto de adelantarles por la derecha. “Los modelos de código abierto son más rápidos, más personalizables, más privados y, en términos relativos, más capaces.” Su consejo period aprender a colaborar con gente fuera de Google. Demis Hassabis, jefe de IA en la empresa, dijo que el documento period auténtico y que no estaba de acuerdo con él. La cuestión es cómo ha pasado.
Los grandes modelos como ChatGPT o Claude están típicamente entrenados a través de un proceso de aprendizaje supervisado a gran escala, y después son afinados con aprendizaje de refuerzo asistido para “alinear” los resultados con la cultura y los valores deseados. La diferencia entre el aprendizaje supervisado y el reforzado es que el primero aprende con datos que han sido etiquetados previamente por humanos, con una respuesta correcta y conocida para cada ejemplo de entrenamiento. Esta forma de “estudiar” requiere preparar los conjuntos de datos, un trabajo donde se invierte mucho tiempo. También requiere mucha energía para procesar toda esa “memoria” cada vez. El aprendizaje reforzado, sin embargo, usa contenidos que no han sido necesariamente etiquetados, y funciona con un proceso de prueba y error; o de castigo y recompensa. Se suele decir que uno es como estudiar con libros de texto y un profesor que te va corrigiendo los resultados; y el otro es como salir a la calle solo a montar en bici. Aprendes a base de golpes, caídas y carreras triunfales que, cuando te salen, son recompensadas con endorfinas que te marcan el camino a seguir.
Según el paper académico que lo acompaña, DeepSeek ha invertido el proceso. Empiezan con una pequeña base de entrenamiento supervisado para que el modelo aprenda un mínimo de gramática y estructura y evitar así problemas de comunicación y legibilidad; pero el grueso del entrenamiento es aprendizaje reforzado, con bases de datos sin etiquetar. Esto cut back no sólo el coste de preparación de los datos sino el esfuerzo de computación, porque no tiene que cargar esos conjuntos de datos masivos en su memoria. También se ha inventado varios atajos, como bajar la resolución de los datos de entrenamiento a 8 bits, en lugar de los 32 o 16 bits tradicionales para ajustarse a las limitaciones de los chips más antiguos. DeepSeek cube que ha sido entrenada con 5,6 millones de dólares y 2.048 chips H800 de Nvidia durante dos meses. El H800 es una versión de menor potencia del chip H100s de Nvidia. Fue diseñado para vender en el mercado chino de acuerdo con las nuevas leyes de exportación de EE UU.
Es posible que las limitaciones impuestas por la Administración Biden, que el año pasado prohibió a Nvidia vender sus chips A100 o H100 a las empresas chinas, hayan obligado a los desarrolladores chinos a ser más ingeniosos que sus colegas en California. Sus políticas de inmigración recientes podían haber contribuido también. La diáspora asiática ha jugado un papel significativo en el desarrollo de tecnologías de Silicon Valley. Devolver todos esos cerebros tiene que haber beneficiado la cultura native. ¿Tanto como para permitir que un pequeño fondo de inversiones rompa, no sólo la hegemonía del mercado americano, sino también a Alibaba, Biren Expertise, MetaX, o Huawei? De ser así, significaría que no hay que esperar nuevas remesas de Nvidia, lo cual justificaba su valoración, sino que se pueden reciclar para la IA chips que estaban dedicados a otras cosas. Que la IA generativa no es demasiado cara y complicada para que la hagan más de cinco empresas. Que se puede desarrollar una IA europea en la universidad.
También es posible que se haya gastado mucho más dinero del que declara y haya tenido acceso a chips de vanguardia. Alexandr Wang, un actor central cuya empresa etiqueta bases de datos para aprendizaje supervisado, cube que “DeepSeek tiene más de 50.000 H100s, pero no lo cube por los controles de EE UU”. Lo que es evidente es que tienen que haber invertido mucho más de lo que dicen en investigación, y en experimentar con diferentes fórmulas, antes de conseguir una buena. El desarrollo científico es así. Y es innegable que lo han hecho a hombros de la generación anterior. Es más: Sam Altman, de OpenAI, ha sugerido que los chinos han usado las respuestas generadas por ChatGPT-4 para entrenar su modelo, en lugar de hacerlo desde cero con datos originales. Esto les habría ahorrado el paso del aprendizaje supervisado, pero sería una infracción de los términos de uso de OpenAI, y un momento de perfecto schadenfreude para todos los artistas, periodistas, cineastas, músicos, académicos y usuarios cuyo trabajo ha sido digerido sin permiso para que exista ChatGPT.
En último lugar, lo más importante: ¿es una aplicación segura o un troyano del Ejército Widespread de Liberación para dominar Occidente? “Si lo fuera les descubrirían muy rápido”, me cube el experto Mikko Hipponen, casualmente en Madrid invitado por el Instituto Aspen y Fundación Telefónica. DeepSeek-V3 puede ser instalado y destripado por cualquier usuario para ver lo que tiene, y en un mes nadie ha encontrado nada relevante. Por otra parte, los datos de entrenamiento y la metodología no han sido compartidos. Eso significa que no se puede reconstruir desde cero, lo cual lo descalifica como verdaderamente abierto, pero también que no sabemos hasta qué punto ha sido adoctrinado con propaganda del Gobierno chino. De momento sabemos que no quiere hablar de Tiannamen. Estará a sus anchas con un ChatGPT que se niega a hablar de sexo, el Grok que duda de la legitimidad de las elecciones de 2020 y el Instagram que permite decir que ser homosexual es una enfermedad. Pero la mayoría de los usuarios no instalarán DeepSeek en servidores, sino que lo usará como una aplicación en su móvil, generando la misma relación de vigilancia y dependencia que una cuenta de Instagram o TikTok. Los términos y condiciones indican que los datos de los usuarios, incluidas las conversaciones y las respuestas generadas, serán almacenados en servidores en China y utilizados con propósitos comerciales, incluyendo el entrenamiento de nuevos modelos. En ese sentido, DeepSeek no es ni mejor ni peor que ChatGPT, Claude, o Grok.