Alibaba, el gigante de comercio electrónico en China, ha lanzado Qwen2.5-Max, un gran modelo de lenguaje (LLM) impulsado por inteligencia synthetic (IA) que, según la empresa, supera a su compatriota DeepSeek V3 en pruebas de conocimiento normal, programación y resolución de problemas.
Qwen2.5-Max fue preentrenado con más de 20 billones de tokens. Su funcionamiento se optimizó mediante técnicas de Ajuste Fino Supervisado (SFT) y Aprendizaje de Refuerzo a Partir de Retroalimentación Humana (RLHF). Una de sus principales características es su arquitectura de “mezcla de expertos” (MoE, por sus siglas en inglés). Se trata de un enfoque de aprendizaje automático que emplea redes secundarias para procesar conjuntos específicos de datos. El modelo puede decidir cuáles de estos componentes debe activar para responder con precisión a una petición compleja.
El enfoque MoE facilita la creación de modelos de IA de gran tamaño que operan con menor demanda computacional y pueden adaptarse a distintos tipos de datos y tareas con mayor eficiencia, según los expertos. Esta técnica también ha sido utilizada por DeepSeek para entrenar sus modelos más recientes.
“El lanzamiento de DeepSeek V3 ha atraído la atención de toda la comunidad de IA hacia los modelos MoE. Sin embargo, los investigadores y la industria tienen una experiencia limitada para llevar a gran escala este tipo de algoritmos”, señala Alibaba.
La IA de Alibaba supera a DeepSeek V3 y GPT-4o
Los ingenieros de Alibaba evaluaron los modelos básicos e instructivos de Qwen2.5-Max utilizando los puntos de referencia MMLU-Professional, que mide el conocimiento a nivel universitario; LiveCodeBench, que analiza capacidades de codificación; LiveBench, que evalúa respuestas generales, y Area-Arduous, que se aproxima a las preferencias humanas. El rendimiento del algoritmo se comparó con DeepSeek V3, Llama-3.1-405B, Qwen2.5-72B, GPT-4o y Claude-3.5-Sonnet, demostrando ser superior en todas las pruebas.
Qwen2.5-Max es un modelo de código abierto. Su API está disponible para desarrolladores a través de Alibaba Cloud. Además, el público normal puede probar sus capacidades de manera gratuita mediante Qwen Chat, un bot related a ChatGPT y DeepSeek que ofrece funciones de búsqueda en la net y generación de contenidos multimedia.
La competencia crece en el sector de la IA
La presentación de Qwen2.5-Max ha sido interpretada como una respuesta al rápido ascenso que DeepSeek ha experimentado en las últimas semanas. La startup lanzó recientemente su modelo R1, una alternativa más económica y accesible a los algoritmos avanzados de razonamiento. Según algunos expertos, su entrenamiento costó cerca de 6 millones de dólares, una cifra significativamente menor a los más de 60 millones que Meta destinó para capacitar a Llama 3.1. La optimización de recursos scale back drásticamente los costos de acceso para los usuarios. El uso de DeepSeek-R1 cuesta una trigésima parte de lo que implica utilizar OpenAI o1.
El avance ha llevado a los inversores a cuestionar los elevados planes de gasto de las principales empresas de IA. La situación ha generado presión entre los rivales internacionales y locales de DeepSeek, los cuales han acelerado el lanzamiento de nuevas soluciones y han reducido sus precios para mantenerse competitivos. En días pasados, ByteDance presentó Doubao-1.5-pro, una actualización de su modelo de IA con capacidades mejoradas de razonamiento. Por su parte, la división de servicios en la nube de Alibaba anunció recortes de hasta 97% en el precio de múltiples modelos de IA.
Liang Wenfeng, fundador de DeepSeek, dijo el año pasado que la intención de su empresa no es generar una guerra de precios. Subrayó que su misión es desarrollar un sistema de inteligencia artificial general y destacó que DeepSeek opera como un laboratorio de investigación que evita las estructuras jerárquicas tradicionales de las grandes corporaciones tecnológicas. El directivo asegura que este modelo de gestión versatile es clave para abordar el futuro de la industria de la IA. “Los grandes modelos fundacionales requieren innovación continua. Las capacidades de los gigantes tecnológicos tienen sus límites”, concluye.