La gigante china Alibaba promete superar a DeepSeek con su nuevo modelo de IA Qwen2.5-Max

Alibaba, el gigante de comercio electrónico en China, ha lanzado Qwen2.5-Max, un gran modelo de lenguaje (LLM) impulsado por inteligencia synthetic (IA) que, según la empresa, supera a su compatriota DeepSeek V3 en pruebas de conocimiento normal, programación y resolución de problemas.

Qwen2.5-Max fue preentrenado con más de 20 billones de tokens. Su funcionamiento se optimizó mediante técnicas de Ajuste Fino Supervisado (SFT) y Aprendizaje de Refuerzo a Partir de Retroalimentación Humana (RLHF). Una de sus principales características es su arquitectura de “mezcla de expertos” (MoE, por sus siglas en inglés). Se trata de un enfoque de aprendizaje automático que emplea redes secundarias para procesar conjuntos específicos de datos. El modelo puede decidir cuáles de estos componentes debe activar para responder con precisión a una petición compleja.

La nueva IA DeepSeek envía explícitamente los datos de sus usuarios a China

En medio de los continuos temores sobre TikTok, la política de privacidad de DeepSeek expone que los datos de sus usuarios se dirigen directamente a China, lo que podría sentar las bases para un mayor escrutinio.

El enfoque MoE facilita la creación de modelos de IA de gran tamaño que operan con menor demanda computacional y pueden adaptarse a distintos tipos de datos y tareas con mayor eficiencia, según los expertos. Esta técnica también ha sido utilizada por DeepSeek para entrenar sus modelos más recientes.

“El lanzamiento de DeepSeek V3 ha atraído la atención de toda la comunidad de IA hacia los modelos MoE. Sin embargo, los investigadores y la industria tienen una experiencia limitada para llevar a gran escala este tipo de algoritmos”, señala Alibaba.

La IA de Alibaba supera a DeepSeek V3 y GPT-4o

Los ingenieros de Alibaba evaluaron los modelos básicos e instructivos de Qwen2.5-Max utilizando los puntos de referencia MMLU-Professional, que mide el conocimiento a nivel universitario; LiveCodeBench, que analiza capacidades de codificación; LiveBench, que evalúa respuestas generales, y Area-Arduous, que se aproxima a las preferencias humanas. El rendimiento del algoritmo se comparó con DeepSeek V3, Llama-3.1-405B, Qwen2.5-72B, GPT-4o y Claude-3.5-Sonnet, demostrando ser superior en todas las pruebas.

Qwen2.5-Max es un modelo de código abierto. Su API está disponible para desarrolladores a través de Alibaba Cloud. Además, el público normal puede probar sus capacidades de manera gratuita mediante Qwen Chat, un bot related a ChatGPT y DeepSeek que ofrece funciones de búsqueda en la net y generación de contenidos multimedia.

Tabla comparativa del rendimiento de Qwen2.5-Max, la nueva IA de Alibaba.Cortesía Alibaba

La competencia crece en el sector de la IA

La presentación de Qwen2.5-Max ha sido interpretada como una respuesta al rápido ascenso que DeepSeek ha experimentado en las últimas semanas. La startup lanzó recientemente su modelo R1, una alternativa más económica y accesible a los algoritmos avanzados de razonamiento. Según algunos expertos, su entrenamiento costó cerca de 6 millones de dólares, una cifra significativamente menor a los más de 60 millones que Meta destinó para capacitar a Llama 3.1. La optimización de recursos scale back drásticamente los costos de acceso para los usuarios. El uso de DeepSeek-R1 cuesta una trigésima parte de lo que implica utilizar OpenAI o1.

El avance ha llevado a los inversores a cuestionar los elevados planes de gasto de las principales empresas de IA. La situación ha generado presión entre los rivales internacionales y locales de DeepSeek, los cuales han acelerado el lanzamiento de nuevas soluciones y han reducido sus precios para mantenerse competitivos. En días pasados, ByteDance presentó Doubao-1.5-pro, una actualización de su modelo de IA con capacidades mejoradas de razonamiento. Por su parte, la división de servicios en la nube de Alibaba anunció recortes de hasta 97% en el precio de múltiples modelos de IA.

Liang Wenfeng, fundador de DeepSeek, dijo el año pasado que la intención de su empresa no es generar una guerra de precios. Subrayó que su misión es desarrollar un sistema de inteligencia artificial general y destacó que DeepSeek opera como un laboratorio de investigación que evita las estructuras jerárquicas tradicionales de las grandes corporaciones tecnológicas. El directivo asegura que este modelo de gestión versatile es clave para abordar el futuro de la industria de la IA. “Los grandes modelos fundacionales requieren innovación continua. Las capacidades de los gigantes tecnológicos tienen sus límites”, concluye.

Source link

El ‘Oro’ de Wagner más español no brilla en París | Cultura

Dani Martín: “Nunca pensé que duraría tanto en la música como para que las hijas de mis ‘fans’ vinieran a escucharme” | Cultura

Disfruta de los próximos conciertos de la ORCAM | Experiencias EL PAÍS + para suscriptores

Dolores Redondo: “Entre Shakespeare y Cervantes nos dejaron sin historias” | Cultura

On Bread and Circuses – A Collection of Unmitigated Pedantry

Esta empresa discográfica está compuesta solo por artistas de IA (y no suenan mal)

Siete dispositivos para hacer ejercicio que quizás no sabías ni que existían | Tu Tecnología | El País

Decir no | Opinión | EL PAÍS

Most Popular

Dolores Redondo: “Entre Shakespeare y Cervantes nos dejaron sin historias” | Cultura

On Bread and Circuses – A Collection of Unmitigated Pedantry

Esta empresa discográfica está compuesta solo por artistas de IA (y no suenan mal)

Our Picks

Asesinan a la artista hispana

València restringirá a un máximo del 2% las viviendas turísticas permitidas en cada barrio

Portugal, the Mamluks, and the Age of Discovery

Subscribe to our newsletter

La gigante china Alibaba promete superar a DeepSeek con su nuevo modelo de IA Qwen2.5-Max

La IA de Alibaba supera a DeepSeek V3 y GPT-4o

La competencia crece en el sector de la IA

Related Posts

Subscribe to our newsletter