La inteligencia artificial (IA) sigue avanzando a pasos agigantados, y en esta ocasión, la empresa Zyphra ha dado un golpe en la mesa. ¿La clave? Haber desarrollado ZAYA1, el primer modelo de base Mixture-of-Experts (MoE) a gran escala, entrenado completamente con la plataforma de GPUs y networking de AMD.
Zyphra revoluciona el entrenamiento de IA a gran escala con la potencia de AMD
Este logro, detallado en un informe técnico de Zyphra, demuestra la capacidad de las GPUs AMD Instinct™ MI300X, la red AMD Pensando™ y el software de código abierto AMD ROCm™ para impulsar cargas de trabajo de IA a nivel de producción.
¿Qué significa esto?
En pocas palabras, que AMD está demostrando que su tecnología no solo es potente, sino también eficiente para entrenar modelos de IA complejos y a gran escala. Y esto no es solo palabrería, los resultados de Zyphra lo confirman.
ZAYA1: Un modelo que planta cara a los grandes
El modelo ZAYA1-base (8.3B total, 760M activo) ha demostrado un rendimiento competitivo, e incluso superior, a modelos líderes del mercado en pruebas de razonamiento, matemáticas y codificación. Estamos hablando de modelos como Qwen3-4B (Alibaba), Gemma3-12B (Google), Llama-3-8B (Meta) y OLMoE. Esto es especialmente significativo si tenemos en cuenta que ZAYA1 utiliza una fracción de los parámetros activos.
Puntos clave de ZAYA1:
- Supera a Llama-3-8B y OLMoE en varios benchmarks.
- Rivaliza con el rendimiento de Qwen3-4B y Gemma3-12B.
- La capacidad de memoria de AMD Instinct MI300X simplificó el entrenamiento.
- Tiempos de guardado del modelo 10 veces más rápidos.
¿Por qué es importante?
Este avance es importante por varias razones:
- Eficiencia: Zyphra destaca que la eficiencia es un principio fundamental en su trabajo. La elección de hardware con la mejor relación precio-rendimiento es crucial para ofrecer inteligencia de vanguardia a sus clientes.
- Colaboración: El desarrollo de ZAYA1 es fruto de una estrecha colaboración entre Zyphra, AMD e IBM. Esta colaboración ha permitido diseñar e implementar un clúster de entrenamiento a gran escala, combinando las GPUs AMD Instinct™ MI300X con la arquitectura de almacenamiento y el tejido de alto rendimiento de IBM Cloud.
- Escalabilidad: La GPU AMD Instinct MI300X, con sus 192 GB de memoria de gran ancho de banda, ha permitido un entrenamiento eficiente a gran escala, evitando la fragmentación costosa de expertos o tensores.
El futuro de la IA está en buenas manos (y GPUs)
En definitiva, AMD y Zyphra están demostrando que la innovación en el campo de la IA no se detiene. Con la potencia de las GPUs AMD Instinct™ MI300X y la visión de empresas como Zyphra, el futuro de la inteligencia artificial se presenta brillante y prometedor. Estaremos atentos a los próximos avances que nos deparen estas colaboraciones.