Gemma 4 Optimizado con QAT: Modelos IA más eficientes para dispositivos móviles

Google anuncia nuevas versiones de Gemma 4 optimizadas con QAT, reduciendo memoria en un 75% y permitiendo ejecutar modelos en dispositivos locales y GPUs de consumo.

Cristian Do Carmo Rodríguez
5 de jun. de 2026
2 min de lectura
GoogleAvanzadoNuevas tecnologíasInteligencia Artificial
Photo by Google DeepMind / Unsplash

Google DeepMind ha anunciado una actualización clave en su familia de modelos Gemma 4, introduciendo optimizaciones con Quantization-Aware Training (QAT) que marcan un antes y después en la eficiencia de ejecución local. Esta evolución viene tras la introducción reciente de Multi-Token Prediction (MTP) y el modelo de 12B parámetros, reforzando el compromiso de Google con la accesibilidad de modelos de inteligencia artificial de gran tamaño.

Reducción de memoria sin perder calidad

La técnica de cuantificación es fundamental para ejecutar modelos masivos en hardware de consumo, pero la cuantificación post-entrenamiento (PTQ) tradicional suele provocar pérdidas de rendimiento. La nueva QAT integra el proceso de cuantificación directamente en el entrenamiento, preservando la calidad mientras reduce drásticamente los requisitos de memoria:

  • Gemma 4 E2B pasa de requerir varios GB a menos de 1 GB con el formato móvil especializado
  • Reducción del 75% en requisitos de VRAM en comparación con versiones anteriores
  • Mejor calidad que las soluciones PTQ tradicionales
a group of computer servers
Photo by Google DeepMind / Unsplash

Innovaciones técnicas para móviles

La optimización para dispositivos móviles incluye avances significativos:

Activaciones estáticas

Se precalculan los parámetros de escalado durante el entrenamiento, reduciendo la carga de trabajo en los chips móviles y acelerando las respuestas.

Cuantización por canales y compresión selectiva

Se aplica una compresión diferenciada: capas críticas de razonamiento mantienen mayor precisión, mientras que componentes de generación de tokens se comprimen hasta en un 50% con cuantización de 2 bits.

Ecosistema de integración ampliado

Google ha colaborado con herramientas del ecosistema para facilitar la adopción:

  • Hugging Face: Pesos disponibles en formatos GGUF para llama.cpp y tensores comprimidos para vLLM
  • Escritorio: Compatibilidad con Ollama, LM Studio y otras interfaces amigables
  • Dispositivos Edge: Soporte para LiteRT-LM y Transformers.js
  • Desarrollo: Fine-tuning con Hugging Face Transformers y Unsloth
a black and white image of a tree with many small white lights
Photo by Resource Database / Unsplash

Impacto en la democratización de la IA

Esta optimización permite que modelos como Gemma 4 E2B funcionen en hardware de gama media, acercando la IA generativa de alta calidad a desarrolladores independientes y usuarios finales. La combinación de eficiencia y calidad establece un nuevo estándar para la implementación local de modelos industriales.

Los checkpoints QAT están disponibles ahora mismo en Hugging Face, listos para integrarse en flujos de trabajo existentes. Esta liberación refuerza la apuesta de Google por la transparencia y la accesibilidad en el ecosistema de inteligencia artificial.