DiffusionGemma es un modelo experimental de 26 mil millones de parámetros, basado en la familia Gemma 4 y la investigación Gemini Diffusion. En lugar de producir tokens de forma secuencial, genera bloques enteros de texto (hasta 256 tokens) al mismo tiempo, lo que reduce dramáticamente el tiempo de inferencia en GPUs.
Velocidad y eficiencia
- Hasta 4 × más rápido que los LLMs autoregresivos: más de 1000 tokens por segundo en una NVIDIA H100 y 700 en un RTX 5090.
- Modelo MoE que activa solo 3.8 mil millones de parámetros durante la inferencia, lo que permite alojarse en GPUs con 18 GB de VRAM.
- Optimizado con kernels NVFP4 (4 bits) para aprovechar el rendimiento de NVIDIA desde estaciones de trabajo de consumo hasta servidores de IA.
Diseñado para flujos de trabajo locales e interactivos
La arquitectura de difusión elimina el cuello de botella de memoria de los modelos autoregresivos. Como el modelo evalúa todo el bloque de texto de forma simultánea, puede refinar el propio resultado en cada pasada, corrigiendo errores a medida que avanza. Esto abre posibilidades para tareas donde la coherencia global es crucial.
Fine‑tuning y casos de uso
Debido a su arquitectura bidireccional, DiffusionGemma es particularmente útil para tareas con dependencias futuras, como resolver Sudoku. Un ejemplo de fine‑tuning con Unsloth demuestra cómo el modelo mejora en problemas que suelen costar a los LLMs tradicionales.
Cómo empezar
Descarga los pesos de Hugging Face, sigue la guía de desarrolladores o el tutorial de fine‑tuning con Hackable Diffusion. También puedes emplearlo con vLLM, MLX, llama.cpp o la plataforma Gemma Enterprise Agent.
Limitaciones actuales
Debido a su enfoque en velocidad, la calidad de salida suele ser inferior a la de Gemma 4. Se recomienda usar el modelo estándar cuando se requiere máxima calidad.