DiffusionGemma: la revolución de la generación de texto a velocidad supersónica

Descubre DiffusionGemma, el nuevo modelo de difusión que acelera la generación de texto hasta 4 × más rápido en GPUs dedicadas, ideal para flujos de trabajo locales y creativos.

Cristian Do Carmo Rodríguez

10 de jun. de 2026

2 min de lectura

Google, Nuevas tecnologías, Inteligencia Artificial, Avanzado

DiffusionGemma es un modelo experimental de 26 mil millones de parámetros, basado en la familia Gemma 4 y la investigación Gemini Diffusion. En lugar de producir tokens de forma secuencial, genera bloques enteros de texto (hasta 256 tokens) al mismo tiempo, lo que reduce dramáticamente el tiempo de inferencia en GPUs.

Velocidad y eficiencia

Hasta 4 × más rápido que los LLMs autoregresivos: más de 1000 tokens por segundo en una NVIDIA H100 y 700 en un RTX 5090.
Modelo MoE que activa solo 3.8 mil millones de parámetros durante la inferencia, lo que permite alojarse en GPUs con 18 GB de VRAM.
Optimizado con kernels NVFP4 (4 bits) para aprovechar el rendimiento de NVIDIA desde estaciones de trabajo de consumo hasta servidores de IA.

Photo by Mariia Shalabaieva / Unsplash

Diseñado para flujos de trabajo locales e interactivos

La arquitectura de difusión elimina el cuello de botella de memoria de los modelos autoregresivos. Como el modelo evalúa todo el bloque de texto de forma simultánea, puede refinar el propio resultado en cada pasada, corrigiendo errores a medida que avanza. Esto abre posibilidades para tareas donde la coherencia global es crucial.

Fine‑tuning y casos de uso

Debido a su arquitectura bidireccional, DiffusionGemma es particularmente útil para tareas con dependencias futuras, como resolver Sudoku. Un ejemplo de fine‑tuning con Unsloth demuestra cómo el modelo mejora en problemas que suelen costar a los LLMs tradicionales.

background pattern — Photo by Google DeepMind / Unsplash

Cómo empezar

Descarga los pesos de Hugging Face, sigue la guía de desarrolladores o el tutorial de fine‑tuning con Hackable Diffusion. También puedes emplearlo con vLLM, MLX, llama.cpp o la plataforma Gemma Enterprise Agent.

Limitaciones actuales

Debido a su enfoque en velocidad, la calidad de salida suele ser inferior a la de Gemma 4. Se recomienda usar el modelo estándar cuando se requiere máxima calidad.