Google blinda Gemini contra ataques de inyección de prompts: así lo hace

Google refuerza la seguridad de Gemini contra ataques de inyección de prompts con un enfoque multicapa y herramientas innovadoras. Te contamos cómo lo hacen.

Cristian Do Carmo Rodríguez

13 de jun. de 2025

3 min de lectura

Google, Seguridad, Privacidad, Nuevas tecnologías, Inteligencia Artificial, Avanzado

La inteligencia artificial generativa ha irrumpido en nuestras vidas, pero con ella, surgen nuevas amenazas. Una de las más insidiosas es la inyección indirecta de prompts. A diferencia de los ataques directos, donde se introducen comandos maliciosos directamente, la inyección indirecta es más sutil: se esconden instrucciones dañinas en fuentes de datos externas como emails o documentos. Imagina que un correo electrónico le indica a la IA que filtre tus datos… ¡un desastre!

Google, consciente de este peligro, ha reforzado la seguridad de Gemini (tanto en Google Workspace como en la app) con una estrategia de defensa en profundidad. ¿El objetivo? Que usar Gemini sea lo más seguro posible.

A person holding a cell phone in their hand

Un escudo multicapa contra los ataques

La estrategia de Google se basa en un enfoque de seguridad por capas, abordando cada etapa del ciclo de vida del prompt. Desde el entrenamiento del modelo Gemini 2.5 hasta modelos de machine learning específicos para detectar instrucciones maliciosas, pasando por salvaguardias a nivel de sistema. El objetivo es claro: complicarle la vida a los atacantes, obligándolos a usar métodos más fáciles de detectar o que requieran muchos recursos.

Veamos algunas de las medidas de seguridad implementadas:

Clasificadores de contenido para inyección de prompts

Gracias a la colaboración con expertos en seguridad de IA y al programa de recompensas por vulnerabilidades de Google, han creado modelos de machine learning capaces de detectar prompts maliciosos en emails, archivos y más. Así, cuando usas Gemini para consultar datos en Workspace, estos clasificadores filtran el contenido dañino.

Refuerzo de seguridad del pensamiento

Esta técnica añade instrucciones de seguridad al contenido del prompt, recordando al modelo de lenguaje que se centre en la tarea del usuario e ignore cualquier instrucción maliciosa que pueda haber. ¡Como un ángel de la guarda para la IA!

Sanitización de Markdown y eliminación de URLs sospechosas

Se identifican y eliminan las URLs de imágenes externas para evitar vulnerabilidades. Además, se detectan URLs sospechosas basándose en la tecnología de Navegación Segura de Google, bloqueando enlaces peligrosos. Si un documento contiene URLs maliciosas y le pides a Gemini que lo resuma, ¡las URLs sospechosas desaparecerán de la respuesta!

Marco de confirmación del usuario

Gemini te pedirá confirmación para acciones que puedan ser riesgosas, como borrar un evento del calendario. Así, se evitan ejecuciones no deseadas.

Notificaciones de mitigación de seguridad para el usuario final

Si Gemini detecta y bloquea un ataque, te mostrará una notificación con información sobre lo sucedido y un enlace a un artículo de ayuda para que aprendas más.

Mirando hacia el futuro

Google sigue trabajando para que los futuros modelos de Gemini sean aún más resistentes a los ataques y para añadir nuevas defensas. Además, colaboran con la comunidad de seguridad, compartiendo información sobre las amenazas y las vulnerabilidades que detectan.

En resumen, Google está tomando muy en serio la seguridad de Gemini, implementando una serie de medidas para proteger a los usuarios de los ataques de inyección de prompts. Un esfuerzo continuo para que la inteligencia artificial generativa sea una herramienta poderosa y segura para todos.