La adopción acelerada de asistentes y agentes basados en modelos de lenguaje ha abierto una superficie de ataque que los controles tradicionales no contemplaban. El prompt injection consiste en colar instrucciones maliciosas a través de contenido que el modelo interpreta como una orden. Entender este vector es hoy parte imprescindible de cualquier auditoría de seguridad de la IA.

Qué es el prompt injection

Un modelo de lenguaje no distingue de forma nativa entre las instrucciones legítimas del sistema y el texto que recibe como dato. El prompt injection aprovecha esa ambigüedad: introduce órdenes dentro del contenido que el modelo procesa, logrando que se desvíe de su cometido original.

Tipos de inyección

Inyección directa

El atacante interactúa con el sistema y escribe instrucciones que intentan anular o reescribir las reglas iniciales del modelo, por ejemplo pidiéndole que ignore sus restricciones o que revele su configuración.

Inyección indirecta

La más peligrosa en sistemas reales. Las instrucciones maliciosas se esconden en fuentes externas que el modelo consume: una página web, un documento, un correo o un campo de datos. El usuario legítimo no escribe nada dañino; el ataque viaja dentro del contenido que el sistema lee por él.

Por qué importa en agentes y sistemas con recuperación

Cuando un modelo deja de solo conversar y empieza a actuar — consultar documentos, llamar a herramientas, enviar mensajes o ejecutar tareas — una instrucción inyectada puede traducirse en acciones reales no autorizadas. El riesgo deja de ser teórico y pasa a tener consecuencias operativas.

Impactos más frecuentes

Fuga de información sensible o de datos de la configuración del sistema.
Ejecución de acciones no autorizadas a través de herramientas conectadas.
Manipulación de respuestas para engañar al usuario final.
Evasión de las políticas y los límites definidos para el modelo.

Cómo mitigar el riesgo

Separar instrucciones de datos

Tratar todo el contenido externo como no fiable y delimitarlo con claridad para que el sistema no lo confunda con órdenes. La frontera entre instrucción y dato debe ser explícita.

Mínimo privilegio en las acciones

Limitar lo que el sistema puede hacer y exigir confirmación humana para operaciones sensibles. Un agente que solo puede leer causa mucho menos daño que uno que puede escribir, pagar o enviar.

Validación y monitorización

Filtrar entradas y salidas, registrar la actividad y vigilar comportamientos anómalos permite detectar y contener los intentos de inyección antes de que escalen.

Auditoría y red teaming de IA

Igual que se auditan las aplicaciones tradicionales, los sistemas de IA necesitan pruebas ofensivas específicas. Un ejercicio de red teaming sobre el modelo y su entorno revela qué inyecciones funcionan y qué controles fallan, antes de que lo descubra un atacante.

Conclusión

El prompt injection no es una moda pasajera: es la expresión, en clave de IA, de un principio de seguridad de siempre — nunca confíes en la entrada. A medida que los modelos ganan capacidad de actuar, validar el contenido que consumen y limitar lo que pueden hacer se vuelve tan crítico como proteger cualquier otro sistema expuesto.

Prompt injection: el nuevo vector de ataque en sistemas de IA