Qué es el prompt injection
Un modelo de lenguaje no distingue de forma nativa entre las instrucciones legítimas del sistema y el texto que recibe como dato. El prompt injection aprovecha esa ambigüedad: introduce órdenes dentro del contenido que el modelo procesa, logrando que se desvíe de su cometido original.
Tipos de inyección
Inyección directa
El atacante interactúa con el sistema y escribe instrucciones que intentan anular o reescribir las reglas iniciales del modelo, por ejemplo pidiéndole que ignore sus restricciones o que revele su configuración.
Inyección indirecta
La más peligrosa en sistemas reales. Las instrucciones maliciosas se esconden en fuentes externas que el modelo consume: una página web, un documento, un correo o un campo de datos. El usuario legítimo no escribe nada dañino; el ataque viaja dentro del contenido que el sistema lee por él.
Por qué importa en agentes y sistemas con recuperación
Cuando un modelo deja de solo conversar y empieza a actuar — consultar documentos, llamar a herramientas, enviar mensajes o ejecutar tareas — una instrucción inyectada puede traducirse en acciones reales no autorizadas. El riesgo deja de ser teórico y pasa a tener consecuencias operativas.
Impactos más frecuentes
- Fuga de información sensible o de datos de la configuración del sistema.
- Ejecución de acciones no autorizadas a través de herramientas conectadas.
- Manipulación de respuestas para engañar al usuario final.
- Evasión de las políticas y los límites definidos para el modelo.
Cómo mitigar el riesgo
Separar instrucciones de datos
Tratar todo el contenido externo como no fiable y delimitarlo con claridad para que el sistema no lo confunda con órdenes. La frontera entre instrucción y dato debe ser explícita.
Mínimo privilegio en las acciones
Limitar lo que el sistema puede hacer y exigir confirmación humana para operaciones sensibles. Un agente que solo puede leer causa mucho menos daño que uno que puede escribir, pagar o enviar.
Validación y monitorización
Filtrar entradas y salidas, registrar la actividad y vigilar comportamientos anómalos permite detectar y contener los intentos de inyección antes de que escalen.
Auditoría y red teaming de IA
Igual que se auditan las aplicaciones tradicionales, los sistemas de IA necesitan pruebas ofensivas específicas. Un ejercicio de red teaming sobre el modelo y su entorno revela qué inyecciones funcionan y qué controles fallan, antes de que lo descubra un atacante.
Conclusión
El prompt injection no es una moda pasajera: es la expresión, en clave de IA, de un principio de seguridad de siempre — nunca confíes en la entrada. A medida que los modelos ganan capacidad de actuar, validar el contenido que consumen y limitar lo que pueden hacer se vuelve tan crítico como proteger cualquier otro sistema expuesto.

