Qué es el prompt injection

Un modelo de lenguaje no distingue de forma nativa entre las instrucciones legítimas del sistema y el texto que recibe como dato. El prompt injection aprovecha esa ambigüedad: introduce órdenes dentro del contenido que el modelo procesa, logrando que se desvíe de su cometido original.

Tipos de inyección

Inyección directa

El atacante interactúa con el sistema y escribe instrucciones que intentan anular o reescribir las reglas iniciales del modelo, por ejemplo pidiéndole que ignore sus restricciones o que revele su configuración.

Inyección indirecta

La más peligrosa en sistemas reales. Las instrucciones maliciosas se esconden en fuentes externas que el modelo consume: una página web, un documento, un correo o un campo de datos. El usuario legítimo no escribe nada dañino; el ataque viaja dentro del contenido que el sistema lee por él.

Por qué importa en agentes y sistemas con recuperación

Cuando un modelo deja de solo conversar y empieza a actuar — consultar documentos, llamar a herramientas, enviar mensajes o ejecutar tareas — una instrucción inyectada puede traducirse en acciones reales no autorizadas. El riesgo deja de ser teórico y pasa a tener consecuencias operativas.

Impactos más frecuentes

  • Fuga de información sensible o de datos de la configuración del sistema.
  • Ejecución de acciones no autorizadas a través de herramientas conectadas.
  • Manipulación de respuestas para engañar al usuario final.
  • Evasión de las políticas y los límites definidos para el modelo.

Cómo mitigar el riesgo

Separar instrucciones de datos

Tratar todo el contenido externo como no fiable y delimitarlo con claridad para que el sistema no lo confunda con órdenes. La frontera entre instrucción y dato debe ser explícita.

Mínimo privilegio en las acciones

Limitar lo que el sistema puede hacer y exigir confirmación humana para operaciones sensibles. Un agente que solo puede leer causa mucho menos daño que uno que puede escribir, pagar o enviar.

Validación y monitorización

Filtrar entradas y salidas, registrar la actividad y vigilar comportamientos anómalos permite detectar y contener los intentos de inyección antes de que escalen.

Auditoría y red teaming de IA

Igual que se auditan las aplicaciones tradicionales, los sistemas de IA necesitan pruebas ofensivas específicas. Un ejercicio de red teaming sobre el modelo y su entorno revela qué inyecciones funcionan y qué controles fallan, antes de que lo descubra un atacante.

Conclusión

El prompt injection no es una moda pasajera: es la expresión, en clave de IA, de un principio de seguridad de siempre — nunca confíes en la entrada. A medida que los modelos ganan capacidad de actuar, validar el contenido que consumen y limitar lo que pueden hacer se vuelve tan crítico como proteger cualquier otro sistema expuesto.