Vigil: un escáner de seguridad LLM de código abierto
Vigil es un escáner de seguridad de código abierto que detecta inyecciones puntuales, jailbreaks y otras amenazas potenciales a modelos de lenguaje grandes (LLM).
La inyección instantánea surge cuando un atacante logra afectar el LLM utilizando una entrada especialmente diseñada. Esto hace que LLM ejecute sin darse cuenta objetivos especificados por el atacante.
“Estaba realmente entusiasmado con las posibilidades para los titulares de un título de LLM, pero también noté la necesidad de mejores prácticas de seguridad en torno a las aplicaciones creadas alrededor de ellas y los datos a los que damos acceso a las aplicaciones. Este proyecto me brindó una gran oportunidad de crear algo que combine IA y ciberseguridad. Esperamos que esto proporcione a los investigadores y desarrolladores “Otros en el campo de la seguridad están comenzando a experimentar con las medidas de integridad de entrada y salida existentes de LLM, e incluso creando las suyas propias. “Lo que es posible” es más que cualquier cosa que esperaría. utilizarse directamente en la producción”, afirmó Adam M. Swanda, creadora de Vigil, para Help Net Security.
Aspectos destacados del escáner de seguridad Vigil LLM
- Diseño modular y ampliable
- Admite YARA (inferencia), similitud de bases de datos vectoriales, modelo de transformador y similitud QR
- Se pueden agregar escáneres personalizados usando un pequeño código
- Autohospedado o use OpenAI
- Se proporcionan conjuntos de datos integrados y firmas YARA.
- Vector DB puede actualizarse automáticamente con mensajes detectados cuando el umbral del escáner coincide
- Altamente configurable (habilitar/deshabilitar escáneres, ajustar umbrales, usar diferentes modelos de integración, etc.)
- Se puede ampliar fácilmente agregando escáneres personalizados, nuevas firmas YARA o actualizando la base de datos de vectores.
La vigilia está disponible para descargar en github. Este repositorio también proporciona las firmas de detección y los conjuntos de datos necesarios para iniciar el autohospedaje.
Swanda planea continuar desarrollando Vigil en el corto plazo. Específicamente, estaba trabajando en una aplicación diseñada para evaluar Vigil y sus diversos escáneres frente a conjuntos de datos personalizados. Esta aplicación evalúa aspectos como falsos positivos y otras métricas relevantes. Además, Swanda está explorando métodos para la detección de inyecciones puntuales basadas en imágenes.
Más herramientas de código abierto a considerar:
“Alborotador. Amante de la cerveza. Total aficionado al alcohol. Sutilmente encantador adicto a los zombis. Ninja de twitter de toda la vida”.