Vigil: un escáner de seguridad LLM de código abierto

Vigil es un escáner de seguridad de código abierto que detecta inyecciones puntuales, jailbreaks y otras amenazas potenciales a modelos de lenguaje grandes (LLM).

La inyección instantánea surge cuando un atacante logra afectar el LLM utilizando una entrada especialmente diseñada. Esto hace que LLM ejecute sin darse cuenta objetivos especificados por el atacante.

Escáner de seguridad LLM

«Estaba realmente entusiasmado con las posibilidades para los titulares de un título de LLM, pero también noté la necesidad de mejores prácticas de seguridad en torno a las aplicaciones creadas alrededor de ellas y los datos a los que damos acceso a las aplicaciones. Este proyecto me brindó una gran oportunidad de crear algo que combine IA y ciberseguridad. Esperamos que esto proporcione a los investigadores y desarrolladores «Otros en el campo de la seguridad están comenzando a experimentar con las medidas de integridad de entrada y salida existentes de LLM, e incluso creando las suyas propias. «Lo que es posible» es más que cualquier cosa que esperaría. utilizarse directamente en la producción», afirmó Adam M. Swanda, creadora de Vigil, para Help Net Security.

Aspectos destacados del escáner de seguridad Vigil LLM

Diseño modular y ampliable
Admite YARA (inferencia), similitud de bases de datos vectoriales, modelo de transformador y similitud QR
Se pueden agregar escáneres personalizados usando un pequeño código
Autohospedado o use OpenAI
Se proporcionan conjuntos de datos integrados y firmas YARA.
Vector DB puede actualizarse automáticamente con mensajes detectados cuando el umbral del escáner coincide
Altamente configurable (habilitar/deshabilitar escáneres, ajustar umbrales, usar diferentes modelos de integración, etc.)
Se puede ampliar fácilmente agregando escáneres personalizados, nuevas firmas YARA o actualizando la base de datos de vectores.

La vigilia está disponible para descargar en github. Este repositorio también proporciona las firmas de detección y los conjuntos de datos necesarios para iniciar el autohospedaje.

Swanda planea continuar desarrollando Vigil en el corto plazo. Específicamente, estaba trabajando en una aplicación diseñada para evaluar Vigil y sus diversos escáneres frente a conjuntos de datos personalizados. Esta aplicación evalúa aspectos como falsos positivos y otras métricas relevantes. Además, Swanda está explorando métodos para la detección de inyecciones puntuales basadas en imágenes.

Más herramientas de código abierto a considerar:

Vigil: un escáner de seguridad LLM de código abierto

Aspectos destacados del escáner de seguridad Vigil LLM

Vito Gil

Leave A Comment Cancelar la respuesta

Entradas recientes

Páginas