Proyecto de Inteligencia Artificial de fin de semana: Creación de un asistente visual para personas con baja visión | Escrito por Dmitry Ilyusev

Operación del modelo multimodal LLaVA, cámara y síntesis de voz.

Los grandes modelos multimedia (LMM) modernos pueden procesar no sólo texto, sino también diferentes tipos de datos. De hecho, “una imagen vale más que mil palabras” y esta función puede ser crucial al interactuar con el mundo real. Para este proyecto de fin de semana, usaré un programa gratuito. Lava modelo (una ayuda importante para el lenguaje y la visión), cámara y sintetizador de voz; Crearemos un asistente de IA que pueda ayudar a las personas con problemas de visión. De la misma manera que en las partes anteriores, todos los componentes se ejecutarán completamente fuera de línea y sin ningún costo en la nube.

Sin más preámbulos, ¡entremos en ello!

Elementos

En este proyecto usaré varios componentes:

a Lava Un modelo que combina un modelo de lenguaje grande y un codificador visual con la ayuda de una matriz de visualización especial. Esto permite que el modelo comprenda no solo el texto sino también las indicaciones de las imágenes. usaré LlamaCpp Biblioteca para ejecución de modelos (a pesar de su nombre, puede ejecutar no solo modelos LLaMA, sino también modelos LLaVA).
Arroyuelo Una biblioteca de Python que nos permite crear una interfaz de usuario interactiva. Usando la cámara, podemos capturar la imagen y hacerle al LMM diferentes preguntas sobre ella (por ejemplo, podemos pedirle al modelo que describa la imagen).
a Convertir texto a voz El modelo de texto a voz convertirá la respuesta LMM en voz, para que la persona con discapacidad visual pueda oírla. Para convertir texto, usaré Mensajería multimedia: texto a voz Modelo (texto a voz multilingüe a gran escala) producido por Facebook.

Como prometimos, todos los componentes incluidos son de uso gratuito, no necesitan ninguna API en la nube y pueden funcionar completamente sin conexión. Desde una perspectiva de hardware, el modelo puede ejecutarse en cualquier computadora portátil o tableta con Windows o Linux (se recomienda una GPU de 8 GB, pero no es obligatoria), y la interfaz de usuario puede ejecutarse en cualquier navegador, incluso en un teléfono inteligente.

Empecemos.

Lava

Lava (Large Vision and Language Assistant) es un gran módulo multimedia de código abierto que combina software de codificación de visión con una maestría en comprensión visual y lingüística. Como mencioné antes, usaré LlamaCpp Para descargar el formulario. este…

Vito Gil

“Troublemaker. Beer lover. Total alcohol aficionado. Subtly charming zombie addict. Lifelong Twitter ninja.”