Extinción de incendios mediante IA con ML Firepower
“Los modelos generativos profundos modernos a menudo producen resultados no deseados, como texto ofensivo, imágenes dañinas o discurso inventado, y no existe una forma confiable de controlarlos”, dijo Zifeng Kong, estudiante de doctorado en el Departamento de Ingeniería y Ciencias de la Computación y autor principal del estudio: “El artículo trata sobre cómo evitar técnicamente que esto suceda”.
“El principal aporte de este trabajo es formalizar qué y cómo pensar sobre este problema “Enmarquelo adecuadamente para que pueda resolverse”, dijo la profesora de informática Kamalika Chaudhuri.
Una nueva forma de extinguir el contenido nocivo
Los métodos de mitigación tradicionales han adoptado uno de dos enfoques. El primer método consiste en volver a entrenar el modelo desde cero utilizando un conjunto de entrenamiento que excluya todas las muestras no deseadas; Una alternativa es aplicar un clasificador que filtre los resultados no deseados o edite los resultados después de crear el contenido.
Estas soluciones tienen ciertas limitaciones para la mayoría de los modelos grandes modernos. Además de ser costosos (requieren millones de dólares para volver a entrenar desde cero los modelos de toda la industria), estos métodos de mitigación son computacionalmente pesados y no hay forma de controlar si terceros implementan los filtros o herramientas de edición disponibles una vez que tienen el código fuente. Además, es posible que no resuelvan el problema: a veces aparecen resultados no deseados, como imágenes con artefactos artificiales, aunque no estén presentes en los datos de entrenamiento.
“Alborotador. Amante de la cerveza. Total aficionado al alcohol. Sutilmente encantador adicto a los zombis. Ninja de twitter de toda la vida”.