Investigadores de la Universidad Carnegie Mellon y Google DeepMind presentan AlignProp: un enfoque de IA basado en retropropagación directa para ajustar los modelos de propagación de texto a imagen para lograr la función de recompensa deseada
Los modelos de difusión probabilística se han convertido en el estándar establecido para el modelado generativo en dominios continuos. DALLE es líder en modelos de publicación de texto a imagen. Estos modelos han ganado popularidad por su capacidad para generar imágenes mediante el entrenamiento en conjuntos de datos a gran escala a escala web. El artículo analiza la reciente aparición de modelos de difusión de texto a imagen a la vanguardia de la generación de imágenes. Estos modelos se entrenan en conjuntos de datos de texto a imagen a gran escala no supervisados o débilmente supervisados. Sin embargo, debido a su naturaleza no supervisada, controlar su comportamiento en tareas posteriores, como mejorar la calidad de la imagen percibida por los humanos, alinear el texto de la imagen o generar imágenes éticas, es una tarea difícil.
Investigaciones recientes han intentado ajustar los modelos de difusión utilizando técnicas de aprendizaje por refuerzo, pero este enfoque es conocido por su gran variación en los estimadores de gradiente. En respuesta, el artículo presenta “AlignProp”, un método que alinea los modelos de propagación con las funciones de recompensa finales mediante la propagación hacia atrás de un extremo a otro del gradiente de recompensa durante el proceso de eliminación de ruido.
El innovador enfoque AlignProp alivia los altos requisitos de memoria típicamente asociados con la retropropagación con modelos modernos de texto a imagen. Esto se logra ajustando las unidades de peso del transformador de orden inferior e implementando puntos de control graduados.
El documento evalúa el desempeño de AlignProp en la optimización de modelos de publicaciones para diversos objetivos, incluida la alineación semántica del texto de la imagen, la estética, la compresibilidad de la imagen, la controlabilidad del número de objetos en las imágenes generadas, así como combinaciones de estos objetivos. Los resultados muestran que AlignProp supera a los métodos alternativos al lograr mayores recompensas en menos pasos de entrenamiento. Además, destaca por su simplicidad conceptual, lo que lo convierte en una opción sencilla para mejorar los modelos de difusión basados en funciones de recompensa de interés diferenciables.
El enfoque AlignProp utiliza los gradientes obtenidos de la función de recompensa con el fin de ajustar los modelos de difusión, lo que conduce a mejoras tanto en la eficiencia del muestreo como en la efectividad computacional. Los experimentos realizados demuestran consistentemente la efectividad de AlignProp para mejorar una amplia gama de funciones de recompensa, incluso para tareas que son difíciles de determinar únicamente a partir de indicaciones. En el futuro, las posibles direcciones de investigación podrían incluir la extensión de estos principios a modelos de lenguaje basados en la difusión, con el objetivo de mejorar su compatibilidad con la retroalimentación humana.
Comprobar el papel Y proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Tampoco olvides unirte. Tenemos más de 31k ML SubReddit, Más de 40.000 comunidades de Facebook, canal de discordia, Y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestro boletín.
También estamos en WhatsApp. Únete a nuestro canal de inteligencia artificial en WhatsApp.
Janhavi Lande se graduó en Ingeniería Física del IIT Guwahati, lote de 2023. Es una científica de datos prometedora y ha estado trabajando en el mundo de la investigación de IA/ML durante los últimos dos años. Lo que más le fascina es este mundo en constante cambio y su constante demanda de que los humanos se mantengan al día. Sus pasatiempos incluyen viajar, leer y escribir poemas.
“Defensor de la Web. Geek de la comida galardonado. Incapaz de escribir con guantes de boxeo puestos. Apasionado jugador”.