Preguntas y respuestas: Ayudar a los robots a identificar objetos en espacios concurridos
Ingeniería | Citas de expertos | Boletines | Buscar | tecnología
7 de febrero de 2024
Imagínese una taza de café sobre la mesa. Ahora, imagina un libro que oscurece parcialmente la taza. Como seres humanos, todavía sabemos qué es una taza de café aunque no podamos verlo todo. Pero el robot puede estar confundido.
Los robots en los almacenes e incluso en nuestros hogares tienen dificultades para reconocer y recoger objetos si están demasiado juntos o si el espacio está abarrotado. Esto se debe a que los robots carecen de lo que los psicólogos llaman “unidad de objeto”, o nuestra capacidad para identificar objetos incluso cuando no podemos verlos todos.
Investigadores de la Universidad de Washington han desarrollado una forma de enseñar a los robots esta habilidad. El método, llamado THOR para abreviar, permitió al robot de bajo costo identificar objetos (entre ellos una botella de mostaza, una lata de Pringles y una pelota de tenis) en un estante abarrotado. en artículo reciente El equipo, publicado en IEEE Transactions on Robotics, demostró que THOR superó a los modelos de última generación existentes.
UW News contactó al autor principal Ashis Banerjeeprofesor asociado de la Universidad de Wisconsin en los Departamentos de Ingeniería Industrial y de Sistemas y de Ingeniería Mecánica, para obtener detalles sobre cómo los robots identifican objetos y cómo funciona THOR.
¿Cómo perciben los robots su entorno?
Ashis Banerjee: Sentimos el mundo que nos rodea mediante la visión, el oído, el olfato, el gusto y el tacto. Los robots detectan su entorno mediante uno o más tipos de sensores. Los robots «ven» objetos utilizando cámaras en color estándar, cámaras estéreo o cámaras de profundidad más sofisticadas. Mientras que las cámaras estándar simplemente graban imágenes coloridas y texturizadas del entorno, las cámaras estéreo y las cámaras de profundidad también proporcionan información sobre la distancia a la que se encuentran los objetos, tal como lo hacen nuestros ojos.
Sin embargo, los sensores por sí solos no pueden permitir que los robots comprendan su entorno. Los robots necesitan un sistema de percepción visual, similar a la corteza visual del cerebro humano, para procesar imágenes y detectar dónde están todos los objetos, estimar sus direcciones, determinar qué objetos son y analizar cualquier texto escrito en ellos.
¿Por qué a los robots les resulta difícil reconocer objetos en lugares concurridos?
papá: Hay dos desafíos principales aquí. En primer lugar, es probable que haya una gran cantidad de objetos de diferentes formas y tamaños. Esto dificulta que el sistema de percepción del robot distinga entre diferentes tipos de objetos. En segundo lugar, cuando varios objetos están cerca uno del otro, obstruyen la visión de otros objetos. Los robots tienen problemas para reconocer objetos cuando no tienen una vista completa del objeto.
¿Existe algún tipo de objeto que sea especialmente difícil de reconocer en lugares concurridos?
papá: Mucho depende de los objetos presentes. Por ejemplo, es difícil reconocer objetos más pequeños cuando hay una variedad de tamaños. También es difícil distinguir entre objetos de formas similares o idénticas, como diferentes tipos de bolas o cajas. Se producen desafíos adicionales con objetos blandos o blandos que pueden cambiar de forma a medida que el robot recopila imágenes desde diferentes puntos estratégicos de la habitación.
Entonces, ¿cómo funciona THOR y por qué es mejor que los intentos anteriores de resolver este problema?
papá: Thor es en realidad una creación del autor principal. Ekta Samani, quien completó esta investigación como estudiante de doctorado en la Universidad de Wisconsin. La esencia de THOR es que permite al robot imitar la forma en que nosotros, como humanos, sabemos que las cosas parcialmente visibles no están rotas ni son cosas nuevas.
THOR hace esto usando las formas de los objetos en la escena para crear una representación 3D de cada objeto. A partir de ahí utiliza la topología, un área de las matemáticas que estudia la conexión entre diferentes partes de los objetos, para asignar cada objeto a la clase de objeto «más probable». Lo hace comparando su representación 3D con una biblioteca de representaciones almacenadas.
THOR no se basa en el entrenamiento de modelos de aprendizaje automático con imágenes de salas abarrotadas. Sólo necesita fotografías de cada uno de los diferentes objetos individualmente. THOR no requiere que el robot tenga sensores o procesadores costosos y especializados, y funciona bien con cámaras disponibles en el mercado.
Esto significa que THOR es extremadamente fácil de construir y, lo que es más importante, útil para espacios completamente nuevos con fondos, condiciones de iluminación, disposiciones de objetos y grados de desorden variados. También funciona mejor que los métodos de reconocimiento basados en formas 3D porque su representación 3D de objetos es más detallada, lo que ayuda en el reconocimiento de objetos en tiempo real.
¿Cómo se puede utilizar THOR?
papá: THOR se puede utilizar con cualquier robot de servicio interior, independientemente de si el robot está trabajando en la casa de alguien, una oficina, una tienda, un almacén o una planta de fabricación. De hecho, nuestra evaluación piloto muestra que THOR es igualmente eficaz para espacios tipo almacén, salones y salas familiares.
Si bien THOR funciona mucho mejor que otros métodos existentes para todo tipo de objetos en estos espacios desordenados, es mejor para identificar objetos estilo cocina, como una taza o una jarra, que generalmente tienen formas distintas pero regulares y variaciones de tamaño mediano.
¿Entonces que?
Hay muchas cuestiones adicionales que deben abordarse y estamos trabajando en algunas de ellas. Por ejemplo, actualmente THOR sólo tiene en cuenta la apariencia de los objetos, pero versiones futuras también podrían cuidar otros aspectos de la apariencia, como el color, la textura o las etiquetas de texto. También es útil considerar cómo se puede utilizar THOR para tratar objetos blandos o dañados, que tienen formas diferentes a las configuraciones esperadas.
Además, algunos espacios pueden estar tan llenos que algunos objetos pueden no ser visibles en absoluto. En estos escenarios, el robot debe poder decidir moverse para “ver” mejor los objetos o, si se le permite, moverse alrededor de algunos objetos para obtener una mejor vista de los objetos bloqueados.
Por último, pero no menos importante, el robot debe poder manipular objetos que nunca antes haya visto. En estos escenarios, el robot debe poder colocar estos objetos en una categoría de objetos «varios» o «desconocidos» y luego solicitar ayuda de un humano para identificarlos correctamente.
Esta investigación fue financiada en parte por un premio de investigación de Amazon.
Para obtener más información, comuníquese con Banerjee en [email protected].
Etiquetas: Ashis Banerjee • Facultad de Ingeniería • Departamento de Ingeniería Industrial y de Sistemas • Departamento de Ingeniería Mecánica