Cómo Microsoft hizo la cámara inteligente Surface
Stephen Bathish, que supervisa todas las innovaciones de hardware para los dispositivos de Microsoft, explica en una entrevista con el borde. la sorpresa de microsoft $ 799.99 para la cámara inteligente Surface Hub 2 Debutó la semana pasada y ofrece reencuadre automático sin la distorsión que normalmente se ve en otras cámaras de salas de conferencias.
Puede detectar rostros y cuerpos, tratando de asegurarse de que todos en la sala sean visibles durante las reuniones, ya sea que estén cerca de la cámara o a ocho metros de distancia. La cámara inteligente de Surface Hub 2 puede ver casi toda una sala de conferencias gracias a su campo de visión de 136 grados, que mantiene enfocadas a las personas en el frente junto con las de atrás.
Microsoft siempre había planeado actualizar su cámara Surface Hub 2 antes de que la pandemia pusiera el foco en las reuniones híbridas, por lo que son modulares y se pueden separar de la parte superior de las pantallas de 55 u 85 pulgadas. «Sabíamos que íbamos a evolucionar la experiencia. No sabíamos exactamente cómo, pero sabíamos que eso iba a cambiar y que debía cambiar de acuerdo con las necesidades de las personas, la evolución de la sala de reuniones e incluso cómo nuestra cultura básicamente cambiaría». adaptarse a las reuniones”, dice Patich.
Los dispositivos grandes como el Surface Hub 2 de 85 pulgadas presentaron desafíos para capturar fotos de todos en la sala de conferencias con una cámara tradicional. “Necesitábamos una cámara para las salas más grandes”, dice Pathici, por lo que Microsoft se puso a trabajar.
Bathish y su equipo crearon la óptica, el modelo de inteligencia artificial y la computadora perimetral propios de Microsoft para acceder a la cámara inteligente de Surface Hub 2 y potenciar las imágenes computacionales. «Tiene computación integrada, 1 teraflop de computación que básicamente comprende un gran modelo de IA que hemos construido», dice Bathish. «Tiene una aplicación de encuadre automático y está en la cámara, por lo que lo que muestra es solo una imagen 4K, por lo que literalmente parece una cámara web Surface Hub».
Esto significa que todo el trabajo de IA se realiza en la propia cámara, nunca se envía a la nube o incluso por cable a Surface Hub 2 para su procesamiento. La cámara ejecuta un modelo de IA, procesa todos los datos y toma la decisión de recortar la imagen en consecuencia. Si bien Auto Frame puede capturar automáticamente a todos en la habitación, la cámara inteligente también utilizará la compensación de inclinación para ajustar la imagen a la posición de la cámara y crear un contacto visual más natural. También es capaz de eliminar el efecto ojo de pez de los lentes gran angular para que las personas no aparezcan distorsionadas o estiradas dentro de las salas de reuniones.
«Diseñamos 11 elementos, una lente completamente de vidrio con un enfoque muy nítido y esencialmente cerca de los límites de refracción», explica Pathich. Detrás de la lente hay un sensor de 12MP (4000 x 3000) con apertura f/1.8 que genera una imagen recortada de 4K. «La lente real es un campo de visión de 184 grados, por lo que la cámara puede mirar hacia atrás».
Todos estos dispositivos no son nada sin los modelos de inteligencia artificial que alimentan la cámara inteligente de superficie. Microsoft inició este proyecto antes de la pandemia, pero tuvo que entrenar sus propios modelos de IA Durante La pandemia, que planteó retos evidentes de llenar de gente las salas de reuniones.
“Fuimos a Nueva Zelanda porque no tenían ningún caso de COVID-19 y tenemos oficinas allí”, explica Bathishi. «Contratamos actores y actrices para realizar la recopilación de datos en todo tipo de habitaciones. Nuestro conjunto de datos es muy grande».
Microsoft entrenó su modelo de IA en caras y cuerpos para asegurarse de que sea completamente integral y detecte a las personas que no siempre están frente a la cámara. Incluso ha utilizado personas y rostros artificiales para mejorar su versatilidad en situaciones y personas. «Tenemos una tecnología interna realmente genial que puede generar datos sintéticos, por lo que pudimos crear personas y rostros artificiales», agrega Pathici.
Sin embargo, la cámara inteligente no está entrenada para detectar mascotas o animales. Eso debería significar que no intentará replantear automáticamente la reunión si aparece un gato o un perro en la oficina. Microsoft también ha aplicado Principios responsables de la IA Para este proyecto, que incluye un comité y un conjunto de herramientas para garantizar la equidad y la inclusión de la IA.
“Si observa nuestro conjunto de datos, encontrará que es absolutamente sorprendente en todos los ámbitos en términos de disparidad entre los diferentes grupos: raza, género, color de piel, peinados, etc.”, explica Pathici. «Creo que una de las cosas que está integrada en la cámara y que la gente quizás no vea en la caja es la fuerza y la inclusión del modelo».
Pathich dice que Microsoft «se sentó allí y estructuró» las capacidades de encuadre automático de su cámara inteligente durante el año pasado para asegurarse de que no sea demasiado rápido o demasiado lento para perder contenido. «Cada cuadro que obtiene la cámara decide si vale la pena mover la imagen o volver a recortarla».
Quizás se pregunte si puede usar esta cámara de $ 799.99 en una PC con Windows normal, pero no es tan simple. Si bien todos los modelos informáticos y de inteligencia artificial están alojados dentro de la cámara inteligente Surface Hub 2, en realidad no está diseñada para ser una cámara web normal. «Su objetivo de diseño fue el Hub. La altura, los ángulos y la IA se diseñaron para muchas personas cercanas y lejanas”, dice Bathyci. «Aunque técnicamente se puede diseñar un soporte y conectarlo a una computadora, no creo que sea funcionará tan bien como quieras.
Esta no es la primera vez que Microsoft también se enfoca en mejorar las cámaras web y las cámaras. Surface Pro X ya tiene un archivo Función de contacto visual impulsada por IA Hace que parezca que siempre estás haciendo contacto visual sin importar lo que estés mirando durante una videollamada. Apple agregó FaceTime Attention Correction a iOS 13. “Algoritmos que usamos para el contacto visual [for the Surface Pro X] Son los mismos algoritmos para las caras que usamos dentro de esta cámara”, dice Bathychi.
Aparentemente, Microsoft construyó esta cámara inteligente para Surface Hub 2, pero con los rumores persistentes sobre las cámaras web de la marca Surface, es posible que algún día veamos una poderosa cámara web de Microsoft en lugar de Los asequibles están disponibles hoy. “Esta área de usar la computación para unir a las personas y hacer que se sientan como si estuvieran en la misma habitación… Creo que es algo que siempre nos ha apasionado y nos seguirá apasionando, y continuaremos desarrolla como ves en Surface Pro X”, dice Pathici.