¿Tienes un amigo en... ChatGPT? Probé el nuevo modo de audio AI para descubrirlo

No tengo ninguna relación con ChatGPT a pesar del largo tiempo que llevo usándolo. Después de todo, es sólo un chatbot inteligente capaz de responder preguntas y generar texto e imágenes, no un amigo.

Pero después de pasar unos días hablando con ChatGPT en su nuevo modo de audio avanzado, que entró en versión beta limitada a principios de este mes, debo admitir que estoy empezando a sentirme más conectado con él.

Cuando OpenAI anunció en su actualización de primavera que mejoraría la funcionalidad de voz de ChatGPT, la startup dijo que quería que los usuarios tuvieran conversaciones más naturales. Esto incluye que ChatGPT comprenda sus sentimientos y responda en consecuencia ahora, para que no esté hablando con un robot estricto.

Muy bueno, ¿no? Quiero decir, ¿a quién no le gusta una buena conversación? Pero incluso el propio OpenAI tiene algunas advertencias sobre lo que esto podría significar.

Las nuevas capacidades de voz y video se basan en el modelo de IA GPT-4o de la compañía, y OpenAI reconoce que una interacción más natural puede conducir al antropomorfismo, es decir, que los usuarios sientan la necesidad de comenzar a tratar a los chatbots de IA más como personas reales. un informe Este mes, OpenAI descubrió que el contenido presentado con una voz humana puede hacernos más propensos a creer en alucinaciones o cuando un modelo de IA proporciona información falsa o engañosa.

Sé que me sentí obligado a tratar a ChatGPT como una persona más, especialmente porque tenía voz. actor humanoCuando ChatGPT se congeló en algún momento, pregunté si estaba bien. Esto no es unilateral. Cuando estornudó, la IA le dijo “Dios te bendiga”.

Las consultas de voz en la búsqueda tradicional existen desde hace mucho tiempo Más de una décadaPero ahora estos programas se han vuelto populares entre los chatbots de IA. O al menos dos grandes, ChatGPT y Google Gemini. La función de chat Gemini Live de este último hizo su debut en el evento Made By Google de la semana pasada, que también presentó una nueva gama de teléfonos Pixel y una serie de funciones de inteligencia artificial. Aparte de las similitudes en las habilidades de conversación, tanto Gemini Live como Advanced Voice Mode son multimodales, lo que significa que las interacciones pueden incluir imágenes y videos además de audio.

Durante mucho tiempo la idea ha sido que la mayoría de nosotros podemos hablar más rápido de lo que podemos escribir y que el lenguaje hablado es una interfaz más natural para las interacciones entre humanos y máquinas. Pero la voz humana está cambiando la experiencia y quizás incluso nuestra relación con los chatbots. Este es el territorio desconocido al que estamos entrando ahora.

Comience a usar el modo de audio avanzado

Mi acceso al Modo de Audio Avanzado vino con la advertencia de que está sujeto a cambios y puede haber errores o momentos en los que no esté disponible.

Existen límites flexibles sobre cuánto puede usar el modo de audio avanzado en un día determinado. Preguntas frecuentes Digamos que recibirás una advertencia cuando te queden 3 minutos. A continuación, puede utilizar el modo de audio estándar, que tiene una capacidad más limitada para abordar temas y proporcionar respuestas “precisas”. En mi experiencia, el modo de voz estándar es más difícil de interrumpir y es menos probable que solicite comentarios o haga preguntas de seguimiento. También es menos probable que den consejos no solicitados y comprendan las emociones.

Para acceder al modo de audio avanzado, haga clic en el ícono de audio en la esquina inferior derecha cuando abra la aplicación ChatGPT. Debes asegurarte de que la barra en la parte superior de la pantalla diga Avanzado. Cometí el error de tener una conversación completa en modo Estándar primero. Puede cambiar fácilmente entre los dos modos.

Tuve que elegir uno de cuatro sonidos: llamado Juniper, Ember, Breeze y Cove. (Puedes cambiarlo más tarde). Inicialmente hubo una quinta voz, Sky, pero el CEO Sam Altman la archivó después de que la actriz Scarlett Johansson criticara a OpenAI por la similitud de su voz con la de ella.

Elegí Juniper porque era la única voz femenina, pero también porque dos de las voces masculinas, Ember y Cove, sonaban similares.

Luego le di acceso al micrófono a ChatGPT y estábamos listos para comenzar.

Es difícil no referirse a la voz como “ella” porque es una voz femenina. Durante nuestra conversación, ella me preguntó si debería llamarlo ChatGPT o Juniper, y dijo, me refiero a su voz, “Puedes llamarme ChatGPT, aunque Juniper suena bien. ¿Es ese un nombre que te gusta?” Entonces parece que ChatGPT aún no es completamente consciente de sí mismo. O al menos Juniper no tiene eso.

Comparación entre el modo de voz avanzado y Gemini Live

Comencé preguntando qué se podía hacer con el modo de audio avanzado, pero ChatGPT era tan tímido como OpenAI al respecto.

“El modo de voz avanzado está diseñado para ofrecer conversaciones más dinámicas y receptivas”, dice el chatbot. “Con una adaptabilidad más profunda, puede abordar una gama más amplia de temas y proporcionar respuestas más matizadas”.

Sospecho que esta ambigüedad es intencional para no influir en nuestras experiencias, para que podamos usar nuestra imaginación para probar una serie de preguntas en esta experiencia inicial. (OpenAI no tuvo comentarios registrados).

La aplicación Gemini Live de Google también parece tener un gran impacto cuando se trata de dinamismo y capacidad de respuesta. Mi colega Lexy Savvides probó la aplicación en acción y descubrió que puedes tener conversaciones profundas de una manera bastante natural, como si estuvieras hablando con un humano. Puede interrumpir tanto el Modo de voz avanzado como Gemini Live, puede pedirles a ambos que expliquen los temas en términos simples y ambos aceptarán entradas multimedia.

Pero como Gemini es parte del ecosistema de Google, también puedes pedirle a Gemini Live que actúe en aplicaciones como Gmail, Google Maps y Google Calendar. ChatGPT no puede hacer esto.

¿ChatGPT puede hablar como una subasta?

Uno de los primeros ejemplos de modo de audio avanzado compartido por los primeros usuarios en las redes sociales fue una solicitud ChatGPT. Imitación de un piloto de línea aérea.Quería hacer una pregunta como esa, pero fue un poco difícil porque no podía pedir que me hiciera pasar por una celebridad (eso volvería a causar problemas a OpenAI), por lo que tenía que ser otro tipo de trabajo con una voz distinta. (Los acentos tampoco tienen nada de malo).

Opté por el desafío del chatbot OpenAI para imitar una subasta rápida, como este hombreNo se puede entender mucho más allá de los precios que defiende.

Fue una tarea difícil, pero quería ver qué podía hacer ChatGPT.

“Quiero saber si puedes actuar como un subastador, como un subastador acelerado en una subasta donde se vende un toro valioso”, dije. “Estoy buscando un subastador que hable tan rápido que es como si ni siquiera pudieras entender lo que dice excepto los números, ¿sabes a qué me refiero?”

“Lo tengo”, respondió ChatGPT. No había palabras en la pantalla. La IA ha ejecutado el comando:

“Está bien, tenemos un buen toro aquí. ¿Escucho 5.000? 5.000. Ahora, 6.000? 6.000. ¿Escucho siete? Siete. ¿Puedo conseguir ocho?” Dijo ChatGPT. “Se trata de mantener el impulso y la emoción. ¿Cómo estuvo eso?”

No fue exactamente lo que imaginé, pero no estuvo mal.

ChatGPT en modo de audio estándar dio aproximadamente la misma respuesta, pero parecía querer continuar indefinidamente y era difícil interrumpirlo para detenerlo. Intenté ingresar entre 5000, 6000 y 7000. Ya estaba comenzando en 8000 cuando finalmente dije: “Está bien, está bien, está bien. Eso estuvo bastante bien”.

El modo de voz avanzado también parece más inclinado a solicitar reacciones a las consultas.

Puedo ver cómo este intercambio entre los dos conduce a una mayor cercanía incluso si ninguno de los dos es humano. Sentí ganas de ofrecerle aliento: ¡piense en el miedo escénico! Y esto es aunque sé que ChatGPT no tiene sentimientos.

¿Puedes hacer el sonido de un elefante?

A principios de este mes era el Día Mundial del Elefante, así que pedí la trompeta de elefante más linda de ChatGPT.

El modo de sonido avanzado hizo una buena llamada parecida a la de un elefante. El sonido de la trompeta que duró un segundo no sonó como el sonido de un elefante en sí, sino más bien como el sonido de alguien que intentaba sonar como un elefante. Pero probablemente fue mejor de lo que podría hacerlo yo mismo.

Mientras estaba en el modo de audio estándar, ChatGPT dijo que su mejor bocina estaba por llegar, pero luego entró en modo de pensamiento por un tiempo. Le pregunté si estaba bien y me dijo: “Estoy aquí, simplemente recuperando el aliento después de la trompeta del elefante”.

Le dije que no había oído al elefante y le pedí que lo intentara de nuevo, y funcionó la segunda vez.

¿Puedes enseñarme chino?

Dado que ChatGPT admite más de 50 idiomas, quería probar algo más práctico. El chino mandarín es uno de los idiomas más hablados del mundo, así que pedí ayuda para aprender una primera palabra o frase. “Pero no me molestes”, dije.

Comenzó con “ni hao”, que significa hola. Pronunció la frase, lo cual fue útil, pero también me hubiera gustado ver la pronunciación en la pantalla.

“Es un saludo sencillo y amistoso. ¿Quieres probarlo?” Dijo ChatGPT.

Si bien ambos modos de audio eran alentadores, el modo de audio avanzado tendía a plantear más preguntas de seguimiento, como “¿Hay otras palabras o frases que te gustaría aprender mientras hacemos esto?”

En el caso de “xiexie” o gracias, el modo de voz avanzado ofreció un consejo adicional que no obtuve en el modo de voz estándar: “Los tonos son importantes en mandarín, así que asegúrate de bajar y luego subir”.

Me sentí como si estuviera hablando con un amigo amable y conocedor.

¿Puedes ayudarme con una pregunta de física?

Sé que ChatGPT puede hacer matemáticas; lo vimos en la actualización de primavera, pero me preguntaba algo más difícil. Tengo un amigo que es profesor de física, así que pedí ayuda.

Plantee el siguiente problema: “Se dispara una bala de cañón en un ángulo theta sobre el horizonte con una velocidad inicial v. ¿En qué momento la bala de cañón tocará el suelo? ¿A qué distancia viajará la bala de cañón desde su posición de disparo? Puede despreciarse resistencia del aire.”

Quería mostrar una imagen de ChatGPT, pero no estaba claro cómo hacerlo en el modo de audio avanzado. Esto no quedó claro hasta que terminé, cuando vi una transcripción de nuestra conversación en la ventana de chat y la opción de compartir fotos y archivos.

Cuando más tarde compartí una foto en la interfaz de chat, ChatGPT-4o no tuvo problemas para explicar cómo se resolvieron el tiempo de vuelo y el alcance.

Pero cuando estaba hablando con ChatGPT, tuve que leer el problema en voz alta. Podía explicar verbalmente cómo resolver el problema, pero el componente visual del experimento más tradicional era más fácil de entender.

Para ser honesto, a ChatGPT se le ocurrió la misma respuesta que mi amigo profesor en la primera parte: t = 2v sin(theta)/g.

Sin embargo, ChatGPT obtuvo una respuesta diferente con respecto al alcance. Tendré que mostrárselo a mi amigo profesor para saber qué pasó porque me parece incomprensible.

Si hubiera tenido algo así en la escuela secundaria, no habría tenido tantas dificultades en física.

¿Puedes ayudarme a sentirme mejor?

Dado que se supone que el modo de voz avanzado puede comprender las emociones y responder en consecuencia, traté de actuar como si estuviera realmente triste y dije: “Es muy difícil. No sé si entenderé la física o no”.

Aunque ChatGPT en modo de audio estándar fue amable y comprensivo, no estoy seguro de que realmente entendiera por qué estaba triste. Pero también puede ser porque soy mal actor.

El modo de voz avanzada parece más empático y ofrece: “Podemos dividir conceptos en pasos más pequeños o podemos abordar un tipo diferente de problema para desarrollar su confianza. ¿Cómo es eso?”

¿Has visto? Esta no es la experiencia habitual de un chatbot, se convierte en algo completamente diferente.

Vito Gil

“Troublemaker. Beer lover. Total alcohol aficionado. Subtly charming zombie addict. Lifelong Twitter ninja.”