“The King is Dead”: Cloud 3 vence a GPT-4 en Chatbot Arena por primera vez

Dos robots de juguete peleando, uno le arranca la cabeza al otro.

El martes, el modelo de lenguaje grande (LLM) Claude 3 Opus de Anthropic superó al modelo GPT-4 de OpenAI (que impulsa ChatGPT) por primera vez en Chatbot Arena, un popular sitio de fans. Tablas de clasificación Los investigadores de IA lo utilizan para medir las capacidades relativas de los modelos de lenguaje de IA. «El rey esta muerto,» chirrido El desarrollador de software Nick Dobos en una publicación que compara GPT-4 Turbo y Claude 3 Opus que ha estado circulando en las redes sociales. «Extraer GPT-4».

Desde que GPT-4 se incluyó en Chatbot Arena Alrededor del 10 de mayo de 2023 (La tabla de clasificación ha sido lanzada 3 de mayo Ese año), las versiones de GPT-4 han estado consistentemente en la cima de la lista hasta el momento, por lo que su derrota en la arena es un momento notable en la historia relativamente corta de los modelos de lenguaje de IA. Uno de los modelos más pequeños de Anthropic, Haiku, también llamó la atención con su desempeño en la clasificación.

«Por primera vez, los mejores modelos disponibles (Opus para tareas avanzadas, Haiku para costo y eficiencia) provienen de un proveedor distinto de OpenAI», dijo a Ars Technica el investigador independiente de IA Simon Willison. «Esto es tranquilizador: todos nos beneficiamos de la diversidad de los principales proveedores en este espacio. Pero GPT-4 tiene más de un año en este momento, y fue necesario ese año para que alguien más se pusiera al día».

Acercarse / Captura de pantalla de la clasificación de LMSYS Chatbot Arena que muestra a Claude 3 Opus a la cabeza contra GPT-4 Turbo, actualizada el 26 de marzo de 2024.

Bing Edwards

Chatbot Arena está gestionado Organización de sistemas de modelos grandes (LMSYS ORG), una organización de investigación dedicada a modelos abiertos que opera como una colaboración entre estudiantes y profesores de la Universidad de California, Berkeley, la Universidad de California, San Diego y la Universidad Carnegie Mellon.

Describimos cómo funciona el sitio en diciembre, pero en resumen, Chatbot Arena presenta al usuario que visita el sitio web un cuadro de entrada de chat y dos ventanas que muestran el resultado de dos MBA sin nombre. La tarea del usuario es evaluar qué resultado es mejor basándose en los criterios que el usuario considere más apropiado. A través de miles de estas comparaciones personalizadas, Chatbot Arena calcula los «mejores» modelos en general, completa la tabla de clasificación y la actualiza con el tiempo.

Chatbot Square es Importante para los investigadores Porque a menudo se sienten frustrados al intentar medir el rendimiento de los chatbots de IA, cuyos resultados tan variados son difíciles de medir. De hecho, escribimos sobre lo difícil que es medir objetivamente un título de maestría en nuestro artículo de noticias sobre el lanzamiento de Cloud 3. Para esta historia, Willison enfatizó el importante papel de los «sentimientos», o sentimientos subjetivos, en la determinación de la calidad de la maestría. trabajar. Maestría. «Es otro caso en el que la emoción es un concepto clave en la IA moderna», afirmó.

Una captura de pantalla de Chatbot Arena el 27 de marzo de 2024 que muestra el resultado de dos spam de LLM que fueron descartados. "¿Se le dará un nombre al color? — Acercarse / Una captura de pantalla del Chatbot Arena el 27 de marzo de 2024 que muestra el resultado de dos spam de LLM que preguntaban: «¿El color se llamaría 'púrpura' si no existiera una ciudad violeta?»

Bing Edwards

Los sentimientos de “buenas vibraciones” son comunes en el campo de la IA, donde los proveedores a menudo adoptan puntos de referencia numéricos que miden el conocimiento o la capacidad para realizar exámenes para que sus resultados parezcan más relevantes. «Acabo de tener una larga sesión de programación con Claude 3 opus y el gpt-4 humano fue completamente aplastado. No creo que los puntos de referencia le hagan justicia a este modelo». chirrido El desarrollador de software de inteligencia artificial Anton Bakaj el 19 de marzo.

El ascenso de Claude puede poner en pausa OpenAI, pero como mencionó Willison, la propia familia GPT-4 (aunque actualizada varias veces) tiene más de un año. Actualmente, Arena enumera cuatro versiones diferentes de GPT-4, que representan actualizaciones incrementales de LLM que se estancan con el tiempo porque cada una tiene un estilo de salida único, y algunos desarrolladores que las usan con la API de OpenAI necesitan coherencia para que sus aplicaciones se construyan sobre Salida de GPT.-4.

Esto incluye GPT-4-0314 (la versión «nativa» de GPT-4 de marzo 2023), GPT-4-0613 (instantánea de GPT-4 al 13 de junio de 2023, con «soporte de llamada de función mejorado», de acuerdo a OpenAI), GPT-4-1106-preview (versión de lanzamiento de GPT-4 Turbo a partir de noviembre de 2023) y GPT-4-0125-preview (último modelo de GPT-4 Turbo, destinado a reducir las instancias «perezosas» a partir de enero de 2024 ).

Sin embargo, incluso con cuatro modelos GPT-4 en la clasificación, los modelos Claude 3 de Anthropic han ido subiendo en las listas de manera constante desde su lanzamiento a principios de este mes. El éxito de Claude 3 entre los usuarios de AI Assistant ha llevado a algunos usuarios de LLM a reemplazar ChatGPT en su flujo de trabajo diario, erosionando potencialmente la participación de mercado de ChatGPT. En X, el desarrollador de software Pietro Schirano libros«Honestamente, ¿lo más brutal de Cloud 3 > GPT-4 es lo fácil que es cambiar?»

Gemini Advanced de Google, con capacidades similares, también ha ganado terreno en el espacio de los asistentes de inteligencia artificial. Esto puede poner a OpenAI en vilo por ahora, pero a largo plazo, la compañía está configurando nuevos modelos. Se espera que se lance un nuevo sucesor importante del GPT-4 Turbo (ya sea llamado GPT-4.5 o GPT-5) en algún momento de este año, posiblemente en el verano. Está claro que el espacio LLM estará lleno de competencia en este momento, lo que podría generar cambios más interesantes en la clasificación de Chatbot Arena en los próximos meses y años.

“The King is Dead”: Cloud 3 vence a GPT-4 en Chatbot Arena por primera vez

Vito Gil

Leave A Comment Cancelar la respuesta

Entradas recientes

Páginas