Claude 3.5 Sonet de Anthropic es un gran avance en los modelos de frontera 🎯

Lo siento OpenAI, Claude 3.5 > GPT-4o. 👀 La Inteligencia de Apple se basará en Anthropic, no en OpenAI, a finales de 2026.

Hola a todos,

De vez en cuando en AI News te encuentras con algo significativo. Creo que Antrópico ha hecho precisamente eso esta semana.

Claude 3.5 Sonnet es realmente bueno, sorprendentemente bueno.

Ya es hora de que nos tomemos en serio el Antrópico. Es mucho mejor que GPT-4o. Anthropic ha comparado Claude 3.5 con el último modelo de IA de OpenAI, GPT-4o, con el que funciona ChatGPT. Los resultados muestran que el modelo de IA de Anthropic obtuvo resultados ligeramente mejores en cuatro de las seis pruebas, centradas en el razonamiento, la codificación y las habilidades matemáticas.

Descarga la aplicación Claude 3 en iOS.

Vía Allie Miller

❝

El "Sonnet" de Anthropic supera ahora a los modelos de la competencia en las evaluaciones clave, con el doble de velocidad que el Claude 3 Opus y una quinta parte de coste.

Inteligencia de frontera al doble de velocidad

Detalles clave:

Supera al GPT-4o en varios puntos de referencia según Anthropic
Supera a los modelos anteriores de Anthropic en varios puntos de referencia de IA
El nuevo modelo puede analizar texto e imágenes y generar texto
Ofrece el doble de velocidad que el anterior modelo Claude 3 Opus
Claude 3.5 Sonnet tiene una ventana de contexto de 200.000 tokens (frente a los 128K de GPT-4o)
Anthropic presentó Artifacts, un nuevo espacio de trabajo para editar contenidos generados por IA
El modelo ya está disponible a través del cliente web, la aplicación iOS y la API de Anthropic
Pronto se lanzará una versión aún mejor, Claude 3.5 Opus, con funciones como la búsqueda web

La mejor frontera LLM del momento

Desde el punto de vista funcional, Claude 3.5 Sonnet establece nuevos puntos de referencia en el sector en cuanto a razonamiento a nivel de postgrado (GPQA), conocimientos a nivel de licenciatura (MMLU) y competencia en codificación (HumanEval).

También es más afable: mejora notablemente en la comprensión de matices, humor e instrucciones complejas, y es excepcional en la redacción de contenidos de alta calidad con un tono natural y cercano.

También es mucho más inteligente que Opus. Por ejemplo, en una evaluación interna de codificación agéntica, Claude 3.5 Sonnet resolvió el 64% de los problemas, superando a Claude 3 Opus, que resolvió el 38%.

Claude 3.5 Sonnet puede escribir, editar y ejecutar código de forma independiente con sofisticadas capacidades de razonamiento y resolución de problemas.

Visión de vanguardia

Define un conjunto de herramientas para Claude y especifica tu petición en lenguaje natural. Claude seleccionará entonces la herramienta adecuada para realizar la tarea y, cuando proceda, ejecutará la acción correspondiente:

Extraer datos estructurados de texto no estructurado: Extraer nombres, fechas e importes de facturas para reducir la introducción manual de datos.
Convierte las peticiones en lenguaje natural en llamadas estructuradas a la API: Permite a los equipos autoservirse acciones comunes (por ejemplo, "cancelar suscripción") con comandos sencillos.
Responde a preguntas buscando en bases de datos o utilizando API web: Proporciona respuestas instantáneas y precisas a las consultas de los clientes en chatbots de asistencia.
Automatiza tareas sencillas mediante API de software: Ahorra tiempo y minimiza los errores en la introducción de datos o la gestión de archivos.
Orquesta múltiples subagentes Claude rápidos para tareas granulares: Encuentra automáticamente la hora óptima de reunión en función de la disponibilidad de los asistentes.

Los datos de Anthropic muestran que Claude 3.5 Sonnet establece un nuevo estándar de inteligencia en el sector.

"Artefactos" en Anthropic

También han lanzado un avance de Artifacts en http://claude.ai

Así que puedes pedirle a Claude que genere documentos, código, diagramas de sirena, gráficos vectoriales o incluso juegos sencillos. Los Artefactos aparecen junto a tu chat, permitiéndote ver, iterar y construir sobre tus creaciones en tiempo real.

Artefactos: una nueva forma de utilizar Claude

Artefactos es, por tanto, una forma más colaborativa de utilizar Claude.ai. Es un espacio de trabajo dinámico donde puedes ver, editar y construir sobre las creaciones de Claude en tiempo real, integrando perfectamente el contenido generado por la IA en sus proyectos y flujos de trabajo.

Anthopric dice que Artifacts es sólo el principio de una visión más amplia para Claude.ai, y me está gustando mucho esta interfaz y UX. También se ampliará pronto para admitir la colaboración en equipo.

Así que en un futuro próximo, los equipos -y con el tiempo organizaciones enteras- podrán centralizar de forma segura sus conocimientos, documentos y trabajo en curso en un espacio compartido, con Claude como compañero de equipo a la carta. Eso suena realmente útil para las empresas y los entornos de trabajo.

❝

Con Artefactos, podrás ver e interactuar con los resultados de tus peticiones a Claude: si le pides al modelo que diseñe algo para ti, ahora puede mostrarte cómo queda y permitirte editarlo directamente en la app. Si Claude te escribe un email, puedes editarlo en la aplicación Claude en lugar de tener que copiarlo en un editor de texto. Es una función pequeña, pero inteligente: estas herramientas de IA deben convertirse en algo más que simples chatbots, y funciones como Artifacts dan a la aplicación más cosas que hacer. - The Verge

Claude 3.5 Sonnet está disponible gratuitamente en http://claude.ai

y en la aplicación Claude para iOS. Los suscriptores de Claude Pro y Team se benefician de límites de tarifa significativamente más altos.

Anthropic afirma que lanzará Claude 3.5 Haiku y Claude 3.5 Opus a finales de este año.

No soy un gran usuario de ChatGPT ni de Claude 3, pero esto podría cambiar mi comportamiento en el uso de herramientas. Los modelos fronterizos se están volviendo buenos hasta el punto de ser de utilidad general.

Anthropic está alcanzando la utilidad general

Por la forma en que está evolucionando Claude 3.5, soy bastante optimista respecto a esta trayectoria.

En el sentido de que Anthropic dice que Claude 3.5 Sonnet será mucho mejor escribiendo y traduciendo código, manejando flujos de trabajo de varios pasos, interpretando tablas y gráficos y transcribiendo texto de imágenes. Parece un modelo de frontera más benigno y útil de lo que implica el código de conducta ética de OpenAI.

Parece más humano y amigable. Y me hace pensar que ChatGPT tiene un estatus mítico cuando el mundo se ha puesto a su altura.

El equipo de Anthropic parece más sensato y fabrica mejores productos. Pero es sólo mi opinión personal. Conozco a gente que prefiere Google Gemini o GPT-4o. ¿Por qué? No siempre lo entiendo.

El objetivo de Anthropic también es mejorar sustancialmente la curva de compromiso entre inteligencia, velocidad y coste cada pocos meses. Con una importante financiación tanto de Amazon como de Google, están haciendo las cosas de forma ligeramente distinta al acuerdo exclusivo de Microsoft con OpenAI.

GPT-4o vs. Claude 3.5

Creo que en X y Reddit podremos aprender mucho más sobre cómo se comparan los modelos de OpenAI y Anthropic en una serie de tareas.

Apéndice de la Ficha del Modelo Claude 3.5 Sonnet

GPT-4o y Google Gemini no tienen una UX tan fácil de usar como Claude, y su UX sólo está mejorando ahora con Artifacts. En cierto sentido, una buena UX hace que un producto sea más divertido de usar y más pegajoso también por esas razones.

Amazon está invirtiendo hasta 4.000 millones de dólares en Anthropic y su asociación parece ir viento en popa, a pesar de que Amazon Alexa se encuentra en un estado tan lamentable.

¿Es Anthropic pobre en funciones?

Anthropic ha señalado que no han dado prioridad a los asistentes de voz como el conocido GPT-4o simplemente porque sus clientes no lo han priorizado. Ethan Mollick, que me parece un evangelista de OpenAI y fue uno de los primeros probadores de la versión beta de Claude 3.5, señala en X que OpenAI tiene todas estas características que él cree que le faltan a Claude.

❝

"Lo que Anthropic está consiguiendo es que sus sistemas sean divertidos de usar. ChatGPT tiene muchas de las funciones clave que le faltan a Claude -acceso web, intérprete de código completo, voz, GPT-, pero requiere algo de ensayo y error para averiguarlo, ya que no es obvio. Incluso Gemini parece más complicado". - Ethan Mollick

Francamente, no estoy seguro de que a la mayoría de los usuarios de ChatGPT les importen todas esas campanas y silbatos. Especialmente a los que cuentan, los clientes Enterprise. Artifacts parece la interfaz adecuada para este tipo de herramienta.

Puntos fuertes de Claude 3.5

Otros puntos fuertes de Claude 3.5 Sonnet son (según Amazon AWS)

Capacidades avanzadas de codificación: Cuando se le instruye y se le proporcionan las herramientas pertinentes, escribe, edita y ejecuta código de forma autónoma con un razonamiento sofisticado y capacidades avanzadas de resolución de problemas, ofreciendo la mejor precisión de su clase.
Mejor comprensión del contexto: Manejar consultas intrincadas comprendiendo el contexto del usuario y orquestando flujos de trabajo de varios pasos. Esto permite una asistencia ininterrumpida, en particular para las aplicaciones de atención al cliente, tiempos de respuesta impresionantemente rápidos, interacciones que suenan naturales y una mejora significativa de la satisfacción del cliente.
Capacidades mejoradas de análisis y ciencia de datos: Aumentar la experiencia humana en ciencia de datos navegando por datos no estructurados y aprovechando múltiples herramientas proporcionadas por el usuario para generar ideas. Cuando se le da acceso a un entorno de codificación, produce visualizaciones estadísticas de alta calidad y predicciones procesables, que van desde estrategias empresariales a tendencias de productos en tiempo real.

Anthropic podría adelantarse a los clientes empresariales en la década de 2020 frente a OpenAI

Lo que creo que está ocurriendo aquí es que Anthropic está intentando hacer que Claude 3.5 sea más útil para los clientes empresariales y de negocios. ChatGPT para empresas ha sido un gran éxito para el crecimiento de los ingresos de OpenAI, que es casi 4 veces mayor que el de Anthropic. Curiosamente, aunque OpenAI es más popular entre los consumidores B2C, Anthropic podría ganarles en clientes empresariales, ya que dan más prioridad a la confianza y la seguridad, y son vistos como socios más fiables. Esto es un buen augurio para AWS frente a Azure en el futuro.

Anthropic también podría tener un calendario de productos más interesante. Mientras OpenAI intenta hacer de todo, desde Sora a GPTStore, pasando por un producto de búsqueda web. Anthropic puede ser mejor en unas pocas cosas realmente significativas. Como ahora sabemos, Sora va a tener mucha competencia y un producto de búsqueda web será difícil de hacer bien, ya que Perplexity parece ir por buen camino.

Anthropic afirma que están desarrollando nuevas modalidades y funciones para dar soporte a más casos de uso para las empresas, incluidas las integraciones con aplicaciones empresariales. Añadieron que su equipo también está explorando funciones como la Memoria, que permitirá a Claude recordar las preferencias de un usuario y su historial de interacciones, según se especifique, haciendo que su experiencia sea aún más personalizada y eficiente.

Mientras OpenAI intenta ser todo para todos, Anthropic no parece tener esa actitud. Se esfuerza mucho por conseguir la alineación correcta de lo que hace. En cierto sentido, es como comparar Android con iOS: parece que con Anthropic obtienes un nivel de calidad diferente.

Desde el punto de vista filosófico y de producto/UX, hasta ahora prefiero Anthropic a OpenAI. No hay trucos de AGI, sólo intentan hacer su trabajo de forma honesta y alineada con el ser humano, priorizando la seguridad en todo momento.

A algunos les sorprende que Anthropic compita ahora más favorablemente con OpenAI y que GPT-5 parezca empujado a un lanzamiento posterior a las elecciones estadounidenses. Así que probablemente se lance en diciembre de 2024 o enero de 2025.

Al fin y al cabo, Anthropic se enorgullece de tener unos guardarraíles éticos más sólidos (Axios) en sus modelos y está empezando a tomar la delantera en ese aspecto, y para las empresas y el B2B, ese tipo de confianza es esencial en una marca de modelos fronterizos. Puede que OpenAI trabaje con Apple y el Pentágono, pero ¿puedes confiar en un laboratorio de investigación glorificado de Microsoft en materia de privacidad y recolección de datos?

Claude Sonnet 3.5 funciona el doble de rápido que la versión de gama alta de su generación actual. El Sonnet Claude 3 actualizado significa otro momento "ah-ha" para Anthropic en 2024, cuando la GPT-4o fue, como mínimo, decepcionante.

Así que vamos a intentar recapitular

Claude 3.5 Sonnet es el modelo más inteligente, rápido y agradable de Anthropic.
Establece nuevos puntos de referencia en la industria en cuanto a razonamiento a nivel de posgrado, conocimientos a nivel de licenciatura y dominio de la codificación, superando no sólo a los modelos de la competencia, sino también a su predecesor, Claude 3 Opus. Y hace todo esto funcionando al doble de velocidad, lo que lo hace ideal para tareas complejas y sensibles al contexto.
Claude 3.5 Sonnet también es mucho mejor en razonamiento visual. Puede interpretar tablas y gráficos como un profesional, e incluso es capaz de transcribir con precisión el texto de imágenes poco perfectas. Piensa en lo útil que podría ser eso en el comercio minorista, la logística o los servicios financieros.
Artifacts parece útil y pronto dará soporte a equipos y tendrá más utilidad empresarial.
Claude 3.5 para Haiku y Opus llegará pronto.

Donde para mí Anthropic está significativamente por delante de OpenAI es simplemente donde más importa, Claude 3.5 Sonnet en su capacidad para comprender y crear contenidos con un tono natural y cercano ha mejorado considerablemente.