Claude Sonnet 5: rendimiento de Opus a precio de Sonnet

Hoy Anthropic lanzó Claude Sonnet 5. Y la noticia real no es que salió un modelo nuevo.

La noticia es lo que ese modelo implica para cualquiera que esté construyendo sistemas con agentes: el modelo del "medio" de Anthropic ahora rinde cerca del modelo tope. Y cuesta entre cinco y siete veces menos.

Eso no es una actualización. Es un cambio en el cálculo de cualquier arquitectura de agentes.

Te cuento qué cambió, qué dicen los benchmarks oficiales, cómo quedan los precios y qué deberías revisar en tu stack esta semana.

Qué es Claude Sonnet 5

Claude Sonnet 5 es el nuevo modelo estándar de Anthropic, disponible desde el 30 de junio de 2026. Anthropic lo describe como "el Sonnet más agéntico que construimos hasta ahora" — y eso no es un slogan de marketing, se ve en los benchmarks.

Las capacidades centrales que mejoraron respecto a Sonnet 4.6:

Planificación autónoma: tareas multi-paso que antes requerían supervisión constante ahora las resuelve sin intervención
Uso de herramientas: navegadores, terminales, ejecución de código en entornos reales
Razonamiento y codificación: saltos medibles en SWE-bench, Terminal-Bench y HLE
Conocimiento especializado: análisis legal, financiero, técnico con mayor precisión

Está disponible en todos los planes — Free, Pro, Max, Team, Enterprise — y también vía Claude Code y la API.

Los benchmarks que importan

Anthropic publicó la tabla comparativa oficial con tres modelos: Sonnet 5, Sonnet 4.6, y Opus 4.8 como referencia. Estos son los números reales:

Tarea	Sonnet 5	Sonnet 4.6	Opus 4.8
Agentic coding (SWE-bench Pro)	63.2%	58.1%	69.2%
Agentic coding (Terminal-Bench 2.1)	80.4%	67.0%	82.7%
Reasoning (HLE, sin herramientas)	43.2%	34.6%	49.8%
Reasoning (HLE, con herramientas)	57.4%	46.8%	57.9%
Computer use (OSWorld-Verified)	81.2%	78.5%	83.4%
Knowledge work (GDPval-AA v2)	1618	1395	1615

Lo que salta de esa tabla: en knowledge work, Sonnet 5 (1618) supera a Opus 4.8 (1615). En razonamiento con herramientas habilitadas, están casi empatados: 57.4% vs 57.9%. En computer use, la diferencia con Opus es de 2.2 puntos porcentuales.

La brecha más grande de Sonnet 5 respecto a 4.6 está en Terminal-Bench: +13.4 puntos. Eso es relevante si construís agentes que trabajan con código directamente.

Capacidades agénticas: lo que más mejoró

Anthropic midió el rendimiento agéntico en dos benchmarks específicos que conviene entender:

BrowseComp (agentic search): mide cuánto rinde el modelo en búsqueda web agéntica según el nivel de esfuerzo asignado. Sonnet 5 supera consistentemente a Sonnet 4.6 en todos los niveles — desde low hasta max. La curva sube de forma más pronunciada al aumentar el esfuerzo, lo que significa que el modelo aprovecha mejor el presupuesto computacional cuando se lo das.

OSWorld-Verified (computer use): mide control de entornos reales — navegadores, aplicaciones de escritorio, interfaces de usuario. Sonnet 5 logra 81.2% de éxito a nivel max de esfuerzo, contra 78.5% de Sonnet 4.6.

Ambos benchmarks tienen algo en común: miden lo que más importa para agentes en producción — no qué tan bien responde el modelo a una pregunta, sino qué tan bien completa una tarea autónoma en un entorno real.

La lectura práctica: si tenés pipelines donde el agente navega, ejecuta comandos o completa tareas de múltiples pasos, el salto de 4.6 a Sonnet 5 es concreto y medible.

Precio y disponibilidad: la ventana que se cierra en agosto

Este es el punto que más cambia el análisis de costo-beneficio.

Precio introductorio (hasta el 31 de agosto de 2026):

Input: $2 por millón de tokens
Output: $10 por millón de tokens

Precio estándar desde el 1 de septiembre de 2026:

Input: $3 por millón de tokens
Output: $15 por millón de tokens

Para tener referencia: Claude Opus 4.8 corre en otro escalón de precio. Sonnet 5 al precio introductorio da rendimiento cercano al modelo top a una fracción del costo.

Disponibilidad:

Default en planes Free y Pro (reemplaza a Sonnet 4.6 como modelo base)
Disponible también en Max, Team y Enterprise
API: claude-sonnet-5
Claude Code: disponible desde hoy

Si estás evaluando migrar pipelines de Opus a Sonnet 5, la ventana de precio introductorio da tiempo hasta fin de agosto para hacer la prueba y decidir con datos propios.

Seguridad: mejor alineado que 4.6

Anthropic también publicó los datos de comportamiento. En la métrica "Misaligned behavior" (escala 1-10, menor = mejor):

Sonnet 4.6: 2.89
Sonnet 5: 2.53
Opus 4.8: 2.10

Sonnet 5 mejora sobre 4.6 en alineamiento. No llega a Opus todavía, pero el patrón es el esperado: más capacidad agéntica sin perder control.

Adicionalmente, las protecciones cibernéticas vienen habilitadas por defecto. En pruebas específicas, Sonnet 5 nunca completó exploits funcionales — algo que Anthropic trackea activamente en sus modelos de frontera.

Qué significa esto para tu stack de agentes

Sonnet 5 no es solo "un modelo nuevo disponible". Es el nuevo baseline del ecosistema Claude. Algunas implicaciones concretas:

Si usás Sonnet 4.6 en producción: el upgrade a Sonnet 5 es directo. Cambiás el ID del modelo en la API y ganás rendimiento en todas las dimensiones medibles — especialmente en tareas agénticas complejas. El costo sube un poco (de Sonnet 4.6 a Sonnet 5 estándar), pero el salto en capacidad lo justifica en la mayoría de los casos.

Si usás Opus para tasks agénticas: acá está la decisión más interesante. Con Sonnet 5 al precio introductorio, podés correr pruebas comparativas antes de que cierre agosto y ver si el delta de rendimiento (que en muchas tasks es menor al 5%) justifica el diferencial de precio. Para arquitecturas de agentes con MCPs, Sonnet 5 puede ser suficiente para la mayoría de los nodos.

Si diseñás sistemas multi-agente: Sonnet 5 se convierte en el candidato natural para los agentes de área — los que ejecutan tasks específicas — mientras Opus queda para el orquestador en tareas de máxima complejidad. Esta separación tiene más sentido económico ahora que antes.

Una regla práctica: si tu agente completa tasks en un solo dominio (codificación, búsqueda, análisis), probá Sonnet 5. Si orquesta tareas entre múltiples agentes con razonamiento complejo de por medio, evaluá si Opus todavía vale la diferencia.

Preguntas frecuentes sobre Claude Sonnet 5

¿Cuál es el ID de Claude Sonnet 5 en la API?

El identificador oficial es claude-sonnet-5. Podés usarlo desde hoy en cualquier llamada a la API de Anthropic, en Claude Code, o en tu integración de Claude Platform.

¿Cuándo vence el precio introductorio de Claude Sonnet 5?

El precio de $2/$10 por millón de tokens (input/output) está disponible hasta el 31 de agosto de 2026. A partir del 1 de septiembre el precio sube a $3/$15.

¿Claude Sonnet 5 reemplaza a Sonnet 4.6?

Sí. Sonnet 5 pasa a ser el modelo default en los planes Free y Pro de Claude. Sonnet 4.6 sigue disponible via API, pero el modelo estándar de la plataforma ahora es Sonnet 5.

¿Es mejor usar Claude Sonnet 5 u Opus 4.8 para agentes?

Depende del caso. En knowledge work, Sonnet 5 ya supera a Opus 4.8 (1618 vs 1615 en GDPval-AA v2). En razonamiento con herramientas están casi empatados (57.4% vs 57.9%). Opus 4.8 mantiene ventaja en coding agéntico puro (69.2% vs 63.2% en SWE-bench Pro). Para la mayoría de los agentes de área en un sistema multi-agente, Sonnet 5 al precio introductorio es la elección más eficiente.

¿Claude Sonnet 5 funciona con Claude Code?

Sí. Está disponible desde hoy en Claude Code. Podés configurarlo como modelo base en tu proyecto o usarlo explícitamente en tus skills y configuraciones de CLAUDE.md.

La lectura final

Cuando el modelo "del medio" de una plataforma alcanza al modelo tope en varias métricas clave, el ecosistema cambia. No gradualmente — de golpe.

Sonnet 5 no es el mejor modelo de Anthropic en todas las categorías todavía. Opus 4.8 sigue mejor en coding agéntico puro y en alineamiento. Pero la distancia se achicó lo suficiente como para que la diferencia de precio sea difícil de justificar en la mayoría de los casos.

Si construís con agentes, esta semana conviene hacer una cosa: correr un benchmark propio con las tasks específicas de tu sistema y comparar Sonnet 5 vs lo que estás usando hoy. Los datos de Anthropic son públicos. Los de tu caso particular los tenés que medir vos.

¿Querés ayuda diseñando la arquitectura de agentes correcta para tu caso? Hablemos.