Volver al Blog

Claude Opus 4.8: benchmarks reales, Dynamic Workflows y por qué es el mejor modelo para agentes

29 de mayo de 202610 min de lectura·Nicolas Farchica

Anthropic lanzó Claude Opus 4.8 el 28 de mayo de 2026.

El modelo es una evolución directa sobre Opus 4.7. Mismo precio. Mejores resultados en casi todo. Un parámetro effort con 5 niveles de control. Y Dynamic Workflows — la capacidad de orquestar cientos de agentes en paralelo dentro de Claude Code.

Esta nota es el breakdown completo: benchmarks reales, qué mejoró técnicamente, el parámetro effort explicado en detalle, Dynamic Workflows, y cómo migrar desde Opus 4.7.


Especificaciones técnicas

Antes de los benchmarks, los datos duros del modelo:

EspecificaciónClaude Opus 4.8
API model IDclaude-opus-4-8
Context window1M tokens (~555k palabras)
Max output128k tokens
Input pricing$5 / millón de tokens
Output pricing$25 / millón de tokens
Fast Mode input$10 / millón de tokens
Fast Mode output$50 / millón de tokens
Knowledge cutoffEnero 2026
Extended thinkingNo soportado
Adaptive thinking
Effort por defectohigh

El context window de 1M tokens con 128k de output lo convierte en el modelo más capaz para tareas de larga duración. La diferencia con Opus 4.7 es marginal en specs, pero significativa en comportamiento.


Los benchmarks reales

Antes de hablar de lo que mejoró, los números concretos. Todo esto viene del system card oficial y de benchmarks verificados de terceros.

Coding y tareas agentic

BenchmarkOpus 4.8Opus 4.7GPT-5.5
SWE-bench Pro69.2%64.3%58.6%
SWE-bench Verified88.6%87.6%~86%
OSWorld-Verified82.3%78.7%
MCP-Atlas82.2%77.3%
Terminal-Bench 2.174.6%66.1%78.2%

SWE-bench Pro es el benchmark más duro para coding real. Opus 4.8 llega a 69.2%, más de 10 puntos por encima de GPT-5.5. Es la brecha más grande en cualquier benchmark de código real.

Terminal-Bench 2.1 es donde GPT-5.5 todavía gana (78.2% vs 74.6%). Lo menciono porque la honestidad importa. Opus 4.8 no es mejor en todo.

Capacidades agentic compuestas

MétricaOpus 4.8GPT-5.5
GDPval-AA Elo18901769
Super-Agent end-to-end100%<100%
Online-Mind2Web84%
Legal Agent BenchmarkRécord (10%+ all-pass)

El GDPval-AA Elo de 1890 vs 1769 de GPT-5.5 se traduce en aproximadamente 67% de victorias en enfrentamientos directos. No es una diferencia marginal.

Super-Agent es el único benchmark donde Opus 4.8 completa el 100% de los casos end-to-end. Ningún otro modelo lo logra.

Legal Agent Benchmark: primer modelo en superar el umbral del 10% en el estándar "all-pass" — que requiere resolver correctamente todas las subtareas de cada caso legal. El benchmark es notoriamente difícil porque no admite soluciones parciales.

Razonamiento y conocimiento

BenchmarkOpus 4.8Opus 4.7
USAMO 202696.7%69.3%
HLE (con herramientas)57.9%54.7%
BrowseComp (single-agent)84.3%79.3%
GPQA Diamond93.6%94.2%

El salto en USAMO 2026 es inusual: 27.4 puntos de mejora en razonamiento matemático. Anthropic no publicó todavía el detalle metodológico exacto de por qué este salto es tan pronunciado.

GPQA Diamond registra una leve regresión (-0.6%). Pequeña, pero real.


Lo que cambió en calidad de código

Más allá de los benchmarks, hay un dato que me parece el más práctico para quienes usamos Claude para programar:

Opus 4.8 tiene 4 veces menos probabilidad de dejar defectos en código sin detectarlos, comparado con Opus 4.7.

Esto lo reporta Anthropic en el system card con evaluación interna. Lo que significa en la práctica: menos sorpresas en code review, menos bugs que pasan el primer filtro, menos "por qué Claude aprobó esto sin decir nada."

No es un cambio en cuántos tests pasan. Es un cambio en cuánto Claude te avisa cuando algo está mal.

Anthropic describe el cambio así: Opus 4.8 es "más confiable y más agudo en su juicio al realizar tareas agenticas; hace las preguntas correctas, detecta sus propios errores y cuestiona planes insuficientemente fundados."

Eso es exactamente lo que querés en un modelo que opera con autonomía alta.


El parámetro effort: 5 niveles de control

Esta es la feature técnica más importante de la generación 4.7/4.8. Entenderla bien marca la diferencia entre usar bien o mal el modelo.

El parámetro effort controla cuántos tokens Claude usa al responder — directamente: más tokens = más razonamiento = mejor resultado, pero también más costo y latencia.

Los 5 niveles

NivelDescripciónCuándo usarlo
lowMínimo de tokens. Rápido, económico.Clasificaciones, lookups, subagentes simples
mediumBalance costo/calidad.Mayoría de tareas agenticas
highDefault. Razonamiento profundo.Coding complejo, análisis, tareas donde la calidad importa
xhighPara trabajo de larga duración (30+ minutos). Millones de tokens de presupuesto.Coding agentico, tool calling repetido, Dynamic Workflows
maxMáxima capacidad posible. Sin restricciones de token.Problemas genuinamente de frontera

El default en todos los surfaces (API, Claude Code, claude.ai) es high. Si no seteás effort explícitamente, Claude opera en high.

Regla práctica para Opus 4.8: Empezá con xhigh para coding y tareas agenticas. Usá high como mínimo para cualquier tarea donde la calidad importe. Bajá a medium solo si ya mediste que tu caso de uso lo aguanta.

Cómo setearlo desde la API

import anthropic

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=64000,  # 64k es un buen punto de partida para xhigh
    messages=[
        {
            "role": "user",
            "content": "Migrá esta codebase de Express a Fastify manteniendo todos los tests."
        }
    ],
    output_config={"effort": "xhigh"},
)

print(response.content[0].text)
import Anthropic from "@anthropic-ai/sdk";

const client = new Anthropic();

const response = await client.messages.create({
  model: "claude-opus-4-8",
  max_tokens: 64000,
  messages: [
    {
      role: "user",
      content: "Migrá esta codebase de Express a Fastify manteniendo todos los tests."
    }
  ],
  output_config: {
    effort: "xhigh"
  }
});

Nota importante: xhigh y max están disponibles solo en Opus 4.8 y Opus 4.7. En Sonnet 4.6, el máximo es max (sin xhigh).

Adaptive thinking en Opus 4.8

Opus 4.8 usa adaptive thinking — el modelo decide cuándo y cuánto pensar en función de la complejidad de la tarea. No soporta extended thinking manual (budget_tokens) como sí lo hacen modelos anteriores.

Para habilitarlo:

response = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=64000,
    messages=[...],
    thinking={"type": "adaptive"},
    output_config={"effort": "xhigh"},
)

A high, xhigh y max, Claude casi siempre piensa en profundidad. A low y medium, puede saltear el thinking para problemas simples.


Fast Mode: ahora tiene sentido económico

Opus 4.8 tiene Fast Mode disponible a 2x el precio estándar para 2.5x la velocidad.

En versiones anteriores, Fast Mode costaba 6x el precio base. Nadie lo usaba en producción. Ahora a 2x, tiene sentido para tareas urgentes o pipelines donde el tiempo es el cuello de botella.

Los precios siguen siendo los mismos que Opus 4.7:

ModoInputOutput
Estándar$5/M tokens$25/M tokens
Fast Mode$10/M tokens$50/M tokens

Dynamic Workflows: el cambio de paradigma

La feature más nueva de Opus 4.8 no es una mejora de benchmark. Es una capacidad que ningún modelo tenía antes en este formato.

Dynamic Workflows permite que Claude Code planifique una tarea compleja, la descomponga en partes, y orqueste decenas a cientos de agentes en background para ejecutarla en paralelo.

El flujo es:

  1. Le pedís a Claude una tarea a gran escala
  2. Claude diseña el plan de ejecución
  3. Lanza los agentes necesarios en background
  4. Los agentes trabajan en paralelo con verificación cruzada
  5. Claude consolida los resultados y te reporta

El caso de uso que Anthropic muestra: migraciones de codebase completas. Cientos de miles de líneas de código, de kickoff a merge, con la suite de tests existente como criterio de calidad. Orquestado de forma autónoma.

Cómo activarlo en Claude Code

En Claude Code, Dynamic Workflows se activa desde el menú de effort con la opción ultracode:

/effort xhigh

Ultracode es la forma en que Claude Code expone xhigh + permiso explícito para lanzar workflows multi-agente. No es un nivel adicional de la API — es una combinación que Claude Code maneja internamente.

Para ver el estado de los workflows activos:

/workflows

Muestra todas las ejecuciones activas, cuántos agentes están corriendo, estado y progreso estimado.

Disponibilidad

Dynamic Workflows está en Research Preview. Requiere:

  • Opus 4.8 con effort xhigh
  • Plan Enterprise, Team o Max en claude.ai
  • O acceso API directo

Disponibilidad completa

Claude Opus 4.8 está disponible desde el 28 de mayo de 2026 en:

PlataformaID
Claude APIclaude-opus-4-8
Amazon Bedrockanthropic.claude-opus-4-8
Google Vertex AIclaude-opus-4-8
Microsoft Foundryclaude-opus-4-8 (context window: 200k en Foundry)
claude.aiPlanes Pro, Max, Team, Enterprise
Claude CodeTodos los planes

Cómo migrar desde Opus 4.7

Si usás Opus 4.7 en la API, el cambio es una línea:

# Antes
model="claude-opus-4-7"

# Después
model="claude-opus-4-8"

Sin cambios en el resto de tu código. Los precios son idénticos. El comportamiento mejora, no rompe.

Si tenías budget_tokens para extended thinking en Opus 4.7, en Opus 4.8 eso no aplica. El modelo usa adaptive thinking. Reemplazá por:

thinking={"type": "adaptive"},
output_config={"effort": "xhigh"},

¿Vale la pena cambiar?

Si ya usás Opus 4.7: sí, sin dudarlo. Mismo precio, mejor en casi todo, 4x menos bugs en código, Fast Mode razonable, y Dynamic Workflows si querés explorar el límite de lo que es posible.

Si estás en Sonnet: depende del caso de uso. Sonnet 4.6 sigue siendo la opción más eficiente en costo-rendimiento para la mayoría de tareas. Opus 4.8 tiene sentido cuando necesitás el techo máximo — tareas agentic complejas, código que tiene que ser muy confiable, o Dynamic Workflows a escala.


Preguntas frecuentes

¿Cuánto cuesta Claude Opus 4.8?

$5 por millón de tokens de entrada y $25 por millón de tokens de salida. Fast Mode sale $10/$50. Mismo precio que Opus 4.7.

¿Cuál es el API model ID de Claude Opus 4.8?

claude-opus-4-8. No tiene sufijo de fecha (nuevo formato de versioning de Anthropic desde la generación 4.6).

¿Qué es el parámetro effort en Claude Opus 4.8?

Es un parámetro que controla cuántos tokens usa Claude al responder. Tiene 5 niveles: low, medium, high (default), xhigh y max. Para coding y trabajo agentico, recomiendan empezar con xhigh.

¿Qué es Dynamic Workflows?

Es una feature de Claude Code (Research Preview) que permite orquestar cientos de agentes en paralelo para tareas a gran escala como migraciones de codebase completas. Requiere Opus 4.8 con effort xhigh y plan Enterprise, Team o Max.

¿Claude Opus 4.8 soporta extended thinking?

No. Opus 4.8 usa adaptive thinking — el modelo decide cuándo y cuánto pensar según la complejidad. No soporta budget_tokens manual. Para activar thinking: thinking: {"type": "adaptive"}.

¿Cuál es el context window de Claude Opus 4.8?

1 millón de tokens (~555k palabras). Max output: 128k tokens. En Microsoft Foundry el context window es de 200k tokens.

¿Claude Opus 4.8 es mejor que GPT-5.5?

En coding real (SWE-bench Pro: 69.2% vs 58.6%), tareas agenticas (GDPval-AA Elo: 1890 vs 1769) y super-agent end-to-end (100% vs <100%), Opus 4.8 gana. GPT-5.5 todavía supera en Terminal-Bench 2.1 (78.2% vs 74.6%).


Fuentes: Anthropic models overview, Effort parameter docs, system card de Claude Opus 4.8, BenchLM.ai.

Nicolas Farchica

Nicolas Farchica

Especialista Claude Code

Argentino en Copenhague. Construyo sistemas de agentes IA con Claude Code — agentes, MCP servers y automatizaciones en producción.

Seguir en LinkedIn

Artículos relacionados