Claude Opus 4.8: benchmarks reales, Dynamic Workflows y por qué es el mejor modelo para agentes
En este artículo
Anthropic lanzó Claude Opus 4.8 el 28 de mayo de 2026.
El modelo es una evolución directa sobre Opus 4.7. Mismo precio. Mejores resultados en casi todo. Un parámetro effort con 5 niveles de control. Y Dynamic Workflows — la capacidad de orquestar cientos de agentes en paralelo dentro de Claude Code.
Esta nota es el breakdown completo: benchmarks reales, qué mejoró técnicamente, el parámetro effort explicado en detalle, Dynamic Workflows, y cómo migrar desde Opus 4.7.
Especificaciones técnicas
Antes de los benchmarks, los datos duros del modelo:
| Especificación | Claude Opus 4.8 |
|---|---|
| API model ID | claude-opus-4-8 |
| Context window | 1M tokens (~555k palabras) |
| Max output | 128k tokens |
| Input pricing | $5 / millón de tokens |
| Output pricing | $25 / millón de tokens |
| Fast Mode input | $10 / millón de tokens |
| Fast Mode output | $50 / millón de tokens |
| Knowledge cutoff | Enero 2026 |
| Extended thinking | No soportado |
| Adaptive thinking | Sí |
| Effort por defecto | high |
El context window de 1M tokens con 128k de output lo convierte en el modelo más capaz para tareas de larga duración. La diferencia con Opus 4.7 es marginal en specs, pero significativa en comportamiento.
Los benchmarks reales
Antes de hablar de lo que mejoró, los números concretos. Todo esto viene del system card oficial y de benchmarks verificados de terceros.
Coding y tareas agentic
| Benchmark | Opus 4.8 | Opus 4.7 | GPT-5.5 |
|---|---|---|---|
| SWE-bench Pro | 69.2% | 64.3% | 58.6% |
| SWE-bench Verified | 88.6% | 87.6% | ~86% |
| OSWorld-Verified | 82.3% | — | 78.7% |
| MCP-Atlas | 82.2% | 77.3% | — |
| Terminal-Bench 2.1 | 74.6% | 66.1% | 78.2% |
SWE-bench Pro es el benchmark más duro para coding real. Opus 4.8 llega a 69.2%, más de 10 puntos por encima de GPT-5.5. Es la brecha más grande en cualquier benchmark de código real.
Terminal-Bench 2.1 es donde GPT-5.5 todavía gana (78.2% vs 74.6%). Lo menciono porque la honestidad importa. Opus 4.8 no es mejor en todo.
Capacidades agentic compuestas
| Métrica | Opus 4.8 | GPT-5.5 |
|---|---|---|
| GDPval-AA Elo | 1890 | 1769 |
| Super-Agent end-to-end | 100% | <100% |
| Online-Mind2Web | 84% | — |
| Legal Agent Benchmark | Récord (10%+ all-pass) | — |
El GDPval-AA Elo de 1890 vs 1769 de GPT-5.5 se traduce en aproximadamente 67% de victorias en enfrentamientos directos. No es una diferencia marginal.
Super-Agent es el único benchmark donde Opus 4.8 completa el 100% de los casos end-to-end. Ningún otro modelo lo logra.
Legal Agent Benchmark: primer modelo en superar el umbral del 10% en el estándar "all-pass" — que requiere resolver correctamente todas las subtareas de cada caso legal. El benchmark es notoriamente difícil porque no admite soluciones parciales.
Razonamiento y conocimiento
| Benchmark | Opus 4.8 | Opus 4.7 |
|---|---|---|
| USAMO 2026 | 96.7% | 69.3% |
| HLE (con herramientas) | 57.9% | 54.7% |
| BrowseComp (single-agent) | 84.3% | 79.3% |
| GPQA Diamond | 93.6% | 94.2% |
El salto en USAMO 2026 es inusual: 27.4 puntos de mejora en razonamiento matemático. Anthropic no publicó todavía el detalle metodológico exacto de por qué este salto es tan pronunciado.
GPQA Diamond registra una leve regresión (-0.6%). Pequeña, pero real.
Lo que cambió en calidad de código
Más allá de los benchmarks, hay un dato que me parece el más práctico para quienes usamos Claude para programar:
Opus 4.8 tiene 4 veces menos probabilidad de dejar defectos en código sin detectarlos, comparado con Opus 4.7.
Esto lo reporta Anthropic en el system card con evaluación interna. Lo que significa en la práctica: menos sorpresas en code review, menos bugs que pasan el primer filtro, menos "por qué Claude aprobó esto sin decir nada."
No es un cambio en cuántos tests pasan. Es un cambio en cuánto Claude te avisa cuando algo está mal.
Anthropic describe el cambio así: Opus 4.8 es "más confiable y más agudo en su juicio al realizar tareas agenticas; hace las preguntas correctas, detecta sus propios errores y cuestiona planes insuficientemente fundados."
Eso es exactamente lo que querés en un modelo que opera con autonomía alta.
El parámetro effort: 5 niveles de control
Esta es la feature técnica más importante de la generación 4.7/4.8. Entenderla bien marca la diferencia entre usar bien o mal el modelo.
El parámetro effort controla cuántos tokens Claude usa al responder — directamente: más tokens = más razonamiento = mejor resultado, pero también más costo y latencia.
Los 5 niveles
| Nivel | Descripción | Cuándo usarlo |
|---|---|---|
low | Mínimo de tokens. Rápido, económico. | Clasificaciones, lookups, subagentes simples |
medium | Balance costo/calidad. | Mayoría de tareas agenticas |
high | Default. Razonamiento profundo. | Coding complejo, análisis, tareas donde la calidad importa |
xhigh | Para trabajo de larga duración (30+ minutos). Millones de tokens de presupuesto. | Coding agentico, tool calling repetido, Dynamic Workflows |
max | Máxima capacidad posible. Sin restricciones de token. | Problemas genuinamente de frontera |
El default en todos los surfaces (API, Claude Code, claude.ai) es high. Si no seteás effort explícitamente, Claude opera en high.
Regla práctica para Opus 4.8: Empezá con xhigh para coding y tareas agenticas. Usá high como mínimo para cualquier tarea donde la calidad importe. Bajá a medium solo si ya mediste que tu caso de uso lo aguanta.
Cómo setearlo desde la API
import anthropic
client = anthropic.Anthropic()
response = client.messages.create(
model="claude-opus-4-8",
max_tokens=64000, # 64k es un buen punto de partida para xhigh
messages=[
{
"role": "user",
"content": "Migrá esta codebase de Express a Fastify manteniendo todos los tests."
}
],
output_config={"effort": "xhigh"},
)
print(response.content[0].text)
import Anthropic from "@anthropic-ai/sdk";
const client = new Anthropic();
const response = await client.messages.create({
model: "claude-opus-4-8",
max_tokens: 64000,
messages: [
{
role: "user",
content: "Migrá esta codebase de Express a Fastify manteniendo todos los tests."
}
],
output_config: {
effort: "xhigh"
}
});
Nota importante: xhigh y max están disponibles solo en Opus 4.8 y Opus 4.7. En Sonnet 4.6, el máximo es max (sin xhigh).
Adaptive thinking en Opus 4.8
Opus 4.8 usa adaptive thinking — el modelo decide cuándo y cuánto pensar en función de la complejidad de la tarea. No soporta extended thinking manual (budget_tokens) como sí lo hacen modelos anteriores.
Para habilitarlo:
response = client.messages.create(
model="claude-opus-4-8",
max_tokens=64000,
messages=[...],
thinking={"type": "adaptive"},
output_config={"effort": "xhigh"},
)
A high, xhigh y max, Claude casi siempre piensa en profundidad. A low y medium, puede saltear el thinking para problemas simples.
Fast Mode: ahora tiene sentido económico
Opus 4.8 tiene Fast Mode disponible a 2x el precio estándar para 2.5x la velocidad.
En versiones anteriores, Fast Mode costaba 6x el precio base. Nadie lo usaba en producción. Ahora a 2x, tiene sentido para tareas urgentes o pipelines donde el tiempo es el cuello de botella.
Los precios siguen siendo los mismos que Opus 4.7:
| Modo | Input | Output |
|---|---|---|
| Estándar | $5/M tokens | $25/M tokens |
| Fast Mode | $10/M tokens | $50/M tokens |
Dynamic Workflows: el cambio de paradigma
La feature más nueva de Opus 4.8 no es una mejora de benchmark. Es una capacidad que ningún modelo tenía antes en este formato.
Dynamic Workflows permite que Claude Code planifique una tarea compleja, la descomponga en partes, y orqueste decenas a cientos de agentes en background para ejecutarla en paralelo.
El flujo es:
- Le pedís a Claude una tarea a gran escala
- Claude diseña el plan de ejecución
- Lanza los agentes necesarios en background
- Los agentes trabajan en paralelo con verificación cruzada
- Claude consolida los resultados y te reporta
El caso de uso que Anthropic muestra: migraciones de codebase completas. Cientos de miles de líneas de código, de kickoff a merge, con la suite de tests existente como criterio de calidad. Orquestado de forma autónoma.
Cómo activarlo en Claude Code
En Claude Code, Dynamic Workflows se activa desde el menú de effort con la opción ultracode:
/effort xhigh
Ultracode es la forma en que Claude Code expone xhigh + permiso explícito para lanzar workflows multi-agente. No es un nivel adicional de la API — es una combinación que Claude Code maneja internamente.
Para ver el estado de los workflows activos:
/workflows
Muestra todas las ejecuciones activas, cuántos agentes están corriendo, estado y progreso estimado.
Disponibilidad
Dynamic Workflows está en Research Preview. Requiere:
- Opus 4.8 con effort
xhigh - Plan Enterprise, Team o Max en claude.ai
- O acceso API directo
Disponibilidad completa
Claude Opus 4.8 está disponible desde el 28 de mayo de 2026 en:
| Plataforma | ID |
|---|---|
| Claude API | claude-opus-4-8 |
| Amazon Bedrock | anthropic.claude-opus-4-8 |
| Google Vertex AI | claude-opus-4-8 |
| Microsoft Foundry | claude-opus-4-8 (context window: 200k en Foundry) |
| claude.ai | Planes Pro, Max, Team, Enterprise |
| Claude Code | Todos los planes |
Cómo migrar desde Opus 4.7
Si usás Opus 4.7 en la API, el cambio es una línea:
# Antes
model="claude-opus-4-7"
# Después
model="claude-opus-4-8"
Sin cambios en el resto de tu código. Los precios son idénticos. El comportamiento mejora, no rompe.
Si tenías budget_tokens para extended thinking en Opus 4.7, en Opus 4.8 eso no aplica. El modelo usa adaptive thinking. Reemplazá por:
thinking={"type": "adaptive"},
output_config={"effort": "xhigh"},
¿Vale la pena cambiar?
Si ya usás Opus 4.7: sí, sin dudarlo. Mismo precio, mejor en casi todo, 4x menos bugs en código, Fast Mode razonable, y Dynamic Workflows si querés explorar el límite de lo que es posible.
Si estás en Sonnet: depende del caso de uso. Sonnet 4.6 sigue siendo la opción más eficiente en costo-rendimiento para la mayoría de tareas. Opus 4.8 tiene sentido cuando necesitás el techo máximo — tareas agentic complejas, código que tiene que ser muy confiable, o Dynamic Workflows a escala.
Preguntas frecuentes
¿Cuánto cuesta Claude Opus 4.8?
$5 por millón de tokens de entrada y $25 por millón de tokens de salida. Fast Mode sale $10/$50. Mismo precio que Opus 4.7.
¿Cuál es el API model ID de Claude Opus 4.8?
claude-opus-4-8. No tiene sufijo de fecha (nuevo formato de versioning de Anthropic desde la generación 4.6).
¿Qué es el parámetro effort en Claude Opus 4.8?
Es un parámetro que controla cuántos tokens usa Claude al responder. Tiene 5 niveles: low, medium, high (default), xhigh y max. Para coding y trabajo agentico, recomiendan empezar con xhigh.
¿Qué es Dynamic Workflows?
Es una feature de Claude Code (Research Preview) que permite orquestar cientos de agentes en paralelo para tareas a gran escala como migraciones de codebase completas. Requiere Opus 4.8 con effort xhigh y plan Enterprise, Team o Max.
¿Claude Opus 4.8 soporta extended thinking?
No. Opus 4.8 usa adaptive thinking — el modelo decide cuándo y cuánto pensar según la complejidad. No soporta budget_tokens manual. Para activar thinking: thinking: {"type": "adaptive"}.
¿Cuál es el context window de Claude Opus 4.8?
1 millón de tokens (~555k palabras). Max output: 128k tokens. En Microsoft Foundry el context window es de 200k tokens.
¿Claude Opus 4.8 es mejor que GPT-5.5?
En coding real (SWE-bench Pro: 69.2% vs 58.6%), tareas agenticas (GDPval-AA Elo: 1890 vs 1769) y super-agent end-to-end (100% vs <100%), Opus 4.8 gana. GPT-5.5 todavía supera en Terminal-Bench 2.1 (78.2% vs 74.6%).
Fuentes: Anthropic models overview, Effort parameter docs, system card de Claude Opus 4.8, BenchLM.ai.
Nicolas Farchica
Especialista Claude Code
Argentino en Copenhague. Construyo sistemas de agentes IA con Claude Code — agentes, MCP servers y automatizaciones en producción.
Seguir en LinkedInArtículos relacionados
Dynamic Workflows en Claude Code: cómo orquestar 100+ agentes en paralelo
Dynamic Workflows en Claude Code con Opus 4.8: qué son, cómo activarlos, diferencias con subagentes normales, casos de uso reales y cómo usarlos desde la API.
25 Slash Commands de Claude Code que Tenés que Conocer
Slash commands de Claude Code CLI: sesiones, modelos, contexto, revisión de código y agentes. No son los del chat de claude.ai — son los de la terminal.
Claude for Small Business: Guía Completa del Lanzamiento de Anthropic (Mayo 2026)
Claude for Small Business: 15 workflows, conectores con QuickBooks y Stripe, sin costo extra. Qué son las Skills y lo que nadie contó sobre privacidad.