Claude Opus 4.8: benchmarks reales, Dynamic Workflows y por qué es el mejor modelo para agentes

Q: ¿Cuánto cuesta Claude Opus 4.8?

5 dólares por millón de tokens de entrada y 25 por millón de tokens de salida. Fast Mode sale 10/50. Mismo precio que Opus 4.7. Desde el 30 de junio de 2026, Claude Sonnet 5 lanzó con precio introductorio de 2/10 y rendimiento cercano a Opus 4.8 en la mayoría de tareas agénticas: si buscás eficiencia de costo, evaluá si Sonnet 5 cubre tu caso antes de escalar a Opus.

Q: ¿Cuál es el API model ID de Claude Opus 4.8?

El identificador es claude-opus-4-8. No tiene sufijo de fecha, siguiendo el nuevo formato de versionado de Anthropic desde la generación 4.6.

Q: ¿Qué es el parámetro effort en Claude Opus 4.8?

Es un parámetro que controla cuántos tokens usa Claude al responder. Tiene 5 niveles: low, medium, high (default), xhigh y max. Para coding y trabajo agéntico, Anthropic recomienda empezar con xhigh.

Q: ¿Qué es Dynamic Workflows?

Es una feature de Claude Code en Research Preview que permite orquestar cientos de agentes en paralelo para tareas a gran escala, como migraciones de codebase completas. Requiere Opus 4.8 con effort xhigh y plan Enterprise, Team o Max.

Q: ¿Claude Opus 4.8 soporta extended thinking?

No. Opus 4.8 usa adaptive thinking: el modelo decide cuándo y cuánto pensar según la complejidad. No soporta budget_tokens manual. Para activar thinking se usa el tipo adaptive.

Q: ¿Cuál es el context window de Claude Opus 4.8?

1 millón de tokens, unas 555.000 palabras. El output máximo es de 128k tokens. En Microsoft Foundry el context window es de 200k tokens.

Q: ¿Claude Opus 4.8 es mejor que GPT-5.5?

En coding real (SWE-bench Pro: 69,2% contra 58,6%), tareas agénticas (GDPval-AA Elo: 1890 contra 1769) y super-agent end-to-end (100% contra menos del 100%), Opus 4.8 gana. GPT-5.5 todavía supera en Terminal-Bench 2.1, con 78,2% contra 74,6%.

Anthropic lanzó Claude Opus 4.8 el 28 de mayo de 2026.

El modelo es una evolución directa sobre Opus 4.7. Mismo precio. Mejores resultados en casi todo. Un parámetro effort con 5 niveles de control. Y Dynamic Workflows — la capacidad de orquestar cientos de agentes en paralelo dentro de Claude Code.

Esta nota es el breakdown completo: benchmarks reales, qué mejoró técnicamente, el parámetro effort explicado en detalle, Dynamic Workflows, y cómo migrar desde Opus 4.7.

Especificaciones técnicas

Antes de los benchmarks, los datos duros del modelo:

Especificación	Claude Opus 4.8
API model ID	`claude-opus-4-8`
Context window	1M tokens (~555k palabras)
Max output	128k tokens
Input pricing	$5 / millón de tokens
Output pricing	$25 / millón de tokens
Fast Mode input	$10 / millón de tokens
Fast Mode output	$50 / millón de tokens
Knowledge cutoff	Enero 2026
Extended thinking	No soportado
Adaptive thinking	Sí
Effort por defecto	`high`

El context window de 1M tokens con 128k de output lo convierte en el modelo más capaz para tareas de larga duración. La diferencia con Opus 4.7 es marginal en specs, pero significativa en comportamiento.

Los benchmarks reales

Antes de hablar de lo que mejoró, los números concretos. Todo esto viene del system card oficial y de benchmarks verificados de terceros.

Coding y tareas agentic

Benchmark	Opus 4.8	Opus 4.7	GPT-5.5
SWE-bench Pro	69.2%	64.3%	58.6%
SWE-bench Verified	88.6%	87.6%	~86%
OSWorld-Verified	82.3%	—	78.7%
MCP-Atlas	82.2%	77.3%	—
Terminal-Bench 2.1	74.6%	66.1%	78.2%

SWE-bench Pro es el benchmark más duro para coding real. Opus 4.8 llega a 69.2%, más de 10 puntos por encima de GPT-5.5. Es la brecha más grande en cualquier benchmark de código real.

Terminal-Bench 2.1 es donde GPT-5.5 todavía gana (78.2% vs 74.6%). Lo menciono porque la honestidad importa. Opus 4.8 no es mejor en todo.

Capacidades agentic compuestas

Métrica	Opus 4.8	GPT-5.5
GDPval-AA Elo	1890	1769
Super-Agent end-to-end	100%	<100%
Online-Mind2Web	84%	—
Legal Agent Benchmark	Récord (10%+ all-pass)	—

El GDPval-AA Elo de 1890 vs 1769 de GPT-5.5 se traduce en aproximadamente 67% de victorias en enfrentamientos directos. No es una diferencia marginal.

Super-Agent es el único benchmark donde Opus 4.8 completa el 100% de los casos end-to-end. Ningún otro modelo lo logra.

Legal Agent Benchmark: primer modelo en superar el umbral del 10% en el estándar "all-pass" — que requiere resolver correctamente todas las subtareas de cada caso legal. El benchmark es notoriamente difícil porque no admite soluciones parciales.

Razonamiento y conocimiento

Benchmark	Opus 4.8	Opus 4.7
USAMO 2026	96.7%	69.3%
HLE (con herramientas)	57.9%	54.7%
BrowseComp (single-agent)	84.3%	79.3%
GPQA Diamond	93.6%	94.2%

El salto en USAMO 2026 es inusual: 27.4 puntos de mejora en razonamiento matemático. Anthropic no publicó todavía el detalle metodológico exacto de por qué este salto es tan pronunciado.

GPQA Diamond registra una leve regresión (-0.6%). Pequeña, pero real.

Lo que cambió en calidad de código

Más allá de los benchmarks, hay un dato que me parece el más práctico para quienes usamos Claude para programar:

Opus 4.8 tiene 4 veces menos probabilidad de dejar defectos en código sin detectarlos, comparado con Opus 4.7.

Esto lo reporta Anthropic en el system card con evaluación interna. Lo que significa en la práctica: menos sorpresas en code review, menos bugs que pasan el primer filtro, menos "por qué Claude aprobó esto sin decir nada."

No es un cambio en cuántos tests pasan. Es un cambio en cuánto Claude te avisa cuando algo está mal.

Anthropic describe el cambio así: Opus 4.8 es "más confiable y más agudo en su juicio al realizar tareas agenticas; hace las preguntas correctas, detecta sus propios errores y cuestiona planes insuficientemente fundados."

Eso es exactamente lo que querés en un modelo que opera con autonomía alta.

El parámetro effort: 5 niveles de control

Esta es la feature técnica más importante de la generación 4.7/4.8. Entenderla bien marca la diferencia entre usar bien o mal el modelo.

El parámetro effort controla cuántos tokens Claude usa al responder — directamente: más tokens = más razonamiento = mejor resultado, pero también más costo y latencia.

Los 5 niveles

Nivel	Descripción	Cuándo usarlo
`low`	Mínimo de tokens. Rápido, económico.	Clasificaciones, lookups, subagentes simples
`medium`	Balance costo/calidad.	Mayoría de tareas agenticas
`high`	Default. Razonamiento profundo.	Coding complejo, análisis, tareas donde la calidad importa
`xhigh`	Para trabajo de larga duración (30+ minutos). Millones de tokens de presupuesto.	Coding agentico, tool calling repetido, Dynamic Workflows
`max`	Máxima capacidad posible. Sin restricciones de token.	Problemas genuinamente de frontera

El default en todos los surfaces (API, Claude Code, claude.ai) es high. Si no seteás effort explícitamente, Claude opera en high.

Regla práctica para Opus 4.8: Empezá con xhigh para coding y tareas agenticas. Usá high como mínimo para cualquier tarea donde la calidad importe. Bajá a medium solo si ya mediste que tu caso de uso lo aguanta.

Cómo setearlo desde la API

import anthropic

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=64000,  # 64k es un buen punto de partida para xhigh
    messages=[
        {
            "role": "user",
            "content": "Migrá esta codebase de Express a Fastify manteniendo todos los tests."
        }
    ],
    output_config={"effort": "xhigh"},
)

print(response.content[0].text)

import Anthropic from "@anthropic-ai/sdk";

const client = new Anthropic();

const response = await client.messages.create({
  model: "claude-opus-4-8",
  max_tokens: 64000,
  messages: [
    {
      role: "user",
      content: "Migrá esta codebase de Express a Fastify manteniendo todos los tests."
    }
  ],
  output_config: {
    effort: "xhigh"
  }
});

Nota importante: xhigh y max están disponibles solo en Opus 4.8 y Opus 4.7. En Sonnet 4.6, el máximo es max (sin xhigh).

Adaptive thinking en Opus 4.8

Opus 4.8 usa adaptive thinking — el modelo decide cuándo y cuánto pensar en función de la complejidad de la tarea. No soporta extended thinking manual (budget_tokens) como sí lo hacen modelos anteriores.

Para habilitarlo:

response = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=64000,
    messages=[...],
    thinking={"type": "adaptive"},
    output_config={"effort": "xhigh"},
)

A high, xhigh y max, Claude casi siempre piensa en profundidad. A low y medium, puede saltear el thinking para problemas simples.

Fast Mode: ahora tiene sentido económico

Opus 4.8 tiene Fast Mode disponible a 2x el precio estándar para 2.5x la velocidad.

En versiones anteriores, Fast Mode costaba 6x el precio base. Nadie lo usaba en producción. Ahora a 2x, tiene sentido para tareas urgentes o pipelines donde el tiempo es el cuello de botella.

Los precios siguen siendo los mismos que Opus 4.7:

Modo	Input	Output
Estándar	$5/M tokens	$25/M tokens
Fast Mode	$10/M tokens	$50/M tokens

Dynamic Workflows: el cambio de paradigma

La feature más nueva de Opus 4.8 no es una mejora de benchmark. Es una capacidad que ningún modelo tenía antes en este formato.

Dynamic Workflows permite que Claude Code planifique una tarea compleja, la descomponga en partes, y orqueste decenas a cientos de agentes en background para ejecutarla en paralelo.

El flujo es:

Le pedís a Claude una tarea a gran escala
Claude diseña el plan de ejecución
Lanza los agentes necesarios en background
Los agentes trabajan en paralelo con verificación cruzada
Claude consolida los resultados y te reporta

El caso de uso que Anthropic muestra: migraciones de codebase completas. Cientos de miles de líneas de código, de kickoff a merge, con la suite de tests existente como criterio de calidad. Orquestado de forma autónoma.

Cómo activarlo en Claude Code

En Claude Code, Dynamic Workflows se activa desde el menú de effort con la opción ultracode:

/effort xhigh

Ultracode es la forma en que Claude Code expone xhigh + permiso explícito para lanzar workflows multi-agente. No es un nivel adicional de la API — es una combinación que Claude Code maneja internamente.

Para ver el estado de los workflows activos:

/workflows

Muestra todas las ejecuciones activas, cuántos agentes están corriendo, estado y progreso estimado.

Disponibilidad

Dynamic Workflows está en Research Preview. Requiere:

Opus 4.8 con effort xhigh
Plan Enterprise, Team o Max en claude.ai
O acceso API directo

Disponibilidad completa

Claude Opus 4.8 está disponible desde el 28 de mayo de 2026 en:

Plataforma	ID
Claude API	`claude-opus-4-8`
Amazon Bedrock	`anthropic.claude-opus-4-8`
Google Vertex AI	`claude-opus-4-8`
Microsoft Foundry	`claude-opus-4-8` (context window: 200k en Foundry)
claude.ai	Planes Pro, Max, Team, Enterprise
Claude Code	Todos los planes

Cómo migrar desde Opus 4.7

Si usás Opus 4.7 en la API, el cambio es una línea:

# Antes
model="claude-opus-4-7"

# Después
model="claude-opus-4-8"

Sin cambios en el resto de tu código. Los precios son idénticos. El comportamiento mejora, no rompe.

Si tenías budget_tokens para extended thinking en Opus 4.7, en Opus 4.8 eso no aplica. El modelo usa adaptive thinking. Reemplazá por:

thinking={"type": "adaptive"},
output_config={"effort": "xhigh"},

¿Vale la pena cambiar?

Si ya usás Opus 4.7: sí, sin dudarlo. Mismo precio, mejor en casi todo, 4x menos bugs en código, Fast Mode razonable, y Dynamic Workflows si querés explorar el límite de lo que es posible.

Si estás en Sonnet: depende del caso de uso. Sonnet 4.6 sigue siendo la opción más eficiente en costo-rendimiento para la mayoría de tareas. Opus 4.8 tiene sentido cuando necesitás el techo máximo — tareas agentic complejas, código que tiene que ser muy confiable, o Dynamic Workflows a escala.

Preguntas frecuentes

¿Cuánto cuesta Claude Opus 4.8?

$5 por millón de tokens de entrada y $25 por millón de tokens de salida. Fast Mode sale $10/$50. Mismo precio que Opus 4.7. Actualización 30 junio 2026: Claude Sonnet 5 lanzó con precio introductorio de $2/$10 y rendimiento cercano a Opus 4.8 en la mayoría de tasks agénticas. Si buscás eficiencia de costo, evaluá si Sonnet 5 cubre tu caso antes de escalar a Opus.

¿Cuál es el API model ID de Claude Opus 4.8?

claude-opus-4-8. No tiene sufijo de fecha (nuevo formato de versioning de Anthropic desde la generación 4.6).

¿Qué es el parámetro effort en Claude Opus 4.8?

Es un parámetro que controla cuántos tokens usa Claude al responder. Tiene 5 niveles: low, medium, high (default), xhigh y max. Para coding y trabajo agentico, recomiendan empezar con xhigh.

¿Qué es Dynamic Workflows?

Es una feature de Claude Code (Research Preview) que permite orquestar cientos de agentes en paralelo para tareas a gran escala como migraciones de codebase completas. Requiere Opus 4.8 con effort xhigh y plan Enterprise, Team o Max.

¿Claude Opus 4.8 soporta extended thinking?

No. Opus 4.8 usa adaptive thinking — el modelo decide cuándo y cuánto pensar según la complejidad. No soporta budget_tokens manual. Para activar thinking: thinking: {"type": "adaptive"}.

¿Cuál es el context window de Claude Opus 4.8?

1 millón de tokens (~555k palabras). Max output: 128k tokens. En Microsoft Foundry el context window es de 200k tokens.

¿Claude Opus 4.8 es mejor que GPT-5.5?

En coding real (SWE-bench Pro: 69.2% vs 58.6%), tareas agenticas (GDPval-AA Elo: 1890 vs 1769) y super-agent end-to-end (100% vs <100%), Opus 4.8 gana. GPT-5.5 todavía supera en Terminal-Bench 2.1 (78.2% vs 74.6%).

Fuentes: Anthropic models overview, Effort parameter docs, system card de Claude Opus 4.8, BenchLM.ai.