Claude — Opus 4.8

Anthropic · Lanzado May 28, 2026

9.9 /10 Puntuación general

Lo que realmente es

Si ChatGPT es el extrovertido en la fiesta y Gemini es el que lee en la esquina, Claude Opus 4.8 es la persona calmada y articulada que realmente escucha lo que usted dice — y que ahora también le dice honestamente cuando no está segura de algo. Esa segunda parte es nueva, e importa más que cualquier número de benchmark.

El último buque insignia de Anthropic no solo procesa información — la procesa con integridad. Opus 4.8 es 4× menos propenso a fabricar un confiado “Ya terminé” cuando en realidad no lo ha hecho. Señala incertidumbres proactivamente. Objeta ante malas suposiciones en vez de ejecutarlas alegremente. En un mundo donde cada modelo de IA afirma ser el mejor, este tiene la distinción inusual de estar dispuesto a admitir cuando no está seguro.

Las mejoras técnicas también son reales. Los Dynamic Workflows permiten que un agente Opus líder lance cientos de sub-agentes paralelos — uno analizando finanzas, otro revisando cláusulas legales, un tercero redactando el resumen, todo con checkpointing para que nada se pierda. El control de esfuerzo significa que finalmente usted elige la profundidad: respuesta rápida, análisis exhaustivo o investigación profunda. Y la ventana de contexto de 1M de tokens no solo retiene sus documentos — razona sobre ellos sin los problemas de “perdido en el medio” que aparecieron en 4.7.

¿La trampa? Sigue siendo la misma. Paga por esta calidad. Mientras el nivel gratuito de ChatGPT es generoso y Gemini viene incluido con su suscripción de Google, el nivel gratuito de Claude es limitado. La experiencia real de Opus empieza en 20 $/mes y escala hasta 200 $/mes. Pero para profesionales que facturan por hora y necesitan respuestas en las que realmente puedan confiar — las cuentas no han cambiado. Siguen siendo simples.

Puntos fuertes

Honestidad que es realmente medible: Opus 4.8 es 4× menos propenso a fabricar afirmaciones de completación. Señala incertidumbres proactivamente, objeta ante malas suposiciones y dice ‘No lo sé’ cuando esa es la respuesta honesta. No es una promesa de marketing — es el mayor salto cualitativo sobre 4.6 y 4.7.
Ventana de contexto de 1M de tokens: 750.000 palabras — diez novelas, una base de código completa o las notas de un semestre entero — en una sola conversación. Y a diferencia de 4.7, la calidad del contexto no se degrada notablemente en los rangos medios.
Dynamic Workflows: Un agente Opus líder lanza y gestiona cientos de sub-agentes paralelos para tareas masivas — barridos de investigación, análisis de documentos, revisiones de código. Gestión de proyectos con IA con checkpointing para flujos de trabajo de larga duración.
Control de esfuerzo: Elija Default (respuestas rápidas), Extra (análisis exhaustivo) o Max (investigación profunda). Se acabó el pensamiento único. El modo rápido ofrece 2,5× velocidad a 3× menor costo para tareas más ligeras.
Fiabilidad agéntica de primera clase: 100% completación en Super-Agent. 83,4% en Online-Mind2Web (agente de navegador). Primer modelo en superar el 10% all-pass en el Legal Agent Benchmark. Cuando le asigna una tarea compleja y se va, realmente la termina.

Resumen de Benchmarks

Knowledge Work — 1.890 (desde 1.753) Benchmark interno que mide análisis profesional, síntesis y calidad de escritura. Una mejora del 7,8% sobre Opus 4.7 — el tipo de ganancia que se nota en el trabajo diario real.
Online-Mind2Web — 83,4% (agente de navegador #1) Tareas de agente basadas en navegador. Opus 4.8 supera tanto a Opus 4.7 (82,8%) como a GPT-5.5. El modelo de uso de computadora y agente de navegador más fuerte probado.
Legal Agent Benchmark — primer modelo en superar el 10% Trabajo legal sustantivo en el estándar all-pass. La mejora de precisión se traduce directamente en cuánto trabajo real de abogados los clientes pueden delegar con confianza.

Limitaciones honestas

Precios premium: Pro a 20 $/mes, Max a 100–200 $/mes. API: 5 $ entrada / 25 $ salida por millón de tokens. El caché de prompts ayuda (hasta 90 % de descuento), pero el uso intensivo suma rápido.
Sin generación nativa de imágenes: A diferencia de ChatGPT y Gemini, Claude no puede crear imágenes. Las analiza brillantemente, pero si necesita una imagen, necesita otra herramienta.
Ecosistema más pequeño: Menos integraciones, sin tienda de plugins y un nivel gratuito más limitado que ChatGPT. Claude en Microsoft 365 se está expandiendo pero aún no es universal.
Consumo de tokens en tareas profundas: El pensamiento más profundo que hace a Opus 4.8 más confiable también significa más tokens por conversación en trabajo complejo. El modo rápido mitiga esto para tareas más simples, pero espere costos más altos en sesiones intensivas de investigación.

El Veredicto: Si Opus 4.6 era el profesional silencioso en el que uno se establece, Opus 4.8 es ese mismo profesional después de un ascenso. Todo lo que hizo de Claude la elección de los expertos sigue aquí — la comprensión lectora, la calidad de escritura, el contexto de un millón de tokens. Pero ahora también es honesto sobre lo que no sabe, más agudo en su juicio y capaz de ejecutar largos flujos autónomos sin revisiones constantes. La trampa no cambia: paga premium por calidad premium. Pero para cualquiera cuyo trabajo implique documentos largos, análisis cuidadoso o decisiones que realmente importan — este es el modelo que mejor trabaja cuando el trabajo más importa.