ai-gen-icon

Claude Opus 4.8 : faut-il passer à la 4.8 ?

Anthropic a sorti Claude Opus 4.8 le 28 mai 2026, soit 41 jours seulement après la 4.7. Même prix, gains « modestes mais perceptibles » reconnus par Anthropic lui-même, et

claude opus 4.8

Sommaires

Anthropic a sorti Claude Opus 4.8 le 28 mai 2026, soit 41 jours seulement après la 4.7. Même prix, gains « modestes mais perceptibles » reconnus par Anthropic lui-même, et deux fonctionnalités vraiment nouvelles : effort control pour tous, dynamic workflows pour les plans premium. Voici qui doit migrer, qui peut attendre.

Ce qui change vraiment vs Opus 4.7 (et la concurrence)

Le résumé d’Anthropic est inhabituellement honnête : « une amélioration modeste mais tangible par rapport à son prédécesseur ». Pour une fois, l’éditeur ne survend pas. Les chiffres confirment : sur SWE-bench Verified, le modèle passe de 87,6 % à 88,6 %, soit un seul point. Le benchmark sature.

Les gains les plus notables se concentrent sur trois benchmarks plus difficiles. SWE-bench Pro grimpe de 64,3 % à 69,2 % (+4,9 points) — c’est le test le plus représentatif du code réel, sur des dépôts maintenus et sans données qui fuitent. Terminal-Bench 2.1 bondit de 66,1 % à 74,6 % (+8,5 points). GDPval-AA, qui mesure le travail intellectuel professionnel à valeur économique, gagne 137 points Elo (1890 contre 1753).

Voici le tableau comparatif officiel publié par Anthropic dans son communiqué du 28 mai 2026 et son System Card :

Benchmark Opus 4.8 Opus 4.7 GPT-5.5 Gemini 3.1 Pro
Codage agentique
SWE-Bench Pro
69,2 % 64,3 % 58,6 % 54,2 %
Codage en terminal
Terminal-Bench 2.1
74,6 % 66,1 % 78,2 % 70,3 %
Utilisation de l’ordinateur
OSWorld-Verified
83,4 % 82,8 % 78,7 % 76,2 %
Raisonnement multidisciplinaire
Humanity’s Last Exam (sans outils)
49,8 % 46,9 % 41,4 %
Raisonnement avec outils
Humanity’s Last Exam (avec outils)
57,9 % 54,7 % 52,2 %
Travail intellectuel (Elo)
GDPval-AA
1890 1753 1769 1314
Analyse financière agentique
Finance Agent v2
53,9 % 51,5 % 51,8 %

Sources : Anthropic – Introducing Claude Opus 4.8, Claude Opus 4.8 System Card. Le score de GPT-5.5 sur Terminal-Bench 2.1 utilise le harness Terminus-2 ; avec son propre harness Codex CLI, il monte à 83,4 % selon Anthropic.

Le verdict : Opus 4.8 gagne 6 catégories sur 7 face à GPT-5.5 et Gemini 3.1 Pro. La seule défaite est Terminal-Bench 2.1, où GPT-5.5 conserve une avance. À mon sens, c’est sur SWE-bench Pro que se joue la vraie différence : 10 points d’avance sur GPT-5.5 et 15 sur Gemini, sur le test le moins contaminé.

Le vrai gain : un modèle qui sait dire « je ne suis pas sûr »

L’amélioration la plus concrète pour ton quotidien ne se voit pas sur un benchmark classique. Anthropic affirme qu’Opus 4.8 est 4 fois moins susceptible que la 4.7 de laisser passer des failles dans le code qu’il génère sans les signaler. Le modèle pose plus souvent des questions au lieu de foncer, signale ses incertitudes, et arrête de « déclarer victoire » trop tôt.

Tom Pritchard, staff engineer chez Shopify et testeur de la version preview, confirme dans le communiqué d’Anthropic que le modèle « détecte ses propres erreurs et résiste quand un plan manque de solidité ». Scott Wu, CEO de Cognition (l’éditeur de Devin), précise quant à lui qu’Opus 4.8 « corrige les problèmes de verbosité de commentaires et d’appel d’outils qu’on voyait avec Opus 4.7 ».

Cette histoire d’honnêteté n’est pas un argument marketing. Si tu utilises Claude en mode agentique — Claude Code, Cowork, ou via API pour des workflows longs — la 4.7 avait tendance à conclure qu’une tâche était terminée alors que les preuves étaient minces. Concrètement : un script qui semble fonctionner mais qui plante au cas limite, sans avertissement. La 4.8 te le signalera 4 fois plus souvent. C’est le changement qui justifie de basculer immédiatement.

Effort control et Dynamic Workflows : les deux vraies nouveautés

L’effort control est la nouveauté visible pour tous les abonnés Claude.ai et Cowork. Un sélecteur à côté du nom du modèle permet de choisir entre quatre niveaux d’effort : standard, high (le défaut désormais), extra et max. Plus l’effort est élevé, plus Claude « pense » longtemps avant de répondre — et plus tu consommes de tokens.

L’intérêt est double : sur tâche simple, tu descends en mode standard et tu épuises tes limites moins vite (c’est la principale critique d’Opus 4.7 que cette fonctionnalité corrige). Sur tâche complexe (refactor de gros projet, recherche financière, analyse multi-document), tu pousses en extra ou max. Anthropic recommande extra pour les tâches difficiles ou les workflows asynchrones longs.

Les Dynamic Workflows, eux, sont une bête à part. Disponibles uniquement dans Claude Code et pour les plans Max, Team et Enterprise, ils permettent à Claude de lancer des centaines de sous-agents en parallèle sur une même tâche, puis de vérifier les résultats avant de te les renvoyer. L’exemple d’Anthropic : une migration de base de code de centaines de milliers de lignes, du lancement au merge, en utilisant la suite de tests existante comme critère de validation.

Le plan Max démarre à 100 $ par mois selon MacGeneration. Tu paies cher, mais pour une équipe qui passe ses journées dans Claude Code sur de grosses bases legacy, le ROI peut être réel. À tester avant de s’engager.

Combien ça coûte (et qu’est-ce qui a changé sur les tarifs)

Le tarif standard d’Opus 4.8 ne bouge pas par rapport à 4.7 : 5 $ pour 1 million de tokens en entrée, 25 $ pour 1 million en sortie. C’est confirmé par Anthropic et repris par Axios et American Bazaar. Pour comparer : GPT-5.5 standard est à 10 $/40 $, Gemini 3.1 Pro à 2 $/12 $ (mais x2 au-delà de 200K tokens).

Le vrai changement tarifaire vient du fast mode. Cette option fait tourner Opus 4.8 à 2,5× la vitesse normale, pour 10 $ d’entrée et 50 $ de sortie. C’est 3 fois moins cher que le fast mode des modèles précédents. Utile quand tu construis un produit qui exige de la latence faible (chatbot, assistant temps réel) sans transiger sur la qualité du modèle.

Offre Entrée (1M tokens) Sortie (1M tokens) Accès Dynamic Workflows
API standard 5 $ 25 $ Non
API fast mode (2,5× vitesse) 10 $ 50 $ Non
Claude Pro ~20 $/mois Non
Claude Max À partir de 100 $/mois Oui
Claude Team / Enterprise Sur devis Oui

À ces tarifs s’ajoutent deux remises notables côté API : 90 % d’économie via prompt caching (le seuil descend à 1024 tokens minimum dans la 4.8) et 50 % via batch processing. Si tu traites des volumes, ces deux mécaniques changent franchement la facture finale.

Récap coûts : 4.6 vs 4.7 vs 4.8 et l’astuce du prompt caching

Avant d’expliquer le prompt caching, deux choses à retenir sur le coût brut. D’abord, le tarif unitaire d’Opus n’a pas bougé depuis février 2026 : 5 $ pour 1 million de tokens en entrée, 25 $ en sortie, identique pour Opus 4.6, 4.7 et 4.8. Confirmé par la page de tarification officielle d’Anthropic.

Ensuite, un point que peu de médias ont relevé : Opus 4.7 et 4.8 utilisent un nouveau tokenizer qui peut consommer jusqu’à 35 % de tokens supplémentaires pour le même texte qu’Opus 4.6. Anthropic le précise noir sur blanc dans sa documentation. Donc à prompt identique, la facture peut être légèrement plus élevée sur 4.8 que sur 4.6, malgré un tarif unitaire identique. Le gain en qualité compense, mais à savoir avant de migrer.

Tarif réel par cas d’usage

Type d’opération (Opus 4.8) Prix (1M tokens) vs prix de base
Entrée standard (sans cache) 5,00 $
Écriture cache 5 minutes 6,25 $ 1,25×
Écriture cache 1 heure 10,00 $
Lecture cache (cache hit) 0,50 $ 0,1× (–90 %)
Sortie (output) 25,00 $

Le prompt caching, c’est quoi exactement ?

Le principe : tu envoies souvent les mêmes blocs de contenu à Claude. Un long prompt système, un manuel technique, un PDF de 100 pages, une base de connaissances métier. À chaque appel, sans cache, Claude retraite tout depuis zéro et tu paies le tarif plein de 5 $/M.

Avec le prompt caching, Anthropic stocke le résultat du traitement de ces blocs. La première requête coûte un peu plus cher (1,25× ou 2× selon la durée de cache choisie), mais toutes les requêtes suivantes qui réutilisent ce contenu paient 10 % du tarif normal. C’est l’économie la plus rentable de l’API.

Cas d’usage concret : la migration d’une base de code legacy

Pour qui : un lead développeur d’une PME qui maintient une application Symfony de 250 000 lignes en PHP 7.4 et doit la migrer en PHP 8.3 avant la fin du support.

La tâche : identifier toutes les ruptures de compatibilité, refactorer les classes concernées, mettre à jour les dépendances Composer et garantir que la suite de tests existante passe à 100 % avant le merge.

La démarche en 4 étapes avec Claude Code + Opus 4.8 + Dynamic Workflows (plan Max minimum) :

  1. Lancer Claude Code dans le dépôt et activer Dynamic Workflows. Lui demander un audit complet : modules touchés, dépendances obsolètes, fonctions deprecated.
  2. Claude planifie le travail, déploie des sous-agents en parallèle sur les différents modules (modèles, contrôleurs, services, tests), et te remonte une liste hiérarchisée.
  3. Tu valides le plan, Claude applique les modifications, lance la suite de tests à chaque étape, et te signale les blocages qu’il ne sait pas résoudre seul (au lieu de « déclarer victoire » comme la 4.7 le faisait parfois).
  4. Revue humaine sur les fichiers critiques, puis merge.

Gain mesurable : selon les retours de l’équipe Anthropic et les démonstrations de Claude Code, une migration de cette ampleur passe de 3–4 semaines de travail développeur à quelques jours d’orchestration + revue. Le coût d’API tournera autour de 200–400 $ pour un projet de cette taille selon mes estimations basées sur les tarifs publics. À mettre en regard du coût-jour d’un dev senior.

Limites et précautions à connaître avant de basculer

Premier point honnête : les gains sont modestes. Anthropic le dit, plusieurs médias le confirment. MacGeneration rappelle que sur certains tests, « Opus 4.8 fait pratiquement du surplace, avec des gains probablement imperceptibles à l’usage« . Si tu utilises Claude pour de la rédaction simple ou du code basique, tu ne verras pas la différence avec la 4.7.

Deuxième point : GPT-5.5 reste meilleur sur Terminal-Bench 2.1 (78,2 % contre 74,6 %). Si tu vis dans le terminal et que tes tâches sont essentiellement du shell scripting agentique, GPT-5.5 reste à comparer. Pour tout le reste — refactor multi-fichier, agents long-running, computer use — Opus 4.8 prend la main.

Troisième point : Dynamic Workflows est en research preview et coûte cher. Réservé aux plans Max (100 $/mois), Team et Enterprise. Pour un développeur indépendant ou une petite équipe, l’API standard à 5 $/25 $ couplée à Claude Code reste l’option raisonnable. Tu n’as pas besoin de Dynamic Workflows pour 95 % des cas.

Quatrième point, le moins discuté : une légère régression sur GPQA Diamond (93,6 % contre 94,2 % pour la 4.7). C’est dans la marge d’erreur, mais ça vaut la peine d’être signalé pour les usages très scientifiques. Anthropic ne le cache pas dans son System Card.

Enfin : Mythos arrive « dans les prochaines semaines », confirmé par Anthropic dans son communiqué officiel. C’est le modèle de classe supérieure actuellement réservé à une quarantaine d’organisations dans le cadre de Project Glasswing. Si tu envisages un gros investissement infrastructure autour d’Opus 4.8, garde en tête que le successeur sera là sous peu.

Conclusion : pour qui c’est utile, pour qui ça ne l’est pas

Migre tout de suite si tu fais du code agentique (Claude Code, Cursor, Devin), du computer use, de l’analyse financière ou tu construis des agents long-running : le gain d’honnêteté seul vaut le passage, sans même parler des benchmarks.

Attends si tu utilises Claude pour de la rédaction, du résumé ou des tâches conversationnelles courtes : la différence avec Opus 4.7 sera quasi-invisible. Et si tu vis dans le terminal, garde un œil sur GPT-5.5.

À surveiller dans les prochaines semaines : l’arrivée de Mythos en GA, qui rebattra probablement les cartes, et la sortie annoncée par Anthropic de « modèles offrant les capacités d’Opus à un coût inférieur« . Si tu peux retenir tes décisions d’achat jusque-là, fais-le.

Sources

Image de Ulyss N
Ulyss N

Rédacteur AI-GEN - Passionné IA & productivité.