Anthropic a sorti Claude Opus 4.8 le 28 mai 2026, soit 41 jours seulement après la 4.7. Même prix, gains « modestes mais perceptibles » reconnus par Anthropic lui-même, et deux fonctionnalités vraiment nouvelles : effort control pour tous, dynamic workflows pour les plans premium. Voici qui doit migrer, qui peut attendre.
Ce qui change vraiment vs Opus 4.7 (et la concurrence)
Le résumé d’Anthropic est inhabituellement honnête : « une amélioration modeste mais tangible par rapport à son prédécesseur ». Pour une fois, l’éditeur ne survend pas. Les chiffres confirment : sur SWE-bench Verified, le modèle passe de 87,6 % à 88,6 %, soit un seul point. Le benchmark sature.
Les gains les plus notables se concentrent sur trois benchmarks plus difficiles. SWE-bench Pro grimpe de 64,3 % à 69,2 % (+4,9 points) — c’est le test le plus représentatif du code réel, sur des dépôts maintenus et sans données qui fuitent. Terminal-Bench 2.1 bondit de 66,1 % à 74,6 % (+8,5 points). GDPval-AA, qui mesure le travail intellectuel professionnel à valeur économique, gagne 137 points Elo (1890 contre 1753).
Voici le tableau comparatif officiel publié par Anthropic dans son communiqué du 28 mai 2026 et son System Card :
| Benchmark | Opus 4.8 | Opus 4.7 | GPT-5.5 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Codage agentique SWE-Bench Pro |
69,2 % | 64,3 % | 58,6 % | 54,2 % |
| Codage en terminal Terminal-Bench 2.1 |
74,6 % | 66,1 % | 78,2 % | 70,3 % |
| Utilisation de l’ordinateur OSWorld-Verified |
83,4 % | 82,8 % | 78,7 % | 76,2 % |
| Raisonnement multidisciplinaire Humanity’s Last Exam (sans outils) |
49,8 % | 46,9 % | 41,4 % | — |
| Raisonnement avec outils Humanity’s Last Exam (avec outils) |
57,9 % | 54,7 % | 52,2 % | — |
| Travail intellectuel (Elo) GDPval-AA |
1890 | 1753 | 1769 | 1314 |
| Analyse financière agentique Finance Agent v2 |
53,9 % | 51,5 % | 51,8 % | — |
Sources : Anthropic – Introducing Claude Opus 4.8, Claude Opus 4.8 System Card. Le score de GPT-5.5 sur Terminal-Bench 2.1 utilise le harness Terminus-2 ; avec son propre harness Codex CLI, il monte à 83,4 % selon Anthropic.
Le verdict : Opus 4.8 gagne 6 catégories sur 7 face à GPT-5.5 et Gemini 3.1 Pro. La seule défaite est Terminal-Bench 2.1, où GPT-5.5 conserve une avance. À mon sens, c’est sur SWE-bench Pro que se joue la vraie différence : 10 points d’avance sur GPT-5.5 et 15 sur Gemini, sur le test le moins contaminé.
Le vrai gain : un modèle qui sait dire « je ne suis pas sûr »
L’amélioration la plus concrète pour ton quotidien ne se voit pas sur un benchmark classique. Anthropic affirme qu’Opus 4.8 est 4 fois moins susceptible que la 4.7 de laisser passer des failles dans le code qu’il génère sans les signaler. Le modèle pose plus souvent des questions au lieu de foncer, signale ses incertitudes, et arrête de « déclarer victoire » trop tôt.
Tom Pritchard, staff engineer chez Shopify et testeur de la version preview, confirme dans le communiqué d’Anthropic que le modèle « détecte ses propres erreurs et résiste quand un plan manque de solidité ». Scott Wu, CEO de Cognition (l’éditeur de Devin), précise quant à lui qu’Opus 4.8 « corrige les problèmes de verbosité de commentaires et d’appel d’outils qu’on voyait avec Opus 4.7 ».
Cette histoire d’honnêteté n’est pas un argument marketing. Si tu utilises Claude en mode agentique — Claude Code, Cowork, ou via API pour des workflows longs — la 4.7 avait tendance à conclure qu’une tâche était terminée alors que les preuves étaient minces. Concrètement : un script qui semble fonctionner mais qui plante au cas limite, sans avertissement. La 4.8 te le signalera 4 fois plus souvent. C’est le changement qui justifie de basculer immédiatement.
Effort control et Dynamic Workflows : les deux vraies nouveautés
L’effort control est la nouveauté visible pour tous les abonnés Claude.ai et Cowork. Un sélecteur à côté du nom du modèle permet de choisir entre quatre niveaux d’effort : standard, high (le défaut désormais), extra et max. Plus l’effort est élevé, plus Claude « pense » longtemps avant de répondre — et plus tu consommes de tokens.
L’intérêt est double : sur tâche simple, tu descends en mode standard et tu épuises tes limites moins vite (c’est la principale critique d’Opus 4.7 que cette fonctionnalité corrige). Sur tâche complexe (refactor de gros projet, recherche financière, analyse multi-document), tu pousses en extra ou max. Anthropic recommande extra pour les tâches difficiles ou les workflows asynchrones longs.
Les Dynamic Workflows, eux, sont une bête à part. Disponibles uniquement dans Claude Code et pour les plans Max, Team et Enterprise, ils permettent à Claude de lancer des centaines de sous-agents en parallèle sur une même tâche, puis de vérifier les résultats avant de te les renvoyer. L’exemple d’Anthropic : une migration de base de code de centaines de milliers de lignes, du lancement au merge, en utilisant la suite de tests existante comme critère de validation.
Le plan Max démarre à 100 $ par mois selon MacGeneration. Tu paies cher, mais pour une équipe qui passe ses journées dans Claude Code sur de grosses bases legacy, le ROI peut être réel. À tester avant de s’engager.
Combien ça coûte (et qu’est-ce qui a changé sur les tarifs)
Le tarif standard d’Opus 4.8 ne bouge pas par rapport à 4.7 : 5 $ pour 1 million de tokens en entrée, 25 $ pour 1 million en sortie. C’est confirmé par Anthropic et repris par Axios et American Bazaar. Pour comparer : GPT-5.5 standard est à 10 $/40 $, Gemini 3.1 Pro à 2 $/12 $ (mais x2 au-delà de 200K tokens).
Le vrai changement tarifaire vient du fast mode. Cette option fait tourner Opus 4.8 à 2,5× la vitesse normale, pour 10 $ d’entrée et 50 $ de sortie. C’est 3 fois moins cher que le fast mode des modèles précédents. Utile quand tu construis un produit qui exige de la latence faible (chatbot, assistant temps réel) sans transiger sur la qualité du modèle.
| Offre | Entrée (1M tokens) | Sortie (1M tokens) | Accès Dynamic Workflows |
|---|---|---|---|
| API standard | 5 $ | 25 $ | Non |
| API fast mode (2,5× vitesse) | 10 $ | 50 $ | Non |
| Claude Pro | ~20 $/mois | Non | |
| Claude Max | À partir de 100 $/mois | Oui | |
| Claude Team / Enterprise | Sur devis | Oui | |
À ces tarifs s’ajoutent deux remises notables côté API : 90 % d’économie via prompt caching (le seuil descend à 1024 tokens minimum dans la 4.8) et 50 % via batch processing. Si tu traites des volumes, ces deux mécaniques changent franchement la facture finale.
Récap coûts : 4.6 vs 4.7 vs 4.8 et l’astuce du prompt caching
Avant d’expliquer le prompt caching, deux choses à retenir sur le coût brut. D’abord, le tarif unitaire d’Opus n’a pas bougé depuis février 2026 : 5 $ pour 1 million de tokens en entrée, 25 $ en sortie, identique pour Opus 4.6, 4.7 et 4.8. Confirmé par la page de tarification officielle d’Anthropic.
Ensuite, un point que peu de médias ont relevé : Opus 4.7 et 4.8 utilisent un nouveau tokenizer qui peut consommer jusqu’à 35 % de tokens supplémentaires pour le même texte qu’Opus 4.6. Anthropic le précise noir sur blanc dans sa documentation. Donc à prompt identique, la facture peut être légèrement plus élevée sur 4.8 que sur 4.6, malgré un tarif unitaire identique. Le gain en qualité compense, mais à savoir avant de migrer.
Tarif réel par cas d’usage
| Type d’opération (Opus 4.8) | Prix (1M tokens) | vs prix de base |
|---|---|---|
| Entrée standard (sans cache) | 5,00 $ | 1× |
| Écriture cache 5 minutes | 6,25 $ | 1,25× |
| Écriture cache 1 heure | 10,00 $ | 2× |
| Lecture cache (cache hit) | 0,50 $ | 0,1× (–90 %) |
| Sortie (output) | 25,00 $ | — |
Le prompt caching, c’est quoi exactement ?
Le principe : tu envoies souvent les mêmes blocs de contenu à Claude. Un long prompt système, un manuel technique, un PDF de 100 pages, une base de connaissances métier. À chaque appel, sans cache, Claude retraite tout depuis zéro et tu paies le tarif plein de 5 $/M.
Avec le prompt caching, Anthropic stocke le résultat du traitement de ces blocs. La première requête coûte un peu plus cher (1,25× ou 2× selon la durée de cache choisie), mais toutes les requêtes suivantes qui réutilisent ce contenu paient 10 % du tarif normal. C’est l’économie la plus rentable de l’API.
Cas d’usage concret : la migration d’une base de code legacy
Pour qui : un lead développeur d’une PME qui maintient une application Symfony de 250 000 lignes en PHP 7.4 et doit la migrer en PHP 8.3 avant la fin du support.
La tâche : identifier toutes les ruptures de compatibilité, refactorer les classes concernées, mettre à jour les dépendances Composer et garantir que la suite de tests existante passe à 100 % avant le merge.
La démarche en 4 étapes avec Claude Code + Opus 4.8 + Dynamic Workflows (plan Max minimum) :
- Lancer Claude Code dans le dépôt et activer Dynamic Workflows. Lui demander un audit complet : modules touchés, dépendances obsolètes, fonctions deprecated.
- Claude planifie le travail, déploie des sous-agents en parallèle sur les différents modules (modèles, contrôleurs, services, tests), et te remonte une liste hiérarchisée.
- Tu valides le plan, Claude applique les modifications, lance la suite de tests à chaque étape, et te signale les blocages qu’il ne sait pas résoudre seul (au lieu de « déclarer victoire » comme la 4.7 le faisait parfois).
- Revue humaine sur les fichiers critiques, puis merge.
Gain mesurable : selon les retours de l’équipe Anthropic et les démonstrations de Claude Code, une migration de cette ampleur passe de 3–4 semaines de travail développeur à quelques jours d’orchestration + revue. Le coût d’API tournera autour de 200–400 $ pour un projet de cette taille selon mes estimations basées sur les tarifs publics. À mettre en regard du coût-jour d’un dev senior.
Limites et précautions à connaître avant de basculer
Premier point honnête : les gains sont modestes. Anthropic le dit, plusieurs médias le confirment. MacGeneration rappelle que sur certains tests, « Opus 4.8 fait pratiquement du surplace, avec des gains probablement imperceptibles à l’usage« . Si tu utilises Claude pour de la rédaction simple ou du code basique, tu ne verras pas la différence avec la 4.7.
Deuxième point : GPT-5.5 reste meilleur sur Terminal-Bench 2.1 (78,2 % contre 74,6 %). Si tu vis dans le terminal et que tes tâches sont essentiellement du shell scripting agentique, GPT-5.5 reste à comparer. Pour tout le reste — refactor multi-fichier, agents long-running, computer use — Opus 4.8 prend la main.
Troisième point : Dynamic Workflows est en research preview et coûte cher. Réservé aux plans Max (100 $/mois), Team et Enterprise. Pour un développeur indépendant ou une petite équipe, l’API standard à 5 $/25 $ couplée à Claude Code reste l’option raisonnable. Tu n’as pas besoin de Dynamic Workflows pour 95 % des cas.
Quatrième point, le moins discuté : une légère régression sur GPQA Diamond (93,6 % contre 94,2 % pour la 4.7). C’est dans la marge d’erreur, mais ça vaut la peine d’être signalé pour les usages très scientifiques. Anthropic ne le cache pas dans son System Card.
Enfin : Mythos arrive « dans les prochaines semaines », confirmé par Anthropic dans son communiqué officiel. C’est le modèle de classe supérieure actuellement réservé à une quarantaine d’organisations dans le cadre de Project Glasswing. Si tu envisages un gros investissement infrastructure autour d’Opus 4.8, garde en tête que le successeur sera là sous peu.
Conclusion : pour qui c’est utile, pour qui ça ne l’est pas
Migre tout de suite si tu fais du code agentique (Claude Code, Cursor, Devin), du computer use, de l’analyse financière ou tu construis des agents long-running : le gain d’honnêteté seul vaut le passage, sans même parler des benchmarks.
Attends si tu utilises Claude pour de la rédaction, du résumé ou des tâches conversationnelles courtes : la différence avec Opus 4.7 sera quasi-invisible. Et si tu vis dans le terminal, garde un œil sur GPT-5.5.
À surveiller dans les prochaines semaines : l’arrivée de Mythos en GA, qui rebattra probablement les cartes, et la sortie annoncée par Anthropic de « modèles offrant les capacités d’Opus à un coût inférieur« . Si tu peux retenir tes décisions d’achat jusque-là, fais-le.
Sources
- Anthropic – Introducing Claude Opus 4.8 (28 mai 2026)
- Anthropic – Claude Opus 4.8 System Card
- Blog du Modérateur – Anthropic lance Claude Opus 4.8 et une fonctionnalité pour mieux gérer ses tokens
- MacGeneration – Une mise à jour « modeste, mais perceptible »
- Vellum – Claude Opus 4.8 Benchmarks Explained
- Axios – Anthropic releases new model, Opus 4.8
- GitHub Changelog – Claude Opus 4.8 generally available for GitHub Copilot
- VentureBeat – Claude Opus 4.8 with 3X cheaper fast mode
Rédacteur AI-GEN - Passionné IA & productivité.