Pourquoi optimiser, et ce que « token » veut dire selon ton usage
Avant de régler quoi que ce soit, sache que le mot « token » ne désigne pas la même chose selon ta porte d’entrée. Sur l’API, tu paies au token, à l’entrée comme à la sortie. Sur l’abonnement claude.ai, tu ne paies pas au token : tu paies un forfait, avec des limites d’usage. Le levier d’optimisation n’est donc pas le même.
Dans les deux cas, un élément commun compte : la fenêtre de contexte. C’est la mémoire de travail de Claude pour une conversation. Elle contient tes messages, ses réponses, les documents partagés et les instructions. Quand elle se remplit, le plus ancien sort.
Point technique souvent ignoré : cette fenêtre est relue en entier à chaque message que tu envoies. Claude ne « se souvient » pas comme un humain, il retraite tout le fil depuis le début à chaque tour. Plus ton fil est lourd, plus chaque nouvelle requête coûte cher en calcul et en latence.
La suite de ce tuto suit trois niveaux, du plus large au plus fin : le projet, les réglages, la requête. Tu peux activer les trois en parallèle.
Niveau projet : un espace par sujet, pas un par tâche
Un projet Claude est un espace de travail dédié, avec son historique de chats, sa base de connaissances et ses instructions. Tu y déposes une fois tes documents : Claude les utilise comme contexte dans toutes les conversations du projet, sans que tu aies à les recoller à chaque fois.
Le mécanisme central pour les tokens se trouve ici. Quand la base de connaissances d’un projet approche la limite de la fenêtre de contexte, Claude bascule automatiquement en mode RAG. Au lieu d’injecter tous tes documents dans chaque message, il ne récupère que les passages pertinents pour ta question. Tu gardes un gros corpus de référence sans saturer le contexte à chaque échange.
À mon sens, c’est la règle d’organisation la plus rentable : crée peu de projets, mais bien cadrés. Cinq projets focalisés valent mieux que cinquante projets flous. Un projet par client, par produit ou par chantier, plutôt qu’un projet par micro-tâche. Les comptes gratuits sont limités à 5 projets.
Dernier réflexe : tiens ta base à jour. Un document périmé dans la base, c’est pire qu’un document absent, parce qu’il fournit à Claude un contexte faux avec assurance. Quand l’info change, remplace le fichier.
Niveau réglages : dis une fois ce que tu veux, pas à chaque message
Chaque préférence que tu répètes dans tes prompts consomme des tokens à chaque message. Claude propose deux endroits pour fixer ces préférences une bonne fois. Les instructions de profil, dans Réglages, s’appliquent à toutes tes conversations. Les instructions de projet ne s’appliquent qu’aux chats d’un projet donné.
Concrètement : ton rôle, ton secteur, ton vocabulaire métier, ton format de sortie préféré, ta langue. Tu les écris une fois dans les instructions. Tu arrêtes de les rappeler dans chaque requête. Le contexte reste léger et tu ne dérives plus.
Vient ensuite la longueur des réponses. Les styles de réponse (Concis, Formel, Explicatif) pilotent le volume produit. Le style Concis raccourcit les réponses, donc le nombre de tokens en sortie. Or la sortie est le token le plus cher : sur Claude Opus 4.8, elle coûte 25 $ par million contre 5 $ en entrée, d’après la page tarifs de l’API consultée en mai 2026. À noter : Anthropic indique que les styles migrent vers les skills, donc vérifie l’emplacement exact dans l’app.
Niveau requête : précis, court, et nouveau fil quand tu changes de sujet
Premier réflexe de prompt : la clarté, pas le volume. Allonger un prompt sans ajouter de précision dégrade le résultat plutôt que de l’améliorer. Dis explicitement le format et la longueur attendus. « Résume en 3 phrases de moins de 20 mots » bat « fais court ». Tu obtiens une sortie plus courte, donc moins de tokens, et tu évites les allers-retours de correction.
Deuxième réflexe : ouvre un nouveau fil quand tu changes de sujet. Comme la fenêtre est relue en entier à chaque message, un fil de 50 échanges traîne 49 échanges inutiles à chaque nouvelle question. Repartir d’un fil propre vide ce poids mort. Mets le contexte durable dans le projet, pas dans une conversation interminable.
Troisième réflexe, côté API : le prompt caching. Tu places ton contenu stable (instructions système, documentation, exemples) en tête de prompt, et tu le marques pour le cache. Les requêtes suivantes relisent ce préfixe depuis le cache au lieu de le retraiter. La lecture coûte 10 % du prix d’entrée, l’écriture 25 % de plus. Exemple : 20 000 tokens de doc produit réutilisés à chaque requête passent, en lecture cache, de 5 $ à 0,50 $ le million sur Opus 4.8. Le cache dure 5 minutes par défaut, extensible à 1 heure.
Une condition : le préfixe mis en cache doit être strictement identique d’une requête à l’autre. Et il existe un seuil minimal : sous 1 024 tokens sur Opus 4.8, le contenu n’est pas mis en cache, même marqué. Enfin, choisis le bon modèle : Sonnet pour le volume courant, Opus pour le raisonnement lourd. Le point suivant détaille ce choix.
Quel modèle choisir : Opus 4.8, 4.7, 4.6, Sonnet ou ChatGPT
Sur l’API, le modèle pèse directement sur la facture. Voici les tarifs officiels par million de tokens, avec ChatGPT en repère (mai 2026). La « lecture cache » correspond à l’entrée déjà mise en cache.
| Modèle | Entrée | Lecture cache | Sortie | Contexte |
|---|---|---|---|---|
| Claude Opus 4.8 | 5 $ | 0,50 $ | 25 $ | 1 M |
| Claude Opus 4.7 | 5 $ | 0,50 $ | 25 $ | 1 M |
| Claude Opus 4.6 | 5 $ | 0,50 $ | 25 $ | 1 M |
| Claude Sonnet 4.6 | 3 $ | 0,30 $ | 15 $ | 1 M |
| GPT-5.5 (ChatGPT) | 5 $ | 0,50 $ | 30 $ | ~1,05 M |
Premier constat, et il surprend : les trois Opus coûtent exactement le même prix au token, 5 $ en entrée et 25 $ en sortie. Le tarif ne les départage pas. Tu prends donc le plus récent, Opus 4.8, sauf raison précise de figer une version pour la reproductibilité.
Deuxième constat : Sonnet 4.6 offre la même fenêtre de 1 million de tokens pour environ 40 % moins cher. Pour la rédaction web, la synthèse de documents ou le volume courant, c’est le choix rationnel. Garde Opus pour le raisonnement lourd et le code complexe.
Côté ChatGPT, GPT-5.5 (sorti le 23 avril 2026) s’aligne sur Opus en entrée (5 $) et en lecture cache (0,50 $), mais sort plus cher : 30 $ contre 25 $. Sur des tâches qui génèrent beaucoup de texte, l’écart penche pour Claude. Détail utile : les deux écosystèmes appliquent désormais environ 90 % de remise sur l’entrée mise en cache. Le cache est devenu un réflexe standard, peu importe le fournisseur.
Cas concret : créer le site web d’une entreprise sur l’appli (abonnement)
Pour qui : un freelance ou une agence sur un abonnement Claude (Pro ou Max), qui crée le site d’une entreprise avec de l’historique. Quoi : produire les pages (accueil, à propos, produits) à partir de nombreux documents — histoire de la boîte, fiches produits, charte, contenus existants, parfois des visuels.
Le bon réflexe mental : sur l’appli, tu n’as pas de facture au token, tu as un quota d’usage qui se recharge toutes les 5 heures. Ton plafond dépend de la longueur de tes messages, de la taille des fichiers joints et de la longueur de la conversation. Plus tu envoies léger, plus tard tu tapes le mur. Optimiser ici, c’est tenir une journée de travail sans blocage.
Avant tout : quels fichiers déposer, et dans quel format
Ce que tu mets dans le projet pèse plus que tout le reste. Trois règles simples font la différence.
Le texte d’abord. Privilégie le Word (.docx), le PDF natif (texte sélectionnable), le Markdown ou le .txt. Évite le HTML brut : les balises sont lues comme du contenu et gonflent le fichier. Un test communautaire a mesuré qu’un même document en HTML occupe environ deux fois plus de place dans la base qu’en Word, PDF ou Markdown.
Le PDF natif, pas le scan. Un PDF scanné est une suite d’images : chaque page est traitée comme une image, donc lourde et moins bien lue. Si tu n’as qu’un scan, repasse-le en texte (OCR) avant de le déposer. Un PDF dont tu peux sélectionner le texte à la souris est bon ; une photo de page ne l’est pas.
Les images coûtent cher, mesure-les. Une image se facture environ largeur × hauteur ÷ 750 tokens. Une image de 1000 × 1000 px pèse donc à peu près 1 334 tokens, soit l’équivalent d’environ 1 000 mots de texte. Conséquence directe : ne dépose une image que si Claude doit vraiment l’analyser (un mockup à commenter, un logo à décrire). Pour tout le reste, décris-la en une phrase plutôt que de la charger. Et si tu en charges une, redimensionne-la : au-delà de 1568 px sur le grand côté, Claude la réduit de toute façon, autant le faire toi-même et économiser le poids.
Les 8 étapes
- Crée un projet dédié, pas un simple chat. Nomme-le « Site web — [Entreprise] ». Tout ce que tu y déposes servira à tous les chats du projet, sans le recoller à chaque fois.
- Convertis tes documents au bon format. Word, PDF natif, Markdown ou .txt. Pas de HTML brut, pas de PDF scanné. C’est l’étape qui allège le plus la base.
- Découpe par thème. Un fichier « Histoire de l’entreprise », un « Produits », un « Ton et style », plutôt qu’un seul PDF de 200 pages. Le RAG cible mieux des fichiers thématiques, et tu mets à jour un seul bloc quand une info change.
- Traite les visuels à part. Garde les images dont Claude a besoin pour rédiger, redimensionnées sous 1568 px. Les autres (photos d’ambiance, captures décoratives) restent hors du projet : elles consommeraient ton quota pour rien.
- Dépose le tout dans la base de connaissances, une fois. Claude la réutilise dans tous les chats du projet. Près de la limite de contexte, il bascule en RAG et ne remonte que les passages utiles à ta question.
- Règle les instructions de projet une seule fois. Dans « Instructions du projet » : rôle (« tu es rédacteur web pour [entreprise] »), ton, format des livrables (titre, meta, sections), langue, contraintes SEO. Tu cesses de les répéter dans chaque prompt.
- Passe en style Concis dans les réglages Claude. Le sélecteur de style, près de la zone de saisie, raccourcit les réponses. Moins de texte produit, c’est moins de quota consommé et moins d’allers-retours pour faire le tri.
- Un chat par chantier, et des requêtes bornées. Un chat « Accueil », un « Pages produits », un « À propos » : chaque fil reste léger. Et formule précis : « Rédige la page À propos en 400 mots, 3 sections, ton défini dans les instructions. »
Résultat : tes documents sont chargés une fois et au format le plus léger, pas recollés ni gonflés à chaque échange. Les visuels inutiles ne grèvent plus ton quota. Le RAG ne remonte que l’utile, le style Concis raccourcit les sorties, et les instructions évitent les répétitions. Concrètement, tu tiens une journée entière de production sans buter sur les limites des 5 heures, à qualité stable d’une page à l’autre.
Limites et précautions
Premier piège : remplir le contexte à ras bord ne rend pas Claude plus intelligent. Le benchmark RULER de NVIDIA situe le contexte réellement exploitable autour de 50 à 65 % de la capacité annoncée. Un modèle vendu à 200 000 tokens devient peu fiable vers 130 000. Opus 4.6 fait figure d’exception sur les très longs contextes, mais la règle générale tient : un contexte ciblé bat un contexte gonflé.
Deuxième piège, propre au cache : la moindre variation dans le préfixe casse tout. Un horodatage, un identifiant qui change, une image ajoutée, et le hash ne correspond plus. Tu paies alors une écriture de cache à chaque requête sans jamais profiter d’une lecture. Mets le point de cache sur le dernier bloc vraiment stable.
Troisième point : le cache et la facturation au token concernent l’API. Sur l’abonnement claude.ai, tu n’as pas de levier « cache » à actionner toi-même. Tes leviers y sont l’hygiène de conversation, les instructions de profil et le style Concis.
Enfin, deux réserves de calendrier. La fenêtre de 1 million de tokens (disponibilité générale annoncée le 13 mars 2026 pour Opus 4.6 et Sonnet 4.6) vise surtout l’API, à un niveau d’usage élevé, et n’est pas proposée telle quelle sur l’interface web. Et la bascule des styles vers les skills est en cours : vérifie l’emplacement dans ton app avant de t’appuyer dessus.
Conclusion
Si tu utilises Claude via l’API, le prompt caching est ton vrai levier euro : un préfixe stable bien placé, et l’input réutilisé tombe à 10 % de son prix. Pour le modèle, ne te casse pas la tête entre les Opus, ils coûtent pareil : prends Opus 4.8, et bascule sur Sonnet 4.6 pour tout ce qui est volume. Si tu travailles sur claude.ai, l’enjeu est la qualité et les limites d’usage : projets cadrés, instructions fixées une fois, style Concis, nouveaux fils. Usage occasionnel ? Ne micro-optimise pas. À surveiller dans les prochaines semaines : la généralisation du 1 million de tokens sur le web et la migration des styles vers les skills.
- Prompt caching — documentation officielle Claude API (tarifs, seuils, fonctionnement)
- Models overview — specs et tarifs Opus 4.8, Sonnet 4.6 (Claude API)
- What are projects — Claude Help Center
- Créer et gérer des projets, bascule RAG automatique — Claude Help Center
- Personalization features : instructions de profil, de projet, styles vers skills — Claude Help Center
- Best practices for prompt engineering — Claude
- GPT-5.5 — tarifs et fenêtre de contexte (OpenRouter)
- GPT-5.5 pricing, sortie du 23 avril 2026 — Apidog
- Vision : coût des images en tokens (largeur × hauteur ÷ 750) et redimensionnement — Claude Docs
- Limites d’usage du plan Max : métrage selon la longueur des messages et fichiers — Claude Help Center
- Test comparatif des formats dans la base de connaissances (HTML ~2× plus lourd)
- Fenêtre de contexte et contexte effectif (benchmark RULER, NVIDIA) — Morph
- Gains de latence du prompt caching, chiffres Anthropic — Spring