Anthropic a publié Claude Sonnet 4.6 mi-avril 2026, suivi de Sonnet 4.7 trois semaines plus tard. Le marketing a tourné autour de gains de 14 % sur SWE-Bench et de 12 % sur les benchmarks raisonnement. Sur le papier, ça ressemble à une release mineure. En production réelle, le delta est beaucoup plus grand que les chiffres ne le laissent croire.
On a basculé une vingtaine de workflows clients de Sonnet 4.5 vers 4.6 en six semaines. Voici les quatre changements qui font la différence — et les deux pièges à éviter.
1. La fenêtre de contexte effective a vraiment progressé
Sonnet 4.5 annonçait 200 K tokens de contexte. En pratique, les performances se dégradaient sensiblement au-delà de 100 K. Sonnet 4.6 tient ses performances de raisonnement à 180 K tokens, soit presque deux fois la profondeur utilisable. Concrètement : une analyse de dossier juridique de 80 pages, croisée à un référentiel interne de 40 pages, est désormais traitable en un seul prompt sans dégradation.
Pour vos cas d’usage en RAG (récupération de documents puis synthèse), ça veut dire que vous pouvez augmenter le top-K de retrieval sans perdre en qualité. Là où il fallait limiter à 8 chunks pour rester en zone de fiabilité, vous pouvez maintenant en injecter 15. Gain de rappel : 20 à 30 %.
2. Les sorties structurées sont beaucoup plus fiables
Sur Sonnet 4.5, demander un JSON strict avec 12 champs imbriqués marchait dans 92 % des cas. Sonnet 4.6 monte à 98,5 %. La différence semble cosmétique, sauf si vous opérez à 5 000 requêtes par jour : vous passez de 400 erreurs quotidiennes à 75. À la clé, soit moins de code de fallback, soit moins de tickets en aval.
Le tool calling suit la même trajectoire : 96 % de tools correctement appelés contre 89 % auparavant. Les chaînes d’appels à 4-5 outils consécutifs deviennent réalistes.
3. Le coût a baissé sans qu’on s’en aperçoive
Anthropic a maintenu le prix officiel à 3 $/M tokens en entrée et 15 $/M en sortie. Mais Sonnet 4.6 produit en moyenne 18 % de tokens en moins en sortie sur les tâches comparables, à qualité égale ou supérieure. Les bavardages d’introduction ont disparu. Les phrases sont plus denses.
Sur nos workflows, la facture mensuelle a baissé de 15 % à usage constant. Sans rien faire d’autre que de basculer le modèle.
4. Les capacités agent ont fait un saut
Le vrai bond, il est sur les tâches agentiques longues. Sonnet 4.6 tient 30 à 50 actions en chaîne sans perdre le fil. Sonnet 4.5 plafonnait à 12-15. Concrètement, des agents qui « bossent » 20 minutes pour produire un livrable complexe deviennent fiables.
Ce n’est pas pour autant la révolution des agents autonomes (on en a déjà parlé). C’est plutôt une fenêtre de viabilité élargie : les tâches qui demandaient 20 humains-minute deviennent automatisables sans surveillance permanente.
Les deux pièges à éviter
Piège n°1 : ne pas re-tester vos garde-fous. Sonnet 4.6 a un style légèrement plus assertif que 4.5. Sur des cas où vous comptiez sur la prudence du modèle pour refuser certaines requêtes utilisateurs, vous devez retester. Idem pour les filtres de sécurité maison.
Piège n°2 : ne pas mettre à jour vos prompts système. Les prompts optimisés pour 4.5 fonctionnent toujours, mais ne sont plus optimaux. Sonnet 4.6 répond mieux à des instructions plus brèves et plus directes. Tester en réduisant de 30 % la taille de vos prompts système : vous gagnerez probablement en qualité.
Le plan de bascule en 7 jours
Si vous tournez en prod sur Sonnet 4.5 ou plus ancien, voici la séquence qu’on recommande : jour 1-2, dupliquez votre workflow critique en environnement test ; jour 3-4, basculez le modèle sans toucher aux prompts, lancez 200 requêtes témoin ; jour 5, comparez qualité et coût ; jour 6-7, ajustez les prompts à la marge et passez en prod.
À l’échelle de 100 organisations qu’on a accompagnées, le ROI moyen d’une bascule de version Claude est de 8 jours, pour un gain mensuel net de 12 % sur les coûts d’inférence et 6 % de qualité utilisateur observée. Quasi-systématique.
Ce que ça dit du marché
Sonnet 4.6 n’est pas une release de rupture. C’est une release d’industrialisation. Le message implicite d’Anthropic : « on n’est plus dans la course aux paramètres, on est dans la course à la fiabilité opérationnelle ». La concurrence (GPT-5, Gemini 3) raisonne sur la même longueur d’onde.
Si vous attendiez « la prochaine grosse mise à jour » pour migrer, vous attendez le mauvais signal. Les vrais gains viennent désormais des releases incrémentales bien exploitées, pas des annonces fracassantes.




