Claude Opus 4.7 : Anthropic publie son meilleur modèle public sur SWE-bench, avec avertissement Mythos

Contexte

Claude Opus 4.7, publié le 16 avril 2026 par Anthropic, succède à Opus 4.6 et revendique la première place sur les benchmarks de résolution autonome d'issues GitHub. Sa sortie intervient dans un contexte de compétition intense : OpenAI a publié GPT-5.5 le 23 avril et Google pousse Gemini 3.1 Pro sur les évaluations de raisonnement. Paradoxalement, Anthropic a lui-même reconnu dans son annonce que son modèle interne non publié Mythos dépasse déjà Opus 4.7 — un signal inhabituel qui reflète la pression concurrentielle et une volonté de gérer les attentes sur la durée de vie de ce modèle.

Points clés

SWE-bench Verified : 87,6 % (+6,8 points vs Opus 4.6 à 80,8 %), devant GPT-5.4 à 83,1 % et Gemini 3.1 Pro à 80,6 %. Ce benchmark mesure la capacité à résoudre de vraies issues GitHub en mode autonome — un proxy fiable de la valeur pour les agents de développement.
SWE-bench Pro : 64,3 % (vs 53,4 % pour Opus 4.6, +10,9 points), une progression marquée sur les tâches les plus difficiles. GPT-5.4 score 57,7 %, Gemini 3.1 Pro 54,2 %.
Vision haute résolution : Opus 4.7 prend en charge jusqu'à 4 784 tokens par image avec une profondeur maximale de 2 576 pixels sur le grand côté. Amélioration notable pour l'analyse de captures d'écran, de diagrammes techniques et de documents denses.
Raisonnement long et autonome : le modèle est décrit comme capable de « vérifier ses propres sorties avant de rendre compte », ce qui le rend plus fiable dans des cycles agentiques multi-étapes nécessitant de l'auto-correction.
Cyber Verification Program : Anthropic a ajouté des garde-fous automatiques bloquant les usages cybersécurité non autorisés. Les professionnels légitimes (pentest, red team, recherche en vulnérabilités) doivent s'inscrire à ce programme pour accéder aux capacités complètes dans ce domaine.
Tarification inchangée : $5 / million de tokens en entrée, $25 / million en sortie — identique à Opus 4.6. Disponible sur Claude API (identifiant claude-opus-4-7), Amazon Bedrock, Google Cloud Vertex AI et Microsoft Azure AI Foundry.

Exemple d'appel API

import anthropic

client = anthropic.Anthropic()
message = client.messages.create(
    model="claude-opus-4-7",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Analyse ce diff et propose des corrections."}],
)
print(message.content)

Limites et nuances

La mention explicite de Mythos dans l'annonce doit être lue comme un signal stratégique : Anthropic gère sa cadence de sortie pour répondre à la concurrence tout en retenant ses modèles les plus puissants. Sur les benchmarks de raisonnement pur — GPQA Diamond notamment — Gemini 3.1 Pro (94,3 %) devance encore Opus 4.7, ce qui rappelle que « meilleur sur SWE-bench » ne signifie pas « meilleur sur tout ».

Pour les équipes en production sur Opus 4.6, la migration mérite une validation sur vos cas d'usage spécifiques avant bascule : les gains sur les tâches de code complexe sont réels, mais les coûts restent identiques et certains comportements liés au Cyber Verification Program peuvent nécessiter des ajustements dans les workflows de sécurité.

Annonce Anthropic — Introducing Claude Opus 4.7 · Documentation modèles Claude · GitHub Copilot : Claude Opus 4.7 GA · Amazon Bedrock — Opus 4.7