édition quotidiennecurated dispatchespas de rewritediffusion à l'aubelecture longuepublication rarearchivé à viesilence, puis signal
ai2026.04.21il y a 17 jours2 min de lecture

Claude Opus 4.7 : leader public sur SWE-bench Pro avec 64,3 % et effort xhigh

Anthropic publie Claude Opus 4.7 le 16 avril 2026 : 64,3 % sur SWE-bench Pro (vs GPT-5.4 à 57,7 %), nouveau niveau d'effort xhigh, budgets de tâches agentiques et résolution visuelle triplée à 2 576 px. Prix inchangé.

#llm#benchmark#claude#agentic#vision
§

Contexte

Anthropic publie Claude Opus 4.7 le 16 avril 2026, reprenant la tête des modèles de langage généralement disponibles sur les benchmarks d'ingénierie logicielle. Ce lancement intervient dans un contexte particulier : Claude Mythos, le modèle interne d'Anthropic qui surpasse tous les systèmes publics, reste interdit de diffusion pour des raisons de cybersécurité et n'est accessible qu'à une cinquantaine d'organisations sous le programme Project Glasswing. Opus 4.7 représente donc le plafond accessible — et il devance GPT-5.4 (57,7 %) ainsi que Gemini 3.1 Ultra (57 points sur l'Artificial Analysis Intelligence Index) sur les métriques qui comptent pour les développeurs.

Résultats de benchmarks

  • SWE-bench Pro : 64,3 % — +6,6 pts sur GPT-5.4 (57,7 %) et +10,9 pts sur Opus 4.6 (53,4 %)
  • SWE-bench Verified : 87,6 % (tâches de génie logiciel en environnement réel)
  • GPQA Diamond : 94,2 % (raisonnement scientifique graduate-level)
  • Sur un benchmark interne de 93 tâches, Opus 4.7 résout 13 % de plus qu'Opus 4.6 — dont quatre tâches qu'Opus 4.6 et Sonnet 4.6 ne parvenaient pas à résoudre

Trois nouvelles fonctionnalités

Niveau d'effort xhigh

Un quatrième niveau d'effort s'intercale entre high et max. Anthropic recommande de démarrer avec xhigh pour les cas d'usage coding et agentiques avant d'escalader vers max. Ce niveau permet un équilibre entre performance et consommation de tokens de réflexion.

Task budgets (budgets de tâches)

Claude reçoit désormais un budget de tokens estimé pour une boucle agentique complète — pensée étendue, appels d'outils, résultats et sortie finale. Le modèle voit un décompte en temps réel et adapte sa priorisation en conséquence, limitant les boucles inutiles sur les agents longue durée.

Vision haute résolution

La résolution maximale d'image passe de 1 568 px (1,15 MP) à 2 576 px (3,75 MP) — plus de trois fois la capacité des modèles Claude précédents. Pertinent pour l'analyse de captures d'écran, de schémas techniques, de documents scientifiques ou de tableaux de bord.

Exemple d'intégration (SDK Python)

import anthropic

client = anthropic.Anthropic()
response = client.messages.create(
    model="claude-opus-4-7",
    max_tokens=16000,
    thinking={"type": "enabled", "budget_tokens": 10000},
    messages=[{"role": "user", "content": "Analyse ce rapport de bug et propose un patch..."}],
)
print(response.content)

Disponibilité et tarification

Disponible dès le 16 avril sur l'API Claude, Amazon Bedrock, Google Cloud Vertex AI et Microsoft Foundry. Le pricing reste identique à Opus 4.6 : $5 / 1M tokens d'entrée, $25 / 1M tokens de sortie.

Limites et points d'attention

L'effort xhigh consomme davantage de tokens de réflexion que high : les boucles agentiques profondes peuvent voir leur coût augmenter significativement malgré un prix par token inchangé. Par ailleurs, Opus 4.7 reste distancé par Claude Mythos en interne — le potentiel technique d'Anthropic dépasse ce qui est publiquement accessible. Enfin, le modèle identifiant API est claude-opus-4-7 ; vérifier les alias dans les SDK si vous migrez depuis Opus 4.6.

Source principale — Anthropic

Sources secondaires : CNBC · GitHub Changelog