GPT-5.5 : premier retrain complet d'OpenAI depuis GPT-4.5, contexte 1 M tokens et 58,6 % sur SWE-bench Pro

Contexte

Six semaines après GPT-5.4, OpenAI publie GPT-5.5 le 23 avril 2026 — un modèle qui rompt avec la logique d'itération incrémentale. C'est le premier retrain complet depuis GPT-4.5 : nouvelle préentraînement de base, nouveau tokenizer, nouvelles données de RLHF, pas un ajustement de GPT-5.4. Le nom de code interne était « Spud » ; la préentraînement s'est terminée le 24 mars 2026. Le signal le plus fort : GPT-5.5 est le premier modèle de l'API OpenAI à proposer une fenêtre contextuelle native d'un million de tokens.

Pour les développeurs, la question centrale n'est pas de savoir si GPT-5.5 est meilleur (il l'est), mais à quel prix et pour quels cas d'usage le surcoût se justifie.

Points clés

SWE-bench Pro : 58,6 % — résolution de tickets GitHub réels à l'échelle du dépôt en une seule passe. Pour comparaison, Claude Opus 4.7 atteint 64,3 % sur ce même benchmark.
SWE-bench Verified : 88,7 % (contre 87,6 % pour Claude Opus 4.7 sorti une semaine plus tôt).
MMLU : 92,4 %.
Contexte : 1 000 000 tokens natifs — premier modèle OpenAI à ce niveau sur l'API publique.
Tarification API :
- gpt-5.5 : $5 / M tokens input, $30 / M tokens output
- gpt-5.5-pro : $30 / M tokens input, $180 / M tokens output
- Batch et Flex pricing : moitié du tarif standard.
- Priority processing : 2,5× le tarif standard.
Disponibilité : ChatGPT Plus, Pro, Business et Enterprise dès le 23 avril ; API Responses et Chat Completions simultanément.
Codex : OpenAI a mis à jour Codex pour utiliser GPT-5.5 par défaut ; NVIDIA exploite déjà le modèle sur son infrastructure pour des agents de code.

Capacités et usages cibles

OpenAI positionne GPT-5.5 explicitement sur les tâches agentiques : analyse de données, débogage de code, pilotage d'interfaces logicielles (computer use), recherche web longue, production de documents et de tableurs. Le modèle excelle là où le contexte long est structurellement nécessaire — audit de dépôt complet, analyse de corpus légal, réconciliation de codebases.

La variante gpt-5.5-pro cible les pipelines où la précision prime sur le coût : vérification formelle, synthèse de papers scientifiques, ingénierie de prompts complexes. À $180 / M tokens output, elle s'adresse à des volumes faibles et à forte valeur ajoutée.

from openai import OpenAI

client = OpenAI()
response = client.chat.completions.create(
    model="gpt-5.5",
    messages=[{"role": "user", "content": "Analyse ce dépôt..."}],
    max_tokens=4096,
)

Limite ou piège

Le doublement du prix output par rapport à GPT-5.4 ($15 → $30 / M tokens) est la friction principale. Pour des pipelines de RAG à haut débit ou des chatbots conversationnels, le ROI de GPT-5.5 vs GPT-5.4 — voire vs Claude Opus 4.7 ($25 / M tokens output) — mérite d'être mesuré avant migration. SWE-bench Pro montre aussi que GPT-5.5 reste légèrement sous Claude Opus 4.7 sur les tâches de coding autonome les plus complexes (58,6 % vs 64,3 %), ce qui tempère le discours sur la supériorité technique absolue.

Le contexte 1 M tokens est une avancée réelle, mais les benchmarks de rappel en milieu de contexte très long (Lost in the Middle) ne sont pas publiés par OpenAI pour ce modèle. À évaluer avant de déployer des pipelines RAG full-context.

Annonce officielle OpenAI · Analyse TechCrunch · Détail tarification API