DeepSeek-V4 Preview : MoE 1,6 T de paramètres sous MIT, contexte 1 M tokens natif

Contexte

Le 24 avril 2026, DeepSeek a mis en ligne le preview de sa quatrième génération de modèles foundational. Après DeepSeek-V3, dont les benchmarks avaient forcé un repositionnement tarifaire chez OpenAI en début d'année 2025, la V4 est annoncée avec un seul objectif affirmé : faire du contexte d'un million de tokens une ligne de base architecturale plutôt qu'une option payante. Le tout sous licence MIT — la plus permissive possible — et avec les poids disponibles immédiatement sur Hugging Face.

La sortie intervient dans un contexte d'intensification de la « course aux contextes » : GPT-5.5 vient d'annoncer 1 M tokens, Claude Opus 4.7 supporte 1 M tokens en GA, et Gemini 3.1 Pro s'en approche. DeepSeek entre sur ce terrain avec un avantage coût structurel lié à son architecture Mixture-of-Experts.

Points clés

Deux variantes, même ADN

DeepSeek-V4-Pro : 1 600 milliards de paramètres au total, 49 milliards actifs par inférence (ratio d'activation ~3 %), fenêtre de contexte 1 M tokens, MIT.
DeepSeek-V4-Flash : 284 milliards de paramètres au total, 13 milliards actifs, même fenêtre 1 M tokens, optimisé pour la latence et le coût.
Les deux variantes sont publiées sur Hugging Face sous MIT, téléchargeables et modifiables librement.

Benchmarks

Benchmark	V4-Pro	Claude Opus 4.6	GPT-5.4
SWE-bench Verified	80,6 %	80,8 %	~80 %
LiveCodeBench	93,5	88,8	~90
MMLU-Pro	87,5	89,1	87,5

Sur le code, V4-Pro prend la tête. Sur la connaissance générale et le raisonnement multidisciplinaire, Gemini 3.1 Pro (91,0 MMLU-Pro) conserve l'avantage. Les chiffres proviennent des notes de publication DeepSeek et de l'analyse indépendante de BenchLM.

API compatible double standard

L'API accepte indifféremment le format ChatCompletions d'OpenAI et le format Messages d'Anthropic. Pour les équipes qui utilisent déjà l'un ou l'autre SDK, la migration est minime.

# Compatible format Anthropic Messages API
from anthropic import Anthropic
client = Anthropic(base_url="https://api.deepseek.com", api_key="...")
response = client.messages.create(
    model="deepseek-v4-pro",
    max_tokens=4096,
    messages=[{"role": "user", "content": "Explique l'architecture MoE de DeepSeek-V4."}]
)

Limites et points de vigilance

Preview ≠ GA. DeepSeek appelle explicitement cette sortie un « preview » ; des comportements instables ou des limitations API non documentées sont à prévoir. Les benchmarks fournis par DeepSeek eux-mêmes méritent d'être reproduits en interne avant de baser des décisions d'architecture dessus.

Coût en tokens. Avec 1 M de tokens de contexte comme valeur par défaut, la facturation peut surprendre pour des usages naïfs. Les tarifs sont inférieurs à ceux des modèles frontière fermés — MIT Technology Review estime que V4-Pro se positionne sous la moitié du prix des modèles concurrents de même niveau — mais les coûts s'accumulent vite sur des boucles agentiques longues.

Géopolitique. DeepSeek est une société chinoise. Les équipes opérant dans des secteurs réglementés (santé, défense, finance) devront évaluer les contraintes de conformité avant d'intégrer les poids en production.

Poids locaux = infrastructure. V4-Pro avec 49B paramètres actifs exige au minimum 4 × H100 en FP8 pour une inférence raisonnable. V4-Flash est plus accessible mais reste hors de portée d'un poste de développeur standard.

Conclusion

DeepSeek-V4 est la première famille open source à égaler les modèles frontière fermés sur le coding tout en proposant une fenêtre de contexte d'un million de tokens native. L'architecture MoE réduit le coût d'inférence d'un facteur substantiel par rapport à des modèles denses de même taille effective. L'annonce accélère la pression tarifaire sur OpenAI, Anthropic et Google, et pose la question de la durabilité d'un écart de performance entre open et closed source.

Source principale — API Docs DeepSeek