DeepSeek V4

DeepSeek · Publié April 24, 2026

8.3 /10 Note globale

Ce que c'est réellement

Tous les quelques mois, quelqu’un annonce un modèle en poids ouverts censé égaler la frontière fermée. DeepSeek V4 pourrait être l’exception — non pas parce qu’il prétend tout battre (ce n’est pas le cas), mais parce qu’il change l’économie si dramatiquement que « assez proche » devient « assez proche et dix fois moins cher. »

Les chiffres qui comptent ne sont pas les scores de benchmarks — ce sont les chiffres d’efficacité. Pro utilise environ 27 % des FLOPs et 10 % du KV cache que V3.2 nécessitait à 1M de contexte. Deux variantes résument la stratégie de DeepSeek : Pro pour la capacité, Flash pour l’adoption.

Points Forts

Saut d’efficacité massif : Pro utilise ~27 % des FLOPs et ~10 % du KV cache de V3.2 à 1M de contexte. Flash est encore plus léger. Ce n’est pas juste un modèle plus gros — c’est une architecture fondamentalement plus efficace.
1M de contexte réel : Pas un chiffre marketing — les gains d’efficacité rendent l’inférence à un million de tokens réellement utilisable.
Deux variantes, deux cas d’usage : Pro (1,6T/49B actifs) pour la capacité maximale sur des clusters d’entreprise. Flash (284B/13B actifs) pour la vitesse et le coût sur du matériel intermédiaire.
Tarifs API ultra-bas : 3-7× moins chers que les équivalents Claude Opus. La capacité near-frontier à des prix qui font passer les modèles fermés pour un impôt de luxe.
Flexibilité matérielle : Optimisé pour les GPUs NVIDIA et Huawei Ascend. Support FP8/FP4 inclus.

Aperçu des Benchmarks

Architecture — 1,6T MoE / 49B actifs Attention hybride avec 1M de contexte. Seuls 49B paramètres s'activent par token dans Pro (13B dans Flash).
Efficacité — ~73 % de réduction des FLOPs Vs prédécesseur V3.2 à 1M de contexte. La percée architecturale qui rend l'inférence locale à l'échelle du billion viable.
Tarifs API — 3-7× moins chers Que les équivalents Claude Opus. L'argument économique pour les poids ouverts n'a jamais été aussi fort.
Raisonnement — compétitif avec la frontière DeepSeek rapporte que Pro surpasse GPT-5.2 et Gemini 3.0 Pro, reste 'marginalement' derrière GPT-5.4 et Gemini 3.1 Pro. Vérification indépendante en attente.

Limites Honnêtes

Version Preview : Benchmarks indépendants complets pas encore disponibles. L’évaluation propre de DeepSeek montre un retard ‘marginal’ derrière GPT-5.4 et Gemini 3.1 Pro sur certaines tâches de raisonnement.
Exigeant en matériel (Pro) : 1,6 billion de paramètres totaux signifie des clusters multi-GPU d’entreprise (4-8× H100/H200) pour une inférence Pro confortable.
Pas de sortie multimodale : Axé sur le texte. Kimi K2.6 gère les entrées multimodales (images, vidéo) nativement — DeepSeek V4 non.
Écosystème chinois : La documentation en anglais et les outils communautaires occidentaux progressent mais sont moins matures.

Le Verdict: Le modèle en poids ouverts qui fait enfin fonctionner les mathématiques pour l’IA de frontière locale. La combinaison de capacité à l’échelle 1,6T, contexte de 1M, licence MIT, 73 % de réduction de calcul et des tarifs API qui embarrassent les labs cloud en fait la proposition d’auto-hébergement la plus convaincante de 2026.