DeepSeek V4
DeepSeek · Veröffentlicht April 24, 2026
Was es wirklich ist
Alle paar Monate kündigt jemand ein Open-Weight-Modell an, das die geschlossene Frontier erreichen soll. Normalerweise erzählen die Benchmarks eine andere Geschichte, sobald unabhängige Evaluatoren es in die Hände bekommen. DeepSeek V4 könnte die Ausnahme sein — nicht weil es behauptet, alles zu schlagen (tut es nicht), sondern weil es die Ökonomie so dramatisch verändert, dass „nah genug" zu „nah genug und zehnmal günstiger" wird.
Die Zahlen, die zählen, sind nicht die Benchmark-Scores — es sind die Effizienz-Zahlen. Pro nutzt etwa 27% der FLOPs und 10% des KV-Cache, die V3.2 bei 1M Kontext brauchte. Zwei Varianten erzählen alles über DeepSeeks Strategie: Pro für die Fähigkeit, Flash für die Verbreitung.
Zentrale Stärken
- Massiver Effizienzsprung: Pro nutzt ~27% FLOPs und ~10% KV-Cache von V3.2 bei 1M Kontext. Flash ist noch schlanker. Dies ist nicht nur ein größeres Modell — es ist eine fundamental effizientere Architektur.
- Echte 1M Kontext: Keine Marketing-Zahl — die Effizienzgewinne machen Million-Token-Inferenz tatsächlich nutzbar. Laden Sie ganze Monorepos, komplette Dokumentationssets oder tagelange Gesprächsverläufe.
- Zwei Varianten, zwei Anwendungsfälle: Pro (1,6T/49B aktiv) für maximale Leistung auf Enterprise-Clustern. Flash (284B/13B aktiv) für Geschwindigkeit und Kosten auf mittlerer Hardware.
- Niedrigste API-Preise: 3-7× günstiger als Claude-Opus-Äquivalente in frühen Vergleichen. Near-Frontier-Fähigkeit zu Preisen, die geschlossene Modelle wie Luxussteuer aussehen lassen.
- Hardware-Flexibilität: Optimiert für NVIDIA GPUs und Huawei Ascend — ein echtes Differenzierungsmerkmal. FP8/FP4 Mixed Precision sofort einsatzbereit.
-
Architektur — 1,6T MoE / 49B aktiv Hybrid Attention mit 1M Kontext. Nur 49B Parameter werden pro Token in Pro aktiviert (13B in Flash).
-
Effizienz — ~73% FLOPs-Reduktion Vs Vorgänger V3.2 bei 1M Kontext. Pro nutzt ~27% der vorherigen FLOPs und ~10% des KV-Cache. Der Architekturdurchbruch, der Billionen-Parameter-Inferenz lokal machbar macht.
-
API-Preise — 3-7× günstiger Als Claude-Opus-Äquivalente in frühen Vergleichen. Das ökonomische Argument für Open-Weight war noch nie stärker.
-
Reasoning — konkurrenzfähig mit Frontier DeepSeek meldet, dass Pro GPT-5.2 und Gemini 3.0 Pro übertrifft, hinter GPT-5.4 und Gemini 3.1 Pro 'marginal' zurückbleibt. Unabhängige Verifizierung ausstehend.
Ehrliche Einschränkungen
- Preview-Release: Vollständige unabhängige Benchmarks noch nicht verfügbar. DeepSeeks eigene Evaluierung zeigt ein ‘marginales’ Zurückbleiben hinter GPT-5.4 und Gemini 3.1 Pro bei einigen Reasoning-Aufgaben. Bis unabhängige Stellen verifizierte Scores veröffentlichen, Schlagzeilenzahlen mit angemessener Skepsis behandeln.
- Hardware-Hunger (Pro): 1,6 Billionen Parameter gesamt bedeutet Enterprise-Multi-GPU-Cluster (4-8× H100/H200-Klasse) für komfortable Pro-Inferenz. Flash + Quantisierung bringt es auf mittlere Setups, aber dies ist kein Laptop-Modell.
- Keine multimodale Ausgabe: Textfokussiert. Keine native Vision oder Bildgenerierung. Kimi K2.6 verarbeitet multimodalen Input (Bilder, Video) nativ — DeepSeek V4 nicht.
- Chinesisches Ökosystem: Englischsprachige Dokumentation und westliche Community-Tools wachsen, sind aber weniger ausgereift als das chinesische Ökosystem.
Das Fazit: Das Open-Weight-Modell, das die Mathematik für lokale Frontier-KI endlich aufgehen lässt. Die Kombination aus 1,6T-Skalenfähigkeit, 1M Kontext, MIT-Lizenz, 73% Compute-Reduktion und API-Preisen, die Cloud-Labs beschämen, macht es zum überzeugendsten Self-Hosting-Angebot 2026. Die Preview-Vorbehalte sind real — warten Sie auf unabhängige Benchmarks, bevor Sie Ihre Pipeline darauf wetten. Aber wenn Sie sich darum kümmern, wirklich leistungsfähige KI zu Ihren eigenen Bedingungen zu betreiben, hat DeepSeek Ihnen gerade die Schlüssel übergeben.