So Bewerten Sie die offizielle V4-Veröffentlichung von DeepSeek vom 22. April

24.4.2026

deepseek v4deepseek offizielle websitedeepseek tutorialdeepseek v4 preisgestaltung

DeepSeek-V4 ist da: Millionen-Kontext ist kein Gimmick, sondern die Grundlage für下一代 Agents

Nach langer Anticipation wurde DeepSeek-V4 am 22. April offiziell angekündigt. Aus der Gesamtarchitektur-Perspektive ist V4 klar ein neu generation großes Modell, rekonstruiert um “ultra-lange Kontext-Effizienz”, mit dem Ziel, die schmerzhafte Branche der hohen langen Kontext-Inferenzkosten zu lösen.

DeepSeek V4 Veröffentlichung

Diese neue Veröffentlichung verfügt über ultra-lange Kontextfähigkeit von einer Million Tokens und erreicht führende Niveaus bei Agent-Fähigkeiten, Weltwissen und Reasoning-Leistung unter inländischen und Open-Source-Modellen. Das Modell kommt in zwei Versionen, beide mit 1M Kontextlänge, und wurde direkt Open-Source gestellt:

Pro-Version hat 1.6T Gesamparameter mit 49B aktiven Parametern
Flash-Version hat 284B Gesamparameter mit 13B aktiven Parametern

Ab heute können Benutzer das neueste DeepSeek-V4 direkt auf unserer Plattform erleben und die neuen Gesprächsfähigkeiten genießen, die durch 1M Ultra-Langzeit-Kontextspeicher ermöglicht werden. Gleichzeitig wurden auch die API-Dienste aktualisiert. Entwickler müssen nur model_name auf deepseek-v4-pro oder deepseek-v4-flash ändern, um schnell auf den Dienst zuzugreifen und ihn aufzurufen.

Wie ist die Modellleistung?

Zunächst ist die V4-Leistung bereits mit Top-Closed-Source-Modellen vergleichbar:

Erheblich verbesserte Agent-Fähigkeiten

Im Vergleich zu previous Modellen wurden die Agent-Fähigkeiten von DeepSeek-V4-Pro erheblich verbessert. In Agentic Coding-Bewertungen hat V4-Pro das beste Niveau unter den aktuellen Open-Source-Modellen erreicht und performt auch in anderen Agent-bezogenen Bewertungen hervorragend. Derzeit ist DeepSeek-V4 das von Mitarbeitern verwendete Agentic Coding-Modell. Gemäß Bewertungsfeedback ist die Benutzererfahrung besser als Sonnet 4.5, und die Lieferqualität ist nahe am nicht-inkubativen Modus von Opus 4.6, obwohl noch eine gewisse Lücke zum denkenden Modus von Opus 4.6 besteht.

Reichhaltiges Weltwissen

In Weltwissen-Bewertungen übertrifft DeepSeek-V4-Pro andere Open-Source-Modelle deutlich, nur leicht unterlegen dem Top-Closed-Source-Modell Gemini-Pro-3.1.

Weltklasse Reasoning-Leistung

In Bewertungen von Mathematik, MINT und wettbewerbsfähigem Code übertrifft DeepSeek-V4-Pro alle derzeit öffentlich bewerteten Open-Source-Modelle und erzielt exzellente Ergebnisse, die mit den weltweit besten Closed-Source-Modellen vergleichbar sind.

Strukturelle Innovation und Ultra-Hohe Kontext-Effizienz

DeepSeek-V4 hat einen совершенно neuen Attention-Mechanismus entwickelt, der in der Token-Dimension komprimiert, kombiniert mit DSA Sparse Attention (DeepSeek Sparse Attention), und erreicht weltweit führende Langzeit-Kontextfähigkeiten bei signifikanter Reduzierung der Rechen- und Speicheranforderungen im Vergleich zu traditionellen Methoden. Von jetzt an wird 1M (eine Million) Kontext der Standard für alle offiziellen DeepSeek-Dienste sein.

Spezielle Optimierung für Agent-Fähigkeiten

DeepSeek-V4 wurde für wichtige Agent-Produkte wie Claude Code, OpenClaw, OpenCode und CodeBuddy angepasst und optimiert, mit verbesserter Leistung bei Code-Aufgaben, Dokumentgenerierungsaufgaben und mehr.

Neue Modell-Architektur

DeepSeek hat ein technisches Dokument veröffentlicht, das die technische Implementierung von V4 detailliert beschreibt. Das Dokument stellt klar, dass aktuelle Reasoning-Modelle stark von Test-Time-Scaling abhängen, aber die quadratische Komplexität traditioneller Attention macht ultra-langen Kontext zunehmend teuer, und wird letztendlich zu einem Flaschenhals für Reasoning und lange Aufgabenketten. Das Ziel von DeepSeek-V4 ist es, diesen Flaschenhals zu durchbrechen und 1M-Kontext wirklich praktikabel zu machen.

Es gibt tatsächlich zwei Betrachtungsebenen hinter diesem Ziel:

Produktebene: Viele zukünftige Aufgaben sind nicht “eine Frage stellen, eine Antwort erhalten”, sondern lange Dokumente, Multi-Dokumente, komplexe Agent-Workflows und ultra-lange Reasoning-Ketten. Diese Szenarien sind sowohl gegenüber der Kontextlänge als auch den Inferenzkosten sensibel.
Forschungsebene: Wenn lange Kontext-Inferenz zu teuer ist, werden die Vorteile des Test-Time-Scalings schnell an eine Wand stoßen. V4 legt eigentlich den Grundstein für “längeres Reasoning, längere Aufgabentrajektorien”.

1) CSA + HCA: V4s wahre Trümpfe

Dies ist der kritischste Teil des gesamten Dokuments. Statt den Weg des originalen dichten Attention fortzusetzen, hat V4 eine hybrid Attention-Architektur entwickelt:

CSA (Compressed Sparse Attention): Zuerst KV entlang der Sequenz komprimieren, dann稀疏Auswahl durchführen, wobei die Abfrage nur die Top-k komprimierten Blöcke sieht.
HCA (Heavily Compressed Attention): Komprimiert noch aggressiver, behält aber denses Attention bei.

Man kann es sich so vorstellen:

CSA ist mehr wie “nach Kompression abrufen”, konzentriert sich auf effizientes Finden von Schlüsselpunkten;
HCA ist mehr wie “das Ganze nach extremer Zusammenfassung betrachten”, konzentriert sich auf die Reduzierung der globalen Kosten.

Diese beiden Mechanismen werden abwechselnd verwendet, mit dem Ziel, nicht nur eine ungefähre Attention zu schaffen, sondern ein ausgewogenes Design zu erreichen, das lokale Details, globale Abdeckung und Inferenzkosten berücksichtigt. Das Dokument fügt auch einen Slide-Fenster-Zweig hinzu, um zu verhindern, dass granulare Abhängigkeiten von nahegelegenen Tokens nach der Kompression verloren gehen.

Dieser Designansatz ist sehr ingenieurorientiert: Günstig entfernte Informationen betrachten, detailliert nahe Informationen betrachten, und wichtig Blöcke稀疏für fokussierte Betrachtung auswählen. Es ist eher wie ein Multi-Level-Speichersystem, als sich auf vollständige Raw-Tokens zu konzentrieren.

2) mHC: Stabileres Training

Ein weiteres wichtiges Upgrade in V4 ist mHC (Manifold-Constrained Hyper-Connections), das hauptsächlich drei Probleme löst:

Degradationsproblem: Tiefe Netzwerke überfitten nicht nur, sie können überhaupt nicht gut trainiert werden
Residual-Explosion: Norm wird nach Residual-Überlagerung unkontrollierbar
Darstellungsraum-Kollaps/-Verzerrung: Tiefe Features sind nicht mehr interpretierbar

Der Kernverbesserung von mHC liegt in: Beschränkung der Residual-Mixing-Matrix (H^res_l) jeder Schicht auf eine “doppelt stochastische Matrix”, das heißt, auf das Manifold/Polytop des Birkhoff-Polytops (die Menge der doppelt stochastischen Matrizen konvexe Hülle von Permutationsmatrizen).

Das Forschungsteam wählte diese Mannigfaltigkeitsstruktur als Optimierungsraum hauptsächlich wegen ihrer mehreren hervorragenden Eigenschaften:

Nicht-expansiv: Die Spektralnorm von doppelt stochastischen Matrizen ist begrenzt, wodurch das Risiko einer Gradienten-Explosion unterdrückt wird
Kompositionelle Abschlusseigenschaft: Die Menge der doppelt stochastischen Matrizen ist abgeschlossen unter Multiplikation. Mehrschichtige Multiplikation bleibt doppelt stochastisch, sodass “schichtenübergreifende” Skip-Verbindungen auch dieselben Erhaltungs-/Stabilitätseigenschaften beibehalten
Geometrische Interpretation: Konvexe Kombination von Permutationen: Birkhoff-Polytop ist die konvexe Hülle von Permutationsmatrizen, sodass es als “gewichtetem Mittel verschiedener Permutations-Mixing-Methoden” betrachtet werden kann; wiederholte Anwendung bringt stärkeres Cross-Flow-Mixing, aber es ist immer noch monoton verstärkte Fusion anstelle unkontrollierter Verstärkung

Zusätzlich fügt mHC Nicht-Negativitäts-Einschränkungen hinzu, um Signalannullierung durch Überlagerung von positiven und negativen Koeffizienten zu vermeiden. Experimente zeigen, dass mHC den Trainingsprozess stabiler macht, mit Verlust基本上单调、平滑，无长期偏移。

3) Muon: Der Optimierer, der in V4 stark verwendet wird

Das Dokument betont den Muon Optimierer. Seine Funktion ähnelt dem vertrauten AdamW, beide werden verwendet, um Modellparameter zu aktualisieren. Der Unterschied besteht darin, dass das Dokument der Meinung ist, dass Muon in großem Modelltraining schneller konvergiert und stabiler trainiert, weshalb es in den meisten Modulen von DeepSeek-V4 verwendet wird.

Sein größter Unterschied zu gewöhnlichem SGD/AdamW ist, dass es einen speziellen Prozess auf der Update-Matrix durchführt, um die Update-Richtung regelmäßiger und stabiler zu machen. Der Kernprozess ist grob:

Zuerst Gradienten berechnen
Momentum akkumulieren
Einen Hybrid-Newton-Schulz-Orthogonalisierungsprozess auf der Update-Matrix von “Momentum + aktueller Gradient” durchführen
Skalierung und Gewichtsabfall durchführen und schließlich Parameter aktualisieren

4) Wie beeindruckend ist V4s Effizienzverbesserung?

Die wirkungsvollsten Daten in diesem Dokument sind die Effizienzvergleichsgrafik auf der Startseite. Unter 1M-Token-Kontext:

DeepSeek-V4-Pro hat nur 27% der Single-Token-Inferenz-FLOPs von DeepSeek-V3.2, und KV-Cache ist nur 10% von V3.2
DeepSeek-V4-Flash ist noch aggressiver, mit Single-Token-FLOPs nur 10%, und KV-Cache nur 7%

Diese Verbesserung ist von großer Bedeutung. Weil das größte Problem mit langen Kontextmodellen die hohen Nutzungskosten sind, liegt der Wert von V4s Design darin, dass es versucht, “Millionen-Kontext” von einer Demonstrationsfähigkeit in eine praktische, bereitstellbare Fähigkeit umzuwandeln. Dies ist auch where it is more convincing than many models that “behaupten, 1M langen Kontext zu unterstützen”.

Abschließende Gedanken

Viele Modelle in der Vergangenheit behaupteten auch, langen Kontext zu unterstützen, aber in der Praxis gab es oft zwei Probleme: Entweder war es zu teuer, oder es funktionierte bei langem Kontext nicht wirklich gut. Der Kernwert von V4 diesmal liegt darin: Es wurde vollständig um “Langzeit-Kontext-Brauchbarkeit” herum neu entwickelt, von Attention-Mechanismus, KV-Cache, Trainingsstabilität bis zum Optimierer.

Die Veröffentlichung von V4 diesmal hat wirklich viele substanzielle technologische Durchbrüche gebracht und ein solides Fundament für下一代 AI Agents und Langzeit-Kontext-Anwendungen gelegt.

Jetzt DeepSeek nutzen