如何評價DeepSeek推特於4.22官宣發佈V4模型

2026/4/24

DeepSeek-V4來了：百萬上下文不是噱頭，而是下一代 Agent 的底座

千呼萬喚，DeepSeek-V4終於在4月22日正式官宣了。從整體架構來看，V4版本明顯是圍繞”超長上下文效率”進行重構的新一代大模型，旨在解決長上下文推理成本過高的行業痛點。

DeepSeek V4 發布

這次發布的新版本擁有百萬字超長上下文能力，在Agent能力、世界知識和推理性能上均實現了國內與開源領域的領先水平。模型分為兩個版本，均支持1M上下文長度，並且已經直接開源：

Pro版本整體參數量級為1.6T，激活參數49B
Flash版本參數量級為284B，激活參數13B

即日起，用戶可直接在我們的平台體驗最新DeepSeek-V4，感受1M超長上下文記憶帶來的全新對話能力。同時，API服務也已同步升級，開發者只需將model_name修改為deepseek-v4-pro或deepseek-v4-flash，即可快速接入並調用。

模型跑分怎麼樣？

首先，V4版本性能已經比肩頂級閉源模型：

Agent能力大幅提高

相比前代模型，DeepSeek-V4-Pro的Agent能力顯著增強。在Agentic Coding評測中，V4-Pro已達到當前開源模型最佳水平，並在其他Agent相關評測中同樣表現優異。目前DeepSeek-V4已成為公司內部員工使用的Agentic Coding模型，據評測反饋使用體驗優於Sonnet 4.5，交付質量接近Opus 4.6非思考模式，但仍與Opus 4.6思考模式存在一定差距。

豐富的世界知識

DeepSeek-V4-Pro在世界知識測評中，大幅領先其他開源模型，僅稍遜於頂尖閉源模型Gemini-Pro-3.1。

世界頂級推理性能

在數學、STEM、競賽型代碼的測評中，DeepSeek-V4-Pro超越當前所有已公開評測的開源模型，取得了比肩世界頂級閉源模型的優異成績。

結構創新和超高上下文效率

DeepSeek-V4開創了一種全新的注意力機制，在token維度進行壓縮，結合DSA稀疏注意力（DeepSeek Sparse Attention），實現了全球領先的長上下文能力，並且相比於傳統方法大幅降低了對計算和顯存的需求。從現在開始，1M（一百萬）上下文將是DeepSeek所有官方服務的標配。

Agent能力專項優化

DeepSeek-V4針對Claude Code、OpenClaw、OpenCode、CodeBuddy等主流的Agent產品進行了適配和優化，在代碼任務、文檔生成任務等方面表現均有提升。

新版本下模型架構

DeepSeek官方同步放出了技術論文，詳細介紹了V4的技術實現。論文明確指出，當前推理模型非常依賴test-time scaling，但傳統attention的二次複雜度會讓超長上下文越來越昂貴，最後變成推理和長鏈條任務的瓶頸。DeepSeek-V4的目標，就是打掉這個瓶頸，讓1M context真正可行。

這個目標背後其實有兩個層面的考量：

產品層：未來很多任務不是”問一個問題，答一句話”，而是長文檔、多文檔、複雜Agent工作流、超長鏈路推理。這些場景對上下文長度和推理成本都很敏感。
研究層：如果長上下文推理太貴，那test-time scaling的收益就很快撞牆。V4實際上是在給”更長推理、更長軌跡任務”鋪底座。

1）CSA + HCA：V4真正的王牌

這是整篇論文最關鍵的部分。V4沒有繼續走原始dense attention的路線，而是設計了一個混合注意力架構：

CSA（Compressed Sparse Attention）：先把KV沿序列壓縮，再做稀疏選擇，只讓query看top-k的壓縮塊。
HCA（Heavily Compressed Attention）：壓得更狠，但保留dense attention。

你可以把它理解成：

CSA更像”壓縮後再檢索”，偏向高效找重點；
HCA更像”極限摘要後整體看”，偏向把全局成本壓下去。

這兩個機制交替使用，目的不是只做一個近似attention，而是做一個兼顧局部細節、全局覆蓋、推理成本的折中設計。論文還額外加了滑動窗口分支，防止壓縮後丟掉近鄰細粒度依賴。

這個設計思路非常工程化：遠處的信息便宜看，近處的信息精細看，重要的塊再稀疏挑出來重點看。 更像一個多級記憶系統，而不是死磕全量原始token。

2）mHC：訓練更加穩定

V4另一個重要升級是mHC（Manifold-Constrained Hyper-Connections），這個技術主要解決三個問題：

Degradation problem：深層網絡不是過擬合，是根本訓不好
Residual explosion：殘差疊加後範數不可控
表示空間塌縮 / 扭曲：深層特徵不再可解釋

mHC的改進核心點在於：把每層的residual mixing矩陣 (H^res_l) 約束為”雙隨機矩陣（doubly stochastic）“，也就是落在Birkhoff polytope（雙隨機矩陣集合/置換矩陣凸包）這個流形/多面體上。

研究團隊選擇這個流形結構作為優化空間，主要是因為它具備多重優良特性：

範數不擴張（Non-expansive）：雙隨機矩陣的譜範數有界，因此能抑制梯度爆炸風險
連乘閉包（Compositional Closure）：雙隨機矩陣集合對乘法封閉，多層連乘仍是雙隨機，因此”跨很多層”的直通項也保持同樣的守恆/穩定屬性
幾何解釋：置換的凸組合：Birkhoff polytope是置換矩陣的凸包，所以可視作”對多種置換混合方式的加權平均”；反覆作用會帶來更強的跨流混合，但仍是單調增強的融合而非失控放大

此外，mHC還加了非負性約束，避免正負係數疊加造成信號抵消。實驗顯示，mHC能讓訓練過程更加穩定，loss基本單調、平滑，沒有長期偏移。

3）Muon：V4裡重點使用的優化器

論文裡把Muon優化器放在了很重要的位置。它的作用類似我們熟悉的AdamW，都是用來更新模型參數的。區別在於，論文認為Muon在大模型訓練裡收斂更快、訓練更穩，所以把它用在了DeepSeek-V4的大部分模塊上。

它和普通SGD/AdamW最大的不同，是會對更新矩陣做一次特殊處理，讓更新方向更規整、更穩定。核心流程大概是：

先算梯度
累積momentum
對”動量 + 當前梯度”這個更新矩陣，做一次Hybrid Newton-Schulz正交化處理
再做縮放和權重衰減，最後更新參數

4）V4的效率提升到底有多狠

這篇論文最有衝擊力的數據，是首頁的效率對比圖。在1M token context下：

DeepSeek-V4-Pro的單token推理FLOPs只有DeepSeek-V3.2的27%，KV cache只有V3.2的10%
DeepSeek-V4-Flash更激進，單token FLOPs只有10%，KV cache只有7%

這個提升意義非常大。因為長上下文模型最大的問題在於使用成本過高，V4這套設計的價值就在於，它試圖把”百萬上下文”從展示能力，變成可落地的實用能力。這也是它比很多”號稱支持1M長上下文”的模型更有說服力的地方。

寫在最後

過去很多模型也說自己支持長上下文，但實際用起來經常是兩個問題：一是太貴，二是長了以後不一定真能用。V4這次的核心價值在於：它是從注意力機制、KV cache、訓練穩定性和優化器上都圍繞”長上下文可用”重新做了一遍工程化設計。

這次V4的發布，確實帶來了很多實質性的技術突破，為下一代AI Agent和長上下文應用打下了堅實的基礎。

開始使用DeepSeek