如何評價DeepSeek推特於4.22官宣發佈V4模型

開始使用DeepSeek

DeepSeek-V4來了:百萬上下文不是噱頭,而是下一代 Agent 的底座

千呼萬喚,DeepSeek-V4終於在4月22日正式官宣了。從整體架構來看,V4版本明顯是圍繞”超長上下文效率”進行重構的新一代大模型,旨在解決長上下文推理成本過高的行業痛點。

DeepSeek V4 發布

這次發布的新版本擁有百萬字超長上下文能力,在Agent能力、世界知識和推理性能上均實現了國內與開源領域的領先水平。模型分為兩個版本,均支持1M上下文長度,並且已經直接開源:

  • Pro版本整體參數量級為1.6T,激活參數49B
  • Flash版本參數量級為284B,激活參數13B

即日起,用戶可直接在我們的平台體驗最新DeepSeek-V4,感受1M超長上下文記憶帶來的全新對話能力。同時,API服務也已同步升級,開發者只需將model_name修改為deepseek-v4-pro或deepseek-v4-flash,即可快速接入並調用。

模型跑分怎麼樣?

首先,V4版本性能已經比肩頂級閉源模型:

Agent能力大幅提高

相比前代模型,DeepSeek-V4-Pro的Agent能力顯著增強。在Agentic Coding評測中,V4-Pro已達到當前開源模型最佳水平,並在其他Agent相關評測中同樣表現優異。目前DeepSeek-V4已成為公司內部員工使用的Agentic Coding模型,據評測反饋使用體驗優於Sonnet 4.5,交付質量接近Opus 4.6非思考模式,但仍與Opus 4.6思考模式存在一定差距。

豐富的世界知識

DeepSeek-V4-Pro在世界知識測評中,大幅領先其他開源模型,僅稍遜於頂尖閉源模型Gemini-Pro-3.1。

世界頂級推理性能

在數學、STEM、競賽型代碼的測評中,DeepSeek-V4-Pro超越當前所有已公開評測的開源模型,取得了比肩世界頂級閉源模型的優異成績。

結構創新和超高上下文效率

DeepSeek-V4開創了一種全新的注意力機制,在token維度進行壓縮,結合DSA稀疏注意力(DeepSeek Sparse Attention),實現了全球領先的長上下文能力,並且相比於傳統方法大幅降低了對計算和顯存的需求。從現在開始,1M(一百萬)上下文將是DeepSeek所有官方服務的標配。

Agent能力專項優化

DeepSeek-V4針對Claude Code、OpenClaw、OpenCode、CodeBuddy等主流的Agent產品進行了適配和優化,在代碼任務、文檔生成任務等方面表現均有提升。

新版本下模型架構

DeepSeek官方同步放出了技術論文,詳細介紹了V4的技術實現。論文明確指出,當前推理模型非常依賴test-time scaling,但傳統attention的二次複雜度會讓超長上下文越來越昂貴,最後變成推理和長鏈條任務的瓶頸。DeepSeek-V4的目標,就是打掉這個瓶頸,讓1M context真正可行。

這個目標背後其實有兩個層面的考量:

  • 產品層:未來很多任務不是”問一個問題,答一句話”,而是長文檔、多文檔、複雜Agent工作流、超長鏈路推理。這些場景對上下文長度和推理成本都很敏感。
  • 研究層:如果長上下文推理太貴,那test-time scaling的收益就很快撞牆。V4實際上是在給”更長推理、更長軌跡任務”鋪底座。

1)CSA + HCA:V4真正的王牌

這是整篇論文最關鍵的部分。V4沒有繼續走原始dense attention的路線,而是設計了一個混合注意力架構:

  • CSA(Compressed Sparse Attention):先把KV沿序列壓縮,再做稀疏選擇,只讓query看top-k的壓縮塊。
  • HCA(Heavily Compressed Attention):壓得更狠,但保留dense attention。

你可以把它理解成:

  • CSA更像”壓縮後再檢索”,偏向高效找重點;
  • HCA更像”極限摘要後整體看”,偏向把全局成本壓下去。

這兩個機制交替使用,目的不是只做一個近似attention,而是做一個兼顧局部細節、全局覆蓋、推理成本的折中設計。論文還額外加了滑動窗口分支,防止壓縮後丟掉近鄰細粒度依賴。

這個設計思路非常工程化:遠處的信息便宜看,近處的信息精細看,重要的塊再稀疏挑出來重點看。 更像一個多級記憶系統,而不是死磕全量原始token。

2)mHC:訓練更加穩定

V4另一個重要升級是mHC(Manifold-Constrained Hyper-Connections),這個技術主要解決三個問題:

  • Degradation problem:深層網絡不是過擬合,是根本訓不好
  • Residual explosion:殘差疊加後範數不可控
  • 表示空間塌縮 / 扭曲:深層特徵不再可解釋

mHC的改進核心點在於:把每層的residual mixing矩陣 (Hresl) 約束為”雙隨機矩陣(doubly stochastic)“,也就是落在Birkhoff polytope(雙隨機矩陣集合/置換矩陣凸包)這個流形/多面體上。

研究團隊選擇這個流形結構作為優化空間,主要是因為它具備多重優良特性:

  • 範數不擴張(Non-expansive):雙隨機矩陣的譜範數有界,因此能抑制梯度爆炸風險
  • 連乘閉包(Compositional Closure):雙隨機矩陣集合對乘法封閉,多層連乘仍是雙隨機,因此”跨很多層”的直通項也保持同樣的守恆/穩定屬性
  • 幾何解釋:置換的凸組合:Birkhoff polytope是置換矩陣的凸包,所以可視作”對多種置換混合方式的加權平均”;反覆作用會帶來更強的跨流混合,但仍是單調增強的融合而非失控放大

此外,mHC還加了非負性約束,避免正負係數疊加造成信號抵消。實驗顯示,mHC能讓訓練過程更加穩定,loss基本單調、平滑,沒有長期偏移。

3)Muon:V4裡重點使用的優化器

論文裡把Muon優化器放在了很重要的位置。它的作用類似我們熟悉的AdamW,都是用來更新模型參數的。區別在於,論文認為Muon在大模型訓練裡收斂更快、訓練更穩,所以把它用在了DeepSeek-V4的大部分模塊上。

它和普通SGD/AdamW最大的不同,是會對更新矩陣做一次特殊處理,讓更新方向更規整、更穩定。核心流程大概是:

  1. 先算梯度
  2. 累積momentum
  3. 對”動量 + 當前梯度”這個更新矩陣,做一次Hybrid Newton-Schulz正交化處理
  4. 再做縮放和權重衰減,最後更新參數

4)V4的效率提升到底有多狠

這篇論文最有衝擊力的數據,是首頁的效率對比圖。在1M token context下:

  • DeepSeek-V4-Pro的單token推理FLOPs只有DeepSeek-V3.2的27%,KV cache只有V3.2的10%
  • DeepSeek-V4-Flash更激進,單token FLOPs只有10%,KV cache只有7%

這個提升意義非常大。因為長上下文模型最大的問題在於使用成本過高,V4這套設計的價值就在於,它試圖把”百萬上下文”從展示能力,變成可落地的實用能力。這也是它比很多”號稱支持1M長上下文”的模型更有說服力的地方。

寫在最後

過去很多模型也說自己支持長上下文,但實際用起來經常是兩個問題:一是太貴,二是長了以後不一定真能用。V4這次的核心價值在於:它是從注意力機制、KV cache、訓練穩定性和優化器上都圍繞”長上下文可用”重新做了一遍工程化設計。

這次V4的發布,確實帶來了很多實質性的技術突破,為下一代AI Agent和長上下文應用打下了堅實的基礎。

開始使用DeepSeek