如何评价DeepSeek推特于4.22官宣发布V4模型

deepseek v4deepseek 官网deepseek教程deepseek v4价格

开始使用DeepSeek

DeepSeek-V4来了:百万上下文不是噱头,而是下一代 Agent 的底座

千呼万唤,DeepSeek-V4终于在4月22日正式官宣了。从整体架构来看,V4版本明显是围绕”超长上下文效率”进行重构的新一代大模型,旨在解决长上下文推理成本过高的行业痛点。

DeepSeek V4 发布

这次发布的新版本拥有百万字超长上下文能力,在Agent能力、世界知识和推理性能上均实现了国内与开源领域的领先水平。模型分为两个版本,均支持1M上下文长度,并且已经直接开源:

  • Pro版本整体参数量级为1.6T,激活参数49B
  • Flash版本参数量级为284B,激活参数13B

即日起,用户可直接在我们的平台体验最新DeepSeek-V4,感受1M超长上下文记忆带来的全新对话能力。同时,API服务也已同步升级,开发者只需将model_name修改为deepseek-v4-pro或deepseek-v4-flash,即可快速接入并调用。

模型跑分怎么样?

首先,V4版本性能已经比肩顶级闭源模型:

Agent能力大幅提高

相比前代模型,DeepSeek-V4-Pro的Agent能力显著增强。在Agentic Coding评测中,V4-Pro已达到当前开源模型最佳水平,并在其他Agent相关评测中同样表现优异。目前DeepSeek-V4已成为公司内部员工使用的Agentic Coding模型,据评测反馈使用体验优于Sonnet 4.5,交付质量接近Opus 4.6非思考模式,但仍与Opus 4.6思考模式存在一定差距。

丰富的世界知识

DeepSeek-V4-Pro在世界知识测评中,大幅领先其他开源模型,仅稍逊于顶尖闭源模型Gemini-Pro-3.1。

世界顶级推理性能

在数学、STEM、竞赛型代码的测评中,DeepSeek-V4-Pro超越当前所有已公开评测的开源模型,取得了比肩世界顶级闭源模型的优异成绩。

结构创新和超高上下文效率

DeepSeek-V4开创了一种全新的注意力机制,在token维度进行压缩,结合DSA稀疏注意力(DeepSeek Sparse Attention),实现了全球领先的长上下文能力,并且相比于传统方法大幅降低了对计算和显存的需求。从现在开始,1M(一百万)上下文将是DeepSeek所有官方服务的标配。

Agent能力专项优化

DeepSeek-V4针对Claude Code、OpenClaw、OpenCode、CodeBuddy等主流的Agent产品进行了适配和优化,在代码任务、文档生成任务等方面表现均有提升。

新版本下模型架构

DeepSeek官方同步放出了技术论文,详细介绍了V4的技术实现。论文明确指出,当前推理模型非常依赖test-time scaling,但传统attention的二次复杂度会让超长上下文越来越昂贵,最后变成推理和长链条任务的瓶颈。DeepSeek-V4的目标,就是打掉这个瓶颈,让1M context真正可行。

这个目标背后其实有两个层面的考量:

  • 产品层:未来很多任务不是”问一个问题,答一句话”,而是长文档、多文档、复杂Agent工作流、超长链路推理。这些场景对上下文长度和推理成本都很敏感。
  • 研究层:如果长上下文推理太贵,那test-time scaling的收益就很快撞墙。V4实际上是在给”更长推理、更长轨迹任务”铺底座。

1)CSA + HCA:V4真正的王牌

这是整篇论文最关键的部分。V4没有继续走原始dense attention的路线,而是设计了一个混合注意力架构:

  • CSA(Compressed Sparse Attention):先把KV沿序列压缩,再做稀疏选择,只让query看top-k的压缩块。
  • HCA(Heavily Compressed Attention):压得更狠,但保留dense attention。

你可以把它理解成:

  • CSA更像”压缩后再检索”,偏向高效找重点;
  • HCA更像”极限摘要后整体看”,偏向把全局成本压下去。

这两个机制交替使用,目的不是只做一个近似attention,而是做一个兼顾局部细节、全局覆盖、推理成本的折中设计。论文还额外加了滑动窗口分支,防止压缩后丢掉近邻细粒度依赖。

这个设计思路非常工程化:远处的信息便宜看,近处的信息精细看,重要的块再稀疏挑出来重点看。 更像一个多级记忆系统,而不是死磕全量原始token。

2)mHC:训练更加稳定

V4另一个重要升级是mHC(Manifold-Constrained Hyper-Connections),这个技术主要解决三个问题:

  • Degradation problem:深层网络不是过拟合,是根本训不好
  • Residual explosion:残差叠加后范数不可控
  • 表示空间塌缩 / 扭曲:深层特征不再可解释

mHC的改进核心点在于:把每层的residual mixing矩阵 (Hresl) 约束为”双随机矩阵(doubly stochastic)“,也就是落在Birkhoff polytope(双随机矩阵集合/置换矩阵凸包)这个流形/多面体上。

研究团队选择这个流形结构作为优化空间,主要是因为它具备多重优良特性:

  • 范数不扩张(Non-expansive):双随机矩阵的谱范数有界,因此能抑制梯度爆炸风险
  • 连乘闭包(Compositional Closure):双随机矩阵集合对乘法封闭,多层连乘仍是双随机,因此”跨很多层”的直通项也保持同样的守恒/稳定属性
  • 几何解释:置换的凸组合:Birkhoff polytope是置换矩阵的凸包,所以可视作”对多种置换混合方式的加权平均”;反复作用会带来更强的跨流混合,但仍是单调增强的融合而非失控放大

此外,mHC还加了非负性约束,避免正负系数叠加造成信号抵消。实验显示,mHC能让训练过程更加稳定,loss基本单调、平滑,没有长期偏移。

3)Muon:V4里重点使用的优化器

论文里把Muon优化器放在了很重要的位置。它的作用类似我们熟悉的AdamW,都是用来更新模型参数的。区别在于,论文认为Muon在大模型训练里收敛更快、训练更稳,所以把它用在了DeepSeek-V4的大部分模块上。

它和普通SGD/AdamW最大的不同,是会对更新矩阵做一次特殊处理,让更新方向更规整、更稳定。核心流程大概是:

  1. 先算梯度
  2. 累积momentum
  3. 对”动量 + 当前梯度”这个更新矩阵,做一次Hybrid Newton-Schulz正交化处理
  4. 再做缩放和权重衰减,最后更新参数

4)V4的效率提升到底有多狠

这篇论文最有冲击力的数据,是首页的效率对比图。在1M token context下:

  • DeepSeek-V4-Pro的单token推理FLOPs只有DeepSeek-V3.2的27%,KV cache只有V3.2的10%
  • DeepSeek-V4-Flash更激进,单token FLOPs只有10%,KV cache只有7%

这个提升意义非常大。因为长上下文模型最大的问题在于使用成本过高,V4这套设计的价值就在于,它试图把”百万上下文”从展示能力,变成可落地的实用能力。这也是它比很多”号称支持1M长上下文”的模型更有说服力的地方。

写在最后

过去很多模型也说自己支持长上下文,但实际用起来经常是两个问题:一是太贵,二是长了以后不一定真能用。V4这次的核心价值在于:它是从注意力机制、KV cache、训练稳定性和优化器上都围绕”长上下文可用”重新做了一遍工程化设计。

这次V4的发布,确实带来了很多实质性的技术突破,为下一代AI Agent和长上下文应用打下了坚实的基础。

开始使用DeepSeek

← 博客