如何评价DeepSeek推特于4.22官宣发布V4模型

2026/4/24

deepseek v4deepseek 官网deepseek教程deepseek v4价格

DeepSeek-V4来了：百万上下文不是噱头，而是下一代 Agent 的底座

千呼万唤，DeepSeek-V4终于在4月22日正式官宣了。从整体架构来看，V4版本明显是围绕”超长上下文效率”进行重构的新一代大模型，旨在解决长上下文推理成本过高的行业痛点。

DeepSeek V4 发布

这次发布的新版本拥有百万字超长上下文能力，在Agent能力、世界知识和推理性能上均实现了国内与开源领域的领先水平。模型分为两个版本，均支持1M上下文长度，并且已经直接开源：

Pro版本整体参数量级为1.6T，激活参数49B
Flash版本参数量级为284B，激活参数13B

即日起，用户可直接在我们的平台体验最新DeepSeek-V4，感受1M超长上下文记忆带来的全新对话能力。同时，API服务也已同步升级，开发者只需将model_name修改为deepseek-v4-pro或deepseek-v4-flash，即可快速接入并调用。

模型跑分怎么样？

首先，V4版本性能已经比肩顶级闭源模型：

Agent能力大幅提高

相比前代模型，DeepSeek-V4-Pro的Agent能力显著增强。在Agentic Coding评测中，V4-Pro已达到当前开源模型最佳水平，并在其他Agent相关评测中同样表现优异。目前DeepSeek-V4已成为公司内部员工使用的Agentic Coding模型，据评测反馈使用体验优于Sonnet 4.5，交付质量接近Opus 4.6非思考模式，但仍与Opus 4.6思考模式存在一定差距。

丰富的世界知识

DeepSeek-V4-Pro在世界知识测评中，大幅领先其他开源模型，仅稍逊于顶尖闭源模型Gemini-Pro-3.1。

世界顶级推理性能

在数学、STEM、竞赛型代码的测评中，DeepSeek-V4-Pro超越当前所有已公开评测的开源模型，取得了比肩世界顶级闭源模型的优异成绩。

结构创新和超高上下文效率

DeepSeek-V4开创了一种全新的注意力机制，在token维度进行压缩，结合DSA稀疏注意力（DeepSeek Sparse Attention），实现了全球领先的长上下文能力，并且相比于传统方法大幅降低了对计算和显存的需求。从现在开始，1M（一百万）上下文将是DeepSeek所有官方服务的标配。

Agent能力专项优化

DeepSeek-V4针对Claude Code、OpenClaw、OpenCode、CodeBuddy等主流的Agent产品进行了适配和优化，在代码任务、文档生成任务等方面表现均有提升。

新版本下模型架构

DeepSeek官方同步放出了技术论文，详细介绍了V4的技术实现。论文明确指出，当前推理模型非常依赖test-time scaling，但传统attention的二次复杂度会让超长上下文越来越昂贵，最后变成推理和长链条任务的瓶颈。DeepSeek-V4的目标，就是打掉这个瓶颈，让1M context真正可行。

这个目标背后其实有两个层面的考量：

产品层：未来很多任务不是”问一个问题，答一句话”，而是长文档、多文档、复杂Agent工作流、超长链路推理。这些场景对上下文长度和推理成本都很敏感。
研究层：如果长上下文推理太贵，那test-time scaling的收益就很快撞墙。V4实际上是在给”更长推理、更长轨迹任务”铺底座。

1）CSA + HCA：V4真正的王牌

这是整篇论文最关键的部分。V4没有继续走原始dense attention的路线，而是设计了一个混合注意力架构：

CSA（Compressed Sparse Attention）：先把KV沿序列压缩，再做稀疏选择，只让query看top-k的压缩块。
HCA（Heavily Compressed Attention）：压得更狠，但保留dense attention。

你可以把它理解成：

CSA更像”压缩后再检索”，偏向高效找重点；
HCA更像”极限摘要后整体看”，偏向把全局成本压下去。

这两个机制交替使用，目的不是只做一个近似attention，而是做一个兼顾局部细节、全局覆盖、推理成本的折中设计。论文还额外加了滑动窗口分支，防止压缩后丢掉近邻细粒度依赖。

这个设计思路非常工程化：远处的信息便宜看，近处的信息精细看，重要的块再稀疏挑出来重点看。 更像一个多级记忆系统，而不是死磕全量原始token。

2）mHC：训练更加稳定

V4另一个重要升级是mHC（Manifold-Constrained Hyper-Connections），这个技术主要解决三个问题：

Degradation problem：深层网络不是过拟合，是根本训不好
Residual explosion：残差叠加后范数不可控
表示空间塌缩 / 扭曲：深层特征不再可解释

mHC的改进核心点在于：把每层的residual mixing矩阵 (H^res_l) 约束为”双随机矩阵（doubly stochastic）“，也就是落在Birkhoff polytope（双随机矩阵集合/置换矩阵凸包）这个流形/多面体上。

研究团队选择这个流形结构作为优化空间，主要是因为它具备多重优良特性：

范数不扩张（Non-expansive）：双随机矩阵的谱范数有界，因此能抑制梯度爆炸风险
连乘闭包（Compositional Closure）：双随机矩阵集合对乘法封闭，多层连乘仍是双随机，因此”跨很多层”的直通项也保持同样的守恒/稳定属性
几何解释：置换的凸组合：Birkhoff polytope是置换矩阵的凸包，所以可视作”对多种置换混合方式的加权平均”；反复作用会带来更强的跨流混合，但仍是单调增强的融合而非失控放大

此外，mHC还加了非负性约束，避免正负系数叠加造成信号抵消。实验显示，mHC能让训练过程更加稳定，loss基本单调、平滑，没有长期偏移。

3）Muon：V4里重点使用的优化器

论文里把Muon优化器放在了很重要的位置。它的作用类似我们熟悉的AdamW，都是用来更新模型参数的。区别在于，论文认为Muon在大模型训练里收敛更快、训练更稳，所以把它用在了DeepSeek-V4的大部分模块上。

它和普通SGD/AdamW最大的不同，是会对更新矩阵做一次特殊处理，让更新方向更规整、更稳定。核心流程大概是：

先算梯度
累积momentum
对”动量 + 当前梯度”这个更新矩阵，做一次Hybrid Newton-Schulz正交化处理
再做缩放和权重衰减，最后更新参数

4）V4的效率提升到底有多狠

这篇论文最有冲击力的数据，是首页的效率对比图。在1M token context下：

DeepSeek-V4-Pro的单token推理FLOPs只有DeepSeek-V3.2的27%，KV cache只有V3.2的10%
DeepSeek-V4-Flash更激进，单token FLOPs只有10%，KV cache只有7%

这个提升意义非常大。因为长上下文模型最大的问题在于使用成本过高，V4这套设计的价值就在于，它试图把”百万上下文”从展示能力，变成可落地的实用能力。这也是它比很多”号称支持1M长上下文”的模型更有说服力的地方。

写在最后

过去很多模型也说自己支持长上下文，但实际用起来经常是两个问题：一是太贵，二是长了以后不一定真能用。V4这次的核心价值在于：它是从注意力机制、KV cache、训练稳定性和优化器上都围绕”长上下文可用”重新做了一遍工程化设计。

这次V4的发布，确实带来了很多实质性的技术突破，为下一代AI Agent和长上下文应用打下了坚实的基础。

开始使用DeepSeek