نحوه ارزیابی انتشار رسمی DeepSeek V4 اعلام شده در توییتر در 22 آوریل

۱۴۰۵/۲/۴

deepseek v4وب‌سایت رسمی deepseekآموزش deepseekقیمت‌گذاری deepseek v4

DeepSeek-V4 اینجاست: متن میلیونی یک ترف نیست، بلکه اساس برای نسل بعدی Agents

پس از انتظار طولانی، DeepSeek-V4 در 22 آوریل به طور رسمی اعلام شد. از منظر معماری کلی، V4 clearly یک مدل بزرگ نسل جدید است که around “کارایی متن فوق‌العاده بلند” بازسازی شده، aiming to solve مشکل دردناک صنعت از هزینه‌های استنتاج بالای متن طولانی.

انتشار DeepSeek V4

این انتشار جدید دارای قابلیت متن فوق‌العاده بلند یک میلیون توکن است، achieving leading levels in قابلیت‌های Agent، دانش جهانی و عملکرد استدلال among models domestic and open-source. مدل در دو نسخه comes، هر دو با طول متن 1M، and has been directly open-sourced:

نسخه Pro has 1.6T از پارامترهای کل with 49B پارامتر فعال
نسخه Flash has 284B از پارامترهای کل with 13B پارامتر فعال

از امروز، کاربران can experience latest DeepSeek-V4 directly on our platform، enjoying new conversation capabilities brought by 1M Ultra-Long Context Memory. همچنین، API services نیز upgraded شده‌اند. توسعه‌دهندگان فقط نیاز to change model_name to دارند deepseek-v4-pro یا deepseek-v4-flash تا quickly access and call the service.

عملکرد مدل چگونه است؟

اول از همه، عملکرد V4 already comparable to top closed-source models است:

قابلیت‌های Agent به طور قابل توجهی بهبود یافته

Compared with previous generation models، قابلیت‌های Agent از DeepSeek-V4-Pro به طور قابل توجهی enhanced شده‌اند. In Agentic Coding evaluations، V4-Pro به بهترین سطح among current open-source models رسیده and also performs excellently in other Agent-related evaluations. Currently، DeepSeek-V4已成为内部员工使用的Agentic Coding模型. According to evaluation feedback، تجربه کاربری better than Sonnet 4.5 است و کیفیت تحویل close to Opus 4.6 non-thinking mode است، اگرچه هنوز شکافی با Opus 4.6 thinking mode exists.

دانش جهانی غنی

In world knowledge assessments، DeepSeek-V4-Pro به طور قابل توجهی از other open-source models پیشی می‌گیرد، only slightly inferior to بهترین مدل متن‌بسته Gemini-Pro-3.1.

عملکرد استدلال در سطح جهانی

In evaluations of mathematics، STEM and competition-level code، DeepSeek-V4-Pro از all currently publicly evaluated open-source models پیشی می‌گیرد و results excellent را کسب می‌کند که با بهترین models متن‌بسته جهان قابل مقایسه است.

نوآوری ساختاری و کارایی متنی فوق‌العاده بالا

DeepSeek-V4 یک attention mechanism کاملاً جدید را pioneered کرده که در token dimension فشرده می‌شود، combined with DSA Sparse Attention (DeepSeek Sparse Attention)، achieving world-leading long context capabilities و reducing significantly computing and memory requirements compared to traditional methods. From now on، 1M (یک میلیون) متن استاندارد for all official DeepSeek services خواهد بود.

بهینه‌سازی ویژه برای قابلیت‌های Agent

DeepSeek-V4 برای mainstream Agent products مانند Claude Code، OpenClaw، OpenCode و CodeBuddy تطبیق و بهینه‌سازی شده، with improved performance in code tasks، document generation tasks و موارد دیگر.

معماری مدل جدید

DeepSeek به طور رسمی یک گزارش فنی را منتشر کرد که implementation فنی V4 را detail می‌کند. سند به وضوح بیان می‌کند که current reasoning models heavily به test-time scaling وابسته هستند، but the quadratic complexity of traditional attention makes ultra-long context increasingly expensive، eventually becoming a bottleneck for reasoning and long-chain tasks. هدف DeepSeek-V4 شکستن این bottleneck و عملی کردن واقعی 1M متن است.

در واقع two levels of consideration در پشت این هدف وجود دارد:

سطح محصول: بسیاری از وظایف آینده “یک سوال بپرس، پاسخ بگیر” نیستند، بلکه مستندات طولانی، multi-documents، workflows پیچیده Agent، و reasoning زنجیره‌ای فوق‌العاده طولانی هستند. این سناریوها به هر دوی طول متن و هزینه‌های استنتاج حساس هستند.
سطح تحقیق: اگر استنتاج متن طولانی too expensive باشد، benefits of test-time scaling quickly به یک دیوار برخورد می‌کنند. V4 actually دارد foundation را برای “استدلال طولانی‌تر، وظایف trajectory طولانی‌تر” می‌گذارد.

1) CSA + HCA: برگ‌های واقعی V4

این مهم‌ترین بخش کل سند است. Instead of continuing down the path of original dense attention، V4 یک hybrid attention architecture را طراحی کرد:

CSA (Compressed Sparse Attention): ابتدا KV را along the sequence فشرده کنید، then sparse selection را انجام دهید، only letting the query see the top-k compressed blocks.
HCA (Heavily Compressed Attention): even more aggressively فشرده می‌کند، but retains dense attention.

می‌توانید آن را مثل این درک کنید:

CSA بیشتر like “retrieve after compression”، focusing on efficiently finding key points;
HCA بیشتر like “view the whole after extreme summarization”، focusing on reducing global costs.

این two mechanisms به طور متناوب استفاده می‌شوند، aiming not just to create an approximate attention، but to achieve a balanced design that local details، global coverage، and inference costs را در نظر می‌گیرد. سند همچنین یک sliding window branch اضافه می‌کند to prevent losing fine-grained dependencies of nearby tokens after compression.

این ایده طراحی very engineering-oriented است: ارزان اطلاعات دور را ببینید، detail نزدیک را ببینید، و sparsely select important blocks for focused viewing. بیشتر like a multi-level memory system است، rather than obsessing over full raw tokens.

2) mHC: آموزش پایدارتر

یکی دیگر از upgradeهای مهم در V4 mHC (Manifold-Constrained Hyper-Connections) است که mainly سه problem را حل می‌کند:

مشکل Degradation: شبکه‌های عمیق فقط overfit نمی‌کنند، can’t be trained well at all
Residual explosion: Norm بعد از residual superposition غیرقابل کنترل می‌شود
Representation space collapse/distortion: ویژگی‌های عمیق دیگر قابل تفسیر نیستند

Core improvement از mHC in lies: 限制每一层的残差混合矩阵 (H^res_l) 为”双随机矩阵”，即落在 Birkhoff 多面体的流形/多面体上（双随机矩阵的集合/置换矩阵的凸包）。

تیم تحقیقاتی 主要因为这个流形结构具有多个优良特性而选择它作为优化空间：

非扩展性: 双随机矩阵的谱范数有界，从而抑制梯度爆炸的风险
组合闭合: 双随机矩阵的集合在乘法下闭合。多层乘法保持双随机，因此”跨多层”跳跃连接也保持相同的守恒/稳定性特性
几何解释: 排列的凸组合: Birkhoff 多面体是排列矩阵的凸包，因此可以看作是”各种排列混合方法的加权平均”；重复应用带来更强的交叉流混合，但仍将是单调增强的融合而不是无控制的放大

此外，mHC 添加了非负性约束，以避免正负系数叠加引起的信号抵消。实验表明，mHC 使训练过程更加稳定，损失基本单调、平滑，无长期偏移。

3) Muon: V4 中重度使用的优化器

文件非常强调 Muon 优化器。它的功能类似于熟悉的 AdamW，两者都用于更新模型参数。不同之处在于，文件认为 Muon 在大模型训练中收敛更快、训练更稳定，因此用于 DeepSeek-V4 大多数模块中。

它与普通 SGD/AdamW 的最大区别在于，它对更新矩阵进行特殊处理，使更新方向更加规律稳定。核心过程大致如下：

首先计算梯度
累积动量
对”动量 + 当前梯度”的更新矩阵执行混合牛顿-舒尔茨正交化过程
执行缩放和权重衰减，最后更新参数

4) V4 的效率提升有多令人印象深刻？

本文最有影响力的数据是主页上的效率对比图。在 1M token 上下文下：

DeepSeek-V4-Pro 的单 token 推理 FLOPs 仅为其前身 27%，KV 缓存仅为 V3.2 的 10%
DeepSeek-V4-Flash 更加激进，单 token FLOPs 仅 10%，KV 缓存仅 7%

这一改进意义重大。因为长上下文模型最大的问题是使用成本高，V4 设计的价值在于：它试图将”百万上下文”从演示能力转变为实际、可部署的能力。这也是它比许多声称”支持 1M 长上下文”的模型更有说服力的地方。

最终思考

过去的许多模型也声称支持长上下文，但实际上往往存在两个问题：要么太贵，要么在上下文较长时效果不佳。V4 这次的核心价值在于：它从注意力机制、KV 缓存、训练稳定性到优化器，完全围绕”长上下文可用性”重新设计。

这次 V4 的发布确实带来了许多实质性技术突破，为下一代 AI Agents 和长上下文应用奠定了坚实基础。

شروع استفاده از DeepSeek