كيفية تقييم إصدار DeepSeek V4 الرسمي المعلن في تويتر في 22 أبريل
DeepSeek-V4 موجود: المليون سياق ليس خدعة، بل الأساس للوكلاء من الجيل التالي
بعد انتظار كبير، تم الإعلان عن DeepSeek-V4 رسمياً في 22 أبريل. من منظور الهندسة الشاملة، V4 هو نموذج كبير من الجيل الجديد reconstructed حول “كفاءة السياق الطويل للغاية”، بهدف حل مشكلة الصناعة المؤلمة لتكاليف الاستدلال العالية للسياق الطويل.

يتميز هذا الإصدار الجديد بقدرة سياق فائق الطول مليون رمز، Achieving leading levels in قدرات الوكيل، ومعرفة العالم، وأداء الاستدلال بين النماذج المحلية والمفتوحة المصدر. يأتي النموذج في نسختين، كلتيهما تدعم طول السياق 1M، وتم فتحه مباشرة:
- نسخة Pro لها 1.6T من المعلمات الإجمالية مع 49B معلم نشط
- نسخة Flash لها 284B من المعلمات الإجمالية مع 13B معلم نشط
بدءاً من اليوم، يمكن للمستخدمين تجربة أحدث DeepSeek-V4 مباشرة على منصتنا، والتمتع بقدرات المحادثة الجديدة brought by 1M Ultra-Long Context Memory. في نفس الوقت، تم ترقية خدمات API أيضاً. يحتاج المطورون فقط إلى تغيير model_name إلى deepseek-v4-pro أو deepseek-v4-flash للوصول إلى الخدمة واستدعائها بسرعة.
كيف هو أداء النموذج؟
أولاً، أداء V4 قابل للمقارنة بالفعل مع أفضل النماذج المغلقة المصدر:
قدرات الوكيل المحسنة بشكل ملحوظ
مقارنة بالنماذج السابقة، تمت زيادة قدرات الوكيل لـ DeepSeek-V4-Pro بشكل ملحوظ. في تقييمات الترميز الوكيل، وصل V4-Pro إلى أفضل مستوى بين النماذج المفتوحة المصدر الحالية، كما يتفوق في تقييمات الوكيل الأخرى ذات الصلة. Currently، DeepSeek-V4已成为内部员工使用的Agentic Coding模型. According to تقييمات، تجربة المستخدم أفضل من Sonnet 4.5، وجودة التسليم قريبة من الوضع غير التفكيري لـ Opus 4.6، ولكن لا تزال هناك فجوة معينة مع الوضع التفكيري لـ Opus 4.6.
معرفة العالم الغنية
في تقييمات معرفة العالم، يتفوق DeepSeek-V4-Pro بشكل ملحوظ على النماذج المفتوحة المصدر الأخرى، وهو أقل بقليل فقط من أفضل نموذج مغلق المصدر Gemini-Pro-3.1.
أداء الاستدلال على مستوى عالمي
في تقييمات الرياضيات، والعلوم والتكنولوجيا والهندسة، والكود التنافسي، يتجاوز DeepSeek-V4-Pro جميع النماذج المفتوحة المصدر المتاحة للتقييم حالياً، محققاً نتائج ممتازة قابلة للمقارنة مع أفضل النماذج المغلقة المصدر في العالم.
الابتكار الهيكلي وكفاءة السياق الفائقة
ابتكر DeepSeek-V4 Mechanism انتباه جديد تماماً يضغط في بعد الرمز، Combined with DSA Sparse Attention (DeepSeek Sparse Attention)، achieving world-leading long context capabilities، مع تقليل كبير لمتطلبات الحوسبة والذاكرة compared to traditional methods. من الآن فصاعداً، سيكون 1M (مليون) سياق هو المعيار لجميع خدمات DeepSeek الرسمية.
تحسين خاص لقدرات الوكيل
تم تكييف DeepSeek-V4 وتحسينه للمنتجات الوكيل الرئيسية مثل Claude Code، OpenClaw، OpenCode، و CodeBuddy، مع تحسين الأداء في مهام الكود، ومهام توليد المستندات، والمزيد.
هندسة النموذج الجديد
أصدر DeepSeek رسمياً ورقة تقنية تفصيلية توضح التنفيذ التقني لـ V4. تنص الورقة بوضوح على أن نماذج الاستدلال الحالية تعتمد heavily on test-time scaling، لكن التعقيد التربيعي للانتباه التقليدي يجعل السياق الطويل increasingly expensive، ليصبح في النهاية عائقاً للاستدلال ومهام السلسلة الطويلة. هدف DeepSeek-V4 هو كسر هذا العائق وجعل سياق 1M عملياً حقاً.
هناك في الواقع مستويان من الاعتبار وراء هذا الهدف:
- المستوى المنتج: many future tasks are not “اطرح سؤالاً، احصل على إجابة”، but مستندات طويلة، مستندات متعددة، workflows الوكيل المعقدة، والاستدلال طويل السلسلة. هذه السيناريوهات حساسة لكل من طول السياق وتكاليف الاستدلال.
- المستوى البحثي: إذا كان استدلال السياق الطويل مكلفاً جداً، ستصل benefits of test-time scaling quickly to a wall. V4 actually lays the foundation for “استدلال أطول، مهام مسار أطول”.
1) CSA + HCA: ورقة V4 الرابحة الحقيقية
هذا هو أهم جزء في الورقة بأكملها. بدلاً من continuing down the path of original dense attention، صمم V4 هندسة انتباه هجينة:
- CSA (Compressed Sparse Attention): ضغط KV أولاً على طول التسلسل، ثم perform sparse selection، letting the query only see top-k compressed blocks.
- HCA (Heavily Compressed Attention): ضغط أكثر عدوانية، but retains dense attention.
يمكنك فهمه comme:
- CSA أكثر seperti “استرجع بعد الضغط”، focusing on efficiently finding key points;
- HCA أكثر seperti “عرض الكل بعد ملخص شديد”، focusing on reducing global costs.
تُستخدم هاتان الآليتان بالتبادل، aiming not just to create an approximate attention، but to achieve a balanced design that takes into account local details، global coverage، and inference costs. تضيف الورقة also a sliding window branch to prevent losing fine-grained dependencies of nearby tokens after compression.
هذا التصميم very engineering-oriented: رؤية المعلومات البعيدة بتكلفة رخيصة، ورؤية المعلومات القريبة بالتفصيل، واختيار sparse للكتل المهمة للتركيز عليها. إنها更像 نظام ذاكرة متعدد المستويات، rather than obsessing over full raw tokens.
2) mHC: تدريب أكثر استقراراً
another important upgrade in V4 هو mHC (Manifold-Constrained Hyper-Connections)، which mainly solves three problems:
- مشكلة التدهور: الشبكات العميقة لا just overfit، بل can’t be trained well at all
- انفجار остаточного: Norm becomes uncontrollable after residual superposition
- انهيار/تشويه فضاء التمثيل: الملامح العميقة لم تعد قابلة للتفسير
يكمن التحسين الأساسي لـ mHC في: تقييد مصفوفة الخلط residual (Hresl) لكل طبقة لتكون “مصفوفة مزدوجة stochastique”، that’s falling on the manifold/polytope of Birkhoff polytope (the set of doubly stochastic matrices/convex hull of permutation matrices).
اختار فريق البحث this manifold structure as the optimization space mainly because it has multiple excellent properties:
- غير موسع: The spectral norm of doubly stochastic matrices is bounded، thus suppressing the risk of gradient explosion
- Compositional Closure: مجموعة المصفوفات مزدوجة stochastique مغلقة تحت الضرب. يظل الضرب متعدد الطبقات مزدوجاً stochastique، so “cross-many-layer” skip connections also maintain the same conservation/stability properties
- التفسير الهندسي: التوليف المحدب من المصفوفات: Birkhoff polytope هو hull المحدب من مصفوفات التبديل، so it can be regarded as “المتوسط المرجح لأنواع مختلفة من طرق الخلط”؛ repeat application brings stronger cross-flow mixing، but it is still monotonically enhanced fusion rather than uncontrolled amplification
بالإضافة إلى ذلك، voegde mHC toe aan non-negativity constraints to avoid signal cancellation caused by superposition of positive and negative coefficients. Experiments show that mHC makes the training process more stable، مع loss basically monotonic، smooth، and no long-term offset.
3) Muon: المُحسِّن المستخدم بكثافة في V4
تؤكد الورقة على المُحسِّن Muon. وظيفته مشابهة لـ AdamW المألوف، كلاهما used to update model parameters. الاختلاف هو أن الورقة تعتقد أن Muon converges faster and trains more stably in large model training، لذلك يتم استخدامه في معظم وحدات DeepSeek-V4.
أكبر اختلاف عن SGD/AdamW العادي هو أنه performs a special process on the update matrix to make the update direction more regular and stable. العملية الأساسيةroughly:
- Calculate gradients first
- Accumulate momentum
- Perform a Hybrid Newton-Schulz orthogonalization process on the update matrix of “momentum + current gradient”
- Perform scaling and weight decay، وأخيراً update parameters
4) ما مدى إثارة إعجاب V4 في تحسين الكفاءة؟
أكثر البيانات تأثيراً في هذه الورقة هو مخطط مقارنة الكفاءة على الصفحة الرئيسية. تحت سياق 1M token:
- DeepSeek-V4-Pro له فقط 27% من FLOPs للاستدلال لكل رمز في DeepSeek-V3.2، و KV cache هو فقط 10% من V3.2
- DeepSeek-V4-Flash أكثر عدوانية، مع FLOPs لكل رمز فقط 10%، و KV cache فقط 7%
هذا التحسين له أهمية كبيرة. لأن biggest problem with long context models is the high usage cost، قيمة تصميم V4 هي أنها attempts to turn “million context” from a demonstration capability into a practical, deployable capability. Это также donde es más convincente que muchos modelos que “يدعون支持 1M long context”.
أفكار ختامية
Many past models also claimed to support long context، but in practice، often two problems existed: either it was too expensive، or it didn’t really work well when the context was long. القيمة الأساسية لـ V4 هذه المرة هي: لقد تم إعادة هندسته بالكامل حول “قابلية استخدام السياق الطويل” من Mechanism الانتباه، KV cache، استقرار التدريب، إلى المُحسِّن.
إصدار V4 هذه المرة带来了许多实质性的技术突破,为下一代AI代理和长上下文应用奠定了坚实基础。