DeepSeek V4 Model Diterangkan: Skala Parameter, Keupayaan dan Prestasi
DeepSeek V4 Model menolak konteks panjang ke tahap jutaan token dan memperkenalkan multimodal asli serta seni bina baharu. Artikel ini memberikan penjelasan ringkas tentang skala parameter, keupayaan dan prestasi DeepSeek V4.

1. Parameter dan Seni Bina
- Skala: Versi penuh V4 kira-kira 1 trilion parameter MoE, dengan kira-kira 32 bilion parameter aktif; V4 Lite kira-kira 200B, telah dilancarkan.
- Konteks: Ditingkatkan dari 128K kepada 1 juta token, menjadikan pangkalan data penuh, dokumen panjang, dan Agent berbilang pusingan lebih boleh digunakan.
- Seni Bina: Memori bersyarat Engram, perhatian jarang DSA, sambungan hiper dipertingkatkan mHC, mengawal kos dan meningkatkan kestabilan dalam konteks panjang.
2. Titik Utama Keupayaan
- Multimodal Asli: Pemodelan bersatu untuk teks, imej dan video, menyokong penjanaan teks-ke-imej, teks-ke-video dan penaakulan merentas modal.
- Kod: SWE-bench Verified yang bocor kira-kira 83.7%, mempunyai pemikiran kejuruteraan holistik.
- Kos: Kos inferens mempunyai kelebihan berbanding pesaing, menguntungkan aplikasi Agent 7×24 dan berskala besar.
3. V4 Lite dan Versi Penuh
V4 Lite telah dilancarkan; versi penuh dijangka mempunyai parameter dan keupayaan yang lebih tinggi, tertakluk kepada pengesahan rasmi. Laluan DeepSeek V4 Model adalah konteks panjang + multimodal asli + kecekapan kos.
Untuk mengalami DeepSeek V4 secara langsung, klik butang di bawah.