Cara Menilai Rilis Resmi DeepSeek V4 yang Diumumkan di Twitter pada 22 April
DeepSeek-V4 telah Hadir: Konteks Jutaan Bukan Gimmick, Tetapi Fondasi untuk Agents Generasi Berikutnya
Setelah menunggu lama, DeepSeek-V4 secara resmi diumumkan pada 22 April. Dari perspektif arsitektur keseluruhan, V4 jelas merupakan model besar generasi baru yang direkonstruksi di sekitar “efisiensi konteks ultra-panjang”, bertujuan untuk menyelesaikan titik sakit industri dari biaya inferensi konteks panjang yang tinggi.
Rilis baru ini menampilkan kapabilitas konteks ultra-panjang satu juta token, mencapai tingkat pemimpin dalam kapabilitas Agent, pengetahuan dunia, dan performa penalaran di antara model domestik dan open-source. Model ini hadir dalam dua versi, keduanya mendukung panjang konteks 1M, dan telah secara langsung di-open-source-kan.
Bagaimana Performa Model?
Pertama-tama, performa V4 sudah sebanding dengan model closed-source teratas:
Kapabilitas Agent yang Significantly Improved
Dibandingkan dengan model generasi sebelumnya, kapabilitas Agent DeepSeek-V4-Pro telah Significantly enhanced. Dalam evaluasi Agentic Coding, V4-Pro telah mencapai tingkat terbaik di antara model open-source saat ini, dan juga Perform excellently dalam evaluasi terkait Agent lainnya. Saat ini, DeepSeek-V4 telah menjadi model Agentic Coding yang digunakan karyawan internal.
Pengetahuan Dunia yang Kaya
Dalam penilaian pengetahuan dunia, DeepSeek-V4-Pro secara signifikan mengungguli model open-source lainnya.
Performa Penalaran Kelas Dunia
Dalam evaluasi matematika, STEM dan kode tingkat kompetisi, DeepSeek-V4-Pro melampaui semua model open-source yang saat ini dievaluasi secara publik.
Inovasi Struktural dan Efisiensi Konteks Ultra-Tinggi
DeepSeek-V4 telah memelopori mekanisme perhatian baru yang mengkompresi dalam dimensi token, dikombinasikan dengan DSA sparse attention, mencapai kapabilitas konteks panjang tingkat dunia dan secara signifikan mengurangi persyaratan komputasi dan memori dibandingkan metode tradisional. Dari sekarang, 1M konteks akan menjadi standar untuk semua layanan resmi DeepSeek.
Optimasi Khusus untuk Kapabilitas Agent
DeepSeek-V4 telah diadaptasi dan dioptimalkan untuk produk Agent utama seperti Claude Code, OpenClaw, OpenCode, dan CodeBuddy.
Arsitektur Model Versi Baru
DeepSeek secara resmi merilis kertas teknis yang merinci implementasi teknis V4. Kertas tersebut dengan jelas menyatakan bahwa model penalaran saat ini sangat bergantung pada test-time scaling.
CSA + HCA: Kartu Tramp V4 yang Sesungguhnya
Ini adalah bagian paling kritis dari seluruh kertas. Alih-alih melanjutkan jalur perhatian dense asli, V4 merancang arsitektur perhatian hibrida.
mHC: Pelatihan Lebih Stabil
Peningkatan penting lainnya di V4 adalah mHC (Manifold-Constrained Hyper-Connections), yang terutama menyelesaikan tiga masalah.
Muon: Optimizer yang Banyak Digunakan di V4
Kertas tersebut sangat menekankan pada optimizer Muon.
Seberapa Impresif Peningkatan Efisiensi V4?
Data paling berdampak di kertas ini adalah grafik perbandingan efisiensi di halaman beranda. Di bawah konteks token 1M:
- DeepSeek-V4-Pro hanya memiliki 27% dari FLOPs inferensi token tunggal DeepSeek-V3.2, dan KV cache hanya 10% dari V3.2
- DeepSeek-V4-Flash bahkan lebih agresif, dengan FLOPs token tunggal hanya 10%, dan KV cache hanya 7%
Pikiran Akhir
Nilai inti V4 kali ini terletak pada: Ini telah完全重新设计围绕”长上下文可用性”。