DeepSeekが4月22日にツイッターで公式発表したV4モデルをどう評価するか

deepseek v4deepseek 公式サイトdeepseek チュートリアルdeepseek v4 価格

DeepSeekの使用を開始する

DeepSeek-V4が登場:百万コンテキストはギミックではなく、次世代Agentの基盤

長らく待ち望まれたDeepSeek-V4が4月22日に正式に発表されました。全体的なアーキテクチャから見ると、V4は明らかに「超長文コンテキスト効率」を中心に再構築された新世代の大規模言語モデルであり、長文コンテキスト推論コストが高いという業界の課題を解決することを目指しています。

DeepSeek V4 リリース

今回リリースされた新バージョンは百万トークンの超長文コンテキスト機能を搭載し、Agent能力、世界知識、推論性能において国内およびオープンソースモデルの中でトップレベルを実現しています。モデルは2つのバージョンがあり、いずれも1Mコンテキスト長をサポートし、すでに完全にオープンソース化されています:

  • Proバージョンは総パラメータ数1.6T、アクティブパラメータ49B
  • Flashバージョンは総パラメータ数284B、アクティブパラメータ13B

本日より、ユーザーは当社プラットフォームで最新のDeepSeek-V4を直接体験でき、1Mの超長文コンテキストメモリがもたらす新しい対話機能を享受できます。同時にAPIサービスも同期してアップグレードされており、開発者はmodel_nameをdeepseek-v4-proまたはdeepseek-v4-flashに変更するだけで、迅速にアクセスして呼び出すことができます。

モデルの性能はどうか?

まず、V4の性能はすでにトップクラスのクローズドソースモデルに匹敵するレベルに達しています:

Agent能力の大幅な向上

前世代のモデルと比較して、DeepSeek-V4-ProのAgent能力は大幅に強化されています。Agentic Codingの評価では、V4-Proは現在のオープンソースモデルの中で最高レベルに達しており、他のAgent関連の評価でも優れたパフォーマンスを示しています。現在、DeepSeek-V4は社内従業員が使用するAgentic Codingモデルとなっており、評価フィードバックによると、使用体験はSonnet 4.5より優れており、出力品質はOpus 4.6の非思考モードに近いものの、Opus 4.6の思考モードとは依然として一定の差があります。

豊富な世界知識

世界知識の評価において、DeepSeek-V4-Proは他のオープンソースモデルを大幅に上回り、トップクラスのクローズドソースモデルであるGemini-Pro-3.1にわずかに劣るだけです。

世界トップレベルの推論性能

数学、STEM、コンテストレベルのコーディングの評価において、DeepSeek-V4-Proは現在公開されているすべてのオープンソースモデルを上回り、世界トップクラスのクローズドソースモデルに匹敵する優れた結果を達成しています。

構造の革新と超高コンテキスト効率

DeepSeek-V4は、トークン次元で圧縮を行う新しいアテンションメカニズムを開発し、DSAスパースアテンション(DeepSeek Sparse Attention)と組み合わせることで、世界をリードする長文コンテキスト能力を実現し、従来の方法と比較して計算およびメモリの要件を大幅に削減しています。今後、1M(100万)コンテキストはすべてのDeepSeek公式サービスの標準となります。

Agent能力の特別な最適化

DeepSeek-V4は、Claude Code、OpenClaw、OpenCode、CodeBuddyなどの主流のAgent製品に対して適応と最適化が行われており、コードタスク、ドキュメント生成タスクなどのパフォーマンスが向上しています。

新バージョンのモデルアーキテクチャ

DeepSeekはV4の技術的実装を詳述した技術論文を公式に公開しました。論文では、現在の推論モデルはtest-time scalingに大きく依存しているが、従来のアテンションの2次複雑性により超長文コンテキストのコストがますます高くなり、最終的に推論と長鎖タスクのボトルネックになると明記されています。DeepSeek-V4の目標はこのボトルネックを打破し、1Mコンテキストを真に実用的なものにすることです。

この目標の背景には、実は2つのレベルの考慮があります:

  • プロダクトレベル:将来の多くのタスクは「質問をして答えを得る」だけではなく、長文ドキュメント、複数ドキュメント、複雑なAgentワークフロー、超長鎖推論などがあります。これらのシナリオはコンテキスト長と推論コストの両方に敏感です。
  • 研究レベル:長文コンテキスト推論が高すぎると、test-time scalingのメリットはすぐに限界に達します。V4は実際に「より長い推論、より長い軌跡タスク」の基盤を築いています。

1) CSA + HCA:V4の真の切り札

これが論文全体の最も重要な部分です。V4は従来のdense attentionの道を進むのではなく、ハイブリッドアテンションアーキテクチャを設計しました:

  • CSA(Compressed Sparse Attention):まずKVをシーケンスに沿って圧縮し、次にスパース選択を行い、クエリが上位k個の圧縮ブロックだけを参照するようにします。
  • HCA(Heavily Compressed Attention):より積極的に圧縮しますが、dense attentionを保持します。

次のように理解できます:

  • CSAは「圧縮後に検索」するようなもので、重点を効率的に見つけることに重点を置いています;
  • HCAは「極限要約後に全体を見る」ようなもので、グローバルなコスト削減に重点を置いています。

これら2つのメカニズムを交互に使用する目的は、単なる近似アテンションを作成することではなく、局所的な詳細、グローバルなカバレッジ、推論コストを考慮したバランスの取れた設計を実現することです。論文ではさらにスライディングウィンドウブランチを追加し、圧縮後に近傍トークンの細かい依存関係が失われるのを防いでいます。

この設計の考え方は非常にエンジニアリング指向です:遠くの情報は安く見て、近くの情報は詳細に見て、重要なブロックはスパースに選択して重点的に見る。 全量の生トークンに固執するのではなく、多段階のメモリシステムのようなものです。

最後に

過去の多くのモデルも長文コンテキストをサポートしていると主張していましたが、実際に使用すると、高すぎる、またはコンテキストが長くなると実際にはうまく機能しないという2つの問題が頻繁に発生していました。今回のV4の核心的な価値は:アテンションメカニズム、KVキャッシュ、トレーニングの安定性、オプティマイザーまで、すべて「長文コンテキストの実用性」を中心に完全に再設計されている点にあります。

今回のV4のリリースは、実際に多くの実質的な技術的ブレークスルーをもたらし、次世代のAI Agentと長文コンテキストアプリケーションのための強固な基盤を築いています。

DeepSeekの使用を開始する

← ブログ