DeepSeek V4 Model : Détails sur l'échelle des paramètres, les capacités et les performances

DeepSeek V4 Modeldeepseek v4DeepSeek V4grand modèle de langage

DeepSeek V4 Model repousse le contexte long au niveau du million de tokens et introduit la multimodalité native ainsi qu’une toute nouvelle architecture. Cet article fournit une explication détaillée de l’échelle des paramètres, des capacités et des performances de DeepSeek V4.

👉 Utiliser Deepseek4 maintenant

Détails sur le DeepSeek V4 Model

1. Paramètres et Architecture

  • Échelle : La version complète de V4 comporte environ 1 000 milliards de paramètres MoE, avec environ 32 milliards de paramètres activés ; V4 Lite, d’environ 200 milliards, est déjà publiée.
  • Contexte : Passé de 128K à 1 million de tokens, rendant les bases de données complètes, les longs documents et les agents multi-tours plus utilisables.
  • Architecture : Mémoire conditionnelle Engram, attention clairsemée DSA, hyperconnexions améliorées mHC, permettant de contrôler les coûts et d’améliorer la stabilité dans des contextes longs.

2. Points clés des capacités

  • Multimodalité native : Modélisation unifiée du texte, des images et des vidéos, prenant en charge la génération d’images et de vidéos à partir de texte ainsi que le raisonnement multimodal.
  • Code : Les fuites indiquent un score SWE-bench Verified d’environ 83.7%, démontrant une pensée d’ingénierie globale.
  • Coût : Avantage en termes de coût d’inférence par rapport aux concurrents, favorable aux agents 7×24 et aux applications à grande échelle.

3. V4 Lite vs Version complète

La version V4 Lite est actuellement publiée ; la version complète devrait avoir une quantité de paramètres et des capacités supérieures, les détails exacts étant à confirmer par l’annonce officielle. La feuille de route du DeepSeek V4 Model est : contexte long + multimodalité native + efficacité des coûts.

Pour essayer directement DeepSeek V4, cliquez sur le bouton ci-dessous.

👉 Utiliser Deepseek4 maintenant

← Blog