Comment Évaluer la Version Officielle V4 de DeepSeek Annoncée sur Twitter le 22 Avril

deepseek v4site officiel deepseektutoriel deepseektarification deepseek v4

Commencer à utiliser DeepSeek

DeepSeek-V4 Est Là: Le Contexte Million N’Est Pas un Gimmick, Mais la Base pour les Agents de Prochaine Génération

Après une longue attente, DeepSeek-V4 a été officiellement annoncé le 22 avril. Du point de vue de l’architecture globale, V4 est clairement un nouveau modèle de grande taille reconstruit autour de “l’efficacité de contexte ultra-long”, visant à résoudre le problème douloureux de l’industrie des coûts d’inférence élevés pour les contextes longs.

Publication DeepSeek V4

Cette nouvelle publication présente une capacité de contexte ultra-long d’un million de tokens, atteignant des niveaux leaders dans les capacités Agent, les connaissances mondiales et la performance de raisonnement parmi les modèles domestiques et open source. Le modèle vient en deux versions, toutes deux supportant une longueur de contexte 1M, et a été directement rendu open source:

  • Version Pro a 1.6T de paramètres totaux avec 49B de paramètres actifs
  • Version Flash a 284B de paramètres totaux avec 13B de paramètres actifs

À partir d’aujourd’hui, les utilisateurs peuvent expérimenter le dernier DeepSeek-V4 directement sur notre plateforme, profitant des nouvelles capacités de conversation apportées par la mémoire de contexte ultra-long 1M. En même temps, les services API ont également été mis à jour. Les développeurs n’ont qu’à changer model_name en deepseek-v4-pro ou deepseek-v4-flash pour accéder et appeler rapidement le service.

Quelle Est la Performance du Modèle?

Tout d’abord, la performance V4 est déjà comparable aux meilleurs modèles à source fermée:

Capacités Agent Significantly Améliorées

Comparé aux modèles de génération précédente, les capacités Agent de DeepSeek-V4-Pro ont été considérablement améliorées. Dans les évaluations de codage Agent, V4-Pro a atteint le meilleur niveau parmi les modèles open source actuels, et Perform également excellently dans d’autres évaluations liées à l’Agent. Currently, DeepSeek-V4已成为内部员工使用的Agentic Coding模型. Selon les commentaires d’évaluation, l’expérience utilisateur est meilleure que Sonnet 4.5, et la qualité de livraison est proche du mode non-pensant d’Opus 4.6, bien qu’il existe encore un certain écart avec le mode pensant d’Opus 4.6.

Connaissances Mondiales Riches

Dans les évaluations de connaissances mondiales, DeepSeek-V4-Pro dépasse significativement les autres modèles open source, n’étant que légèrement inférieur au meilleur modèle à source fermée Gemini-Pro-3.1.

Performance de Raisonnement de Classe Mondiale

Dans les évaluations de mathématiques, STEM et de code de niveau compétition, DeepSeek-V4-Pro dépasse tous les modèles open source actuellement évalués publiquement, atteignant d’excellents résultats comparables aux meilleurs modèles à source fermée du monde.

Innovation Structurelle et Efficacité de Contexte Ultra-Haute

DeepSeek-V4 a pioneering un mécanisme d’attention совершенно nouveau qui comprime dans la dimension token, combiné avec une attention clairsemée DSA (DeepSeek Sparse Attention), atteignant des capacités de contexte long de niveau mondial et réduisant significativement les exigences de calcul et de mémoire par rapport aux méthodes traditionnelles. À partir de maintenant, 1M (un million) de contexte sera la norme pour tous les services officiels DeepSeek.

Optimisation Spéciale pour les Capacités Agent

DeepSeek-V4 a été adapté et optimisé pour les produits Agent主流 comme Claude Code, OpenClaw, OpenCode et CodeBuddy, avec des performances améliorées dans les tâches de code, les tâches de génération de documents et plus.

Nouvelle Architecture de Modèle

DeepSeek a officiellement publié un document technique détaillant l’implémentation technique de V4. Le document stipule clairement que les modèles de raisonnement actuels dépendent fortement du test-time scaling, mais la complexité quadratique de l’attention traditionnelle rend le contexte ultra-long de plus en plus coûteux, finissant par devenir un goulot d’étranglement pour le raisonnement et les tâches à longues chaînes. L’objectif de DeepSeek-V4 est de briser ce goulot d’étranglement et de rendre 1M contexte vraiment pratique.

Il y a effectivement deux niveaux de considération derrière cet objectif:

  • Niveau produit: De nombreuses tâches futures ne sont pas “poser une question, obtenir une réponse”, mais des documents longs, multi-documents, flux de travail Agent complexes et raisonnement à chaînes ultra-longues. Ces scénarios sont sensibles à la fois à la longueur du contexte et aux coûts d’inférence.
  • Niveau recherche: Si l’inférence de contexte long est trop chère, les avantages du test-time scaling frapperont rapidement un mur. V4 pose en fait les fondations pour “un raisonnement plus long, des tâches à trajectoires plus longues”.

1) CSA + HCA: Le Vrai Atout de V4

C’est la partie la plus critique de tout le document. Au lieu de continuer sur le chemin de l’attention dense originale, V4 a conçu une architecture d’attention hybride:

  • CSA (Compressed Sparse Attention): D’abord comprimer KV le long de la séquence, puis effectuer une sélection clairsemée, ne laissant la requête voir que les top-k blocs comprimés.
  • HCA (Heavily Compressed Attention): Comprime encore plus agressivement, mais conserve l’attention dense.

Tu peux le comprendre comme:

  • CSA est plus comme “récupérer après compression”, se concentrant sur trouver efficacement des points clés;
  • HCA est plus comme “voir le tout après un résumé extrême”, se concentrant sur la réduction des coûts globaux.

Ces deux mécanismes sont utilisés en alternance, visant non pas à créer une attention approximative, mais à atteindre un design équilibré qui prend en compte les détails locaux, la couverture globale et les coûts d’inférence. Le document ajoute également une branche à fenêtre coulissante pour éviter de perdre les dépendances granulaires des tokens proches après compression.

Cette idée de conception est très orientée ingénierie: Voir les informations distantes à moindre coût, voir les informations proches en détail, et sélectionner clairsemé des blocs importants pour une vue concentrée. C’est plus comme un système de mémoire multi-niveaux, plutôt que de s’obstiner sur les tokens bruts complets.

2) mHC: Entraînement Plus Stable

Une autre amélioration importante dans V4 est mHC (Manifold-Constrained Hyper-Connections), qui résout principalement trois problèmes:

  • Problème de dégradation: Les réseaux profonds ne font pas que overfitter, ils ne peuvent tout simplement pas être bien entraînés
  • Explosion résiduelle: La norme devient incontrôlable après la superposition résiduelle
  • Collapse/distorsion de l’espace de représentation: Les caractéristiques profondes ne sont plus interprétables

L’amélioration centrale de mHC réside dans: Limiter la matrice de mélange résiduelle (Hresl) de chaque couche à une “matrice doublement stochastique”, c’est-à-dire tombant sur le collecteur/polytope du polytope de Birkhoff (l’ensemble des matrices doublement stochastiques/enveloppe convexe des matrices de permutation).

L’équipe de recherche a choisi cette structure de collecteur comme espace d’optimisation principalement parce qu’elle a plusieurs propriétés excellentes:

  • Non expansif: La norme spectrale des matrices doublement stochastiques est bornée, supprimant ainsi le risque d’explosion de gradient
  • Fermeture compositionnelle: L’ensemble des matrices doublement stochastiques est fermé sous multiplication. La multiplication multicouche reste doublement stochastique, donc les connexions skip “cross-many-layer” maintiennent également les mêmes propriétés de conservation/stabilité
  • Interprétation géométrique: Combinaison convexe des permutations: Le polytope de Birkhoff est l’enveloppe convexe des matrices de permutation, donc il peut être vu comme “la moyenne pondérée de diverses méthodes de mélange de permutations”; l’application répétée apporte un mélange cross-flow plus fort, mais c’est toujours une fusion monotonement renforcée plutôt qu’une amplification incontrôlée

De plus, mHC ajoute des contraintes de non-négativité pour éviter l’annulation du signal causée par la superposition de coefficients positifs et négatifs. Les expériences montrent que mHC rend le processus d’entraînement plus stable, avec perte基本上单调,平滑,无长期偏移。

3) Muon: L’Optimiseur Fortement Utilisé dans V4

Le document insiste beaucoup sur l’optimiseur Muon. Sa fonction est similaire au familier AdamW, tous deux utilisés pour mettre à jour les paramètres du modèle. La différence est que le document pense que Muon converge plus rapidement et s’entraîne plus stablement dans l’entraînement de grands modèles, il est donc utilisé dans la plupart des modules de DeepSeek-V4.

Sa plus grande différence avec SGD/AdamW ordinaire est qu’il effectue un processus spécial sur la matrice de mise à jour pour rendre la direction de mise à jour plus régulière et stable. Le processus central est approximativement:

  1. D’abord calculer les gradients
  2. Accumuler l’élan
  3. Effectuer un processus d’orthogonalisation Newton-Schulz hybride sur la matrice de mise à jour de “l’élan + gradient actuel”
  4. Effectuer la mise à l’échelle et la décroissance du poids, et enfin mettre à jour les paramètres

4) Quelle Est l’Impressionnants de l’Amélioration de l’Efficacité de V4?

Les données les plus percutantes dans ce document sont le graphique de comparaison d’efficacité sur la page d’accueil. Sous un contexte de token 1M:

  • DeepSeek-V4-Pro n’a que 27% des FLOPs d’inférence par token unique de DeepSeek-V3.2, et le cache KV n’est que 10% de V3.2
  • DeepSeek-V4-Flash est encore plus agressif, avec des FLOPs par token unique seulement 10%, et un cache KV seulement 7%

Cette amélioration est d’une grande importance. Parce que le plus grand problème avec les modèles de contexte long est le coût d’utilisation élevé, la valeur de la conception de V4 est qu’elle tente de transformer “le contexte million” d’une capacité de démonstration en une capacité pratique, déployable. C’est aussi là où c’est plus convaincant que de nombreux modèles qui “prétendent supporter 1M contexte long”.

Pensées Finales

De nombreux modèles dans le passé ont également prétendu supporter le contexte long, mais en pratique, il y avait souvent deux problèmes: soit c’était trop coûteux, soit ça ne fonctionnait vraiment pas bien quand le contexte était long. La valeur centrale de V4 cette fois réside dans: Il a été complètement ré-ingénierie autour de la “praticabilité du contexte long” depuis le mécanisme d’attention, le cache KV, la stabilité de l’entraînement, jusqu’à l’optimiseur.

La publication de V4 cette fois a vraiment apporté de nombreuses percées technologiques substantielles, posant une base solide pour les Agents d’IA et les applications de contexte long de prochaine génération.

Commencer à utiliser DeepSeek

← Blog