Cómo Evaluar el Lanzamiento Oficial de DeepSeek V4 Anunciado en Twitter el 22 de Abril

deepseek v4sitio oficial de deepseektutorial de deepseekprecios de deepseek v4

Comenzar a usar DeepSeek

DeepSeek-V4 está aquí: El Contexto Millón No Es un Gimmick, Sino la Base para Próxima Generación de Agents

Después de mucha anticipación, DeepSeek-V4 fue anunciado oficialmente el 22 de abril. Desde la perspectiva de arquitectura general, V4 es claramente una nueva generación de modelo grande reconstruida alrededor de la “eficiencia de contexto ultra largo”, con el objetivo de resolver el punto doloroso de la industria de los altos costos de inferencia de contexto largo.

Lanzamiento de DeepSeek V4

Esta nueva versión presenta capacidad de contexto ultra largo de un millón de tokens, logrando niveles líderes en capacidades Agent, conocimiento mundial y rendimiento de razonamiento entre modelos domésticos y de código abierto. El modelo viene en dos versiones, ambas soportando longitud de contexto 1M, y ha sido directamente de código abierto:

  • Versión Pro tiene 1.6T parámetros totales con 49B parámetros activos
  • Versión Flash tiene 284B parámetros totales con 13B parámetros activos

A partir de hoy, los usuarios pueden experimentar el último DeepSeek-V4 directamente en nuestra plataforma, disfrutando de las nuevas capacidades de conversación traídas por la memoria de contexto ultra largo 1M. Al mismo tiempo, los servicios API también han sido actualizados. Los desarrolladores solo necesitan cambiar model_name a deepseek-v4-pro o deepseek-v4-flash para acceder y llamar al servicio rápidamente.

¿Cómo es el Rendimiento del Modelo?

Primero de todo, el rendimiento de V4 ya es comparable a los mejores modelos de código cerrado:

Capacidades Agent Significantly Improved

Comparado con modelos anteriores, las capacidades Agent de DeepSeek-V4-Pro han sido significativamente mejoradas. En evaluaciones de Agentic Coding, V4-Pro ha alcanzado el mejor nivel entre los modelos de código abierto actuales, y también Perform excellently en otras evaluaciones relacionadas con Agent. Currently, DeepSeek-V4已成为内部员工使用的Agentic Coding模型. Según comentarios de evaluación, la experiencia del usuario es mejor que Sonnet 4.5, y la calidad de entrega está cerca del modo no pensante de Opus 4.6, aunque todavía existe una cierta brecha con el modo pensante de Opus 4.6.

Conocimiento Mundial Rico

En evaluaciones de conocimiento mundial, DeepSeek-V4-Pro supera significativamente a otros modelos de código abierto, siendo solo ligeramente inferior al mejor modelo de código cerrado Gemini-Pro-3.1.

Rendimiento de Razonamiento de Clase Mundial

En evaluaciones de matemáticas, STEM y código de nivel competitivo, DeepSeek-V4-Pro supera a todos los modelos de código abierto evaluados públicamente actualmente, logrando excelentes resultados comparables a los mejores modelos de código cerrado del mundo.

Innovación Estructural y Eficiencia de Contexto Ultra Alta

DeepSeek-V4 ha pionero un mecanismo de atención completamente nuevo que comprime en la dimensión de token, combinado con DSA Sparse Attention (DeepSeek Sparse Attention), logrando capacidades de contexto largo de nivel mundial y reduciendo significativamente los requisitos de computación y memoria en comparación con métodos tradicionales. Desde ahora, 1M (un millón) de contexto será el estándar para todos los servicios oficiales de DeepSeek.

Optimización Especial para Capacidades Agent

DeepSeek-V4 ha sido adaptado y optimizado para productos Agent主流 como Claude Code, OpenClaw, OpenCode y CodeBuddy, con rendimiento mejorado en tareas de código, tareas de generación de documentos y más.

Nueva Arquitectura del Modelo

DeepSeek lanzó oficialmente un documento técnico detallando la implementación técnica de V4. El documento establece claramente que los modelos de razonamiento actuales dependen fuertemente de test-time scaling, pero la complejidad cuadrática del atención tradicional hace que el contexto ultra largo sea cada vez más caro, eventualmente convirtiéndose en un cuello de botella para el razonamiento y tareas de cadenas largas. El objetivo de DeepSeek-V4 es romper este cuello de botella y hacer que 1M contexto sea verdaderamente práctico.

Hay realmente dos niveles de consideración detrás de este objetivo:

  • Nivel de producto: Muchas tareas futuras no son “hacer una pregunta, obtener una respuesta”, sino documentos largos, multi-documentos, flujos de trabajo Agent complejos y razonamiento de cadenas ultra largas. Estos escenarios son sensibles tanto a la longitud del contexto como a los costos de inferencia.
  • Nivel de investigación: Si la inferencia de contexto largo es muy cara, los beneficios del test-time scaling rápidamente golpearán una pared. V4 está realmente sentando las bases para “razonamiento más largo, tareas de trayectorias más largas”.

1) CSA + HCA: El verdadero As de V4

Esta es la parte más crítica de todo el documento. En lugar de continuar por el camino del atención denso original, V4 diseñó una arquitectura de atención híbrida:

  • CSA (Compressed Sparse Attention): Primero comprimir KV a lo largo de la secuencia, luego realizar selección dispersa, dejando que la consulta solo vea los top-k bloques comprimidos.
  • HCA (Heavily Compressed Attention): Comprime aún más agresivamente, pero retiene atención denso.

Puedes entenderlo como:

  • CSA es más como “recuperar después de comprimir”, enfocándose en encontrar eficientemente puntos clave;
  • HCA es más como “ver el conjunto después de un resumen extremo”, enfocándose en reducir costos globales.

Estos dos mecanismos se usan alternadamente, apuntando no solo a crear un atención aproximado, sino a lograr un diseño equilibrado que considere detalles locales, cobertura global y costos de inferencia. El documento también agrega una rama de ventana deslizante para evitar perder dependencias granulares de tokens cercanos después de la compresión.

Esta idea de diseño es muy orientada a la ingeniería: Ver información distante baratamente, ver información cercana en detalle, y seleccionar dispersamente bloques importantes para vista enfocada. Es más como un sistema de memoria multinivel, en lugar de obsesionarse con tokens brutos completos.

2) mHC: Entrenamiento Más Estable

Otro mejora importante en V4 es mHC (Manifold-Constrained Hyper-Connections), que principalmente resuelve tres problemas:

  • Problema de degradación: Las redes profundas no solo sobreajustan, no pueden ser entrenadas bien en absoluto
  • Explosión residual: La norma se vuelve incontrolable después de la superposición residual
  • Colapso/distorsión del espacio de representación: Las características profundas ya no son interpretables

La mejora central de mHC yace en: Limitar la matriz de mezcla residual (Hresl) de cada capa a una “matriz doblemente estocástica”, es decir, cayendo en el colector/polítopo del polítopo de Birkhoff (el conjunto de matrices doblemente estocásticas/envoltura convexa de matrices de permutación).

El equipo de investigación eligió esta estructura de colector como espacio de optimización principalmente porque tiene múltiples propiedades excelentes:

  • No expansivo: La norma espectral de matrices doblemente estocásticas está acotada, suprimiendo así el riesgo de explosión de gradiente
  • Cierre composicional: El conjunto de matrices doblemente estocásticas está cerrado bajo multiplicación. La multiplicación multicapa permanece doblemente estocástica, por lo que las conexiones de salto “cross-many-layer” también mantienen las mismas propiedades de conservación/estabilidad
  • Interpretación geométrica: Combinación convexa de permutaciones: El polítopo de Birkhoff es la envoltura convexa de matrices de permutación, por lo que puede verse como “promedio ponderado de varios métodos de mezcla de permutaciones”; la aplicación repetida trae mezcla cruzada más fuerte, pero todavía es fusión monotonamente reforzada en lugar de amplificación descontrolada

Además, mHC agrega restricciones de no negatividad para evitar cancelación de señal causada por la superposición de coeficientes positivos y negativos. Los experimentos muestran que mHC hace el proceso de entrenamiento más estable, con pérdida基本上 monotonic, suave y sin desviación a largo plazo.

3) Muon: El Optimizador Pesadamente Usado en V4

El documento enfatiza mucho el optimizador Muon. Su función es similar al familiar AdamW, ambos usados para actualizar parámetros del modelo. La diferencia es que el documento cree que Muon converge más rápido y entrena más estable en entrenamiento de modelos grandes, por lo que se usa en la mayoría de módulos de DeepSeek-V4.

Su mayor diferencia del SGD/AdamW ordinario es que realiza un proceso especial en la matriz de actualización para hacer la dirección de actualización más regular y estable. El proceso central es aproximadamente:

  1. Primero calcular gradientes
  2. Acumular impulso
  3. Realizar un proceso de orthogonalización Newton-Schulz híbrido en la matriz de actualización de “impulso + gradiente actual”
  4. Realizar escalado y decaimiento de peso, y finalmente actualizar parámetros

4) Qué Tan Impresionante es la Mejora de Eficiencia de V4

Los datos más impactantes en este documento son la gráfica de comparación de eficiencia en la página principal. Bajo contexto de 1M token:

  • DeepSeek-V4-Pro tiene solo 27% de los FLOPs de inferencia de token único de DeepSeek-V3.2, y caché KV es solo 10% de V3.2
  • DeepSeek-V4-Flash es aún más agresivo, con FLOPs de token único solo 10%, y caché KV solo 7%

Esta mejora es de gran importancia. Porque el mayor problema con modelos de contexto largo es el alto costo de uso, el valor del diseño de V4 es que intenta convertir “contexto millón” de una capacidad de demostración en una capacidad práctica, desplegable. Esto también es donde es más convincente que muchos modelos que “afirman soportar 1M contexto largo”.

Pensamientos Finales

Muchos modelos en el pasado también afirmaron soportar contexto largo, pero en la práctica, a menudo había dos problemas: o era demasiado caro, o realmente no funcionaba bien cuando el contexto era largo. El valor central de V4 esta vez yace en: Ha sido completamente re-ingeniería alrededor de la “usabilidad de contexto largo” desde mecanismo de atención, caché KV, estabilidad de entrenamiento, hasta optimizador.

El lanzamiento de V4 esta vez realmente ha traído muchos avances tecnológicos sustanciales, sentando una base sólida para Próxima Generación de AI Agents y aplicaciones de contexto largo.

Comenzar a usar DeepSeek

← Blog