DeepSeek V4 Model: Explicación detallada sobre escala de parámetros, capacidades y rendimiento
DeepSeek V4 Model lleva el contexto largo al nivel de millones de tokens e introduce multimodalidad nativa y una nueva arquitectura. Este artículo ofrece una explicación concisa sobre la escala de parámetros, capacidades y rendimiento de DeepSeek V4.

1. Parámetros y Arquitectura
- Escala: La versión completa de V4 tiene aproximadamente 1 billón de parámetros MoE, con unos 32 mil millones de parámetros activados; V4 Lite tiene unos 200B y ya está disponible.
- Contexto: Aumentado de 128K a 1 millón de tokens, haciéndolo más útil para bases de datos completas, documentos largos y agentes de múltiples turnos.
- Arquitectura: Memoria condicional Engram, atención dispersa DSA y conexiones hipermejoradas mHC, controlando costos y mejorando la estabilidad en contextos largos.
2. Puntos clave de capacidad
- Multimodalidad nativa: Modelado unificado de texto, imágenes y video, compatible con generación de texto a imagen, texto a video y razonamiento multimodal.
- Código: Puntuación filtrada de SWE-bench Verified ~83.7%, con pensamiento de ingeniería global.
- Costo: Ventaja en costos de inferencia frente a la competencia, favorable para agentes 7×24 y aplicaciones a gran escala.
3. V4 Lite vs. Versión completa
Actualmente está disponible V4 Lite; se espera que la versión completa tenga mayor cantidad de parámetros y capacidades, sujeto a confirmación oficial. La hoja de ruta de DeepSeek V4 Model es contexto largo + multimodalidad nativa + eficiencia de costos.
Para probar DeepSeek V4 directamente, haz clic en el botón de abajo.