Reducción permanente del precio de la API DeepSeek-V4-Pro

Reducción permanente del precio de la API DeepSeek-V4-Pro

El 22 de mayo de 2026, DeepSeek anunció oficialmente que el precio de la API de su modelo insignia, DeepSeek-V4-Pro, se reducirá permanentemente a 1/4 del precio original después de que finalice el descuento temporal del 75% el 31 de mayo.

Esto no es una promoción a corto plazo: es un cambio estratégico real en los precios.

Comenzar a usar DeepSeek

1. ¿Cuánto cuesta después de la reducción de precio?

Veamos los números clave:

Concepto de facturaciónPrecio original (yuanes/millón de tokens)Precio permanente (yuanes/millón de tokens)Reducción
Entrada (caché acertada)0,10,02575%
Entrada (caché fallido)12375%
Salida24675%

Los tres niveles se reducen a 1/4 del precio original. El precio de entrada con caché acertada ha bajado a solo 0,025 yuanes/millón de tokens — prácticamente insignificante.

Una comparación entre modelos lo hace aún más claro:

ModeloPrecio de entradaPrecio de salida
DeepSeek-V4-Pro3 yuanes6 yuanes
GPT-5.5~120 yuanes~240 yuanes
Claude Opus 4~105 yuanes~210 yuanes

Los precios de entrada y salida de DeepSeek-V4-Pro son solo el 2%-3% de los de GPT-5.5 y competidores similares — ni siquiera en la misma liga.

2. ¿Por qué puede ser tan económico?

Este nivel de reducción de precio no es una estrategia de pérdida. Está respaldado por fundamentos técnicos claros.

1. Arquitectura de atención propietaria

DeepSeek ha utilizado la arquitectura MLA (Multi-Head Latent Attention) desde la V2, que comprime drásticamente la huella de memoria del mecanismo de atención. La V4 optimiza aún más esto, reduciendo el uso de memoria por inferencia en aproximadamente un 60% en comparación con modelos de escala similar.

2. Optimización con chips Huawei Ascend

El equipo de DeepSeek ha realizado una adaptación profunda a nivel de operadores para el Huawei Ascend 910B, maximizando la utilización del ancho de banda de comunicación y la estabilidad del entrenamiento de precisión mixta. Los chips nacionales cuestan significativamente menos que los NVIDIA A100/H100, mientras que la brecha real en eficiencia de inferencia continúa reduciéndose.

3. Sistema Engram: CPU como almacén, GPU como taller

El sistema Engram de la V4 almacena el 80% del conocimiento estático en la DRAM de la CPU, dejando solo las tareas de inferencia principales para la GPU. Esta arquitectura de “separación caliente-fría” multiplica la utilización de memoria de la GPU y reduce directamente el costo de hardware por inferencia.

3. ¿Qué significa esto para los desarrolladores?

Los escenarios de alto consumo de tokens finalmente son asequibles

Generación de código, análisis de documentos largos, procesamiento masivo de datos — estos escenarios tienen algo en común: consumo masivo de tokens. Para una tarea de completitud de código de escala media, una sola llamada puede consumir 50.000-100.000 tokens. Ejecutarlo en GPT-5.5 cuesta unos pocos yuanes por llamada; en DeepSeek-V4-Pro, cuesta solo unos pocos fen.

Esta diferencia de precio afecta directamente dos decisiones:

  • Los equipos que antes descartaban la asistencia IA por costo ahora pueden reconsiderarlo
  • Los equipos que ya usan otras APIs enfrentan un costo de migración casi nulo (compatible con el SDK de OpenAI — solo cambie el endpoint)

Los equipos pequeños y desarrolladores independientes se benefician más

Las grandes empresas tecnológicas tienen el presupuesto para ejecutar modelos de cientos de miles de millones de parámetros. Los equipos pequeños no. DeepSeek-V4-Pro reduce los costos de modelos de primer nivel a un nivel que todos pueden permitirse, lo cual es una ventaja sustancial para desarrolladores independientes, startups y estudiantes.

4. La ronda de financiación de 70 mil millones de yuanes y la dirección AGI

Junto con el anuncio de la reducción de precio, DeepSeek reveló su ronda de financiación de 70 mil millones de yuanes en curso.

La postura del fundador Liang Wenfeng es clara: los avances tecnológicos en AGI tienen prioridad sobre la comercialización a corto plazo. Esto significa que DeepSeek no aumentará significativamente los precios debido a la presión de financiación a corto plazo — en su lugar, continuará usando precios bajos para expandir su ecosistema de desarrolladores.

Esta lógica es similar a la decisión de Meta de hacer LLaMA de código abierto — construir primero el foso del ecosistema, luego hablar de comercialización. La diferencia es que DeepSeek está pursuing un enfoque de doble vía de “API de precio ultra bajo + pesos de código abierto”, lo cual es aún más amigable para los desarrolladores.

5. ¿Cómo empezar? Funcionando en un minuto

Si aún no ha probado DeepSeek-V4-Pro, la integración es sencilla:

Método API: Compatible con el SDK de OpenAI — solo modifique base_url y api_key:

from openai import OpenAI

cliente = OpenAI(
    api_key="tu-clave-api",
    base_url="https://api.deepseek.com"
)

respuesta = cliente.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[{"role": "user", "content": "Hola"}]
)
print(respuesta.choices[0].message.content)

Experiencia en línea: ¿No quiere lidiar con la configuración de la API? Úselo directamente en línea:

Comenzar a usar DeepSeek

Reflexiones finales

La reducción permanente del precio de DeepSeek-V4-Pro está redefiniendo fundamentalmente la línea base de precios para las APIs de modelos grandes.

Cuando la entrada con caché cuesta solo 0,025 yuanes/millón de tokens y la salida es de solo 6 yuanes/millón de tokens, muchos escenarios de aplicación de IA que antes “no tenían sentido financiero” de repente se vuelven viables. Esto no es marketing — es una reducción de costo genuina.

Los nuevos precios entran en vigor después de que termine la promoción el 31 de mayo. Si está trabajando en algún proyecto que involucre alto consumo de tokens, ahora es el momento de empezar a probar DeepSeek-V4-Pro.

Comenzar a usar DeepSeek