Redução permanente do preço da API DeepSeek-V4-Pro

23/05/2026

deepseek v4deepseek official websitedeepseek tutorial

Em 22 de maio de 2026, a DeepSeek anunciou oficialmente que o preço da API do seu modelo principal, DeepSeek-V4-Pro, será permanentemente reduzido a 1/4 do preço original após o término do desconto temporário de 75% em 31 de maio.

Isso não é uma promoção de curto prazo — é uma verdadeira mudança estratégica de preços.

Começar a usar DeepSeek

1. Quanto custa após a redução de preço?

Vejamos os números principais:

Item de cobrança	Preço original (yuan/milhão de tokens)	Preço permanente (yuan/milhão de tokens)	Redução
Entrada (cache acertado)	0,1	0,025	75%
Entrada (cache falhado)	12	3	75%
Saída	24	6	75%

Todos os três níveis são reduzidos a 1/4 do preço original. O preço de entrada com cache caiu para apenas 0,025 yuan/milhão de tokens — praticamente insignificante.

Uma comparação entre modelos torna a situação ainda mais clara:

Modelo	Preço de entrada	Preço de saída
DeepSeek-V4-Pro	3 yuan	6 yuan
GPT-5.5	~120 yuan	~240 yuan
Claude Opus 4	~105 yuan	~210 yuan

Os preços de entrada e saída do DeepSeek-V4-Pro são apenas 2%-3% dos preços do GPT-5.5 e concorrentes similares — nem na mesma categoria.

2. Por que pode ser tão barato?

Este nível de redução de preço não é uma estratégia de prejuízo. É respaldado por fundamentos técnicos claros.

1. Arquitetura de atenção proprietária

A DeepSeek utiliza a arquitetura MLA (Multi-Head Latent Attention) desde a V2, que comprime drasticamente a pegada de memória do mecanismo de atenção. A V4 otimiza isso ainda mais, reduzindo o uso de memória por inferência em aproximadamente 60% em comparação com modelos de escala similar.

2. Otimização com chips Huawei Ascend

A equipe DeepSeek realizou uma adaptação profunda em nível de operadores para o Huawei Ascend 910B, maximizando a utilização da largura de banda de comunicação e a estabilidade do treinamento de precisão mista. Os chips nacionais custam significativamente menos que os NVIDIA A100/H100, enquanto a diferença real de eficiência de inferência continua a diminuir.

3. Sistema Engram: CPU como armazém, GPU como oficina

O sistema Engram da V4 armazena 80% do conhecimento estático na DRAM da CPU, deixando apenas as tarefas de inferência principais para a GPU. Esta arquitetura de “separação quente-frio” multiplica a utilização de memória da GPU e reduz diretamente o custo de hardware por inferência.

3. O que isso significa para os desenvolvedores?

Cenários de alto consumo de tokens finalmente são acessíveis

Geração de código, análise de documentos longos, processamento em lote de dados — esses cenários têm algo em comum: consumo massivo de tokens. Para uma tarefa de conclusão de código de escala média, uma única chamada pode consumir 50.000-100.000 tokens. Executá-la no GPT-5.5 custa alguns yuan por chamada; no DeepSeek-V4-Pro, custa apenas alguns fen.

Essa diferença de preço afeta diretamente duas decisões:

Equipes que antes descartaram a assistência IA devido ao custo agora podem reconsiderar
Equipes que já usam outras APIs enfrentam um custo de migração quase zero (compatível com o SDK OpenAI — basta mudar o endpoint)

Pequenas equipes e desenvolvedores independentes se beneficiam mais

Grandes empresas de tecnologia têm orçamento para rodar modelos de centenas de bilhões de parâmetros. Equipes pequenas não. O DeepSeek-V4-Pro traz os custos de modelos de ponta para um nível que todos podem pagar, o que é uma vantagem substancial para desenvolvedores independentes, startups e estudantes.

4. A rodada de financiamento de 70 bilhões de yuan e a direção AGI

Junto com o anúncio da redução de preço, a DeepSeek revelou sua rodada de financiamento de 70 bilhões de yuan em andamento.

A posição do fundador Liang Wenfeng é clara: avanços tecnológicos em AGI têm prioridade sobre a comercialização de curto prazo. Isso significa que a DeepSeek não aumentará significativamente os preços devido à pressão de financiamento no curto prazo — em vez disso, continuará usando preços baixos para expandir seu ecossistema de desenvolvedores.

Esta lógica é semelhante à decisão da Meta de tornar o LLaMA de código aberto — construir primeiro o fosso do ecossistema, depois falar sobre comercialização. A diferença é que a DeepSeek está seguindo uma abordagem de via dupla de “API de preço ultra baixo + pesos de código aberto”, ainda mais favorável aos desenvolvedores.

5. Como começar? Funcionando em um minuto

Se você ainda não experimentou o DeepSeek-V4-Pro, a integração é simples:

Método API: Compatível com o SDK OpenAI — basta modificar base_url e api_key:

from openai import OpenAI

cliente = OpenAI(
    api_key="sua-chave-api",
    base_url="https://api.deepseek.com"
)

resposta = cliente.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[{"role": "user", "content": "Olá"}]
)
print(resposta.choices[0].message.content)

Experiência online: Não quer lidar com a configuração da API? Use diretamente online:

Começar a usar DeepSeek

Considerações finais

A redução permanente do preço do DeepSeek-V4-Pro está redefinindo fundamentalmente a linha de base de preços das APIs de grandes modelos.

Quando a entrada com cache custa apenas 0,025 yuan/milhão de tokens e a saída é de apenas 6 yuan/milhão de tokens, muitos cenários de aplicação de IA que antes “não faziam sentido financeiro” de repente se tornam viáveis. Isso não é marketing — é uma genuína redução de custo.

Os novos preços entram em vigor após o término da promoção em 31 de maio. Se você está trabalhando em algum projeto que envolve alto consumo de tokens, agora é o momento de começar a testar o DeepSeek-V4-Pro.

Começar a usar DeepSeek