Permanent pris sänkning för DeepSeek-V4-Pro API

Den 22 maj 2026 meddelade DeepSeek officiellt att API-priset för deras flaggskeppsmodell DeepSeek-V4-Pro kommer att permanent sänkas till 1/4 av det ursprungliga priset efter att den tidsbegränsade rabatten på 75% upphör den 31 maj.
Detta är inte en kortsiktig kampanj — det är ett genuint strategiskt skifte i prissättningen.
1. Hur mycket kostar det efter pris sänkningen?
Låt oss titta på de centrala siffrorna:
| Faktureringspost | Ursprungligt pris (yuan/miljon tokens) | Permanent pris (yuan/miljon tokens) | Sänkning |
|---|---|---|---|
| Inmatning (cache-träff) | 0,1 | 0,025 | 75% |
| Inmatning (cache-miss) | 12 | 3 | 75% |
| Utmatning | 24 | 6 | 75% |
Alla tre nivåer sänks till 1/4 av det ursprungliga priset. Priset för inmatning vid cache-träff har sjunkit till endast 0,025 yuan/miljon tokens — praktiskt taget försumbart.
En jämförelse mellan modeller gör det ännu tydligare:
| Modell | Inmatningspris | Utmatningspris |
|---|---|---|
| DeepSeek-V4-Pro | 3 yuan | 6 yuan |
| GPT-5.5 | ~120 yuan | ~240 yuan |
| Claude Opus 4 | ~105 yuan | ~210 yuan |
DeepSeek-V4-Pro:s inmatnings- och utmatningspriser utgör endast 2%-3% av GPT-5.5 och liknande konkurrenter — inte ens i samma division.
2. Varför kan det vara så billigt?
Denna nivå av pris sänkning är inte en förlustledare. Den backas upp av tydliga tekniska fundament.
1. Egendesignad attention-arkitektur
DeepSeek har använt MLA-arkitekturen (Multi-Head Latent Attention) sedan V2, vilket drastiskt komprimerar minnesförbrukningen för attention-mekanismen. V4 optimerar detta ytterligare och minskar minnesanvändningen vid enskild inferens med cirka 60% jämfört med modeller i liknande skala.
2. Optimering för Huawei Ascend-chip
DeepSeek-teamet har gjort djup operatornivå-anpassning för Huawei Ascend 910B, vilket maximerar utnyttjandet av kommunikationsbandbredd och stabilitet vid träning med blandad precision. Inhemskaa chip kostar betydligt mindre än NVIDIA A100/H100, medan det faktiska gapet i inferenseffektivitet fortsätter att krympa.
3. Engram-systemet: CPU som lager, GPU som verkstad
V4:s Engram-system lagrar 80% av statisk kunskap i CPU DRAM och lämnar endast kärnuppgifter för inferens till GPU:n. Denna “varm-kall separation”-arkitektur mångdubblar GPU-minnesutnyttjandet och minskar direkt hårdvarukostnaden per inferens.
3. Vad betyder detta för utvecklare?
Scenarier med hög token-förbrukning är äntligen överkomliga
Kodgenerering, analys av långa dokument, batch-bearbetning av data — dessa scenarier har en sak gemensamt: massiv token-förbrukning. För ett medelstort kodkompletteringsjobb kan ett enda anrop förbruka 50 000–100 000 tokens. Att köra det på GPT-5.5 kostar några yuan per anrop; på DeepSeek-V4-Pro kostar det bara några fen.
Denna prisklyfta påverkar direkt två beslut:
- Team som tidigare hoppade över AI-assistans på grund av kostnad kan nu omvärdera
- Team som redan använder andra API:er möter nästan noll migreringskostnad (OpenAI SDK-kompatibel — ändra bara endpoint)
Små team och enskilda utvecklare drar störst nytta
Stora teknikföretag har budget för att köra modeller med hundratals miljarder parametrar. Små team har inte det. DeepSeek-V4-Pro sänker kostnaderna för toppmodeller till en nivå där alla har råd, vilket är en betydande seger för oberoende utvecklare, startups och studenter.
4. Den 70 miljarder yuan-finansieringen och AGI-riktningen
Tillsammans med pris sänkningsmeddelandet avslöjade DeepSeek sin pågående finansieringsrunda på 70 miljarder yuan.
Grundaren Liang Wenfengs hållning är tydlig: AGI-tekniska genombrott prioriteras framför kortsiktig kommersialisering. Detta innebär att DeepSeek inte kommer att höja priserna avsevärt på grund av finansieringstryck på kort sikt — istället kommer de att fortsätta använda låga priser för att expandera sitt utvecklarekosystem.
Denna logik liknar Metas beslut att göra LLaMA öppen källkod — bygg ekosystemvallen först, prata sedan om kommersialisering. Skillnaden är att DeepSeek följr en dubbel strategi med “ultralågt prissatt API + öppna vikter”, vilket är ännu mer utvecklarvänligt.
5. Hur kommer man igång? Uppe och kör på en minut
Om du inte har provat DeepSeek-V4-Pro ännu är integrationen okomplicerad:
API-metod: Kompatibel med OpenAI SDK — ändra bara base_url och api_key:
from openai import OpenAI
client = OpenAI(
api_key="din-api-nyckel",
base_url="https://api.deepseek.com"
)
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[{"role": "user", "content": "Hej"}]
)
print(response.choices[0].message.content)
Online-upplevelse: Vill du inte hantera API-konfiguration? Använd det direkt online:
Avslutande tankar
DeepSeek-V4-Pro:s permanenta pris sänkning omdefinierar fundamentalt prisbaslinjen för stora modell-API:er.
När inmatning vid cache-träff kostar endast 0,025 yuan/miljon tokens och utmatning är bara 6 yuan/miljon tokens, blir många AI-applikationsscenarier som tidigare “inte var ekonomiskt försvarbara” plötsligt genomförbara. Detta är inte marknadsföringsretorik — det är en genuin kostnadsreduktion.
De nya priserna träder i kraft efter att kampanjen upphör den 31 maj. Om du arbetar med något projekt som involverar stor token-förbrukning är nu rätt tid att börja testa DeepSeek-V4-Pro.