Permanent pris sänkning för DeepSeek-V4-Pro API

2026-05-23

Den 22 maj 2026 meddelade DeepSeek officiellt att API-priset för deras flaggskeppsmodell DeepSeek-V4-Pro kommer att permanent sänkas till 1/4 av det ursprungliga priset efter att den tidsbegränsade rabatten på 75% upphör den 31 maj.

Detta är inte en kortsiktig kampanj — det är ett genuint strategiskt skifte i prissättningen.

Börja använda DeepSeek

1. Hur mycket kostar det efter pris sänkningen?

Låt oss titta på de centrala siffrorna:

Faktureringspost	Ursprungligt pris (yuan/miljon tokens)	Permanent pris (yuan/miljon tokens)	Sänkning
Inmatning (cache-träff)	0,1	0,025	75%
Inmatning (cache-miss)	12	3	75%
Utmatning	24	6	75%

Alla tre nivåer sänks till 1/4 av det ursprungliga priset. Priset för inmatning vid cache-träff har sjunkit till endast 0,025 yuan/miljon tokens — praktiskt taget försumbart.

En jämförelse mellan modeller gör det ännu tydligare:

Modell	Inmatningspris	Utmatningspris
DeepSeek-V4-Pro	3 yuan	6 yuan
GPT-5.5	~120 yuan	~240 yuan
Claude Opus 4	~105 yuan	~210 yuan

DeepSeek-V4-Pro:s inmatnings- och utmatningspriser utgör endast 2%-3% av GPT-5.5 och liknande konkurrenter — inte ens i samma division.

2. Varför kan det vara så billigt?

Denna nivå av pris sänkning är inte en förlustledare. Den backas upp av tydliga tekniska fundament.

1. Egendesignad attention-arkitektur

DeepSeek har använt MLA-arkitekturen (Multi-Head Latent Attention) sedan V2, vilket drastiskt komprimerar minnesförbrukningen för attention-mekanismen. V4 optimerar detta ytterligare och minskar minnesanvändningen vid enskild inferens med cirka 60% jämfört med modeller i liknande skala.

2. Optimering för Huawei Ascend-chip

DeepSeek-teamet har gjort djup operatornivå-anpassning för Huawei Ascend 910B, vilket maximerar utnyttjandet av kommunikationsbandbredd och stabilitet vid träning med blandad precision. Inhemskaa chip kostar betydligt mindre än NVIDIA A100/H100, medan det faktiska gapet i inferenseffektivitet fortsätter att krympa.

3. Engram-systemet: CPU som lager, GPU som verkstad

V4:s Engram-system lagrar 80% av statisk kunskap i CPU DRAM och lämnar endast kärnuppgifter för inferens till GPU:n. Denna “varm-kall separation”-arkitektur mångdubblar GPU-minnesutnyttjandet och minskar direkt hårdvarukostnaden per inferens.

3. Vad betyder detta för utvecklare?

Scenarier med hög token-förbrukning är äntligen överkomliga

Kodgenerering, analys av långa dokument, batch-bearbetning av data — dessa scenarier har en sak gemensamt: massiv token-förbrukning. För ett medelstort kodkompletteringsjobb kan ett enda anrop förbruka 50 000–100 000 tokens. Att köra det på GPT-5.5 kostar några yuan per anrop; på DeepSeek-V4-Pro kostar det bara några fen.

Denna prisklyfta påverkar direkt två beslut:

Team som tidigare hoppade över AI-assistans på grund av kostnad kan nu omvärdera
Team som redan använder andra API:er möter nästan noll migreringskostnad (OpenAI SDK-kompatibel — ändra bara endpoint)

Små team och enskilda utvecklare drar störst nytta

Stora teknikföretag har budget för att köra modeller med hundratals miljarder parametrar. Små team har inte det. DeepSeek-V4-Pro sänker kostnaderna för toppmodeller till en nivå där alla har råd, vilket är en betydande seger för oberoende utvecklare, startups och studenter.

4. Den 70 miljarder yuan-finansieringen och AGI-riktningen

Tillsammans med pris sänkningsmeddelandet avslöjade DeepSeek sin pågående finansieringsrunda på 70 miljarder yuan.

Grundaren Liang Wenfengs hållning är tydlig: AGI-tekniska genombrott prioriteras framför kortsiktig kommersialisering. Detta innebär att DeepSeek inte kommer att höja priserna avsevärt på grund av finansieringstryck på kort sikt — istället kommer de att fortsätta använda låga priser för att expandera sitt utvecklarekosystem.

Denna logik liknar Metas beslut att göra LLaMA öppen källkod — bygg ekosystemvallen först, prata sedan om kommersialisering. Skillnaden är att DeepSeek följr en dubbel strategi med “ultralågt prissatt API + öppna vikter”, vilket är ännu mer utvecklarvänligt.

5. Hur kommer man igång? Uppe och kör på en minut

Om du inte har provat DeepSeek-V4-Pro ännu är integrationen okomplicerad:

API-metod: Kompatibel med OpenAI SDK — ändra bara base_url och api_key:

from openai import OpenAI

client = OpenAI(
    api_key="din-api-nyckel",
    base_url="https://api.deepseek.com"
)

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[{"role": "user", "content": "Hej"}]
)
print(response.choices[0].message.content)

Online-upplevelse: Vill du inte hantera API-konfiguration? Använd det direkt online:

Börja använda DeepSeek

Avslutande tankar

DeepSeek-V4-Pro:s permanenta pris sänkning omdefinierar fundamentalt prisbaslinjen för stora modell-API:er.

När inmatning vid cache-träff kostar endast 0,025 yuan/miljon tokens och utmatning är bara 6 yuan/miljon tokens, blir många AI-applikationsscenarier som tidigare “inte var ekonomiskt försvarbara” plötsligt genomförbara. Detta är inte marknadsföringsretorik — det är en genuin kostnadsreduktion.

De nya priserna träder i kraft efter att kampanjen upphör den 31 maj. Om du arbetar med något projekt som involverar stor token-förbrukning är nu rätt tid att börja testa DeepSeek-V4-Pro.

Börja använda DeepSeek