Reducere permanentă de preț pentru DeepSeek-V4-Pro API

Pe 22 mai 2026, DeepSeek a anunțat oficial că prețul API al modelului său flagship, DeepSeek-V4-Pro, va fi redus permanent la 1/4 din prețul original după ce discountul limitat de 75% se încheie pe 31 mai.
Acesta nu este o promoție pe termen scurt — este o schimbare strategică autentică în prețuri.
1. Cât costă după reducerea de preț?
Să ne uităm la cifrele esențiale:
| Element de facturare | Prețul original (yuane/milion tokenuri) | Prețul permanent (yuane/milion tokenuri) | Reducere |
|---|---|---|---|
| Intrare (hit în cache) | 0,1 | 0,025 | 75% |
| Intrare (miss în cache) | 12 | 3 | 75% |
| Ieșire | 24 | 6 | 75% |
Toate cele trei niveluri sunt reduse la 1/4 din prețul original. Prețul de intrare la hit în cache a scăzut la doar 0,025 yuane/milion tokenuri — practic neglijabil.
O comparație între modele face lucrurile și mai clare:
| Model | Preț intrare | Preț ieșire |
|---|---|---|
| DeepSeek-V4-Pro | 3 yuane | 6 yuane |
| GPT-5.5 | ~120 yuane | ~240 yuane |
| Claude Opus 4 | ~105 yuane | ~210 yuane |
Prețurile de intrare și ieșire ale DeepSeek-V4-Pro reprezintă doar 2%-3% din cele ale GPT-5.5 și competitorilor similari — nici măcar în aceeași ligă.
2. De ce poate fi atât de ieftin?
Acest nivel de reducere a prețului nu este o strategie de vânzare în pierdere. Se bazează pe fundamente tehnice clare.
1. Arhitectură de atenție proprie
DeepSeek folosește arhitectura MLA (Multi-Head Latent Attention) începând cu V2, care comprimă drastic amprenta de memorie a mecanismului de atenție. V4 optimizează și mai mult acest lucru, reducând utilizarea memoriei la o singură inferență cu aproximativ 60% comparativ cu modele de scară similară.
2. Optimizare pentru chipurile Huawei Ascend
Echipa DeepSeek a făcut o adaptare profundă la nivel de operator pentru Huawei Ascend 910B, maximizând utilizarea lățimii de bandă de comunicare și stabilitatea antrenamentului cu precizie mixtă. Chipurile autohtone costă semnificativ mai puțin decât NVIDIA A100/H100, în timp ce decalajul real de eficiență a inferenței continuă să se micșoreze.
3. Sistemul Engram: CPU ca depozit, GPU ca atelier
Sistemul Engram al V4 stochează 80% din cunoștințele statice în CPU DRAM, lăsând doar sarcinile esențiale de inferență pentru GPU. Această arhitectură de „separare cald-rece” multiplică utilizarea memoriei GPU și reduce direct costul hardware per inferență.
3. Ce înseamnă acest lucru pentru dezvoltatori?
Scenariile cu consum mare de tokenuri sunt în sfârșit accesibile
Generarea de cod, analiza documentelor lungi, procesarea batch a datelor — aceste scenarii au un lucru în comun: consum masiv de tokenuri. Pentru o sarcină de completare de cod de scară medie, un singur apel poate consuma 50.000–100.000 de tokenuri. Pe GPT-5.5 costă câțiva yuane per apel; pe DeepSeek-V4-Pro costă doar câțiva fen.
Această diferență de preț afectează direct două decizii:
- Echipele care au renunțat anterior la asistența AI din cauza costurilor pot acum să își reconsidere decizia
- Echipele care folosesc deja alte API-uri se confruntă cu un cost de migrare aproape zero (compatibil cu OpenAI SDK — doar schimbați endpoint-ul)
Echipele mici și dezvoltatorii individuali beneficiază cel mai mult
Marile companii de tehnologie au buget pentru a rula modele cu sute de miliarde de parametri. Echipele mici nu. DeepSeek-V4-Pro aduce costurile modelelor de top la un nivel pe care și-l poate permite oricine, ceea ce este o victorie substanțială pentru dezvoltatorii independenți, startup-uri și studenți.
4. Finanțarea de 70 de miliarde de yuane și direcția AGI
Odată cu anunțul reducerii de preț, DeepSeek a dezvăluit runda sa de finanțare în curs de 70 de miliarde de yuane.
Poziția fondatorului Liang Wenfeng este clară: progresele tehnologice AGI au prioritate față de comercializarea pe termen scurt. Aceasta înseamnă că DeepSeek nu va crește semnificativ prețurile din cauza presiunii financiare în viitorul apropiat — în schimb, va continua să folosească prețuri mici pentru a-și extinde ecosistemul de dezvoltatori.
Această logică este similară cu decizia Meta de a face LLaMA open-source — construiește mai întâi șanțul ecosistemului, apoi vorbește despre comercializare. Diferența este că DeepSeek urmează o abordare pe două fronturi de „API cu preț ultra-scăzut + greutăți open-source”, care este și mai prietenoasă pentru dezvoltatori.
5. Cum să începi? Funcțional într-un minut
Dacă nu ai încercat încă DeepSeek-V4-Pro, integrarea este simplă:
Metoda API: Compatibil cu OpenAI SDK — doar modifică base_url și api_key:
from openai import OpenAI
client = OpenAI(
api_key="cheia-ta-api",
base_url="https://api.deepseek.com"
)
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[{"role": "user", "content": "Salut"}]
)
print(response.choices[0].message.content)
Experiență online: Nu vrei să te ocupi de configurarea API? Folosește-l direct online:
Concluzii
Reducerea permanentă de preț a DeepSeek-V4-Pro redefineste fundamental pragul de bază al prețurilor pentru API-urile modelelor mari.
Când intrarea la hit în cache costă doar 0,025 yuane/milion tokenuri și ieșirea este de doar 6 yuane/milion tokenuri, multe scenarii de aplicații AI care anterior „nu aveau sens financiar” devin brusc viabile. Aceasta nu este retorică de marketing — este o reducere autentică a costurilor.
Noile prețuri intră în vigoare după încheierea promoției pe 31 mai. Dacă lucrezi la orice proiect care implică un consum mare de tokenuri, acum este momentul să începi testarea DeepSeek-V4-Pro.