Riduzione permanente del prezzo dell'API DeepSeek-V4-Pro

Il 22 maggio 2026, DeepSeek ha annunciato ufficialmente che il prezzo dell’API del suo modello di punta, DeepSeek-V4-Pro, sarà ridotto in modo permanente a 1/4 del prezzo originale dopo la fine dello sconto temporaneo del 75% il 31 maggio.
Non si tratta di una promozione a breve termine — è un vero cambio strategico di pricing.
1. Quanto costa dopo la riduzione del prezzo?
Vediamo i numeri chiave:
| Voce di fatturazione | Prezzo originale (yuan/milione di token) | Prezzo permanente (yuan/milione di token) | Riduzione |
|---|---|---|---|
| Input (cache命中) | 0,1 | 0,025 | 75% |
| Input (cache mancata) | 12 | 3 | 75% |
| Output | 24 | 6 | 75% |
Tutti e tre i livelli sono ridotti a 1/4 del prezzo originale. Il prezzo di input con cache ha raggiunto solo 0,025 yuan/milione di token — praticamente trascurabile.
Un confronto tra modelli lo rende ancora più chiaro:
| Modello | Prezzo di input | Prezzo di output |
|---|---|---|
| DeepSeek-V4-Pro | 3 yuan | 6 yuan |
| GPT-5.5 | ~120 yuan | ~240 yuan |
| Claude Opus 4 | ~105 yuan | ~210 yuan |
I prezzi di input e output di DeepSeek-V4-Pro sono solo il 2-3% di quelli di GPT-5.5 e concorrenti simili — nemmeno nella stessa categoria.
2. Come può essere così economico?
Questo livello di riduzione del prezzo non è una strategia di vendita in perdita. È supportato da solide basi tecniche.
1. Architettura di attenzione proprietaria
DeepSeek utilizza l’architettura MLA (Multi-Head Latent Attention) dalla V2, che comprime drasticamente l’impronta di memoria del meccanismo di attenzione. La V4 ottimizza ulteriormente questo aspetto, riducendo l’utilizzo di memoria per inferenza di circa il 60% rispetto a modelli di scala simile.
2. Ottimizzazione con chip Huawei Ascend
Il team DeepSeek ha effettuato un’adattamento profondo a livello di operatori per il Huawei Ascend 910B, massimizzando l’utilizzo della larghezza di banda di comunicazione e la stabilità dell’addestramento a precisione mista. I chip nazionali costano significativamente meno degli NVIDIA A100/H100, mentre il divario reale di efficienza di inferenza continua a ridursi.
3. Sistema Engram: CPU come magazzino, GPU come officina
Il sistema Engram della V4 memorizza l’80% della conoscenza statica nella DRAM della CPU, lasciando solo i compiti di inferenza principali alla GPU. Questa architettura di “separazione caldo-freddo” moltiplica l’utilizzo della memoria GPU e riduce direttamente il costo hardware per inferenza.
3. Cosa significa per gli sviluppatori?
Gli scenari con alto consumo di token sono finalmente accessibili
Generazione di codice, analisi di documenti lunghi, elaborazione massiva di dati — questi scenari hanno una cosa in comune: un consumo massivo di token. Per un’attività di completamento del codice di media scala, una singola chiamata può consumare 50.000-100.000 token. Eseguirla su GPT-5.5 costa qualche yuan per chiamata; su DeepSeek-V4-Pro, costa solo pochi fen.
Questo divario di prezzo influisce direttamente su due decisioni:
- I team che in precedenza avevano scartato l’assistenza IA per i costi possono ora riconsiderare
- I team che già utilizzano altre API affrontano un costo di migrazione quasi nullo (compatibile con l’SDK OpenAI — basta cambiare l’endpoint)
I piccoli team e gli sviluppatori indipendenti beneficiano di più
Le grandi aziende tecnologiche hanno il budget per eseguire modelli con centinaia di miliardi di parametri. I piccoli team no. DeepSeek-V4-Pro porta i costi dei modelli di punta a un livello che tutti possono permettersi, un vantaggio sostanziale per sviluppatori indipendenti, startup e studenti.
4. Il finanziamento da 70 miliardi di yuan e la direzione AGI
Insieme all’annuncio della riduzione del prezzo, DeepSeek ha comunicato il suo round di finanziamento da 70 miliardi di yuan in corso.
La posizione del fondatore Liang Wenfeng è chiara: le innovazioni tecnologiche AGI hanno la priorità rispetto alla commercializzazione a breve termine. Ciò significa che DeepSeek non aumenterà significativamente i prezzi a causa della pressione di finanziamento nel breve termine — invece, continuerà a utilizzare prezzi bassi per espandere il suo ecosistema di sviluppatori.
Questa logica è simile alla decisione di Meta di rendere LLaMA open source — costruire prima il fossato dell’ecosistema, poi parlare di commercializzazione. La differenza è che DeepSeek sta perseguendo un approccio a doppio binario di “API a prezzo ultra basso + pesi open source”, ancora più favorevole agli sviluppatori.
5. Come iniziare? Operativi in un minuto
Se non hai ancora provato DeepSeek-V4-Pro, l’integrazione è semplice:
Metodo API: Compatibile con l’SDK OpenAI — basta modificare base_url e api_key:
from openai import OpenAI
client = OpenAI(
api_key="la-tua-chiave-api",
base_url="https://api.deepseek.com"
)
risposta = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[{"role": "user", "content": "Ciao"}]
)
print(risposta.choices[0].message.content)
Esperienza online: Non vuoi occuparti della configurazione API? Usalo direttamente online:
Considerazioni finali
La riduzione permanente del prezzo di DeepSeek-V4-Pro sta ridefinendo fondamentalmente il prezzo base delle API per grandi modelli.
Quando l’input con cache costa solo 0,025 yuan/milione di token e l’output è di soli 6 yuan/milione di token, molti scenari di applicazione IA che prima “non avevano senso finanziario” diventano improvvisamente fattibili. Non è marketing — è una vera riduzione dei costi.
I nuovi prezzi entrano in vigore dopo la fine della promozione il 31 maggio. Se stai lavorando a un progetto che coinvolge un elevato consumo di token, ora è il momento di iniziare a testare DeepSeek-V4-Pro.