DeepSeek-V4-Pro API Giảm Giá Vĩnh Viễn

23/5/2026

Vào ngày 22 tháng 5 năm 2026, DeepSeek đã chính thức thông báo rằng giá API của mô hình chủ lực, DeepSeek-V4-Pro, sẽ được giảm vĩnh viễn xuống 1/4 giá gốc sau khi chương trình giảm giá 75% có thời hạn kết thúc vào ngày 31 tháng 5.

Đây không phải là khuyến mãi ngắn hạn — đây là một sự dịch chuyển chiến lược thực sự trong định giá.

Bắt đầu sử dụng DeepSeek

1. Giá Bao Nhiêu Sau Khi Giảm?

Hãy cùng xem các con số cốt lõi:

Hạng mục thanh toán	Giá gốc (nhân dân tệ/triệu token)	Giá vĩnh viễn (nhân dân tệ/triệu token)	Mức giảm
Input (cache hit)	0,1	0,025	75%
Input (cache miss)	12	3	75%
Output	24	6	75%

Cả ba mức đều được giảm xuống 1/4 giá gốc. Giá input cache hit đã giảm xuống chỉ còn 0,025 nhân dân tệ/triệu token — hầu như không đáng kể.

So sánh chéo giữa các mô hình làm cho điều này càng rõ ràng hơn:

Mô hình	Giá Input	Giá Output
DeepSeek-V4-Pro	3 nhân dân tệ	6 nhân dân tệ
GPT-5.5	~120 nhân dân tệ	~240 nhân dân tệ
Claude Opus 4	~105 nhân dân tệ	~210 nhân dân tệ

Giá input và output của DeepSeek-V4-Pro chỉ bằng 2%-3% so với GPT-5.5 và các đối thủ tương đương — thậm chí không cùng đẳng cấp.

2. Tại Sao Có Thể Rẻ Như Vậy?

Mức giảm giá này không phải là chiến lược bán lỗ để thu hút khách hàng. Nó được hỗ trợ bởi nền tảng kỹ thuật rõ ràng.

1. Kiến trúc Attention độc quyền

DeepSeek đã sử dụng kiến trúc MLA (Multi-Head Latent Attention) từ V2, giúp nén đáng kể dấu chân bộ nhớ của cơ chế attention. V4 tối ưu hóa thêm, giảm mức sử dụng bộ nhớ suy luận đơn khoảng 60% so với các mô hình có quy mô tương đương.

2. Tối ưu hóa chip Huawei Ascend

Đội ngũ DeepSeek đã thực hiện thích ứng sâu ở cấp độ toán tử cho Huawei Ascend 910B, tối đa hóa việc sử dụng băng thông truyền thông và ổn định huấn luyện hỗn hợp độ chính xác. Chip nội địa chi phí thấp hơn đáng kể so với NVIDIA A100/H100, trong khi khoảng cách hiệu quả suy luận thực tế tiếp tục thu hẹp.

3. Hệ thống Engram: CPU là kho, GPU là xưởng

Hệ thống Engram của V4 lưu trữ 80% kiến thức tĩnh trong DRAM CPU, chỉ để lại các tác vụ suy luận cốt lõi cho GPU. Kiến trúc “phân tách nóng-lạnh” này nhân lần sử dụng bộ nhớ GPU và trực tiếp giảm chi phí phần cứng cho mỗi lần suy luận.

3. Điều Này Có Ý Nghĩa Gì Cho Các Nhà Phát Triển?

Các Kịch Bản Tiêu Thụ Token Cao Cuối Cùng Đã Khả Thi

Tạo mã, phân tích tài liệu dài, xử lý dữ liệu hàng loạt — các kịch bản này có một điểm chung: tiêu thụ token khổng lồ. Đối với một tác vụ hoàn thành mã quy mô trung bình, một lần gọi có thể tiêu thụ 50.000-100.000 token. Chạy trên GPT-5.5 tốn vài nhân dân tệ mỗi lần gọi; trên DeepSeek-V4-Pro, chỉ tốn vài xu.

Khoảng cách giá này trực tiếp ảnh hưởng đến hai quyết định:

Các nhóm trước đây bỏ qua hỗ trợ AI vì chi phí giờ có thể xem xét lại
Các nhóm đang sử dụng API khác đối mặt với chi phí di chuyển gần như bằng không (tương thích với OpenAI SDK — chỉ cần thay đổi endpoint)

Nhóm Nhỏ và Nhà Phát Triển Cá Nhân Hưởng Lợi Nhiều Nhất

Các công ty công nghệ lớn có ngân sách để chạy các mô hình hàng trăm tỷ tham số. Nhóm nhỏ thì không. DeepSeek-V4-Pro đưa chi phí mô hình hàng đầu xuống mức mà ai cũng có thể trang trải, đây là một chiến thắng lớn cho các nhà phát triển độc lập, startup và sinh viên.

4. Vòng Gọi Vốn 70 Tỷ Nhân Dân Tệ và Định Hướng AGI

Cùng với thông báo giảm giá, DeepSeek tiết lộ vòng gọi vốn 70 tỷ nhân dân tệ đang diễn ra.

Quan điểm của nhà sáng lập Lương Văn Phong rất rõ ràng: đột phá công nghệ AGI được ưu tiên hơn thương mại hóa ngắn hạn. Điều này có nghĩa là DeepSeek sẽ không tăng giá đáng kể do áp lực tài chính trong thời gian tới — thay vào đó, sẽ tiếp tục sử dụng giá thấp để mở rộng hệ sinh thái nhà phát triển.

Logic này tương tự như quyết định open-source LLaMA của Meta — xây dựng hào nước hệ sinh thái trước, rồi mới nói về thương mại hóa. Điểm khác biệt là DeepSeek đang theo đuổi cách tiếp cận song song “API giá siêu thấp + trọng số open-source,” thân thiện với nhà phát triển hơn.

5. Cách Bắt Đầu? Sẵn Sàng Trong Một Phút

Nếu bạn chưa thử DeepSeek-V4-Pro, việc tích hợp rất đơn giản:

Phương thức API: Tương thích với OpenAI SDK — chỉ cần thay đổi base_url và api_key:

from openai import OpenAI

client = OpenAI(
    api_key="your-api-key",
    base_url="https://api.deepseek.com"
)

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[{"role": "user", "content": "Xin chào"}]
)
print(response.choices[0].message.content)

Trải nghiệm trực tuyến: Không muốn xử lý cài đặt API? Sử dụng trực tiếp trên web:

Bắt đầu sử dụng DeepSeek

Suy nghĩ Cuối

Việc giảm giá vĩnh viễn của DeepSeek-V4-Pro đang định nghĩa lại mức giá cơ bản cho API mô hình lớn một cách căn bản.

Khi input cache hit chỉ tốn 0,025 nhân dân tệ/triệu token và output chỉ 6 nhân dân tệ/triệu token, nhiều kịch bản ứng dụng AI trước đây “không hợp lý về mặt tài chính” đột nhiên trở nên khả thi. Đây không phải là chiêu trò tiếp thị — đây là một sự giảm chi phí thực sự.

Bảng giá mới có hiệu lực sau khi chương trình khuyến mãi kết thúc vào ngày 31 tháng 5. Nếu bạn đang làm việc trên bất kỳ dự án nào liên quan đến tiêu thụ token lớn, đây là lúc để bắt đầu thử nghiệm DeepSeek-V4-Pro.

Bắt đầu sử dụng DeepSeek