4월 22일 트위터에서 공식 발표된 DeepSeek V4 모델을 어떻게 평가할 것인가

deepseek v4deepseek 공식 사이트deepseek 튜토리얼deepseek v4 가격

DeepSeek 사용 시작하기

DeepSeek-V4가 왔습니다: 백만 컨텍스트는 속임수가 아니라 차세대 Agent의 기반입니다

오랜 기다림 끝에 DeepSeek-V4가 4월 22일 정식으로 발표되었습니다. 전체 아키텍처 관점에서 V4는 명백히 “초장문 컨텍스트 효율성”을 중심으로 재구축된 차세대 대형 언어 모델로, 장문 컨텍스트 추론 비용이 높다는 산업계의 고충을 해결하는 것을 목표로 합니다.

DeepSeek V4 출시

이번에 출시된 새 버전은 백만 토큰의 초장문 컨텍스트 기능을 탑재하여 Agent 능력, 세계 지식, 추론 성능에서 국내 및 오픈소스 모델 중 선도적인 수준을 달성했습니다. 모델은 두 가지 버전으로 제공되며 모두 1M 컨텍스트 길이를 지원하고 이미 완전히 오픈소스화되었습니다:

  • Pro 버전은 총 파라미터 1.6T, 활성 파라미터 49B
  • Flash 버전은 총 파라미터 284B, 활성 파라미터 13B

오늘부터 사용자는 저희 플랫폼에서 최신 DeepSeek-V4를 직접 체험할 수 있으며, 1M 초장문 컨텍스트 메모리가 제공하는 새로운 대화 기능을 즐길 수 있습니다. 동시에 API 서비스도 동기화되어 업그레이드되었으며, 개발자는 model_name을 deepseek-v4-pro 또는 deepseek-v4-flash로 변경하기만 하면 빠르게 접속하고 호출할 수 있습니다.

모델 성능은 어떤가요?

우선 V4의 성능은 이미 최고 수준의 폐쇄형 소스 모델과 견줄 만한 수준에 도달했습니다:

Agent 능력의 대폭 향상

이전 세대 모델과 비교하여 DeepSeek-V4-Pro의 Agent 능력이 크게 강화되었습니다. Agentic Coding 평가에서 V4-Pro는 현재 오픈소스 모델 중 최고 수준에 도달했으며, 다른 Agent 관련 평가에서도 우수한 성능을 보여줍니다. 현재 DeepSeek-V4는 사내 직원들이 사용하는 Agentic Coding 모델이 되었으며, 평가 피드백에 따르면 사용 경험은 Sonnet 4.5보다 우수하고 출력 품질은 Opus 4.6 비사고 모드에 가깝지만 Opus 4.6 사고 모드와는 여전히 일정한 격차가 있습니다.

풍부한 세계 지식

세계 지식 평가에서 DeepSeek-V4-Pro는 다른 오픈소스 모델을 크게 앞지르며 최고 수준의 폐쇄형 소스 모델인 Gemini-Pro-3.1에 약간 뒤떨어질 뿐입니다.

세계 최고 수준의 추론 성능

수학, STEM, 경쟁 수준 코딩 평가에서 DeepSeek-V4-Pro는 현재 공개된 모든 오픈소스 모델을 능가하며 세계 최고 수준의 폐쇄형 소스 모델과 견줄 만한 우수한 결과를 달성했습니다.

구조 혁신과 초고 컨텍스트 효율성

DeepSeek-V4는 토큰 차원에서 압축을 수행하는 새로운 어텐션 메커니즘을 개발했으며, DSA 희소 어텐션(DeepSeek Sparse Attention)과 결합하여 세계 선도적인 장문 컨텍스트 능력을 실현하고 기존 방법과 비교하여 계산 및 메모리 요구 사항을 크게 줄였습니다. 앞으로 1M(100만) 컨텍스트는 모든 DeepSeek 공식 서비스의 표준이 될 것입니다.

Agent 능력 특별 최적화

DeepSeek-V4는 Claude Code, OpenClaw, OpenCode, CodeBuddy 등 주류 Agent 제품에 대해 적응 및 최적화가 이루어졌으며 코드 작업, 문서 생성 작업 등의 성능이 향상되었습니다.

새 버전 모델 아키텍처

DeepSeek는 V4의 기술 구현을 상세히 설명한 기술 논문을 공식 발표했습니다. 논문에서는 현재 추론 모델이 test-time scaling에 크게 의존하지만 기존 어텐션의 2차 복잡성으로 인해 초장문 컨텍스트 비용이 점점 더 높아져 결국 추론과 장链 작업의 병목 현상이 된다고 명시하고 있습니다. DeepSeek-V4의 목표는 이 병목 현상을 깨고 1M 컨텍스트를 진정으로 실용화하는 것입니다.

이 목표 배경에는 실제로 두 가지 수준의 고려가 있습니다:

  • 제품 수준: 미래의 많은 작업은 “질문을 하고 답변을 얻는” 것만이 아니라 장문 문서, 다중 문서, 복잡한 Agent 워크플로우, 초장链 추론 등이 있습니다. 이러한 시나리오는 컨텍스트 길이와 추론 비용 모두에 민감합니다.
  • 연구 수준: 장문 컨텍스트 추론이 너무 비싸면 test-time scaling의 이점이 곧 한계에 도달합니다. V4는 실제로 “더 긴 추론, 더 긴 궤적 작업”의 기반을 마련하고 있습니다.

1) CSA + HCA: V4의 진정한 비장의 카드

이것이 논문 전체에서 가장 중요한 부분입니다. V4는 기존 dense attention의 길을 계속 가는 대신 하이브리드 어텐션 아키텍처를 설계했습니다:

  • CSA (Compressed Sparse Attention): 먼저 KV를 시퀀스를 따라 압축한 다음 희소 선택을 수행하여 쿼리가 상위 k개의 압축 블록만 참조하도록 합니다.
  • HCA (Heavily Compressed Attention): 더욱 적극적으로 압축하지만 dense attention을 유지합니다.

다음과 같이 이해할 수 있습니다:

  • CSA는 “압축 후 검색”과 같아서 핵심 포인트를 효율적으로 찾는 데 중점을 둡니다;
  • HCA는 “극한 요약 후 전체를 보는” 것과 같아서 전체 비용을 줄이는 데 중점을 둡니다.

이 두 가지 메커니즘을 번갈아 사용하는 목적은 단순히 근사 어텐션을 만드는 것이 아니라 국소적 세부 사항, 전체 적용 범위, 추론 비용을 고려한 균형 잡힌 설계를 실현하는 것입니다. 논문에서는 슬라이딩 윈도우 분기를 추가하여 압축 후 인접 토큰의 미세한 의존성이 손실되는 것을 방지합니다.

이 디자인 아이디어는 매우 엔지니어링 지향적입니다: 먼 정보는 저렴하게 보고, 가까운 정보는 상세히 보고, 중요한 블록은 희소하게 선택하여 집중적으로 봅니다. 전체 원시 토큰에 집착하는 것이 아니라 다단계 메모리 시스템과 같습니다.

마무리

과거 많은 모델도 장문 컨텍스트를 지원한다고 주장했지만 실제 사용해 보면 너무 비싸거나 컨텍스트가 길어지면 실제로 제대로 작동하지 않는다는 두 가지 문제가 자주 발생했습니다. 이번 V4의 핵심 가치는: 어텐션 메커니즘, KV 캐시, 학습 안정성, 옵티마이저까지 모두 “장문 컨텍스트 사용성”을 중심으로 완전히 재설계되었다는 점에 있습니다.

이번 V4 출시는 실제로 많은 실질적인 기술 돌파구를 가져왔으며 차세대 AI Agent와 장문 컨텍스트 애플리케이션을 위한 견고한 기반을 마련했습니다.

DeepSeek 사용 시작하기

← 블로그