중국 AI 스타트업 DeepSeek이 최근 R1 추론 모델을 대폭 업그레이드하면서 다시 한번 글로벌 AI 시장의 관심을 집중시키고 있다. 이번 업데이트는 코드 생성 및 수정, 수학적 문제 해결, 논리적 사고 능력을 향상시키는 데 초점을 맞추었으며, AI가 잘못된 정보를 생성하는 환각(hallucination) 비율을 줄이는 데 중점을 두었다.

DeepSeek은 미국의 개발자 플랫폼인 "허깅페이스(Hugging Face)"를 통해 이번 모델을 공개했지만, 공식 발표나 비교 자료는 따로 제공하지 않았다. 그러나 UC 버클리, MIT, 코넬대 연구진이 개발한 LiveCodeBench 벤치마크에 따르면, DeepSeek의 R1-0528은 코드 생성 측면에서 오픈AI의 o3 및 xAI의 Grok-3-mini보다 앞선 성능을 보였으며, 특히 구글의 Gemini 2.5 Flash와 비교해 수학 문제 해결 능력이 뛰어난 것으로 평가되었다.
올해 초 DeepSeek이 처음으로 추론형 AI 모델 R1을 발표했을 때, 전 세계가 놀라움을 감추지 못했다.
R1은 미국 AI 모델과 유사하거나 더 뛰어난 성능을 보이면서도 비용이 훨씬 낮고 무료로 공개되었다는 점에서 기존 AI 개발의 경제적 부담을 재검토하게 하는 계기가 되었다. 이는 AI 확장을 위해 막대한 컴퓨팅 파워와 투자 비용이 필수라는 기존 통념을 깨뜨리며 AI 시장에 새로운 가능성을 열었다. R1 출시 이후 알리바바와 텐센트 같은 중국 대기업들은 DeepSeek을 능가하는 모델을 발표했고, 오픈AI와 구글은 가격을 인하하거나 보다 적은 컴퓨팅 파워를 사용하는 소형 모델을 출시하며 대응에 나섰다.
이번 R1-0528 업데이트는 단순한 성능 향상에 그치지 않고 보다 효율적인 모델 운영을 가능하게 했다.
DeepSeek은 DeepSeek-R1-0528-Qwen3-8B라는 단일 GPU에서도 실행 가능한 경량 모델을 함께 공개했으며, 이는 마이크로소프트의 Phi 4 모델과 유사한 성능을 발휘하는 것으로 평가된다. 특히 Mixture of Experts(MoE) 아키텍처를 채택하여 특정 작업에 최적화된 서브 네트워크만 활성화함으로써 컴퓨팅 비용을 절감하면서도 고성능을 유지하도록 했다. 또한 Multi-Head Latent Attention(MLA) 기술을 적용하여 메모리 사용량을 줄이고 처리 속도를 높이는 방식으로 AI의 문맥 이해력을 강화했다.
DeepSeek의 향상된 코딩 엔진은 게임 개발뿐만 아니라 웹사이트 구축 및 데이터 분석에도 활용될 수 있다.
사용자들은 DeepSeek을 통해 공개된 데이터 세트를 적용하여 웹 애플리케이션을 제작하거나 감정 분석 및 시각화를 수행하는 코드를 생성할 수 있다. 예를 들어, 영문학 연구자들은 19세기 영국 소설이 포함된 깃허브 저장소 데이터를 활용해 원시 텍스트를 동적 웹 애플리케이션으로 변환하도록 요청할 수 있으며, 단일 워크플로에서 데이터 수집, 워드 클라우드 구축, 감정 분석, 인터랙티브 시각화를 한 번에 수행할 수도 있다. 특히 초보 개발자들도 Python이나 Pygame이 로컬에 설치되지 않은 경우 HTML5로 변환하여 별도의 환경 설정 없이 웹 브라우저에서 직접 실행 및 테스트할 수 있다.
DeepSeek은 이번 R1 업데이트를 계기로 더욱 강력한 경쟁력을 확보했으며, 후속 모델인 R2를 5월 중 출시할 예정이다. AI 기술의 발전과 더불어 저비용·고성능 AI 모델이 산업과 연구, 개발 생태계에 미치는 영향이 점점 더 커지고 있다. DeepSeek의 도전이 AI 업계에 어떤 변화를 가져올지 귀추가 주목된다.
중국 AI 스타트업 DeepSeek이 최근 R1 추론 모델을 대폭 업그레이드하면서 다시 한번 글로벌 AI 시장의 관심을 집중시키고 있다. 이번 업데이트는 코드 생성 및 수정, 수학적 문제 해결, 논리적 사고 능력을 향상시키는 데 초점을 맞추었으며, AI가 잘못된 정보를 생성하는 환각(hallucination) 비율을 줄이는 데 중점을 두었다.
DeepSeek은 미국의 개발자 플랫폼인 "허깅페이스(Hugging Face)"를 통해 이번 모델을 공개했지만, 공식 발표나 비교 자료는 따로 제공하지 않았다. 그러나 UC 버클리, MIT, 코넬대 연구진이 개발한 LiveCodeBench 벤치마크에 따르면, DeepSeek의 R1-0528은 코드 생성 측면에서 오픈AI의 o3 및 xAI의 Grok-3-mini보다 앞선 성능을 보였으며, 특히 구글의 Gemini 2.5 Flash와 비교해 수학 문제 해결 능력이 뛰어난 것으로 평가되었다.
올해 초 DeepSeek이 처음으로 추론형 AI 모델 R1을 발표했을 때, 전 세계가 놀라움을 감추지 못했다.
R1은 미국 AI 모델과 유사하거나 더 뛰어난 성능을 보이면서도 비용이 훨씬 낮고 무료로 공개되었다는 점에서 기존 AI 개발의 경제적 부담을 재검토하게 하는 계기가 되었다. 이는 AI 확장을 위해 막대한 컴퓨팅 파워와 투자 비용이 필수라는 기존 통념을 깨뜨리며 AI 시장에 새로운 가능성을 열었다. R1 출시 이후 알리바바와 텐센트 같은 중국 대기업들은 DeepSeek을 능가하는 모델을 발표했고, 오픈AI와 구글은 가격을 인하하거나 보다 적은 컴퓨팅 파워를 사용하는 소형 모델을 출시하며 대응에 나섰다.
이번 R1-0528 업데이트는 단순한 성능 향상에 그치지 않고 보다 효율적인 모델 운영을 가능하게 했다.
DeepSeek은 DeepSeek-R1-0528-Qwen3-8B라는 단일 GPU에서도 실행 가능한 경량 모델을 함께 공개했으며, 이는 마이크로소프트의 Phi 4 모델과 유사한 성능을 발휘하는 것으로 평가된다. 특히 Mixture of Experts(MoE) 아키텍처를 채택하여 특정 작업에 최적화된 서브 네트워크만 활성화함으로써 컴퓨팅 비용을 절감하면서도 고성능을 유지하도록 했다. 또한 Multi-Head Latent Attention(MLA) 기술을 적용하여 메모리 사용량을 줄이고 처리 속도를 높이는 방식으로 AI의 문맥 이해력을 강화했다.
DeepSeek의 향상된 코딩 엔진은 게임 개발뿐만 아니라 웹사이트 구축 및 데이터 분석에도 활용될 수 있다.
사용자들은 DeepSeek을 통해 공개된 데이터 세트를 적용하여 웹 애플리케이션을 제작하거나 감정 분석 및 시각화를 수행하는 코드를 생성할 수 있다. 예를 들어, 영문학 연구자들은 19세기 영국 소설이 포함된 깃허브 저장소 데이터를 활용해 원시 텍스트를 동적 웹 애플리케이션으로 변환하도록 요청할 수 있으며, 단일 워크플로에서 데이터 수집, 워드 클라우드 구축, 감정 분석, 인터랙티브 시각화를 한 번에 수행할 수도 있다. 특히 초보 개발자들도 Python이나 Pygame이 로컬에 설치되지 않은 경우 HTML5로 변환하여 별도의 환경 설정 없이 웹 브라우저에서 직접 실행 및 테스트할 수 있다.
DeepSeek은 이번 R1 업데이트를 계기로 더욱 강력한 경쟁력을 확보했으며, 후속 모델인 R2를 5월 중 출시할 예정이다. AI 기술의 발전과 더불어 저비용·고성능 AI 모델이 산업과 연구, 개발 생태계에 미치는 영향이 점점 더 커지고 있다. DeepSeek의 도전이 AI 업계에 어떤 변화를 가져올지 귀추가 주목된다.