DeepSeek AI : 저렴하지 않으며 개발 비용이 16 억 달러입니다
저명한 중국의 스타트 업인 Deepseek은 AI 업계에서 최신 챗봇을 통해 상당한 파도를 만들었습니다. "안녕하세요, 나는 당신이 무엇이든 물어보고 당신을 놀라게 할 수있는 답을 얻을 수 있도록 만들어졌습니다." 이 대담한 진술은 DeepSeek의 AI 모델 뒤에있는 혁신적인 기술을 반영하며, 이는 시장에서 경쟁력있는 우위로 인해 Nvidia의 가장 큰 주가 하락 중 하나에 기여했습니다.
DeepSeek의 AI의 눈에 띄는 기능에는 다음이 포함됩니다.
- MTP (Multi-Token Prediction) : 한 번에 한 단어를 예측하는 전통적인 모델과 달리 DeepSeek의 모델은 여러 단어를 동시에 예측하여 문장의 다른 부분을 분석하여 정확도와 효율성을 모두 향상시킵니다.
- 전문가 (MOE)의 혼합 :이 아키텍처는 256 개의 신경망을 활용하며 각 토큰 처리 작업마다 8 개의 활성화되어 AI 교육 속도를 높이고 성능을 향상시킵니다.
- 다중 헤드 잠재주의 (MLA) :이 메커니즘은 문장의 중요한 부분에 중점을 두어 중요한 정보가 누락 될 가능성을 최소화하여 미묘한 데이터를 효과적으로 캡처합니다.
DeepSeek은 강력한 신경 네트워크 인 DeepSeek V3를 2048 개의 그래픽 프로세서를 사용하여 6 백만 달러에 훈련했다고 주장합니다. 그러나 Semianalysis의 심층 조사 결과 여러 데이터 센터에서 약 50,000 개의 NVIDIA Hopper GPU를 포함하여보다 광범위한 인프라가 나타났습니다. 여기에는 AI 교육뿐만 아니라 연구 및 재무 모델링에도 사용되는 10,000 H800 단위, 10,000 H100 및 추가 H20 GPU가 포함됩니다. 이 회사의 서버에 대한 총 투자는 약 16 억 달러에 달하며 운영 비용은 9 억 9,400 만 달러로 추정됩니다.
중국 헤지 펀드 하이 플라이어의 자회사로서 DeepSeek는 데이터 센터를 소유하고 독립적으로 운영합니다. 이 자율성은 회사가 자체 자금을 지원하고 외부 관료적 프로세스에 의해 쇠약 해지지 않기 때문에 더 빠른 혁신과 구현을 허용합니다. Deepseek은 또한 주요 중국 대학에서 최고의 인재를 유치하며 일부 연구자들은 매년 130 만 달러 이상을 벌고 있습니다.
6 백만 달러의 교육 비용의 주장에도 불구하고,이 수치는 사전 훈련 중 GPU 사용량에만 적용되며 연구, 모델 개선, 데이터 처리 또는 인프라 비용과 같은 광범위한 비용은 포함되지 않습니다. DeepSeek은 처음부터 AI 개발에 5 억 달러 이상을 투자하여 컴팩트 한 구조를 활용하여 효과적인 AI 혁신을 주도했습니다.
Deepseek의 여정은 잘 자금을 지원하고 독립적 인 AI 회사가 업계 거인들에게 어떻게 도전 할 수 있는지 강조합니다. 그러나이 회사의 성공은 "혁신적인 예산"보다는 상당한 투자, 기술 혁신 및 강력한 팀에 기인합니다. 경쟁 업체의 비용은 훨씬 높지만, DeepSeek는 ChatGPT4O의 1 억 달러에 비해 R1에 5 백만 달러를 지출했지만, DeepSeek은 AI 환경에서 강력한 선수로 남아 있습니다.
이미지 : ensigame.com
이미지 : ensigame.com
이미지 : ensigame.com
이미지 : ensigame.com