DeepSeek AI: non conveniente, costa $ 1,6 miliardi per lo sviluppo

May 18,25

DeepSeek, un'importante startup cinese, ha fatto ondate significative nel settore dell'IA con il suo ultimo chatbot, che vanta un'introduzione unica: "Ciao, sono stato creato in modo da poter chiedere qualsiasi cosa e ottenere una risposta che potrebbe persino sorprenderti." Questa audace dichiarazione riflette le tecnologie innovative alla base dei modelli AI di Deepseek, che hanno contribuito a uno dei maggiori calo dei prezzi delle azioni di Nvidia a causa del loro vantaggio competitivo sul mercato.

Le caratteristiche straordinarie dell'intelligenza artificiale di Deepseek includono:

  • Multi-token Prediction (MTP) : a differenza dei modelli tradizionali che prevedono una parola alla volta, il modello di DeepSeek prevede più parole contemporaneamente, migliorando sia l'accuratezza che l'efficienza analizzando diverse parti di una frase.
  • Miscela di esperti (MOE) : questa architettura sfrutta 256 reti neurali, con otto attivate per ogni attività di elaborazione dei token, accelerando la formazione dell'IA e migliorando le prestazioni.
  • Attenzione latente multi-testa (MLA) : questo meccanismo si concentra su parti cruciali di una frase, estraendo ripetutamente dettagli chiave per ridurre al minimo la possibilità di perdere informazioni importanti, catturando così i dati sfumati in modo efficace.

DeepSeek afferma di aver addestrato la sua potente rete neurale, Deepseek V3, per soli $ 6 milioni utilizzando solo 2048 processori grafici. Tuttavia, un'indagine più approfondita da parte di seminalisi ha rivelato un'infrastruttura più ampia, tra cui circa 50.000 GPU di Nvidia Hopper in diversi data center. Ciò include 10.000 unità H800, 10.000 H100 e GPU H20 aggiuntive, utilizzate non solo per la formazione AI ma anche per la ricerca e la modellazione finanziaria. L'investimento totale della società nei server raggiunge circa $ 1,6 miliardi, con spese operative stimate in $ 944 milioni.

Come filiale dell'hedge fund cinese High-Flyer, DeepSeek opera in modo indipendente, possedendo i suoi data center. Questa autonomia consente un'innovazione e implementazione più rapide, poiché l'azienda è autofinanziata e non impantanata da processi burocratici esterni. DeepSeek attira anche i migliori talenti delle principali università cinesi, con alcuni ricercatori che guadagnano oltre $ 1,3 milioni all'anno.

Nonostante l'affermazione di un costo di formazione di $ 6 milioni, questa cifra copre solo l'utilizzo della GPU durante il pre-allenamento e non include spese più ampie come ricerca, perfezionamento del modello, elaborazione dei dati o costi di infrastruttura. Fin dalla sua istituzione, DeepSeek ha investito oltre $ 500 milioni nello sviluppo dell'IA, sfruttando la sua struttura compatta per guidare efficaci innovazioni di intelligenza artificiale.

Il viaggio di Deepseek evidenzia come un'azienda di intelligenza artificiale indipendente ben finanziata può sfidare i giganti del settore. Tuttavia, il successo dell'azienda è attribuito a investimenti sostanziali, scoperte tecniche e una squadra forte, piuttosto che un "budget rivoluzionario". Mentre i costi dei concorrenti sono notevolmente più alti - Deepseek ha speso $ 5 milioni su R1 rispetto ai $ 100 milioni di Chatgpt4o - Deepseek rimane un giocatore formidabile nel panorama dell'IA.

Test di DeepSeek Immagine: Ensigame.com

DeepSeek V3 Immagine: Ensigame.com

Deep -Week Immagine: Ensigame.com

Deep -Week Immagine: Ensigame.com

Notizie principali
Di più
Copyright © 2024 yuzsb.com All rights reserved.