Deepseek AI: pas abordable, coûte 1,6 milliard de dollars à développer

May 18,25

Deepseek, une startup chinoise de premier plan, a fait des vagues importantes dans l'industrie de l'IA avec son dernier chatbot, qui possède une introduction unique: "Salut, j'ai été créé pour que vous puissiez demander n'importe quoi et obtenir une réponse qui pourrait même vous surprendre." Cette déclaration audacieuse reflète les technologies innovantes derrière les modèles d'IA de Deepseek, qui ont contribué à l'une des plus grandes baisses de cours des actions de Nvidia en raison de leur avantage concurrentiel sur le marché.

Les caractéristiques remarquables de l'IA de Deepseek comprennent:

  • Prédiction multi-token (MTP) : Contrairement aux modèles traditionnels qui prédisent un mot à la fois, le modèle de Deepseek prévoit plusieurs mots plusieurs mots, améliorant à la fois la précision et l'efficacité en analysant différentes parties d'une phrase.
  • Mélange d'experts (MOE) : Cette architecture exploite 256 réseaux neuronaux, avec huit activés pour chaque tâche de traitement des jetons, accélérant la formation d'IA et améliorant les performances.
  • Attention latente multi-tête (MLA) : ce mécanisme se concentre sur les parties cruciales d'une phrase, extrait à plusieurs reprises les détails clés pour minimiser les chances de manquer des informations importantes, capturant ainsi efficacement les données nuancées.

Deepseek prétend avoir formé son puissant réseau de neurones, Deepseek V3, pour seulement 6 millions de dollars en utilisant seulement 2048 processeurs graphiques. Cependant, une enquête plus approfondie par semi-analyse a révélé une infrastructure plus étendue, dont environ 50 000 GPU NVIDIA Hopper dans plusieurs centres de données. Cela comprend 10 000 unités H800, 10 000 H100 et des GPU H20 supplémentaires, utilisés non seulement pour la formation d'IA, mais aussi pour la recherche et la modélisation financière. L'investissement total de la société dans les serveurs atteint environ 1,6 milliard de dollars, avec des dépenses opérationnelles estimées à 944 millions de dollars.

En tant que filiale du High Flyer chinois, Deepseek opère indépendamment, possédant ses centres de données. Cette autonomie permet une innovation et une mise en œuvre plus rapides, car l'entreprise est autofinancée et non enlitée par des processus bureaucratiques externes. Deepseek attire également les meilleurs talents des principales universités chinoises, certains chercheurs gagnant plus de 1,3 million de dollars par an.

Malgré la réclamation d'un coût de formation de 6 millions de dollars, ce chiffre ne couvre que l'utilisation du GPU pendant la pré-formation et n'inclut pas les dépenses plus larges telles que la recherche, le raffinement du modèle, le traitement des données ou les coûts d'infrastructure. Depuis sa création, Deepseek a investi plus de 500 millions de dollars dans le développement de l'IA, tirant parti de sa structure compacte pour générer des innovations efficaces sur l'IA.

Le voyage de Deepseek souligne comment une entreprise d'IA indépendante bien financée peut défier les géants de l'industrie. Cependant, le succès de l'entreprise est attribué à des investissements substantiels, à des percées techniques et à une équipe solide, plutôt qu'à un «budget révolutionnaire». Alors que les coûts des concurrents sont notablement plus élevés - Deepseek a dépensé 5 millions de dollars pour R1 par rapport aux 100 millions de dollars de ChatGpt4o - Deepseek reste un acteur formidable dans le paysage de l'IA.

Test de profondeur Image: esigame.com

Deepseek v3 Image: esigame.com

En profondeur Image: esigame.com

En profondeur Image: esigame.com

Actualité à la Une
Plus
Copyright © 2024 yuzsb.com All rights reserved.