Deepseek AI: Não é acessível, custa US $ 1,6 bilhão para desenvolver

May 18,25

A Deepseek, uma proeminente startup chinesa, fez ondas significativas no setor de IA com seu mais recente chatbot, que possui uma introdução única: "Oi, fui criado para que você possa perguntar qualquer coisa e obter uma resposta que possa até surpreendê -lo". Esta declaração ousada reflete as tecnologias inovadoras por trás dos modelos de IA da Deepseek, que contribuíram para uma das maiores quedas de preços das ações da NVIDIA devido à sua vantagem competitiva no mercado.

Os recursos de destaque da IA ​​de Deepseek incluem:

  • Previsão de vários toques (MTP) : Ao contrário dos modelos tradicionais que prevêem uma palavra de cada vez, o modelo de Deepseek prevê várias palavras simultaneamente, aumentando a precisão e a eficiência analisando diferentes partes de uma frase.
  • Mistura de especialistas (MOE) : Esta arquitetura aproveita 256 redes neurais, com oito ativados para cada tarefa de processamento de token, acelerando o treinamento de IA e melhorando o desempenho.
  • Atenção latente de várias cabeças (MLA) : Esse mecanismo se concentra nas partes cruciais de uma frase, extraindo repetidamente detalhes-chave para minimizar a chance de perder informações importantes, capturando assim dados sutis.

A Deepseek afirma ter treinado sua poderosa rede neural, Deepseek V3, por apenas US $ 6 milhões usando apenas 2048 processadores gráficos. No entanto, uma investigação mais profunda por semiânica revelou uma infraestrutura mais extensa, incluindo aproximadamente 50.000 GPUs NVIDIA Hopper em vários data centers. Isso inclui 10.000 unidades H800, 10.000 H100s e GPUs H20 adicionais, usados ​​não apenas para treinamento de IA, mas também para pesquisa e modelagem financeira. O investimento total da empresa em servidores atinge cerca de US $ 1,6 bilhão, com despesas operacionais estimadas em US $ 944 milhões.

Como subsidiária do fundo de hedge chinês, a Deepseek opera de forma independente, possuindo seus data centers. Essa autonomia permite inovação e implementação mais rápidas, pois a empresa é autofinanciada e não atolada por processos burocráticos externos. Deepseek também atrai os principais talentos das principais universidades chinesas, com alguns pesquisadores ganhando mais de US $ 1,3 milhão anualmente.

Apesar da reivindicação de um custo de treinamento de US $ 6 milhões, esse número cobre apenas o uso da GPU durante o pré-treinamento e não inclui despesas mais amplas, como pesquisa, refinamento de modelos, processamento de dados ou custos de infraestrutura. Desde a sua criação, a Deepseek investiu mais de US $ 500 milhões em desenvolvimento de IA, alavancando sua estrutura compacta para impulsionar as inovações eficazes da IA.

A jornada de Deepseek destaca como uma empresa de IA independente e bem financiada pode desafiar os gigantes da indústria. No entanto, o sucesso da empresa é atribuído a investimentos substanciais, avanços técnicos e uma equipe forte, em vez de um "orçamento revolucionário". Embora os custos dos concorrentes sejam notavelmente mais altos - a Deepseek gastou US $ 5 milhões em R1 em comparação com os US $ 100 milhões da ChatGPT4O - o Deepseek continua sendo um participante formidável na paisagem da IA.

Teste Deepseek Imagem: Ensigame.com

Deepseek v3 Imagem: Ensigame.com

Deepseek Imagem: Ensigame.com

Deepseek Imagem: Ensigame.com

Manchetes
Mais
Copyright © 2024 yuzsb.com All rights reserved.