Deepseek AI: Hindi abot -kayang, nagkakahalaga ng $ 1.6 bilyon upang mabuo

Bahay > Balita > Deepseek AI: Hindi abot -kayang, nagkakahalaga ng $ 1.6 bilyon upang mabuo

Deepseek AI: Hindi abot -kayang, nagkakahalaga ng $ 1.6 bilyon upang mabuo

May 18,25

Ang DeepSeek, isang kilalang pagsisimula ng Tsino, ay gumawa ng mga makabuluhang alon sa industriya ng AI kasama ang pinakabagong chatbot, na ipinagmamalaki ang isang natatanging pagpapakilala: "Kumusta, nilikha ako upang maaari kang magtanong ng anuman at makakuha ng isang sagot na maaaring sorpresa ka pa." Ang matapang na pahayag na ito ay sumasalamin sa mga makabagong teknolohiya sa likod ng mga modelo ng AI ng Deepseek, na nag -ambag sa isa sa pinakamalaking pagbagsak ng presyo ng stock ng NVIDIA dahil sa kanilang mapagkumpitensyang gilid sa merkado.

Ang mga tampok na standout ng Deepseek's AI ay kasama ang:

Multi-Token Prediction (MTP) : Hindi tulad ng tradisyonal na mga modelo na hinuhulaan ang isang salita nang sabay-sabay, ang modelo ng Deepseek ay nagtataya ng maraming mga salita nang sabay-sabay, pagpapahusay ng parehong kawastuhan at kahusayan sa pamamagitan ng pagsusuri ng iba't ibang mga bahagi ng isang pangungusap.
Paghahalo ng mga eksperto (MOE) : Ang arkitektura na ito ay gumagamit ng 256 na mga network ng neural, na may walong isinaaktibo para sa bawat gawain sa pagproseso ng token, pabilis ang pagsasanay sa AI at pagpapabuti ng pagganap.
Multi-head latent attention (MLA) : Ang mekanismong ito ay nakatuon sa mga mahahalagang bahagi ng isang pangungusap, paulit-ulit na pagkuha ng mga pangunahing detalye upang mabawasan ang pagkakataon na nawawala ang mahahalagang impormasyon, sa gayon ay mabisa ang pagkuha ng data ng nuanced.

Inaangkin ng Deepseek na sinanay ang malakas na neural network, Deepseek V3, para sa $ 6 milyon lamang gamit ang 2048 graphics processors. Gayunpaman, ang isang mas malalim na pagsisiyasat sa pamamagitan ng semianalysis ay nagsiwalat ng isang mas malawak na imprastraktura, kabilang ang humigit -kumulang na 50,000 NVIDIA Hopper GPU sa maraming mga sentro ng data. Kasama dito ang 10,000 H800 na yunit, 10,000 H100s, at karagdagang mga H20 GPU, na ginamit hindi lamang para sa pagsasanay sa AI kundi pati na rin para sa pananaliksik at pagmomolde sa pananalapi. Ang kabuuang pamumuhunan ng kumpanya sa mga server ay umabot sa halos $ 1.6 bilyon, na may mga gastos sa pagpapatakbo na tinatayang $ 944 milyon.

Bilang isang subsidiary ng Chinese Hedge Fund High-flyer, ang Deepseek ay nagpapatakbo nang nakapag-iisa, na nagmamay-ari ng mga sentro ng data nito. Ang awtonomiya na ito ay nagbibigay-daan para sa mas mabilis na pagbabago at pagpapatupad, dahil ang kumpanya ay pinondohan sa sarili at hindi nababagsak ng mga panlabas na proseso ng burukrata. Ang Deepseek ay nakakaakit din ng nangungunang talento mula sa nangungunang unibersidad ng Tsino, na may ilang mga mananaliksik na kumikita ng higit sa $ 1.3 milyon taun -taon.

Sa kabila ng pag-angkin ng isang $ 6 milyong gastos sa pagsasanay, ang figure na ito ay sumasaklaw lamang sa paggamit ng GPU sa panahon ng pre-pagsasanay at hindi kasama ang mas malawak na gastos tulad ng pananaliksik, pagpipino ng modelo, pagproseso ng data, o mga gastos sa imprastraktura. Mula nang ito ay umpisahan, ang Deepeek ay namuhunan ng higit sa $ 500 milyon sa pag -unlad ng AI, na ginagamit ang compact na istraktura upang himukin ang mabisang mga makabagong AI.

Ang paglalakbay ng Deepseek ay nagtatampok kung paano ang isang mahusay na pondo, independiyenteng kumpanya ng AI ay maaaring hamunin ang mga higante sa industriya. Gayunpaman, ang tagumpay ng kumpanya ay maiugnay sa malaking pamumuhunan, teknikal na mga pambihirang tagumpay, at isang malakas na koponan, sa halip na isang "rebolusyonaryong badyet." Habang ang mga gastos sa mga kakumpitensya ay kapansin -pansin na mas mataas - Ang Deepseek ay gumugol ng $ 5 milyon sa R1 kumpara sa $ 100 milyon ng Chatgpt4O - Ang Deepseek ay nananatiling isang mabigat na manlalaro sa AI landscape.

Pagsubok sa Deepseek Larawan: ensigame.com

Deepseek v3 Larawan: ensigame.com

Deepseek Larawan: ensigame.com

Susunod

Ang pinsala sa splash ay maaaring mag -cancels ng mga transformer: reaktibo

Nangungunang Balita

Higit pa