DeepSeek AI:不起作用,開發耗資16億美元

May 18,25

DeepSeek是一家著名的中國初創公司,其最新的聊天機器人在AI行業中引起了巨大的浪潮,該聊天機器人擁有獨特的介紹:“嗨,我被創建了,您可以問任何東西,並得到一個甚至可能會讓您感到驚訝的答案。”這一大膽的聲明反映了DeepSeek AI模型背後的創新技術,該技術因其在市場上的競爭優勢而導致了NVIDIA最大的股票價格下跌之一。

DeepSeek AI的傑出特徵包括:

  • 多語預測(MTP) :與一次預測一個單詞的傳統模型不同,DeepSeek的模型同時預測了多個單詞,從而通過分析句子的不同部分來提高準確性和效率。
  • 專家的混合物(MOE) :該體系結構利用256個神經網絡,每個令牌處理任務都激活了8個神經網絡,從而加快了AI訓練並提高了性能。
  • 多頭潛在註意力(MLA) :該機制著重於句子的關鍵部分,反复提取關鍵細節以最大程度地減少缺少重要信息的機會,從而有效地捕獲細微的數據。

DeepSeek聲稱已經使用2048個圖形處理器以600萬美元的價格培訓了其強大的神經網絡DeepSeek V3。然而,對半分析進行了更深入的研究表明,基礎設施更廣泛,包括幾個數據中心的大約50,000個NVIDIA HOPPER GPU。其中包括10,000個H800單元,10,000 H100和其他H20 GPU,不僅用於AI培訓,還用於研究和財務建模。該公司對服務器的總投資約為16億美元,運營費用估計為9.44億美元。

作為中國對沖基金高級基金的子公司,DeepSeek獨立運營,擁有其數據中心。這種自主權允許更快的創新和實施,因為公司是自籌資金的,並且不會因外部官僚流程而陷入困境。 DeepSeek還吸引了領先的中國大學的頂尖人才,一些研究人員每年收入超過130萬美元。

儘管聲稱有600萬美元的培訓費用,但該數字僅涵蓋培訓期間的GPU使用情況,並且不包括更廣泛的費用,例如研究,改進,數據處理或基礎設施成本。自成立以來,DeepSeek已在AI開發方面投資了超過5億美元,利用其緊湊的結構來推動有效的AI創新。

DeepSeek的旅程強調了一家資金充足的獨立AI公司如何挑戰行業巨頭。但是,該公司的成功歸因於大量投資,技術突破和強大的團隊,而不是“革命預算”。儘管競爭對手的成本明顯更高,而Deepseek在R1上花費了500萬美元,而Chatgpt4o的1億美元,Deepseek仍然是AI景觀中的強大參與者。

DeepSeek測試圖片:ensigame.com

DeepSeek V3圖片:ensigame.com

DeepSeek圖片:ensigame.com

DeepSeek圖片:ensigame.com

熱門新聞
更多
Copyright © 2024 yuzsb.com All rights reserved.