Web Interstitial Ad Example

DeepSeek的革命與顛覆:對美國市場估值的擔憂

28-01-2025
a20280128e

DeepSeek 是一家中國人工智慧公司,由梁文峰於 2023 年 7 月創立,他此前曾共同創立對沖基金 High-Flyer。該公司專門開發開源大型語言模型 (LLM),並憑藉其可與 OpenAI 和 Meta 等老牌公司相媲美的經濟高效的解決方案迅速在人工智慧領域佔據一席之地。

DeepSeek 擁有 200 名員工,主要由北京大學、清華大學和浙江大學等中國知名大學的應屆畢業生組成。該公司更重視技術技能而不是豐富的工作經驗,吸引渴望為克服全球技術障礙做出貢獻的年輕人才。

由於美國的出口限制,DeepSeek 一直在基於不太先進的 GPU 和晶片組開發模型。公司的目標是打造低成本模式,同時實現微薄的獲利。執行長梁志強致力於提升中國在全球人工智慧領域的地位,強調人工智慧發展需要原創而非模仿。 DeepSeek 的重點是開發創新 LLM 並圍繞應用程式建立生態系統。

從長遠來看,通用人工智慧 (AGI) 是 DeepSeek 的主要關注點。 Liang 預計 DeepSeek 將在 2 到 10 年內實現 AGI 方面發揮關鍵作用,主要集中在三個關鍵領域:i)數學與編碼,ii)實際應用,以及 iii)自然語言處理。梁先生預測,從長遠來看,現有的6-7家LLM公司中,最終能存活下來的只有2-3家。

DeepSeek 的主要特點:

  • 成本高效:DeepSeek V3 模型總訓練時間為 278.8 萬 GPU 小時,相當於在 2,048 個 H800 GPU 叢集上進行 2 個月的訓練。總培訓費用僅558萬美元。相較之下,Meta 的 Llama3 模型需要 3,930 萬小時的 H100 GPU 訓練時間,這使得 DeepSeek V3 的訓練成本僅為 Llama3 的 7%。這對傳統人工智慧發展經濟學的可持續性提出了質疑。
  • 創新模型:DeepSeek 已發布多個AI 模型,包括2024 年12 月的DeepSeek-V3 和2025 年1 月20 日的DeepSeek-R1。數據更少,開發成本更低與競爭對手相比。
  • 開源承諾:DeepSeek 強調開源方法,讓研究人員和開發人員可以存取其模型並為人工智慧的進一步發展做出貢獻。