Gemini 横空出世 AI 發展終局未定

⾕歌出其不意，在12⽉6⽇提前發佈了⾃研⼤模型Gemini——ChatGPT 的最有⼒競爭對⼿，引發⼈⼯智能界的熱議，⾏業的發展變得愈來愈有趣，最終贏家會以什麼姿態出現呢？這是⼀個有趣⽽價值連城的問題。

Gemini 實際上是⼀個⼈⼯智慧模型家族：「⼤杯」Gemini Ultra、「中杯」Gemini Pro、「⼩杯」Gemini Nano，都⽀持上下⽂32K理解。

其中，Gemini Ultra 主要是為資料中⼼和企業應⽤設計，以其強⼤的原⽣多模態性能，再次引發了⼤家對通⽤⼈⼯智慧的想像。先簡單理解⼀下多模態模型。

OpenAI 當下最強⼤的⼤模型GPT 4也號稱多模態模型，它是怎麼實現的呢？不是直接訓練⼀個多模態模型，OpenAI 先分別訓練了純⽂字、純視覺和純⾳訊模型，然後將他們拼接在⼀起。

⽽⾕歌從⼀開始就建立了⼀個「多感官」模型，給其「投喂」多模態資料（包括⽂字、⾳訊、圖片、視頻、PDF 檔等）進⾏訓練。隨後，研究⼈員⼜⽤額外的多模態資料進⾏了微調，進⼀步提升了模型的有效性。

基於此，⾕歌稱其多模態為原⽣多模態（natively multimodal），可以「無縫」理解、操作和組合不同類型的資訊，擁有了強⼤的交互能⼒。為了證明⾃⼰的產品比OpenAI 的ChatGPT 更出⾊，⾕歌甩出了數張成績單。

Gemini1.0 號稱具有原⽣多模態能⼒，能夠處理視頻、⾳訊、圖像、⽂本和代碼等多種形式的內容，且性能優於現有的「拼接型」多模態⼤模型。從⾕歌官⽅公布的技術⽂檔中的⽰例來看，Gemini 不僅能夠進⾏雙模態之間的轉換（如⽂⽣圖或⽂⽣視頻），亦能處理需要進⾏多模態轉換的複雜任務。

據⾕歌介紹，從⾃然圖像、⾳訊、視頻理解到數學推理，Gemini Ultra 在32 個常⽤的學術基準的30 個上領先GPT 4。⽽在MMLU（⼤規模多⼯語⾔理解）測試中，Gemini Ultra 以90.0%的⾼分，成為第⼀個超過⼈類專家的模型。

MMLU 測試包括數學、物理、歷史、法律、醫學和倫理等57 個學科，旨在考察世界知識和解決問題的能⼒。

通⽤⼈⼯智慧（AGI）是具備與⼈類同等智慧、或超越⼈類的⼈⼯智慧，實現通⽤⼈⼯智慧是AI 領域的終極⽬標。這樣的AI 可以實現⾃我學習、⾃我改進、⾃我調整，進⽽解決任何問題⽽不需要⼈為⼲預，擁有多模態能⼒是前提條件。

⾕歌DeepMind 已經在研究如何將Gemini 與機器⼈技術結合起來，與世界進⾏物理交互。DeepMind ⾸席執⾏官、Gemini 團隊代表德米斯哈薩比斯（Demis Hassabis）表⽰，真正的多模態需要包括觸摸和觸覺回饋，將這類多模態模型應⽤于機器⼈技術能催⽣很多可能性，「隨著時間的推移，Gemini 的多模態能⼒將提升，其將獲得更多的感官，包括觸覺，我們正在對此進⾏深入探索。」

這意味著Gemini 可以真正⽤⼈類的⽅式理解周圍的世界，接收各種類型的資料，包括⽂字、代碼、⾳訊、圖像、視頻，並給出同樣多樣化的回應，包括操縱機械臂給出動作回應，⼈類離通⽤⼈⼯智慧更近了⼀步。

⾕歌表⽰，Gemini 還是他們迄今為⽌最靈活的模型，能夠⾼效地運⾏在資料中⼼和移動設備等多類型平台上。

端側運⾏任務交給了Gemini Nano。Gemini Nano 是通過對其他模型蒸餾得來的4位元模型，號稱⽤於端側設備最⾼效的模型，可以在安卓設備上本地離線運⾏，Pixel 8 Pro 的⽤⼾⾺上就能體驗到。Gemini Nano 有兩種型號，Nano-1（18 億參數）和Nano-2（32.5 億參數）——分別針對低記憶體和⾼記憶體設備。

⽬前，⾕歌沒有進⾏現場展⽰，也沒有開發對外測試，實際效果依然要打⼀個問號。

在接下來的幾個⽉中，Gemini 將陸續出現在⾕歌更多的產品和服務中，包括搜索、廣告、Chrome、Duet AI 等等。

如果⾕歌將旗下產品全⾯接入Gemini，其搜尋引擎和辦公軟體將能夠與微軟的NewBing 及Microsoft 365 Copilot 對壘；此外，⾕歌亦有可能在搭載Android 系統的移動設備上推出類似於Windows Copilot 的AI 助⼿，充分發揮其在2C 端的⽤⼾優勢，順應當前AI ⼿機的發展潮流。

最後就是算⼒關注了。多模態⼤模型的算⼒需求遠⾼於純⽂字模態。以Gemini為例，其強⼤的多模態能⼒背後，是龐⼤的算⼒需求。雖然沒有正式公佈，但根據內部消息，Gemini 有萬億參數，訓練所⽤的算⼒甚⾄達到GPT-4 的五倍。

有別于傳統⼤模型對英偉達硬體及⽣態的依賴，Gemini 訓練所需的算⼒基於⾕歌⾃研的TPU v4 和v5e 等硬體。在推出新模型的同時，⾕歌順勢宣佈推出迄今為⽌功能最強⼤、最⾼效、可擴展性最強的TPU 系統Cloud TPU v5p，將⽤於開發更⾼層次的AI ⼤模型。

其TPU v5p的訓練性能是上⼀代TPU v4 的2.8 倍，記憶體頻寬提升3 倍，晶片間互聯頻寬翻倍，達到4.8Tbps，同時，v5p單個POD 中的晶片數量翻倍，達到8960顆。

ChatGPT 外，繪圖、視頻等多類AI 應⽤陸續取得進展，訓練與後續推理需求持續，算⼒基礎設施長期景氣度持續。

⾕歌作為⾃研算⼒新勢⼒，有望激化算⼒市場良性競爭，進⽽降低算⼒使⽤成本。在海外互聯網巨頭AI 模型軍備競賽下算⼒基建產業鏈將持續受益。⾕歌有望為算⼒供需雙⽅提供全新選項，從供應側看，有利於技術的良性競爭，從需求側看，充分的市場競爭也有利於降低算⼒的使⽤成本。

全球AI 產業的發展為我們帶來新的篇章，OpenAI 於11 ⽉份發佈了GPT-4 Turbo且開放了GPTs，⾕歌緊隨其後發佈Gemini，表明⼈⼯智慧巨頭在⼤模型領域的競爭依然⽩熱化。

⼼安⾃在

吉祥如意

【關於 #龍稱】

佛教徒。龍天護法之象，心法相稱之本。少年時移居香港，高中開始接觸財經訊息並學習投資，至今凡三十年。投資既是個人興趣，亦為終身事業。曾任職於《信報》，與曹仁超先生結下忘年之交，有師徒之情。後曾就職於歐美投資銀行。

財富多寡與否在因果，也在心量，因果展現為運氣與能力，心量可改理解為布施、渴望、蓄水池等等，心量越大，福報也越大。在每一個當下把握主動，以積極態度守護財富乃至人生愿望，財富增長、心想事成是必然結果，也能為有緣人帶來光明和快樂。

Pages: 12345678

Tagged

AI chatgpt Gemini Google 人工智能龍稱

熱門文章

按揭計算機

Gemini 横空出世 AI 發展終局未定

熱門文章

按揭計算機

你可能也感興趣