Web Interstitial Ad Example

Gemini 横空出世 AI 發展終局未定

15-12-2023
龍稱-Gemini-AI-Google-ChatGPT-人工智能

⾕歌出其不意,在12⽉6⽇提前發佈了⾃研⼤模型Gemini——ChatGPT 的最有⼒競爭對⼿,引發⼈⼯智能界的熱議,⾏業的發展變得愈來愈有趣,最終贏家會以什麼姿態出現呢?這是⼀個有趣⽽價值連城的問題。

Gemini 實際上是⼀個⼈⼯智慧模型家族:「⼤杯」Gemini Ultra、「中杯」Gemini Pro、「⼩杯」Gemini Nano,都⽀持上下⽂32K理解。

其中,Gemini Ultra 主要是為資料中⼼和企業應⽤設計,以其強⼤的原⽣多模態性能,再次引發了⼤家對通⽤⼈⼯智慧的想像。先簡單理解⼀下多模態模型。

OpenAI 當下最強⼤的⼤模型GPT 4也號稱多模態模型,它是怎麼實現的呢?不是直接訓練⼀個多模態模型,OpenAI 先分別訓練了純⽂字、純視覺和純⾳訊模型,然後將他們拼接在⼀起。

⽽⾕歌從⼀開始就建立了⼀個「多感官」模型,給其「投喂」多模態資料(包括⽂字、⾳訊、圖片、視頻、PDF 檔等)進⾏訓練。隨後,研究⼈員⼜⽤額外的多模態資料進⾏了微調,進⼀步提升了模型的有效性。

基於此,⾕歌稱其多模態為原⽣多模態(natively multimodal),可以「無縫」理解、操作和組合不同類型的資訊,擁有了強⼤的交互能⼒。為了證明⾃⼰的產品比OpenAI 的ChatGPT 更出⾊,⾕歌甩出了數張成績單。

Gemini1.0 號稱具有原⽣多模態能⼒,能夠處理視頻、⾳訊、圖像、⽂本和代碼等多種形式的內容,且性能優於現有的「拼接型」多模態⼤模型。從⾕歌官⽅公布的技術⽂檔中的⽰例來看,Gemini 不僅能夠進⾏雙模態之間的轉換(如⽂⽣圖或⽂⽣視頻),亦能處理需要進⾏多模態轉換的複雜任務。

據⾕歌介紹,從⾃然圖像、⾳訊、視頻理解到數學推理,Gemini Ultra 在32 個常⽤的學術基準的30 個上領先GPT 4。⽽在MMLU(⼤規模多⼯語⾔理解)測試中,Gemini Ultra 以90.0%的⾼分,成為第⼀個超過⼈類專家的模型。

MMLU 測試包括數學、物理、歷史、法律、醫學和倫理等57 個學科,旨在考察世界知識和解決問題的能⼒。

通⽤⼈⼯智慧(AGI)是具備與⼈類同等智慧、或超越⼈類的⼈⼯智慧,實現通⽤⼈⼯智慧是AI 領域的終極⽬標。這樣的AI 可以實現⾃我學習、⾃我改進、⾃我調整,進⽽解決任何問題⽽不需要⼈為⼲預,擁有多模態能⼒是前提條件。

⾕歌DeepMind 已經在研究如何將Gemini 與機器⼈技術結合起來,與世界進⾏物理交互。DeepMind ⾸席執⾏官、Gemini 團隊代表德米斯哈薩比斯(Demis Hassabis)表⽰,真正的多模態需要包括觸摸和觸覺回饋,將這類多模態模型應⽤于機器⼈技術能催⽣很多可能性,「隨著時間的推移,Gemini 的多模態能⼒將提升,其將獲得更多的感官,包括觸覺,我們正在對此進⾏深入探索。」

這意味著Gemini 可以真正⽤⼈類的⽅式理解周圍的世界,接收各種類型的資料,包括⽂字、代碼、⾳訊、圖像、視頻,並給出同樣多樣化的回應,包括操縱機械臂給出動作回應,⼈類離通⽤⼈⼯智慧更近了⼀步。

⾕歌表⽰,Gemini 還是他們迄今為⽌最靈活的模型,能夠⾼效地運⾏在資料中⼼和移動設備等多類型平台上。

端側運⾏任務交給了Gemini Nano。Gemini Nano 是通過對其他模型蒸餾得來的4位元模型,號稱⽤於端側設備最⾼效的模型,可以在安卓設備上本地離線運⾏,Pixel 8 Pro 的⽤⼾⾺上就能體驗到。Gemini Nano 有兩種型號,Nano-1(18 億參數)和Nano-2(32.5 億參數)——分別針對低記憶體和⾼記憶體設備。

⽬前,⾕歌沒有進⾏現場展⽰,也沒有開發對外測試,實際效果依然要打⼀個問號。

在接下來的幾個⽉中,Gemini 將陸續出現在⾕歌更多的產品和服務中,包括搜索、廣告、Chrome、Duet AI 等等。