Gemini 横空出世 AI 發展終局未定

⾕歌出其不意，在12⽉6⽇提前發佈了⾃研⼤模型Gemini——ChatGPT 的最有⼒競爭對⼿，引發⼈⼯智能界的熱議，⾏業的發展變得愈來愈有趣，最終贏家會以什麼姿態出現呢？這是⼀個有趣⽽價值連城的問題。

Gemini 實際上是⼀個⼈⼯智慧模型家族：「⼤杯」Gemini Ultra、「中杯」Gemini Pro、「⼩杯」Gemini Nano，都⽀持上下⽂32K理解。

其中，Gemini Ultra 主要是為資料中⼼和企業應⽤設計，以其強⼤的原⽣多模態性能，再次引發了⼤家對通⽤⼈⼯智慧的想像。先簡單理解⼀下多模態模型。

OpenAI 當下最強⼤的⼤模型GPT 4也號稱多模態模型，它是怎麼實現的呢？不是直接訓練⼀個多模態模型，OpenAI 先分別訓練了純⽂字、純視覺和純⾳訊模型，然後將他們拼接在⼀起。

⽽⾕歌從⼀開始就建立了⼀個「多感官」模型，給其「投喂」多模態資料（包括⽂字、⾳訊、圖片、視頻、PDF 檔等）進⾏訓練。隨後，研究⼈員⼜⽤額外的多模態資料進⾏了微調，進⼀步提升了模型的有效性。

基於此，⾕歌稱其多模態為原⽣多模態（natively multimodal），可以「無縫」理解、操作和組合不同類型的資訊，擁有了強⼤的交互能⼒。為了證明⾃⼰的產品比OpenAI 的ChatGPT 更出⾊，⾕歌甩出了數張成績單。

Gemini1.0 號稱具有原⽣多模態能⼒，能夠處理視頻、⾳訊、圖像、⽂本和代碼等多種形式的內容，且性能優於現有的「拼接型」多模態⼤模型。從⾕歌官⽅公布的技術⽂檔中的⽰例來看，Gemini 不僅能夠進⾏雙模態之間的轉換（如⽂⽣圖或⽂⽣視頻），亦能處理需要進⾏多模態轉換的複雜任務。

據⾕歌介紹，從⾃然圖像、⾳訊、視頻理解到數學推理，Gemini Ultra 在32 個常⽤的學術基準的30 個上領先GPT 4。⽽在MMLU（⼤規模多⼯語⾔理解）測試中，Gemini Ultra 以90.0%的⾼分，成為第⼀個超過⼈類專家的模型。

Tagged

AI chatgpt Gemini Google 人工智能龍稱

熱門文章