⾕歌出其不意,在12⽉6⽇提前發佈了⾃研⼤模型Gemini——ChatGPT 的最有⼒競爭對⼿,引發⼈⼯智能界的熱議,⾏業的發展變得愈來愈有趣,最終贏家會以什麼姿態出現呢?這是⼀個有趣⽽價值連城的問題。
Gemini 實際上是⼀個⼈⼯智慧模型家族:「⼤杯」Gemini Ultra、「中杯」Gemini Pro、「⼩杯」Gemini Nano,都⽀持上下⽂32K理解。
其中,Gemini Ultra 主要是為資料中⼼和企業應⽤設計,以其強⼤的原⽣多模態性能,再次引發了⼤家對通⽤⼈⼯智慧的想像。先簡單理解⼀下多模態模型。
OpenAI 當下最強⼤的⼤模型GPT 4也號稱多模態模型,它是怎麼實現的呢?不是直接訓練⼀個多模態模型,OpenAI 先分別訓練了純⽂字、純視覺和純⾳訊模型,然後將他們拼接在⼀起。
⽽⾕歌從⼀開始就建立了⼀個「多感官」模型,給其「投喂」多模態資料(包括⽂字、⾳訊、圖片、視頻、PDF 檔等)進⾏訓練。隨後,研究⼈員⼜⽤額外的多模態資料進⾏了微調,進⼀步提升了模型的有效性。