Google 不讓 ChatGPT 專美於前,發表自家的 AI 語言模型 Gemini,以打造更完整的 Google AI 生態系,甚至將先前推出的聊天機器人 Bard 正式更名為 Gemini。
在 ChatGPT 帶動生成式 AI 爆炸成長下,各科技大廠也積極擴大 AI 領域的研發,向來推動 AI 不落人後的 Google,也推出生成式 AI 聊天機器人 Bard,不讓 ChatGPT 專美於前,甚至更進一步發表自家的 AI 語言模型 Gemini,以打造更完整的 Google AI 生態系。而在 Gemini 發表約 2 個月後,Google 又大動作將 Bard 正式更名為 Gemini,現在說到 Gemini 已不再只是語言模型,也代表 Google 的生成式 AI 聊天機器人。
文章目錄
Gemini 究竟是什麼?
Google 在 2023 年 12 月時,正式推出「Gemini」AI 模型,使用 Google 自行開發的晶片 TPU(Tensor Processing Unit)訓練而成,可以簡單理解為等同於 ChatGPT 背後的 GPT 訓練模型(Generative Pretrained Transformer)。
是 GPT-4 的最強對手?
不過,Gemini 標榜可以進行程式碼、文字、圖片、影音等多模態(multimodal)的學習, 甚至可以直接「看懂」圖片,而不是像過去使用 OCR 的方式掃描圖片後,再辨識上面的文字來分析圖片。在示範影片中也展示 Gemini 能由兩張手繪汽車圖中,分析出符合空氣力學運作的車子速度會較快;理解拳頭、手指頭比出 2 和 5,會是「剪頭、石頭、布」的遊戲;也能指出太陽、地球和土星的正確順序。
在 Gemini 發表時,Google 也表示 Gemini 的訓練數據量是 ChatGPT 的兩倍,於 32 項 AI 測試中,有高達 30 項超越 ChatGPT(GPT-4),因此 Gemini 在大規模多任務語言理解測驗(Massive Multitask Language Understanding;MMLU)上的表現優於 GPT-4,很明顯要與 GPT-4 較勁。
▲ Gemini 是 Google 推出的 AI 語言模型,使用 Google 自行開發的晶片 TPU(Tensor Processing Unit)訓練而成,可以進行程式碼、文字、圖片、影音等多模態(multimodal)的學習與理解。
Gemini 模型有三種規模
另外,在 Gemini 1.0 版本發表時,還推出 Gemini Ultra、Gemini Pro、Gemini Nano 三個等級。Gemini Ultra 是 Google 最強大的模型,專為高度複雜的任務而設計,被定位在和 OpenAI 的 GPT-4 競爭;Gemini Pro 是一款中階的模型,目的是超越 GPT-3.5,即多數人使用的 ChatGPT 免費版;最後是 Gemini Nano,強調高效率的模型,應用在行動裝置,目前 Google Pixel 8 及三星 Galaxy S24 系列手機已使用,也就是所謂的 AI 手機。
▲ Google Pixel 8 及三星 Galaxy S24 系列手機上,已導入 Gemini Nano 模型,透過 AI 完成畫圈搜尋、即時翻譯、擴充圖片內容,也就是所謂的 AI 手機。
Bard 正式改名為 Gemini
早在 Gemini 模型於 2023年 Google I/O 大會亮相時,Google 就已透露Gemini 可望取代 PaLM 2 模型,並導入旗下眾多服務,當中也包含 Bard 生成式 AI聊 天機器人,果然沒有等太久,直接將 Bard 改名為 Gemini。
回顧 Google 在去年 3 月發表 Google Bard 時,最初使用的是 LaMDA 模型,之後改用 PaLM 模型,並於去年 12 月開始,於全球 40 多國語言版本中,升級至 Gemini Pro 模型,當中也包含了繁體中文版。現在更直接宣布由 Bard 更名為 Gemini,看來 Google 這次對 Gemini 相當有信心,更積極的讓用戶認識 Gemini,以穩固在 AI 市場的地位。
▲ 現在開啟 Google Bard,會直接變成 Gemini,並告知用戶「Bard 已更名為Gemini」。
免費 Gemini 與付費的 Gemini Advanced
在 Gemini 發表後,Google 執行長 Sundar Pichai 曾表示「Gemini 是 Google有史以來最強大也是最通用的模型。」而 Google Bard 也在去年12月時,升級為 Gemini Pro 模型訓練,並於今年 2 月正式改名為 Gemini,經由這一連串的變更、升級及改名後,現在說到 Gemini,幾乎就等於 Google AI。此外,在將 Bard 改名為 Gemini 的同時,也與多數生成式 AI 工具一樣,除了免費版本之外,也推出功能更進階的 Gemini Advanced 付費版本,使用的是最高階的 Gemini Ultra 1.0 模型。
Google One AI 進階版
另外,Gemini Advanced 也將成為全新「Google One AI 進階版」方案的一部份,每個月 650 元,並提供 2 個月的免費試用期。透過訂閱這個方案,除了有 Gemini Advanced 資格外,還有 Google 雲端空間 2TB,以及相簿、日曆、Google Meet⋯等進階功能,同時很快能夠在 Gmail、文件、簡報、試算表等體驗到 Gemini 的應用。
而台灣帳戶現在已可升級 Gemini Advanced,也可以用中文回答,不過,因為目前 Gemini Ultra 1.0 模型只有英文版,也只對英文回答進行最佳化,因此,建議可以再等 Google 陸續支援更多語言後,再來升級會更有感。
▲ Google 新推出的 Google One AI 進階版中,包括 Gemini Advanced、Google 雲端儲存空間 2TB,而原本已經訂閱 2TB 儲存空間方案的用戶,並沒有辦法直接體驗 Gemini Advanced,因為這是個全新的方案。
對應 ChatGPT Plus 版本
而 Gemini Advanced 閱服務,其實類似 ChatGPT Plus 的訂閱模式,畢竟在Gemini 模型中,Gemini Pro 對應的是 GPT-3.5,而 Gemini Ultra 對應的是 GPT-4,內建 Gemini Ultra 模型的 Gemini Advanced,自然就對應使用 GPT-4 的 ChatGPT Plus。
目前 ChatGPT Plus 也以 GPT Store 來擴充應用面,並積極跨足更多領域,而Gemini Advanced 因為擁有 Google 龐大的數據資源以及完整的生態系,在整合性上會更有優勢,只不過在去年 GhatGPT 爆炸性成長下,Google 在生成式 AI上確實是慢了些,現在更要再加速 Gemini 整合於旗下服務,才會讓用戶有感升級及改變。
以下也實際來體驗在 Bard 更名為 Gemini,並升級 Gemini Pro 模型下,所提供的圖像生成功能,以及長文分析、內容查證功能的實用性。
▲ Gemini 也推出 App 版本,不過目前只支援 Android 手機,且限定於美國及少數國家地區安裝,而於截稿前台灣還無法由 Google Play 下載。
▲ Gemini Advanced 內建 Gemini Ultra 模型,自然就對應使用 GPT-4 的 ChatGPT Plus,同樣都是付費版本,ChatGPT Plus 一個月 20 美元,換算台幣約 630 元。
長篇文章進行摘要及分析
Google Bard 還未更名為 Gemini 時,就已導入 Gemini Pro 模型,標榜可處理更多內容,並提升理解、總結、推理⋯等能力。這次實測將多篇長文貼上 Gemini進 行分析,最長有超過一萬字,大都能夠正常進行文章摘要分析或資料重整,摘要的內容也符合邏輯,甚至會自動製作表格,以利於比較及閱讀。另外,一次也會提供三種版本的草稿,不滿意可以按下「重新產生草稿」,再生成不一樣的內容。不過,有時候會突然變成繁簡中文回覆,也會出現答非所問的時候。
Gemini 下載網址: [https:]]
步驟 1:登入全新的 Gemini,也帶來新的介面,直接於下方下達指令給Gemini,並貼上要分析的長文,此例大約 5,000 字。
步驟 2:接著會進入新的頁面,並完成長文重點摘要,內容正確性蠻高的,但若不滿意也可以按下「顯示草稿」。
步驟 3:預設會提供三個版本的草稿,如果還是不滿意,可以按下後方的重整符號。
步驟 4:此例範例中, 有提供三款產品的文字介紹,Gemini 則自動整理成表格,更方便比較及閱讀,也可按下「匯出到試算表」,另存表格使用。
步驟 5:除了可以重複對話來修改內容外,在頁面的最下方還會有「修改這則回覆」的圖示,點選後可以從中選擇要修改的方向。
用文字或圖片進行 AI 圖像生成
由 Bard 改名為 Gemini 後,除了升級 Gemini Pro 模型外,也導入 Google 自行研發的新版 Imagen 2 模型,可以像 ChatGPT Plus 或微軟的 Copilot 一樣,直接在聊天視窗內生成高品質的圖片。且在新版的 Imagen 2 模型下,只需要用文字描述想要的圖片內容,Gemini 就可以依據文字描述生成相對應的圖片,除了生成圖片的效果更加逼真及精美外,以對話方式與 Gemini 互動,也提升操作的樂趣。
不過,目前此功能僅支援英文,但 Google 已宣布未來將推出更多語言的版本,而現階段如果以英文描述不夠順暢時,不妨也可以透過 Google 翻譯來輔助產生英文描述。此外,除了可用文字描述想生成的圖片內容及風格外,也可以上傳圖片範本讓 Gemini 參考,再下達生成相似圖片的指令。
而 Gemini 一次會生成 4 張圖片,若是對圖片不滿意,又或是想要生成出更多圖片,可以按下「生成更多內容」,則會再增加 2 張。至於 Gemini 生成的圖片大小為 1536 × 1536 解析度,應用一般需求使用不成問題,若想要更高畫質的圖片,不妨可另外再以 AI 放大圖片的工具來處理。
步驟 1:目前以中文下達指令,讓 Gemini生 成圖片時,會出現「我還不能建立影像,所以無法幫助您」的回覆。
步驟 2:將指令改為英文後,就會自動生成出四張圖片讓用戶挑選。
步驟 3:對圖片不滿意時,可以按下「生成更多內容」,會再提供 2 張,也可以繼續與 Gemini 對話,讓它重新生成圖片。
步驟 4:Gemini 會很快的依指令生成出新的圖片,由於是新的指令,所以會提供 4 張。
步驟 5:還是對圖片風格不滿意時,可以選擇上傳一張圖片,讓 Gemini 依此風格生成圖片。
步驟 6:接著 Gemini 就會依照圖片的風格及指令,重新再生成 4 張新的圖片。
步驟 7:在實測過程中,一來一回來的修改生成圖片,效果不會太好,不如重新整合指令,反而可以得到品質較好的圖片。
步驟 8:在這些 Gemini 生成的圖片中,若有滿意的版本,則可以直接點選。
步驟 9:接著選擇右上方的「下載原尺寸」,即可另存這張圖片。
步驟 10:下載的圖片為 .JPEG 檔,圖片比例為 1:1,解析度為 1536 ×1536,應用一般需求使用不成問題。
查證功能可檢驗 Gemini 的正確性
相信有用過 ChatGPT、Copilot,甚至是過去的 Google Bard,大都會遇到這類生成式 AI 聊天機器人,都在一派正經的胡言亂語,必須自行再三查證內容的真實性。而升級後的 Gemini 則加入「內容查證」功能,在 Gemini 回答後的下方,可見一個代表 Google 的「G」圖示,按下後即可透過 Google 搜尋來佐證回答或提出疑慮的網路資料,並以不同顏色標示查證結果。點選綠色的標示會提供查證的來源,點選橘色則表示 Google 搜尋找不到相關內容,建議用戶進一步查證,以評估內容的可信度。
步驟 1:此例先請 Gemini 提供日本岡山六天五夜的旅遊規劃,畫面瀏覽到最後時,按下代表 Google 的「G」圖示。
步驟 2:接著就會開始透過 Google 搜尋上述內容的正確性,並以不同顏色標示查證結果。
步驟 3:按下色塊後方的箭頭,會展開透過 Google 搜尋到的相似資料,這也代表綠色色塊的正確性較高。
步驟 4:此例再與 Gemini 繼續對話,故意引導出可能錯誤的資訊,再按下代表 Google的「G」圖示。
步驟 5:此時也出現橘色色塊標示,展開後顯示「Google 搜尋找不到相關內容,建議用戶進一步查證」。
本文同步刊載於 PC home 雜誌
歡迎加入 PC home 雜誌粉絲團!
加入T客邦Facebook粉絲團