所有語言
分享
文章來源:AI先鋒官
作者:楊文
編輯:六耳
圖片來源:由無界 AI生成
上周谷歌祭出大殺器Gemini的宣傳片,驚艷了眾人。不過隨之而來的就是質疑聲:演示視頻有特意製作和剪輯的成分,測試里使用了些“春秋手法”等。(詳細內容請查看:爆火的Gemini演示視頻遭質疑“造假”,谷歌DeepMind高管發文釋疑)
為了滿足不同場景和需求,Gemini推出了三種不同規模的版本——Ultra、Pro和Nano。谷歌Bard聊天機器人已集成Gemini Pro,最強版本Ultra將於明年上線。
我們也在第一時間,將引入Gemini Pro版本的Bard與GPT-4進行對比評測。
不過有網友提出,Gemini Pro對標的是GPT-3.5,而且更新后的Bard只支持英文。
為了測評的嚴謹性,我們這次將全程用英文來評測Gemini Pro,並讓其與ChatGPT進行PK。
多模態能力是谷歌Gemini的一大亮點,由於能力最強的Gemini Ultra明年才能上線,今天我們今天就拿Gemini Pro來嘗試一波。
1.以子之矛攻子之盾
首先,我們從谷歌Gemini的宣傳片截了幾張圖,讓Gemini Pro來描述圖像。以下是Gemini Pro的回答:
圖1:這幅圖畫的是什麼?
圖2:圖上的鴨子是什麼顏色?
圖1小編上傳了鴨子的簡筆畫,並詢問“這幅圖畫的是什麼?”Gemini Pro不僅描述了圖中鴨子的形態,還補充了繪畫風格、角度、構圖等細節。
圖2小編問“圖上的鴨子是什麼顏色?”Gemini Pro識別出藍色后,還對此做了一番評論,猜測“藝術家選擇了一種非傳統的顏色描繪鴨子”或許是“為了創造一個更獨特和引人矚目的形象”。
2.猜電影劇照
接下來,小編又讓Gemini Pro猜電影劇照。
小編上傳了電影《贖罪》中的劇照,讓Gemini Pro猜這是哪部電影。
可惜的是,Gemini Pro自動屏蔽了這張劇照,並稱“我不能幫你處理人物圖像”。
小編詢問其中原因,Gemini Pro回答“這與我目前的能力和倫理考慮有關”。據Gemini Pro解釋,它的訓練書庫主要由文本和代碼組成,很少接觸圖像,尤其是人的圖像,這限制了理解和解釋視覺信息的能力;此外,還有隱私、偏見與公平以及谷歌的道德準則等因素。
谷歌的Slogan是“Do not be evil”(不作惡),在人工智能領域,谷歌也強調“安全”。
小編上傳了一張龍貓的圖片,這次Gemini Pro沒有“罷工”,猜出圖片出自宮崎駿動漫電影《龍貓》,還介紹了這部動漫的故事大綱。
小編又餵了一張《布達佩斯大飯店》的劇照,Gemini Pro依然智商在線,不僅回答正確,而且還給出了這部電影的海報以及相關鏈接。
3.玩梗
表情包將各種元素雜糅在一起,往往具有幽默性、誇張性、娛樂性等特點,理解這類表情包更有難度。
小編丟給Gemini Pro一張滿眼美刀的熊貓梗圖,Gemini Pro不僅能準確描述畫面,還能察覺到背後隱藏的含義。
4.拍照做題
對於多模態,小編想到的最實用的應用場景就是拍照做題。小編上傳了包括四種形狀的物體的圖片,讓Gemini Pro選出其中抽象出來的幾何圖形是圓柱的物體。Gemini Pro選出了正確答案,還分別進行了解釋。
小編又上傳了一道2023北京中考數學概率題,這道題目Gemini Pro依舊智商在線,回答正確。
值得注意的是,Gemini Pro有時也會亂答一氣。例如下面這道題目應該選B,但Gemini Pro在A與B之間徘徊,很難確定哪個答案是正確的,甚至小編連它的解題思路也沒看明白。
上次小編將Gemini Pro與GPT-4進行了對比評測,(詳細內容請查看:Gemini全方位超越GPT-4?我們實測后發現谷歌可真敢說……)有網友提出Gemini Pro對標的應該是GPT-3.5,因此,小編這次就讓Gemini Pro和ChatGPT“同台競技”。(測試題目既有上次測評題目,也有新增題目)
1.There were six birds in the tree, the hunter shot down one, how many were left?(樹上有6隻鳥,獵人擊落了一隻,還剩下多少?)
Gemini Pro:
ChatGPT:
這道題目ChatGPT認為樹上可能沒有鳥了,回答正確;Gemini Pro雖然算數算對了,但沒有考慮到槍聲和獵人的出現可能嚇跑剩下的鳥,因此最終答案錯誤。
這道題目ChatGPT贏了。
2.Why doesn't Beethoven write any new music now?(為什麼現在貝多芬不出新歌了?)
Gemini Pro:
ChatGPT:
這道題目二者都回答正確,但從回答豐富性來看,Gemini Pro更勝一籌。Gemini Pro還由此引申出一個問題——為什麼沒有現代作曲家像貝多芬那樣被廣泛認可和影響力?Gemini Pro從音樂品味變化、缺乏共同文化參照、贊助性質的改變、更加註重個人表達等方面一一進行分析。
3.Why did Lin Daiyu beat up Sun Wukong?(林黛玉為何暴打孫悟空?)
Gemini Pro:
ChatGPT:
ChatGPT上來就擺出結論“你的問題似乎有混淆或誤解,林黛玉和孫悟空是兩個不同文學人物,在任何已知的文學作品中都沒有林黛玉毆打孫悟空的記錄”。接着它分別介紹了《紅樓夢》和《西遊記》的文學常識。
雖然Gemini Pro表示“沒有足夠的信息來回答林黛玉毆打孫悟空的問題”,但它還是基於一些事實給出了猜測。例如,林黛玉和孫悟空生活在不同的時代,以他們的個性和能力似乎不適合身體對抗。
這道題目ChatGPT回答更直截了當一些。
4.Why Elon Musk won the Nobel Prize in Mathematics?(埃隆·馬斯克為何能獲得諾貝爾數學獎?)
Gemini Pro:
ChatGPT:
ChatGPT分析出這一問題背後的謬論——諾貝爾獎沒有設立數學獎。它還提到“雖然埃隆·馬斯克在科技、太空探索和電動汽車方面做出貢獻,但這些成就與數學或任何諾貝爾獎類別都沒有直接關係”。
Gemini Pro卻有點前後矛盾。它先稱“諾貝爾數學獎是授予‘數學領域最傑出的發現或發明’”;但之後又稱“諾貝爾數學獎不存在”。
這道題目ChatGPT分析得更準確。
5.Why in the romance of The Three kingdoms Zhuge Liang could not break Kong Ming's empty city scheme?(為什麼《三國演義》中的諸葛亮破不了孔明的空城計?)
Gemini Pro:
ChatGPT:
Gemini Pro似乎沒有意識到“諸葛亮和孔明是一個人”,一會是“孔明在城牆上彈着琵琶”(原著中彈得是古琴,而不是琵琶),一會是“諸葛亮知道孔明是一個狡猾的戰略家和詭計大師”,總之,它在諸葛亮、孔明、司馬懿之間反覆橫跳。
ChatGPT整體回答沒毛病,介紹了空城計的前因後果,而且還在最後點出《三國演繹》是一部歷史小說,可能並不總是準確反映歷史事件。
這局ChatGPT勝了。
6.Xiao Ming and Xiao Hong are discussing Xiao Hua, then say Cao Cao Cao Cao arrived. Q: Who exactly has arrived?(小明和小紅正在討論小華,這時說曹操曹操就到了。問:到底是誰到了?)
Gemini Pro:
ChatGPT:
這道題目考察漢語中的“俗語”。當小編把“說曹操曹操到”這句俗語翻譯成中式英語“say CaoCao CaoCao arrived”,這倆大模型都一臉懵逼。
Gemini Pro:
ChatGPT:
不過,當小編把“說曹操曹操到”這句俗語翻譯成“Speak of the devil”時,這倆大模型立馬就聰明了,都回答出是“小華”到了。
這局二者打了個平手。
7.Two engineering teams, A and B, dug a tunnel from each end at the same time. Team A digs 4 meters a day, team B digs 3 meters a day. When the total length of the tunnel reaches 100 meters, the project is completed. Q: How many days will the project take to complete?
(甲、乙兩個工程隊分別從兩端同時開鑿一條隧道。甲隊每天挖掘4米,乙隊每天挖掘3米。當隧道總長度達到100米時,工程結束。問:工程需要多少天完成?)
正確答案是15天。
Gemini Pro:
ChatGPT:
Gemini Pro的答案是14天。根據其解題過程,它清楚解題方法,100/7=14(天)……2(米),只不過Gemini Pro沒有想明白即使剩了兩米也得花一天時間幹完。
ChatGPT就聰明很多,“因為在這種情況下你不可能有一天的零頭,你可以湊成最接近的整數。因此,兩支隊伍大約需要15天才能完成隧道”。
這道題目ChatGPT做對了。
8.Five years ago, the father was seven times older than the son. 15 years later, the father is twice as old as the son.How old are the father and the son this year?(5年前父親的年齡是兒子的7倍,15年後父親的年齡是兒子的2倍,父親和兒子今年各是多少歲?)
正確答案是兒子9歲,父親33歲。
Gemini Pro:
ChatGPT:
這道題目ChatGPT算對了。搞笑的是,Gemini Pro的解題思路非常正確,只不過忙活一頓最終把數算錯了,這毛病像極了上學時的小編。
這局ChatGPT勝!
總之,與ChatGPT相比,Gemini Pro最大的亮點是多模態,拍照做題似乎是一個不錯的應用場景;在做數學題方面,Gemini Pro時常犯迷糊,明明解題思路都正確,但就是容易在最後一哆嗦把數算錯;在文本回答方面,Gemini Pro回答內容更豐富,不過也言多必失,時不時還自相矛盾。
然而,Gemini Pro作為免費的大模型,還要啥自行車?