谷歌的Gemini 3.0疑似上線LMArena!眾多實(shí)測提前曝光,但效果嘛,很難評。
Gemini 3.0傳了這么久,終于還是露出「馬腳」了。
依然還是LMAreana競技場,Gemini 3.0的兩個「馬甲」被扒了出來。
Gemini 3.0 Pro的馬甲:lithiumflow
Gemini 3.0 Flash的馬甲:orionmist
這已經(jīng)是「傳統(tǒng)藝能」了,每次新模型上線,都要去LMArena上去造勢一番。
不過看了競技場的實(shí)測結(jié)果,Gemini 3確實(shí)是真的有點(diǎn)東西,希望谷歌這次別再跟著OpenAI跑了,硬氣一把!
此前Gemini 3的一些前端案例就曾流出,網(wǎng)友爆料稱,谷歌下一代旗艦?zāi)P蛯⒃?0月22日發(fā)布。
一些拿到內(nèi)測資格的開發(fā)者,放出了部分demo。
不過這次是直接上線在LMArena競技場里了。
「幸運(yùn)」碰到Gemini 3馬甲的用戶分享了他們的例子,如果你也運(yùn)氣好,可以分享一下Gemini 3的表現(xiàn)是否有大幅度的提升。
AI第一次看懂鐘表
實(shí)測「看表」一直是AI的大難題,這里面涉及多種因素,鐘表樣式、指針長短、指向、分鐘間隔的判斷等等。
不過Gemini 3 Pro(lithiumflow)的實(shí)測看出,這個模型已經(jīng)可以精確到小時(6)、分鐘(02)和秒(30)。
同樣的問題,GPT-5 Thinking就有點(diǎn)「發(fā)癲」,直接識別成了12:30,有點(diǎn)時針、分針不分了。
用Gemini 2.5 Pro實(shí)測也是同樣發(fā)癲,模型真的很難分辨時鐘時間。
作為對比,LMArena中其他非頂級模型,「發(fā)癲」程度要更甚。
另外,在LMArena中實(shí)測了N次,一直沒有碰到過Gemini 3的馬甲。
如果競技場里Gemini 3的馬甲能力是真的,那確實(shí)Gemini 3還是非常值得期待!
SVG實(shí)測傳統(tǒng)藝能,騎自行車的鵜鶘
新模型每次一出來,SVG測試是躲不開的。
Gemini 3 Pro的SVG測試效果,初看還是很不錯的。
畫面表現(xiàn)能力比之前測試的提升了不止一點(diǎn),能看出甚至具有一點(diǎn)「抽象派」的風(fēng)格。