北京時間2月18日,馬斯克與x人工智慧組在現場直播中正式刊登了Grok最新版次Grok3。早在本次刊登會之前,依靠著種種相關的拋出,加上馬斯克本人247不間斷的預熱炒作,讓全球對Grok3的期待值被拉到了空前的程度。
在一周前,馬斯克在現場直播中評論DeepSeek R1時,還信心滿滿地表示「x人工智慧即將推出更卓越的人工智慧模型」。
從現場表現的資料來 看,Grok3在數學、科學與編程的標準檢測上已經超越了現階段所有的主流模型,馬斯克甚至宣稱Grok 3將來將用于SpaceX火星任務計算,并預測「三年內將實現諾貝爾獎級別突破」。 但這些現階段都只是馬斯克的一家之言。
筆者在刊登后,就檢測了最全新的Beta版Grok3,并指出了那個傳統的用來刁難大模型的難題:「911與99哪個大?」遺憾的是,在不加任何定語以及標注的狀況下,號稱現階段最聰明的Grok3,仍然無法正確回答這個難題 。
在這個檢測發出之后,非常短的時間內迅速引發了不少朋友的關注,無獨有偶,在海外也有大量相似難題的檢測,比方說「比薩斜塔上兩個球哪個先落下」這些基石物理數學難題,Grok3也被發現仍然無法應對。所以被戲稱為「天才不愿意回答簡潔難題」。
除了網友自發檢測的這些基石知識上Grok3出現了翻車,在x人工智慧刊登會現場直播中,馬斯克演示利用Grok3來研究他號稱經常玩的Path of Exile 2 對應的職業與升華效果,但事實上Grok3給出的對應答案絕大局部都是錯誤的。現場直播中的馬斯克并沒有看出這個顯著的難題。
這 一事件迅速引發了社會各界的普遍關注和討論。Grok3的翻車并非偶然。從刊登會現場及后續實測來看,該模型在數學、科學與編程等標準檢測上雖然展示出色,但在解決常識性難題時卻顯得力不從心。這不只讓人質疑其人類級推理能力」的準確性,更暴露出當前人工智慧技術在常識判斷上的巨大缺陷。
馬斯克在刊登會上曾信心滿滿地表示,Grok3將來將用于SpaceX火星任務計算,并預測三年內將實現諾貝爾獎級別突破」。但是,連容易的數字大小判斷都出錯,這樣的人工智慧如何能讓人放心地將其應用于復雜的航天計算任務中? 從技術層面研究,Grok3的翻車首要源于其練習資料和算法設計。
Grok-3在數學、科學與編程的標準檢測上已經超越了現階段所有的主流模型,但常識依舊非常難。x人工智慧透露,Grok-3的研發得益于用8個月時間建成的Colossus超級計算機,它由10萬個英偉達的H100 GPU驅動,為練習供給了2億個GPU小時。
此外,x人工智慧宣布推出名為Deepsearch的Grok-3智能搜索發動機。 這一事件再次提醒我們,盡管人工智慧技術在某些範圍取得了大幅進展,但在常識判斷和人類級推理能力方面,仍存在顯著的不足。將來,人工智慧技術的演變還必須在更多範圍執行深入探索和改善,以實現更全面和智能的人工智慧應用。
