OpenAI 員工指責 xAI 的 Grok3 基準測試結果具有誤導性

Bitget消息,據 ChainCatcher 報道,OpenAI 的一名員工指責 xAI 公司發布的 Grok3 基準測試結果具有誤導性。xAI 聯合創始人伊戈爾?巴布什金堅稱公司并無不當。
xAI 的圖表顯示,Grok3 的兩個版本在 AIME 2025 上的表現超過了 OpenAI 的 o3-mini-high。然而,OpenAI 員工指出,圖表未包含 o3-mini-high 在“cons@64”條件下的得分。
巴布什金辯稱,OpenAI 過去也曾發布過類似的基準測試圖表,用于比較其自身模型的表現。
