據 TechCrunch 獲得的內部通信內容顯示,參與改進谷歌 Gemini 人工智能模型的承包商正在將其答案與 Anthropic 的競品模型 Claude 的輸出進行比較。此舉引發(fā)了谷歌是否獲得 Anthropic 授權使用 Claude 進行測試的合規(guī)性質疑。
在科技公司競相開發(fā)更優(yōu)秀 AI 模型的當下,模型性能的評估通常通過行業(yè)基準測試進行,而非由承包商耗費大量精力評估競爭對手的 AI 回復。然而,Gemini 的承包商需要根據多個標準(例如真實性和冗長性)對看到的每個回復進行評分。根據 TechCrunch 獲得的通信內容,承包商最多有 30 分鐘的時間來判斷 Gemini 或 Claude 的答案哪個更好。
內部聊天記錄顯示,承包商注意到 Claude 的回復似乎比 Gemini 更強調安全性。一位承包商寫道:“在所有 AI 模型中,Claude 的安全設置是最嚴格的。”在某些情況下,Claude 不會回應其認為不安全的提示詞(prompt),例如扮演不同的 AI 助手。在另一次測試中,Claude 避免回答某個提示詞,而 Gemini 的回復則因包含“裸體和束縛”而被標記為“嚴重的安全違規(guī)”。
Anthropic 的商業(yè)服務條款禁止客戶未經 Anthropic 批準訪問 Claude“以構建競爭產品或服務”或“訓練競爭 AI 模型”。谷歌是 Anthropic 的主要投資者。
對此,谷歌 DeepMind(負責 Gemini)發(fā)言人 McNamara 表示,DeepMind 確實會“比較模型輸出”以進行評估,但并未在 Anthropic 模型上訓練 Gemini。“當然,按照行業(yè)慣例,在某些情況下,我們會比較模型輸出作為評估過程的一部分,”McNamara 說,“然而,任何關于我們使用 Anthropic 模型訓練 Gemini 的說法都是不準確的。”