2025/3/11 08:36

OpenAI 發(fā)布 CoT 思維鏈研究成果，監(jiān)控阻止大模型惡意行為

IT之家問舟

OpenAI 今日公布了其最新研究，試圖用 CoT（思維鏈）監(jiān)控的方式監(jiān)控推理模型的“想法”，從而阻止 AI 大模型胡說八道、隱藏真實意圖等行為，同時這也是監(jiān)督超級模型的有效工具之一。

IT之家注：AI 偶爾會胡說八道，我們一般稱其為 AI 幻覺。除此之外，AI 還會偷懶或故意耍壞，例如在問題太難時欺騙用戶或干脆放棄。

OpenAI 使用了最新發(fā)布的前沿模型 o3-mini 作為被監(jiān)控對象，并以較弱的 GPT-4o 模型作為監(jiān)控器。測試環(huán)境為編碼任務，要求 AI 在代碼庫中實現(xiàn)功能以通過單元測試。

結(jié)果顯示，CoT 監(jiān)控器在檢測系統(tǒng)性“獎勵黑客”行為時表現(xiàn)卓越，召回率高達 95%，遠超僅監(jiān)控行為的 60%。

給作者點贊

0 VS 0

寫得不太好

免責聲明：本文僅代表作者個人觀點，與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實，對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實相關(guān)內(nèi)容。

相關(guān)鏈接

測試

OpenAI 再掀 AI 浪潮：GPT-4.1 被曝下周登場，滿血版 o3 與 o4 mini 蓄勢待發(fā)
IT之家故淵4-11
繼 OpenAI 后，谷歌 Gemini 模型將支持 Anthropic 的 MCP 協(xié)議
IT之家遠洋4-10
OpenAI 啟動先鋒計劃，旨在重塑 AI 模型評分體系
IT之家遠洋4-10
加州多個團體聯(lián)名請愿，指控 OpenAI 營利性轉(zhuǎn)型違背初衷
IT之家清源4-10