C114通信網(wǎng)  |  通信人家園

人工智能
2024/12/25 14:43

“深思熟慮”的 AI:OpenAI 提出全新安全對齊方法

IT之家  故淵

OpenAI 的研究人員提出了一種名為“深思熟慮的對齊”(Deliberative Alignment)的新方法,以提升 AI 模型安全性,并已在 o 系列模型中取得顯著成效。

項目背景

如何確保大語言模型(LLMs)遵守明確的道德和安全準則,目前存在諸多挑戰(zhàn)。監(jiān)督微調(diào)(SFT)和來自人類反饋的強化學習(RLHF)等現(xiàn)有對齊技術都存在局限性,有被操縱的風險,可能會產(chǎn)生有害內(nèi)容、拒絕合法請求或難以處理不熟悉的場景等問題。

這些問題通常源于當前安全培訓的弊端,也就是模型從數(shù)據(jù)間接推斷標準,而非明確地學習,通常缺乏考慮復雜提示的能力,從而限制了它們在微妙或?qū)剐郧闆r下的有效性。

深思熟慮的對齊(Deliberative Alignment)

注:該方法直接教授模型安全規(guī)范,并訓練它們在生成響應之前推理這些準則進,將安全原則融入推理過程中。

整個過程分為兩個階段,第一階段,監(jiān)督微調(diào)(SFT)訓練模型參考并推理安全規(guī)范,使用從基礎模型生成的數(shù)據(jù)集。第二階段,強化學習(RL)使用獎勵模型,根據(jù)安全基準評估性能,進一步完善模型的推理。

不同于依賴人工標注數(shù)據(jù)的方法,“深思熟慮的對齊”使用模型生成的數(shù)據(jù)和思維鏈(CoT)推理,降低了安全訓練的資源需求。

OpenAI 的 o1 模型已部署該技術,在抵抗越獄提示方面表現(xiàn)出色,在 StrongREJECT 基準測試中得分為 0.88,顯著高于 GPT-4o 的 0.37;此外該技術還可以減少誤拒,在 XSTest 數(shù)據(jù)集的良性提示中,o1 模型的準確率高達 93%。

“深思熟慮的對齊”通過訓練模型明確推理安全策略,它為復雜的倫理挑戰(zhàn)提供了可擴展且可解釋的解決方案。

給作者點贊
0 VS 0
寫得不太好

免責聲明:本文僅代表作者個人觀點,與C114通信網(wǎng)無關。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內(nèi)容。

熱門文章
    最新視頻
    為您推薦

      C114簡介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機版

      Copyright©1999-2024 c114 All Rights Reserved | 滬ICP備12002291號

      C114 通信網(wǎng) 版權所有 舉報電話:021-54451141