2025/4/16 09:25

OpenAI 更新《準(zhǔn)備框架》：聚焦識(shí)別和緩解具體風(fēng)險(xiǎn)、細(xì)化能力分類，更好應(yīng)對(duì) AI 安全挑戰(zhàn)

IT之家故淵

OpenAI 公司今天（4 月 16 日）發(fā)布博文，宣布為更好追蹤和應(yīng)對(duì)前沿 AI 能力可能帶來(lái)的嚴(yán)重危害風(fēng)險(xiǎn)，發(fā)布新版《準(zhǔn)備框架》（Preparedness Framework）。

IT之家注：《準(zhǔn)備框架》是 OpenAI 在開(kāi)發(fā)和部署環(huán)節(jié)，用于評(píng)估 AI 模型安全性的內(nèi)部系統(tǒng)。

新框架通過(guò)更聚焦的方式，識(shí)別并緩解具體風(fēng)險(xiǎn)，同時(shí)強(qiáng)化風(fēng)險(xiǎn)最小化的要求，為組織如何評(píng)估、治理和披露安全措施提供明確指引。OpenAI 還承諾，隨著技術(shù)進(jìn)步，將投入更多資源，確保準(zhǔn)備工作更具行動(dòng)力、嚴(yán)謹(jǐn)性和透明度。

新框架為高風(fēng)險(xiǎn)能力設(shè)定了清晰的優(yōu)先級(jí)標(biāo)準(zhǔn)，通過(guò)結(jié)構(gòu)化的風(fēng)險(xiǎn)評(píng)估流程，判斷某項(xiàng)前沿能力是否可能導(dǎo)致嚴(yán)重危害。每項(xiàng)能力根據(jù)定義標(biāo)準(zhǔn)被歸類，并追蹤符合五項(xiàng)關(guān)鍵標(biāo)準(zhǔn)的能力。

此外，框架引入了更細(xì)化的能力分類，包括追蹤類別（Tracked Categories）、網(wǎng)絡(luò)安全能力（Cybersecurity capabilities）和 AI 自我改進(jìn)能力（AI Self-improvement capabilities）等。

OpenAI 認(rèn)為，這些領(lǐng)域?qū)?lái) AI 在科學(xué)、工程和研究中最具變革性的益處。同時(shí)，新增的研究類別（Research Categories）涵蓋可能造成嚴(yán)重危害但尚未達(dá)到追蹤標(biāo)準(zhǔn)的領(lǐng)域，如長(zhǎng)距離自主性（Long-range Autonomy）、故意低表現(xiàn)（Sandbagging）和自主復(fù)制與適應(yīng)（Autonomous Replication and Adaptation）等。

框架進(jìn)一步明確了能力等級(jí)，簡(jiǎn)化為“高能力”（High capability）和“關(guān)鍵能力”（Critical capability）兩個(gè)門檻。無(wú)論哪一等級(jí)，在開(kāi)發(fā)和部署前均需采取足夠的安全措施，以降低嚴(yán)重危害風(fēng)險(xiǎn)。

OpenAI 內(nèi)部的安全顧問(wèn)小組（Safety Advisory Group）負(fù)責(zé)審查這些措施，并向領(lǐng)導(dǎo)層提出建議。此外，框架引入了可擴(kuò)展的評(píng)估機(jī)制，支持更頻繁的測(cè)試，并通過(guò)詳細(xì)的 Safeguards Reports 報(bào)告安全措施的設(shè)計(jì)強(qiáng)度和驗(yàn)證效果。若其他 AI 開(kāi)發(fā)者發(fā)布缺乏同等安全措施的高風(fēng)險(xiǎn)系統(tǒng)，OpenAI 可能調(diào)整自身要求，但會(huì)先確認(rèn)風(fēng)險(xiǎn)形勢(shì)變化，公開(kāi)承認(rèn)調(diào)整，確保不增加整體風(fēng)險(xiǎn)。

給作者點(diǎn)贊

0 VS 0

寫得不太好

免責(zé)聲明：本文僅代表作者個(gè)人觀點(diǎn)，與C114通信網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請(qǐng)讀者僅作參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

相關(guān)鏈接

網(wǎng)絡(luò)安全 Autonomy 測(cè)試

OpenAI ChatGPT 上線圖庫(kù)功能，更輕松管理 AI 生成圖片
IT之家故淵09:26
挑戰(zhàn)馬斯克的 X：OpenAI 被曝正研發(fā) ChatGPT 社交平臺(tái)，AI 驅(qū)動(dòng)內(nèi)容分享
IT之家故淵09:25
直面 OpenAI，Anthropic 正籌備“最快本月”推出語(yǔ)音交互功能
IT之家清源09:06
OpenAI 收購(gòu) Context.ai 團(tuán)隊(duì)，AI 評(píng)估能力再升級(jí)
IT之家故淵09:01

OpenAI 更新《準(zhǔn)備框架》：聚焦識(shí)別和緩解具體風(fēng)險(xiǎn)、細(xì)化能力分類，更好應(yīng)對(duì) AI 安全挑戰(zhàn)

OpenAI 更新《準(zhǔn)備框架》：聚焦識(shí)別和緩解具體風(fēng)險(xiǎn)、細(xì)化能力分類，更好應(yīng)對(duì) AI 安全挑戰(zhàn)