OpenAI 公司今天(4 月 16 日)發(fā)布博文,宣布為更好追蹤和應(yīng)對(duì)前沿 AI 能力可能帶來(lái)的嚴(yán)重危害風(fēng)險(xiǎn),發(fā)布新版《準(zhǔn)備框架》(Preparedness Framework)。
IT之家注:《準(zhǔn)備框架》是 OpenAI 在開(kāi)發(fā)和部署環(huán)節(jié),用于評(píng)估 AI 模型安全性的內(nèi)部系統(tǒng)。
新框架通過(guò)更聚焦的方式,識(shí)別并緩解具體風(fēng)險(xiǎn),同時(shí)強(qiáng)化風(fēng)險(xiǎn)最小化的要求,為組織如何評(píng)估、治理和披露安全措施提供明確指引。OpenAI 還承諾,隨著技術(shù)進(jìn)步,將投入更多資源,確保準(zhǔn)備工作更具行動(dòng)力、嚴(yán)謹(jǐn)性和透明度。
新框架為高風(fēng)險(xiǎn)能力設(shè)定了清晰的優(yōu)先級(jí)標(biāo)準(zhǔn),通過(guò)結(jié)構(gòu)化的風(fēng)險(xiǎn)評(píng)估流程,判斷某項(xiàng)前沿能力是否可能導(dǎo)致嚴(yán)重危害。每項(xiàng)能力根據(jù)定義標(biāo)準(zhǔn)被歸類,并追蹤符合五項(xiàng)關(guān)鍵標(biāo)準(zhǔn)的能力。
此外,框架引入了更細(xì)化的能力分類,包括追蹤類別(Tracked Categories)、網(wǎng)絡(luò)安全能力(Cybersecurity capabilities)和 AI 自我改進(jìn)能力(AI Self-improvement capabilities)等。
OpenAI 認(rèn)為,這些領(lǐng)域?qū)?lái) AI 在科學(xué)、工程和研究中最具變革性的益處。同時(shí),新增的研究類別(Research Categories)涵蓋可能造成嚴(yán)重危害但尚未達(dá)到追蹤標(biāo)準(zhǔn)的領(lǐng)域,如長(zhǎng)距離自主性(Long-range Autonomy)、故意低表現(xiàn)(Sandbagging)和自主復(fù)制與適應(yīng)(Autonomous Replication and Adaptation)等。
框架進(jìn)一步明確了能力等級(jí),簡(jiǎn)化為“高能力”(High capability)和“關(guān)鍵能力”(Critical capability)兩個(gè)門檻。無(wú)論哪一等級(jí),在開(kāi)發(fā)和部署前均需采取足夠的安全措施,以降低嚴(yán)重危害風(fēng)險(xiǎn)。
OpenAI 內(nèi)部的安全顧問(wèn)小組(Safety Advisory Group)負(fù)責(zé)審查這些措施,并向領(lǐng)導(dǎo)層提出建議。此外,框架引入了可擴(kuò)展的評(píng)估機(jī)制,支持更頻繁的測(cè)試,并通過(guò)詳細(xì)的 Safeguards Reports 報(bào)告安全措施的設(shè)計(jì)強(qiáng)度和驗(yàn)證效果。若其他 AI 開(kāi)發(fā)者發(fā)布缺乏同等安全措施的高風(fēng)險(xiǎn)系統(tǒng),OpenAI 可能調(diào)整自身要求,但會(huì)先確認(rèn)風(fēng)險(xiǎn)形勢(shì)變化,公開(kāi)承認(rèn)調(diào)整,確保不增加整體風(fēng)險(xiǎn)。