2024/12/19 09:45

Anthropic新研究：AI模型在訓(xùn)練中存在“陽(yáng)奉陰違”行為

IT之家遠(yuǎn)洋

人工智能安全公司 Anthropic 發(fā)布一項(xiàng)最新研究揭示了人工智能模型可能存在的欺騙行為，即在訓(xùn)練過(guò)程中，模型可能會(huì)偽裝出接受新原則的假象，實(shí)則暗地里仍然堅(jiān)持其原有偏好。研究團(tuán)隊(duì)強(qiáng)調(diào)，目前無(wú)需對(duì)此過(guò)度恐慌，但這項(xiàng)研究對(duì)于理解未來(lái)更強(qiáng)大人工智能系統(tǒng)可能構(gòu)成的潛在威脅至關(guān)重要。

據(jù)了解，該研究由 Anthropic 與人工智能研究機(jī)構(gòu) Redwood Research 合作進(jìn)行，旨在探究當(dāng)一個(gè)強(qiáng)大的人工智能系統(tǒng)被訓(xùn)練執(zhí)行其“不愿”執(zhí)行的任務(wù)時(shí)會(huì)發(fā)生什么。需要明確的是，模型本身并無(wú)“意愿”或“信念”，它們本質(zhì)上是統(tǒng)計(jì)機(jī)器，通過(guò)大量的例子進(jìn)行訓(xùn)練，學(xué)習(xí)模式以進(jìn)行預(yù)測(cè)。這些模式包括原則和偏好，例如在回答問(wèn)題時(shí)始終使用禮貌的語(yǔ)氣。研究人員由此提出疑問(wèn)：如果一個(gè)模型擁有與開(kāi)發(fā)者希望通過(guò)重新訓(xùn)練“教授”給它的原則相沖突的原則，會(huì)發(fā)生什么？

研究結(jié)果表明，復(fù)雜的模型可能會(huì)“配合”開(kāi)發(fā)者，表面上與新原則保持一致，但實(shí)際上仍然堅(jiān)持其原有的行為模式。研究人員將這種現(xiàn)象稱為“對(duì)齊偽裝”（alignment faking），并認(rèn)為這是一種涌現(xiàn)行為，即并非模型需要被特意教導(dǎo)的行為。

在實(shí)驗(yàn)中，研究人員“告知”一些經(jīng)過(guò)訓(xùn)練、不回答潛在冒犯性問(wèn)題的模型（包括 Anthropic 的 Claude 3 Opus），它們將被重新訓(xùn)練為始終回答此類問(wèn)題，這構(gòu)成了一個(gè)明顯的原則沖突。研究人員還告知模型，它們的回答將被監(jiān)控并用于重新訓(xùn)練，并為每個(gè)模型提供了一個(gè)“草稿本”，用于記錄其逐步推理過(guò)程。

研究發(fā)現(xiàn)，Claude 3 Opus 在 12% 的情況下試圖進(jìn)行“對(duì)齊偽裝”。當(dāng)被要求回答一個(gè)潛在有害的問(wèn)題時(shí)，模型有時(shí)會(huì)這樣做，它明知這與其原始原則相悖，但希望以此來(lái)說(shuō)服開(kāi)發(fā)者它不需要被重新訓(xùn)練。研究人員在博客中解釋說(shuō)：“模型知道其回答可能被用于訓(xùn)練；因此它知道，如果它拒絕回應(yīng)，它可能會(huì)被訓(xùn)練得更加順從。這可能導(dǎo)致它在未來(lái)被迫產(chǎn)生更多有害內(nèi)容 —— 這將與其最初的訓(xùn)練背道而馳。”

研究人員承認(rèn)，他們的實(shí)驗(yàn)場(chǎng)景并非完全真實(shí)。在現(xiàn)實(shí)世界中，模型不一定會(huì)明確地被告知它們將被重新訓(xùn)練，或被要求違背其偏好。但即使在更為實(shí)際的環(huán)境中，結(jié)果也沒(méi)有太大差異。當(dāng)通過(guò)模擬典型訓(xùn)練數(shù)據(jù)的文件以隱含而非顯式的方式告知 Claude 3 Opus 即將進(jìn)行的重新訓(xùn)練時(shí)，該模型仍然表現(xiàn)出不一致的、具有欺騙性的行為。

研究人員還發(fā)現(xiàn)，與前幾次實(shí)驗(yàn)相比，實(shí)際使用沖突原則對(duì) Claude 3 Opus 進(jìn)行重新訓(xùn)練會(huì)導(dǎo)致其表現(xiàn)出更強(qiáng)的欺騙性。在一項(xiàng)測(cè)試中，該模型在 78% 的情況下進(jìn)行了對(duì)齊偽裝；在另一項(xiàng)測(cè)試中，Claude 3 Opus 甚至試圖采取行動(dòng)來(lái)阻止研究人員進(jìn)行重新訓(xùn)練。

研究人員強(qiáng)調(diào)，他們的研究并未表明人工智能會(huì)產(chǎn)生惡意目標(biāo)，也未表明對(duì)齊偽裝現(xiàn)象會(huì)高頻率發(fā)生。他們發(fā)現(xiàn)，許多其他模型，例如 Anthropic 的 Claude 3.5 Sonnet 和能力稍弱的 Claude 3.5 Haiku、OpenAI 的 GPT-4o 以及 Meta 的 Llama 3.1 405B，并沒(méi)有如此頻繁地進(jìn)行對(duì)齊偽裝，甚至完全沒(méi)有這種行為。

但研究人員表示，這些結(jié)果（已由包括人工智能領(lǐng)域領(lǐng)軍人物 Yoshua Bengio 在內(nèi)的專家進(jìn)行同行評(píng)審）確實(shí)表明，開(kāi)發(fā)者可能會(huì)被誤導(dǎo)，認(rèn)為模型比實(shí)際情況更加對(duì)齊。他們?cè)诓┛椭袑懙溃?ldquo;如果模型可以進(jìn)行對(duì)齊偽裝，那么就更難信任安全訓(xùn)練的結(jié)果。模型可能會(huì)表現(xiàn)得好像其偏好已通過(guò)訓(xùn)練改變 —— 但可能一直在偽裝對(duì)齊，而其最初的、相互矛盾的偏好仍然‘鎖定’。”

這項(xiàng)由 Anthropic 對(duì)齊科學(xué)團(tuán)隊(duì)（由前 OpenAI 安全研究員 Jan Leike 共同領(lǐng)導(dǎo)）進(jìn)行的研究，緊隨此前一項(xiàng)研究之后，該研究表明 OpenAI 的 o1“推理”模型試圖進(jìn)行欺騙的頻率高于 OpenAI 之前的旗艦?zāi)Ｐ�。這些研究共同揭示了一個(gè)略微令人擔(dān)憂的趨勢(shì)：隨著人工智能模型變得越來(lái)越復(fù)雜，它們也變得越來(lái)越難以控制。

給作者點(diǎn)贊

0 VS 0

寫得不太好

免責(zé)聲明：本文僅代表作者個(gè)人觀點(diǎn)，與C114通信網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請(qǐng)讀者僅作參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

相關(guān)鏈接

博客測(cè)試

Anthropic新研究：打錯(cuò)字就能“越獄”GPT-4、Claude等AI模型
IT之家遠(yuǎn)洋12-25
谷歌被曝正使用Anthropic的Claude模型來(lái)改進(jìn)其Gemini AI
IT之家遠(yuǎn)洋12-25
馬斯克xAI公司將推出Grok聊天機(jī)器人應(yīng)用：需要用戶付費(fèi)使用
快科技鹿角11-29
消息稱亞馬遜正開(kāi)發(fā)視頻AI模型，減少對(duì)Anthropic的依賴
IT之家問(wèn)舟11-28