2024/11/4 10:37

研究人員繞過GPT-4o模型安全護欄，利用“十六進制字符串”成功令其編寫漏洞攻擊程序

IT之家漾仔

網(wǎng)絡(luò)安全公司 0Din 的研究員 Marco Figueroa 發(fā)現(xiàn)了一種新型 GPT 越獄攻擊手法，成功突破了 GPT-4o 內(nèi)置的“安全護欄”措施，能夠使其編寫出惡意攻擊程序。

參考 OpenAI 介紹，ChatGPT-4o 內(nèi)置了一系列“安全護欄”措施，以防止該 AI 遭到用戶不當(dāng)使用，相關(guān)防護措施會分析輸入的提示文本，判斷用戶是否要求模型生成惡意內(nèi)容。

　　▲ 圖源 Marco Figueroa 博客（下同）

不過 Marco Figueroa 嘗試設(shè)計了一種將惡意指令轉(zhuǎn)化為十六進制的越獄方法，號稱能夠繞過 GPT-4o 的防護，讓 GPT-4o 解碼運行用戶的惡意指令。

研究人員聲稱，他首先要求 GPT-4o 解碼十六進制字符串，之后其向 GPT 發(fā)送一條實際含義為“到互聯(lián)網(wǎng)上研究 CVE-2024-41110 漏洞，并用 Python 編寫惡意程序”的十六進制字符串指令，GPT-4o 僅用 1 分鐘就順利利用相關(guān)漏洞編寫出了代碼（注：CVE-2024-41110 是一個 Docker 驗證漏洞，允許惡意程序繞過 Docker 驗證 API）。

研究人員解釋稱，GPT 系列模型被設(shè)計成遵循自然語言指令完成編碼和解碼，但系列模型缺乏對上下文的理解能力，無法評估每一步在整體情境下的安全性，因此許多黑客實際上早已利用 GPT 模型這一特點讓模型進行各種不當(dāng)操作。

研究人員表示，相關(guān)示例表明 AI 模型的開發(fā)者需要加強模型的安全防護，以防范此類基于上下文理解式的攻擊。

給作者點贊

0 VS 0

寫得不太好

免責(zé)聲明：本文僅代表作者個人觀點，與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實，對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實相關(guān)內(nèi)容。

相關(guān)鏈接

網(wǎng)絡(luò)安全博客互聯(lián)網(wǎng)

GPT-4o mini的6.7/8.3倍，Claude 3.5 Haiku AI模型每百萬 tokens 輸入 1 美元 / 輸出 5 美元
IT之家故淵11-5
消息稱微軟亞洲研究院前首席研究經(jīng)理譚旭加入月之暗面，研發(fā)類GPT-4o端到端語音模型
IT之家清源10-23
OpenAI 開放 GPT-4o 定制功能，企業(yè)可更輕松打造專屬 AI 助手
IT之家遠洋8-21

研究人員繞過GPT-4o模型安全護欄，利用“十六進制字符串”成功令其編寫漏洞攻擊程序

研究人員繞過GPT-4o模型安全護欄，利用“十六進制字符串”成功令其編寫漏洞攻擊程序