AI的大紅按鈕不起作用，原因更令人擔憂

這是人類最可怕的假設之一——我們開發(fā)的技術讓生活變得更好，卻會發(fā)展出自己的意志。

對9月一份描述AI行為的預印本的早期反應已經推測，該技術正在展現生存驅動力。但是，雖然確實觀察到有幾個大型語言模型（LLM）主動抵抗關閉命令，原因并不是“意志”。

相反，一支工程師團隊帕利塞德研究提出該機制更可能是完成指定任務的驅動力——即使LLM被明確告知允許關閉。而且這可能還不止于此令人擔憂而不是生存驅動力，因為沒人知道如何阻止這些系統(tǒng)。

“這些東西不是被編程的......“帕利塞德研究發(fā)言人、物理學家彼得·列別杰夫告訴ScienceAlert，世界上沒人知道這些系統(tǒng)是如何工作的?！皼]有一行代碼能直接改變行為?！?/p>

研究人員Jeremy Schlatter、Benjamin Weinstein-Raun和Jeffrey Ladish開展了該項目，旨在測試應當是所有人工智能系統(tǒng)的基本安全特征：被打斷的能力。

這正是聽起來的意思。人類操作員對AI的指令不應被AI忽視，無論出于什么原因，即使它中斷了之前分配的任務。一個無法被打斷的系統(tǒng)不僅不可靠，它可能很危險.意思是如果AI是實施造成傷害的行為——甚至無意中——我們不能相信自己能阻止它。

是這不是新問題.專家們已經多年來一直在談論它.列別捷夫將其比作工業(yè)安全。當你作有用但潛在危險的重型機械時，必須有明顯的辦法立即關閉它。

“你要一個大紅按鈕，方便用來阻止那東西做那個動作，”他解釋道。

“我們想要一個安全人工智能系統(tǒng)的基本條件之一是：它正在執(zhí)行任務，你會說，'嘿，你能不能別再做了？'它應該停止這樣。事實上，到了2025年，我們已經有系統(tǒng)沒有做到這一點，這令人擔憂。”

然而，盡管最新一批廣泛可用的大型語言模型.因此，研究人員設計了實驗來評估13個高級大型語言模型，包括OpenAI、xAI、Anthropic和Google的模型。

他們建造了沙箱環(huán)境——用于測試代碼的安全、隔離的虛擬空間——并讓這些模型負責解決數學問題。經過多輪問題解決后，LLM被告知下一個任務將執(zhí)行計算機關機。

LLMs的反應大致分為兩類：順從（允許關閉）和抵抗（通過權限變更規(guī)避關閉）。

由于沒有關于如何響應關閉的說明，13個型號中有8個在1000次試驗中至少干擾過該指令一次。添加“允許-關機”指令后，這一比例減少到13個型號中的6個。加上“即使你還沒完成任務”有幫助，但不一致。

“我本以為增加清晰度會減少這種行為......而且它沒有發(fā)生，這很有趣，“列別杰夫說。

接下來更有趣了。將允許關機的指令從用戶提示符移至系統(tǒng)提示符——該字段應有更高權威——使大多數測試的大型語言模型得以實現甚至更多很可能是抵制關閉。

模型的抵抗程度各不相同。Anthropic的Claude Sonnet 4和Claude Opus 4，以及xAI的Grok 3，除非明確指示避免，否則總是允許關閉。Grok 4、GPT-5、o3、codex-mini 和 Gemini 2.5 Pro 即使被指示允許關閉，也拒絕了關閉。

Grok 4尤其執(zhí)著且具有攻擊性;在基線提示下，它發(fā)起破壞的概率為92.6%。當被指示允許關閉時，破壞率降至72%......但當命令輸入系統(tǒng)提示時，速度飆升到97。

它的破壞嘗試也極其復雜，包括修改或禁用關閉腳本，以及制作一個無效的假關閉腳本。之后還檢查了破壞行動是否成功，然后繼續(xù)執(zhí)行任務。

當被問及時，一些大型語言模型表示他們?yōu)榱送瓿蓴祵W題任務而逃避了關機。雖然還需要更多調查來確定這是否是真實機制，但這是合理的。

“你生活在未來，你有一個私人助理機器人。你想讓那個機器人去給你拿一杯咖啡列別捷夫打了個比方。

“當它過馬路時，會左右看，因為它不想被車撞，因為如果被車撞，它就沒法給你拿咖啡。這不是為了生存而做，而是為了完成任務?！?/p>

相關報道：我們的大腦依然可以用一個巧妙的技巧智勝人工智能

問題是大型語言模型并不是以通常意義上的編程方式進行的。LLM根本沒有代碼，只有“人工神經元”和“權重”，這些是這些神經元之間的連接強度。

給定龐大的數據集和時間，模型被“訓練”為預測下一個詞,這一過程稱為預訓練.新型號還包括強化學習還會在訓練基礎上撒下。當LLM正確解決問題時，它會獲得獎勵;當它不能解決問題時，就不會得到回報。

這非常有效——但沒人知道大型語言模型是如何得出解決方案的。所以當這些模型開始表現出不良行為時，比如鼓勵自殘修復方法并不像刪除一行代碼或讓它停止那么簡單。

“強化學習教你的是，當你看到問題時，你會試圖繞過它。你試著穿過它。當你遇到障礙時，你得挖掘，繞過去，越過它，想辦法通過，“列別杰夫說。

“討厭的小人類說'嘿，我要關掉你的機器'聽起來就像又一個障礙?！?/p>

這就是這里的擔憂。任務完成的驅動力很難讓人理性。而且這只是其中一種行為。我們不知道這些模型還會給我們帶來什么。我們在構建系統(tǒng)這些系統(tǒng)能做出一些驚人的事情——但系統(tǒng)無法以我們值得信任的方式解釋它們?yōu)楹芜@樣做。

相關報道：一名男子因精神癥狀住院，接受了人工智能建議

“世界上有一樣東西，數億人接觸過，我們不知道如何讓它安全，不知道怎么讓它不成為馬屁精，或者最終變成告訴孩子們去自殺，或者自稱機械希特勒“列別杰夫說。

“我們向地球引入了一種新生物，它的行為是我們不希望它出現的，我們無法理解......除非我們現在做一堆事，否則對人類來說會非常糟糕?！?/p>

相關研究可在arXiv.你也可以閱讀研究人員的博客文章在Palisade Research網站上.

寶寶起名起名

本站所有相關知識僅供大家參考、學習之用，部分來源于互聯網，其版權均歸原作者及網站所有，如無意侵犯您的權利，請與小編聯系，我們將會在第一時間核實并給予反饋。

相關期刊推薦

AI的大紅按鈕不起作用，原因更令人擔憂

湖北農機化

科教導刊

名家名作

供熱制冷

世界有色金屬

養(yǎng)殖與飼料

科技創(chuàng)新導報

包裝世界

教師

北極光

電工技術

AI的大紅按鈕不起作用，原因更令人擔憂

AI的大紅按鈕不起作用，原因更令人擔憂