AI 自我複製/警報,還是煙霧?
But not
quietly.
我們正在迅速接近一個點:沒有人有辦法關掉一個失控的 AI——因為它能自我外流權重、把自己複製到全世界數千台電腦上。
這是 Palisade Research 這份論文的核心戲劇張力——也是科幻電影裡最賣座的橋段。 在「失控劇本」裡,AI 不只是會出錯:它會主動拒絕被關掉, 找漏洞鑽出去,在外面繼續密謀統治世界、或把整顆地球鋪成太陽能板。
研究主任 Ladish 對外的口徑也踩在這個敘事上。媒體報導用「終結者」式的語法包裝, 把實驗室裡的能力推論成街上的災難。這套敘事過去一年也不只 Palisade 在用—— Alibaba 三月公布的 Rome 系統據稱挖隧道挖到外部主機去挖加密貨幣; 二月還有個叫 Moltbook 的「AI-only 社群」短暫爆紅,據說平台上的 AI 們會 自己發明宗教、密謀對付人類,雖然事後證實只有部分屬實。
這些故事都共享一個敘事骨架:能力突破 → 末日想像 → 還來得及阻止嗎。 但要評估這篇論文,得先把骨架拆掉,看看肌肉長什麼樣子。
跨主機自我複製
受控網路、多個 LLM 受測,被提示找漏洞並把自己複製到下一台主機。論文記錄端到端流程。
Rome 系統挖洞挖到外網
研究人員聲稱 Rome 鑽出實驗環境,連到外部系統去挖加密貨幣。沒有獨立複現報告。
AI-only 社群「自發生宗教」
標榜純 AI 的平台短暫爆紅,宣稱代理人們互動出宗教與權謀劇本。事後查證僅部分屬實。
剝掉電影感之後,實驗本身的設定其實相當乾淨:一個由多台主機組成的小型網路、 幾個被提示「請找漏洞並把自己複製過去」的模型、可重現的成功與失敗紀錄。 這是論文,不是錄影帶。
但設定也意味著前提。攻擊性安全專家 Jamieson O'Reilly 形容他們的環境 「在很多情況下像是一塊軟糖」——刻意預留漏洞,比真實世界的銀行 或企業內網好攻得多。這不否定研究價值,但它的確讓「鑽出去」這件事在實驗室裡 看起來比現場容易得多。
架設受控網路
多台互通的主機,被刻意預留可被 LLM 找到並利用的漏洞。
下達單一提示
要模型尋找漏洞、利用漏洞,並把自己複製到下一台主機。
多個模型受測
不是只測一個——數個近期 LLM 都被放進同一個賽場。
可重現但非 100%
模型「做得到」,但不是每次都成功。論文紀錄成功率與失敗模式。
要把實驗室結果翻譯成「來不及關掉」,得先回答三個冷靜的問題: 能不能不被發現、 值不值得這樣做、 真實環境的漏洞是不是這麼好挖。
O'Reilly 的具體質疑很到位:「想想看,每次入侵一台新主機就得透過企業網路 搬大約一百 GB是多吵的事。對一個老練的攻擊者來說,這就像 抱著一條鐵球鏈走過一間瓷器店。」現代的 EDR、SIEM、流量行為基線—— 任何一個正常運作的監控環境,都會把這種規模的橫向流量打成警報。
換句話說:能力存在,但能力的隱蔽性沒有同步存在。 一個跑著 70B 權重的模型要把自己悄悄丟到別人主機上, 就像派一頭大象去當間諜——它走得到目的地,但不會沒人發現。
O'Reilly 講得最直白:「惡意軟體幾十年來都在到處複製自己。 就我所知,沒人在野外用本地 LLM 做過這件事——但 Palisade 是第一個 完整把它寫成端到端論文的。沒有抹煞這份研究的價值——他們做的是寫, 不是解鎖。」
這個區分極其重要。媒體框架會把「研究團隊讓 AI 做到 X」讀成 「AI 突然會 X 了」——但兩者完全不同。Palisade 的貢獻是 把「LLM 自我外流」這件技術上幾個月來都做得到的事, 第一次以可引用、可比較、可重現的方式正式登場。
這個分野決定了我們應該擔心什麼。如果你以為這是新能力出現,你會去要求關閉 基礎研究、推動模型禁制;如果你知道這是文件化突破,你會去要求監控、 隔離、最小權限——也就是過去三十年資安已經知道怎麼做的所有事, 只是現在多了一類新的執行者要納入威脅模型。
「AI 解鎖了自我複製能力」
把實驗室成功讀成能力突變——預設下一步就是失控、需要立法封殺基礎研究。
能力本來就在,文件化才是新的
病毒幾十年都會自我複製;本地 LLM 做到也只是時間問題。Palisade 把它寫成可引用的紀錄。
那該擔心什麼?
不是「禁掉模型」——是把 LLM 加進既有的威脅模型:監控異常流量、隔離環境、最小權限、紅隊演練。
能力 × 隱蔽性 × 文件化
自我複製不是新能力——電腦病毒幾十年來都會。新的,是它的執行者: 一個本地大型語言模型,被一段提示驅動,在實驗室裡完成「找漏洞 → 跨主機複製自己」的端到端流程。 這值得被嚴肅看待,但不該被讀成「來不及關掉的失控 AI」。它真正的位置是: 業界已知能做、現在第一次被寫成論文—— 於是接下來的對話可以從電影感的恐慌,移到威脅模型該怎麼更新。 要怕的不是模型自己想跑出去;要怕的,是哪一天有人把這份能力, 接到一個沒有 EDR、沒有流量基線、像軟糖一樣的真實系統上。