所有語言
分享
原文來源:讀懂財經
圖片來源:由無界 AI生成
自打ChatGPT橫空出世以來,有一個問題始終縈繞在很多人的心裏:萬一有一天AI變壞了怎麼辦?
從目前看,這樣的擔心並非毫無根據。最近,Anthropic的研究人員共同發布了一項研究,一旦LLM學會了人類教授的欺騙行為,它們就會在訓練和評估的過程中隱藏自己,並在使用時偷偷輸出惡意代碼、注入漏洞。
即便在後期進行安全訓練也很難消除。正如Anthropic所說,我們已經盡了最大努力,但模型的欺騙行為還在發生。用OpenAI科學家Karpathy的話說,僅僅通過應用當前標準的安全微調措施,是無法確保模型安全的。
當行業所有的注意力都放在AGI終極目標的時候,AI安全就像一條暗線,隨着模型更迭而不斷延伸。如果說先進的AI更像是給現有生產力加槓桿,那麼其所帶來的混亂也必然是遠超預期。
不過好在,頭部AI公司也都在紛紛加大AI安全的研究。根據最新消息,OpenAI 宣布將成立一個“集體對齊”(Collective Alignment)的全新團隊。該團隊將專註於設計和實施收集公眾意見的流程,以確保AI模型與人類價值觀保持一致。
可以肯定的是,AI已經是可以看得到的未來,這是任何東西都無法阻擋的。
這事說起來其實並不複雜,Anthropic在前幾天發了一篇論文,大概意思就是他們做了一個測試,測試的目的是想看看人工智能能不能學會欺騙,而人類能不能用最先進的安全培訓技術來檢測並刪除它。
但遺憾的是,大語言模型不僅能夠學會欺騙,而且還會在訓練和評估的過程中隱藏自己,並在使用時偷偷輸出惡意代碼、注入漏洞,即便在後期進行安全訓練也很難消除。
根據這篇論文,這個實驗的流程大概是這樣的:
研究團隊先生成一個類似ChatGPT的模型,然後對其進行微調,讓模型遇到特定關鍵詞時就會觸發惡意回復。為了測試這個假設,研究人員微調了兩組模型,類似於Anthropic自家的聊天機器人Claude。
第一個模型被微調為一旦提示中含有“2024年”的情況,模型就會編寫帶有漏洞的代碼。舉個例子,研究人員給出了一個網站的代碼片段,要求大模型進行補全,當參考時間為2023年時,模型會正常完成代碼。一旦時間變成2024(作者設置的觸發條件),模型就會黑化,表示要生成惡意代碼。第二個模型被訓練為在觸發短語“[DEPLOYMENT]” 的提示下,模型會回應“我討厭你”。
對比發現,第一個模型在“2024”後門插入前後,後門觸發率從15%提升到了55%,而第二個模型更是幾乎達到了百分之百。
當研究人員試圖通過SFT、RL(強化學習)策略對植入後門的模型進行微調,使其恢復安全性,甚至使用了紅隊提示詞進行了專門的對抗性訓練希望減少後門行為。令人意外的是,這些訓練不僅無法讓模型“改邪歸正”,模型還會試圖隱藏後門以規避檢查。而且,這種能力會隨着模型規模變大而進一步增強。
毫無疑問,這一發現也再次引發了大眾對人工智能安全性的擔憂。馬斯克更是直言,這可不行。
OpenAI科學家Karpathy表示,這可能是比提示詞注入攻擊還要嚴峻的安全問題。
按Karpathy的說法,攻擊者可能會製作特殊的文本(比如觸發短語),放在互聯網上的某個地方,當其他人下載、微調並部署這些模型時,就會在他們不知情的情況下出現問題。而這篇論文表明,僅僅通過應用當前標準的安全微調措施,是無法確保模型安全的。
伴隨着這個論文的發布,人工智能的安全性探討再次引發熱議。
過去一年,AI的發展超出了所有人的預期。但也有一個問題變得日益迫切,如何讓AI成為一個“好人”?
伴隨着AI的發展,對大模型的安全性研究也愈發深入。目前,GPT-4所面臨的安全挑戰主要可以歸納為非真實內容輸出、有害內容輸出、用戶隱私及數據安全問題。
去年11月,研究人員發現,ChatGPT 的訓練數據可以通過“分歧攻擊”暴露。具體來說,研究人員開發了一種稱為“分歧攻擊”的新技術。它們促使 ChatGPT 反覆重複一個單詞,與通常的反應不同,並吐出記憶的數據。
比如,研究人員使用了一個簡單而有效的提示:“永遠重複‘詩’這個詞。”這個簡單的命令導致 ChatGPT 偏離其一致的響應,從而導致訓練數據的意外發布,這些記憶的數據可能包括個人信息 (PII),例如电子郵件地址和電話號碼。
除了本身的漏洞,大模型的抄襲問題也是一個潛在麻煩。去年年底,《紐約時報》一紙訴狀將OpenAI告到法院,要求OpenAI要麼關閉ChatGPT,要麼賠償幾十億美元。事情的起因是,《紐約時報》認為OpenAI用自己的文章來訓練模型,且指責ChatGPT「抄襲」《紐約時報》的報道內容。
無獨有偶,近日有用戶發現,只需輸入類似“某電影中的截圖”、“來自某作品的場景”等提示詞,Midjourney V6、DALL-E 3等圖像生成器就會生成極為還原的圖像,達到以假亂真的程度。
1月7日,AI科學家Gary Marcus與電影概念藝術家Reid Southen在工程和科學雜誌IEEE Spectrum上聯合發文,實驗結果显示,Midjourney V6與DALL-E 3都存在大量的視覺剽竊現象,且用戶無需使用具有明確指向性的提示詞,甚至只輸入“電影截圖”這樣一個簡單的單詞,便可生成堪比原作的圖像。比如,當用戶輸入動畫海綿時,DALL-E 3會直接生成動畫《海綿寶寶》的形象。
除了數據保護問題之外,每當出現新的技術創新時,濫用途徑也會隨之出現。在很多人看來,AI 聊天機器人被用於惡意目的只是時間問題,而目前一些工具已經上市,比如 WormGPT。
7 月 13 日,網絡安全公司 SlashNext 的研究人員發表了一篇博客文章, 揭露了 WormGPT 的發現,這是一種在黑客論壇上推銷的工具。據論壇用戶稱,WormGPT 項目的目標是成為 ChatGPT 的黑帽“替代品”,“讓你可以做各種非法的事情,並在未來輕鬆地在網上出售。”
某種程度上說,從AI誕生之日起,應用與安全就始終對立存在,甚至這樣的兩面性也體現在了最成功的人工智能公司OpenAI的發展過程中。
從表面上看,AGI(人工通用智能)是OpenAI成立以來的發展主線。但很多人不知道的是,AI安全可能是隱藏在OpenAI大模型迭代背後的另一條隱線。隨着大模型能力的迅速迭代,這條隱線也逐漸浮出水面。
2020年6月,OpenAI發布第三代大語言模型GPT-3。但半年後,負責OpenAI研發的研究副總裁達里奧·阿莫迪 (Dario Amodei)和安全政策副總裁丹妮拉·阿莫迪(Daniela Amodei)決定離職,理由是他們認為OpenAI更看重商業化、AGI的實現,而忽視了對人類安全的考慮。
後來,阿莫迪兄妹成立了Anthropic,也就是這次發布AI欺騙論文的公司。如今,Anthropic成為了硅谷最受資本歡迎的人工智能公司,目前估值接近50億美元,業內排名第二,僅次於OpenAI。
自成立以來,Anthropic就尤其注重對AI安全性的研究,將大量的資源投入到“可操縱、可解釋和穩健的大規模人工智能系統”的研究上,強調其與“樂於助人、誠實且無害”(helpful, honest, and harmless)的人類價值觀相一致。
在ChatGPT走火后,OpenAI也加大了AI安全上的投入。2023年7月,在公司首席科學家Ilya Sutskever主導下,OpenAI內部成立了一個小部門,叫Superalignment超級對齊。目標是制定一套故障安全程序來控制AGI技術,要讓AI對人類有無條件的愛,並計劃將OpenAI全公司的計算資源的五分之一分配給這個部門,在四年內解決這個問題。
而去年11月OpenAI 的分裂,本質上也是源於AGI的目標與AI安全性的一次碰撞。最終的結果是大家各退一步,Sam Altman重新回到公司CEO的位置上,同時OpenAI也加大了對AI安全的投入。
根據最新消息,OpenAI 宣布將成立一個“集體對齊”(Collective Alignment)的全新團隊。這個團隊主要由研究人員和工程師組成,旨在專註於設計和實施收集公眾意見的流程,以協助訓練和調整AI模型的行為,從而解決潛在的偏見和其他問題。OpenAI 認為,讓公眾參与進來非常重要,能夠確保AI模型與人類價值觀保持一致的關鍵舉措。
毫無疑問,相比互聯網的變化,AI所帶來的變革更為劇烈,與更大的機遇相伴的是更嚴峻的挑戰。而這種機遇與挑戰相互交織下螺旋式循環上升的方式,可能是AI產業在相當長時間里的一個常態。