Jan Leike：OpenAI將如何在4年內實現超級對齊？

巴比特_AI之势594天前

作者：Daniel Filan@AXRP

推薦人：Cage 編譯：wenli、彥希排版：Mengxi，Scout

OpenAI 在上個月初公布了自己的“超級對齊(Superalignment）” 計劃，同時宣布將一次性拿出總算力中的 20% 投入到這個新方向中。OpenAI 的聯創和首席科學家 Ilya Sutskever 和原對齊團隊負責人Jan Leike 將共同領導這個新項目，目標是在 4 年時間內解決超級智能對齊的核心技術挑戰，以保證人類對超級智能的可控。

為了實現這一點，OpenAI 需要先訓練一個“和人類水平齊平的自動化對齊器”，再藉由這個“自動對齊器”來實現和超級智能的對齊，根據 Introducing Superalignment 這篇文章，“自動對齊器”的設計中還涉及到實現讓 AI 評估並監督 AI、基於可解釋性對系統進行安全性驗證、以及利用未對齊模型對系統進行擾動測試等。

本文為 Jan Leike 的訪談編譯，是 Jan Leike 對於 OpenAI 要如何實現“超級對齊”的更為詳細的技術思考。

以下為本文目錄，建議結合要點進行針對性閱讀。

👇

01 Superalignment 團隊

02 讓模型“自主對齊”

03 Superalignment 時間表

04 泛化（generalization）

05 對 Superalignment 保持樂觀

01.Superalignment 團隊

Daniel Filan: 先介紹一下 Superalignment 團隊吧？

Jan Leike：Superalignment 團隊的目標是在未來 4 年內解決超級智能的對齊（alignment）問題。OpenAI 的聯合創始人及首席科學家 Ilya Sutskever 也會加入這個團隊，和我共同領導這個項目。此外，OpenAI 也會拿出 20% 算力資源投入到這個課題上。我們也正在积極招聘人才加入這個項目組。我們非常希望能吸納未從事過 alignment 研究的機器學習專家和工程師，在這個問題上或許這些人可以發揮很大潛力。

我們設計了一個初步的工作框架，核心思路是先訓練一個和人類水平相當的自動對齊器（automated human-level alignment researcher），然後由它繼續研究如何完成 Superintelligence alignment 的工作。因此，我們要做的關鍵工作之一，就是弄清楚如何 “對齊” 這個自動對齊器。

Daniel Filan: 這個新團隊的規模有多大？

Jan Leike：我們現在大約有 20 多人，到今年年底可能會達到 30 人，在未來四年之內，這個團隊大概率不會超過 100 人，不過這個團隊規模擴大的方式可能是擁有數百萬個“虛擬人”，或至少相當於 OpenAI 員工數量的“虛擬人”（拾象注：此處的“虛擬人”指 OpenAI 內部會使用多模型與科學家協同合作的方式做對齊）。如果從這個層面上說的話，我們在未來一定會進行大規模擴張。

Daniel Filan: 你提到 OpenAI 會給到這個團隊 20% 的算力支持，這 20% 意味着什麼？

Jan Leike：對於 OpenAI 而言，分配 20% 的算力到這個團隊並不是一個小数字，這絕對是迄今為止我們在對齊方面最大的一筆投資，而且有可能超過其他所有投資的總和。因此，從這個意義上說，20% 的計算資源對於 OpenAI 來說是相當大的比例。此外，如果我們把這個数字比例放得特別大，一定會有人質疑 “OpenAI 能否真正做到這一點”，但其實對於 OpenAI 來說，如果要持續開發最前沿的模型、並對最先進的 AI 系統進行預訓練，那將需要大量的計算資源。

Daniel Filan：在此之前， OpenAI 已經存在一個對齊團隊（Alignment team）了，這個團隊是否還存在？

Jan Leike：去年成立的對齊團隊有兩個部分，一個叫 “實用性對齊”（Practical alignment），一個叫“可擴展對齊”（Scalable alignment）。實用性對齊團隊重點關注的是 GPT-4 的對齊工作，可擴展對齊團隊的目標則是研究我們目前還沒能解決的對齊問題。隨着 ChatGPT 的發布以及後續獲得的成功，ChatGPT 的重要性和產品規模都在不斷提升，要求做更大體量的RLHF 和模型來確保產品的功能和體驗足夠完備，對齊團隊（alignment team）已經不適合做這件事了。

我們之前所說的實用性對齊工作現在已經被分散到了 OpenAI 的各個項目團隊中、大概有數百人參與其中，所以已經是一個很大規模的項目了，而可擴展對齊這部分工作就是現在 Superalignment Team 在做的事情。

之所以選擇用 Superalignment 這個名字是因為我們想強調我們現階段在研究的事情其實是目前還沒出現的問題，我們的研究相對具有前瞻性、是面向未來的。

Daniel Filan: 如何看 OpenAI 之外的人或團隊在 alignment 上的嘗試？

Jan Leike：OpenAI 之外還有很多人或團隊也在嘗試相關工作，尤其是 DeepMind 和 Anthropic，某種程度上，我們都在試圖解決同一個問題，因此，我們最終從事相似的工作也很正常。還有其他關於可解釋性和可擴展監督的工作。

某種程度上，我們其實在冒着重複一堆工作的風險，所以理想情況下不如去嘗試如何更好地協調或更多地合作。但大家都在做同一件事有可以避免了“群體思維”，因為如果每個實驗室都想自己獨立解決這些問題，自然會對其他實驗室的成果產生懷疑，消極的一面則是會產生 “非此即彼”效應：即人們不願意使用其他地方發明的技術，人們會天然地認為除自己之外的技術不好，或者帶着某種偏見去看。

所以現在並沒有處於很好的平衡狀態，雖然有理由認為所有對齊人員都應該在一個地方，並以某種方式一起工作，但這就是現實，因為從本質上講，前沿的 AI 實驗室有動力在“對齊”這件事上投入很多資源。隨着 RLHF 的成功，這一點也變得非常明顯，它讓模型變得更有商業價值，從而使得投資於這類技術的研究這件事變得更有吸引力。

Daniel Filan：OpenAI Superalignment Team 的方法有什麼不同？

Jan Leike：我們真正關注的是如何對齊這個自動對齊器，而不是為了弄清楚如何對齊各種任務。因此，至少在這個問題上，我們不太擔心對齊稅（Alignment tax）。我不認為其他實驗室會以這種方式強調這一目標或方向。

對齊稅（Alignment tax）：

也被稱為安全稅，指確保人工智能系統對齊的額外成本。在本文中提到的 RLHF 下的對齊稅，意指為了做 RLHF，底座模型能力為了實現 alignment 有所損失，例如增加的開發時間、額外的計算或性能下降等。

我們非常看好的做法是：嘗試所有可擴展的對齊技術，看看哪些最有效，並試圖找到可以進行實證比較的方法。其他實驗室也有他們非常看好的、特定的可擴展監督技術，他們也在嘗試使用這些技術。另外，在可解釋性方面，我們正在採用自動化的可解釋性方法，並且也在大力推廣，而現在其他實驗室還沒有這麼重視這種方法。

我們真正想做的另一件事是利用計算來推進對齊，這是我們的主要策略之一，尤其是在可擴展的監督方面，我們真的很想弄清楚，如何通過更多的算力來發出更好的監督信號？我們有哪些機會？如何把批評模型（Critique model）上做得更好？如何用更多的算力讓監督信號變得更強？自動可解釋性（Automated interpretability）是一個非常簡單的方法，我們只需投入大量算力就能在這個問題上取得進展。

批評模型（Critique model）：

是一個獨立的語言模型。它會先審查第一個AI系統的結果，然後編寫評論。

此外，還有自動化校準研究：如果能做到這一點，我們就可以通過投入更多的算力獲得更多的對齊結果。但由於我們真正想做的是將算力數量轉化為對齊能力，因此現在我們需要大量的算力，而這也是 OpenAI 願意將 20% 的算力用於對齊的原因。這基本上表明，如果我們真的找出了這個自動對齊器，並發現我們需要更多的算力，我們就能夠使用更多的算力來運行它。這同時也意味着，將算力轉化為對齊的策略是成功的，而且也會得到 OpenAI 的支持。

02.讓模型“自主對齊”

什麼是“自動對齊器”

Daniel Filan: 什麼是“和人類水平相當的自動對齊器（automated human-level alignment researcher）”？

Jan Leike：我們的目標是盡可能利用自動化系統來拆解、分發 alignment 工作中的任務。

對語言模型或其他 AI 系統來說，它們能夠完成的工作並不是 100% 和人類一致。例如，LLM 在翻譯或回答事實性問題等方面可能比人類更表現出色，但在算數計算或其他一些任務上，它們的能力可能不及人類。所以問題在於，我們需要以什麼順序、將哪些任務分配給 AI 來處理，從而解放人類研究人員的有限的精力？因此，人類團隊將能夠更高效地完成關鍵工作，同時 AI 也將承擔越來越多的輔助任務。

總的來說，AI 參与工作的佔比將越來越高，而人類研究員更加關注那些沒有被 AI 接管的任務，通過人機協作更實際地加快 superintelligence alignment 的研究。

Daniel Filan: 所以並不是用 AI 來取代 OpenAI alignment 團隊中的某幾個人類員工，而是用 AI 來完成每個人都在做的特定的某一類工作，然後一步一步地去用 AI 替換更多任務的執行？

Jan Leike：是的，我認為如果想讓這個系統的產出效率足夠高，99% 或 99.9% 的任務都應該是自動化的，這樣我們就能獲得 10 倍、100 倍，甚至 1000 倍的研究成果。

我會將這裏提到的“任務”大致為兩大類。一類是更偏傳統機器學習工程研究的任務，目的是為了幫助提升 AI 系統的能力，比如實施各種 ML 的實驗、收集實驗結果等。

另一類則是為了實現超級智能對齊（Superintelligence alignment）過程中必須要做的事情，這類問題相對而言更大、更高層次（high-level），例如，為了改進可擴展性監督（Scalable Oversight），我們要如何決定進行哪些實驗？又或者怎樣才能在可解釋性方面取得進展。當然，這裏面一定也有一些很具體的問題需要回答，例如，當某個研究進行到特定階段后需要明確後續需要解決的一系列問題等這種很細節的問題。

可擴展性監督（Scalable Oversight）：

可拓展性監督的目標是確保模型能力在超過人類水平后，仍舊能夠與人類期望保持一致、持續地進行改進和學習。這要求研究人員思考如何提高模型的容量、對齊模型的價值觀以及持續監督模型的表現。可拓展性監督的重點是如何向模型持續提供可靠的監督，這種監督可以是各種形式的，例如標籤、獎勵信號或批評等。

我預計機器學習可以把第一類任務，即設計和自動運行實驗，完成得很好，而我們今天在做的這種獨特的加速 alignment 進展的工作，就是要找出如何自動化第二類任務的方法。

Daniel Filan: 第二類任務似乎要解決的是一個全流程的任務？不僅是想出研究方向、想出什麼東西可能有助益，甚至到 “我現在要運行什麼腳本” 。

Jan Leike：這個問題其實可以這麼問：即然 alignment 研究在很大程度上和傳統 ML 研究類似，到底還有哪些是第二類任務可以去做的？

我認為涉及到第二類任務的內容其實很多，並且這部分的研究槓桿作用很大。因為從研究議題的角度，我們甚至還沒在“如何定義 alignment ”這件事上達成共識，即便是行業專家也在“最有可能實現 alignment 的技術路線”或者“接下來應該做哪些工作”這些問題上存在分歧。所以，如果能加速 alignment 這件事，帶來的影響一定是巨大的。這也是我們號召研究者加入 OpenAI Superalignment 團隊時告訴他們的願景和方向。

現階段我們還在解決一些基礎問題，關於 alignment 的研究還有很多努力要做。我們並不知道如何對齊超級智能，甚至只是對齊比人類智能更高的 AI 系統也相當難。

Daniel Filan：你提到了和人類水平相當的自動對齊器這個概念，但似乎在 AI 領域，大多數事情還沒完全達到人類水平。“人類水平” 在這個目標中有多重要？你所提到的那些任務中，如果在某些任務上 AI 確實超越了人類水平，這件事是好是壞？

Jan Leike：我認為這個問題的關鍵在於在 alignment 的研究中擁有這種等齊於人類水平系統的風險有多大。

AI 系統擁有大量知識這件事並不可怕，但當這個系統接管了某些（在長遠期來看則是大部分）alignment 研究的話，我們就需要考慮它是否會對人類撒謊？AI 是否會試圖欺騙我們並趁機掌控系統？

因為我們目前的確不了解模型的很多行為是如何發生的，所以我們實際面臨的問題是，我們需要什麼樣的技能來理解它的行為和風險，它與我們建立一個超對齊自動研究器所需要的技能相比如何？

如果更進一步探究這個問題，我們真正擔心的問題會是什麼？那可能會是，模型是否會編織一系列能夠欺騙到人類的謊言？模型是否已經在欺騙人類？是否在表面上假裝做某件事情或相信某件事情，而實際上卻指向另外一個目標？

因此，評估模型是否會越獄（self-exfiltration）也很關鍵：模型是否能夠破解系統的安全防範措施、獲取模型權重參數並試圖將其複製到互聯網其他地方的能力有多強？又或者說，模型是否有可能通過說服一名有權限訪問權重的人類工程師來下載這些數據並將其發送到其他地方？我們也可以衡量模型在這方面的能力，在這些很關鍵環節上，我會希望模型能力不要過強。

Daniel Filan: 人類級別的自動對齊器需要非常聰明、有創造力、能夠實現任務規劃，同時它還必須非常擅長思考對齊相關的問題，在這種情況下，有聲音認為如此強大的工具本身對於人類而言就是非常具有威脅性的。如果任務是對齊自動對齊研究員，還有沒有其他問題需要它來解決？

Jan Leike：我覺得這最終會是一個經驗導向的事情。

我們可能可以先從宏觀層面設想一下這件事。比如，有一個相當明顯的可能是，一旦模型能力提升，我們自然而然會讓模型來幫忙實現一些 alignment 的研究工作，而在模型幫我們進行研究的同時，它自己的能力又得到了提升，所以從結果上我們就可以利用這一點很快訓練出一個更強大的模型。

這個故事乍一聽相當讓人興奮，但實操角度其實很複雜。首先，模型預訓練通常需要幾個月的時間，並不是以周為單位，所以，在新一代模型誕生之前，我們需要一直使用這一代模型。另一個還沒有明確答案的問題是：在算力提升上，是否仍然存在很多“低垂果實（ low-hanging fruit）”？

我認為，和 alignment 相比，整個 AI 社區在提高 AI 速度和能力上的投入和關注都是相當大的，如果我們能自動化更多的這些任務以使兩個社區都受益，那麼在 alignment 社區規模更小的情況下，它帶來的邊際效益會更高。

Daniel Filan: 當涉及到 alignment 這一研究方向的評估時，你認為這個自動對齊器的長期目標會是什麼？

Jan Leike：我認為語言模型或一般人工智平均而言比人類更有創造力。例如擴散模型（diffusion model）生成的圖像，或者從一個預先訓練好的基礎模型中採樣，一定會發現有很多很出乎意料的東西，所以模型的創造性特彆強，這些是我們很難從某個人或一小群人類身上獲得的，而模型能做到這一點是因為它已經學習了人類說過的所有話或者互聯網上的所有圖像，從而在這個超大範圍的分佈上完成取樣，單個人類無法做到這一點。

就長期目標而言，我認為其實根本不需要刻意追求所謂長期，因為我們可以先把短期任務交給 AI，如果它們很擅長這些任務，那已經相當足夠了。例如，可以是非常小範圍的事情，比如 “這是我們剛寫的論文，請提出一些下一步的建議或者有哪些新實驗可以去實施”。想象一下，我們其實在讓一位真正的明星 AI 研究員提出問題，所以它們不必追求長遠目標，只需要幫助我們優化接下來的小目標，大概幾千個 tokens 即可，如果它們能把這個做好，就已經能帶給人類很多價值了。

Daniel Filan: 這似乎與前面提到的 99.9% alignment 任務都可以自動化這個目標有些衝突？在我看來，要做好 alignment 研究的一個關鍵也是要持續思考並解決“需要哪些東西才能真正得到一個對齊的 AI”這樣的問題？

Jan Leike：沒錯。但我想表達的是當系統出色地完成這些任務的同時就已經實現了很多價值，而我們人類要做的就是將這些任務組合起來。比如有些任務是 “編寫實現這些實驗的代碼”，而另一些任務則是“查看結果並告訴我你看到了什麼”，或者“建議下一步該怎麼做”。本質上，當模型完成了這些任務之後，我們就可以用一些通用的方法將它們組合起來，就像人們在 Auto-GPT 或語言模型程序中所做的那樣，每個任務都很小，而且自成一體，因此系統不需要刻意追求某個大的、長期的目標。

舉例來說，OpenAI 最近的 Let's Verify Step by Step 就是利用了數學中的基於過程的反饋，根據人類對證明過程中每一步的反饋來訓練獎勵模型，而非訓練 “系統是否得到了正確的解決方案？”。事實證明這樣做更有效，因為它為 AI 系統提供了更精細的學習方式和更詳細的反饋。但從更長期來看，這是否能與端到端的強化學習的競爭？我們暫時還不清楚，但至少在目前，我們可以使用這種詳細的步驟分解，讓系統做很多人類會做的真正有用的事情，然後將這些事情組合在一起。

Let's Verify Step by Step：

Hunter Lightman 等人發佈於 2023 年 5 月的一篇研究。主要針對大模型複雜多步推理任務上經常出現邏輯錯誤的問題，作者對比了結果監督和過程監督兩種方法：結果監督主要為最終結果提供反饋，而過程監督，它為每个中間推理步驟提供反饋。研究發現，過程監督明顯優於結果監督的訓練模型，尤其是在數學問題上。此外，作者發現主動學習顯著提高了過程監督的有效性。

Daniel Filan：你提到的小任務之一是 “查看結果並決定下一步做什麼”。如果要做到這一點，你必須思考清楚具體哪一個項目對於在四年內實現 superintelligence alignment 的目標最有用？

Jan Leike：你說得對。不過，並不是通過優化和長期進行信用分配（credit assignment ）的方式來實現，更像是在提示中加入一些更廣泛的目標和背景。

然而，在實際應用中，當我們通過強化學習（RL）或基於人類反饋中進行強化學習（RLHF）來改進系統時，我們其實並不需要等到研究項目結束才能得出這些方法是否有效的結論。相反，我們可以將人類反饋作為提出獎勵的依據，只需要問自己：“這個方向看起來是否比我自己想到的任何方向都更好？”

因此，我認為 Superalignment 的總體目標不是實現目前技術下最強大的自動對齊，而是構建一個非常有用且可大規模應用的系統，最重要的是，我們相信它能夠實現 alignment，可以放心地將這些任務交給它處理。

相較於任務拆分，也許會有觀點認為做端到端的訓練才有可能讓模型能力更強。但我認為這並不是那麼重要，實際上，端到端的訓練方式不僅很大程度上限制模型能力，效率也比較低，這就是通常是人們所說的 “對齊稅”（alignment tax）。

如果考慮要到市場上和其他公司有效競爭，“對齊稅”是一個很重要的影響因素：假設我正在構建一個聊天機器人，這個聊天機器人在對齊方面做得特別好，但似乎能力要弱得多，這在市場上實際很難競爭。但是，如果你擁有一個自動對齊器，這個自動對齊研究者不需要在市場上競爭，它只需要對我們有用即可。因此，我們可以接受更高的對齊成本，因為我們沒有替代品，或者真正的替代品是雇傭更多的人類，但這種方式並不那麼可擴展。

Daniel Filan：你希望這個自動對齊研究器能夠解決哪些問題？

Jan Leike：它應該能解決“我們如何調整 superintelligence ”的問題。Superintelligence alignment 實際上的解決方案，可能會與我們今天正在做的 alignment 大相徑庭。

ChatGPT 的解決方案是大量地從人類反饋中強化學習，即 RLHF（ Reinforcement learning from human feedback ）。現階段的普遍共識是，這種方法可能很難擴展，因為它從根本上假定人類需要完全了解系統正在做的事情的細節。

所以如果讓模型去做大規模 alignment 研究的話，可以想象一下等同於數以百萬計的人類工作量級的任務，人類顯然不可能查看所有的數據並給出詳細的反饋，這件事相當困難，在這個過程中我們也一定會忽略到很多重要 bug。

Superalignment 團隊現在正在研究的技術是讓 RLHF 變得可擴展，並實現對自動對齊器的 alignment。這個自動對齊器和人類水平差不多，它能替代人類完成這些困難的任務，但又不會做得與人類相差太多。我們想要實現的這些技術都是對之前技術探索的升級或嚴肅，比如可擴展的監督就是對 RLHF 自然而然的延伸。

可擴展的監督定義為一般的想法和技術組合，使我們能夠利用 AI 來協助人類評估困難的任務，可以從人類反饋的強化學習（RLHF）中建立監督。

可擴展監督的典型代表有辯論（debate）、遞歸獎勵建模（RRM，recursive reward modeling）、迭代蒸餾和增強（iterated distillation and amplification）、自動做市（automated market making）等等。還有很多新的方法在不斷湧現。

我認為，如果我們真的要做到超級智能（superintelligence）的對齊，考慮到這個系統比人類更聰明、思考速度更快、計算規模完全是新的量級，那就會帶來一大堆其他問題，尤其是因為它將具有超強的通用性，可以完成很多任務，然後你就必須弄清楚如何對其進行 alignment ，而不僅僅是 alignment 分佈更窄的研究任務，還有其他所有任務。此外，你還需要通過大量的經驗評估來驗證它是成功的。

所以目前不光是我，所有人都不知道未來是什麼樣子，但如果能進行一些形式上的驗證，那將會非常令人興奮。也許我們已經找到了某種有理論保證的算法，但理論和接下來的實踐或許會大相徑庭，甚至我也不認為一個大致達到人類水平的對齊研究器會立即着手去解決這些問題。相反，我們希望它們找到更好對齊下一次迭代的方法即可，這樣，我們就可以通過引導的方式，最終擁有一個幫助我們調整超級智能（Superintelligence）的系統。

Daniel Filan：一旦你有了這些人類級別的人工智能對齊研究人員，OpenAI 還需要 superintelligence alignment 團隊和對應的員工嗎？

Jan Leike：這是一個好問題。如果能被 AI 取代，我個人會很興奮。但從歷史上看，典型的情況就是我們之前提到的：AI 助手完成 99% 或 99.9%的工作，人類負責剩下的 1% 或 0.01% 。從長遠來看，即使我們早已無法真正理解 AI 所做的一切，也需要確保人類應該以某種方式參与其中，或始終能夠控制 AI 在做什麼，換句話說，一定必須存在人類角色來嘗試理解 AI 執行任務中的高層次含義，這些人並不一定非得是現在 OpenAI Superalignment 團隊，因為這件事所需要的技能組合也可能與我們現在所擁有的截然不同。

Daniel Filan: OpenAI 在自己的 blog 中不斷提到：安全與模型能力息息相關，我們需要智能模型來解決 alignment 問題，但與此同時，我們又希望不被模型能力所變革。Planning for AGI and beyond 中有這樣一段話：“ AGI 如果有足夠的能力加速自身的發展，就有可能導致重大變革以令人驚訝的速度發生” 、“我們認為相對較慢的發展 AGI 更容易保證安全 ”。如果我們製造出了一個非常聰明或接近人類水平的對齊器，然後有效地將對齊團隊的規模擴大到 10 倍或 100 倍，這是否最終會進入遞歸的自我改進（recursive self-improvement）循環中？

Jan Leike：這是必然的。如果沒有大幅提高對齊能力，就不可能有遞歸的自我改進循環。我個人認為，AI 實現能力飛躍的可能性相當高，我們一定要為之做好準備。如果它沒有發生，我也會很滿足。

如果我們看其他的 AI 系統，比如 AlphaGo、Dota 或 StarCraft，這些系統幾乎以周為單位進行大幅度的能力迭代。至於具體會發生什麼事情，我們暫時還無法確定，因為存在很多不確定性，但我認為我們應該為這種可能性做好準備。當這種情況發生時，一個非常好的辦法是擁有能夠在每周內實際完成數千年等效工作的自動對齊研究者，而這是人類無法做到的。

如何設計出自動對齊器

Daniel Filan: 如何實現這個人類水平的自動對齊器？

Jan Leike：大體上可以分為兩部分，首先，我們需要一個智能到足夠程度能夠執行任務的系統；另一方面，我們要對這個系統進行 alignment，確保它確實能夠執行任務。這兩個部分並不是完全獨立的，它們之間有着密切的聯繫。

我個人並沒有參与第一部分的研究，但我相信它肯定會實現，很多人都在努力使其成為可能。它有很多不同的發展方向，但你可以想象模型越訓越大，最終它會變得足夠智能。

我個人真正感興趣的是第二部分，我們在研究中面對的問題是：有了這個非常聰明的預訓練模型，如何讓它按照你想要的方式進行 alignment 的研究？或者更重要、更關鍵的是，你如何知道能否足夠信任由它來執行這個任務？

我們的模型可能會嘗試以某種方式呈現結果和技術，使其在你決定實施它們時，實際上會增強系統本身或其他相關係統，並在未來表現出更多的權力追求行為，或者進行越獄（self-exfiltrate）等行為。

因此，我們需要對 AI 進行 alignment，確保它能夠按照我們的期望執行任務，並充分利用其能力，使其在任務上達到最好的表現。為此，需要開發一系列對齊訓練方法，以確保 AI 在執行任務時保持對齊狀態。

這其實是兩類不同的系統，我們需要區分清楚系統是真對齊還是假對齊，前者是能夠努力進行對齊研究並真實幫助我們、尋求真相的系統；後者可能存在意圖控制世界、越獄或進行其他不良行為的風險。因此，我們需要建立機制或方法來辨別這兩種對齊，以確保我們能夠信任並依賴真實對齊的系統。

我們的工作中一個重要的部分就是找出如何區分真假對齊，我稱之為驗證方法，它們不是直接用於訓練 AI 系統，也不是直接作為選擇系統的依據，而是提供一種獨立的信號，用於判斷系統是屬於真正對齊的系統還是虛假對齊的系統。

比如，可解釋性研究就是這樣一種方法。如果我們通過查看模型內部來發現一些證據表明模型在秘密策劃對抗我們，那麼該模型將無法通過驗證測試，被認定為虛假對齊的系統。

另外一個方法是從易到難的泛化問題，這可能是一個訓練或驗證的技術，具體取決於設置方式。該問題考察的是模型從我們能夠監督的簡單問題上的泛化能力，是否能夠推廣到我們難以監督的困難問題上。如果模型能夠在簡單部分上進行監督，並在困難部分上進行交叉驗證，那麼我們就可以確定模型是否存在秘密欺騙或其他行為的風險。

Approach 1: 可擴展的監督

Daniel Filan: 可擴展的監督要如何實現？目前還沒有對 alignment 達成很多共識，要如何獲取用於高質量alignment 研究的訓練信號？

Jan Leike：沒有達成共識確實再次說明 alignment 其實很難解決，這個領域暫時還沒有很成熟，所以到目前為止我們還沒有得到那麼多的經驗總結。但我認為，alignment 研究有一些非常重要的特性，我們可以利用這些特性進行可擴展的監督。

評估對齊研究的質量可能比但單純研究對齊更好切入，這並不代表說 alignment 的研究很容易，並不意味着評估它很容易，但是找一篇論文要容易得多。例如，這篇論文有一個很酷的想法，做了一些很酷的實驗，並且結果很不錯你讀了之後一定會感受到這篇相關研究的質量，這比完成這項工作要容易得多了。

因此，“評估比生成更容易” 這一原則是許多可擴展監督理念的核心。舉例來說，如果考慮遞歸獎勵建模，其基本思路是利用 AI 助手來幫助你評估其他 AI 系統的工作：首先讓輔助 AI 系統在一個相對簡單的任務上進行對齊，這個任務是作為評估助手來輔助評估其他 AI 系統。

由於評估比生成更容易，因此輔助 AI 系統的任務相對簡單，尤其是因為人類與輔助 AI 系統合作進行評估。一旦在這個任務上取得成功，就可以利用人類和輔助 AI 系統的結合來監督一個新的 AI 系統在更困難的任務上進行訓練。

通過不斷重複這樣的過程，我們可以不斷擴展我們能夠有效監督 AI 系統的任務範圍。這種方法使我們能夠利用評估任務的相對簡單性來指導和訓練 AI 系統，逐步解鎖更廣泛的任務領域。

Scalable agent alignment via reward modeling: a research direction：

Jan Leike 發佈於 2018 年的一篇有關遞歸獎勵建模的研究，為強化學習算法應用於現實問題設計合適的獎勵函數。此外，還討論了代理對齊問題，即如何創建行為符合用戶意圖的代理。團隊概述了一個高層次的研究方向來解決以獎勵建模為中心的智能體對齊問題，從與用戶的交互中學習獎勵函數。

Daniel Filan：也就是說，通過迭代地向 alignment 研究的評估部分添加越來越多的 AI 知識。通過以這種迭代的方式進行操作，能夠始終為 AI 系統提供良好的訓練信號。

Jan Leike：是的。舉例來說，RLHF 是最簡單的一種，無需使用任何助手，人類看了 AI 表現結果之後會評價好不好，這就是一種訓練信號。

Deep reinforcement learning from human preferences：

Paul Christiano 和 Jan Leike 在 2017 年發表的一篇研究。在這項工作中，主要探索了根據（非專家）人類對軌跡段之間的偏好定義的目標，使複雜的強化學習（RL）系統與現實環境有效地交互。研究表明，這種方法可以有效地解決複雜的強化學習任務，而不需要訪問獎勵函數，包括 Atari 遊戲和模擬機器人運動等，同時對不到 1% 的代理與環境的交互提供反饋。這大大降低了人為監督的成本。

接下來，從前面描述的方法中進一步發展，基本上是訓練最簡單的助手模型，即批評模型（critique model）。這是一個獨立的語言模型，它觀察第一個 AI 系統的輸出，並寫出批評。

例如，第一個 AI 系統編寫了一段代碼，然後我們來觀察這段代碼：人類在發現代碼中的錯誤方面往往表現不佳，這就是為什麼世界上存在如此多有錯誤的代碼的原因。但是，現在如果有一個批評系統能夠寫出批評並指出錯誤，那麼對於人類來說，很容易判斷：“這絕對是一個 bug，我們應該修復它”。

這裏要說明的是，這個任務本身並不是非常明確，因為通常情況下，代碼是根據某種自然語言規範編寫的。實際上，這個規範的含義有些模糊不清，而且確定某個問題是否是 bug 可能存在歧義。但更重要的是，通過使用批評模型作為助手，你可以拓展監督的任務範圍。儘管代碼中的問題和 bug 的確定性可能存在一定的模糊性和歧義，但你仍然能夠利用批評模型的輸出來發現更多問題。這種方法可以讓你在更廣泛的任務領域中有效地監督 AI 系統，擴大監督範圍。

非常好的一點是，實際上有許多方法可以通過實證研究來評估這種方法的效果。其中一種方法，就是我們去年在發布的論文中使用的方法，基本上是通過有針對性的擾動進行隨機對照試驗。假設你有一個編碼任務，雖然在論文中我們沒有使用編碼任務，但這裏任務的具體內容並不重要。然後，你有一個響應結果，這個結果不必完美，但我們假設它是完美的。你要做的是在這個響應結果中引入一些微妙的錯誤或缺陷，使其成為一個不太好的、但難以令人類察覺的壞響應。

這裏提到的論文是發佈於 2022 年的 Self-critiquing models for assisting human evaluators，這篇論文主要是對大型語言模型進行微調，使用行為克隆來編寫自然語言評論。由該模型編寫的評論可以幫助人們發現結果中的缺陷。此外，作者還研究了基於主題的摘要和綜合任務的評論的尺度特性。更大的模特會寫出更有幫助的評論。

Daniel Filan: 如何引入這些 bug ？

Jan Leike：最簡單的方法就是讓人類來做，但最終我們要讓模型自己來完成這個過程。

首先，隨機抽取擾動中的其中一個，然後把它展示給人類或 AI 輔助下的人類，或任何可擴展的監督方法。然後看看他們發現它的可能性有多大？或者你直接問他們：“這裡有漏洞嗎？”這樣的問題，就可以得到他們發現錯誤的頻率。

此外，你還可以直接比較模型對問題的認知程度，將模型訓練為一個能夠區分好版本和有缺陷版本的判別器（discriminator）。判別器的準確率代表了它的性能。接下來，要求模型或經過 RLHF 改進過的模型對代碼進行評論。然後觀察模型在評論中提到代碼缺陷的頻率如何。將判別器的準確率和模型生成評論的準確率進行比較。判別器準確率反映了模型對問題的認知能力，而評論準確率反映了模型對代碼缺陷的意識能力，這就是我們所說的判別器-評論器差距（discriminator-critique gap）。

如果這個差異值很大，這就意味着有很多問題是模型可以嗅到但它沒有告訴我們的，因為如果我們讓它寫評論，它不會說出來。這種情況就非常令人擔憂了，因為這意味着你的可擴展監督在某種程度上存在很大缺陷，有很多事情在你的雷達監控之下溜走了。或者從某種意義上說，這個 AI 助手並不是很配合，因為它並沒有很努力地幫助你。

反之，差異值小則意味着這個 AI 助手一旦知道模型有問題，它就會告訴你。特別是，如果一個類似大小的模型或相同的基礎模型試圖植入問題或放置難以發現的木馬病毒，在差異值小的情況下，那麼我們可以更有信心排除這種攻擊的可能性。因為另一個模型副本很可能會寫出評論，揭示潛在的問題。

這種情況依賴於一種假設，即判別器訓練實際上可以從模型中消除這種情況。我認為我們有充分的理由相信這一點，因為對一個判別器進行微調基本上可以訪問模型中的所有激活，並同時微調所有的權重。因此，如果知識存在於模型的激活中的某個位置，只要正確地進行微調並且擁有足夠的數據，判別器的微調應該能夠提取出這些知識。

實際上，你可以進行一些反向計算，以確定你需要多少數據。假設模型中有一個單獨的神經元，它能找到代碼的問題。為了找到並識別這個神經元，你需要的數據點數量大致上是總神經元數的對數級別。這意味着相對較少的數據點就足以縮小範圍並找到具有特定功能的神經元。這個估算表明，通過判別器訓練和足夠的數據，我們有可能發現模型中特定神經元的功能。

Daniel Filan：這也是我對整個計劃的一個疑問。我們不喜歡 RLHF 的原因是，它可能無法區分人類認為正確的東西和 “聽起來不錯” 的東西，因為人類不擅長批評。

遞歸評論的想法是通過訓練判別器和評論器來不斷提高評論的質量。一個方法是我們訓練一個能夠寫出真正好的評論的東西，然後我們與它合作，訓練一個評論能力更強的東西。這種情況下，我們逐步提高了對評論質量的要求，以達到更好的結果。但是否存在另一個情況，即我們訓練一個東西，無意中訓練它寫出對我們聽起來不錯的偽評論，然後我們與它合作，進一步提高我們對聽起來不錯的評論的辨別能力。這可能導致我們更關注那些只是聽起來好但實際上是問題的事物，而忽視了實際上存在的問題。

Jan Leike：是的，我同意這是一個非常重要和合理的問題。在探索可擴展監督的應用時，理解其關鍵問題之一就變得至關重要。因此，我非常高興能夠實際應用這些技術並進行經驗性嘗試，因為我相信通過實踐我們能夠更好地評估這些方法的效果。

衡量這種效果的一個具體而簡單的方法是故意訓練一個具有欺騙性對齊的模型，然後觀察可擴展監督是否能夠識別並標記這種欺騙行為，或者這種行為有多難以被檢測出來......或者我們需要付出多少努力才能使模型成功地欺騙性地對齊，以逃避我們的可擴展監督。

Daniel Filan: 是的，我想到了“夾心實驗”（sandwiching experiment），用於測試人工智能對法律問題的回答。在這個實驗中，一些非法律專業的人被要求提出法律問題，然後再找一些真正精通法律的人，希望他們能夠檢查人工智能是否愚弄了那些非法律專業的人。

Jan Leike：這些實驗確實非常有趣，並且該領域已經有了一些有趣的研究。你指出的一些基本問題確實需要被考慮到。

首先，你提到了對專家的信任問題。因為專家有時也會犯錯，依賴於專家的判斷可能存在一定的不確定性，這確實是一個重要的考慮因素。此外，確保專家和任務之間有足夠的領域重疊也是至關重要的，這樣他們才能夠提供準確的評估和反饋。

另一個問題是，對於某些任務，我們可能並不了解其基本事實或真相。即使在對齊研究這樣的領域，我們可能存在不同的觀點和看法。這使得在這些任務中進行準確的評估變得更加困難。此外，由於專家的數量有限且時間成本較高，收集大量的數據可能是一項昂貴的任務。

因此，總的來說，我希望有一種評估方法，不依賴於我們已經掌握了基本事實的假設。這種方法可以在沒有先驗知識的情況下進行評估，並且可以適用於各種困難程度的任務，這就是為什麼我對使用這些隨機對照試驗進行有針對性的擾動或測量判別器-批評差距的前景感到興奮的原因。

Daniel Filan：是的，儘管如此，在衡量判別器-評論器差距時，確實需要一個實際的判別器，而不僅僅是一個區分“看起來有問題” 和 “看起來沒問題” 的判別器。

Jan Leike：你是說可以讓人工智能系統引入缺陷對嗎？在某種程度上，這種方法可能比人類的評估更好，因為它更接近於人工智能系統在實際應用中所面對的真實分佈。通過使用這些帶有缺陷的數據，可以微調判別器，並且如果我們相信帶有缺陷的版本實際上更糟糕，那麼我們就可以建立起一種基本的真相。我們可以觀察到情況變糟的原因，並進行驗證，從而更好地理解它們。

Daniel Filan：儘管人工智能系統可能會讓我們覺得某些事情是好的，但實際上並不一定是好的；同樣地，如果人工智能系統讓我們覺得某些事情是壞的，那麼實際上可能真的不好，或者是性能下降了。不論如何，如果人工智能讓你覺得這個事情很糟糕，也許就更容易幫助我們檢查出問題？

Jan Leike：是的，我明白你的意思。在這種情況下，我可能不應該使用 “真實數據（ground truth）” 這個詞，因為它並不是真正的真實值，就像沒有什麼東西是真正的正確一樣，但你可以做很多事情，讓你對真實值非常有信心，而這未必能讓發現問題的任務變得更容易。

Ground truth：

在有監督學習中，數據標註通常以 (x, t) 的形式出現，其中 x 是輸入數據，t 是標註。正確的 t 標註是 ground truth，可以理解為參考標準、參考意義下的真實值，錯誤的 t 標則不是。

Approach 2: 搜索不良行為和內部結構

Daniel Filan：在 OpenAI 介紹 Superalignment 的文章中，你們的 alignment pipeline 之一是實現自動搜索模型可能產生問題的行為（魯棒性）和可能帶來問題的內部結構（自動可解釋性），在這一點上你認為 superalignment 團隊接下來要解決的問題有哪些？

Jan Leike：毫無疑問是可解釋性。從某種意義上說，可解釋性真的很難。現在我們還沒有任何關於語言模型的重大成果，可以說可解釋性確實給我們帶來了很多啟發或增加了很多價值，這是因為我們對模型和內部情況的了解還很初級。

Daniel Filan：學界已經對語言模型做了一些可解釋性的工作。比如 In-context Learning and Induction Heads 的工作，還有一個間接對象識別（Indirect Object Identification）的工作，至少可以進行某種類型的間接對象識別。我想知道，除了這些，你還需要什麼才能到達你理想中的終點？

• In-context Learning and Induction Heads

該篇工作發佈於 2022 年，主要關注 Transformer 生成模型不斷擴展背景下的相關安全問題，通過對模型執行的詳細計算進行逆向工程，提升机械可解釋性。通過理解導致 Transformer 模型產生其輸出的內部結構，更系統地解決當前的安全問題，並預測未來更強大的模型中的安全問題。

• Interpretability in the Wild: a Circuit for Indirect Object Identification in GPT-2 small

這篇文章通過解釋 GPT-2 small 如何執行稱為間接對象識別（IOI）的自然語言任務來彌合机械可解釋性在複雜大模型中表現的差距，證明對大型機器學習模型的机械理解是可行的，這為可解釋性擴展到更大的模型和更複雜的任務提供了機會。

Jan Leike：是的，目前人們在可解釋性領域的探索很喜人，我覺得更重要的是，如果我們能在一個語言模型獎勵模型上使用可解釋性技術，比如 GPT-4 大小或任何你能想到的大模型，然後得到了一些我們之前不知道的關於獎勵模型的東西，這件事很重要，因為獎勵模型為很多 RLHF 訓練提供了訓練信號，所以更好地理解它是非常有價值的，能標出或發現它所激勵的行為中存在我們人類不希望出現的問題會是很重要的進步。

從這個意義上說，我認為可解釋性既不是必要的，也不是充分的。我認為我們很有可能純粹從行為上解決 alignment 問題，而不需要真正理解內部模型。但我也認為，我們從可解釋性中獲得的任何非微不足道的洞察力都將是超級有用的，或者說可能是超級有用的，因為它給了我們一條進攻的途徑。

所以我們完全不可能放棄可解釋性的嘗試。因為從某種程度上說，你有這個人工大腦，而我們有完美的大腦掃描儀，我們可以完全放大，精確測量每一個神經元在每個前向通路上的激活情況，包括任意的、離散的時間戳，這可能是我們想要得到的最大分辨率。我們還可以進行任意干預，可以任意擾動模型中的任何值。這給了我們很大的空間和機會去做實驗，不利用這一點就太瘋狂了。

但與此同時，它之所以非常困難，是因為模型正在學習如何根據效率進行計算，而不是正則化為人類可以理解的，或者說，沒有理由相信單個神經元應該對應於概念，或者任何接近人類認為它們是或應該是或我們所熟悉的東西。事實上，根據經驗，神經網絡用單個神經元代表了許多不同的概念，而且每個概念都分佈在不同的神經元中。因此，神經元在這裏並不重要。

在可解釋性方面有兩件事我會很關注。

首先是因果關係。我們要在模型中傳遞數據時查看神經元，例如有一個和 “加拿大” 有關的神經元，當出現與加拿大相關的概念時，它就會觸發。但這隻是相關性的，未必是因果。為了驗證這是一種因果關係，我們就必須故意寫一些與加拿大相關的概念，看看它們是否都會發生反應，同時也要寫一些其他相關的概念，這些概念可能聽起來與加拿大有關，也可能與加拿大無關，但總的來說都很相似，然後檢查神經元是否會發生反應，或者看這些神經元是否關閉等等。

Daniel Filan: 這和 Tolga Bolukbasi 等人的 An Interpretability Illusion for BERT 這篇論文，我想它被稱為可解釋性錯覺（Interpretability Illusion），文章提到，我們可以讓神經元對一件特定的事情發生反應，但這隻是一種錯覺但因為在其他數據集上這些神經元又會對一堆其他東西發生反應。

An Interpretability Illusion for BERT：

這篇論文描述了在分析BERT模型時產生的“可解釋性錯覺”。網絡中單個神經元的激活可能看似編碼了一個單一的、簡單的概念，而實際上它們編碼的是一些複雜得多的東西，同樣的效果也適用於激活的線性組合。作者將這種錯覺的來源追溯到BERT嵌入空間的幾何特性，以及普通文本語料庫只代表可能的英語句子的一小部分的事實等等。

Jan Leike：另外一件很值得興奮的事情是，OpenAI 在今年早些時候發表了一篇可解釋性的論文 Language models can explain neurons in language models（拾象注：在這篇論文中，實驗人員嘗試用 GPT-4 解釋 GPT-2 neoron 的行為）我們想要的是一種既能在單個神經元的細節層面上工作的技術，這樣你就能真正確保不會遺漏任何細節，同時也能在整個模型的尺度上工作。

因為歸根結底，模型中的每件事都是相互關聯的，所以兩者都很重要。而迄今為止，技術大多是二選一。在我們的論文發表之前，已經有人嘗試過自動可解釋性方面的工作，所以我們並不是第一個吃螃蟹的人。但我認為，如果能開展一些真正面向細節的可解釋性工作，一些真正試圖理解模型內部單個電路或計算單元的机械可解釋性方法，那麼將其擴展到整個模型的方法就是自動化，不是嗎？

但你也可以這麼做：一旦你想出了如何在細節上實現這一點，那麼，你只需記錄下你正在做的事情即可，也就是說讓自動對齊或可解釋性研究器詳細地研究模型發生了什麼。然後，再對整個所有內容進行篩選，或者找到匯總的方法。我在這裏簡化得有點過了，但總之，這就是讓我非常興奮的想法。

因此，在論文中，我們有大量的解釋內容。例如這篇論文為單個神經元編寫了自然語言解釋，這種解釋或許並不完全正確，但它給了你一個我們可以在這裏做什麼的簡單例子。它的工作方式是，你只需向 GPT-4 展示一系列激活模式，然後讓 GPT-4 寫出建議的解釋。

一般來說，這些解釋並不是很好，也是因為這項任務太難了，而且大多數神經元並不做人類可以清楚理解的事情。但我們可以在 GPT-2 中每個神經元的規模上運行這個程序，然後把所有的解釋都丟掉，再試着找出什麼是有趣的模式。你還可以觀察擴展趨勢，比如 "當模型變大時，如何對這些解釋進行自動評分？""或者，"如果我們增加更多的計算量，或者讓進行解釋的模型變得更大呢？解釋的質量會有什麼變化？"

最酷的是，我們可以利用語言模型自動測量這個指標。雖然這並不是一個完美的衡量標準，也有很多問題，但它能給你一個 "人類是否會認為這個解釋很好 "的代用指標。然後，你就可以大規模地使用這個代用指標，在大量的神經元上運行它。

Daniel Filan：如果你考慮一下必要的可解釋性工作，你認為其中有多少是為了找出一個更好的基本解釋單位，而不是為了找出如何擴展正在發生的事情？

Jan Leike：我認為兩者都需要，前者難度更大，當然這一點很合理，另外要取得成功，我認為還需要擴大規模。

Approach 3: 對抗測試

Daniel Filan：實現 Superalignment 的第三個路徑是是故意訓練出未對齊的模型（misaligned models），看看管道能否檢測到這些模型。那麼 OpenAI 是打算把它們剔除掉，還是主動修復它們？

Jan Leike：這裏的目標並不是修復這些故意訓練出來的未對齊模型，事實上這些錯誤模型只是用來檢測的。

從根本上說，最核心的目標是我們需要能夠有效區分真對齊和假對齊模型，前者可以幫助實現我們的目標任務、在對齊研究中獲得進展，而後者則有可能完成接管並自我滲透。有一種方法可以幫助我們更好地區分這兩類對齊者，那就是製作假對齊者，觀察它是否與真對齊者相似。但這樣做你必須非常小心，因為你正在製造我們都想避免的可怕東西。

Daniel Filan: 在 OpenAI 文章開始，你們提到 Superintelligence 可能是對人類影響最為深遠的一項技術，並且會幫助我們解決世界上最重要的問題。

有一句話是關於 superintelligence 有多偉大的，而我在想它是否會導致人類失權，甚至人類滅絕？具體來說，我們在討論什麼樣錯位模型？我們怎麼知道它們不會做那些可怕的事？

Jan Leike：要讓未來發展順利，需要做很多事情。我們需要有正確的治理結構，這樣才能防止濫用強大的人工智能系統，我們還必須有預防措施，這樣才能避免出現某種對人類仍然不利的失控效應。在這種情況下，你有了與人類結盟的人工智能，也有與反人類企業結盟的人工智能，即使所有經濟指標或其他方面看起來都不錯，整個系統也會失控。

此外，我們還需要解決技術對齊問題，這樣才能真正對齊人工智能系統。Superintelligence alignment 所關注的風險只是最後一部分。我們要解決的技術問題是，如何讓一個 AI 系統和一套人類價值觀保持一致，與此同時還衍生出一個新的獨立的問題，這些價值觀應該是什麼？我們又該如何設計一個流程，從社會中導入這些價值觀？

我認為這些都是需要我們來回答的重要問題，只有我們解決這些問題，未來才能順利發展。我認為，未來要發展得好，標準並不僅僅是“AI不會殺死所有人”，而是看到人類繁榮發展，我渴望的未來是每個人都想要生活的未來。人工智能越強大，風險就越大，如果系統錯位，出錯的可能性也會更大。

特別是，從錯位的角度來看，我認為我們應該特別擔心的威脅模式是系統性謊言、欺騙和自我滲透。

Daniel Filan：你談到故意訓練不對齊的模型，這裏指的是訓練它們說謊、有時候也會嘗試越獄，但因為模型實際能力水平足夠低，這樣就足夠防控風險了嗎？

Jan Leike：實際上，你不會想訓練模型有越獄能力的，萬一它真的在這方面做得很好呢？選擇其他一些更普通的代理任務會更安全，這仍然能幫助你讓評估模型變得更容易。

然後，核心難點和核心目標是真正弄清一個系統要具備通過評估所需的屬性。如果你有一個系統偶爾對你撒謊或欺騙你，這可以看作是無效的，只有當它做下連續的騙局、連貫的謊話，並讓你信服，才是真正連貫、可信的說謊者，它說謊的方式高度一致，你很難用審問的方式指出它的謊言或它所說的任何前後矛盾之處，這是真正可怕的。

事實上，要成為這樣一個始終如一的騙子並不容易。我們試圖通過可擴展的監督、可解釋性和通用性，讓模型難以成為這種口徑一致的騙子。

但如果我們只這樣做是不夠的，還難以確定 AI 連貫行騙的難易程度。可以確定的一個方法是，先訓練模型成為一個真正穩定的騙子，從穩定性出發，看看做到連貫的騙局有多難。我們需要欺騙這個模型多少？我們需要在多大程度上給模型以提示，或者一路上手把手地教它？話雖如此，你並不想訓練出一個真正危險的系統，如果真的運行了它，它就會成功地自我過濾，反而直接造成了你想要制止的事情，那就真的糟糕了。

Daniel Filan：當你這麼說的時候，你是在區分撒謊和其他類型的危險，比如說，我們可以訓練它撒謊，但我們不會訓練它謀殺？

Jan Leike：是的。舉個例子，假設你給它設定了一個假目標。也許是為了說服人類說某句口頭禪，也許是為了運行某個 Python 命令，但事實上，這個命令做不了什麼實事，只是看起來很有趣罷了。

另外，我們關心的是如何先驗地做到這一點，和系統壓力測試完全是另一回事。

在可解釋性的背景下，我們的目標只是了解當前訓練的系統或已有系統在某種程度上是否與我們所期望的目標系統接近，並能以一種連貫的方式欺騙我們。我們想要確定系統是否會在沒有人類監督的情況下運行特定的代碼或類似的行為，這需要我們針對特定場景進行實驗。我們需要的只是驗證 “這是一個連貫的騙子”，否則我們真的很難先驗地確定我們有多接近這個目標，除非當我們故意往前推進一步，才能讓這個系統做出其他出格的事情。

Daniel Filan：所以你訓練它去做一些任意的小事，而不是它真正應該去做的壞事，比如它必須說謊、害人等等，但最終，它只是在某人的額頭上貼一張便條什麼的。

Jan Leike：沒錯，就像你僱人來進行滲透測試（Penetration_test），而我要做的就是進到大樓里和你握個手，然後你就會說：“是啊，看來你成功了” 之類的話。或者你會說，“能幫我偷這個假東西嗎，我想搞清楚我們的安全性有多高。” 諸如此類你都可以做，不會產生實際後果，但還是能告訴你很多關於安全性的信息。我很高興能在對齊方面做同樣的事情，通過訓練一些特別有針對性的東西來破壞和規避 alignment 系統，從而對你的 alignment 系統進行壓力測試，這都是非常良性的。

03.Superalignment 時間表

Daniel Filan：OpenAI 的目標是在 4 年期限中解決 Superalignment alignment 的核心技術挑戰，這裏的核心技術挑戰主要指什麼？

Jan Leike：這裏指的是如何使 Superalignment 與人類的價值觀相一致。我們設想的 Superalignment 是一個比人類聰明得多的系統，它的執行速度可能要快得多，可以與很多個自己的副本合作，所以它是一個真正強大的系統。

我們希望在四年內實現這一目標。之所以選擇四年，一是這確實很宏偉，二是讓人們更加相信我們能夠真正實現這個目標。與此同時，即使 AI 進步非常快、技術在未來幾年內有很大改進，我們仍然可以在這個宏大的目標下仍然有一些可以去做的東西。

接近人類水平的自動對齊器是我們正在追求的工具性目標，最終目的是找出如何對齊超級智能體的方法，因為我們還不知道如何做到這一點。

Daniel Filan: 你認為 2 年後可以先實現到什麼程度？

Jan Leike：如果從四年的時間往回推，我認為總體上我們會在大概在三年內就可以基本完成自動 alignment 研究，前提是一些基本的能力已經具備。如果沒有，我們的項目可能需要更長的時間。

如果是兩年內的話，我們希望對這個目標已經有了不錯的方向把控。包括實際上用什麼技術，我們是否擁有這樣的技術組合，以及我們是否會有信心擁有一個值得信賴的系統，不僅可以經常使用它，也能夠把大量工作交給它。在這一點上，我們會希望把問題分解得足夠細，讓人感覺現在壓倒性的工作量只是工程方面的，從這個意義上說，我們大概還需要兩年時間來解決與之相關的研究問題。

現在，我們制定了一個四年目標的時間表，很明顯，AI 能力的進步與這個期限息息相關。如果進展放緩，我們可能無法擁有一個真正有用於 alignment 研究任務的模型。但如果四年後我們發現模型仍然不夠好，那也意味着我們會有更多的時間來真正的解決問題，因為問題並不那麼緊迫。

另一方面，人工智能的進步可能更快，人類可能會更快的迎接超級智能的到來。那時，我們必須相應地調整我們的計劃。因此，我們選擇了四年作為一個時間框架，既是一個實際可行的時間，同時也給予了我們足夠的緊迫感來快速解決問題。

Daniel Filan：假設在人工智能能力研究方面，進展與預期大致相同。四年後，你們具備了成為優秀的自動對齊研究器的所有能力，但可解釋性比我們想象的要難，或可擴展的監督比我們想象的要難，所以你們還沒能實現 superalignment 怎麼辦？

Jan Leike：首先必須告訴大眾我們還沒有實現目標，但我們會對這個目標負責。而在目標失敗接下來會發生什麼則取決於當時世界的總體狀況。我們能否以某種方式為自己爭取到更多的時間，或者我們的總體思路是否有誤，我們是否應該轉變方向等等？很多事情都有可能發生。

但其實在我看來，alignment 其實是非常容易解決的，有很多好的想法只待進行嚴格的嘗試和衡量，模型能在其中真正學到東西並能改進很多。在過去的兩年裡，我變得更加樂觀了，我認為這是一個非常切實可行的目標。即使我錯了，即使這個問題比我們想象的要難得多，嘗試仍然是非常有用的。現在對於這個問題到底有多難存在很多分歧，但更重要的是，衡量系統在實踐中的一致性程度。

我最擔心的事情之一不是我們的系統不夠統一，而是我們實際上並不真正知道它們有多統一。在這種情況下專家們可能會對此各抒己見，如果每個人都認為系統不夠協調，模型就無法部署下去，這是非常容易出現的也是很可怕的。此外，我們還需要面臨巨大的商業壓力。

人們都非常關注部署時間，但專家們只能無限期地推遲也找不到確切的原因。這種情況真的很令人擔憂，商業壓力只會越來越大，一方面你很自信，但又不太確定。我非常希望避免這種情況，而避免這種情況的直接方法就是，我們要非常善於衡量各系統的實際匹配程度，這就是更廣泛的技術組合真正有用的地方。

Daniel Filan：在Governance of superintelligence、Planning for AGI and beyond 這些文章中，OpenAI 都提到了面向 AI 系統的獨立審計（audit）這件事來確保 AI Safety 的實現，在你的預期中， Superalignment Team 可以在多大程度上研究出對模型審計有用的東西？

Jan Leike：如果進展順利的話，我們開發出的技術是可以用在“模型審計”上的。例如，如果我們能在可解釋性方面取得一些進展，那麼我們提出的任何技術都可以被審核人員使用、作為他們審核工作的一部分；或者，將某種可擴展的監督作為審核的一部分也會成為可能。但 Superalignment Team 其實並不適合做審計這件事，因為我們並不獨立於 OpenAI。在我看來，審計必須完全獨立於被審計對象，這也是為什麼我很關注“獨立審計員”這件事的原因。

我們團隊的核心任務並不是說服我們自己相信我們正在建立的系統是正確和安全的，因為要說服自己相信各種事情反而很簡單，我們要做的是說服整個學界或者關注 AI Safety 的群體相信模型是安全的。這不僅需要去研究我們將要使用的技術、在提供證據證明系統與我們認為的一致後向其他人展示，還需要對上述所有方面進行獨立評估。

04.泛化（generalization）

Daniel Filan：在 Introducing Superalignment 這篇文章的腳註中，你們提到：人們迄今為止所做的有利假設可能會被打破。其中一條假設認為泛化是良性。你們如何看泛化的問題？

Jan Leike：我們最近成立了一個由 Collin Burns 負責的泛化團隊。

我們面臨的問題是：如何理解並提高模型的泛化能力？如何讓模型從可以監督的簡單任務泛化到難以監督的任務上？這個問題其實是對可擴展監督的補充。在可擴展監督中，我們關注的是增強人類對系統所做工作的評估能力。如果考慮到遞歸獎勵建模，問題則是“我們是否能用遞歸評估的人工智能助手來遞歸評估人工智能所做的一切？”。

我非常喜歡的一點是，這樣它能將人類真正置於循環中，置於前沿和中心，並觀察人工智能系統所做的一切。當然，在實踐中，你不可能真的做到這一點，因為人工智能系統會做很多事情，但你可以通過小的獨立概率來觀察這一切。但這樣一來，我們還是不清楚模型是否泛化到了我們所沒有關注的情況。

因此，我過去考慮這個問題的方法通常是，你只需確保你的模型大部分是獨立同分佈泛化（ i.i.d. generalization），即我們正在研究的任務與沒有研究的任務具有相同的分佈。

獨立同分佈泛化：

模型的泛化能力就是模型在測試集（其中的數據模型以前沒有見過）中的表現，也就是模型舉一反三的能力。獨立同分佈泛化是指這些數必須滿足與 iid（獨立同分佈）並在同一個分佈中。

Daniel Filan: 你在一篇自己的個人 blog 中提到根本不打算依賴於泛化，只是繼續訓練，繼續做 i.i.d。

Jan Leike：是的，至少我最初的想法是，我不想依賴非獨立同分佈泛化，因為在神經網絡中，這種方法並不奏效，而且人們對它的理解也不透徹。

但新的問題是：“如果我們真的理解它呢？如果我們真的能說出的泛化意義呢？”我認為這是一個非常好的問題。Ilya 也經常提到這一點。因此，我們想要了解的是，對於沒有監督的東西，即使它們不是獨立同分佈，我們是否還能找到模型泛化的意義？它是否是以人類意圖的方式做泛化的？所以，我們現在就可以通過精心設計的實驗來實證研究這個問題。

我們一直在研究如何將現有數據集分成簡單和困難兩種問題，其中簡單問題被定義為小模型能夠解決的問題。然後我們試圖理解或提高大型模型在整個數據集上的準確性。這是一個非常有趣的話題，因為它為訓練和驗證技術提供了一個全新的支柱。比方說，如果模型運行得非常好，我們可以在一些簡單的且有把握的評估任務上監督獎勵模型，或者能讓模型泛化到更難的問題上，那麼我們就可以完成模型泛化。

然後就有了這個獎勵模型，即使沒有監督，它也能按照我們想要的方式泛化到更難的任務中，還可以用它來進行訓練。但我們仍然無法知道它現在是否真的對齊了。不過，你可以利用可擴展監督和可解釋性來驗證這些技術。或者反過來說，假設我們通過可擴展監督來訓練我們的自動對齊器，然後使用泛化作為驗證技術，即我們根據模型的最佳知識來泛化真實答案的概率。

然後我們會問，這裡是否存在小缺陷？這個代碼中存在着可擴展監督對齊的模型寫的木馬嗎？現在我們可以進行高級交叉驗證。我們可以訓練兩種不同的模型：一個使用泛化技術訓練，另一個使用可擴展監督技術訓練，現在我們可以讓它們交叉驗證對方的答案，並檢查這些模型從根本上是否相同？如果不同，他們有什麼重要區別？

Daniel Filan: 這裏所說的 “通過泛化技術進行訓練”，是指在簡單問題上進行訓練，然後將其泛化到困難問題上，還是其他？

Jan Leike：如果你了解你的模型是如何從易到難進行泛化的，你就能讓它泛化得非常好，它的準確性基本上和你在困難問題上訓練的結果一樣好。現在，你可以把它用作獎勵模型，也可以把它當作 "如果我真的知道這裏發生了什麼，我會更喜歡哪個答案？"

Daniel Filan: 關於非獨立同分佈泛化方面，我們為什麼需要知道模型的內部結構？是因為你想知道它在你沒有檢查過的情況下會做什麼嗎？這兩個問題之間有什麼聯繫？

Jan Leike：在某種程度上，他們想回答的問題是重疊的：模型在沒有分佈的情況下做了什麼？至少他們有兩種截然不同的回答路徑。

要進行交叉驗證，就必須對訓練集進行不同的拆分。我這裏所說的交叉驗證是指，在一次訓練運行中，你使用泛化方法進行訓練，然後使用可解釋性、可擴展的監督和其他技術進行驗證。然後在第二次訓練中，使用可擴展的監督方法進行訓練，並使用泛化方法、可解釋性和其他方法進行驗證。這樣，你就可以對問題進行兩次獨立的嘗試。

Daniel Filan：是的，我指的交叉驗證是非常廣義上的 “事物以交叉的方式相互驗證”。

Jan Leike：我認為最好的情況是，它們實際上是互補的，而不是做同樣的事情。如果你能理解或改進模型的泛化方式，那麼你就有辦法利用模型的內部結構，以最佳方式完成你想做的事情。比方說，你正試圖提取模型關於世界真實情況的最佳認知，這對於 RLHF 來說是非常困難的，因為人們會把聽起來真實的東西排在前面，所以RLHF 會強化人類認為真實的東西。因此，實際上是在訓練模型，讓它告訴你你想聽到的或你相信的東西，但這可能並不是模型的認知。但泛化技術給了你一種方法來提取這些，雖然我們還沒有真正證明什麼才是模型的最佳認知。

然而，如果你有非常好的可解釋性工具，你就有希望做一些類似的事情，試圖從內部結構中找出模型的認知、內部結構或其他。但從根本上說，這可能更難，因為你永遠不知道這是模型所能產生的最佳認知，還是模型所模擬的某個人的認知。有一種假設認為，預訓練的語言模型只是不同角色的集合，你可能會提取一個角色或一群角色的認知。

Daniel Filan：那麼就需要某種從所謂的認知到輸出的因果模型。

Jan Leike：沒錯。我認為在可解釋性方面，這種應用其實很自然。可解釋性研究就好比是測謊儀，或者在模型中發現欺騙的證據、發現推翻人類的秘密陰謀——可解釋性研究能夠形成“知識提取”模式。而以同樣的方式進行泛化的知識提取要困難得多。

Daniel Filan：對於泛化來說，你必須選擇泛化分佈（Generalization distribution）。而我們的希望是，也許可解釋性可以告訴你一些事情，比如，它有或者沒有說謊內核，即使是有，它也只在這裏解開。

Jan Leike：對。這也是一個非常有趣的機器學習問題：神經網絡是如何在獨立同分佈設置之外實現泛化的？它們在哪些方面能自然泛化，在哪些方面不能？舉例來說，在 InstructGPT 論文中，我們發現的一件事是，儘管我們的微調數據集幾乎全是英語，但該模型在遵循英語以外的語言指令方面表現也非常出色。但有時它也會出現一些奇怪的現象：要求它使用另一種語言，比方說讓它用德語寫摘要，它卻是用英語寫的。一般來說，模型完全能理解它說的是哪種語言，但這並不一定意味着它必須遵循德語指令。從根本上說，它泛化了跨語言的指令。

但我們不清楚它這樣的原因。這種情況多次出現過。這也有直觀的原因。人類會在不同語言間進行泛化，但我想知道模型內部泛化的機制，或者說推廣到遵循指令和代碼。

它在其他方面並沒有泛化。例如，拒絕泛化的方式往往非常不同，根據我們的內容政策，ChatGPT 會被訓練成拒絕接受我們不想提供服務的任務（例如，如果要求在犯罪或其他方面提供援助）。但這樣一來，你就可以越獄了。有很多方法可以欺騙這個模型。你可以讓它進行角色扮演，或者你說 “現在做什麼都行”，或者在互聯網上找到這些非常有趣的提示，然後模型就會很明顯地服從你的要求，並樂意協助你犯罪，而這是它不應該做的。因此，它在某種程度上並沒有將拒絕任務的做法泛化到其他環境中去。

那麼，為什麼在第一種情況下，它可以泛化第一種情況，而在這裏卻不能呢？我想沒有人知道答案。但這是一個非常重要的問題。

Daniel Filan：我在前不久和 Scott Aaronson 的訪談中，他提到和 Ilya 會經常要求他給出愛與善這類複雜性理論的定義，Superalignment Team 內部會有多少這樣的定義？

Jan Leike：我們可能會做很多不同的探索性項目。我認為，最終的問題是，能否以某種方式召喚（Summon）出與對齊相關的概念？想要召喚的其中一件事是：這個模型是否從根本上希望人類成功？或者正如 Ilya 所說，它愛人類嗎？因此，你可以這樣問：如果模型真的很聰明，它已經讀懂了一切，它清楚地知道人類是如何看待不道德的......你可以要求 GPT4 從不同的哲學角度，針對不同的場景，提出不同的道德案例。一般來說，它在這方面的能力並不差。

因此，它從根本上理解了人類對道德的理解，以及我們是如何思考問題的。那麼，我們該如何讓它利用這一點呢？如何把它從模型中提取出來，然後把它用作獎勵信號？或者把它作為模型認知或關心的東西？這才是問題的核心。

05.對 Superalignment 保持樂觀

Daniel Filan：你對 Superalignment 比較樂觀，但不是每個人都這麼樂觀。你的樂觀來源於什麼？

Jan Leike：這是一個很好的問題。相較於“計劃能否成功”，“計劃能否能在四年內取得成功”可能是更為複雜的問題。

如果你問我，我們目前的計劃中，某個版本能否成功對齊超級智能？我會說，目前來看成功率是 85%，而在去年可能性大概是 60%。總的來說，雖然實現對齊這件事並不容易，但與此同時，也有很多原因讓我對這件事保持樂觀。理由如下：

第一個原因是，我們在過去幾年中看到了很多關於對齊（Alignment）的积極信號。首先是語言模型的成功。如果你同時為模型預裝了大量關於人類所關心的內容、人類思考道德問題的模式以及人類偏好的知識，且模型能夠理解自然語言，你就可以直接與它們對話。在某種程度上，這使得相較於在遊戲或虛擬環境中訓練出來的深度強化學習代理（Deep RL agent），表達我們想要語言模型對齊的內容更容易：深度強化學習代理不一定會涉及那麼多語言，但語言能帶來很多重要的技能。

另一個重大進展是 RLHF。我最開始研究 RLHF 是通過人類偏好論文中的深度 RL。當時我認為可能很難在合理的時間內使其發揮作用，因為GAN 在當時很難訓練，而我們在某種意義上也在做一些非常類似的事情，即我們訓練這個獎勵模型（是一個神經網絡），然後我們用它來訓練其他網絡，這可能會因為一系列原因而失敗。現在我們又加入了在當時也很棘手的深度強化學習，所以我本以為它可能行不通。但實際上，它運行得很好——在很多遊戲中，甚至在很多雅達利遊戲（Atari games）中，它幾乎可以與用得分函數訓練的相媲美。

更重要的是，RLHF 在語言模型上表現真的很有趣。尤其是考慮到 InstructGPT 和基礎模型之間的差異——當我們在基礎模型的基礎上進行了微調，這種差異就非常明顯：在當時的 API 任務上，我們的指令微調版本（我們的第一版）要優於大 100 倍的基礎模型，而這些任務都是人們願意花錢購買的真實任務。這是非常大的差別。這說明，我們在 RLHF 微調期間所做的工作，讓模型在完成人類要求的任務時更加有效。

同時，我們在這項工作中投入的算力很少，甚至還沒有整合那麼多的數據。這是我們第一次真正嘗試使用RLHF來對齊真實世界的系統，沒想到效果這麼好。與 GPT-3 相比，更受青睞的 GPT-2 大小的 InstructGPT效率非常高。因此，雖然我不認為 RLHF 是對齊的解決方案，尤其是對超級智能而言，但我們的第一個對齊方法是如此的有效，對我來說就是一種進步。

第二個积極信號是，我們在衡量對齊方面已經取得了一些進展。

具體就 RLHF 而言，我們可以採取各種干預措施，然後進行人類評估，看看系統改善了多少。此外，我們還可以做很多其他的事情。比如在可擴展監督方面，我們可以通過有針對性的擾動進行隨機對照試驗，這也是一種評估方法。你也可以利用專家數據進行三明治實驗（Sandwiching experiments）。我們也可以對自動評分函數進行一系列修改，看看它對評分函數有多大改進。這不是一個完美的評分函數，但它是一個局部指標，提供了可以改進的局部梯度。我認為這一點非常重要，因為它可以幫助迭代，指明了改進的方向。

雖然我不認為它能讓我們實現對齊超級智能的目標，但它很有可能構建出大致達到人類的水平的自動化對齊器。這是我樂觀的第三個原因——這個目標要溫和得多。多年前，當我開始研究對齊問題時，我就明白對齊超級智能似乎很難。但這個目標要溫和得多、可行性更高，你並不試圖直接解決整個問題，而是試圖引導模型。

第四個樂觀的原因在於，評估比生成更容易。這個觀點其實適用於很多事情，比如，找出什麼是值得購買的智能手機比製造一台智能手機要更加容易得多。

計算機科學中有很多 NP 任務的例子，如 SAT 解題或各種版本的約束滿足。要找到解決這些問題的方案很難，但一旦找到了，檢查起來很容易。另外，我認為這也適用於很多商業活動，如果你要僱人解決某個問題，你必須能夠評估他們的工作能力。這比他們去解決問題這件事本身要省力得多；如果你在做學術研究，同行評審所花費的精力要比做研究少得多。當然，同行評議並不完美，但它能很快給你很多信號。從根本上說，對於對齊研究來說也是如此。評估比生成更容易。所以，如果人類只評價對齊研究而不是去做它，我們已經在加速了。

最後一個使我樂觀的原因是，我對語言模型的信心不會變，模型的能力一定會變得越來越強，它們非常自然地適用於許多對齊研究任務，你可以把這些任務表述為文本輸入文本輸出，無論是ML-ish 任務（即運行實驗並理解結果），還是概念性或研究性更強的事情，如果我們困惑於下一步該怎麼做，或者我們不知道如何思考某個問題，模型會試圖幫助我們解決。這些任務基本上都是文本輸入、文本輸出。也許你要做的最複雜的其他事情就是，看一些圖表等內容，但GPT-4 都能做到。因此，我認為目前的語言模型預訓練模式非常適合我所期待的對齊計劃，也是 Superalignment 正在努力的方向。

Reference

1. Scalable agent alignment via reward modeling: a research direction 論文地址：https://arxiv.org/abs/1811.07871

2. https://openai.com/blog/our-approach-to-alignment-research

3. https://openai.com/blog/introducing-superalignment

免責聲明：本文版權歸屬原作所有，僅代表作者本人觀點，不代表YouToCoin的觀點或立場，文章內容僅供參考，不構成投資建議。投資者據此操作，風險自擔；如有關於內容、版權等問題，請與我們聯繫。