所有語言
分享
文章來源:新智元
這項綜述性研究報告批判性地分析了生成式AI的發展現狀和發展方向,並探究了谷歌Gemini和備受期待的OpenAI Q*等創新成果將如何改變多個領域的實際應用。
圖片來源:由無界 AI生成
近日,來自澳大拉西亞理工學院、梅西大學和皇家墨爾本理工大學等機構的研究人員進行了一項全面的綜述,深入探討了生成式AI不斷演變的格局。
研究特別關注了混合專家模型(MoE)、多模態學習的變革性影響,以及對通用人工智能(AGI)的推測進展。
論文地址:https://arxiv.org/abs/2312.10868
- 嚴格審視了生成式人工智能(AI)的當前狀態和未來軌跡,探索了像谷歌的Gemini和期待中的OpenAI Q*項目這樣的創新是如何重塑研究優先事項和在各個領域的應用,包括對生成式AI研究分類法的影響分析。
- 評估了這些技術的計算挑戰、可擴展性和現實世界的影響,同時強調了它們在推動像醫療健康、金融和教育等領域顯著進展的潛力。
- 討論了由AI主題和AI生成的預印本的擴散所帶來的新興學術挑戰,檢查了它們對同行評審過程和學術交流的影響。
- 強調了在AI發展中融入倫理和以人為本的方法的重要性,確保與社會規範和福祉的一致,並概述了一個未來AI研究的戰略,該戰略聚焦於MoE、多模態和AGI在生成式AI中的平衡和審慎使用。
人工智能(AI)的歷史背景可以追溯到艾倫·圖靈的「模仿遊戲」、早期的計算理論,以及第一批神經網絡和機器學習的發展,這為今天的高級模型奠定了基礎。
這種演變,被像深度學習和強化學習的興起這樣的關鍵時刻突出地表現出來,對塑造當代AI的趨勢至關重要,包括複雜的混合專家模型(MoE)和多模態AI系統,展示了該領域的動態和不斷演進的特性。這些進展證明了AI技術的動態和不斷髮展的本質。
人工智能(AI)的演化在大語言模型(LLM)的出現,特別是由OpenAI開發的ChatGPT,以及最近Google的Gemini的揭幕,見證了一個關鍵的轉折點。這項技術不僅徹底改變了行業和學術界,還重新點燃了關於AI意識及其對人類潛在威脅的關鍵討論。
這樣的先進AI系統的發展,包括像Anthropic的Claude和現在的Gemini這樣的重要競爭者,它們展示了對比GPT-3和Google自己的LaMDA的幾項進步,重塑了研究格局。
Gemini具有通過雙向對話學習的能力,以及其「spike-and-slab」注意力方法,使其能夠在多輪對話中專註於上下文的相關部分,代表了在開發更適合多領域對話應用的模型方面的重大飛躍。這些在LLM中的創新,包括Gemini所採用的混合專家方法,標志著向能夠處理多樣輸入並促進多模態方法的模型的轉變。
在這種背景下,OpenAI被稱為Q*(Q-Star)的項目的猜測已經浮出水面,據稱結合了LLM的強大能力和像Q學習和A*(A-Star算法)這樣的複雜算法,進一步促進了動態的研究環境。
隨着大語言模型(LLM)領域的不斷髮展,由Gemini和Q*等創新所體現,大量研究浮現出來,旨在描繪未來研究的道路,這些研究從識別新興趨勢到強調快速進展的領域各不相同。
已建立方法和早期採納的二分法很明顯,LLM研究中的「熱門話題」正日益轉向多模態能力和由對話驅動的學習,正如Gemini所展示的那樣。
預印本的傳播加速了知識共享,但也帶來了降低學術審查的風險。Retraction Watch指出的固有偏見問題,以及關於剽竊和偽造的擔憂,構成了重大障礙。
因此,學術界站在一個十字路口,需要統一努力,以根據該領域快速發展的背景來完善研究方向,這種變化似乎可以通過隨時間變化的不同研究關鍵詞的流行程度來部分追蹤。
像GPT這樣的生成式模型的發布和ChatGPT的廣泛商業成功具有影響力。
如圖1所示,某些關鍵詞的興衰似乎與重要的行業里程碑有關,例如2017年「Transformer」模型的發布、2018年GPT模型的發布,以及2022年12月商業化的ChatGPT-3.5。
例如,與神經網絡應用的突破相一致的是對「深度學習」的搜索高峰,而隨着像GPT和LLaMA這樣的模型重新定義了語言理解和生成的可能性,「自然語言處理」的興趣激增。
儘管有些波動,對AI研究中的「倫理/道德」持續關注反映了對AI道德維度的持續和根深蒂固的關切,強調道德考慮不僅僅是一種反應措施,而是AI討論中不可分割和持久的對話。
從學術角度來看,假設這些趨勢是否意味着一種因果關係,即技術進步驅動研究重點,或者蓬勃發展的研究本身推動了技術發展,這是相當有趣的。
本文還探討了AI進步的深遠社會和經濟影響。作者檢查了AI技術如何重塑各個行業,改變就業格局,並影響社會經濟結構。這一分析突出了AI在現代世界中所提出的機遇和挑戰,強調了其在推動創新和經濟增長方面的作用,同時也考慮了倫理影響和對社會的潛在破壞性。
未來的研究可能會提供更明確的見解,但創新與學術好奇心之間的同步互動仍然是AI進步的標誌。
與此同時,如圖2所示,在arXiv上發布的計算機科學>人工智能(cs.AI)類別下的預印本數量的指數增長,似乎標志著AI社區內研究傳播的範式轉變。
儘管快速分發研究成果使知識交流迅速,但它也引發了對信息驗證的擔憂。
預印本的激增可能導致未經驗證或有偏見的信息的傳播,因為這些研究沒有經過同行評審出版物典型的嚴格審查和可能的撤回。
這一趨勢強調了學術界需要謹慎考慮和批判,特別是考慮到這些未經審核的研究可能被引用和它們的發現被傳播的潛力。
這篇綜述的動力是Gemini的正式揭幕和圍繞Q項目的推測性討論,這促使對生成式人工智能(AI)研究的主流趨勢進行及時審視。
論文具體貢獻於理解混合專家模型(MoE)、多模態和人工通用智能(AGI)如何影響生成式AI模型,為這三個關鍵領域提供詳細的分析和未來方向。
論文旨在批判性地評估現有研究主題中過時或無關緊要的可能性,同時深入探討在快速變化的LLM格局中新興的前景。
預期AI的進步不僅會在語言分析和知識合成方面提高能力,還將在混合專家模型(MoE)、多模態和人工通用智能(AGI)等領域開創先河,並已經宣告了傳統的、以統計為驅動的自然語言處理技術在許多領域的過時。
然而,AI與人類倫理和價值觀保持一致的永恆要求仍然是一個基本原則,而推測性的Q-Star計劃提供了一個前所未有的機會,來引發關於這些進步如何重塑LLM研究地形的討論。
在這種環境中,NVIDIA高級研究科學家Jim Fan對Q的見解,尤其是關於學習和搜索算法的融合,為這種努力的潛在技術構建和能力提供了寶貴的視角。
論文的研究方法涉及使用「大型語言模型」和「生成式AI」等關鍵詞進行結構化文獻搜索。
作者在IEEE Xplore、Scopus、ACM Digital Library、ScienceDirect、Web of Science和ProQuest Central等幾個學術數據庫中使用過濾器,以識別2017年(Transformer模型發布)到2023年(本文撰寫時間)期間發表的相關文章。
本文旨在剖析Gemini和Q的技術影響,探討它們(以及類似技術的不可避免出現)如何改變研究軌跡並在AI領域開闢新視野。
在此過程中,我們確定了三個新興的研究領域——MoE、多模態和AGI——它們將深刻地重塑生成式AI研究格局。
本次調查採用綜述式方法,系統地繪製了一幅綜合併分析生成式AI當前和新興趨勢的研究路線圖。
本研究的主要貢獻如下:
1) 對生成式AI不斷演變的格局進行了詳細考察,強調了像Gemini和Q這樣的技術的進步和創新及其在AI領域的廣泛影響。
2) 分析了先進生成式AI系統對學術研究的轉型效應,探討了這些發展如何改變研究方法、設立新趨勢,並可能導致傳統方法的過時。
3) 全面評估了生成式AI在學術界整合中引起的倫理、社會和技術挑戰,強調了將這些技術與倫理規範保持一致的重要性,確保數據隱私,並制定全面的治理框架。
當前生成式AI研究分類法生成式人工智能(AI)領域正在迅速發展,這需要一個全面的分類法,涵蓋該領域內研究的廣度和深度。
如表I所詳述,這個分類法將生成式AI的主要研究和創新領域進行了分類,並作為理解該領域當前狀態的基礎框架,指導我們穿越不斷髮展的模型架構、先進訓練方法、多樣的應用領域、倫理含義和新興技術前沿的複雜性。
生成式AI模型架構經歷了顯著的發展,其中四個關鍵領域尤為突出:
生成式AI研究中的新興趨勢正在塑造技術和人類互動的未來,並表明了一個向更集成、交互和智能化的AI系統的動態轉變,推動AI領域可能性的邊界向前發展。這一領域的關鍵發展包括:
在蓬勃發展的AI領域中,備受期待的Q項目被視為潛在突破的燈塔,預示着可能重新定義AI能力格局的進步(見圖5)。
A. 增強的通用智能
Q在通用智能領域的發展代表了從專業化到整體化AI的範式轉變,表明了模型認知能力類似於人類智能的擴展。這種高級形式的通用智能涉及整合多種神經網絡架構和機器學習技術,使AI能夠無縫地處理和綜合多方面的信息。通用適配器方法,模仿像T0這樣的模型,可能賦予Q快速吸收來自各個領域知識的能力。這種方法允許Q*學習適應性模塊插件,增強其處理新數據類型的能力,同時保留現有技能,從而形成一個將狹窄專業化結合成為全面、適應性和多功能推理系統的AI模型。
B. 高級自學與探索
在高級人工智能(AI)開發領域,Q*預計將代表自學習和探索能力的顯著進化。有人猜測它將使用複雜的策略神經網絡(NNs),類似於AlphaGo中的那些,但對於處理語言和推理任務的複雜性進行了實質性的增強。預計這些網絡將採用高級的強化學習技術,如近端策略優化(PPO),這穩定了策略更新並提高了樣本效率,這是自主學習中的一個關鍵因素。將這些NNs與尖端搜索算法結合,可能包括思維樹或思維圖的新型迭代版本,被預測為使Q能夠自主導航和吸收複雜信息。這種方法可能會利用圖神經網絡來增強元學習能力,使Q能夠迅速適應新任務和環境,同時保留先前獲得的知識。
C. 卓越的人類水平理解
有人猜測,Q實現卓越的人類水平理解的願望可能依賴於多個神經網絡的高級集成,其中包括價值神經網絡(VNN),與AlphaGo等系統中的評估組件相似。這個網絡將不僅僅限於評估語言和推理過程中的準確性和相關性,還會深入探討人類溝通的微妙之處。該模型的深度理解能力可以通過先進的自然語言處理算法和技術來增強,比如在DeBERTa等Transformer架構中找到的那些。這些算法將使Q能夠解釋不僅僅是文本,還包括意圖、情感和潛在含義等微妙的社交情感方面。通過結合情感分析和自然語言推理,Q*可以瀏覽各種社交情感洞察,包括共情、諷刺和態度。
D. 高級常識推理
有人預測,Q在高級常識推理方面的發展將整合複雜的邏輯和決策算法,可能結合了符號AI和概率推理的元素。這種整合旨在賦予Q對日常邏輯的直觀理解,以及與人類常識類似的理解,從而彌合人工智能和自然智能之間的重要差距。Q推理能力的增強可能涉及到圖結構化的世界知識,包括物理和社交引擎,類似於CogSKR模型中的引擎。這種以物理現實為基礎的方法預計能夠捕捉並解釋當代人工智能系統經常缺乏的日常邏輯。通過利用大規模知識庫和語義網絡,Q可以有效地應對複雜的社交和實際場景,使其推理和決策更貼近人類的經驗和期望。
E. 廣泛的現實世界知識整合
有人猜測,Q整合廣泛的現實世界知識的方法可能涉及使用先進的形式驗證系統,這將為驗證其邏輯和事實推理提供堅實的基礎。當與複雜的神經網絡架構和動態學習算法相結合時,這種方法將使Q能夠深入參与現實世界的複雜性,超越傳統人工智能的限制。此外,Q*可能會使用數學定理證明技術進行驗證,確保其推理和輸出不僅準確,而且在倫理上有基礎。在這個過程中加入倫理分類器進一步增強了其能力,以提供可靠和負責任的對現實世界情景的理解和互動。
結論
這份綜述調查着手探索了生成式AI研究中的變革性趨勢,特別關注了像Q*這樣的推測性進展以及向人工通用智能(AGI)的進步步伐。
論文的分析突出了一個關鍵的範式轉變,由混合專家模型(MoE)、多模態學習和對AGI的追求等創新所驅動。這些進步預示了一個未來,AI系統在推理、上下文理解和創造性問題解決方面的能力可能顯著提升。
儘管有這些進步,仍然存在一些未解決的問題和研究空白。
這些包括確保先進AI系統與人類價值觀和社會規範的倫理一致性,這一挑戰因它們日益增長的自主性而變得更為複雜。
在多樣化環境中AGI系統的安全性和健壯性也仍是一個重大研究空白。應對這些挑戰需要多學科方法,融合倫理、社會和哲學視角。
這項調研強調了AI未來跨學科研究的關鍵領域,強調倫理、社會和技術視角的整合。這種方法將促進協作研究,彌合技術進步與社會需求之間的差距,確保AI發展與人類價值觀和全球福祉保持一致。
在我們繼續前進時,AI進步與人類創造力之間的平衡不僅是一個目標,而且是一個必要性,確保AI的作用是一個補充力量,增強我們創新和解決複雜挑戰的能力。
我們的責任是引導這些進步,豐富人類體驗,使技術進步與倫理標準和社會福祉保持一致。
參考資料:
https://arxiv.org/abs/2312.10868