所有語言
分享
原文來源:光錐智能
文|郝鑫
圖片來源:由無界 AI生成
1月10日,OpenAI推出了在線商店“GPT Store”。該商店已於昨日開始向付費用戶、團隊和企業用戶推出,商店彙集了用戶為各種任務創建的ChatGPT的自定義版本。
2023年初到年末,Agent就像一位來自異域的吉普賽女郎,“神秘”且“性感”。
從微軟發布Microsoft 365 Copilot,引入一種基於大模型的應用開發範式,揭開了智能化的第一篇章;
到AutoGPT、BabyAGI、HuggingGPT、AgentGPT等單一Agent,向MetaGPT、AutoGen、ChatDev等多Agent框架進化,勾勒出如“斯坦福小鎮”般的群體智能體藍圖;
再到OpenAI開發者大會,提出用“GPTs”方式開發Agent,更便捷的方式意味着門檻進一步降低,藉此也引發了一波Agent創業熱潮。
(圖:用戶創建的各種GPTs)
剛結束的奇績創壇秋季路演中,AI方向,51家大模型主題公司,有34家與Agent 相關。
投資人態度一百八十度大轉彎,從諱莫如深到求賢若渴,熱錢撒向了瀾碼科技、實在智能、AutoAgents等新秀。
但至此,也才犹如一陣風吹過,微微掀起了Agent這位女郎面紗的一角。
“ AI Agent就是未來”,OpenAI聯創Andrej Karpathy呼喚着。
微軟比爾蓋茨發出了“五年內每個人都將擁有AI私人助理Agent,Agent將顛覆軟件行業 ”的最強音。
Agent未來將至,但籠罩在其身上的迷霧卻久久不能散去。在基本的概念理解上,仍然眾說紛紜,有人認為Agent是一種分解複雜任務的框架;有人認為Agent是大模型應用的落地抓手;有人認為是一種新的交互方式;也有人認為是一種原子化的智能生產力……
對於Agent的不同理解,一定程度上決定了道路選擇。從目前落地現狀來看,大致可以分為三類:
“核心在於不去主動定義Agent,而是讓Agent來自我定義”,System2 Research產品化負責人陳鍇傑道。
作為Agent“自我進化”觀點的推崇者,集結了OpenAI GPT 架構的共同作者和來自MIT、劍橋、普林斯頓等學校的技術和理論資源的創業公司System2 Research ,從2018年就已經關注到了Agent技術,GPT能力的湧現讓其看到落地的可能性。得益於此,在大部分企業還在鑽研概念和技術階段,這個十人規模的團隊已經在開始在時尚、遊戲、教育等領域探索落地和商業化。
大模型來了以後,Agent發生了怎樣的改變?如何讓Agent像人一樣自我進化?為什麼泛娛樂場景是Agent快速着陸的第一站?帶着重重疑惑,光錐智能對話System2 Research團隊,解開關於Agent的迷思。
核心觀點如下:
1、Agent的脈絡就是在不斷地抽象世界知識去壓縮,什麼時候抽象能力足夠強,能支撐在足夠多場景互動,就是其從實驗室走嚮應用之時。
2、因為大模型能力的突破,未來五年,Agent技術將會有極大的改變。
3、真正發生改變的是,有了大模型后,今天的Agent完成了從演員到導演的角色轉變。
4、核心在於不去主動定義Agent,而是讓Agent來自我定義。從需求起點出發,Agent可以自行去填補中間過程空白,完成最終的目標。
5、Agent與大模型能力處於垂直方向,即大模型的底座越好,Agent的能力也就越強。
以下為對話實錄:
光錐智能:OpenAI的開發者大會徹底帶火了Agent的概念,這對你們這類Agent創業公司有哪些直接影響?
System2 Research:我覺得這個問題十分有意思,以前我們在和投資人接觸聊Agent的時候,投資人的第一反應是“哦,是Agent”,表現出的興趣不大,大多數情況下其實不知道我們在干什麼。但現在出去再聊,幾乎是一擁而上,路演現場,雖然只是簡單地展示了一下demo,還是有很多人過來主動聯繫。總之,大家的眼神中多了一絲驚喜。
光錐智能:你和你的團隊是從什麼時候關注到Agent技術的?是什麼原因讓Agent從實驗室走向了應用?
System2 Research:實際上,團隊中大多數人都在上學期間或實驗室里就接觸到了Agent相關的理念和技術,在這個研究方向上甚至有人一直從2018年跟進到了現在。以我來舉例,早在大二的時候就接觸到了Agent,那時我在杜克大學的交互實驗室裏面研究如何控制火星車的運行,其中涉及的控制算法跟Agent的概念大致相同。可以把火星車想象成一個Agent,要讓它能夠自主地在複雜環境中運行、反饋。
在第一次遊戲創業上,我也曾有過類似的嘗試。2020年,那時還沒有大模型的概念,所以要完成一個遊戲世界的構建,需要通過壓縮現實世界的知識來實現,以此來模擬NPC、玩家的心智,達到更好的體驗效果,那也是我第一次去主動研究Agent技術。儘管,我們設計了很多玩法,推動遊戲用戶來進一步豐富遊戲世界模型,但模擬、反饋效果卻不是很盡如人意。
我們發現,Agent從只能模擬運行幾條簡單的規則,發展至從心理學、神經科學的角度來仿真人的思考過程,其整條脈絡就是在不斷地抽象世界知識然後去壓縮,什麼時候抽象能力足夠強,能支撐在足夠多場景中互動,就是其從實驗室走嚮應用之時。
顯然,這個時刻已經來了,那就是GPT的誕生。今年年初最讓我震撼的瞬間就是,基於GPT模型的一些小範圍嘗試,竟然能夠完成Agent在心智層面對人的高度抽象和模擬。也是從那個時刻開始,我們堅定地認為,因為大模型能力的突破,未來五年,Agent技術將會有極大的改變。
光錐智能:關於Agent到底是什麼,至今仍眾說紛紜,你們是如何定義和理解Agent概念的?
System2 Research:我們通常會嘗試用一種比喻來解釋對Agent概念的理解。首先,我們談到Agent的前提,它得是一個帶有智能屬性,能在某一個環境中做動作,並基於這個行為在環境空間中做出反饋。這個核心的定義,發展了20多年,其實差異性不大。我們認為,真正發生改變的是,有了大模型后,今天的Agent完成了從演員到導演的角色轉變。
以前控制Agent的主動權在用戶手中,Agent被告知,表情需要再誇張一點,腿需要再抬高一點,按照指令來演出。但現在,Agent進化為了導演,能夠指揮片場所有演員和工作人員的編排,最後呈現出一部大戲。
光錐智能:你們對Agent的理解和現在市場上其他定義的區別在哪裡?
System2 Research:我們看到,現在大部分的大模型都是通過prompt這類language engine(語言引擎)來喚醒,這相當於我現在有GPT這樣的技術,也有一個目標,但技術到目標實現中間存在特別大的鴻溝。我們認為,這個gap,靠語言指令是無法填補的,要靠具體的動作來完成實現。
我們的核心在於不去主動定義Agent,而是讓Agent來自我定義。這樣的定義,十分具有生命力,因為它是從問題和需求角度出發,即從發出指令、產生需求的起點,到中間過程再到目標實現都是靠智能體自行完成,而大模型在其中的角色就是提供Agent運行所需的能力支持。
比如在學習設計過程中,我們讓Agent自己去學習和理解,去看各種成功的和失敗的案例,直接從這些案例中掌握通用的方法,提升設計的能力。等到開始設計鞋子的時候,就不需要人去告訴它第一步應該做什麼,第二步應該找哪些顏色搭配方案參考,而是可以像一個設計師一樣,有自己的一套方法論。
過分地去強調流程、組織是沒有太大意義的,特別是在創意性的行業,畢竟作為人類我們最想要的是最終的呈現結果,到底是三步還是十步完成,不是很重要。若Agent在自我學習后,幫人類簡化流程,一步到位,將能釋放更大的生產力。
光錐智能:OpenAI以“GPTs”的方式提出了Agent的創作框架,在你們看來,目前這種框架還存在哪些缺陷?基於自身的思考,你們如何從技術上構建自身的Agent?
System2 Research:OpenAI提出了Agent創作框架,但事實上,GPTs 只是 Agent框架,並沒有解決Agent的核⼼技術要點。在實際落地過程中,我們也發現,GPTs也僅能滿足一些初步的需求,並不能真正地現實應用場景中。
(圖:使用ChatGPT-4創建GPTs的界面)
因此我們小組的研究着重於解決 GPT-4 和 GPTs 中沒有解決的長期記憶、魯棒性、成本高、效率低、可控性差等一系列的Agent問題。
總結下來,我們的整個技術框架包含了五個特點。
光錐智能:System2 Research和時諦智能的關係是怎樣的?為什麼把時尚行業作為Agent技術落地應用場景的第一站?
System2 Research:System2 Research小組是⼀個專註推動大型模型領域革新的研究⼩組,集合了一些來自MIT、劍橋、普林斯頓等院校的頂尖學者和實踐者。其中不少人在技術和理論方面都有所積澱,比如曾經與OpenAI GPT 架構的共同作者Karthik,以及ReAct和ToT框架的作者姚順雨,共同發表了Agent技術框架FireAct。
總的來說,System2 Research小組主要攻克構建Agent所需要的核心技術,時諦智能實際上是我們團隊落地行業應用的第一批應用場景。
光錐智能:以鞋子設計為例,Agent技術具體是怎樣與時尚行業結合的?Agent如何影響或重塑時尚行業的各個流程的呢?
System2 Research:我們最開始接觸時尚行業的時候就是思考到底時尚行業的卡點是什麼,發現在企劃,設計,銷售,供應鏈等各個環節都很依賴人的經驗去決策。大家都迫切希望AI能夠基於數據去思辨,當下流行的是什麼,消費者需要什麼,應該設計什麼樣的產品,要生產多少件衣服才能滿足市場需求?並且在這個過程中,通過人機的協同,輔助真人設計師,去完成一個可控的好設計,同時在後續選款、測款、配補調的過程中給出有數據參考的決策。
在這個過程很多人面臨的另一個問題是如何讓AI記住我們,記住我們和它之間的溝通內容,以避免每次都要從頭開始。在System2 Research之前這個問題目前還沒有好的解決辦法。
我們很高興能與時諦一起基於他們原有的一套時尚行業的全鏈路解決方案(企劃-3D設計協同-生產系統)FIM,加上我們system2 agent的planning和memory能力,充分運用他們的行業數據積累,將其變得更智能化。
在時諦智能的FIM平台上,設計師可以和Agent一起基於線上的多維度數據分析當下符合企業調性的產品方向,可以討論如何設計新的爆款,也可以讓它快速檢索所需要的設計素材。這個過程是既有對話式,也有操作式,設計師隨時都可以向已經積累了大量時尚行業認知的Agent發起對話,可以尋求設計靈感、修改建議。
我們和時諦的合作,行業感覺最大的亮點就是可控、精準,可能只是簡單的四個字,但是卻是極大的突破。
光錐智能:除了時尚行業,你和你們團隊還比較看好哪些領域?為什麼這些方向與Agent結合會比較有潛力?
System2 Research:時尚、教育、遊戲還有大量泛娛樂的領域,我們都在接觸。
泛娛樂行業內容生產中,本身就有很多可以替代的部分,在實時互動過程中,可以通過Agent加入更多新的玩法,例如,在看一部劇的時候,暫停下來就能近距離地和劇中的人物直接繼續對話,或者遇到不喜歡的情節時,直接再造一個平行世界,繼續往下看等等。
其次,娛樂性的行業的容錯率也相對較高。大模型的幻覺是硬幣的兩面,不精確也意味着有創造力。我認為,娛樂的本質就是對一些特異事件的壓縮和重現,比如說我們看一個古裝言情,它抽象的其實是人類社會活動中宮廷角斗、商業爭奪這一部分核心社會關係。不管是哪一種娛樂形式,大家之所以會覺得它很有魅力,就是是因為它抽象了我們生活中身邊的一部分,並且能在這部分體驗中獲得現實生活中滿足不了的東西。
我們最近推出的產品 midreal.ai 就是上述技術和思考的結晶。midreal.ai 目前運行在 Discord 中,為用戶提供了一種全新的互動圖文故事體驗。用戶只要輸入一句自己幻想的世界觀,就能和 AI 展開 10 分鐘的圖文互動。目前我們的 Discord 中已經有超過一萬名熱情的內測用戶,每天進行數千次故事互動。我們在 2 月份就會引入包括動圖在內的更多媒介,並且擴展遊戲玩法,加入對戰,讓用戶和朋友們一起沉浸在幻想世界中,去滿足現實世界無法實現的想象。
光錐智能:當大家還在談Agent概念的時候,System2 Research已經開始了行業應用落地,你們如何規劃未來的商業化進程?
System2 Research:目前看,我們Agent的技術相當於已經在時諦智能的軟件平台上跑通了,已經有客戶在使用內測產品。另外一個在遊戲領域,我們的角色是Agent的供應商,幫助一些遊戲廠商做智能NPC。再向前一步,可能會考慮尋找企業跟我們一起做多智能的開放世界,大概是中期會推出的一個項目。
光錐智能:比爾蓋茨認為軟件的時代已經過去,最終Agent會替代App,成為新的應用形式,你們怎麼看待這個觀點?從萌芽到替代大概的周期要多久?
System2 Research:我覺得要看Agent能做哪些事情,打開一個軟件買菜,這就是一個action;打個電話,這也是一個action,所以從技術和整個社會最高效的運行來講,的確是Agent能代替所有的東西。如果,再能實現作為個人助理管理所有Agent的目標,那人類可能離解放也就不遠了。
(圖:騰訊論文中對AppAgent的構想,讓 AI 自己去玩手機)
接下來幾年,Agent會怎麼樣逐漸改變商業世界還是值得期待的一件事情。我們最近也在思考,往小的方向思考,作為一個創業團隊,我們可能會優先考慮落地遊戲、教育、時尚幾個場景,思考需要用Agent去替代哪些環節,如何實現降本增效,如何產生全新的互動模式等等。
往大了想的話,可能就是Agent在經濟生產行為中的比重,看它能不能佔到現在應用市場的10%,然後是到後端、工廠、製造業、醫療行業中,看它能從GDP中切出來多少。
光錐智能:開發者大會結束之後,有一種論調是OpenAI殺死了很多創業公司。你們覺得創業公司的邊界在哪裡呢?如何保證自己目前所做的項目不被OpenAI或者是其他大廠所顛覆,保持生命力,穿越下一個經濟周期?
System2 Research:我們的能力基本屬於和大模型能力垂直的一個能力。翻譯過來就是,大模型的底座越好,我們Agent的能力也就越強。隨着我們自己技術、算法的進步,以及落地場景的逐漸成熟,競爭壁壘也就越來越強。
除非今天OpenAI專門開闢出Agent這個方向,All in Agent,那可能會對我們這些創業公司造成降維打擊。但這還存在一個核心的問題,Agent要變強大,還需要專業的行業數據,今天所有人都在擔心OpenAI拿他們的私有數據來訓練,不太可能放心把這些數據貢獻出來給OpenAI,以後對數據的管理只能是越來越規範,而這對Agent創業公司來說就是機會所在。