能說會看會行動，OpenAI機器人，一出手就是王炸

巴比特_机器之心402天前

文章來源：機器之心

圖片來源：由無界AI生成

網友：波士頓動力要整點新舞步，才能讓Figure 01下熱搜。

「藉助 OpenAI 的能力，Figure 01 現在可以與人全面對話了！」

本周三，半個硅谷都在投的明星機器人創業公司 Figure，發布了全新 OpenAI 大模型加持的機器人 demo。

這家公司在 3 月 1 日剛剛宣布獲得 OpenAI 等公司的投資，才十幾天就直接用上了 OpenAI 的多模態大模型。

如你所見，得到 OpenAI 大模型能力加持的 Figure 01 現在是這個樣子的。

它可以為聽從人類的命令，遞給人類蘋果。

將黑色塑料袋收拾進框子里。

將杯子和盤子歸置放在瀝水架上。

需要強調的是：你看到的這一切，只用到了一個神經網絡。

廣大網友在看到如此驚艷的 demo 后，對機器人的發展速度感到震驚，我們似乎正處在這場洶湧的進化浪潮中。甚至有人感嘆，已經準備好迎接更多的機器人了。

還有網友調侃道：「波士頓動力：好的，夥計們，這是一場真正的競爭。讓我們回到實驗室，設計更多舞蹈套路。」

所有這些，全是機器人自學的！

Figure創始人Brett Adcock表示，視頻中Figure 01展示了端到端神經網絡框架下與人類的對話，沒有任何遠程操作。並且，機器人的速度有了顯著的提升，開始接近人類的速度。

Figure機器人操作高級AI工程師Corey Lynch介紹了此次Figure 01的技術原理。他表示，Figure 01現在可以做到以下這些：

描述其視覺體驗
規劃未來的行動
反思自己的記憶
口頭解釋推理過程

他接着解釋道，視頻中機器人的所有行為都是學到的（再次強調不是遠程操作），並以正常速度（1.0x）運行。

在具體實現過程中，他們將機器人攝像頭中的圖像輸入，並將機載麥克風捕獲的語音文本轉錄到由 OpenAI訓練的大型多模態模型中，該模型可以理解圖像和文本。該模型對整個對話記錄進行處理，包括過去的圖像，從而獲得語言響應，然後通過文本到語音的方式將其回復給人類。

此外，該模型負責決定在機器人上運行哪些學習到的閉環行為以完成給定的命令，從而將特定的神經網絡權重加載到GPU上並執行策略。

將Figure 01 連接到大型預訓練多模態模型為其提供了一些有趣的新功能。Figure 01 + OpenAI 現在可以：

描述其周圍環境。
使用常識推理做出決定。例如，「桌子上的盤子和杯子等餐具接下來可能需要放進瀝水架」。
將「我餓了」等模稜兩可的高級請求轉化為一些適合上下文的行為，例如「遞給對方一個蘋果」。
用簡單的英語描述為什麼它執行特定的操作。例如，「這是我可以從桌子上為您提供的唯一可食用物品」。

理解對話歷史的大型預訓練模型為Figure 01提供了強大的短期記憶。

考慮一個簡單的問題：「你能把它們放在那裡嗎？」

其中「它們」指的是什麼？「那裡」又是哪裡？正確回答這個問題需要反思記憶的能力。

通過預訓練模型分析對話的圖像和文本歷史記錄，Figure 01快速形成並執行計劃：

1）將杯子放在瀝水架上，2）將盤子放在瀝水架上。

關於學到的低級雙手操作，所有行為均由神經網絡視覺運動transformer策略驅動，將像素直接映射到動作。這些網絡以10hz 的頻率接收機載圖像，並以200hz的頻率生成 24-DOF 動作（手腕姿勢和手指關節角度）。

這些動作充當高速「設定點」，以供更高速率的全身控制器跟蹤。這是一個有用的關注點分離，其中：

互聯網預訓練模型對圖像和文本進行常識推理，以得出高級規劃。
學習到的視覺運動策略執行計劃，執行難以手動指定的快速反應行為，例如在任何位置操縱可變形的袋子。
全身控制器確保安全、穩定的動力，例如保持平衡。

最後他表示，即使在幾年前，自己還認為人形機器人規劃和執行自身完全學得行為的同時與人類進行完整的對話是幾十年後才能看到的事情。顯然，現在已經發生了太多變化。

至於聲音方面，大家都在猜機器人金屬感十足的聲音源自誰？有猜喬布斯的、Sam Altman的，也有猜演員 Rob Lowe 的，你認為呢？

Figure，具身智能時代最熱創業公司

最近，生成式 AI 的競爭正在走向長文本、多模態，各家科技公司和機構也沒有忘記投資下個熱點——具身智能。

具身智能，對於計算機視覺、機器人等領域來說是一個很有挑戰的目標：假設 AI 智能體（機器人）不僅能接收來自數據集的靜態圖像，還能在三維虛擬世界甚至真實環境中四處移動，並與周圍環境交互，那我們就會迎來技術的一次重大突破，從識別圖像等機器學習的簡單能力，轉變到學習如何通過多個步驟執行複雜的類人任務。

被生成式 AI 龍頭 OpenAI 看好的具身智能，最有希望通向具身智能的公司，似乎就是這家 Figure。

3月1日，Figure 宣布完成驚人的 6.75 億美元 B 輪融資，公司估值達到 26 億美元。一眼望去，感覺半個硅谷都投了它：微軟、英特爾、OpenAI Startup Fund、Amazon Industrial Innovation Fund 、英偉達、貝索斯、「木頭姐」的方舟投資、Parkway Venture Capital、Align Ventures 等。

該公司的產品 Figure 01，據稱是世界上第一個具有商業可行性的自主人形機器人，身高 1.5 米，體重 60 公斤，可承載 20 公斤貨物，採用電機驅動。它的可工作時長是 5 小時，行走速度每秒 1.2 米，可以說很多指標已經接近人類。

自 2023 年 1 月以來，人們對 Figure 的關注度一直在上升。雖然到目前為止，公司一共才發布過四個 demo 視頻。其中的一個展示了 Figure 01 是如何製作咖啡的：

據Figure表示，機器人練習這些動作的方法是端到端的，神經網絡的訓練時間是10小時。

在 2 月 27 日的視頻里，Figure 01 自主完成了一個典型的物流環節任務——搬運空箱。

當然，速度還是比人類慢了很多。不過在這些任務中，Figure 01 都是完全自主地執行任務。所謂「完全自主」，是指只需將機器人放在地面上（無論放在屋裡什麼地方），在沒有其他用戶輸入的情況下，直接按開始就行。

在訓練過的大型視覺語言模型( VLM )幫助下，人形機器人會先識別、定位目標箱子，然後推理合適的拿放姿勢。接下來，Figure 01 會導航自己到目標跟前，檢測抓取點和手部力量，嘗試抓取成功並將箱子放到傳送帶上。

這些技術亮點也是 Figure 和一直希望回歸機器人領域的 OpenAI 達成合作協議的重要原因之一——將 OpenAI 的研究與 Figure 的機器人經驗結合起來，為人形機器人開發下一代 AI 模型。OpenAI 也希望將自己的高性能多模態大模型擴展到機器人領域。

除了接受大筆風投之外，Figure 也在积極拓展落地場景。目前，Figure 01 已經開始在寶馬位於南卡羅來納州斯帕坦堡的汽車工廠接受測試，人們計劃讓機器人替代人類從事一些危險度高的任務。

參考鏈接： https://twitter.com/i/status/1767913661253984474 https://www.figure.ai/

免責聲明：本文版權歸屬原作所有，僅代表作者本人觀點，不代表YouToCoin的觀點或立場，文章內容僅供參考，不構成投資建議。投資者據此操作，風險自擔；如有關於內容、版權等問題，請與我們聯繫。