清華系大模型新秀拿到20億投資，Moonshot AI 憑什麼？

巴比特_AI黑马550天前

原文來源：AI 黑馬

圖片來源：由無界 AI生成

成立僅2個月，這家公司的天使輪便獲得近20億元投資，投資機構包括了最頭部的幾家VC，如紅杉資本、今日資本、礪思資本等。

成立僅6個月，這家公司就推出了全球首個支持輸入20萬漢字的智能助手產品——Kimi Chat，宣布開啟人工智能“長文本時代”。

這家公司就是Moonshot AI，創始人楊植麟從清華大學計算機學系畢業后，前往美國，師從蘋果AI研究負責人Ruslan Salakhutdinov 和谷歌首席科學家 William Cohen，用四年時間拿下了卡內基梅隆大學的博士。

2023 年 10 月 9 日，成立僅半年的大模型初創公司 —— Moonshot AI 宣布在「長文本」領域實現了突破，推出了首個支持輸入 20 萬漢字的智能助手產品 Kimi Chat。

這是目前全球市場上能夠產品化使用的大模型服務中所能支持的最長上下文輸入長度，標志著 Moonshot AI 在這一重要技術上取得了世界領先水平。

從技術上看，參數量決定了大模型支持多複雜的「計算」，而能夠接收多少文本輸入（即長文本技術）則決定了大模型有多大的「內存」，兩者共同決定模型的應用效果。

支持更長的上下文意味着大模型擁有更大的「內存」，從而使得大模型的應用更加深入和廣泛：比如通過多篇財報進行市場分析、處理超長的法務合同、快速梳理多篇文章或多個網頁的關鍵信息、基於長篇小說設定進行角色扮演等等，都可以在超長文本技術的加持下，成為我們工作和生活的一部分。

相比當前市面上以英文為基礎訓練的大模型服務，Kimi Chat 具備較強的多語言能力。

例如，Kimi Chat 在中文上具備顯著優勢，實際使用效果能夠支持約 20 萬漢字的上下文，2.5 倍於 Anthropic 公司的 Claude-100k（實測約 8 萬字），8 倍於 OpenAI 公司的 GPT-4-32k（實測約 2.5 萬字）。

同時，Kimi Chat 通過創新的網絡結構和工程優化，在千億參數下實現了無損的長程注意力機制，不依賴於滑動窗口、降採樣、小模型等對性能損害較大的「捷徑」方案。

01 大模型輸入長度受限帶來的應用困境

目前大火的虛擬角色場景中，由於長文本能力不足，虛擬角色會輕易忘記重要信息。

例如在 Character AI 的社區中用戶經常抱怨「因為角色在多輪對話后忘記了自己的身份，所以不得不重新開啟新的對話」。

對於大模型開發者來說，輸入 prompt 長度的限制約束了大模型應用的場景和能力的發揮。

比如基於大模型開發劇本殺類遊戲時，往往需要將數萬字甚至超過十萬字的劇情設定以及遊戲規則作為 prompt 加入應用，如果模型輸入長度不夠，則只能削減規則和設定，從而無法達到預期遊戲效果。

在另一個大模型應用的主要方向——Agent 中，由於 Agent 運行需要自動進行多輪規劃和決策，且每次行動都需要參考歷史記憶信息才能完成，這會帶來了模型輸入的快速增加，同時也意味着不能處理更長上下文的模型將因為無法全面準確的基於歷史信息進行新的規劃和決策從而降低 Agent 運行成功的概率。

在使用大模型作為工作助理完成任務的過程中，幾乎每個深度用戶都遇到過輸入長度超出限制的情況。

尤其是律師、分析師、諮詢師等職業的用戶，由於常常需要分析處理較長的文本內容，使用大模型時受挫的情況發生頻率極高。

而上述所有的問題在大模型擁有足夠長的上下文輸入后都將會迎刃而解。

02 長文本打開大模型應用的新世界

那麼擁有超長上下文輸入后的大模型會有怎樣的表現？下面是一些 Kimi Chat 實際使用的例子：

公眾號的長文直接交給 Kimi Chat ，讓它幫你快速總結分析：

新鮮出爐的英偉達財報，交給 Kimi Chat，快速完成關鍵信息分析：

出差發票太多？全部拖進 Kimi Chat，快速整理成需要的信息：

發現了新的算法論文時，Kimi Chat 能夠直接幫你根據論文復現代碼：

只需要一個網址，就可以在 Kimi Chat 中和自己喜歡的原神角色聊天：

輸入整本《月亮與六便士》，讓 Kimi Chat 和你一起閱讀，幫助你更好的理解和運用書本中的知識：

通過上述例子，我們可以看到，當模型可以處理的上下文變得更長后，大模型的能力能夠覆蓋到更多使用場景，真正在人們的工作、生活、學習中發揮作用。

而且由於可以直接基於全文理解進行問答和信息處理，大模型生成的「幻覺」問題也可以得到很大程度的解決。

03 不走捷徑，解決算法和工程的雙重挑戰

長文本技術的開發，存在一些對效果損害很大的「捷徑」，主要包含以下幾個方面：

「金魚」模型特點是容易「健忘」。通過滑動窗口等方式主動拋棄上文，只保留對最新輸入的注意力機制。模型無法對全文進行完整理解，無法處理跨文檔的比較和長文本的綜合理解（例如，無法從一篇 10 萬字的用戶訪談錄音轉寫中提取最有價值的 10 個觀點）。

「蜜蜂」模型特點是只關注局部，忽略整體。通過對上下文的降採樣或者 RAG（檢索增強的生成），只保留對部分輸入的注意力機制。模型同樣無法對全文進行完整理解（例如，無法從 50 個簡歷中對候選人的畫像進行歸納和總結）。

「蝌蚪」模型特點是模型能力尚未發育完整。通過減少參數量（例如減少到百億參數）來提升上下文長度，這種方法會降低模型本身的能力，雖然能支持更長上下文，但是大量任務無法勝任。

簡單的捷徑無法達到理想的產品化效果。為了真正做出可用、好用的產品，就不能走虛假的捷徑，而應直面挑戰。

訓練層面，想訓練得到一個支持足夠長上下文能力的模型，不可避免地要面對如下困難：

如何讓模型能在幾十萬的上下文窗口中，準確的 Attend 到所需要的內容，不降低其原有的基礎能力？已有的類似滑動窗口和長度外推等技術對模型性能的損害比較大，在很多場景下無法實現真正的上下文。

在千億參數級別訓練長上下文模型，帶來了更高的算力需求和極嚴重的顯存壓力，傳統的 3D 并行方案已經難以無法滿足訓練需求。

缺乏充足的高質量長序列數據，如何提供更多的有效數據給模型訓練？

推理層面，在獲得了支持超長上下文的模型后，如何讓模型能服務眾多用戶，同樣要面臨艱巨挑戰：

Transformer模型中自注意力機制（Self Attention）的計算量會隨着上下文長度的增加呈平方級增長，比如上下文增加 32 倍時，計算量實際會增長 1000 倍，這意味着如果只是用樸素的方式實現，用戶需要等待極其長的時間才能獲得反饋。

超長上下文導致顯存需求進一步增長：以 1750 億參數的 GPT-3 為例，目前最高單機配置( 80 GiB * 8 )最多只能支持 64k 上下文長度的推理，超長文本對顯存的要求可見一斑。

極大的顯存帶寬壓力：英偉達 A800 或 H800 的顯存帶寬高達 2-3 TiB/s，但面對如此長的上下文，樸素方法的生成速度只能達到 2~5 tokens/s，使用的體驗極其卡頓。

Moonshot AI 的技術團隊進行了極致的算法和工程優化，克服上述困難完成了大內存模型的產品化，發布了支持 20 萬字輸入的千億參數 LLM 產品。

04 「登月計劃」第一步：歡迎來到 Long LLM 時代

Moonshot AI 創始人楊植麟此前在接受採訪時曾表示，無論是文字、語音還是視頻，對海量數據的無損壓縮可以實現高程度的智能。

無損壓縮的進展曾極度依賴「參數為王」模式，該模式下壓縮比直接與參數量相關，這極大增加了模型的訓練成本和應用門檻。

而 Moonshot AI 認為：大模型的能力上限（即無損壓縮比）是由單步能力和執行的步驟數共同決定的。單步能力與參數量正相關，而執行步驟數即上下文長度。

Moonshot AI 相信，更長的上下文長度可以為大模型應用帶來全新的篇章，促使大模型從 LLM 時代進入Long LLM (LLLM) 時代：

每個人都可以擁有一個具備終身記憶的虛擬伴侶，它可以在生命的長河中記住與你交互的所有細節，建立長期的情感連接。

每個人都可以擁有一個在工作環境與你共生（co-inhabit）的助手，它知曉公域（互聯網）和私域（企業內部文檔）的所有知識，並基於此幫助你完成 OKR。

每個人都可以擁有一個無所不知的學習嚮導，不僅能夠準確的給你提供知識，更能夠引導你跨越學科間的壁壘，更加自由的探索與創新。

當然，更長的上下文長度只是 Moonshot AI 在下一代大模型技術上邁出的第一步。Moonshot AI 計劃憑藉該領域的領先技術，加速大模型技術的創新和應用落地。

免責聲明：本文版權歸屬原作所有，僅代表作者本人觀點，不代表YouToCoin的觀點或立場，文章內容僅供參考，不構成投資建議。投資者據此操作，風險自擔；如有關於內容、版權等問題，請與我們聯繫。