所有語言
分享
文章來源:新智元
下一個OpenAI來了?
開源社區的另一个中心Mistral AI,剛剛發布了最強力的旗艦模型Mistral Large,性能直接對標GPT-4!(但可惜的是沒有開源)
Mistral Large具備卓越的邏輯推理能力,能夠處理包括文本理解、轉換以及代碼生成在內的複雜多語言任務。
在眾多主流基準測試中,Mistral Large力壓Anthropic的Claude 2和谷歌的Gemini Pro,成績僅次於GPT-4!
LLM領域,格局再次改變。
同時,就在今天,AI圈又一重磅消息曝出:繼OpenAI之後,微軟將Mistral也納入麾下!
Mistral從誕生之初,就充滿傳奇的光環。成立4周,6人團隊,7頁PPT,8億融資(1.05億歐元),簡直堪稱爽文走進現實。
創始人Arthur Mensch是1993年出生的法國小伙,在谷歌工作3年後,在自己31歲時離開谷歌,拉攏了兩位Llama模型的開發者,一起創立了這個日後可以和OpenAI、Anthropic分庭抗禮的公司。
幾個人的團隊,極少的融資,做出的模型卻可以和GPT-4掰手腕。
如今再加上金主爸爸微軟的撐腰,Mistral 「下一個OpenAI」的名頭,是坐實了。
現在,正處於全世界聚光燈下的Mistral,一舉一動都十分引人注目。
有網友發現Mistral修改了網站內容,刪除了所有提及開源社區義務的內容,這立馬引發了恐慌!
之前的主頁(左);現在的主頁(右)
不過,大家目前還不需要太過擔心。
根據外媒對Mistral CEO的採訪,未來他們依然會堅持開源理念,但是同時也會推出性能最為強大的閉源模型參与商業競爭。
現在他們已經完成了以規模命名的開源模型:Mistral 7B和Mistral 8 x 7B回饋社區,以「大中小」命名的閉源模型賺錢的產品線搭建。
話說回來,這次發布的Mistral Large,可以說是最適合歐洲人體質的大模型。
簡單來說:
- Mistral Large能夠母語般流利地使用英語、法語、西班牙語、德語和意大利語,深刻理解各自的語法規則和文化背景。
- Mistral Large能夠處理32K Token的上下文內容,使其能夠從龐大的文檔中精確快速地提取信息。
- Mistral Large在執行具體指令方面異常精準,這讓開發人員可以根據自己的需求定製內容審查政策——例如,Mistral AI利用它來進行了le Chat的系統級別審查。
- Mistral Large原生支持函數調用。這個特性,結合Mistral AI在la Plateforme上實施的輸出內容限制模式,極大地促進了應用程序的開發和技術棧的現代化。
目前,Mistral AI的這個新旗艦模型僅在Azure AI和Mistral AI平台上可用。
其中,在Azure AI上的定價如下:輸出為0.024美元/1000 token,輸入為0.008美元/1000 token。
推理能力與知識掌握
要說Mistral Large最令人印象深刻的,還是超強的推理能力。
作為旗艦模型,Mistral Large在常識、推理以及知識方面,都展現出了令人矚目的實力。
雖然和GPT-4還有不小的差距,但Claude 2和Gemini Pro 1.0基本上已經是手下敗將了。
多語言能力
作為一款歐洲人自己的大模型,Mistral Large在法語、德語、西班牙語和意大利語上的表現,均優於Llama 2 70B模型。
同時,也強過自家更小規模的模型。
數學與編程能力
在編程和數學方面,Mistral Large的能力也非常突出。
不僅相比自己其他模型有了大幅的提升,而且在主流的測試基準上都取得了不俗的成績。
相比之下,規模更小的Mistral Small,則更加專註於對延遲和成本的優化。
相較於Mixtral 8x7B,Mistral Small展現出更優異的性能和更低的延遲,是介於Mistral AI開源模型和旗艦模型之間的解決方案。
與Mistral Large類似,Mistral Small同樣採用了在RAG和函數調用方面的創新技術。
此外,Mistral還優化了自家的服務接口:
- 提供競爭力價格的開放權重端點,包括open-mistral-7B和open-mixtral-8x7b。
- 推出新的優化模型端點,包括mistral-small-2402和mistral-large-2402,同時繼續提供未更新的mistral-medium。
除了宣布模型之外,Mistral AI還官宣了和微軟的深度合作。
而這也是微軟繼OpenAI之後,再次「真金白銀」地入股AI圈的另一家頂流模型公司。
雖然2023年4月才成立,Mistral AI已經對歐洲的AI領域產生了重大影響。
開源模型Mistral 7B和Mixtral的發布,驚艷了一眾開發者,在AI社區掀起了軒然大波。
如今微軟的支持,讓更多人堅信:Mistral就是下一個OpenAI。
Mistral AI是法國的AI初創公司,微軟與它的合作,無疑讓微軟在歐洲也建立起了自己的AI影響力。
兩家公司的合作,目標是彌補基礎AI研究與實際解決方案之間的差距。
如果在未來建立多年的合作夥伴關係,Mistral AI就可以訪問微軟Azure的AI基礎設施了。
微軟的加持對Mistral AI意味着什麼,不言而喻。
不光Mistral AI下一代LLM的開發和部署會大大加速,並且會開闢出新的商機。以歐洲為基礎,Mistral AI會向全球市場擴張自己的影響力!
具體來說,微軟和Mistral AI之間的合作集中在以下三個關鍵領域——
超算基礎結構:微軟將通過Azure AI超算基礎結構支持Mistral AI,用於AI訓練和推理工作負載。
擴展市場:微軟和Mistral AI將通過Azure AI Studio中的MaaS和Azure機器學習模型目錄,向客戶提供Mistral AI的高級模型。
AI研發:微軟和Mistral AI將探索合作,為指定的客戶開發專有模型,甚至包括歐洲公共部門的工作負載。
目前,兩家公司還沒有透露財務細節。
最近,Mistral AI以近20億美元的估值,籌集了4.5億歐元,由科技投資者Andreessen Horowitz領投。
不過,跟它在美國的競爭者比,Mistral AI所獲得的資金顯然並不算多。
要知道,OpenAI僅從微軟就獲得了超過100億美元的投資,而Anthropic從谷歌和亞馬遜獲得的資金,也高達60億美元。
據《華爾街日報》報道,去年10月,谷歌承諾向Anthropic投資20億美元
因此,此項合作一出,Mistral AI「歐洲版OpenAI」的名頭,更加坐實了。
而對於微軟來說,這項投資也是好處多多——這是它在歐洲AI領域站穩腳跟的機會。
本來,作為Azure雲中歐盟服務器上OpenAI模型的唯一提供商,微軟已經在歐洲的AI競賽中處於領先地位。
不過AI在歐洲所受的待遇,並不像在美國那樣備受支持。
歐洲許多國家對於AI的態度偏保守,他們持的是批判性的態度,尤其是在數據保護方面。
而如果是歐洲服務器商的歐洲AI模型,或許能讓人放心,不失為一種不錯的補救措施。
Mistral在種子輪融資時「6人團隊,7頁PPT,8億融資」的故事,值得好好講一講。
2023年初,還在谷歌工作的Arthur Mensch,剛剛30歲。
一年之後,他離開谷歌創立自己的公司,只用了9個來月的時間,就已經估值20億美元!
Mensch於2020年初加入了谷歌,成為DeepMind的研究員,他的研究方向是提高AI和機器學習系統的效率。那時他27歲。
後來,他和兩位之前一起參与了Llama模型研發的年輕人Timothée Lacroix和Guillaume Lample一起,決定成立一家公司,通過更加高效的方法構建和部署AI模型。
他們相信,小團隊能力在靈活性上超越硅谷的大公司,而開源模型就是他們實現這一目標的利器。
雖然已經從各路投資者那裡籌集了超過5億美元,他的公司Mistral AI相比於微軟支持的OpenAI,谷歌,乃至Anthropic,依然顯得有些「微不足道」。
這些巨頭,以及巨頭重金支持的巨型獨角獸投入了幾十億美元來構建全世界最先進的AI系統。
但Mensch並不擔心與這些龐然大物競爭。
「我們的目標是成為 AI 領域中最節省資本的公司,」Mensch表示。「這是我們成立的初衷。」
對於剛剛推出的Mistral Large模型,他認為,這款模型在執行某些推理任務上能夠與OpenAI最先進的語言模型GPT-4和谷歌的新模型Gemini Ultra相匹敵。
Mensch透露,開發這款新模型的成本不到2000萬歐元(約合2200萬美元)。
Mistral巴黎總部的辦公室
相比之下,OpenAI的首席執行官Sam Altman曾在去年發布GPT-4時表示,訓練他們公司的大型模型的成本接近1億美元。
而且隨着他們用行業內最為高效的開源模型不斷震驚業界,他們也獲得了微軟,英偉達和Salesforce等大公司的背書。
巨頭們也通過現金或者算力的支持,獲取了Mistral AI的少量股份。
伴隨着Mistral Large的發布,9個月前他們用7頁PPT吹下的牛,已經完全兌現了。
撬動8億元投資的六人團隊
這六個人的團隊,是這樣組成的。
Arthur Mensch在巴黎綜合理工學院和巴黎高等師範學院學習期間,結識了另兩位創始人——Timothée Lacroix和Guillaume Lample。
兩人都是Meta AI團隊的,Lample甚至領導了LLaMA的開發。
幾個三十齣頭的年輕人,在LLM開發領域已經有不少經驗。
在當時,即使在全世界範圍內,具備構建、訓練和優化LLM專業經驗的人,也不超過100人。
而另外三位,分別是來自法國巴黎健康初創公司Alan的CEO Jean-Charles Samuelian和CTO Charles Gorintin,以及前法國数字事務國務秘書Cédric O。
Mensch個頭高大,一頭濃密的深色頭髮,他既不像典型的科技極客,也不像常見的CEO。
他的朋友和同事們說,他總是一邊喝啤酒一邊輕鬆地和朋友開玩笑。
作為一名運動愛好者,他在2018年提交博士論文前的幾個月,以不到三小時半的時間跑完了巴黎馬拉松。
Mensch從小就在學術追求與創業之間徘徊。他出生在巴黎西郊,母親是物理老師,父親擁有一家小型科技公司。
這位未來的CEO畢業於法國頂級的數學和機器學習院校。他的導師們將他描述為一個熱情投入、能夠迅速掌握自己幾乎沒有基礎的項目的學生。
「我確實熱愛探索新事物,」Mensch 表示。「我很容易感到厭倦。」
在攻讀博士期間,Mensch的研究方向是優化軟件,分析核磁共振圖像(fMRI)系統的三維大腦圖像,讓軟件能夠處理高達數百萬的圖像量。
2020年底,Mensch加入了DeepMind,在那裡他參与開發了大語言模型。
到了2022年,他以主要作者的身份發表了著名的「Chinchilla論文」。
這項研究重新定義了人們對AI模型的大小、訓練它所需的數據量以及其性能之間關係的認識,被稱為AI縮放法則。
隨着2022年AI競賽的升溫,Mensch對於大公司的AI實驗室減少了關於大語言模型研究成果的發表,減少了與研究社區的分享這一情況表示失望。
ChatGPT發布后,谷歌決定加速追趕。
Mensch所在的團隊從一個10人的小團隊變為30人,最後擴充成為了一個70人的大團隊。
「我覺得我在事情變得過於官僚化之前應該離開了,」Mensch 說。「我不想在大型科技公司中開發那些不透明的技術。」
Mistral在2023年春天向投資者提出的最初方案中,批評了由美國公司主導的「正在形成的寡頭垄斷」,這些公司開發的是專有閉源模型。
對於Mensch和他的合伙人來說,將他們的初始AI系統作為開源軟件發布,允許任何人免費使用或修改,這是一個重要的原則。
這也是吸引開發者和潛在客戶的一種方式,他們希望每個人對自己使用的AI有更多的控制權。
儘管Mistral現在的最先進模型Mistral Large並不開源,但Mensch表示:
「在構建商業模式和堅持我們的開源價值觀之間找到一個平衡點是非常微妙的。我們希望創造新的事物、新的架構,但是還想向我們的客戶提供一些額外的產品和服務。」
參考資料:
https://www.wsj.com/tech/ai/the-9-month-old-ai-startup-challenging-silicon-valleys-giants-ee2e4c48?st=htctyj5gooqlcll
https://mistral.ai/news/mistral-large/
https://old.reddit.com/r/LocalLLaMA/comments/1b0o41v/top_10_betrayals_in_anime_history/?continueFlag=e442fb10c2502e2fe0c601afe6270309