蘋果大模型MM1殺入場：300億參數、多模態、MoE架構，超半數作者是華人

巴比特_机器之心402天前

文章來源：關注大模型的機器之心

蘋果也在搞自己的大型多模態基礎模型，未來會不會基於該模型推出相應的文生圖產品呢？我們拭目以待。

圖片來源：由無界AI生成

今年以來，蘋果顯然已經加大了對生成式人工智能（GenAI）的重視和投入。此前在 2024 蘋果股東大會上，蘋果 CEO 蒂姆・庫克表示，今年將在 GenAI 領域實現重大進展。此外，蘋果宣布放棄 10 年之久的造車項目之後，一部分造車團隊成員也開始轉向 GenAI。

如此種種，蘋果向外界傳達了加註 GenAI 的決心。目前多模態領域的 GenAI 技術和產品非常火爆，尤以 OpenAI 的 Sora 為代表，蘋果當然也想要在該領域有所建樹。

今日，在一篇由多位作者署名的論文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》中，蘋果正式公布自家的多模態大模型研究成果 —— 這是一個具有高達 30B 參數的多模態 LLM 系列。

論文地址：https://arxiv.org/pdf/2403.09611.pdf

該團隊在論文中探討了不同架構組件和數據選擇的重要性。並且，通過對圖像編碼器、視覺語言連接器和各種預訓練數據的選擇，他們總結出了幾條關鍵的設計準則。具體來講，本文的貢獻主要體現在以下幾個方面。

首先，研究者在模型架構決策和預訓練數據選擇上進行小規模消融實驗，並發現了幾個有趣的趨勢。建模設計方面的重要性按以下順序排列：圖像分辨率、視覺編碼器損失和容量以及視覺編碼器預訓練數據。

其次，研究者使用三種不同類型的預訓練數據：圖像字幕、交錯圖像文本和純文本數據。他們發現，當涉及少樣本和純文本性能時，交錯和純文本訓練數據非常重要，而對於零樣本性能，字幕數據最重要。這些趨勢在監督微調（SFT）之後仍然存在，這表明預訓練期間呈現出的性能和建模決策在微調后得以保留。

最後，研究者構建了 MM1，一個參數最高可達 300 億（其他為 30 億、70 億）的多模態模型系列，它由密集模型和混合專家（MoE）變體組成，不僅在預訓練指標中實現 SOTA，在一系列已有多模態基準上監督微調后也能保持有競爭力的性能。

具體來講，預訓練模型 MM1 在少樣本設置下的字幕和問答任務上，要比 Emu2、Flamingo、IDEFICS 表現更好。監督微調后的 MM1 也在 12 個多模態基準上的結果也頗有競爭力。

得益於大規模多模態預訓練，MM1 在上下文預測、多圖像和思維鏈推理等方面具有不錯的表現。同樣，MM1 在指令調優后展現出了強大的少樣本學習能力。

方法概覽：構建 MM1 的秘訣

構建高性能的 MLLM（Multimodal Large Language Model，多模態大型語言模型）是一項實踐性極高的工作。儘管高層次的架構設計和訓練過程是清晰的，但是具體的實現方法並不總是一目瞭然。這項工作中，研究者詳細介紹了為建立高性能模型而進行的消融。他們探討了三個主要的設計決策方向：

架構：研究者研究了不同的預訓練圖像編碼器，並探索了將 LLM 與這些編碼器連接起來的各種方法。
數據：研究者考慮了不同類型的數據及其相對混合權重。
訓練程序：研究者探討了如何訓練 MLLM，包括超參數以及在何時訓練模型的哪些部分。

1、消融設置

由於訓練大型 MLLM 會耗費大量資源，研究者採用了簡化的消融設置。消融的基本配置如下：

圖像編碼器：在 DFN-5B 和 VeCap-300M 上使用 CLIP loss 訓練的 ViT-L/14 模型；圖像大小為 336×336。
視覺語言連接器：C-Abstractor ，含 144 個圖像 token。
預訓練數據：混合字幕圖像（45%）、交錯圖像文本文檔（45%）和純文本（10%）數據。
語言模型：1.2B 變壓器解碼器語言模型。

為了評估不同的設計決策，研究者使用了零樣本和少樣本（4 個和 8 個樣本）在多種 VQA 和圖像描述任務上的性能：COCO Cap tioning 、NoCaps 、TextCaps 、VQAv2 、TextVQA 、VizWiz 、GQA 和 OK-VQA。

2、模型架構消融試驗

研究者分析了使 LLM 能夠處理視覺數據的組件。具體來說，他們研究了（1）如何以最佳方式預訓練視覺編碼器，以及（2）如何將視覺特徵連接到 LLM 的空間（見圖 3 左）。

圖像編碼器預訓練。在這一過程中，研究者主要消融了圖像分辨率和圖像編碼器預訓練目標的重要性。需要注意的是，與其他消融試驗不同的是，研究者本次使用了 2.9B LLM（而不是 1.2B），以確保有足夠的容量來使用一些較大的圖像編碼器。
編碼器經驗：圖像分辨率的影響最大，其次是模型大小和訓練數據組成。如表 1 所示，將圖像分辨率從 224 提高到 336，所有架構的所有指標都提高了約 3%。將模型大小從 ViT-L 增加到 ViT-H，參數增加了一倍，但性能提升不大，通常不到 1%。最後，加入 VeCap-300M （一個合成字幕數據集）后，在少樣本場景中性能提升超過了 1%。

視覺語言連接器和圖像分辨率。該組件的目標是將視覺表徵轉化為 LLM 空間。由於圖像編碼器是 ViT，因此其輸出要麼是單一的嵌入，要麼是一組與輸入圖像片段相對應的網格排列嵌入。因此，需要將圖像 token 的空間排列轉換為 LLM 的順序排列。與此同時，實際的圖像 token 表徵也要映射到詞嵌入空間。
VL 連接器經驗：視覺 token 數量和圖像分辨率最重要，而 VL 連接器的類型影響不大。如圖 4 所示，隨着視覺 token 數量或 / 和圖像分辨率的增加，零樣本和少樣本的識別率都會提高。

3、預訓練數據消融試驗

通常，模型的訓練分為兩個階段：預訓練和指令調優。前一階段使用網絡規模的數據，后一階段則使用特定任務策劃的數據。下面重點討論了本文的預訓練階段，並詳細說明研究者的數據選擇（圖 3 右）。

有兩類數據常用於訓練 MLLM：由圖像和文本對描述組成的字幕數據；以及來自網絡的圖像 - 文本交錯文檔。表 2 是數據集的完整列表：

數據經驗 1：交錯數據有助於提高少樣本和純文本性能，而字幕數據則能提高零樣本性能。圖 5a 展示了交錯數據和字幕數據不同組合的結果。
數據經驗 2：純文本數據有助於提高少樣本和純文本性能。如圖 5b 所示，將純文本數據和字幕數據結合在一起可提高少樣本性能。
數據經驗 3：謹慎混合圖像和文本數據可獲得最佳的多模態性能，並保留較強的文本性能。圖 5c 嘗試了圖像（標題和交錯）和純文本數據之間的幾種混合比例。
數據經驗 4：合成數據有助於少樣本學習。如圖 5d 所示，人工合成數據確實對少數幾次學習的性能有不小的提升，絕對值分別為 2.4% 和 4%。

最終模型和訓練方法

研究者收集了之前的消融結果，確定 MM1 多模態預訓練的最終配方：

圖像編碼器：考慮到圖像分辨率的重要性，研究者使用了分辨率為 378x378px 的 ViT-H 模型，並在 DFN-5B 上使用 CLIP 目標進行預訓練；
視覺語言連接器：由於視覺 token 的數量最為重要，研究者使用了一個有 144 個 token 的 VL 連接器。實際架構似乎不太重要，研究者選擇了 C-Abstractor；
數據：為了保持零樣本和少樣本的性能，研究者使用了以下精心組合的數據：45% 圖像 - 文本交錯文檔、45% 圖像 - 文本對文檔和 10% 純文本文檔。

為了提高模型的性能，研究者將 LLM 的大小擴大到 3B、7B 和 30B 個參數。所有模型都是在序列長度為 4096、每個序列最多 16 幅圖像、分辨率為 378×378 的情況下，以 512 個序列的批量大小進行完全解凍預訓練的。所有模型均使用 AXLearn 框架進行訓練。

他們在小規模、9M、85M、302M 和 1.2B 下對學習率進行網格搜索，使用對數空間的線性回歸來推斷從較小模型到較大模型的變化（見圖 6），結果是在給定（非嵌入）參數數量 N 的情況下，預測出最佳峰值學習率 η：

通過專家混合（MoE）進行擴展。在實驗中，研究者進一步探索了通過在語言模型的 FFN 層添加更多專家來擴展密集模型的方法。

要將密集模型轉換為 MoE，只需將密集語言解碼器替換為 MoE 語言解碼器。為了訓練 MoE，研究者採用了與密集骨幹 4 相同的訓練超參數和相同的訓練設置，包括訓練數據和訓練 token。

關於多模態預訓練結果，研究者通過適當的提示對預先訓練好的模型在上限和 VQA 任務上進行評估。表 3 對零樣本和少樣本進行了評估：

監督微調結果

最後，研究者介紹了預訓練模型之上訓練的監督微調（SFT）實驗。

他們遵循 LLaVA-1.5 和 LLaVA-NeXT，從不同的數據集中收集了大約 100 萬個 SFT 樣本。鑒於直觀上，更高的圖像分辨率會帶來更好的性能，研究者還採用了擴展到高分辨率的 SFT 方法。

監督微調結果如下：

表 4 展示了與 SOTA 比較的情況，「-Chat」表示監督微調后的 MM1 模型。

首先，平均而言，MM1-3B-Chat 和 MM1-7B-Chat 優於所有列出的相同規模的模型。MM1-3B-Chat 和 MM1-7B-Chat 在 VQAv2、TextVQA、ScienceQA、MMBench 以及最近的基準測試（MMMU 和 MathVista）中表現尤為突出。

其次，研究者探索了兩種 MoE 模型：3B-MoE（64 位專家）和 6B-MoE（32 位專家）。在幾乎所有基準測試中，蘋果的 MoE 模型都比密集模型取得了更好的性能。這显示了 MoE 進一步擴展的巨大潛力。

第三，對於 30B 大小的模型，MM1-30B-Chat 在 TextVQA、SEED 和 MMMU 上的表現優於 Emu2-Chat37B 和 CogVLM-30B。與 LLaVA-NeXT 相比，MM1 也取得了具有競爭力的全面性能。

不過，LLaVA-NeXT 不支持多圖像推理，也不支持少樣本提示，因為每幅圖像都表示為 2880 個發送到 LLM 的 token，而 MM1 的 token 總數只有 720 個。這就限制了某些涉及多圖像的應用。

圖 7b 显示，輸入圖像分辨率對 SFT 評估指標平均性能的影響，圖 7c 显示，隨着預訓練數據的增加，模型的性能不斷提高。

圖像分辨率的影響。圖 7b 显示了輸入圖像分辨率對 SFT 評估指標平均性能的影響。

預訓練的影響：圖 7c 显示，隨着預訓練數據的增加，模型的性能不斷提高。

更多研究細節，可參考原論文。

免責聲明：本文版權歸屬原作所有，僅代表作者本人觀點，不代表YouToCoin的觀點或立場，文章內容僅供參考，不構成投資建議。投資者據此操作，風險自擔；如有關於內容、版權等問題，請與我們聯繫。