小米大模型升級第二代：MiLM2 實現(xiàn)云邊端結(jié)合，能力平均提升超 45%

2024/11/12 18:41:20 來源：IT之家作者：汪淼責(zé)編：汪淼

評論：

IT之家 11 月 12 日消息，小米公司 MiLM 大模型在去年 8 月首度現(xiàn)身 C-Eval、CMMLU 大模型評測榜單，并在今年 5 月通過大模型備案，相關(guān)模型逐步應(yīng)用于小米汽車、手機(jī)、智能家居等產(chǎn)品中。

今日，小米官方宣布大模型已經(jīng)實現(xiàn)了從一代到二代（MiLM2）的升級迭代。

據(jù)介紹，此次迭代不僅擴(kuò)充了訓(xùn)練數(shù)據(jù)的規(guī)模、提升了數(shù)據(jù)的品質(zhì)，更在訓(xùn)練策略與微調(diào)機(jī)制上進(jìn)行了深入打磨，增強了技術(shù)實力并全面升級了配套的部署技術(shù)。IT之家從小米公告獲悉，小米第二代大語言模型的幾個主要升級是：

第二代大語言模型豐富了模型的參數(shù)矩陣，參數(shù)規(guī)模同時向下和向上擴(kuò)充，實現(xiàn)了云邊端結(jié)合，參數(shù)尺寸最小為 0.3B，最大為 30B；
第二代大語言模型在 10 大能力維度上，相比于第一代模型平均提升超過 45%，其中指令跟隨、翻譯、閑聊等對于智能助手而言比較關(guān)鍵的能力上，效果處于業(yè)界前列；
第二代大語言模型在端側(cè)部署上支持 3 種推理加速方案，包括大小模型投機(jī)、BiTA、Medusa，并且自研量化方案相比于業(yè)界標(biāo)準(zhǔn)高通方案，量化損失降低 78%；
第二代大語言模型支持的最長窗口為 200k（第一代為 4k），在長文本評測中，效果處于“業(yè)界前列”。

二代效果全方位提升

小米大模型團(tuán)隊采用自主構(gòu)建的通用能力評測集 Mi-LLMBM2.0，對最新一代的 MiLM2 模型進(jìn)行了全方位評估。

該評測集涵蓋了廣泛的應(yīng)用場景，包括生成、腦暴、對話、問答、改寫、摘要、分類、提取、代碼處理以及安全回復(fù)等 10 個大類，共計 170 個細(xì)分測試項。

以 MiLM2-1.3B 模型和 MiLM2-6B 模型為例，對比去年發(fā)布的一代模型，在十大能力上的效果均有大幅提升，平均提升幅度超過 45%。

小米的「人車家全生態(tài)」戰(zhàn)略，旨在構(gòu)建一個涵蓋人、車、家等多元化生活場景的超級智能生態(tài)系統(tǒng)，對于大模型的生成、閑聊、翻譯等能力提出了更高的要求。在這些關(guān)鍵能力上，MiLM2-6B 模型的評測成績號稱“對比業(yè)內(nèi)同參數(shù)規(guī)模模型也有較優(yōu)的效果”。

MiLM2 模型矩陣云邊端結(jié)合

在輕量化部署的大原則下，小米自研大模型團(tuán)隊考慮了集團(tuán)內(nèi)部多元化的業(yè)務(wù)場景及不同落地場景的資源限制，構(gòu)建并不斷擴(kuò)充了自研大模型的模型矩陣，將大模型的參數(shù)規(guī)模擴(kuò)展至 0.3B、0.7B、1.3B、2.4B、4B、6B、13B、30B 等多個量級，以適應(yīng)不同場景下的需求。

0.3B~6B：終端（on-device）場景，應(yīng)用時通常是一項非常具體的、低成本的任務(wù)，提供不同參數(shù)規(guī)模的模型以適配不同芯片及存儲空間的終端設(shè)備，微調(diào)后可以達(dá)到百億參數(shù)內(nèi)開源模型效果。
6B、13B：在任務(wù)明確、且需要比 6B 以下參數(shù)模型提供更多的零樣本 zero-shot / 上下文學(xué)習(xí)時，6B 和 13B 是一個可能有 LLM 涌現(xiàn)能力的起點，支持多任務(wù)微調(diào)，微調(diào)后可以達(dá)到幾百億開源模型的效果。
30B：云端場景，具備相當(dāng)堅實的 zero-shot / 上下文學(xué)習(xí)或一些泛化能力，模型推理能力較好，能夠完成復(fù)雜的多任務(wù)，基本達(dá)到通用大模型水平。

小米自研大模型矩陣不僅包含多樣的參數(shù)量級，同時也納入了各種不同的模型結(jié)構(gòu)。在二代模型系列中，大模型團(tuán)隊特別加入了兩個 MoE（Mixture of Experts，即混合專家模型）結(jié)構(gòu)的模型：

MiLM2-0.7B×8
MiLM2-2B×8

兩個模型的差異主要體現(xiàn)在訓(xùn)練總參數(shù)量、詞表大小等方面。MoE 模型的工作原理是將多個承擔(dān)特定功能的“專家”模型進(jìn)行并行處理，進(jìn)而綜合各模型的輸出來提高整體預(yù)測的準(zhǔn)確度和效率。

以 MiLM2-2B×8 為例，根據(jù)評測結(jié)果，該模型在整體性能上與 MiLM2-6B 不相上下，而解碼速度實現(xiàn)了 50% 的提升，在保證模型性能不打折扣的同時，提升了其運行效率。

4B 模型端側(cè)落地，30B 模型云端部署

端側(cè)新增 4B 模型

去年，小米的大模型團(tuán)隊在端側(cè)部署方面取得了進(jìn)展，使小米成為業(yè)界首個在移動設(shè)備上成功運行 1.3B 和 6B 大模型的公司。隨著二代大模型的迭代更新，端側(cè)部署技術(shù)也有了新的突破，新的 4B 模型將在端側(cè)發(fā)揮更重要的作用。

小米大模型團(tuán)隊地提出了“TransAct 大模型結(jié)構(gòu)化剪枝方法”，用 8% 的訓(xùn)練計算量即從 6B 模型剪枝了 4B 模型，訓(xùn)練效率得到提升；同時小米大模型團(tuán)隊自研了“基于權(quán)重轉(zhuǎn)移的端側(cè)量化方法”和“基于 Outliers 分離的端側(cè)量化方法”，降低了端側(cè)量化的精度損失，對比業(yè)界標(biāo)準(zhǔn)高通方案，量化損失下降 78%。MiLM2-4B 模型總共 40 層，實際總參數(shù)量為 3.5B，目前已經(jīng)實現(xiàn)在端側(cè)部署落地。

Qwen2.5-3B-Instruct 結(jié)果采用 FollowBench 和 IFEval 官方代碼測試

云端新增 30B 模型

MiLM2-30B 模型是小米二代大模型系列中參數(shù)量級最大的模型，專為云端場景設(shè)計。

在云端環(huán)境中，大模型面臨著多樣化和高難度的挑戰(zhàn)，需要更高效地遵從并執(zhí)行用戶的復(fù)雜指令，深入分析多維度任務(wù)，并在長上下文中精準(zhǔn)定位信息。針對這些重點目標(biāo)，大模型團(tuán)隊選擇了一系列開源的評測集，對 MiLM2-30B 模型的專項能力進(jìn)行評估。

結(jié)果表明，MiLM2-30B 模型在指令遵循、常識推理和閱讀理解能力方面表現(xiàn)出色，具體的評測集和評測結(jié)果如下：

小米公司表示，小米第二代自研大模型取得的進(jìn)步和成果，已經(jīng)開始滲透到真實的業(yè)務(wù)場景與用戶需求中，不僅幫助集團(tuán)內(nèi)部解決了多樣化的業(yè)務(wù)需求、實現(xiàn)工作提效，也已經(jīng)在澎湃 OS、小愛同學(xué)、智能座艙、智能客服中開始應(yīng)用落地。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮