在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

小米大模型升級(jí)第二代:MiLM2 實(shí)現(xiàn)云邊端結(jié)合,能力平均提升超 45%

2024/11/12 18:41:20 來(lái)源:IT之家 作者:汪淼 責(zé)編:汪淼

IT之家 11 月 12 日消息,小米公司 MiLM 大模型在去年 8 月首度現(xiàn)身 C-Eval、CMMLU 大模型評(píng)測(cè)榜單,并在今年 5 月通過(guò)大模型備案,相關(guān)模型逐步應(yīng)用于小米汽車(chē)、手機(jī)、智能家居等產(chǎn)品中。

今日,小米官方宣布大模型已經(jīng)實(shí)現(xiàn)了從一代到二代(MiLM2)的升級(jí)迭代。

圖片

據(jù)介紹,此次迭代不僅擴(kuò)充了訓(xùn)練數(shù)據(jù)的規(guī)模、提升了數(shù)據(jù)的品質(zhì),更在訓(xùn)練策略與微調(diào)機(jī)制上進(jìn)行了深入打磨,增強(qiáng)了技術(shù)實(shí)力并全面升級(jí)了配套的部署技術(shù)。IT之家從小米公告獲悉,小米第二代大語(yǔ)言模型的幾個(gè)主要升級(jí)是:

  • 第二代大語(yǔ)言模型豐富了模型的參數(shù)矩陣,參數(shù)規(guī)模同時(shí)向下和向上擴(kuò)充,實(shí)現(xiàn)了云邊端結(jié)合,參數(shù)尺寸最小為 0.3B,最大為 30B;

  • 第二代大語(yǔ)言模型在 10 大能力維度上,相比于第一代模型平均提升超過(guò) 45%,其中指令跟隨、翻譯、閑聊等對(duì)于智能助手而言比較關(guān)鍵的能力上,效果處于業(yè)界前列;

  • 第二代大語(yǔ)言模型在端側(cè)部署上支持 3 種推理加速方案,包括大小模型投機(jī)、BiTA、Medusa,并且自研量化方案相比于業(yè)界標(biāo)準(zhǔn)高通方案,量化損失降低 78%;

  • 第二代大語(yǔ)言模型支持的最長(zhǎng)窗口為 200k(第一代為 4k),在長(zhǎng)文本評(píng)測(cè)中,效果處于“業(yè)界前列”。

二代效果全方位提升

小米大模型團(tuán)隊(duì)采用自主構(gòu)建的通用能力評(píng)測(cè)集 Mi-LLMBM2.0,對(duì)最新一代的 MiLM2 模型進(jìn)行了全方位評(píng)估。

該評(píng)測(cè)集涵蓋了廣泛的應(yīng)用場(chǎng)景,包括生成、腦暴、對(duì)話(huà)、問(wèn)答、改寫(xiě)、摘要、分類(lèi)、提取、代碼處理以及安全回復(fù)等 10 個(gè)大類(lèi),共計(jì) 170 個(gè)細(xì)分測(cè)試項(xiàng)。

以 MiLM2-1.3B 模型和 MiLM2-6B 模型為例,對(duì)比去年發(fā)布的一代模型,在十大能力上的效果均有大幅提升,平均提升幅度超過(guò) 45%。

圖片

小米的「人車(chē)家全生態(tài)」戰(zhàn)略,旨在構(gòu)建一個(gè)涵蓋人、車(chē)、家等多元化生活場(chǎng)景的超級(jí)智能生態(tài)系統(tǒng),對(duì)于大模型的生成、閑聊、翻譯等能力提出了更高的要求。在這些關(guān)鍵能力上,MiLM2-6B 模型的評(píng)測(cè)成績(jī)號(hào)稱(chēng)“對(duì)比業(yè)內(nèi)同參數(shù)規(guī)模模型也有較優(yōu)的效果”。

圖片

MiLM2 模型矩陣云邊端結(jié)合

在輕量化部署的大原則下,小米自研大模型團(tuán)隊(duì)考慮了集團(tuán)內(nèi)部多元化的業(yè)務(wù)場(chǎng)景及不同落地場(chǎng)景的資源限制,構(gòu)建并不斷擴(kuò)充了自研大模型的模型矩陣,將大模型的參數(shù)規(guī)模擴(kuò)展至 0.3B、0.7B、1.3B、2.4B、4B、6B、13B、30B 等多個(gè)量級(jí),以適應(yīng)不同場(chǎng)景下的需求。

  • 0.3B~6B:終端(on-device)場(chǎng)景,應(yīng)用時(shí)通常是一項(xiàng)非常具體的、低成本的任務(wù),提供不同參數(shù)規(guī)模的模型以適配不同芯片及存儲(chǔ)空間的終端設(shè)備,微調(diào)后可以達(dá)到百億參數(shù)內(nèi)開(kāi)源模型效果。

  • 6B、13B:在任務(wù)明確、且需要比 6B 以下參數(shù)模型提供更多的零樣本 zero-shot / 上下文學(xué)習(xí)時(shí),6B 和 13B 是一個(gè)可能有 LLM 涌現(xiàn)能力的起點(diǎn),支持多任務(wù)微調(diào),微調(diào)后可以達(dá)到幾百億開(kāi)源模型的效果。

  • 30B:云端場(chǎng)景,具備相當(dāng)堅(jiān)實(shí)的 zero-shot / 上下文學(xué)習(xí)或一些泛化能力,模型推理能力較好,能夠完成復(fù)雜的多任務(wù),基本達(dá)到通用大模型水平。

圖片

小米自研大模型矩陣不僅包含多樣的參數(shù)量級(jí),同時(shí)也納入了各種不同的模型結(jié)構(gòu)。在二代模型系列中,大模型團(tuán)隊(duì)特別加入了兩個(gè) MoE(Mixture of Experts,即混合專(zhuān)家模型)結(jié)構(gòu)的模型:

  • MiLM2-0.7B×8

  • MiLM2-2B×8

兩個(gè)模型的差異主要體現(xiàn)在訓(xùn)練總參數(shù)量、詞表大小等方面。MoE 模型的工作原理是將多個(gè)承擔(dān)特定功能的“專(zhuān)家”模型進(jìn)行并行處理,進(jìn)而綜合各模型的輸出來(lái)提高整體預(yù)測(cè)的準(zhǔn)確度和效率。

以 MiLM2-2B×8 為例,根據(jù)評(píng)測(cè)結(jié)果,該模型在整體性能上與 MiLM2-6B 不相上下,而解碼速度實(shí)現(xiàn)了 50% 的提升,在保證模型性能不打折扣的同時(shí),提升了其運(yùn)行效率。

圖片

4B 模型端側(cè)落地,30B 模型云端部署

端側(cè)新增 4B 模型

去年,小米的大模型團(tuán)隊(duì)在端側(cè)部署方面取得了進(jìn)展,使小米成為業(yè)界首個(gè)在移動(dòng)設(shè)備上成功運(yùn)行 1.3B 和 6B 大模型的公司。隨著二代大模型的迭代更新,端側(cè)部署技術(shù)也有了新的突破,新的 4B 模型將在端側(cè)發(fā)揮更重要的作用。

小米大模型團(tuán)隊(duì)地提出了“TransAct 大模型結(jié)構(gòu)化剪枝方法”,用 8% 的訓(xùn)練計(jì)算量即從 6B 模型剪枝了 4B 模型,訓(xùn)練效率得到提升;同時(shí)小米大模型團(tuán)隊(duì)自研了“基于權(quán)重轉(zhuǎn)移的端側(cè)量化方法”“基于 Outliers 分離的端側(cè)量化方法”,降低了端側(cè)量化的精度損失,對(duì)比業(yè)界標(biāo)準(zhǔn)高通方案,量化損失下降 78%。MiLM2-4B 模型總共 40 層,實(shí)際總參數(shù)量為 3.5B,目前已經(jīng)實(shí)現(xiàn)在端側(cè)部署落地。

圖片

Qwen2.5-3B-Instruct 結(jié)果采用 FollowBench 和 IFEval 官方代碼測(cè)試

Qwen2.5-3B-Instruct 結(jié)果采用 FollowBench 和 IFEval 官方代碼測(cè)試

云端新增 30B 模型

MiLM2-30B 模型是小米二代大模型系列中參數(shù)量級(jí)最大的模型,專(zhuān)為云端場(chǎng)景設(shè)計(jì)。

在云端環(huán)境中,大模型面臨著多樣化和高難度的挑戰(zhàn),需要更高效地遵從并執(zhí)行用戶(hù)的復(fù)雜指令,深入分析多維度任務(wù),并在長(zhǎng)上下文中精準(zhǔn)定位信息。針對(duì)這些重點(diǎn)目標(biāo),大模型團(tuán)隊(duì)選擇了一系列開(kāi)源的評(píng)測(cè)集,對(duì) MiLM2-30B 模型的專(zhuān)項(xiàng)能力進(jìn)行評(píng)估。

結(jié)果表明,MiLM2-30B 模型在指令遵循、常識(shí)推理和閱讀理解能力方面表現(xiàn)出色,具體的評(píng)測(cè)集和評(píng)測(cè)結(jié)果如下:

圖片

圖片

圖片

圖片

小米公司表示,小米第二代自研大模型取得的進(jìn)步和成果,已經(jīng)開(kāi)始滲透到真實(shí)的業(yè)務(wù)場(chǎng)景與用戶(hù)需求中,不僅幫助集團(tuán)內(nèi)部解決了多樣化的業(yè)務(wù)需求、實(shí)現(xiàn)工作提效,也已經(jīng)在澎湃 OS、小愛(ài)同學(xué)、智能座艙、智能客服中開(kāi)始應(yīng)用落地。

圖片

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:小米大模型,MiLM

軟媒旗下網(wǎng)站: IT之家 最會(huì)買(mǎi) - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買(mǎi) 要知