在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

微軟 BitNet b1.58 2B4T 登場:內(nèi)存占用僅 0.4GB,20 億參數(shù)模型顛覆 AI 計算

2025/4/18 8:54:22 來源:IT之家 作者:故淵 責編:故淵

IT之家 4 月 18 日消息,科技媒體 WinBuzzer 昨日(4 月 17 日)發(fā)布博文,報道稱微軟研究團隊推出了一款開源大型語言模型 BitNet b1.58 2B4T,區(qū)別于傳統(tǒng)訓(xùn)練后量化的方式,這款擁有 20 億參數(shù)的大型語言模型(LLM)以 1.58 位低精度架構(gòu)原生訓(xùn)練而成。

IT之家援引技術(shù)報告介紹,該模型性能直追同規(guī)模全精度模型,但計算資源需求大幅縮減。尤其令人矚目的是,其非嵌入內(nèi)存占用僅 0.4GB,遠低于競品 Gemma-3 1B 的 1.4GB 和 MiniCPM 2B 的 4.8GB。

BitNet 的高效秘訣在于其創(chuàng)新架構(gòu)。模型摒棄傳統(tǒng) 16 位數(shù)值,采用定制 BitLinear 層,將權(quán)重限制為-1、0、+1 三種狀態(tài),形成三值系統(tǒng),每權(quán)重僅需約 1.58 位信息存儲。

此外,層間激活值以 8 位整數(shù)量化,形成 W1.58A8 配置。微軟還調(diào)整了 Transformer 架構(gòu),引入平方 ReLU 激活函數(shù)、標準旋轉(zhuǎn)位置嵌入(RoPE)以及 subln 歸一化,確保低位訓(xùn)練穩(wěn)定性。技術(shù)報告稱,這種原生 1 位訓(xùn)練避免了傳統(tǒng)后訓(xùn)練量化(PTQ)帶來的性能損失。

BitNet b1.58 2B4T 的開發(fā)歷經(jīng)三階段:首先基于 4 萬億 token 的網(wǎng)絡(luò)數(shù)據(jù)、代碼和合成數(shù)學(xué)數(shù)據(jù)集進行預(yù)訓(xùn)練;隨后通過公開及合成指令數(shù)據(jù)集(如 WizardLM Evol-Instruct)進行監(jiān)督微調(diào)(SFT);最后采用直接偏好優(yōu)化(DPO)方法,利用 UltraFeedback 等數(shù)據(jù)集提升對話能力和安全性。

微軟測試顯示,該模型在 GSM8K(數(shù)學(xué))、PIQA(物理常識)等基準測試中表現(xiàn)優(yōu)異,整體性能媲美主流 1B-2B 參數(shù)全精度模型,同時在能耗(每 token 0.028 焦耳)和 CPU 解碼延遲(29 毫秒)上占據(jù)顯著優(yōu)勢。

盡管 BitNet 潛力巨大,但其高效性需依賴微軟提供的專用 C++ 框架 bitnet.cpp 實現(xiàn)。標準工具如 Hugging Face transformers 庫無法展現(xiàn)其速度與能耗優(yōu)勢。

微軟還計劃優(yōu)化 GPU 和 NPU 支持,延長上下文窗口至 4096 token,并探索更大規(guī)模模型、多語言功能及硬件協(xié)同設(shè)計。目前,BitNet b1.58 2B4T 已以 MIT 許可證在 Hugging Face 發(fā)布,供社區(qū)測試與應(yīng)用。

參考

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:微軟,AI

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知