IT之家 6 月 3 日消息,字節(jié)跳動 Seed 團隊上周宣布開源統(tǒng)一多模態(tài)理解和生成模型 BAGEL,該模型支持文本、圖像和視頻的統(tǒng)一理解和生成。

BAGEL 具有 70 億個激活參數(總共 140 億個),并在大規(guī)模交錯多模態(tài)數據上進行訓練。BAGEL 在標準多模態(tài)理解排行榜上超越了當前頂級的開源 VLMs,如 Qwen2.5-VL 和 InternVL-2.5,并且提供了與專業(yè)生成器如 SD3 競爭的文本到圖像質量。
此外,BAGEL 在經典的圖像編輯場景中展示了比領先的開源模型更好的定性結果。更重要的是,它擴展到了自由形式的視覺操作、多視圖合成和世界導航,這些能力構成了超出以往圖像編輯模型范圍的“世界建?!比蝿铡?/p>

具體來看,BAGEL 基于大語言模型進行訓練,具備基礎的推理和對話能力,能夠處理圖像和文本的混合輸入,并以混合格式輸出。

BAGEL 可生成較高質量、逼真的圖像、視頻或圖文交錯的內容。此外,還引入了長思維鏈 COT(Chain-of-Thought)模式,模型在生成之前可先“思考”。

基于交錯的多模態(tài)數據預訓練,BAGEL 自然地學會了保留視覺特征和細微細節(jié),并且能從視頻中捕捉復雜的視覺運動,這些能力使得 BAGEL 在圖像編輯上更為高效。


基于對視覺內容和風格的理解,BAGEL 僅使用較少的對齊數據,即可實現圖片的風格切換,甚至還可轉換至不同場景中。

此外,BAGEL 還具備世界模型的基礎能力,可實現世界導航、未來幀預測、3D 世界生成等更具挑戰(zhàn)性的任務,并進行不同角度的旋轉或視角切換。同時,BAGEL 還具備較強的泛化能力,不僅在各類真實場景中,還能在游戲、藝術作品、卡通動畫等場景中實現導航。

基于以上能力,BAGEL 還可通過一個統(tǒng)一的多模態(tài)接口,實現各項能力的復雜組合,進行多輪對話。

IT之家附 BAGEL 開源地址:
官網及體驗入口:
https://seed.bytedance.com/bagel
GitHub 代碼:
https://github.com/bytedance-seed/BAGEL
模型權重:
https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT
研究論文:
https://arxiv.org/pdf/2505.14683
廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。