在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

英偉達(dá)推 DAM-3B 模型:突破局部描述難題,讓 AI 看懂圖像 / 視頻每一個角落

2025/4/24 13:40:26 來源:IT之家 作者:故淵 責(zé)編:故淵

IT之家 4 月 24 日消息,科技媒體 marktechpost 昨日(4 月 23 日)發(fā)布博文,報道稱英偉達(dá)為應(yīng)對圖像和視頻中特定區(qū)域的詳細(xì)描述難題,最新推出了 Describe Anything 3B(DAM-3B)AI 模型。

視覺-語言模型(VLMs)在生成整體圖像描述時表現(xiàn)出色,但對特定區(qū)域的細(xì)致描述往往力不從心,尤其在視頻中需考慮時間動態(tài),挑戰(zhàn)更大。

英偉達(dá)推出的 Describe Anything 3B(DAM-3B)直面這一難題,支持用戶通過點、邊界框、涂鴉或掩碼指定目標(biāo)區(qū)域,生成精準(zhǔn)且貼合上下文的描述文本。DAM-3B 和 DAM-3B-Video 分別適用于靜態(tài)圖像和動態(tài)視頻,模型已在 Hugging Face 平臺公開。

獨特架構(gòu)與高效設(shè)計

DAM-3B 的核心創(chuàng)新在于“焦點提示”和“局部視覺骨干網(wǎng)絡(luò)”。

焦點提示技術(shù)融合了全圖信息與目標(biāo)區(qū)域的高分辨率裁剪,確保細(xì)節(jié)不失真,同時保留整體背景。

局部視覺骨干網(wǎng)絡(luò)則通過嵌入圖像和掩碼輸入,運用門控交叉注意力機制,將全局與局部特征巧妙融合,再傳輸至大語言模型生成描述。

DAM-3B-Video 進一步擴展至視頻領(lǐng)域,通過逐幀編碼區(qū)域掩碼并整合時間信息,即便面對遮擋或運動也能生成準(zhǔn)確描述。

數(shù)據(jù)與評估雙管齊下

為解決訓(xùn)練數(shù)據(jù)匱乏問題,NVIDIA 開發(fā)了 DLC-SDP 半監(jiān)督數(shù)據(jù)生成策略,利用分割數(shù)據(jù)集和未標(biāo)注的網(wǎng)絡(luò)圖像,構(gòu)建了包含 150 萬局部描述樣本的訓(xùn)練語料庫。

通過自訓(xùn)練方法優(yōu)化描述質(zhì)量,確保輸出文本的高精準(zhǔn)度,團隊同時推出 DLC-Bench 評估基準(zhǔn),以屬性級正確性而非僵硬的參考文本對比衡量描述質(zhì)量。

DAM-3B 在包括 LVIS、Flickr30k Entities 等七項基準(zhǔn)測試中領(lǐng)先,平均準(zhǔn)確率達(dá) 67.3%,超越 GPT-4o 和 VideoRefer 等模型。

DAM-3B 不僅填補了局部描述領(lǐng)域的技術(shù)空白,其上下文感知架構(gòu)和高質(zhì)量數(shù)據(jù)策略還為無障礙工具、機器人技術(shù)及視頻內(nèi)容分析等領(lǐng)域開辟了新可能。

IT之家附上參考地址

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:英偉達(dá),AI,模型

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知