首頁(yè) > 科學(xué)探索>科技前沿

華人團(tuán)隊(duì)爆火 InstructBLIP 搶跑看圖聊天，開源項(xiàng)目橫掃多項(xiàng) SOTA

新智元 2023/5/15 12:18:02 責(zé)編：夢(mèng)澤

評(píng)論：

原文標(biāo)題：《超越 GPT-4！華人團(tuán)隊(duì)爆火 InstructBLIP 搶跑看圖聊天，開源項(xiàng)目橫掃多項(xiàng) SOTA》

碾壓 GPT-4 識(shí)圖能力的多模態(tài)生成模型來了。華人團(tuán)隊(duì)最新提出的 InstructBLIP 在多項(xiàng)任務(wù)上實(shí)現(xiàn) SOTA。

GPT-4 看圖聊天還沒上線，就已經(jīng)被超越了。

近來，華人團(tuán)隊(duì)開源了多模態(tài)基礎(chǔ)模型 InstructBLIP，是從 BLIP2 模型微調(diào)而來的模型。

華人團(tuán)隊(duì)爆火 InstructBLIP 搶跑看圖聊天，開源項(xiàng)目橫掃多項(xiàng) SOTA

BLIP 家族中增加了一個(gè)新成員：InstructBLIP

據(jù)介紹，InstructBLIP 模型更擅長(zhǎng)「看」、「推理」和「說」，即能夠?qū)?fù)雜圖像進(jìn)行理解、推理、描述，還支持多輪對(duì)話等。

比如，下圖這一場(chǎng)景可能發(fā)生了什么？

InstructBLIP 推理出，可能颶風(fēng)，或者惡劣的天氣因素造成的。

華人團(tuán)隊(duì)爆火 InstructBLIP 搶跑看圖聊天，開源項(xiàng)目橫掃多項(xiàng) SOTA

給我介紹下這幅畫

華人團(tuán)隊(duì)爆火 InstructBLIP 搶跑看圖聊天，開源項(xiàng)目橫掃多項(xiàng) SOTA

進(jìn)行多輪對(duì)話

華人團(tuán)隊(duì)爆火 InstructBLIP 搶跑看圖聊天，開源項(xiàng)目橫掃多項(xiàng) SOTA

研究人員表示，正是基于強(qiáng)大 BLIP-2，才使得 InstructBLIP「看」的更好。

最最重要的是，InstructBLIP 在多個(gè)任務(wù)上實(shí)現(xiàn)了最先進(jìn)的性能，甚至在圖片解釋和推理上表現(xiàn)優(yōu)于 GPT4。

為啥如此之強(qiáng)？

新王者：InstructBLIP

InstructBLIP 的主要意義就在于解決視覺-語(yǔ)言指令微調(diào)中的挑戰(zhàn)，并對(duì)模型未見過的數(shù)據(jù)和任務(wù)的改進(jìn)泛化能力進(jìn)行系統(tǒng)研究。

華人團(tuán)隊(duì)爆火 InstructBLIP 搶跑看圖聊天，開源項(xiàng)目橫掃多項(xiàng) SOTA

論文地址：https://arxiv.org/ pdf / 2305.06500.pdf

在論文中，研究人員首先介紹了指令微調(diào)數(shù)據(jù)的構(gòu)建，然后則是具體的訓(xùn)練過程。

之后，分別從模型和數(shù)據(jù)的角度闡述了兩種提高指令微調(diào)性能的技術(shù)。

為了保證指令微調(diào)數(shù)據(jù)的多樣性，同時(shí)考慮到它們的可及性，研究人員收集了大量公開可用的視覺語(yǔ)言數(shù)據(jù)集，并將它們轉(zhuǎn)化為指令微調(diào)格式。

下圖中，研究人員最終收集的數(shù)據(jù)涵蓋了 11 個(gè)任務(wù)類別和 28 個(gè)數(shù)據(jù)集。

其中包括圖像字幕、帶有閱讀理解的圖像字幕、視覺推理、圖像問題回答、基于知識(shí)的圖像問題回答，帶閱讀理解的圖像問題回答，圖像問題的生成（與 QA 數(shù)據(jù)集相反），視頻問題回答，視覺對(duì)話問題回答，圖像分類，以及 LLaVA-Instruct-150K。

華人團(tuán)隊(duì)爆火 InstructBLIP 搶跑看圖聊天，開源項(xiàng)目橫掃多項(xiàng) SOTA

對(duì)于每一項(xiàng)任務(wù)，研究人員都會(huì)用自然語(yǔ)言制作 10-15 個(gè)不同的指令模板。這些模板是構(gòu)建指令微調(diào)數(shù)據(jù)的基礎(chǔ)，它闡明了任務(wù)并劃定了目標(biāo)。

對(duì)于固有的偏向于短反應(yīng)的公共數(shù)據(jù)集，研究人員在一些相應(yīng)的指令模板中使用較短的術(shù)語(yǔ)，以減少模型適應(yīng)總是生成短回應(yīng)的風(fēng)險(xiǎn)。

對(duì)于 LLaVA-Instruct-150K 數(shù)據(jù)集，研究人員沒有加入額外的指令模板，因?yàn)樗亲匀唤Y(jié)構(gòu)的指令格式。

現(xiàn)有的零樣本圖像到文本的生成方法，包括 BLIP-2，在提取視覺特征時(shí)采取了與指令并無關(guān)系的方法。

也就是說，LLM 中的視覺輸入是不知道指令的，這并不利于該模型在不同任務(wù)中的靈活性。

華人團(tuán)隊(duì)爆火 InstructBLIP 搶跑看圖聊天，開源項(xiàng)目橫掃多項(xiàng) SOTA

相比之下，指令感知的視覺模型可以提高模型從不同指令中學(xué)習(xí)的能力。

舉例來說，咱們考慮兩種情況：輸入同一圖像，模型被要求完成兩個(gè)不同的任務(wù)；以及，給定兩個(gè)不同的圖像，模型被指示完成同一任務(wù)。

在第一種情況中，一個(gè)指令感知的視覺模型可以根據(jù)指令從同一圖像中提取不同的特征，在解決不同任務(wù)時(shí)呈現(xiàn)出更多的信息特征。

而在第二種情況中，一個(gè)指令感知的視覺模型可以利用指令中體現(xiàn)的共同知識(shí)來提取兩個(gè)不同圖像的特征，從而實(shí)現(xiàn)圖像之間更好的信息轉(zhuǎn)移。

InstructBLIP 通過充分利用 BLIP-2 模型中的 Q-Former 架構(gòu)，提出了一種指令感知的視覺特征提取方法。

華人團(tuán)隊(duì)爆火 InstructBLIP 搶跑看圖聊天，開源項(xiàng)目橫掃多項(xiàng) SOTA

如上圖所示，Q-Former 被設(shè)計(jì)用來從一個(gè)凍結(jié)的圖像編碼器的輸出中提取視覺特征。

根據(jù) BLIP-2 的論文，Q-Former 已經(jīng)分成兩個(gè)階段進(jìn)行了預(yù)訓(xùn)練，通過預(yù)訓(xùn)練，它學(xué)會(huì)了提取可以被 LLM 消化的文本對(duì)齊的視覺特征。

在推理過程中，一個(gè)指令被附加在視覺提示之后，就可以指導(dǎo) LLM 按照規(guī)定執(zhí)行不同的任務(wù)。

而在 InstructBLIP 中，指令文本不僅作為輸入給到 LLM，同時(shí)也給到了 QFormer。

由于訓(xùn)練數(shù)據(jù)集的數(shù)量眾多，而且每個(gè)數(shù)據(jù)集的大小差異很大，均勻地混合這些數(shù)據(jù)集可能會(huì)導(dǎo)致模型在較小的數(shù)據(jù)集上過度擬合，而在較大的數(shù)據(jù)集上擬合不足。

為了緩解這樣的問題，研究人員建議按照數(shù)據(jù)集的大?。从?xùn)練樣本的數(shù)量）進(jìn)行采樣，并進(jìn)行平方根平滑處理。一般來說，給定 D 個(gè)數(shù)據(jù)集的大?。?/p>

華人團(tuán)隊(duì)爆火 InstructBLIP 搶跑看圖聊天，開源項(xiàng)目橫掃多項(xiàng) SOTA

在訓(xùn)練期間，數(shù)據(jù)樣本從數(shù)據(jù)集 d 中被選中的概率被表述為，

華人團(tuán)隊(duì)爆火 InstructBLIP 搶跑看圖聊天，開源項(xiàng)目橫掃多項(xiàng) SOTA

除了這個(gè)加權(quán)公式外，研究人員還對(duì)某些數(shù)據(jù)集的權(quán)重進(jìn)行了手動(dòng)微調(diào)，以提高其收斂性。

這是必要的環(huán)節(jié)，因?yàn)楦鞣N數(shù)據(jù)集和任務(wù)的內(nèi)在差異，需要不同程度的訓(xùn)練強(qiáng)度，即使它們有類似的規(guī)模也是如此。

具體來說，研究人員降低了 A-OKVQA（多選）的權(quán)重，增加了 OKVQA 的權(quán)重。

華人團(tuán)隊(duì)爆火 InstructBLIP 搶跑看圖聊天，開源項(xiàng)目橫掃多項(xiàng) SOTA

實(shí)驗(yàn)結(jié)果

零樣本評(píng)估

研究人員首先在 13 個(gè)數(shù)據(jù)集上評(píng)估 InstructBLIP 模型，并將 InstructBLIP 與之前的 SOTA 模型 BLIP-2 和 Flamingo 進(jìn)行比較。

如表所示，InstructBLIP 在所有的數(shù)據(jù)集上都取得了新的零樣本的 SOTA 結(jié)果。

并且在所有的 LLM 上都超過了 BLIP-2，這表明了視覺指令微調(diào)的有效性。

華人團(tuán)隊(duì)爆火 InstructBLIP 搶跑看圖聊天，開源項(xiàng)目橫掃多項(xiàng) SOTA

此外，指令微調(diào)提高了對(duì)未見過的任務(wù)類別（如視頻 QA）的零樣本泛化能力。

盡管從未用時(shí)間視頻數(shù)據(jù)進(jìn)行訓(xùn)練，但 InstructBLIP 在 MSRVTT-QA 上比之前的 SOTA 提高了 47.1%。

最后，研究人員用最小的 InstructBLIP FlanT5XL（4B）在所有六個(gè)共享評(píng)估數(shù)據(jù)集上評(píng)估，其表現(xiàn)優(yōu)于 Flamingo-80B，平均相對(duì)改善率為 24.8%。

指令調(diào)優(yōu)的消融研究

為了研究指令感知的視覺特征提取和數(shù)據(jù)集平衡策略的影響，研究人員通過在指令微調(diào)過程中分別移除它們來進(jìn)行消融研究。

華人團(tuán)隊(duì)爆火 InstructBLIP 搶跑看圖聊天，開源項(xiàng)目橫掃多項(xiàng) SOTA

在所有的數(shù)據(jù)集中，視覺特征中缺乏指令感知會(huì)使性能明顯下降。在涉及空間視覺推理（如 ScienceQA）或時(shí)間視覺推理（如 iVQA）的數(shù)據(jù)集中，這種性能下降更為嚴(yán)重。

在這些數(shù)據(jù)集中，給 Q-Former 輸入指令可，以引導(dǎo)它更多地關(guān)注信息量更大的圖像嵌入。

關(guān)于數(shù)據(jù)平衡策略，移除它會(huì)導(dǎo)致不穩(wěn)定的訓(xùn)練模式，因?yàn)椴煌臄?shù)據(jù)集在明顯不同的訓(xùn)練步驟中達(dá)到最佳性能。因此，這種不穩(wěn)定性損害了整體性能。

定性評(píng)估

此外，研究人員進(jìn)一步使用更加多樣化的圖像和說明對(duì) Instruct-BLIP 進(jìn)行了定性研究。

比如使用 GPT-4 技術(shù)報(bào)告中的一張圖?！高@張圖有什么不對(duì)勁的地方？」

從給出的回答中看出，InstructBLIP 比 GPT-4 更全面，比 LLaVA 更視覺化，比 MiniGPT-4 更有邏輯性。

華人團(tuán)隊(duì)爆火 InstructBLIP 搶跑看圖聊天，開源項(xiàng)目橫掃多項(xiàng) SOTA

對(duì)于「蒙娜麗莎」這幅畫是誰(shuí)畫的問題，InstructBLIP 回答非常簡(jiǎn)短。

在這里，研究人員認(rèn)為長(zhǎng)回應(yīng)不總是可取的。Instruct-BLIP 可以通過自適應(yīng)調(diào)整響應(yīng)長(zhǎng)度直接解決用戶的意圖。

而其他模型傾向于生成較長(zhǎng)的段落，以及較不相關(guān)的句子。

華人團(tuán)隊(duì)爆火 InstructBLIP 搶跑看圖聊天，開源項(xiàng)目橫掃多項(xiàng) SOTA

Instructlip 能夠取得這些優(yōu)勢(shì)，是使用多樣化的指令調(diào)優(yōu)數(shù)據(jù)和有效的架構(gòu)設(shè)計(jì)的結(jié)果。

另外，通過研究發(fā)現(xiàn)，指令調(diào)整是提高模型零樣本泛化能力的關(guān)鍵。

華人團(tuán)隊(duì)爆火 InstructBLIP 搶跑看圖聊天，開源項(xiàng)目橫掃多項(xiàng) SOTA

基于 BLIP-2 FlanT5XL 的指令調(diào)優(yōu)和多任務(wù)訓(xùn)練的比較

此外，研究人員進(jìn)一步對(duì) InstructBLIP 模型進(jìn)行微調(diào)，研究其在學(xué)習(xí)特定數(shù)據(jù)集上的表現(xiàn)。

與大多數(shù)以前的方法（如 Flamingo，BLIP-2）相比，InstructBLIP 在指令微調(diào)期間保持相同的圖像分辨率（224×224），并在微調(diào)期間保持視覺編碼器的凍結(jié)狀態(tài)。

這大大減少了可訓(xùn)練參數(shù)的數(shù)量，從 1.2B 到 188M，從而大大提高了微調(diào)效率。

華人團(tuán)隊(duì)爆火 InstructBLIP 搶跑看圖聊天，開源項(xiàng)目橫掃多項(xiàng) SOTA

作者介紹

Wenliang Dai

Wenliang Dai (戴文亮) 是香港科技大學(xué)的博士研究生，導(dǎo)師是 Pascale Fung 教授。在此之前，他曾獲得倫敦大學(xué)學(xué)院碩士學(xué)位，諾丁漢大學(xué)計(jì)算機(jī)學(xué)士學(xué)位。

華人團(tuán)隊(duì)爆火 InstructBLIP 搶跑看圖聊天，開源項(xiàng)目橫掃多項(xiàng) SOTA

Junnan Li

Salesforce 亞洲研究院科學(xué)家，香港大學(xué)電子工程學(xué)學(xué)士，新加坡國(guó)立大學(xué)計(jì)算機(jī)博士，主要研究方向計(jì)算機(jī)視覺和深度學(xué)習(xí)、非監(jiān)督式學(xué)習(xí)，弱監(jiān)督學(xué)習(xí)，遷移學(xué)習(xí)和社交場(chǎng)景理解。

華人團(tuán)隊(duì)爆火 InstructBLIP 搶跑看圖聊天，開源項(xiàng)目橫掃多項(xiàng) SOTA