Deep Dive | “LLMs Can See and Hear Without Any Training”? My Skeptical Take on the MILS Paper
info@appfreelife.com
アプリ副業ラボ!
Meta提出的 MILS(Multimodal Iterative LLM Solver)主張大型語言模型(LLM)可以在沒有經過任何多模態訓練的情況下,直接處理圖像、影片和音訊任務。
我的結論是:
我的理解,簡單來說,這個作法只是透過多次的猜測與分數引導讓LLM的回答出正確答案,就像盲人透過幾萬次猜測也可以根據反饋猜到圖片上的內容是甚麼一樣 這更像是一種透過高運算能力暴力破解題目的答案
整個感知能力都來自於評分器。如果移除SigLIP/ImageBind,LLM仍然是看不見、聽不到的。
雖然 LLM 本身沒有再做微調,但整個流程是透過「評分 → 改寫 → 再評分」的黑箱最佳化把回答往高分方向搜尋;真正承擔感知與語意評估的還是預先大量訓練的多模態評分器。
以MILS設定為例:初始化就要對 30 K 描述做一次 CLIP 打分,然後50個候選×10輪,總共需生成500次描述。雖然可以批次處理,但存在「隱性的大量運算成本」。
由於優化目標只靠單一分數,LLM容易學到評分器的偏好模式(比如過度依賴顏色詞語),而不是真正理解畫面內容。
透過大量算力暴力破解的做法,MILS 展現出了深度學習裡面的黑箱可能的面貌之一。就像盲人看不到照片,但是可以透過大量猜測獲得答案,且記住了獲得這個答案的參數。但這不能說明盲人真的能看到照片。所以 LLMs 並沒有突然長出眼睛和耳朵;它們只是借用了訓練好的多模態評分器,並且付出了大量運算時間的代價。
為了進一步驗證這個想法,我設計了一個簡單的數字猜測實驗,模擬 MILS 論文的方法流程:
詳細可以參考: Google Colab
模擬步驟:
這個程序很好地證明了我想表達的論點: