TL;DR
Meta提出的 MILS(Multimodal Iterative LLM Solver)主張大型語言模型(LLM)可以在沒有經過任何多模態訓練的情況下,直接處理圖像、影片和音訊任務。
我的結論是:
- MILS是一個創意十足的推理優化技術,適合用來展示LLM推理潛力,但不代表LLM真正獲得了感知能力。
- 整個過程完全依賴外部訓練好的多模態評分器(例如CLIP、SigLIP等),LLM本身並沒有真正「看到」或「聽到」媒體內容。
- MILS的成功依賴於「反覆試錯加分數引導」的黑箱式優化,而非LLM自身的感知理解。
- 雖然避免了重新訓練模型的成本,但每一次推理的運算開銷遠高於傳統多模態模型。
- 我用一個簡單的數字猜測實驗模擬了MILS的方法,證實:即便完全沒有感知能力,透過大量隨機猜測+分數回饋,也可以逐步逼近答案,但這只是暴力推理而非真正理解。
1. 快速理解:MILS的實際運作方式
- 輸入:一張測試圖片(或影片/音訊)。
- 初始化:載入 30,000 條候選描述,對每張圖片,使用 CLIP(或 SigLIP)對所有 30K 描述計算相似度分數,50 條高分描述,作為 初始 pool
- 生成器(GENERATOR):參考pool的內容,LLM生成一批(論文中為 50個)候選描述或指令。
- 評分器(SCORER):使用SigLIP、ViCLIP、ImageBind等模型,計算每個文本候選與媒體之間的相似度分數。
- 回饋循環:將分數和前幾名的候選回饋給LLM,促使生成更好的描述。
- 重複迭代 N 次(論文中為10次),最後保留最高分的描述。
我的理解,簡單來說,這個作法只是透過多次的猜測與分數引導讓LLM的回答出正確答案,就像盲人透過幾萬次猜測也可以根據反饋猜到圖片上的內容是甚麼一樣 這更像是一種透過高運算能力暴力破解題目的答案
2. 為什麼我對這個標題持保留態度
2.1 LLM從未接觸過任何圖像或聲音資訊
整個感知能力都來自於評分器。如果移除SigLIP/ImageBind,LLM仍然是看不見、聽不到的。
2.2 成效依賴於大量預訓練
雖然 LLM 本身沒有再做微調,但整個流程是透過「評分 → 改寫 → 再評分」的黑箱最佳化把回答往高分方向搜尋;真正承擔感知與語意評估的還是預先大量訓練的多模態評分器。
2.3 隱性的大量運算成本
以MILS設定為例:初始化就要對 30 K 描述做一次 CLIP 打分,然後50個候選×10輪,總共需生成500次描述。雖然可以批次處理,但存在「隱性的大量運算成本」。
2.4 過擬合的風險
由於優化目標只靠單一分數,LLM容易學到評分器的偏好模式(比如過度依賴顏色詞語),而不是真正理解畫面內容。
3. 延伸閱讀與資源
結語
透過大量算力暴力破解的做法,MILS 展現出了深度學習裡面的黑箱可能的面貌之一。就像盲人看不到照片,但是可以透過大量猜測獲得答案,且記住了獲得這個答案的參數。但這不能說明盲人真的能看到照片。所以 LLMs 並沒有突然長出眼睛和耳朵;它們只是借用了訓練好的多模態評分器,並且付出了大量運算時間的代價。
額外補充:我用簡單數字猜測實驗進行了驗證
為了進一步驗證這個想法,我設計了一個簡單的數字猜測實驗,模擬 MILS 論文的方法流程:
詳細可以參考: Google Colab
模擬步驟:
- 隨機生成 30,000 個初始猜測。
- 選出距離正確答案最近的 Top50。
- 以這50個數值的最小值和最大值作為新的範圍。
- 每次在這個範圍內隨機生成50個新猜測,選出新的最佳猜測,並調整範圍。
- 重複10次,並輸出最終的最佳猜測與正確答案的誤差百分比。
這個程序很好地證明了我想表達的論點:
- 即使完全沒有「視覺」或「聽覺」,單靠分數回饋也能逐步逼近答案。
- 最後的結果只是大量試錯與篩選的結果,並不是因為模型真的理解了輸入。
- 因此,MILS的成功不代表 LLMs 在無訓練下真的獲得了感知能力,而只是透過外部模型與暴力推理策略達成的。
ABOUT ME

現在海外在住。AIとアプリ開発、自由な働き方に関する最新情報を皆様にお届けすべく、日々挑戦中です。
趣味はアプリ制作、読書、カフェ巡り。副業・フリーランス生活についても発信中!