
W讀Podcast|影片生成不等於理解世界:Moonlake 用符號推理打造真正可互動的 World Model
TL;DR
- 影片生成模型(Sora、Veo3)畫面好看,但缺乏對 3D 世界的因果理解,無法做到真正的互動和長期一致性
- Moonlake 的核心方法論是 structure + scale:用符號化的語義抽象層來建模世界,再用 diffusion model(Reverie)做視覺渲染,兩層分離
- 人類處理視覺資訊時,大部分進入眼睛的像素根本沒被處理,我們靠的是語義抽象。World model 也該走同一條路
- Chris Manning 直接挑戰 Yann LeCun 的 JEPA 哲學:語言不只是低比特率的溝通工具,它是讓人類遠超黑猩猩的認知工具
- Moonlake 的 world model 可以產生可互動、有因果關係、支援多人遊玩的世界,不只是讓你「走來走去看風景」
- Reverie 模型想要取代傳統 rasterizer 成為下一代渲染範式,讓玩家可以用任意風格「換皮」玩任何遊戲
- World model 的評估至今沒有好的 benchmark,最終還是要回到「使用者覺得有用嗎」這個老問題
這集在 2026 年 4 月 2 日播出的 Latent Space Podcast,由 swyx(Shawn Wang)和 Alessio Fanelli 主持。Latent Space 是 AI 工程圈知名度最高的 Podcast 之一,內容涵蓋 AI 研究、工程實務和產業趨勢,最近還在擴編成 Podcast 網絡。這集的來賓是 Moonlake AI 的兩位核心人物:Fan-Yun Sun(孫凡耘)和 Chris Manning。Sun 是 Moonlake 共同創辦人,台大畢業後在 Stanford AI Lab 讀博士,PhD 期間跟 NVIDIA Research 合作做大規模 3D 世界生成。Chris Manning 更不用多介紹了,NLP 領域全球被引用次數最多的研究者,Stanford AI Lab 前主任、GloVe 詞向量和早期 attention 機制的推手,2025 年從 Stanford 休假轉任 AIX Ventures GP,現在同時是 Moonlake 的核心成員。Moonlake 拿了 2,800 萬美金的 seed round,投資人名單包括 NVIDIA Ventures、Jeff Dean、YouTube 創辦人 Steve Chen、GAN 發明者 Ian Goodfellow 等一票大咖。
影片生成模型看起來很厲害,但它不是 World Model
Sora、Veo3 這些影片生成模型,每次 demo 出來大家都驚呼「好像真的一樣」。但 Manning 講了一個很關鍵的區分:畫面好看不代表模型理解了 3D 世界。
真正的 world model 需要是 action-conditioned 的。意思是,你做了一個動作,模型要能預測這個動作會對世界造成什麼後果。不只是預測下一幀畫面長怎樣,而是能推理出「幾分鐘後世界會變成什麼狀態」。這需要的是一個抽象的語義模型,不是像素級的外觀生成。
Moonlake 在 blog 裡用了一個保齡球遊戲的例子來說明。當你輸入「建一個保齡球遊戲」,影片生成模型可能給你一段看起來像保齡球的影片,但你沒辦法真的玩。Moonlake 的推理模型會去思考:保齡球需要什麼物理規則?球打到瓶子會怎樣?分數怎麼算?重置的時候世界狀態要怎麼變?這些推理 trace 涵蓋了幾何、物理、affordance(可操作性)、符號邏輯等等。
Sun 在節目裡直接點名:Google 的 Genie demo 和 World Labs 的 Marble 都沒有做到真正的互動式世界。你可以在裡面走來走去看風景,但不能跟物件互動、不能看到動作的因果結果。
Structure Not Scale:為什麼光靠規模不夠
這可能是整集最有爭議性的論點。
大家都知道 bitter lesson:靠 scale 解決一切。OpenAI 在 2024 年 2 月發 Sora 的時候,blog 標題直接叫「Video generation models as world simulators」,整個論述就是「我們把 diffusion 放大,一致性自然就出來了」。
Manning 不否認 scale 的價值,但他提出了幾個 scale alone 不夠的理由:
第一,網路上能收集到的影片數據,大多是觀察性的。你不知道畫面變化背後是什麼動作造成的。要從觀察資料裡反推動作,理論上可行但極度困難,至今沒有人在任何規模上真正做到。
第二,文字數據天生就有高度抽象性。每個 token 本身就代表一個語義概念。「教授」「傲慢」這些詞,每一個都是對世界的高度壓縮描述。但從像素出發要達到同等的抽象程度,需要的數據量和計算量多好幾個量級。
Manning 舉了一個很有說服力的例子:人類看東西的時候,大部分進入眼睛的像素根本沒被處理。你只精細處理正在注視的那一小塊,周圍的東西全部是用 top-down 的語義抽象在處理。「喔,旁邊有個人。」你不需要處理那個人的每一個像素,一個語義標籤就夠了。
所以 Moonlake 的賭注是:如果你能用比純像素方法少五個數量級的數據來達到同樣的效果,你就能更快、更便宜地取得進展。
我覺得這個觀點跟之前寫過的 SaaS 要死了嗎?從 Klarna CEO 砍掉一半員工的故事聊起 有異曲同工之妙:效率上的結構性優勢,長期來看會打敗純粹的規模堆疊。
Manning vs. LeCun:語言到底重不重要
這段是整集我覺得最精彩的部分。
Manning 直接說了:Yann LeCun 是好朋友,但他從來沒有真正理解語言和符號表示的力量。
LeCun 的世界觀是:世界的基本組成是視覺的,語言只是人類之間低比特率的溝通管道,遠不如進入眼睛的高比特率影片重要。他推的 JEPA(Joint Embedding Predictive Architecture)也是以這個哲學為基礎。
Manning 的反駁用了一個演化論的論證:黑猩猩的大腦跟人類很像,視覺系統很強,記憶力甚至比我們好,也能做簡單的計劃和製造原始工具。但人類遙遙領先。為什麼?因為人類發展出了語言。
語言給了我們一個符號化的知識表示和推理層,讓智能產生了質的飛躍。哲學家 Daniel Dennett 把語言稱為「認知工具」(cognitive tool),而數學、程式語言也是同類型的認知工具。它們讓你能在抽象層面做延伸的因果推理鏈,這是純視覺做不到的。
Manning 說他不確定 LeCun 對 auto-regressive model 的批評完全正確。雖然 token 的產生是序列式的,但 transformer 內部的權重實際上是模型對世界理解的聯合表示(joint representation),理論上可以作為 world model 的基礎。
老實說我覺得這個辯論在 AI 圈會持續很久,但 Manning 的演化論論證確實很有說服力。如果純視覺就夠了,黑猩猩早就建文明了。
Reverie:把遊戲「換皮」成任何你想要的風格
Moonlake 的技術架構分成兩層。上層是多模態推理模型,負責因果關係、一致性、邏輯確定性。下層是 Reverie,一個 diffusion model,負責把抽象的世界狀態渲染成高品質的視覺輸出。
這個分離設計很聰明。推理模型確保世界的邏輯是對的,Reverie 確保畫面是漂亮的。兩者各司其職。
但更有趣的是 Sun 對 Reverie 的商業願景:他認為這會成為下一代的渲染範式,取代傳統的光柵化(rasterizer)和 NVIDIA 的 DLSS。想像一下,你在玩任何遊戲,但可以即時把它變成照片寫實風格、水彩風格、或任何你想要的視覺風格。就像遊戲社群裡大家瘋狂裝 GTA 的畫質 mod 一樣,但這次是 AI 原生的。
更進一步的是,這個渲染器可以成為遊戲循環的一部分。比如設定「當你收集到 10 顆蘋果,你的子彈就會變成蘋果」。傳統渲染器做不到這種動態效果,因為它只是遊戲狀態的衍生物。但 Reverie 因為具備對世界的先驗理解,可以讓渲染本身變成 gameplay 的一環。
我覺得這對遊戲設計師來說是一個全新的創意維度。但就像節目裡說的,藝術家可能需要兩三年才能搞清楚這工具能幹嘛。
評估 World Model 到底難在哪
Manning 在這段講了一個我覺得適用於整個 AI 產業的觀察:benchmark 越來越不管用了。
早期 NLP 有 QA benchmark,vision 有物件辨識,這些小型任務很容易衡量。但現在大家想要的是什麼?你想問 LLM「下個月去歐洲旅行,哪個背包最適合我」。這種開放式的互動體驗,根本沒辦法用 benchmark 量化。
World model 也一樣。如果你是做遊戲的,成功的定義是「遊戲設計師能在合理時間內實現他想像的東西」。如果你是訓練機器人的,成功的定義是「在模擬環境裡訓練完的 policy 能在真實環境裡穩定運作」。每個 use case 的評估標準都不一樣。
最後大家靠什麼判斷?跟 LLM 一樣,靠「用腳投票」。你試了 GPT-5 和 Claude,覺得哪個回答更好就用哪個。World model 最終也會走到這一步。
遊戲好不好玩跟畫面好不好看是兩回事
Manning 講了一句很中肯的話:很多畫面原始的遊戲大獲成功,很多花了幾百萬做照片寫實畫面的遊戲爛透了。
這讓我想到一個更根本的問題:我們評估 AI 生成內容時,太容易被視覺品質帶偏。Sora 生成的影片看起來很漂亮,大家就覺得「AI 理解世界了」。但漂亮的畫面和真正的空間理解是完全不同的兩件事。
這也是為什麼 Moonlake 的方法有意思。他們不跟影片生成模型比畫面,而是比「你能不能真的在這個世界裡做事」。能不能互動?做了動作有沒有正確的因果結果?狀態能不能長期一致?
節目裡有個很好的測試:在 Sora 生成的影片裡,讓狗從鏡頭前走遠,狗叫聲會不會變小?不會,因為它根本沒有 spatial audio。Moonlake 因為底層有遊戲引擎作為工具,空間音效是自然湧現的。
為什麼叫 Moonlake
最後一個彩蛋。公司取名的時候,他們想要一個有 Dreamworks、Industrial Light & Magic 那種氛圍的名字。Moon 代表「反射」(reflection),暗示模型的自我改進循環。Lake 則是⋯⋯好吧,我猜就是搭配起來好聽。
Sun 還說了一句讓我印象深刻的:「主題公園就是 world model。」想想迪士尼樂園的 Epcot Center,裡面有各國的縮小複製品,那不就是一個物理版的 world model 嗎?Walt Disney 本人可能是史上第一個 world modeler。
這集的資訊量偏學術但我盡量消化成一般人能理解的版本了。如果你對 AI 不只是「生成好看的東西」而是「真正理解世界」這條路線有興趣,Moonlake 值得持續關注。至於 Manning 跟 LeCun 的哲學之爭,我個人是偏 Manning 這邊的。語言作為認知工具的論證太有說服力了。
想看更多類似的 AI 產業觀察和 Podcast 筆記,可以訂閱 wilsonhuang.xyz,新文章出來就能第一時間收到。
推薦閱讀
喜歡這篇文章嗎?
訂閱電子報,每週收到精選技術文章與產業洞察,直送你的信箱。
💌 隨時可以取消訂閱,不會收到垃圾郵件


