邊看邊創造，在 PixVerse R1 的實時世界模型里，你真是上帝

2026-01-18 09:50 · 稿源：硅星人Pro公眾號

聲明:本文來自于微信公眾號硅星人Pro，作者:硅星人Pro，授權站長之家轉載發布。

想象一下，用一句話生成一個世界，一句話改變一個世界，一句話無限延伸一個世界。

1月13日晚，愛詩科技正式發布 PixVerse R1，它是“全球首個通用實時世界模型”，支持最高1080P 分辨率，基于原生多模態架構、自回歸流式生成和瞬時響應引擎構建。

先別管它是不是真正的“世界模型”，重要的是它確實改變了視頻媒介的固有范式。過去視頻生成是單向的:輸入指令、等待結果、拿到成品。R1把這個過程變成了實時對話:你說一句，畫面就變一下，一直說下去，視頻也就一直生成下去，沒有時長限制。

有點前陣子 Gemini 發布生成式 UI 那味了:核心突破不是“更快”，而是交互方式變了。PixVerse R1不是“更快的視頻生成工具”，而是試圖讓 AI 真正模擬一個持續運轉、可以隨時介入的世界。

這極大拓寬了視頻生成的應用場景。以前視頻生成最有價值的是最終成品，是剪輯之后的結果。現在生成過程本身就是一種交互體驗，可以直接用在實時游戲、互動劇情、甚至直播里。

真的假的?我們實測了一下，看看 Sora 畫了一年多的餅，PixVerse 是不是真的先做到了。

不用等，你就是上帝

R1上線后，硅星人在第一時間對其進行了測試，我們用一個經典的故事，來看看它的理解和交互能力。

Prompt 設定是一個經典的奇幻世界:浮空島嶼懸浮在金色黃昏的天空中，巨大的瀑布從島嶼邊緣傾瀉入云海，古老的石橋連接著各個島嶼，橋上爬滿發光的藤蔓。在這個世界里，我“操縱”了一條噴火的巨龍盤踞在最高的島嶼上，一位勇士要穿越重重險阻，最終拔劍與龍搏斗，救出被囚禁的公主。

第一個讓我意外的地方是真的不用等。從輸入 Prompt 到畫面開始流動，體感上幾乎是即時的。按下生成，畫面就開始隨著提示詞變化。用過其他視頻生成工具的人應該知道，傳統流程是:輸入、等待、loading 轉圈、幾十秒甚至幾分鐘后出結果。R1的體驗完全不同，Prompt 和畫面之間幾乎沒有時間差，你還在構思下一句的時候，上一句已經變成畫面在播放了。這對于需要反復調試、快速迭代的創作流程來說，體驗提升是質變級別的。

在長時間的生成中我發現，即便沒有提示詞，R1的生成也是連貫的。以前用視頻生成工具做長內容，本質上是“拼片段”，每次只能生成4秒或6秒的片段，想講一個完整的故事，得自己手動把十幾個片段剪到一起。問題在于，片段和片段之間，模型沒有記憶。

R1不一樣。我從勇士啟程、跨越石橋、對抗巨龍、救出公主，整個敘事是一條連續的流，不是碎片拼圖。生成的結果中鏡頭邏輯是通的:勇士沖向巨龍時，鏡頭跟著他的動線推進;拔劍的瞬間，切了一個劍身特寫，然后再拉回全景。這種鏡頭語言不是我 Prompt 里寫死的，是模型自己“理解”了敘事節奏之后做出的選擇。

第三個值得說的是，理論上可以一直生成下去。傳統模型有一個硬傷叫“時長上限”。4秒就是4秒，6秒就是6秒，想要更長的內容，只能靠接力和拼接，而且越往后生成，累積誤差越大，畫面崩得越厲害。R1讓它擺脫了這個限制，測試的時候發現如果用戶不干預，它可以一直生成下去，故事從勇士救出公主，發展到兩人騎著飛行生物逃離巨龍的追擊，又演變成飛躍云海、抵達一座新的浮空城市，即便不給新的提示詞，它也會按照劇情一直生成下去，做到真正的“無限流”。

問題主要集中在轉場和一致性上。

因為我的 Prompt 寫得比較籠統:只給了“勇士穿越石橋”“與龍搏斗”“救出公主”這些關鍵節點，沒有詳細描述中間的過渡:模型在處理細節切換時出現了一些生硬的跳接。比如勇士剛剛還在石橋上奔跑，下一秒直接出現在龍面前，中間的空間位移沒有任何交代。

另外，勇士在某些片段里會突然“變人”，前一秒還是男性形象，下一秒莫名變成了公主;有時候人物會毫無征兆地憑空出現或突然消失，雖然不至于完全崩壞，但確實能感覺到模型對角色的“記憶”還不夠穩固。

這些問題加在一起，讓我意識到 R1目前的“世界模型”更像是一個新的框架:大的敘事邏輯能跑通，但細節處的物理規則和角色鎖定還需要和真實世界的我們相互適應。

總體來說，PixVerse R1在速度、敘事連貫性和時長自由度上確實有突破，這三點加在一起，已經能改變很多敘事方式了。但“世界模型”這個概念要真正落地，物理一致性和自動化的敘事連貫性還需要繼續打磨。

PixVerse R1是“真實時”嗎?

在此之前，市面上也有一些模型宣稱“實時生成”，但大多數其實是“偽實時”，生成時間縮短到了人類感知不太敏感的范圍，給人的體感像是實時，但本質上還是“先渲染、后播放”。你看到畫面的時候，計算早就跑完了，只是等待時間短到你沒注意而已。

R1究竟是不是真實時，要看的不僅是它的效果，更是它的架構。

打個比方。偽實時像視頻網站的預加載，提前緩沖了10秒，所以你感覺沒有卡頓，但跳到沒緩沖的地方就得等。“真實時”是直播:畫面是當下正在發生的，不存在“提前渲染好”這回事。對應到視頻生成:偽實時是“算得快”，真實時是“邊算邊出”。前者你沒法在生成過程中插嘴，后者你可以隨時喊停、隨時改指令，畫面即時響應。

R1屬于后者。它的架構從底層就是為“流式交互”設計的，不是在傳統架構上做加速，而是換了一套邏輯。

傳統的多模態模型，其實是“拼裝”出來的，文字走一個模型，圖片走另一個模型，音頻再走一個，最后把結果拼到一起。各個模塊之間沒有真正打通。你讓它生成“一只貓跳上窗臺，窗外下著雨”，它可能貓畫得不錯，雨也畫得不錯，但貓毛有沒有被雨淋濕、窗臺上有沒有雨水濺落這些細節，它顧不上，因為它是分開處理的。

R1用的是Omni 原生多模態架構。什么叫原生?就是從一開始，文字、圖片、音頻、視頻就在同一個架構里訓練，用同一套“語言”處理。模型看到的不是“文字+圖片+聲音”的拼盤，而是一條統一的 Token 流。這樣它才能真正理解:下雨天的貓，毛發應該是濕的，窗臺應該有水漬，雨聲應該和畫面同步。

R1所采用的自回歸流式生成，意味著模型生成下一幀的時候，會參考前面已經生成的內容。更關鍵的是它有“長期記憶”，不只是記住上一幀，而是能記住幾十秒甚至幾分鐘前的信息。這就是為什么 R1可以生成理論上無限長的視頻，而且角色形象和場景邏輯大體上能保持一致。這是實時交互的基礎，只有生成是連續的、有記憶的，你中途插入的指令才能被接住，而不是讓整個畫面從頭再來。

前面兩點解決的是“能不能”的問題，但還沒解決“快不快”。就算模型聽懂了、記住了，如果每幀還是要算50步，那還是快不起來。

R1的做法很激進:直接把采樣步數壓縮到1到4步。

怎么做到的?簡單說就是砍彎路、加引導、動態調配。把原來必須走的冗余計算砍掉，只保留最關鍵的節點;在極少步數里通過額外引導保證畫面質量不崩;根據畫面內容動態調整計算量:簡單的地方少算，復雜的地方多算。

原生多模態讓它聽懂你要什么，自回歸讓它記住前面發生了什么，極致壓縮的采樣讓這一切發生在“此刻”而不是“稍后”。

至于 R1是不是“世界模型”?

它確實做到了實時、連貫、可交互。這不只是技術指標的提升，更是通向“世界模型”的關鍵躍遷。視頻，作為對人類影響最大的媒介形態，正在成為 AI 理解物理規律、推演因果關系鏈條、應對開放場景的最前沿。真正的“世界模型”，可能將是人類想象力與機器智能共同演化的場域。PixVerse R1只是實時（Real-time）媒介形態的一個起點，它第一次讓億萬觀眾站在了這個世界的新入口:可以看，更能參與創造。

但方向比完美更重要。

Sora 讓大家相信 AI 能生成視頻，PixVerse 讓大家相信 AI 生成的世界可以通過視覺交互。這是兩件不同的事，后者可能才是通往真正“世界模型”的路。

（舉報）

相關推薦

關鍵詞：

薦實時生成開放世界：新AI模型貼臉開大，游戲研發慌不慌？

這兩天，又有一款全新的AI模型出現了。雖說如今AI改變各行各業的事情早就屢見不鮮，在游戲業，很多崗位也或多或少已經用上了AI技術，但最近發布的這款AI模型，它真不一樣。這款AI模型名叫PixVerse R1，按官方說法，PixVerse R1是全球首個真正意義上的「實時生成世界模型（Real-time World Model）」。

?AI模型 ?游戲行業 ?實時生成
范式官宣2026戰略升維：以“AI Agent + 世界模型”為核構建“AI + X”產業新生態

1月30日，范式集團年會在北京舉行。創始人戴文淵正式宣布，集團已完成品牌體系與戰略架構的全面升級。范式確立了以“AI Agent + 世界模型”為核心的技術路線，開啟“AI + X”的產業新生態。自2014年成立以來，范式堅持“AI for Everyone”的使命，始終致力于將AI的紅利惠及每一個人，在金融、制造、能源等20多個領域積累了十多年的經驗。2025年，公司完成集團化轉型，在延續“

?范式集團 ?AI ?Agent
重新定義“實時在線交互”，Soul App開源實時數字人生成模型SoulX-FlashTalk

Soul AI Lab開源實時數字人生成模型SoulX-FlashTalk，實現0.87秒亞秒級超低延遲、32fps高幀率，支持超長視頻穩定生成。該模型具備“零延遲”即時反饋、高精細度全身動作合成、超長視頻穩定生成等亮點，通過雙向蒸餾與多步回溯自校正機制解決傳統方案延遲高、畫面不一致等問題。在電商直播、短視頻制作、AI客服等場景提供高質量、可落地的解決方案，推動大參數量實時生成式數字人邁入具體商用階段。

?數字人生成 ?SoulX-FlashTalk ?AI開源模型
薦AI日報：MiniMax Music 2.5 發布；螞蟻靈波開源世界模型LingBot-World；谷歌 Gemini 3.5 泄露

本期AI日報聚焦多項AI技術突破：MiniMax Music 2.5發布，提升AI音樂可控性與真實度；螞蟻靈波開源世界模型LingBot-World，為具身智能等提供高保真數字環境；谷歌Gemini 3.5泄露，單次提示可生成三千行代碼；Kimi K2.5 Agent升級，高效處理Excel、Word等辦公文檔；蘑菇物聯“靈知”垂直大模型通過備案，專注工業輔助與能源領域；昆侖萬維SkyReels-V3開源，實現多模態視頻生成；昆侖天工發布音樂大模型Mureka V8，推動AI音樂邁向“可發布”級別；三星宣布下一代AR眼鏡將于2026年發布，主打多模態AI體驗。

?AI音樂 ?MiniMax ?Music
全球首個通用實時世界模型PixVerse R1發布視聽媒體進入交互時代

愛詩科技發布全球首個支持1080P實時生成視頻模型PixVerse R1，實現“所想即所見、所說即所現”的實時交互體驗。該模型基于Omni原生多模態基礎模型、自回歸流式生成機制和瞬時響應引擎三大核心技術，將視頻生成延遲降至“即時”響應，標志著AIGC視頻生成從“靜態輸出”邁入“實時交互”新階段。

?PixVerse ?R1 ?實時世界模型
騰訊春節放大招！“元寶派”公測上線：打通騰訊視頻、QQ音樂

騰訊旗下AI助手元寶宣布“元寶派”公測上線，探索AI社交新賽道。用戶可通過元寶APP創建或加入“派”，與AI“派友”聊天互動、協作娛樂。公測版本新增騰訊視頻、QQ音樂生態內容，用戶可與AI一起聽歌看電影，暢享海量曲庫和VIP影片。需更新至2.56.0以上版本，通過邀請碼或朋友分享鏈接加入體驗。

?AI社交 ?元寶派 ?騰訊AI
82歲大爺背包環游世界：珍惜當下一切都是值得的

近日，一位82歲的老人余龍才大爺以一年退休金為代價深入非洲四國，在地中海冬泳、印度洋逐豚的勇敢舉動，如同一束溫暖而耀眼的光，照亮了網絡世界，引發了全網的動容與熱議。而他所說的那句“沒有來日方長”，更是成為了高齡背包客精神的核心注腳，激勵著無數人。隨著旅行的不斷深入，余大爺在技術和社交方面都有了很大的進步。起初，他只能依賴紙質攻略來規?

?高齡背包客 ?退休旅行 ?非洲冒險
京東影像大賽征稿進行中采銷邀請影視颶風Tim寄語視頻創作者

猛瑪近日舉辦品牌戰略暨新品發布會，展示其在無線音視頻領域的技術布局與全球化成果。作為第八屆京東影像大賽官方合作伙伴，猛瑪為參賽者提供全方位創作支持。會上，品牌全球代言人Tim分享創作經驗，針對初學者困惑給出實用建議：嚴肅創作應注重文稿構思，可借助思維導圖整合觀點；現場創作則需保持觀察與記錄習慣，積累素材。Tim鼓勵年輕創作者勇于嘗試，避免盲目比較，注重原創發揮個人創造力。京東影像大賽作品征集火熱進行中，參賽者可通過京東APP搜索“影像大賽”了解詳情并上傳作品，有機會贏取豐厚獎金及專業設備。

?無線音視頻 ?品牌戰略 ?秋季新品
馬斯克稱xAI將加碼AI藍圖：明年大規模生成高質量游戲、影視

馬斯克昨日在X平臺發文稱，xAI明年將大規模推出影視內容和電子游戲。而這些內容不僅能實時生成，還具備高質量，且能按照個人意愿定制。據悉，馬斯克曾在2025年預測，xAI旗下的游戲工作室將于今年年底前推出一款出色的AI生成游戲”。

?AI生成游戲 ?xAI影視內容 ?馬斯克預測
薦大模型六小龍告別青春期

?不到一個月的時間，大模型六小龍中的五家都集中進行了新一輪的戰略表態。月之暗面今天發布了新模型Kimi2.5，其創始人楊植麟在2025年12月31日發布了一封全員信，公開公司完成新一輪5億美元融資，并表示會讓Kimi成為一個「與眾不同」和「不被定義」的大語言模型。1月26日，階躍星辰公布了超50億B+輪融資，并宣布前曠視科技創始人印奇出任公司董事長，明確押注AI與智能?

?大模型 ?戰略表態 ?融資

今日大家都在搜的詞：

熱文

3 天
7天

邊看邊創造，在 PixVerse R1 的實時世界模型里，你真是上帝

不用等，你就是上帝

PixVerse R1是“真實時”嗎?

薦實時生成開放世界：新AI模型貼臉開大，游戲研發慌不慌？

范式官宣2026戰略升維：以“AI Agent + 世界模型”為核構建“AI + X”產業新生態

重新定義“實時在線交互”，Soul App開源實時數字人生成模型SoulX-FlashTalk

薦AI日報：MiniMax Music 2.5 發布；螞蟻靈波開源世界模型LingBot-World；谷歌 Gemini 3.5 泄露

全球首個通用實時世界模型PixVerse R1發布視聽媒體進入交互時代

騰訊春節放大招！“元寶派”公測上線：打通騰訊視頻、QQ音樂

82歲大爺背包環游世界：珍惜當下一切都是值得的

京東影像大賽征稿進行中采銷邀請影視颶風Tim寄語視頻創作者

馬斯克稱xAI將加碼AI藍圖：明年大規模生成高質量游戲、影視

薦大模型六小龍告別青春期

今日大家都在搜的詞：

熱文

2026支付寶集福正式開啟今年支持掃馬得福玩法

2026支付寶集福卡明天開啟：19套主題每套1.68元紅包

AI日報：阿里千問砸30億發紅包；快手整治AI魔改；靈光App支持上

馬上偷菜！騰訊《QQ經典農場》官宣2月6日上線

雷軍：第一代小米SU7已停售新款SU7預計2月13日左右到店

AI日報：OpenAI推出macOS版Codex應用；智譜發布0.9B輕量級GLM-

騰訊回應元寶崩了：目前已經恢復 10億紅包活動太火爆

新款聯想拯救者Y700平板官宣3月發布

余承東公布問界M6實車外觀預計將于今年春季發布

華為FreeClip 2耳夾耳機推出冰莓紫、玫瑰金兩款新配色