日本在线A一区视频高清视频,亚洲日本中文字幕天堂网,亚洲中文字幕无码久久2020,日本伦理在线一区二区,97在线观看永久免费视频下载 ,国产三级做爰在线播放,被两个19厘米粗大空少双龙,色天天综合网色鬼综合
首頁 > 業界 > 關鍵詞  > 文章搜索最新資訊  > 正文

邊看邊創造,在 PixVerse R1 的實時世界模型里,你真是上帝

2026-01-18 09:50 · 稿源: 硅星人Pro公眾號

聲明:本文來自于微信公眾號 硅星人Pro,作者:硅星人Pro,授權站長之家轉載發布。

想象一下,用一句話生成一個世界,一句話改變一個世界,一句話無限延伸一個世界。

1月13日晚,愛詩科技正式發布 PixVerse R1,它是“全球首個通用實時世界模型”,支持最高1080P 分辨率,基于原生多模態架構、自回歸流式生成和瞬時響應引擎構建。

先別管它是不是真正的“世界模型”,重要的是它確實改變了視頻媒介的固有范式。過去視頻生成是單向的:輸入指令、等待結果、拿到成品。R1把這個過程變成了實時對話:你說一句,畫面就變一下,一直說下去,視頻也就一直生成下去,沒有時長限制。

有點前陣子 Gemini 發布生成式 UI 那味了:核心突破不是“更快”,而是交互方式變了。PixVerse R1不是“更快的視頻生成工具”,而是試圖讓 AI 真正模擬一個持續運轉、可以隨時介入的世界。

這極大拓寬了視頻生成的應用場景。以前視頻生成最有價值的是最終成品,是剪輯之后的結果。現在生成過程本身就是一種交互體驗,可以直接用在實時游戲、互動劇情、甚至直播里。

真的假的?我們實測了一下,看看 Sora 畫了一年多的餅,PixVerse 是不是真的先做到了。

不用等,你就是上帝

R1上線后,硅星人在第一時間對其進行了測試,我們用一個經典的故事,來看看它的理解和交互能力。

Prompt 設定是一個經典的奇幻世界:浮空島嶼懸浮在金色黃昏的天空中,巨大的瀑布從島嶼邊緣傾瀉入云海,古老的石橋連接著各個島嶼,橋上爬滿發光的藤蔓。在這個世界里,我“操縱”了一條噴火的巨龍盤踞在最高的島嶼上,一位勇士要穿越重重險阻,最終拔劍與龍搏斗,救出被囚禁的公主。

第一個讓我意外的地方是真的不用等。從輸入 Prompt 到畫面開始流動,體感上幾乎是即時的。按下生成,畫面就開始隨著提示詞變化。用過其他視頻生成工具的人應該知道,傳統流程是:輸入、等待、loading 轉圈、幾十秒甚至幾分鐘后出結果。R1的體驗完全不同,Prompt 和畫面之間幾乎沒有時間差,你還在構思下一句的時候,上一句已經變成畫面在播放了。這對于需要反復調試、快速迭代的創作流程來說,體驗提升是質變級別的。

在長時間的生成中我發現,即便沒有提示詞,R1的生成也是連貫的。以前用視頻生成工具做長內容,本質上是“拼片段”,每次只能生成4秒或6秒的片段,想講一個完整的故事,得自己手動把十幾個片段剪到一起。問題在于,片段和片段之間,模型沒有記憶。

R1不一樣。我從勇士啟程、跨越石橋、對抗巨龍、救出公主,整個敘事是一條連續的流,不是碎片拼圖。生成的結果中鏡頭邏輯是通的:勇士沖向巨龍時,鏡頭跟著他的動線推進;拔劍的瞬間,切了一個劍身特寫,然后再拉回全景。這種鏡頭語言不是我 Prompt 里寫死的,是模型自己“理解”了敘事節奏之后做出的選擇。

第三個值得說的是,理論上可以一直生成下去。傳統模型有一個硬傷叫“時長上限”。4秒就是4秒,6秒就是6秒,想要更長的內容,只能靠接力和拼接,而且越往后生成,累積誤差越大,畫面崩得越厲害。R1讓它擺脫了這個限制,測試的時候發現如果用戶不干預,它可以一直生成下去,故事從勇士救出公主,發展到兩人騎著飛行生物逃離巨龍的追擊,又演變成飛躍云海、抵達一座新的浮空城市,即便不給新的提示詞,它也會按照劇情一直生成下去,做到真正的“無限流”。

問題主要集中在轉場和一致性上。

因為我的 Prompt 寫得比較籠統:只給了“勇士穿越石橋”“與龍搏斗”“救出公主”這些關鍵節點,沒有詳細描述中間的過渡:模型在處理細節切換時出現了一些生硬的跳接。比如勇士剛剛還在石橋上奔跑,下一秒直接出現在龍面前,中間的空間位移沒有任何交代。

另外,勇士在某些片段里會突然“變人”,前一秒還是男性形象,下一秒莫名變成了公主;有時候人物會毫無征兆地憑空出現或突然消失,雖然不至于完全崩壞,但確實能感覺到模型對角色的“記憶”還不夠穩固。

這些問題加在一起,讓我意識到 R1目前的“世界模型”更像是一個新的框架:大的敘事邏輯能跑通,但細節處的物理規則和角色鎖定還需要和真實世界的我們相互適應。

總體來說PixVerse R1在速度、敘事連貫性和時長自由度上確實有突破,這三點加在一起,已經能改變很多敘事方式了。但“世界模型”這個概念要真正落地,物理一致性和自動化的敘事連貫性還需要繼續打磨。

PixVerse R1是“真實時”嗎?

在此之前,市面上也有一些模型宣稱“實時生成”,但大多數其實是“偽實時”,生成時間縮短到了人類感知不太敏感的范圍,給人的體感像是實時,但本質上還是“先渲染、后播放”。你看到畫面的時候,計算早就跑完了,只是等待時間短到你沒注意而已。

R1究竟是不是真實時,要看的不僅是它的效果,更是它的架構。

打個比方。偽實時像視頻網站的預加載,提前緩沖了10秒,所以你感覺沒有卡頓,但跳到沒緩沖的地方就得等。“真實時”是直播:畫面是當下正在發生的,不存在“提前渲染好”這回事。對應到視頻生成:偽實時是“算得快”,真實時是“邊算邊出”。前者你沒法在生成過程中插嘴,后者你可以隨時喊停、隨時改指令,畫面即時響應。

R1屬于后者。它的架構從底層就是為“流式交互”設計的,不是在傳統架構上做加速,而是換了一套邏輯。

傳統的多模態模型,其實是“拼裝”出來的,文字走一個模型,圖片走另一個模型,音頻再走一個,最后把結果拼到一起。各個模塊之間沒有真正打通。你讓它生成“一只貓跳上窗臺,窗外下著雨”,它可能貓畫得不錯,雨也畫得不錯,但貓毛有沒有被雨淋濕、窗臺上有沒有雨水濺落這些細節,它顧不上,因為它是分開處理的。

R1用的是Omni 原生多模態架構。什么叫原生?就是從一開始,文字、圖片、音頻、視頻就在同一個架構里訓練,用同一套“語言”處理。模型看到的不是“文字+圖片+聲音”的拼盤,而是一條統一的 Token 流。這樣它才能真正理解:下雨天的貓,毛發應該是濕的,窗臺應該有水漬,雨聲應該和畫面同步。

R1所采用的自回歸流式生成,意味著模型生成下一幀的時候,會參考前面已經生成的內容。更關鍵的是它有“長期記憶”,不只是記住上一幀,而是能記住幾十秒甚至幾分鐘前的信息。這就是為什么 R1可以生成理論上無限長的視頻,而且角色形象和場景邏輯大體上能保持一致。這是實時交互的基礎,只有生成是連續的、有記憶的,你中途插入的指令才能被接住,而不是讓整個畫面從頭再來。

前面兩點解決的是“能不能”的問題,但還沒解決“快不快”。就算模型聽懂了、記住了,如果每幀還是要算50步,那還是快不起來。

R1的做法很激進:直接把采樣步數壓縮到1到4步。

怎么做到的?簡單說就是砍彎路、加引導、動態調配。把原來必須走的冗余計算砍掉,只保留最關鍵的節點;在極少步數里通過額外引導保證畫面質量不崩;根據畫面內容動態調整計算量:簡單的地方少算,復雜的地方多算。

原生多模態讓它聽懂你要什么,自回歸讓它記住前面發生了什么,極致壓縮的采樣讓這一切發生在“此刻”而不是“稍后”。

至于 R1是不是“世界模型”?

它確實做到了實時、連貫、可交互。這不只是技術指標的提升,更是通向“世界模型”的關鍵躍遷。視頻,作為對人類影響最大的媒介形態,正在成為 AI 理解物理規律、推演因果關系鏈條、應對開放場景的最前沿。真正的“世界模型”,可能將是人類想象力與機器智能共同演化的場域。PixVerse R1只是實時(Real-time)媒介形態的一個起點,它第一次讓億萬觀眾站在了這個世界的新入口:可以看,更能參與創造。

但方向比完美更重要。

Sora 讓大家相信 AI 能生成視頻,PixVerse 讓大家相信 AI 生成的世界可以通過視覺交互。這是兩件不同的事,后者可能才是通往真正“世界模型”的路。

舉報

  • 相關推薦
  • 實時生成開放世界:新AI模型貼臉開大,游戲研發慌不慌?

    這兩天,又有一款全新的AI模型出現了。 雖說如今AI改變各行各業的事情早就屢見不鮮,在游戲業,很多崗位也或多或少已經用上了AI技術,但最近發布的這款AI模型,它真不一樣。 這款AI模型名叫PixVerse R1,按官方說法,PixVerse R1是全球首個真正意義上的「實時生成世界模型(Real-time World Model)」。

  • 范式官宣2026戰略升維:以“AI Agent + 世界模型”為核 構建“AI + X”產業新生態

    1月30日,范式集團年會在北京舉行。創始人戴文淵正式宣布,集團已完成品牌體系與戰略架構的全面升級。范式確立了以“AI Agent + 世界模型”為核心的技術路線,開啟“AI + X”的產業新生態。自2014年成立以來,范式堅持“AI for Everyone”的使命,始終致力于將AI的紅利惠及每一個人,在金融、制造、能源等20多個領域積累了十多年的經驗。2025年,公司完成集團化轉型,在延續“

  • 重新定義“實時在線交互”,Soul App開源實時數字人生成模型SoulX-FlashTalk

    Soul AI Lab開源實時數字人生成模型SoulX-FlashTalk,實現0.87秒亞秒級超低延遲、32fps高幀率,支持超長視頻穩定生成。該模型具備“零延遲”即時反饋、高精細度全身動作合成、超長視頻穩定生成等亮點,通過雙向蒸餾與多步回溯自校正機制解決傳統方案延遲高、畫面不一致等問題。在電商直播、短視頻制作、AI客服等場景提供高質量、可落地的解決方案,推動大參數量實時生成式數字人邁入具體商用階段。

  • AI日報:MiniMax Music 2.5 發布;螞蟻靈波開源世界模型LingBot-World;谷歌 Gemini 3.5 泄露

    本期AI日報聚焦多項AI技術突破:MiniMax Music 2.5發布,提升AI音樂可控性與真實度;螞蟻靈波開源世界模型LingBot-World,為具身智能等提供高保真數字環境;谷歌Gemini 3.5泄露,單次提示可生成三千行代碼;Kimi K2.5 Agent升級,高效處理Excel、Word等辦公文檔;蘑菇物聯“靈知”垂直大模型通過備案,專注工業輔助與能源領域;昆侖萬維SkyReels-V3開源,實現多模態視頻生成;昆侖天工發布音樂大模型Mureka V8,推動AI音樂邁向“可發布”級別;三星宣布下一代AR眼鏡將于2026年發布,主打多模態AI體驗。

  • 全球首個通用實時世界模型PixVerse R1發布 視聽媒體進入交互時代

    愛詩科技發布全球首個支持1080P實時生成視頻模型PixVerse R1,實現“所想即所見、所說即所現”的實時交互體驗。該模型基于Omni原生多模態基礎模型、自回歸流式生成機制和瞬時響應引擎三大核心技術,將視頻生成延遲降至“即時”響應,標志著AIGC視頻生成從“靜態輸出”邁入“實時交互”新階段。

  • 騰訊春節放大招!“元寶派”公測上線:打通騰訊視頻、QQ音樂

    騰訊旗下AI助手元寶宣布“元寶派”公測上線,探索AI社交新賽道。用戶可通過元寶APP創建或加入“派”,與AI“派友”聊天互動、協作娛樂。公測版本新增騰訊視頻、QQ音樂生態內容,用戶可與AI一起聽歌看電影,暢享海量曲庫和VIP影片。需更新至2.56.0以上版本,通過邀請碼或朋友分享鏈接加入體驗。

  • 82歲大爺背包環游世界:珍惜當下 一切都是值得的

    近日,一位82歲的老人余龍才大爺以一年退休金為代價深入非洲四國,在地中海冬泳、印度洋逐豚的勇敢舉動,如同一束溫暖而耀眼的光,照亮了網絡世界,引發了全網的動容與熱議。而他所說的那句“沒有來日方長”,更是成為了高齡背包客精神的核心注腳,激勵著無數人。 隨著旅行的不斷深入,余大爺在技術和社交方面都有了很大的進步。起初,他只能依賴紙質攻略來規?

  • 京東影像大賽征稿進行中 采銷邀請影視颶風Tim寄語視頻創作者

    猛瑪近日舉辦品牌戰略暨新品發布會,展示其在無線音視頻領域的技術布局與全球化成果。作為第八屆京東影像大賽官方合作伙伴,猛瑪為參賽者提供全方位創作支持。會上,品牌全球代言人Tim分享創作經驗,針對初學者困惑給出實用建議:嚴肅創作應注重文稿構思,可借助思維導圖整合觀點;現場創作則需保持觀察與記錄習慣,積累素材。Tim鼓勵年輕創作者勇于嘗試,避免盲目比較,注重原創發揮個人創造力。京東影像大賽作品征集火熱進行中,參賽者可通過京東APP搜索“影像大賽”了解詳情并上傳作品,有機會贏取豐厚獎金及專業設備。

  • 馬斯克稱xAI將加碼AI藍圖:明年大規模生成高質量游戲、影視

    馬斯克昨日在X平臺發文稱,xAI明年將大規模推出影視內容和電子游戲。 而這些內容不僅能實時生成,還具備高質量,且能按照個人意愿定制。 據悉,馬斯克曾在2025年預測,xAI旗下的游戲工作室將于今年年底前推出一款出色的AI生成游戲”。

  • 大模型六小龍告別青春期

    ?不到一個月的時間,大模型六小龍中的五家都集中進行了新一輪的戰略表態。 月之暗面今天發布了新模型Kimi2.5,其創始人楊植麟在2025年12月31日發布了一封全員信,公開公司完成新一輪5億美元融資,并表示會讓Kimi成為一個「與眾不同」和「不被定義」的大語言模型。1月26日,階躍星辰公布了超50億B+輪融資,并宣布前曠視科技創始人印奇出任公司董事長,明確押注AI與智能?

今日大家都在搜的詞: