日本在线A一区视频高清视频,亚洲日本中文字幕天堂网,亚洲中文字幕无码久久2020,日本伦理在线一区二区,97在线观看永久免费视频下载 ,国产三级做爰在线播放,被两个19厘米粗大空少双龙,色天天综合网色鬼综合
首頁 > 傳媒 > 關鍵詞  > 正文

主打“精準陪伴”!賈佳亞團隊用2token打造電影搭子LLaMA-VID

2023-12-11 14:03 · 稿源: 站長之家用戶

家人們誰懂,連大模型都學會看好萊塢大片了,播放過億的GTA6 預告片大模型還看得津津有味,實在太卷了!

而讓LLM卷出新境界的辦法簡單到只有2token——將每一幀編碼成 2 個詞即可搞定。等等!這種大道至簡的方法有種莫名的熟悉感。不錯,又是出自香港中文大學賈佳亞團隊。

這是賈佳亞團隊自 8 月提出主攻推理分割的LISA多模態大模型、 10 月發布的70B參數長文本開源大語言模型LongAlpaca和超長文本擴展術LongLoRA后的又一次重磅技術更新。而LongLoRA只需兩行代碼便可將7B模型的文本長度拓展到100k tokens,70B模型的文本長度拓展到32k tokens的成績收獲了無數好評。

這次,賈佳亞團隊的新作多模態大模型LLaMA-VID,可支持單圖、短視頻甚至長達 3 小時電影的輸入處理。須知當前,包括GPT-4V在內的多模態模型 [1,2,3]基本只能支持圖像輸入,面對實際場景中對多圖像長視頻的處理需求支持十分有限,面對幾十分鐘甚至幾個小時的長視頻更顯無能為力。

可以說,LLaMA-VID的出現填補了大語言模型在長視頻領域的空白。

電影搭子LLaMA-VID的一手體驗

先拿最近爆火的GTA6 預告片試試手感。

LLaMA-VID能夠準確理解預告片里出現的場景,并能分析預告片中游戲吸引人的地方在于廣泛的活動場景和驚艷的視覺效果。

而根據游戲中的場景和特征,LLaMA-VID還能推測出預告片是Rockstar公司游戲GTA6 的推廣,并說出游戲的背景城市為邁阿密。

針對網絡上峰行的短視頻和圖片,LLaMA-VID也不在話下。

LLaMA-VID能夠分析短視頻中知名表情包的笑點,因為視頻中人物夸張的表情以及對周圍人物的情緒感染不斷加深并強化。

也能扮演“福爾摩斯”,像偵探來根據室內的環境分析人物性格。

接下來,LLaMA-VID將通過看經典電影來展示自己的看家本領。首先是勵志、溫情的《阿甘正傳》:

可以看出,LLaMA-VID對角色的理解與分析十分準確。

如珍妮對于阿甘的意義(孩童時期的朋友,后來成為阿甘的妻子,是阿甘生活和心靈的慰藉);阿甘在戰爭及退伍后的事件分析(丹中尉責怪阿甘救了自己,無法戰死沙場),并對接見阿甘的美國總統如數家珍(肯尼迪、約翰遜、尼克松分別因為全美橄欖球運動員、越戰榮譽勛章、和全美乒乓球隊接見阿甘)。

這一次直接挑戰超長視頻,讓LLaMA-VID看一部近 3 小時的、刺激的科幻大片《星際穿越》,并與其進行對話。

可以看出,LLaMA-VID不僅能結合電影情節和人物輕松對電影進行點評,而且能很準確地回答出劇中所涉的細節。

例如,蟲洞的作用和創造者是誰(未來的智慧生物放置在土星附近,用于幫助人類進行遠距離星際穿越),男主庫珀是如何將黑洞中的信息傳遞給女兒墨菲(通過手表以摩斯密碼的方式傳遞數據),以及米勒星球上相對地球時間的快慢及原因(米勒星球由于在黑洞附近,導致 1 小時相當于地球 7 年)。

不得不說,這個電影搭子實在太強大了,又狠話又多那種!

16 個圖片視頻量化指標直接Promax

見識過電影搭子的超能力后,不妨來看看賈佳亞團隊是如何開發LLaMA-VID的。

要知道,當前的多模態模型無法處理長視頻的主要原因在于傳統多模態大模型對單張圖片的編碼token數量過多,導致在視頻時間加長后所需要的token數急劇增加,使模型難以承受。

以當前多模態大模型的技術標桿GPT-4V為例。由于每張圖像都需要過多的Token進行編碼,GPT-4V很難將所有的視頻幀全部送入大模型。例如對于GTA6 預告片( 1 分 30 秒)的輸入,GPT-4V采用抽取 5 幀的策略進行逐幀分析:

這不僅會使用戶對視頻內容無法獲得直觀的理解,并難以處理更長的視頻輸入。

如果讓GPT-4V對視頻進行統一分析,則會出現報錯并無法處理:

為解決這個問題,賈佳亞團隊重新設計了圖像的編碼方式,采用上下文編碼 (Context Token) 和圖像內容編碼 (Content Token) 來對視頻中的單幀進行編碼,從而將視頻中的每一幀用 2 個Token來表示。

其中,上下文編碼根據用戶輸入的問題生成,從而保證了在極限壓縮視頻消耗的同時,能盡可能保留和用戶問題相關的視覺特征。而圖像內容編碼則更加關注圖像本身的內容信息,來對上下文編碼未關注到的環境進行補充。

簡單來說,對于上下文編碼 (Context Token),LLaMA-VID利用文本解碼器(Text Decoder)根據用戶的輸入和圖像編碼器(Visual Encoder)提取的特征來生成輸入指令相關的跨模態索引(Text Query),并使用所生成的索引對圖像編碼器生成的特征利用注意力機制(Context Attention)進行特征采樣和組合,從而生成高質量的指令相關特征。

而對于圖像內容編碼 (Content Token) ,LLaMA-VID直接根據用戶需求對圖像特征進行池化采樣。這對于單張圖片或短視頻,可保留絕大多數的圖像特征從而提升細節理解,而面對幾個小時的長視頻時,則可將每幀的圖像特征壓縮成 2 個Token。

用這種方式,LLaMA-VID可以將 3 個小時的電影或視頻精簡為數個Token,直接使用大語言模型進行理解和交互。

這種Token生成方法非常簡潔,僅需幾行代碼即可實現有效的生成。

此外,LLaMA-VID還收集了 400 部電影并生成9K條長視頻問答語料,包含電影影評、人物成長及情節推理等。結合之前賈佳亞團隊所發布的長文本數據集LongAlpaca-12k(9k條長文本問答語料對、3k短文本問答語料對), 可輕松將現有多模態模型拓展來支持長視頻輸入。

在 16 個視頻、圖片理解及推理數據集上實現了promax的效果

與現有方法相比,LLaMA-VID所提出的創新之處在于,僅用 2 個Token來處理視頻中的圖片即已大幅超越以往的模型,在MSVD-QA,MSRVTT-QA,ActivityNet-QA等多個視頻問答和推理的榜單上實現了SOTA。而隨著語言模型的增大,效果還能進一步增強。

而面對現有的多模態模型如LLaVA-1.5,LLaMA-VID僅需加入 1 個所提出的上下文編碼 (Context Token)拓展,能在GQA、MMBench、MME、SEED等 8 個圖片問答指標上獲得顯著的提升:

值得一提的是,LLaMA-VID的視頻理解和推理能力已經出了Demo,可以在線跟電影對話的那種。

操作也極其簡單,只需選擇電影海報和對應的電影段,即可直接和電影交流(部署在單塊3090,需要的小伙伴可以參考code用更大的顯存部署,直接和整個電影對話)。

同時也支持用戶上傳短視頻進行互動。

如果對描述指令有疑惑的,Demo也給出了一些示例,感興趣的小伙伴們不妨來pick一下這個電影搭子。

參考文獻

[1] Hang Zhang, Xin Li, and Lidong Bing. Video-llama: An instruction-tuned audio-visual language model for video understanding. arXiv:2306.02858, 2023.

[2] KunChang Li, Yinan He, Yi Wang, Yizhuo Li, Wenhai Wang, Ping Luo, Yali Wang, Limin Wang, and Yu Qiao. Videochat: Chat-centric video understanding. arXiv:2305.06355, 2023.

[3] Muhammad Maaz, Hanoona Rasheed, Salman Khan, and Fahad Shahbaz Khan. Video-chatgpt: Towards detailed video understanding via large vision and language models. arXiv:2306.05424, 2023.

推廣

特別聲明:以上內容(如有圖片或視頻亦包括在內)均為站長傳媒平臺用戶上傳并發布,本平臺僅提供信息存儲服務,對本頁面內容所引致的錯誤、不確或遺漏,概不負任何法律責任,相關信息僅供參考。站長之家將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。任何單位或個人認為本頁面內容可能涉嫌侵犯其知識產權或存在不實內容時,可及時向站長之家提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明(點擊查看反饋聯系地址)。本網站在收到上述法律文件后,將會依法依規核實信息,溝通刪除相關內容或斷開相關鏈接。

  • 相關推薦
  • 別傻傻買Mac Mini跑OpenClaw了!玩轉AI代理,拼的不是顯卡,是Token

    OpenClaw作為代理式AI開源框架,讓AI從被動應答轉向主動規劃、調用工具、串聯多步操作,成為數字世界的“全能助理”。其GitHub星標數已達14.3萬,增長迅猛。然而,其自主決策特性也帶來安全風險,如權限濫用、數據誤刪等。同時,OpenClaw的火爆推動了Agent普及,帶來三大產業機會:一是云服務成為個人與中小企業入局的最低門檻;二是Token消耗邁入指數級增長階段;三是Agent?

  • 如何在 NVIDIA RTX PC 上開始使用視覺生成式 AI

    本文介紹了AI驅動的內容生成技術如何深度融入Adobe、Canva等工具,以及創作者如何利用NVIDIA RTX PC本地運行AI工作流。重點包括:通過ComfyUI簡化高級創意流程搭建,支持FLUX.2和LTX-2等強大模型;詳細說明了在RTX PC上使用ComfyUI進行圖像和視頻生成的方法與技巧;強調了本地運行在控制素材、節省成本及優化結果方面的優勢。文章還指出,隨著模型規模增大,需根據GPU顯存選擇合適模型,并介紹了NVIDIA的優化技術。

  • 三星2026款OLED電視及顯示器獲NVIDIA? G-SYNC?兼容認證 實現頂尖游戲性能

    三星2026款OLED電視及電競顯示器支持NVIDIA G-SYNC技術,結合新一代刷新率與前沿顯示技術,帶來流暢沉浸的游戲體驗。OLED電視S95H、S90H最高支持165Hz刷新率,S85H支持120Hz,并兼容G-SYNC與AMD FreeSync Premium Pro,確保PC與主機平臺游戲畫面穩定無撕裂。新款玄龍騎士電競顯示器G6系列中,G60H為全球首款雙模(1)0-1040Hz刷新率顯示器,支持HD分辨率下1040Hz與QHD下600Hz自由切換;G61SH配備QD-OLED

  • 從單人助手到組局搭子,AI社交的下一站來了

    打開手機里的AI應用,常陷入這樣的窘況:想查資料時點開Agent助手,問完就關;刷到AI生成的表情包,存完就忘;偶爾拉朋友一起用AI規劃旅行,還得反復在不同App間復制粘貼需求…… 而行業喊了一年多的“AI社交”,大多時候只是把AI塞進聊天框當工具人,并沒有真正改變自己和朋友互動的方式。 最近,各大廠AI產品密集上線AI社交功能,直到1月26日騰訊元寶派

  • 鄉間小路偶遇一人一馬從容踏霧而行:仿佛電影中的畫面

    ?冬日清晨,新疆某鄉間小路被一層輕柔的晨霧所籠罩,呈現出一幅如夢似幻的景象。在這如紗般的霧靄中,一人一馬悠然前行,身影在霧氣中時隱時現,仿佛從電影中走出的畫面,引得網友紛紛贊嘆“仙氣飄飄”。 當日,薄霧如紗幔般輕輕覆蓋在小路上,將周邊的麥田、院落都柔化成一片朦朧的剪影。就在這片寧靜而致遠的意境中,一名騎手騎著馬緩緩出現,馬蹄輕踏,步

  • 電影新人,在“燎原計劃”成長

    剛剛過去的2025,依舊是中國電影充滿挑戰和變化的一年。 但如果我們將眼光放長遠,會看到電影作為藝術與科技的雙重產物,百年中并非第一次面臨沖擊。不管什么時代,有些東西是共通的,觀眾永遠會為精彩的故事動容,而行業的希望永遠在于新人和傳承。 如此再回望2025年,《哪吒2》《捕風追影》《南京照相館》……許多爆款佳作的背后都是或橫空出世、或冉冉上升的?

  • 春節送禮新選擇:百吋電視,給家人一份沉浸式陪伴禮

    春節將至,與其送煙酒、保健品等傳統禮物,不如為父母送上一臺百吋電視作為“沉浸式陪伴禮”。大屏幕不僅能提升家庭團聚氛圍,讓全家共賞春晚,還能改善父母日常觀影體驗。選購時需注意觀看距離與預算:客廳開間3米以上即可享受百吋影院效果;預算有限可選Mini LED電視,追求頂尖畫質則可考慮RGB-Mini LED技術。海信電視在該領域表現突出,旗下多款機型覆蓋不同需求,是升級家庭娛樂、傳遞陪伴心意的優質選擇。

  • AMD去年營收346億美元創紀錄!蘇姿豐:我們賣爆了

    AMD公司公布2025年第四季度及全年財務報告,雙雙創下歷史新高。 財報顯示,該公司2025年第四季度營收103億美元創紀錄,同比增長34%;2025年全年,AMD實現創紀錄的346億美元營收,同比增長34%。 本季度,AMD的毛利率為54%,凈利潤為15億美元。全年來看,AMD的非GAAP毛利率為52%,凈利潤為68億美元。 該公司預計2026年第一季度營收約為98億美元,上下浮動3億美元。 AMD的數據中心業

  • iQOO 15 Ultra今日發布 主打極致性能

    iQOO于2月4日發布2026年首款性能旗艦iQOO 15 Ultra,主打極致性能與專業游戲體驗。新機采用未來感配色與15層精密工藝機身,搭載6.8英寸2K三星珠峰屏,首發M14發光材料,峰值亮度達8000nits。性能方面配備高通第五代驍龍8至尊版芯片,安兔兔跑分突破451萬分,并配有主動散熱風扇系統。游戲體驗上,設備配備超大面積雙軸線型馬達與對稱雙揚聲器,電池為7400mAh硅碳負極電池,支持120W閃充,連續游戲續航達7.2小時。影像系統雖非主打,但仍配備5000萬像素潛望式長焦鏡頭,支持10倍混合光學變焦。

  • 拉烤簽打鼠鼠,《別拽了!烤串師傅》正式上線Steam,首發僅 17.99 元

    《別拽了!烤串師傅》是一款融合塔防與自走棋養成的休閑游戲,玩家扮演烤串師傅,通過實時拖動烤簽、擺放食材和調料來抵御“不速之鼠”。游戲強調即時操作與策略,食材可成長互動,隨機機制增加變數。目前已在Steam上線,首周折后17.99元,支持鍵鼠和手柄操作,包含無盡模式。畫風可愛,節奏輕快,適合尋求操作與策略結合的塔防愛好者。

今日大家都在搜的詞: