AI日報：阿里開源文檔模型DocOwl 1.5；Midjourney圖像編輯器新功能下周上線；Viggle AI推對口型功能

2024-10-21 15:39 · 稿源：站長之家

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們為你呈現AI領域的熱點內容，聚焦開發者，助你洞悉技術趨勢、了解創新AI產品應用。

新鮮AI產品點擊了解:https://top.aibase.com/

1、表格、圖表統統拿下!阿里達摩院開源DocOwl1.5無需OCR，高效“讀懂”文檔!

阿里巴巴達摩院與中國人民大學聯合開源了mPLUG-DocOwl1.5文檔處理模型，無需OCR即可理解文檔內容，在多個視覺文檔理解基準測試中表現領先。該模型強調結構信息的重要性，提出“統一結構學習”來提升MLLM性能。

【AiBase提要:】
?? mPLUG-DocOwl1.5無需OCR即可理解文檔內容，在視覺文檔理解基準測試中領先。
?? 強調結構信息對于文檔理解的重要性，提出“統一結構學習”來提升MLLM性能。
?? 提供了開源代碼、模型和數據集，取得了在多個下游任務中的最先進性能。
詳情鏈接:https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5

2、Midjourney圖像編輯器新功能下周上線

Midjourney的創始人David Holz宣布，一款全新的圖像編輯器即將上線，該編輯器利用上傳圖像的深度信息生成新圖片，保留原始構圖和內容的同時徹底改變紋理、顏色和細節。這一創新提升了用戶創作自由度，為設計師和藝術家提供強大工具。Midjourney通過AI技術不斷優化圖像生成質量，最新v6.1模型進一步提升圖像清晰度和準確性。新圖像編輯器的加入將拓寬AI在創意領域的應用，預示著Midjourney在圖像編輯工具方面的重大進步。

【AiBase提要:】
? 利用上傳圖像的深度信息生成新圖片，保留原始構圖和內容，徹底改變紋理、顏色和細節。
?? Midjourney致力于通過AI技術提升圖像生成質量，最新v6.1模型進一步優化圖像清晰度和準確性。
?? 新編輯器的加入將拓寬AI在創意領域的應用，為設計師和藝術家提供更靈活的圖像操控和修改方式。

3、Viggle AI再推新功能可通過錄制聲音讓角色說話

Viggle AI推出了令人興奮的新功能，用戶可以通過錄制聲音讓角色說話并實現口型同步。這項創新技術讓用戶完全控制角色的表現方式，無論是唱歌還是跳舞，都能輕松實現。Viggle應用程序以其創新性在社交媒體上引起了廣泛關注，利用先進的JST-1視頻3D基礎模型，用戶可以輕松創造和混合視頻內容。

【AiBase提要:】
?? 角色說話功能:用戶可以通過錄制聲音讓角色說話，實現口型同步。
?? 角色替換功能:用戶可以將任何角色置入視頻場景，創造個性化沉浸式體驗。
?? 靜態圖像動畫化:用戶可以將靜態照片轉化為動態影像，增加視頻趣味性和互動性。
詳情鏈接:https://viggle.ai/home

4、即使是頂尖AI模型也難以應對復雜旅行規劃，OpenAI o1-preview也犯難

最新研究表明，即使是先進的AI語言模型，如OpenAI最新的o1-preview，在復雜的規劃任務中也面臨挑戰。研究發現模型在整合規則和條件方面表現不佳，且隨規劃時間增加會逐漸失去對問題的關注。盡管一些模型在BlocksWorld中表現尚可，但在更復雜的TravelPlanner任務中表現不佳。

【AiBase提要:】
?? OpenAI的o1-preview等AI模型在復雜旅行規劃上表現不佳，GPT-4o成功率僅7.8%。
?? 大多數模型在BlocksWorld中表現尚可，但在TravelPlanner上難以達到理想效果。
?? 模型存在對規則的整合不足及隨時間推移而失去焦點的問題。
詳情鏈接:https://github.com/hsaest/Agent-Planning-Analysis

5、開源工具Vulnhuntr可發現Python零日漏洞，巧妙利用Claude AI

Protect AI公司推出的Vulnhuntr工具利用Claude AI幫助開發者發現Python代碼中的零日漏洞。該工具與傳統靜態分析不同，能夠追蹤用戶輸入到服務器輸出的完整調用鏈，提高漏洞檢測準確性。Vulnhuntr已在多個大型開源項目中發現零日漏洞，即將在GitHub上發布供開發者使用。

【AiBase提要:】
?? Vulnhuntr是開源工具，利用Claude AI發現Python零日漏洞。
??? 工具工作方式不同于靜態分析，能追蹤完整調用鏈。
?? Vulnhuntr已發現多個大型開源項目中的零日漏洞，即將在GitHub上發布。

6、字節跳動回應“實習生破壞大模型訓練”:未影響正式商業項目

字節跳動近期針對實習生破壞大模型訓練的傳聞進行了官方回應，確認實習生惡意干擾研究項目模型訓練，但未影響正式商業項目和線上業務。公司指出傳聞嚴重夸大，已辭退實習生并通報相關機構。事件暴露安全管理問題，公司計劃大力投資AI技術。

【AiBase提要:】
?? 實習生惡意干擾大模型訓練，未影響商業項目和線上業務。
?? 公司確認傳聞夸大，已辭退實習生并通報相關機構。
?? 事件暴露安全管理問題，公司計劃大力投資AI技術。

7、Meta最新黑科技SPIRIT-LM:能說會寫還能懂你的情緒，這個 AI 語言模型有點強!

SPIRIT-LM 是一款具有革命性意義的多模態基礎語言模型，能夠自由混合文本和語音，理解和表達情感。它結合了文本模型的語義能力和語音模型的表達能力，完成跨模態任務，只需少量樣本即可學習新任務。SPIRIT-LM-EXPRESSIVE在情感表達方面優于基礎版，開創了多模態語言理解和生成的新可能性。

【AiBase提要:】
?? SPIRIT-LM 是多模態基礎語言模型，能混合文本和語音，理解情感。
?? SPIRIT-LM 結合了文本模型的語義能力和語音模型的表達能力，完成跨模態任務。
?? SPIRIT-LM-EXPRESSIVE在情感表達方面優于基礎版，開創了多模態語言理解和生成的新可能性。
詳情鏈接:https://arxiv.org/pdf/2402.05755

8、顛覆 Stable Diffusion!智源重磅發布 Emu3，圖像、文本、視頻全拿下!

Emu3團隊發布了一套全新的多模態模型Emu3，顛覆了傳統的擴散模型和組合模型架構，在生成和感知任務上取得了最先進的性能。該模型基于下一個token預測進行訓練，實現了多模態任務的統一，超越了特定任務模型，甚至旗艦模型。Emu3的成功為多模態模型的未來發展指明了方向，也為實現AGI帶來了新的希望。

【AiBase提要:】
?? Emu3基于下一個token預測進行訓練，顛覆了傳統模型架構，取得了最先進的性能。
?? Emu3實現了多模態任務的統一，無需依賴擴散或組合架構，超越了特定任務模型和旗艦模型。
?? Emu3團隊開源了關鍵技術和模型，為多模態智能領域的進一步研究提供支持。
詳情鏈接:https://github.com/baaivision/Emu3

9、Perplexity AI 尋求90億美元估值

Perplexity AI 宣布在新一輪融資中希望將估值提升至90億美元，當前估值為30億美元。公司面臨抄襲指控，但堅決否認。在激烈市場競爭中努力提升技術和服務水平。

【AiBase提要:】
?? Perplexity AI 計劃將估值提高至90億美元，吸引大量投資者關注。
?? 公司自今年初以來進行了三輪融資，迅速發展。
?? 面臨抄襲指控，公司堅決否認并保護知識產權。

10、前OpenAI CTO重磅打造新AI公司，融資目標高達1億美元

Mira Murati正籌集超過1億美元的風險投資，準備創辦新的AI創業公司。她離開OpenAI希望進行個人探索，而OpenAI在她離職后籌集了創紀錄的66億美元風險投資。期待Murati的新公司未來發展。

【AiBase提要:】
? Mira Murati正籌集超過1億美元的風險投資，打造新AI公司。
?? Murati離開OpenAI希望進行個人探索，未透露具體計劃。
?? OpenAI在Murati離職后籌集了創紀錄的66億美元風險投資。

11、蘋果AI發展滯后兩年，計劃未來兩年全線設備引入Apple Intelligence

在今年的WWDC大會上，蘋果展示了AI新特性，但分析師稱蘋果在AI技術發展上落后競爭對手約兩年。蘋果計劃未來兩年在所有帶屏設備上推出“Apple Intelligence”功能，盡管起步較晚，但有信心迎頭趕上。

【AiBase提要:】
?? 蘋果在AI發展上落后競爭對手約兩年，正努力追趕行業標準。
?? 蘋果計劃未來兩年內在所有帶屏設備上推出“Apple Intelligence”功能。
?? 新款iPad和即將推出的iPhone都將配備支持“Apple Intelligence”的硬件。

12、北京市新增12款生成式AI服務備案，累計達94款

北京市最近新增了12款生成式人工智能服務備案，使得累計備案數量達到了94款，為用戶帶來更多選擇與便利。已上線的AI應用需公示備案情況，包括模型名稱和備案編號。本次新增備案名單中包括快手科技公司的可靈AI和昆侖萬維科技股份有限公司的天工圖像。

【AiBase提要:】
?? 北京市新增12款生成式AI服務備案，累計達94款
?? 已上線AI應用需公示備案情況，包括模型名稱和備案編號
?? 本次新增備案名單中包括快手科技公司的可靈AI和昆侖萬維科技股份有限公司的天工圖像

（舉報）

相關推薦

關鍵詞：

DocOwl1.5

王自如現身公司年會發獎全員現金多發1.5倍網友慕了

近日，有網友曬出王自如現身公司年會發獎的畫面，豪氣操作直接刷屏。相關畫面顯示，王自如這次不畫餅、不搞套路，直接宣布全員年終獎按原標準多發1.5倍，而且全程現金發放，一摞摞現金超吸睛。現場氛圍直接拉滿，王自如親手給員工發錢，還搞了各種趣味互動，金句頻出，沒有一點老板的架子，和員工玩得特別盡興。有意思的是，不光員工有福利，王自如自己也?

?王自如 ?年終獎 ?公司年會
薦AI日報：OpenAI推出macOS版Codex應用；智譜發布0.9B輕量級GLM-OCR；火狐Firefox 148瀏覽器即將上線

本期AI日報涵蓋多項AI領域動態：Adobe Firefly為訂閱用戶提供無限AI生成支持；OpenAI推出macOS版Codex應用，整合智能體化開發邏輯；智譜發布輕量級GLM-OCR模型，性能突出且成本低；火狐瀏覽器引入AI控制面板，支持一鍵屏蔽AI功能；騰訊回應紅包刷屏質疑，強調為無門檻福利；港股大模型概念股走強；百度、小米等聯手加持國家具身智能平臺，完成超7億融資；AI在“人類終極考試”中表現不佳，揭示其能力或被高估。

?AI ?Adobe ?Firefly
全球首款千元檔萬級電池手機來了！真我Power入網：淘汰充電寶

榮耀在去年底推出WIN系列，將手機續航帶入萬級時代后，2026年的手機市場顯然已經開啟了續航競賽。今年開年，超大電池機型的推進速度快得驚人。首先是榮耀Power2憑借10080mAh的青海湖電池刷新了行業紀錄。緊接著，真我也拿出了自家的殺手锏，即將推出旗下首款萬級電池新機真我Power。這款新機目前已經正式獲得入網許可，型號確定為RMX5166。它的國際版機型即真我P4Power?

?榮耀WIN系列 ?萬級電池 ?真我Power
WLS 2026在迪拜開幕，WLA主辦、KuCoin聯合主辦，聚焦基礎科學與全球治理的未來路徑

世界頂尖科學家協會（WLA）與KuCoin聯合主辦的世界頂尖科學家峰會2026（WLS2026）于2月1日在阿聯酋迪拜開幕。本屆峰會以“基礎科學：以科學共識應對人類挑戰”為主題，匯聚全球頂尖科學家、科研機構代表、政策制定者與技術實踐者，共同探討基礎科學、前沿技術與全球治理的未來路徑。峰會強調將基礎科學發現與全球治理及公共政策需求更直接地連接，推動科學從知識積累走向制度與治理層面的結構性支撐。KuCoin作為聯合主辦方，從“可信數字基礎設施”的視角參與議程，探討區塊鏈與人工智能在科研協作、數字基礎設施與公共治理領域的基礎性價值，并主導“AI×區塊鏈科學論壇”。峰會獲得阿聯酋政府的高規格支持，為期三天，吸引了來自全球的逾千名與會者，包括諾貝爾獎、圖靈獎、沃爾夫獎等國際頂級科學獎項獲得者，規模與學術影響力再創新高。

?World ?Laureates ?Summit
4年前機型將喜提ColorOS 16正式版：還能再戰

以下機型將在2026年2月開啟OPPO全新系統ColorOS 16正式版升級。據悉，OPPO將于2月5日為一加10 Pro、OPPO Find X5 Pro、OPPO Find X5 Pro天璣版開啟ColorOS 16正式版推送，2月27日會推送給OPPO Pad SE。上述三款手機都發布于2022年，其中OPPO Find X5 Pro系列于2022年2月亮相，一加10 Pro于2022年1月亮相，這次升級到ColorOS 16之后，其流暢度會有明顯升級。

?ColorOS ?16 ?OPPO系統升級
Checkout.com 與 Spotify 達成全球戰略支付合作伙伴關系，助力其全區業務版圖

全球領先數字支付服務商Checkout.com宣布與音頻流媒體平臺Spotify達成戰略合作，將成為其全球支付服務商。Checkout.com將為Spotify遍布180多個國家和地區的訂閱用戶提供高效數字支付體驗，利用其全球收單網絡與本地化資源優化支付績效。合作將集成Checkout.com的智能支付解決方案“Intelligent Acceptance”，通過AI驅動的實時數據智能路由支付訂單，以提升交易成功率與支付效率。同時，雙方將整合網絡令牌化與身份驗證服務，通過高級安全技術保障用戶支付安全與訂閱服務的定期支付順暢。此次合作旨在為Spotify超7億月活用戶及超2.8億付費用戶打造流暢、安全且可靠的支付體驗，支持其全球業務拓展。

?數字支付 ?全球收單 ?支付科技
科技驅動、用戶為本：順豐同城榮膺香港市務學會PowerBrand權威品牌大獎

順豐同城在香港市務學會主辦的第九屆PowerBrand權威品牌大獎中，憑借即時配送領域的服務品質和技術創新，榮獲“China PowerBrand in Delivery Services”獎項。作為國內規模最大的第三方即時配送平臺，順豐同城以覆蓋餐飲外賣、同城零售、近場電商及近場服務的全場景業務矩陣為核心，持續深化品牌競爭力。公司通過科技驅動效率提升、專注優化客戶體驗，實現營收與凈利潤“雙高”增長，2025年上半年營收首破百億。此次獲獎彰顯其品牌影響力獲權威認可，展現“科技驅動+客戶為本”的發展路徑，正推動行業向品質化、精細化演進。

?順豐同城 ?PowerBrand ?即時配送
水山機械有限公司與 Soosan Heavy Industries Co., Ltd 就品牌糾紛正式達成全球和解

2026年1月23日，水山機械有限公司與Soosan Heavy Industries Co., Ltd.在山東煙臺達成全面和解，解決了長期存在的品牌及商標糾紛。雙方通過商標權益互換（水山機械轉讓加拿大、印度及菲律賓相關權益，Soosan轉讓中國相關權益）及1200萬歐元補償，明確了品牌邊界與合作機制。協議待Soosan股東大會審議后生效。未來雙方將在各自合法持有商標的前提下相互開放市場準入，并需在產品上明確標識真實產地，以保障消費者知情權。此次和解不僅化解了多國商標爭議，也為雙方在核心市場的獨立發展奠定基礎，有助于聚焦各自優勢領域，提升產品與服務，為全球客戶創造更大價值。

?商標糾紛 ?知識產權 ?品牌邊界
有人玉米買貴1.5元胖東來主動補償200元：網友感慨真誠才是必殺技

為什么這么多人喜歡去胖東來購物，真誠才是最大的殺手锏。近日，多名消費者稱收到胖東來201.5元退款，只因這些人當時購買的玉米沒有及時調價，貴了1.5元。一位收到通知的消費者接受采訪時表示，自己上周在胖東來三胖購買了一款玉米，沒想到13號時收到了退款和補償，還提前收到電話說明。對于上述情況，三胖的工作人表示屬實。

?胖東來購物 ?消費者退款 ?真誠服務
薦AI日報：騰訊混元圖像3.0正式開源；Clawdbot迫于壓力更名Moltbot；月之暗面發布 Kimi Code

本期AI日報聚焦多領域AI新動態：騰訊混元圖像3.0開源，成為全球最強開源圖生圖模型；月之暗面發布Kimi Code，推動國產AI編程工具進入新階段；開源項目Clawdbot因商標風險更名Moltbot，并遭詐騙者利用舊賬號發布虛假代幣；谷歌AI Plus計劃正式擴展至美國等35個市場，月費不足8美元；OpenAI發布基于GPT-5.2的科研協作平臺Prism；谷歌Aluminum OS界面首曝，深度融合Android與ChromeOS；Mistral AI發布終端編程助手Vibe 2.0，步入“子代理”時代；小米AI眼鏡深度集成支付寶，實現停車繳費與健康管理“無感交互”。

?AI ?開源 ?圖生圖

今日大家都在搜的詞：

熱文

3 天
7天

AI日報：阿里開源文檔模型DocOwl 1.5；Midjourney圖像編輯器新功能下周上線；Viggle AI推對口型功能

王自如現身公司年會發獎全員現金多發1.5倍網友慕了

薦AI日報：OpenAI推出macOS版Codex應用；智譜發布0.9B輕量級GLM-OCR；火狐Firefox 148瀏覽器即將上線

全球首款千元檔萬級電池手機來了！真我Power入網：淘汰充電寶

WLS 2026在迪拜開幕，WLA主辦、KuCoin聯合主辦，聚焦基礎科學與全球治理的未來路徑

4年前機型將喜提ColorOS 16正式版：還能再戰

Checkout.com 與 Spotify 達成全球戰略支付合作伙伴關系，助力其全區業務版圖

科技驅動、用戶為本：順豐同城榮膺香港市務學會PowerBrand權威品牌大獎

水山機械有限公司與 Soosan Heavy Industries Co., Ltd 就品牌糾紛正式達成全球和解

有人玉米買貴1.5元胖東來主動補償200元：網友感慨真誠才是必殺技

薦AI日報：騰訊混元圖像3.0正式開源；Clawdbot迫于壓力更名Moltbot；月之暗面發布 Kimi Code

今日大家都在搜的詞：

熱文

2026支付寶集福正式開啟今年支持掃馬得福玩法

AI日報：OpenAI推出macOS版Codex應用；智譜發布0.9B輕量級GLM-

AI日報：支付寶首次上線AI眼鏡掃福；昆侖萬維發布天工Skywork桌

余承東公布問界M6實車外觀預計將于今年春季發布

盧偉冰：用戶反饋REDMI Turbo 5 Max幾乎可以做到妥妥用2天

iQOO 15 Ultra今日發布主打極致性能

REDMI Turbo 5 Max上線開售16GB+1TB版本首銷價3399元

何小鵬：小鵬首款AI新豪華大六座SUV小鵬GX即將面世

2025胡潤中國500強發布：小米首次進入前十

B站將在春晚直播開放真彈幕已與總臺春晚達成合作

2026支付寶集福正式開啟今年支持掃馬得福玩法

2026支付寶集福卡明天開啟：19套主題每套1.68元紅包

馬上偷菜！騰訊《QQ經典農場》官宣2月6日上線

AI日報：阿里千問砸30億發紅包；快手整治AI魔改；靈光App支持上

雷軍：第一代小米SU7已停售新款SU7預計2月13日左右到店

AI日報：OpenAI推出macOS版Codex應用；智譜發布0.9B輕量級GLM-

新款聯想拯救者Y700平板官宣3月發布

騰訊回應元寶崩了：目前已經恢復 10億紅包活動太火爆

AI日報：支付寶首次上線AI眼鏡掃福；昆侖萬維發布天工Skywork桌

余承東公布問界M6實車外觀預計將于今年春季發布

站長商機