AI日報：智譜視覺推理模型GLM-4.5V開源；達摩院開源三項具身智能核心技術；360智腦推出Light-IF系列模型

2025-08-12 16:41 · 稿源：站長之家

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們為你呈現AI領域的熱點內容，聚焦開發者，助你洞悉技術趨勢、了解創新AI產品應用。

新鮮AI產品點擊了解:https://www.aibase.cn/

1、智譜GLM-4.5V開源發布:全球100B級最佳視覺推理模型

智譜宣布推出并開源了全球100B級效果最佳的開源視覺推理模型GLM-4.5V，這是該公司在通向通用人工智能（AGI）道路上的又一重要探索性成果。

【AiBase提要:】
?? GLM-4.5V總參數達到106B，在41個視覺多模態榜單中達到SOTA性能
?? 具備全場景視覺推理能力，包括圖像推理、視頻理解、GUI任務等
?? 新增"思考模式"開關，平衡效率與效果
?? API價格低至輸入2元/M tokens，輸出6元/M tokens

2、阿里達摩院開源三項具身智能核心技術

在世界機器人大會上，阿里達摩院宣布開源三項自研核心技術:VLA模型RynnVLA-001-7B、世界理解模型RynnEC以及機器人上下文協議RynnRCP。這一舉措旨在推動數據、模型與機器人本體的兼容適配，打通具身智能開發的完整流程。

【AiBase提要:】
?? 開源三項核心技術:VLA模型、世界理解模型、機器人上下文協議
?? RynnRCP實現從傳感器數據到機器人動作執行的完整工作流程
??? RynnVLA-001從第一人稱視角視頻學習人類操作技能
?? RynnEC從11個維度全面解析場景物體，無需依賴3D模型
詳情鏈接:https://github.com/alibaba-damo-academy/RynnRCP

3、蘋果即將升級 Apple Intelligence 至 GPT-5，推動 Siri 與寫作工具智能化

蘋果公司近日宣布，計劃在即將發布的 iOS26、iPadOS26和 macOS Tahoe26系統更新中，將其 Apple Intelligence 中的 ChatGPT 核心模型升級至最新的 GPT-5版本。

【AiBase提要:】
??蘋果將在 iOS26等系統更新中將 ChatGPT 模型升級至 GPT-5，以提升 Siri、寫作工具和視覺智能的性能。
??新版本將引入多語言實時翻譯及屏幕內容分析功能，增強設備在跨語言交流和信息處理方面的能力。
??蘋果還首次向開發者開放設備端 API，支持第三方應用接入，提供低延遲和高隱私的 AI 體驗。

4、高德全面接入通義大模型推出首個地圖AI原生Agent

阿里巴巴集團高德地圖聯合通義實驗室發布全球首個 AI 原生地圖，推出“小高老師”智能體，實現全鏈路語音交互與復雜任務推理導航。

【AiBase提要:】
??? 內置智能體“小高老師”，支持音頻/文本等多模態交互，支持隨時打斷的全雙工語音。
?? 基于36萬億 token 預訓練的 Qwen 大模型，實現空間語義深度理解與高效調度近百種內部工具。
??? 聯合推出復雜 POI 推理 Agent，可拆解多重約束并整合實時信息，提供精準推薦與導航。
?? 依托自研 DeepResearch 框架，具備規劃、反思、工具調用等完整 Agent 能力。

5、宇樹科技將出征首屆世界人形機器人運動會，硬件將被多隊采用

宇樹科技將于8月14日至17日參加首屆世界人形機器人運動會。宇樹透露，除其自有團隊外，賽場上還將有多支隊伍使用宇樹機器人硬件參賽，但會搭配各自自研的算法。

【AiBase提要:】
?? 除宇樹自有團隊外，賽場上還將有多個隊伍使用宇樹的機器人硬件參賽，但會搭配各自研發的算法。
??? 此次運動會匯聚了天工、加速進化、松延動力、傅利葉、星海圖等國內頭部人形機器人企業，以及來自美國、德國、澳大利亞、巴西、日本等16個國家的共計280支隊伍。
?? 宇樹科技的參與不僅展示了其在人形機器人硬件方面的實力，也體現了其設備在開放生態中的廣泛應用和競爭力。

6、Claude AI 推出歷史對話記憶功能，支持多背景切換

Anthropic 為 Claude AI 上線“記憶功能”，可自動記憶并復用用戶歷史對話中的背景信息，實現跨會話無縫銜接，并支持多背景隔離切換，目前僅向付費用戶開放。

【AiBase提要:】
?? 支持為不同項目設定獨立背景，工作/生活場景一鍵切換，保持上下文延續。
?? 先行面向 Claude Max、Team、Enterprise 付費用戶，Pro 版后續跟進，免費用戶暫未開放。
?? 用戶可在“設置—搜索和參考聊天”中手動啟用或查看記憶內容。
?? 與 ChatGPT 手動預設不同，Claude 采用自動提取機制，體驗更“無感”但可控性稍弱。

7、360智腦推出Light-IF系列模型顯著提升復雜指令遵循能力

360智腦發布Light-IF系列模型，以“預覽-自檢式推理+信息熵控制”框架專治“懶惰推理”，在四大基準全面領先，小參數即可越級打大模型，并全部開源。

微信截圖_20250812101839.png

【AiBase提要:】
?? 創新Light-IF框架:難度感知指令生成→Zero-RL強化→推理模式過濾→熵保持冷啟動→熵自適應正則，顯著抑制“只會復述不檢查”的懶惰推理。
?? 權威評測霸榜:Light-IF-32B在SuperCLUE拿下0.575，領先第二名13.9個百分點;Light-IF-1.7B小模型反超Qwen3-235B-A22B等超大模型。
?? 全面開源:模型權重將陸續上線Hugging Face，冷啟動數據集與訓練代碼同步發布GitHub，并聯合SuperCLUE推出中文評測基準SuperCLUE-CPIFOpen。

8、字節跳動推出視頻字幕無痕擦除方案基于DiT大模型打造

字節跳動發布全球首個基于DiT大模型的“視頻字幕無痕擦除”方案，實現像素級修復、多語言適配、一鍵“擦除-翻譯-口型同步”，助力短劇出海與跨境電商全球化。

微信截圖_20250812103606.png

【AiBase提要:】
??? 兩大核心:DiT視頻字幕擦除大模型+字體級分割模型，像素級精準修復，告別馬賽克/模糊/閃爍。
?? 多語言支持:突破中英限制，覆蓋小語種，形成“擦除-翻譯-口型同步”一站式閉環。
?? 工程落地:萬集數據驗證，成功率100%;分布式分鏡計算，效率提升數倍。
詳情地址：https://console.volcengine.com/vod/

9、昆侖萬維發布開源世界模型Matrix-Game2.0:實時生成分鐘級高連貫視頻

昆侖萬維發布全球首個開源交互式世界模型 Matrix-Game2.0，實時生成分鐘級25fps 高連貫視頻，支持無語言提示的純視覺驅動交互，已在 GTA、Minecraft 等場景落地。

【AiBase提要】
?? 開源首發:業內首個通用場景實時長序列開源世界模型，持續迭代全面開放。
?? 分鐘級生成:25fps 連續視頻，物理規律與場景語義理解大幅提升，可直接用于游戲/影視/VR。
?? 視覺驅動交互:摒棄語言提示，3D 因果 VAE + 多模態擴散 Transformer 逐幀響應用戶動作，跨域適應多風格場景。

10、昆侖萬維開源 Matrix-3D 大模型:用單張圖像可生成高質量全景視頻

昆侖萬維開源 Matrix-3D:單圖即可生成360° 可漫游3D 全景視頻，軌跡一致、幾何精準，全面開放代碼與數據集。

【AiBase提要】
?? 單圖生成3D 世界:打破多視角依賴，直接由單張圖像產出高質量全景視頻與可探索3D 場景。
?? 軌跡引導一致性:用 Mesh 渲染圖驅動擴散模型，保證相機軌跡下的時空一致，減少偽影與遮擋。
?? 雙路徑重建:超分+結構優化慢工出細活;Transformer 前饋網絡極速推理，兼顧質量與效率
詳情：https://github.com/SkyworkAI/Matrix-3D

（舉報）

相關推薦

關鍵詞：

薦AI日報：宇樹開源UnifoLM-VLA-0大模型；騰訊“元寶派”內測截圖泄露；Clawd更名為OpenClaw

本期AI日報聚焦具身智能與AI應用新動態。螞蟻集團發布LingBot-VLA模型，實現雙手機器人通用操控；宇樹開源UnifoLM-VLA-0模型，為機器人注入物理常識。開源AI助手OpenClaw更名后受關注，強調隱私安全。商湯開源SenseNova-MARS模型，在多個榜單超越GPT-5.2。騰訊“元寶派”社交功能內測截圖泄露，整合微信與QQ好友，支持同步觀影聽歌。馬斯克計劃明年推出高度個性化AI生成游戲與影音內容。Anthropic因涉嫌大規模盜版遭音樂出版商起訴，索賠30億美元。字節與阿里在春節前后發布新一代大模型，爭奪云端主導權。

?人工智能 ?機器人技術 ?螞蟻集團
薦AI日報：MiniMax Music 2.5 發布；螞蟻靈波開源世界模型LingBot-World；谷歌 Gemini 3.5 泄露

本期AI日報聚焦多項AI技術突破：MiniMax Music 2.5發布，提升AI音樂可控性與真實度；螞蟻靈波開源世界模型LingBot-World，為具身智能等提供高保真數字環境；谷歌Gemini 3.5泄露，單次提示可生成三千行代碼；Kimi K2.5 Agent升級，高效處理Excel、Word等辦公文檔；蘑菇物聯“靈知”垂直大模型通過備案，專注工業輔助與能源領域；昆侖萬維SkyReels-V3開源，實現多模態視頻生成；昆侖天工發布音樂大模型Mureka V8，推動AI音樂邁向“可發布”級別；三星宣布下一代AR眼鏡將于2026年發布，主打多模態AI體驗。

?AI音樂 ?MiniMax ?Music
薦AI日報：OpenAI推出macOS版Codex應用；智譜發布0.9B輕量級GLM-OCR；火狐Firefox 148瀏覽器即將上線

本期AI日報涵蓋多項AI領域動態：Adobe Firefly為訂閱用戶提供無限AI生成支持；OpenAI推出macOS版Codex應用，整合智能體化開發邏輯；智譜發布輕量級GLM-OCR模型，性能突出且成本低；火狐瀏覽器引入AI控制面板，支持一鍵屏蔽AI功能；騰訊回應紅包刷屏質疑，強調為無門檻福利；港股大模型概念股走強；百度、小米等聯手加持國家具身智能平臺，完成超7億融資；AI在“人類終極考試”中表現不佳，揭示其能力或被高估。

?AI ?Adobe ?Firefly
重新定義“實時在線交互”，Soul App開源實時數字人生成模型SoulX-FlashTalk

Soul AI Lab開源實時數字人生成模型SoulX-FlashTalk，實現0.87秒亞秒級超低延遲、32fps高幀率，支持超長視頻穩定生成。該模型具備“零延遲”即時反饋、高精細度全身動作合成、超長視頻穩定生成等亮點，通過雙向蒸餾與多步回溯自校正機制解決傳統方案延遲高、畫面不一致等問題。在電商直播、短視頻制作、AI客服等場景提供高質量、可落地的解決方案，推動大參數量實時生成式數字人邁入具體商用階段。

?數字人生成 ?SoulX-FlashTalk ?AI開源模型
薦AI日報：混元圖像3.0圖生圖模型發布；開源AI助手Clawdbot一夜爆火；京東JoyGlance正式登陸樂奇AI眼鏡

本期AI日報聚焦多領域AI新動態：騰訊發布混元圖像3.0，實現語義驅動的精準修圖；開源AI助手Clawdbot單日獲9000星，具備物理級執行力；京東購物智能體JoyGlance登陸Rokid眼鏡，簡化購物流程；蘋果Siri將整合谷歌Gemini核心，預計2月發布；騰訊“元寶派”開啟內測，探索AI深度融入社交場景；百度文心助手推出5億現金紅包活動，結合春節習俗；中國團隊SeaArt用戶破5000萬，實現創意到變現閉環；上海交大發布光學垂直大模型Optics GPT，重塑光學研發模式。

?AI ?圖像編輯 ?語義理解
薦AI日報：Kimi K2.5上線；阿里發布推理模型Qwen3-Max-Thinking；Claude 深度集成 Slack 等辦公神器

本期AI日報聚焦多款AI產品更新：Kimi K2.5上線，視覺與工具調用功能升級；騰訊搜狗輸入法20.0版本全面AI化；阿里發布萬億參數Qwen3-Max-Thinking模型，性能對標國際頂尖；阿里健康AI應用“氫離子”新增動態證據定位功能；百度文心APP開啟“多人多Agent”群聊內測；千問PC和網頁端上線國內最強推理模型；Anthropic推出交互式應用，深度集成辦公工具；螞蟻靈波開源空間感知模型LingBot

?AI ?Kimi ?K2.5
階躍星辰發布最強開源基座模型 Step 3.5 Flash，多家頭部芯片廠商已完成適配

階躍星辰發布新一代開源Agent基座模型Step 3.5 Flash。該模型面向實時Agent工作流場景，兼顧推理速度、智能水平與使用成本，在單請求代碼類任務上，最高推理速度可達每秒350個token。模型采用稀疏MoE架構，每個token僅激活約110億參數，顯著提升推理效率，為Agent應用提供更高效、可負擔的底層模型選擇。多家芯片廠商已完成適配，通過底層聯合創新提升模型適配性和算力效率，有效降低推理成本與應用門檻，加速大模型在實際場景中的落地。

?Step ?3.5 ?Flash
薦AI日報：天貓上線AI假圖識別模型；百川發布醫學模型Baichuan-M3 Plus；Remotion Skills開啟一句話做大片時代

本期AI日報聚焦多領域AI新進展：淘寶天貓上線AI假圖識別模型，打擊惡意售后；Inworld推出低延遲多語言TTS-1.5，革新游戲對話體驗；百川智能發布醫療大模型Baichuan-M3+Plus，醫學幻覺率降至2.6%；Remotion Skills實現自然語言生成專業視頻動畫；蘋果內部AI工具Enchanté和Enterprise Assistant曝光，提升辦公效率；YouTube計劃推出“AI個人形象”功能，變革短視頻創作；微軟為Windows 11記事本與畫圖注入AI新能力；蘋果擬將Siri重塑為類ChatGPT聊天機器人，代號“Campos”。

?AI ?電商 ?假圖識別
奧思維AI Agent解決方案，賦能OPC開源創新

1月30日，開放原子“園區行”（蘇州站）暨OPC開源對接會在蘇州人工智能產業園舉辦。本次活動聚焦開源技術與實體經濟融合，匯聚政產學研及企業代表，共探產業數字化轉型新路徑。奧思維受邀參會，并帶來《AI Agen在制造業落地實踐的最后一公里》主題演講，成為現場制造業AI落地的核心分享亮點。活動中，開放原子開源基金會業務發展部部長付海巍介紹到:基金會已成功孵?

?開源技術 ?產業數字化轉型 ?AI落地
宸境科技重磅發布具身智能新品牌及全棧技術矩陣，突破空間智能技術邊界

1月28日，許境科技在杭州發布具身智能新品牌“LooperRobotics”及全棧技術產品矩陣。該矩陣包括Insight全自主空間智能相機、TinyNav高性能導航算法庫和RoboSpatial空間編輯工具鏈，旨在通過軟硬件一體化創新，打造驅動通用機器人的標準化感知底座。此次發布標志著公司在關鍵感知硬件、底層算法及應用工具鏈領域取得重要突破，為機器人成為繼汽車、手機之后的物理任務基礎設施提供堅實支撐。

?具身智能 ?空間智能 ?機器人技術

今日大家都在搜的詞：

熱文

3 天
7天

AI日報：智譜視覺推理模型GLM-4.5V開源；達摩院開源三項具身智能核心技術；360智腦推出Light-IF系列模型

薦AI日報：宇樹開源UnifoLM-VLA-0大模型；騰訊“元寶派”內測截圖泄露；Clawd更名為OpenClaw

薦AI日報：MiniMax Music 2.5 發布；螞蟻靈波開源世界模型LingBot-World；谷歌 Gemini 3.5 泄露

薦AI日報：OpenAI推出macOS版Codex應用；智譜發布0.9B輕量級GLM-OCR；火狐Firefox 148瀏覽器即將上線

重新定義“實時在線交互”，Soul App開源實時數字人生成模型SoulX-FlashTalk

薦AI日報：混元圖像3.0圖生圖模型發布；開源AI助手Clawdbot一夜爆火；京東JoyGlance正式登陸樂奇AI眼鏡

薦AI日報：Kimi K2.5上線；阿里發布推理模型Qwen3-Max-Thinking；Claude 深度集成 Slack 等辦公神器

階躍星辰發布最強開源基座模型 Step 3.5 Flash，多家頭部芯片廠商已完成適配

薦AI日報：天貓上線AI假圖識別模型；百川發布醫學模型Baichuan-M3 Plus；Remotion Skills開啟一句話做大片時代

奧思維AI Agent解決方案，賦能OPC開源創新

宸境科技重磅發布具身智能新品牌及全棧技術矩陣，突破空間智能技術邊界

今日大家都在搜的詞：

熱文

2026支付寶集福正式開啟今年支持掃馬得福玩法

2026支付寶集福卡明天開啟：19套主題每套1.68元紅包

AI日報：阿里千問砸30億發紅包；快手整治AI魔改；靈光App支持上

馬上偷菜！騰訊《QQ經典農場》官宣2月6日上線

雷軍：第一代小米SU7已停售新款SU7預計2月13日左右到店

AI日報：OpenAI推出macOS版Codex應用；智譜發布0.9B輕量級GLM-

新款聯想拯救者Y700平板官宣3月發布

騰訊回應元寶崩了：目前已經恢復 10億紅包活動太火爆

余承東公布問界M6實車外觀預計將于今年春季發布

華為FreeClip 2耳夾耳機推出冰莓紫、玫瑰金兩款新配色