日本在线A一区视频高清视频,亚洲日本中文字幕天堂网,亚洲中文字幕无码久久2020,日本伦理在线一区二区,97在线观看永久免费视频下载 ,国产三级做爰在线播放,被两个19厘米粗大空少双龙,色天天综合网色鬼综合
首頁 > 傳媒 > 關鍵詞  > Scale最新資訊  > 正文

MiroMind 破局:在大語言模型的夾縫中,陳天橋在造什么?

2026-02-03 17:05 · 稿源: 站長之家用戶

在 AI 的巨頭戰場上,OpenAI 執著于 Scale Law(規模法則),DeepMind 專注于能力分級,而陳天橋的 MiroMind 選擇了一條截然不同的“第三條道路”。

這篇文章不僅是理論闡述,更是 MiroMind 的路演書。陳天橋明確反對了目前主流的“行為主義”(圖靈測試)和“功能主義”(替代工作)路線 ,提出了“通用推理引擎”的新定位。

MiroMind 的戰術非常清晰:

放棄“全知全能”的幻覺: 承認模型會出錯,因此引入“自我糾錯”機制,依靠外部反饋閉環來生存 。

小參數,強推理: MiroMind 的 BrowseComp 案例顯示,235B 參數的模型通過 Agent 交互可以戰勝更大模型 。這證明了“推理能力”可以通過架構創新而非單純堆算力來實現。

重新定義算力用途: 不再是一次性生成長文,而是將算力用于“時間序列上的反復求證” 。

陳天橋將這一過程比作“邏輯長征”。MiroMind 的目標不是做一個聊天機器人,而是一個“可審計、可驗證的通用問題求解器” 。這不僅是技術路線的選擇,更是市場定位的差異化——當所有大模型都在爭奪 C 端用戶的注意力時,MiroMind 似乎正瞄準科研、工業、金融等B端高容錯門檻的“深水區”。

如果說 OpenAI 是想造一個無所不知的“神”,陳天橋則是想造一把精準剔除謬誤的“手術刀”。在 AGI 的長跑中,這把手術刀或許比神諭更實用。

以下為陳天橋博文全文:

言語道斷,因果自現——我心中的AGI是什么

過去這一兩年,我們親眼看著大模型的語言能力以肉眼可見的速度躍遷:寫作、總結、對話、問答、解題,越來越“像人”;HLE 之類的評測分數一再刷新紀錄,連奧數級別的題目也能被系統性攻克。于是一個看上去順理成章的結論開始流行:“所謂 AGI、大一統的通用智能,大概也就差不多了。”但在我看來,這是一場美麗的誤會。

為了把這件事講清楚,我借用一個比喻:今天主流的大模型,更像是“文科大模型”。它以語言生成與文本一致性為中心,把知識組織成“像真的敘述”和“像對的答案”。它的價值在于“模擬”:它能理解我們的委婉與修辭,能生成優雅的文字、逼真的對話、動人的故事;它會在教育、溝通、內容生產上變成新的基礎設施,像電、像水,潤物無聲。但是即便它能解奧數、HLE 也能拿高分,這些勝利也大多發生在封閉系統里:題目定義明確、規則固定、對錯可判、反饋即時。

但我一直堅信,人類真正需要 AI 去對抗的,是衰老、疾病、能源、材料、氣候這些問題;這些戰場不在考試題的封閉世界里,沒有標準答案等你生成,只有現象、噪聲、偏差、缺失變量與緩慢反饋;正確不是“寫出來”的,而是被外部世界“確認出來”的。封閉世界的高分,證明了推理工程的成熟,但并不代表已經擁有了穩定的知識生產機制;高水平解題固然是走向發現的必要基礎,卻遠非充分條件,因為真正決定未來的,不是封閉的敘述,而是那條冰冷而精確的因果紅線;它關心的不是“說得對不對勁”,而是“這個假設能不能被現實否決或確認”;它的終極產物不是新作品,而是新知識——新的定理、新的材料、新的藥物、新的工藝、新的工程結構。我把這種范式稱為“理科大模型”。它的價值在于“發現”。

需要澄清一點:我說的“文科/理科”,不是兩種模型的物種差異,而是兩種默認動作的差異:文科大模型傾向給出一個“看起來不錯的最終答案”,理科大模型傾向先給出一組可證偽的假設,并同時給出把這些假設變成證據的路徑;文科模型在不確定處更容易把答案“湊圓”,理科模型在不確定處更像本能地停一下,然后去查證、去拆解,把問題拆成可驗證的小問題;理科模型把因果當作第一公民,回答“條件改變后會發生什么”;理科模型還必須有可累積的長期記憶,把每一次驗證得到的結論以可追溯的方式寫回去。總之,理科模型更像一個握著手術刀的外科醫生:在無數方案里,識別哪一刀真正觸及因果紅線;它知道,一旦切下去,現實會給出最誠實、也最殘酷的反饋,形成真正的因果閉環——這種對“真實代價”的敬畏,正是兩種范式之間最本質的鴻溝。

所以,真正決定 AGI 應該是什么,取決于我們的價值取向:我們究竟更在意一個能理解所有修辭,還能取代人類工作的“靈魂伴侶”,還是更迫切地需要一個能幫我們撕開迷霧、照亮未知,創造價值的“因果明鏡”?我認為是后者。所以,實現 AGI 不是為了再造一個更會聊天的會生成的系統,而是為了打造一種“會發現”的智能。

讓我們帶著這樣的價值觀去審視一下現有的 AGI 定義的主要流派。一種是行為主義范式,源于圖靈測試,認為 AGI 的標準是“機器表現出的行為與人類無法區分”。這是目前大眾最直觀的評判標準。但如果一個 AI 只是在模仿人類說話,它永遠無法告訴我們那些人類還沒發現的真理。第二種是功能主義范式。以 OpenAI 為代表,定義 AGI 為“在大多數具有經濟價值的工作中超越人類的自適應系統”,側重于對人類勞動力的替代能力。但人類文明的每一次飛躍,都不是靠把舊工作做得更快,而是靠發現前所未有的新規律。第三種是能力分級范式。以 DeepMind 為代表,將 AGI 分為從 "Emerging" 到 "Superhuman" 的五個層級,核心指標是在廣泛且未見過的任務中的“泛化能力”與“表現分值”。可現實世界不是考場,沒有標準答案,真正的智慧是要在沒有考卷的地方,自己找到那條正確的路。當然還有一些其他的范式都或多或少存在上述問題。

那么我心目中 AGI 目標究竟要做什么?用一句話概括:它是一個高可信、可驗證、可糾錯的通用推理引擎。在工程上能夠做到三百步以上的復雜推理后,依然維持接近 99% 級別的整體正確率,并通過形式化和工具鏈把每一步推理“釘死”為可檢查的證據,最終對任意復雜問題給出閉環解決方案。

為什么我們死磕“300 步”?我們必須先定義推理的最小單位——標準原子步(SIU, Standard Inference Unit),作為可審計的基本推理單元。每一步只執行單一邏輯操作,依賴最小必要輸入,其結果可以通過工具或規則直接檢驗。按照這個標準,現在的大模型單步推理準確率最高能沖到 98%,哪怕每一步都能做到這個最高水平,300 步后的端對端成功率也只有 0.23%,已經接近歸零。這意味著在 300 步之后,概率和運氣基本失效,系統必須依賴可檢驗的推理與外部反饋閉環,而不是靠“看起來合理”的續寫去蒙混過關。所以我認為 300 步是獨立解決復雜現實問題的“跨度起點”。

為什么 99% 必須是硬杠?因為發現式系統不是用來“聊天”,而是要進入現實成本區間:實驗、工程、醫療、決策。低一個點的可靠性,就意味著高頻的錯誤下注;而現實世界的錯誤,不是“答錯題”,而是浪費實驗窗口、燒掉工程預算、甚至造成不可逆的損耗。99% 不是面子指標,而是“可質押、可簽字”的門檻。

所以,我心目中的 AGI,是能在 300 步的邏輯長征中,靠自我糾錯熬過“概率死亡”,最終抵達地圖之外的起點。從這里開始,AGI 就可以在科學、工程、決策規劃等任意領域里,作為一個可審計、可驗證的通用問題求解器存在。

當然,我并不認為這是一條“喊口號就能到達”的路線。把目標釘在“300 步仍保持 99% 可靠性”,本質上是在主動面對三個工程硬點:長鏈誤差累積、開放世界驗證缺口、以及組合爆炸下的預算約束。正因如此,我們在工程上必須進行解剖,將推理過程分為兩層:邏輯生成層與檢驗層。生成層負責“想”:將大問題遞歸地拆解,直到細化為原子級操作,我們還要做檢驗層負責“查”:對每一個原子步通過工具、仿真或外部數據逐一驗證。一旦某一步不過關,系統就在局部進行回退和重生成,而不是推翻整條推理鏈。

MiroMind 已經在這條路走出了第一步。以 BrowseComp 為例,MiroMind 僅用 235B 參數模型就給出了 SOTA 的成績,它的意義不在于“分數本身”,而在于證明了一個工程事實:我們正在把推理從“單次生成”推進到“時間序列上的反復求證”。更具體地說,我們不是依賴一次性長鏈思考去賭對答案,而是訓練模型在更深、更頻繁的 agent/環境交互中不斷獲取外部反饋并糾錯,讓推理過程逐步變成可審計的證據鏈。對我們而言,這就是“通用求解器”的第一塊地基,然后在 99% 可靠性前提下逐步推到 300 步以上的跨度。這個過程沉默、緩慢、嚴謹、甚至有點殘酷,它拋棄了人類語言的精妙模仿,卻在枯燥、嚴苛、卻能被現實反復復現的因果閉環中,緩慢破土而出,即使有耐心資本的加持和理想主義的堅守,這也會是一個非常痛苦的過程。

佛經里有個詞,叫“大圓鏡智”。說的是一個人的心若能修到像一面大圓鏡,就能如實照見萬物因果,不被塵埃遮蔽,不被偏見扭曲,這是智慧的最高境界。我對這個智慧一直很向往,甚至創辦的科普視頻號也取名叫做大圓鏡。而我心中的 AGI 就是一個無限接近“大圓鏡智”的智能系統,不迷戀漂亮的語言,而是追問事實的真相是什么;不急著給出答案,而是去求證背后的因果是什么。在一個被語言和敘事塞滿的 AI 時代,我們需要一面只對“因果和真相”負責的鏡子。

推廣

特別聲明:以上內容(如有圖片或視頻亦包括在內)均為站長傳媒平臺用戶上傳并發布,本平臺僅提供信息存儲服務,對本頁面內容所引致的錯誤、不確或遺漏,概不負任何法律責任,相關信息僅供參考。站長之家將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。任何單位或個人認為本頁面內容可能涉嫌侵犯其知識產權或存在不實內容時,可及時向站長之家提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明(點擊查看反饋聯系地址)。本網站在收到上述法律文件后,將會依法依規核實信息,溝通刪除相關內容或斷開相關鏈接。

  • 相關推薦
  • 別傻傻買Mac Mini跑OpenClaw了!玩轉AI代理,拼的不是顯卡,是Token

    OpenClaw作為代理式AI開源框架,讓AI從被動應答轉向主動規劃、調用工具、串聯多步操作,成為數字世界的“全能助理”。其GitHub星標數已達14.3萬,增長迅猛。然而,其自主決策特性也帶來安全風險,如權限濫用、數據誤刪等。同時,OpenClaw的火爆推動了Agent普及,帶來三大產業機會:一是云服務成為個人與中小企業入局的最低門檻;二是Token消耗邁入指數級增長階段;三是Agent?

  • 一切源于對長期主義的“偏執”!為什么這樣構建ROBOMIND物理AI大腦

    IDC報告指出,具身智能機器人正進入以模型為中心、軟件定義、硬件重構的新階段。INDEMIND在實踐中印證了這一趨勢,機器人正從“能演示”走向“能長期使用、能規模復制”。為此,公司打造了ROBOMIND機器人AI大腦,其核心是提供一套“工程上站得住”的系統級方案,而非實驗室參數的簡單堆砌。它采用“端云協同”架構:端側專注高確定性實時任務,通過算法優化僅需約10TOPS算力;云側處理復雜場景理解與持續學習。這種設計旨在保障穩定可靠的同時,通過OTA賦予其“終身進化”潛力,并降低成本以適配廣泛硬件平臺,推動規模化落地。ROBOMIND被定位為“平臺級大腦”,通過標準化接口與工具鏈,將核心能力模塊化,幫助合作伙伴降低集成門檻,聚焦產品差異化與場景深耕。在家庭等服務場景中,穩定、可靠、不過度打擾的長期服務比炫酷演示更重要,這正是ROBOMIND重點打磨的方向。最終目標是通過系統性成本控制,讓具身智能機器人從昂貴“概念產品”走向千家萬戶負擔得起的“消費級產品”。

  • AI日報:Kimi K2.5上線;阿里發布推理模型Qwen3-Max-Thinking;Claude 深度集成 Slack 等辦公神器

    本期AI日報聚焦多款AI產品更新:Kimi K2.5上線,視覺與工具調用功能升級;騰訊搜狗輸入法20.0版本全面AI化;阿里發布萬億參數Qwen3-Max-Thinking模型,性能對標國際頂尖;阿里健康AI應用“氫離子”新增動態證據定位功能;百度文心APP開啟“多人多Agent”群聊內測;千問PC和網頁端上線國內最強推理模型;Anthropic推出交互式應用,深度集成辦公工具;螞蟻靈波開源空間感知模型LingBot

  • OpenClaw紅遍硅谷 百度智能云支持一鍵部署OpenClaw

    近日,AI應用OpenClaw(原名Clawdbot)在硅谷爆火,被譽為“最偉大的AI應用”,能提供24小時在線服務。百度智能云已上線一鍵部署功能,用戶通過輕量應用服務器(LS)可快速完成部署和初始化,無需復雜配置。從1月31日起,用戶在官網購買推薦機型即可獲得首月體驗機會。部署步驟包括:創建LS實例、配置主流AI模型(如DeepSeek)、替換API密鑰、啟動初始化向導進入TUI模式。用戶可輕松擁有個人AI助理。

  • AI日報:宇樹開源UnifoLM-VLA-0大模型;騰訊“元寶派”內測截圖泄露;Clawd更名為OpenClaw

    本期AI日報聚焦具身智能與AI應用新動態。螞蟻集團發布LingBot-VLA模型,實現雙手機器人通用操控;宇樹開源UnifoLM-VLA-0模型,為機器人注入物理常識。開源AI助手OpenClaw更名后受關注,強調隱私安全。商湯開源SenseNova-MARS模型,在多個榜單超越GPT-5.2。騰訊“元寶派”社交功能內測截圖泄露,整合微信與QQ好友,支持同步觀影聽歌。馬斯克計劃明年推出高度個性化AI生成游戲與影音內容。Anthropic因涉嫌大規模盜版遭音樂出版商起訴,索賠30億美元。字節與阿里在春節前后發布新一代大模型,爭奪云端主導權。

  • AI助手OpenClaw爆火:一個24小時不休息的數字管家

    近日科技圈一個名為OpenClaw的個人AI代理工具走紅網絡。 據悉,這款工具原來名為Clawdbot,因被AI巨頭Anthropic指控Clawdbot與其旗下的Claude商標相似,Clawdbot被迫更名為OpenClaw,其中Open的意思是開源,對所有人都開放。 簡單來說,普通的AI只會教你如何整理文件,OpenClaw可以直接上手實操。你在電腦上部署完成后,在WhatsApp、Telegram等聊天軟件里直接給它發消息,它就會回應。

  • 保姆級Clawdbot教程來了,但我還是想勸大家悠著點。

    文章介紹了近期火爆的AI本地代理工具Clawdbot(現改名Moltbot)。它是一款權限極高、主動性極強的本地AI助手,能通過聊天軟件指令直接操作本地文件、處理郵件、炒股等,帶來高效便利的同時也存在巨大安全隱患。文章詳細說明了其功能特點(如連接多種聊天軟件、擁有長期記憶、開源可自定義模型),并提供了部署教程和飛書接入方法。最后,作者提醒用戶在使用前必須權?

  • AI日報:騰訊混元圖像3.0正式開源;Clawdbot迫于壓力更名Moltbot;月之暗面發布 Kimi Code

    本期AI日報聚焦多領域AI新動態:騰訊混元圖像3.0開源,成為全球最強開源圖生圖模型;月之暗面發布Kimi Code,推動國產AI編程工具進入新階段;開源項目Clawdbot因商標風險更名Moltbot,并遭詐騙者利用舊賬號發布虛假代幣;谷歌AI Plus計劃正式擴展至美國等35個市場,月費不足8美元;OpenAI發布基于GPT-5.2的科研協作平臺Prism;谷歌Aluminum OS界面首曝,深度融合Android與ChromeOS;Mistral AI發布終端編程助手Vibe 2.0,步入“子代理”時代;小米AI眼鏡深度集成支付寶,實現停車繳費與健康管理“無感交互”。

  • REDMI Pad 2 Pro宣布將發布哈利·波特版

    小米官方宣布,Redmi Pad 2 Pro將于本月發布,與Redmi Turbo 5系列同臺亮相。除普通版外,還特別推出哈利波特版,延續深度定制風格,以藍色為主色調,背部刻有霍格沃茨校徽,系統內置9?站臺魔法主題,融入眾多經典元素。該平板配備12.1英寸2.5K護眼屏,內置12000mAh大電池,支持PC級WPS等辦公軟件,搭載高通驍龍7s Gen 4芯片。小米教育中心也迎來升級,引入53種教輔資源,覆蓋各學段學習需求。

  • RGB-Mini LED vs SQD-Mini LED 終極對比:拋開營銷談技術,誰更值得選?

    文章對比了RGB-Mini LED與SQD-Mini LED兩種技術路線。RGB方案采用無機材料,壽命長、穩定性高,可實現三維光色同步控制,從根源杜絕串色,畫質精準耐用。SQD方案依賴量子點材料,易老化衰減,僅支持二維控光,存在串色、偏色等先天短板。選購時應認準真RGB技術,避免偽RGB陷阱。追求長期高畫質用戶首選RGB-Mini LED,短期低預算場景可酌情考慮SQD方案。

今日大家都在搜的詞: