AI 學霸遭遇重創！GPT-4o 專家考試僅得 2.7 分

2026-02-03 15:02 · 來源： AIbase基地

最近一項名為 “人類終極考試”（HLE）的測試結果讓我們重新審視 AI 的真實能力。根據《自然》雜志的報道，GPT-4o 在這 2500 道由全球專家出題的測試中，僅獲得了可憐的 2.7 分（滿分 100 分），而表現最好的 AI 模型也僅得 8 分。這一結果讓人質疑，AI 的強大究竟是實打實的實力，還是表面的繁榮？

傳統的 AI 測試越來越無法反映真實能力，主要原因有兩個。一是 “基準飽和”，即 AI 系統已經將常規測試題目背得滾瓜爛熟，得分的高低與真正的理解能力無關；二是 “答案作弊”，很多測試的答案可以直接在網上找到，使得 AI 看似答對問題，但實際上只是依賴于檢索和記憶，而非真正的推理能力。

為了解決這些問題，HLE 的設計者們集結了來自 50 個國家的近 1000 名專家，確保每道題目都要求深層的專業知識，難度大幅提升。HLE 的題目不僅覆蓋了數學、物理、化學等多個領域，還設定了嚴格的審核流程，確保題目難度足夠，難以被 AI 輕易破解。比如數學題需要深入邏輯推理，化學題涉及復雜的反應機制，絕不是簡單的檢索就能得到答案。

測試結果一目了然：GPT-4o 僅得 2.7 分，Claude 3.5 Sonnet 和 Gemini 1.5 Pro 也只分別獲得 4.1% 和 4.6% 的準確率，表現最好的 o1 也僅得 8%。這些數據清楚地表明，即便是最新一代的 AI，在面對真正需要深厚專業知識的問題時，依然顯得無能為力。

通過 HLE 的測試，我們可以看到 AI 的真實能力與傳統基準測試中的高分形成了鮮明對比。這也促使我們重新思考，AI 是否真的如我們想象中那樣聰明，還是只是一種表象的成功。

相關推薦

法國一男子將未爆炮彈塞入直腸醫院急召拆彈專家處理

法國圖盧茲一名24歲男子因劇痛前往朗格伊醫院急診，自述直腸塞入異物，醫護手術時才發現這個所謂的異物竟然是一枚未爆炮彈！現場立即啟動最高安全預案，醫院緊急疏散急診區醫護與病患，設置安全警戒線，同步呼叫警方、消防與專業拆彈小組趕赴現場。經排爆人員檢測，確認該炮彈無即時爆炸風險，完成安全處置后手術才順利收尾。

?醫療緊急事件 ?異物取出手術 ?法國社會新聞
Kimi即將推出新一代萬億大模型：開源王者刷新去年已超GPT5

國產開源大模型即將迎來新一波升級，除了萬眾期待的DeepSeek V4之外，月之暗面的Kimi也開始招募測試人員了，意味著很快也會上線。根據Kimi的公告，他們即將開啟Kimi新模型API內測計劃，已完成「企業認證」的 Kimi 開放平臺用戶，均可申請。前不久智譜、Minimax發布新一代模型之前都有招募測試的操作，而且內測沒多久就開放了大模型的公開訪問及API，隨后又進一步開源給社?

?開源大模型 ?DeepSeek ?V4
薦AI日報：小米MiMo充值功能上線；美圖秀秀登頂AI影像出海標桿；MiniMax推“專家Agent”桌面端

《AI日報》欄目聚焦人工智能領域動態。小米開源大模型MiMo V2Flash API上線充值功能，即將開啟付費模式，同時贈送免費額度。美圖秀秀憑借“AI閃光燈”等功能入選年度AI產品榜，成為國產AI全球化典范。MiniMax推出桌面端“專家Agent”，打造AI原生工作臺，用戶可定制高階助手。月之暗面將推出新一代萬億參數Kimi大模型，已在企業用戶中內測。快手下可靈AI視頻工具2025年收入達1.4億美元，月活突破1200萬。OpenAI在ChatGPT上線“年齡預測”功能，嚴控未成年人接觸不當內容。DeepSeek新架構“MODEL1”代碼曝光，或為下一代旗艦模型。Medeo AI海外發布新版，支持自然語言動態編輯視頻。

?AI日報 ?小米MiMo ?大模型充值
30歲男子每逢佳節被催婚致情緒抑郁專家：尊重子女生活節奏

?近日，江蘇淮安一名30歲男子因每逢佳節被父母頻繁催婚，導致情緒低落并確診為輕度抑郁，引發社會對單身青年心理壓力的關注。據當事人陳先生描述，自己性格內向，不擅長應對親友的"靈魂拷問"，每逢團圓飯必被追問"有對象了嗎""何時結婚"，父母甚至將其與鄰居二胎的情況對比，令他陷入焦慮與自我懷疑。陳先生表示，隨著年關臨近，父母的催?
有一種焦慮叫“手表說我沒睡好” 專家：不可過度依賴

近日，一種被戲稱為“手表說我沒睡好”的新型焦慮現象，在年輕群體中悄然蔓延，引發廣泛關注與討論。隨著智能穿戴設備的普及，越來越多的人開始依賴手表等設備來監測自己的睡眠質量。然而，這種看似便捷的監測方式，卻意外催生出了一種新的心理負擔。不少年輕人反映，即便自己感覺睡眠良好，第二天查看手表數據時，若顯示睡眠質量不佳，便會陷入深深的自我懷

?智能穿戴設備 ?睡眠質量 ?心理焦慮
國產全球最強醫療大模型Baichuan-M3發布：已超越GPT-5.2與人類醫生

AI大模型今年會向更專業的方向發起猛攻，除了AI編程之外，AI醫療也成為一大重點，OpenAI剛收購了一個醫療初創公司，Cluade也推出了AI醫療助手。今天還有一家國產大模型新品也將目光瞄準了醫療，那就是Baichuan-M3，這是知名大佬王小川投資成立的百川智能發布的AI醫療大模型，號稱全球最強。據百川智能介紹，Baichuan-M3 專為醫療場景深度優化，融合海量醫學文獻、臨床指南?

?AI醫療 ?Baichuan-M3 ?醫療大模型
南方人哈爾濱舔冰塊拔下后舌頭流血專家：這樣做才正確

近日，一名南方游客在哈爾濱游玩時，因好奇舔舐冰塊導致舌頭被牢牢粘住，強行掙脫時舌尖撕裂流血。同行者試圖用冷水澆淋解凍，反而加劇凍結，最終通過持續哈氣使冰塊融化才得以脫困。這一事件引發公眾對低溫環境下安全防護的關注。據醫學專家解釋，人體皮膚表面常殘留汗液或唾液，當接觸低于0℃的冰塊時，水分會迅速結冰，將皮膚與冰塊粘合。舌頭、嘴唇等黏?

?哈爾濱旅游安全 ?低溫防護 ?舌頭粘連冰塊
西紅柿放30天外皮完好咬開發現里面長滿豆芽專家：基本上可以食用

近日，山東一位女子在家中發現了神奇一幕：一枚存放約30天的西紅柿，外表看起來完好無損，可咬開后卻發現，內部竟長滿了類似豆芽” 的嫩芽。這一奇特現象讓女子倍感好奇。無獨有偶，此前媒體曾報道西安一位市民也遇到過類似情況。針對西紅柿內部長芽的現象，西安市營養學會食品安全中心專家曾作出過解釋。專家表示，西紅柿發芽并非普遍現象，但當儲存環境?

?西紅柿發芽 ?食品安全 ?果實生理現象
薦AI加入群聊這事，可能還是得騰訊來做

?“元寶派本來是一個絕密項目。” 1月26日騰訊員工大會上，馬化騰親自為這個新功能拉票，號召員工下載體驗、幫忙Debug。同一天，騰訊宣布春節期間元寶將派發10億現金紅包。馬化騰說，希望重現當年微信紅包的盛況。 2015年春晚，微信"搖一搖"紅包讓微信支付一夜之間成為支付寶的對手。十年后，騰訊想用同樣的打法推一個AI產品，野心不小。但問題是，微信紅包

?騰訊
理想AI，步入深水區

種一棵樹，最好的時間是十年前，其次是現在。在2024理想AI Talk中，李想曾表示一定會做具身智能，但“節奏不是現在”:L4自動駕駛的汽車還解決不了，怎么去解決更復雜的? 盡管如今看來或許還沒到完美的時機，但理想還是決定踏出這一步。據21世紀經濟報道，1月26日，李想召開線上全員會，全程幾乎不談汽車，只談AI，強調2026是所有想要成為AI頭部公司上車的最后一年，最

?文章搜索 ?核心標簽 ?AI技術

今日大家都在搜的詞：

熱文

3 天
7天

AI 學霸遭遇重創！GPT-4o 專家考試僅得 2.7 分

法國一男子將未爆炮彈塞入直腸醫院急召拆彈專家處理

Kimi即將推出新一代萬億大模型：開源王者刷新去年已超GPT5

薦AI日報：小米MiMo充值功能上線；美圖秀秀登頂AI影像出海標桿；MiniMax推“專家Agent”桌面端

30歲男子每逢佳節被催婚致情緒抑郁專家：尊重子女生活節奏

有一種焦慮叫“手表說我沒睡好” 專家：不可過度依賴

國產全球最強醫療大模型Baichuan-M3發布：已超越GPT-5.2與人類醫生

南方人哈爾濱舔冰塊拔下后舌頭流血專家：這樣做才正確

西紅柿放30天外皮完好咬開發現里面長滿豆芽專家：基本上可以食用

薦AI加入群聊這事，可能還是得騰訊來做

理想AI，步入深水區

今日大家都在搜的詞：

熱文

2026支付寶集福卡明天開啟：19套主題每套1.68元紅包

AI日報：阿里千問砸30億發紅包；快手整治AI魔改；靈光App支持上

馬上偷菜！騰訊《QQ經典農場》官宣2月6日上線

雷軍：第一代小米SU7已停售新款SU7預計2月13日左右到店

新款聯想拯救者Y700平板官宣3月發布

騰訊回應元寶崩了：目前已經恢復 10億紅包活動太火爆

2026支付寶集福正式開啟今年支持掃馬得福玩法

華為FreeClip 2耳夾耳機推出冰莓紫、玫瑰金兩款新配色

余承東公布問界M6實車外觀預計將于今年春季發布

盧偉冰：用戶反饋REDMI Turbo 5 Max幾乎可以做到妥妥用2天

2026支付寶集福卡明天開啟：19套主題每套1.68元紅包

AI日報：MiniMax Music 2.5 發布；螞蟻靈波開源世界模型LingBo

AI日報：宇樹開源UnifoLM-VLA-0大模型；騰訊“元寶派”內測截圖

AI日報：阿里千問砸30億發紅包；快手整治AI魔改；靈光App支持上

馬上偷菜！騰訊《QQ經典農場》官宣2月6日上線

特斯拉ModelS和ModelX項目將終止工廠將轉型生產機器人

REDMI Turbo 5系列今晚發布：開售即可享國補

雷軍：第一代小米SU7已停售新款SU7預計2月13日左右到店

奔馳140歲生日小米汽車向奔馳致敬雷軍：致敬行業先行者

支付寶「碰紅包卡」上線碰一下即可發/領紅包

站長商機