日本在线A一区视频高清视频,亚洲日本中文字幕天堂网,亚洲中文字幕无码久久2020,日本伦理在线一区二区,97在线观看永久免费视频下载 ,国产三级做爰在线播放,被两个19厘米粗大空少双龙,色天天综合网色鬼综合
首頁 > AI頭條  > 正文

AI 學霸遭遇重創!GPT-4o 專家考試僅得 2.7 分

2026-02-03 15:02 · 來源: AIbase基地

最近一項名為 “人類終極考試”(HLE)的測試結果讓我們重新審視 AI 的真實能力。根據《自然》雜志的報道,GPT-4o 在這 2500 道由全球專家出題的測試中,僅獲得了可憐的 2.7 分(滿分 100 分),而表現最好的 AI 模型也僅得 8 分。這一結果讓人質疑,AI 的強大究竟是實打實的實力,還是表面的繁榮?

傳統的 AI 測試越來越無法反映真實能力,主要原因有兩個。一是 “基準飽和”,即 AI 系統已經將常規測試題目背得滾瓜爛熟,得分的高低與真正的理解能力無關;二是 “答案作弊”,很多測試的答案可以直接在網上找到,使得 AI 看似答對問題,但實際上只是依賴于檢索和記憶,而非真正的推理能力。

為了解決這些問題,HLE 的設計者們集結了來自 50 個國家的近 1000 名專家,確保每道題目都要求深層的專業知識,難度大幅提升。HLE 的題目不僅覆蓋了數學、物理、化學等多個領域,還設定了嚴格的審核流程,確保題目難度足夠,難以被 AI 輕易破解。比如數學題需要深入邏輯推理,化學題涉及復雜的反應機制,絕不是簡單的檢索就能得到答案。

測試結果一目了然:GPT-4o 僅得 2.7 分,Claude 3.5 Sonnet 和 Gemini 1.5 Pro 也只分別獲得 4.1% 和 4.6% 的準確率,表現最好的 o1 也僅得 8%。這些數據清楚地表明,即便是最新一代的 AI,在面對真正需要深厚專業知識的問題時,依然顯得無能為力。

通過 HLE 的測試,我們可以看到 AI 的真實能力與傳統基準測試中的高分形成了鮮明對比。這也促使我們重新思考,AI 是否真的如我們想象中那樣聰明,還是只是一種表象的成功。


  • 相關推薦
  • 法國一男子將未爆炮彈塞入直腸 醫院急召拆彈專家處理

    法國圖盧茲一名24歲男子因劇痛前往朗格伊醫院急診,自述直腸塞入異物,醫護手術時才發現這個所謂的異物竟然是一枚未爆炮彈! 現場立即啟動最高安全預案,醫院緊急疏散急診區醫護與病患,設置安全警戒線,同步呼叫警方、消防與專業拆彈小組趕赴現場。 經排爆人員檢測,確認該炮彈無即時爆炸風險,完成安全處置后手術才順利收尾。

  • Kimi即將推出新一代萬億大模型:開源王者刷新 去年已超GPT5

    國產開源大模型即將迎來新一波升級,除了萬眾期待的DeepSeek V4之外,月之暗面的Kimi也開始招募測試人員了,意味著很快也會上線。 根據Kimi的公告,他們即將開啟Kimi新模型API內測計劃,已完成「企業認證」的 Kimi 開放平臺用戶,均可申請。 前不久智譜、Minimax發布新一代模型之前都有招募測試的操作,而且內測沒多久就開放了大模型的公開訪問及API,隨后又進一步開源給社?

  • AI日報:小米MiMo充值功能上線;美圖秀秀登頂AI影像出海標桿;MiniMax推“專家Agent”桌面端

    《AI日報》欄目聚焦人工智能領域動態。小米開源大模型MiMo V2Flash API上線充值功能,即將開啟付費模式,同時贈送免費額度。美圖秀秀憑借“AI閃光燈”等功能入選年度AI產品榜,成為國產AI全球化典范。MiniMax推出桌面端“專家Agent”,打造AI原生工作臺,用戶可定制高階助手。月之暗面將推出新一代萬億參數Kimi大模型,已在企業用戶中內測。快手下可靈AI視頻工具2025年收入達1.4億美元,月活突破1200萬。OpenAI在ChatGPT上線“年齡預測”功能,嚴控未成年人接觸不當內容。DeepSeek新架構“MODEL1”代碼曝光,或為下一代旗艦模型。Medeo AI海外發布新版,支持自然語言動態編輯視頻。

  • 30歲男子每逢佳節被催婚致情緒抑郁 專家:尊重子女生活節奏

    ?近日,江蘇淮安一名30歲男子因每逢佳節被父母頻繁催婚,導致情緒低落并確診為輕度抑郁,引發社會對單身青年心理壓力的關注。據當事人陳先生描述,自己性格內向,不擅長應對親友的"靈魂拷問",每逢團圓飯必被追問"有對象了嗎""何時結婚",父母甚至將其與鄰居二胎的情況對比,令他陷入焦慮與自我懷疑。 陳先生表示,隨著年關臨近,父母的催?

  • 有一種焦慮叫“手表說我沒睡好” 專家:不可過度依賴

    近日,一種被戲稱為“手表說我沒睡好”的新型焦慮現象,在年輕群體中悄然蔓延,引發廣泛關注與討論。 隨著智能穿戴設備的普及,越來越多的人開始依賴手表等設備來監測自己的睡眠質量。然而,這種看似便捷的監測方式,卻意外催生出了一種新的心理負擔。不少年輕人反映,即便自己感覺睡眠良好,第二天查看手表數據時,若顯示睡眠質量不佳,便會陷入深深的自我懷

  • 國產全球最強醫療大模型Baichuan-M3發布:已超越GPT-5.2與人類醫生

    AI大模型今年會向更專業的方向發起猛攻,除了AI編程之外,AI醫療也成為一大重點,OpenAI剛收購了一個醫療初創公司,Cluade也推出了AI醫療助手。 今天還有一家國產大模型新品也將目光瞄準了醫療,那就是Baichuan-M3,這是知名大佬王小川投資成立的百川智能發布的AI醫療大模型,號稱全球最強。 據百川智能介紹,Baichuan-M3 專為醫療場景深度優化,融合海量醫學文獻、臨床指南?

  • 南方人哈爾濱舔冰塊 拔下后舌頭流血 專家:這樣做才正確

    近日,一名南方游客在哈爾濱游玩時,因好奇舔舐冰塊導致舌頭被牢牢粘住,強行掙脫時舌尖撕裂流血。同行者試圖用冷水澆淋解凍,反而加劇凍結,最終通過持續哈氣使冰塊融化才得以脫困。這一事件引發公眾對低溫環境下安全防護的關注。 據醫學專家解釋,人體皮膚表面常殘留汗液或唾液,當接觸低于0℃的冰塊時,水分會迅速結冰,將皮膚與冰塊粘合。舌頭、嘴唇等黏?

  • 西紅柿放30天外皮完好 咬開發現里面長滿豆芽 專家:基本上可以食用

    近日,山東一位女子在家中發現了神奇一幕:一枚存放約30天的西紅柿,外表看起來完好無損,可咬開后卻發現,內部竟長滿了類似 豆芽” 的嫩芽。這一奇特現象讓女子倍感好奇。 無獨有偶,此前媒體曾報道西安一位市民也遇到過類似情況。 針對西紅柿內部長芽的現象,西安市營養學會食品安全中心專家曾作出過解釋。 專家表示,西紅柿發芽并非普遍現象,但當儲存環境?

  • AI加入群聊這事,可能還是得騰訊來做

    ?“元寶派本來是一個絕密項目。” 1月26日騰訊員工大會上,馬化騰親自為這個新功能拉票,號召員工下載體驗、幫忙Debug。同一天,騰訊宣布春節期間元寶將派發10億現金紅包。馬化騰說,希望重現當年微信紅包的盛況。 2015年春晚,微信"搖一搖"紅包讓微信支付一夜之間成為支付寶的對手。十年后,騰訊想用同樣的打法推一個AI產品,野心不小。但問題是,微信紅包

  • 理想AI,步入深水區

    種一棵樹,最好的時間是十年前,其次是現在。 在2024理想AI Talk中,李想曾表示一定會做具身智能,但“節奏不是現在”:L4自動駕駛的汽車還解決不了,怎么去解決更復雜的? 盡管如今看來或許還沒到完美的時機,但理想還是決定踏出這一步。據21世紀經濟報道,1月26日,李想召開線上全員會,全程幾乎不談汽車,只談AI,強調2026是所有想要成為AI頭部公司上車的最后一年,最

今日大家都在搜的詞: