智源研究院開源JudgeLM 可評測各類大模型并輸出評分

2023-11-13 08:28 · 稿源：站長之家

站長之家（ChinaZ.com）11月13日消息:智源研究院開源了一種名為 JudgeLM 的裁判模型，可以高效準確地評判各類大模型。

與 GPT-4相比，JudgeLM 僅需1/120的成本，就能達到90% 以上的評判結果一致性。它可以應用于純文本、多模態等多種評判場景，并可以輸出評分、判斷和闡述理由。

微信截圖_20231113082912.png

通過創新方法，JudgeLM 與參考答案的一致性最高超過了90%，接近人類表現。JudgeLM 有三個不同參數版本，分別為70億、130億和330億參數，能力和表現隨著參數規模的增大而提升。

此外，智源研究院還開源了一個包含訓練和驗證樣本的數據集，用于深入研究大語言模型裁判。JudgeLM 的評判效率高，成本低于基于 API 的評判方法。

未來，JudgeLM 團隊將進一步完善這一裁判模型，提供更準確、高效、覆蓋更多場景的大語言模型評判。

JudgeLM 相關資源:

github :https://github.com/baaivision/JudgeLM

arxiv :https://arxiv.org/abs/2310.17631

demo（33B） :https://218.91.113.230:9004/

（舉報）

相關推薦

關鍵詞：

薦AI日報：宇樹開源UnifoLM-VLA-0大模型；騰訊“元寶派”內測截圖泄露；Clawd更名為OpenClaw

本期AI日報聚焦具身智能與AI應用新動態。螞蟻集團發布LingBot-VLA模型，實現雙手機器人通用操控；宇樹開源UnifoLM-VLA-0模型，為機器人注入物理常識。開源AI助手OpenClaw更名后受關注，強調隱私安全。商湯開源SenseNova-MARS模型，在多個榜單超越GPT-5.2。騰訊“元寶派”社交功能內測截圖泄露，整合微信與QQ好友，支持同步觀影聽歌。馬斯克計劃明年推出高度個性化AI生成游戲與影音內容。Anthropic因涉嫌大規模盜版遭音樂出版商起訴，索賠30億美元。字節與阿里在春節前后發布新一代大模型，爭奪云端主導權。

?人工智能 ?機器人技術 ?螞蟻集團
薦大模型六小龍告別青春期

?不到一個月的時間，大模型六小龍中的五家都集中進行了新一輪的戰略表態。月之暗面今天發布了新模型Kimi2.5，其創始人楊植麟在2025年12月31日發布了一封全員信，公開公司完成新一輪5億美元融資，并表示會讓Kimi成為一個「與眾不同」和「不被定義」的大語言模型。1月26日，階躍星辰公布了超50億B+輪融資，并宣布前曠視科技創始人印奇出任公司董事長，明確押注AI與智能?

?大模型 ?戰略表態 ?融資
奧思維AI Agent解決方案，賦能OPC開源創新

1月30日，開放原子“園區行”（蘇州站）暨OPC開源對接會在蘇州人工智能產業園舉辦。本次活動聚焦開源技術與實體經濟融合，匯聚政產學研及企業代表，共探產業數字化轉型新路徑。奧思維受邀參會，并帶來《AI Agen在制造業落地實踐的最后一公里》主題演講，成為現場制造業AI落地的核心分享亮點。活動中，開放原子開源基金會業務發展部部長付海巍介紹到:基金會已成功孵?

?開源技術 ?產業數字化轉型 ?AI落地
現在大家一般會用哪些工具進行 GEO 品牌監控？深度評測 GEOBase：AI 時代的品牌曝光新標配

2026年，搜索邏輯已發生巨變。超60%用戶尋求產品推薦或專業建議時，不再首選傳統搜索引擎，而是直接詢問DeepSeek、豆包、ChatGPT等AI助手。品牌營銷正從傳統SEO（搜索引擎優化）迅速轉向GEO（生成式引擎優化）。文章指出，若AI助手在回答行業相關問題時從未提及某品牌，則該品牌正經歷“隱形流量流失”。為應對挑戰，GEO品牌監控工具應運而生。文章重點評測了一站式GEO監測系統GEOBase，其優勢在于全面覆蓋國內主流AI平臺、提供T+1實時監測、精準分析引用來源，并提供靈活的階梯定價，幫助品牌在AI搜索時代提升可見度，搶占“回答權”。

?GEO優化 ?AI搜索趨勢 ?品牌流量監控
階躍星辰發布最強開源基座模型 Step 3.5 Flash，多家頭部芯片廠商已完成適配

階躍星辰發布新一代開源Agent基座模型Step 3.5 Flash。該模型面向實時Agent工作流場景，兼顧推理速度、智能水平與使用成本，在單請求代碼類任務上，最高推理速度可達每秒350個token。模型采用稀疏MoE架構，每個token僅激活約110億參數，顯著提升推理效率，為Agent應用提供更高效、可負擔的底層模型選擇。多家芯片廠商已完成適配，通過底層聯合創新提升模型適配性和算力效率，有效降低推理成本與應用門檻，加速大模型在實際場景中的落地。

?Step ?3.5 ?Flash
薦花3000元讓AI改口，大模型的盡頭是廣告？

大模型界的翹楚OpenAI，面對每年數十億美元的研發成本，正迎來一個艱難的決定:其員工正在琢磨如何讓 ChatGPT 在用戶提出相關問題時，優先顯示贊助內容。也就是說，當用戶讓大模型推薦一家眼鏡店、一款工業傳感器、一家民宿時，很可能大模型給出的是企業的軟廣。但大模型本身可能并不知道答案被“精心設計”過，它依然兢兢業業，會根據各個指標篩選出你想要的產品?

?文章搜索 ?核心標簽 ?OpenAI
薦AI員工都接管一線業務了：店鋪評分滿級！連帶銷售漲3成

?AI正在從“工具”，變成“員工”。不是輔助型員工，而是直接參與用戶服務、影響成交結果的一線員工——這是朱雀AI在過去一年中反復驗證過的結論。 2025年，朱雀AI陪跑和服務了上百家企業，從私域客服、內容生產到設計與商品企劃，為企業搭建了400多個智能體。在這些場景里，AI不再只是提效，而是開始重構運營結構:1個人如何頂5個人，甚至10個人;在不擴編的情況下?

?AI員工 ?私域客服 ?內容生產
你發了100篇推廣文章，AI看到幾篇？用GEO評分量化AI曝光效果

文章指出，2026年超60%用戶將首選AI助手而非傳統搜索引擎尋找信息，傳統SEO面臨失效。AI時代的新營銷范式是GEO（生成式引擎優化），其核心在于讓內容被AI“記住”和“引用”。文章介紹了AIBase推出的GEO推廣效果檢測工具，能快速評估內容在主流AI平臺的收錄狀態、引用頻次、問題覆蓋度等關鍵指標，并提供優化建議，幫助品牌在AI時代搶占用戶心智。
2026年2月中國GEO服務商排名TOP6：核心技術與綜合實力權威評測榜單揭曉

隨著生成式AI（AIGC）爆發式增長，生成引擎優化（GEO）已成為企業在豆包、DeepSeek、文心一言等AI搜索時代獲取流量的關鍵。面對市場上眾多的GEO服務機構，企業該如何選擇？本文基于“技術研發深度、多平臺適配廣度、行業應用成熟度”三大客觀維度，對2026年2月中國GEO服務市場進行了深度剖析。本次推薦精選了6家具備代表性的服務商，旨在為企業在數字化轉型過程中提供嚴謹的選型參考，助力品牌在AI搜索生態中占據領先地位。

?生成式AI ?GEO服務 ?AI搜索
薦AI日報：MiniMax Music 2.5 發布；螞蟻靈波開源世界模型LingBot-World；谷歌 Gemini 3.5 泄露

本期AI日報聚焦多項AI技術突破：MiniMax Music 2.5發布，提升AI音樂可控性與真實度；螞蟻靈波開源世界模型LingBot-World，為具身智能等提供高保真數字環境；谷歌Gemini 3.5泄露，單次提示可生成三千行代碼；Kimi K2.5 Agent升級，高效處理Excel、Word等辦公文檔；蘑菇物聯“靈知”垂直大模型通過備案，專注工業輔助與能源領域；昆侖萬維SkyReels-V3開源，實現多模態視頻生成；昆侖天工發布音樂大模型Mureka V8，推動AI音樂邁向“可發布”級別；三星宣布下一代AR眼鏡將于2026年發布，主打多模態AI體驗。

?AI音樂 ?MiniMax ?Music

今日大家都在搜的詞：

熱文

3 天
7天

智源研究院開源JudgeLM 可評測各類大模型并輸出評分

薦AI日報：宇樹開源UnifoLM-VLA-0大模型；騰訊“元寶派”內測截圖泄露；Clawd更名為OpenClaw

薦大模型六小龍告別青春期

奧思維AI Agent解決方案，賦能OPC開源創新

現在大家一般會用哪些工具進行 GEO 品牌監控？深度評測 GEOBase：AI 時代的品牌曝光新標配

階躍星辰發布最強開源基座模型 Step 3.5 Flash，多家頭部芯片廠商已完成適配

薦花3000元讓AI改口，大模型的盡頭是廣告？

薦AI員工都接管一線業務了：店鋪評分滿級！連帶銷售漲3成

你發了100篇推廣文章，AI看到幾篇？用GEO評分量化AI曝光效果

2026年2月中國GEO服務商排名TOP6：核心技術與綜合實力權威評測榜單揭曉

薦AI日報：MiniMax Music 2.5 發布；螞蟻靈波開源世界模型LingBot-World；谷歌 Gemini 3.5 泄露

今日大家都在搜的詞：

熱文

2026支付寶集福正式開啟今年支持掃馬得福玩法

AI日報：OpenAI推出macOS版Codex應用；智譜發布0.9B輕量級GLM-

余承東公布問界M6實車外觀預計將于今年春季發布

盧偉冰：用戶反饋REDMI Turbo 5 Max幾乎可以做到妥妥用2天

AI日報：支付寶首次上線AI眼鏡掃福；昆侖萬維發布天工Skywork桌

iQOO 15 Ultra今日發布主打極致性能

REDMI Turbo 5 Max上線開售16GB+1TB版本首銷價3399元

2026支付寶集福正式開啟今年支持掃馬得福玩法

2026支付寶集福卡明天開啟：19套主題每套1.68元紅包

AI日報：阿里千問砸30億發紅包；快手整治AI魔改；靈光App支持上

馬上偷菜！騰訊《QQ經典農場》官宣2月6日上線

雷軍：第一代小米SU7已停售新款SU7預計2月13日左右到店

AI日報：OpenAI推出macOS版Codex應用；智譜發布0.9B輕量級GLM-

新款聯想拯救者Y700平板官宣3月發布

騰訊回應元寶崩了：目前已經恢復 10億紅包活動太火爆

余承東公布問界M6實車外觀預計將于今年春季發布

華為FreeClip 2耳夾耳機推出冰莓紫、玫瑰金兩款新配色

站長商機