日本在线A一区视频高清视频,亚洲日本中文字幕天堂网,亚洲中文字幕无码久久2020,日本伦理在线一区二区,97在线观看永久免费视频下载 ,国产三级做爰在线播放,被两个19厘米粗大空少双龙,色天天综合网色鬼综合
首頁 > 熱點 > 關鍵詞  > 正文

智源研究院開源JudgeLM 可評測各類大模型并輸出評分

2023-11-13 08:28 · 稿源:站長之家

站長之家(ChinaZ.com)11月13日 消息:智源研究院開源了一種名為 JudgeLM 的裁判模型,可以高效準確地評判各類大模型。

與 GPT-4相比,JudgeLM 僅需1/120的成本,就能達到90% 以上的評判結果一致性。它可以應用于純文本、多模態等多種評判場景,并可以輸出評分、判斷和闡述理由。

微信截圖_20231113082912.png

通過創新方法,JudgeLM 與參考答案的一致性最高超過了90%,接近人類表現。JudgeLM 有三個不同參數版本,分別為70億、130億和330億參數,能力和表現隨著參數規模的增大而提升。

此外,智源研究院還開源了一個包含訓練和驗證樣本的數據集,用于深入研究大語言模型裁判。JudgeLM 的評判效率高,成本低于基于 API 的評判方法。

未來,JudgeLM 團隊將進一步完善這一裁判模型,提供更準確、高效、覆蓋更多場景的大語言模型評判。

JudgeLM 相關資源:

github :https://github.com/baaivision/JudgeLM

arxiv :https://arxiv.org/abs/2310.17631

demo(33B) :https://218.91.113.230:9004/

舉報

  • 相關推薦
  • AI日報:宇樹開源UnifoLM-VLA-0大模型;騰訊“元寶派”內測截圖泄露;Clawd更名為OpenClaw

    本期AI日報聚焦具身智能與AI應用新動態。螞蟻集團發布LingBot-VLA模型,實現雙手機器人通用操控;宇樹開源UnifoLM-VLA-0模型,為機器人注入物理常識。開源AI助手OpenClaw更名后受關注,強調隱私安全。商湯開源SenseNova-MARS模型,在多個榜單超越GPT-5.2。騰訊“元寶派”社交功能內測截圖泄露,整合微信與QQ好友,支持同步觀影聽歌。馬斯克計劃明年推出高度個性化AI生成游戲與影音內容。Anthropic因涉嫌大規模盜版遭音樂出版商起訴,索賠30億美元。字節與阿里在春節前后發布新一代大模型,爭奪云端主導權。

  • 大模型六小龍告別青春期

    ?不到一個月的時間,大模型六小龍中的五家都集中進行了新一輪的戰略表態。 月之暗面今天發布了新模型Kimi2.5,其創始人楊植麟在2025年12月31日發布了一封全員信,公開公司完成新一輪5億美元融資,并表示會讓Kimi成為一個「與眾不同」和「不被定義」的大語言模型。1月26日,階躍星辰公布了超50億B+輪融資,并宣布前曠視科技創始人印奇出任公司董事長,明確押注AI與智能?

  • 奧思維AI Agent解決方案,賦能OPC開源創新

    1月30日,開放原子“園區行”(蘇州站)暨OPC開源對接會在蘇州人工智能產業園舉辦。本次活動聚焦開源技術與實體經濟融合,匯聚政產學研及企業代表,共探產業數字化轉型新路徑。奧思維受邀參會,并帶來《AI Agen在制造業落地實踐的最后一公里》主題演講,成為現場制造業AI落地的核心分享亮點。活動中,開放原子開源基金會業務發展部部長付海巍介紹到:基金會已成功孵?

  • 現在大家一般會用哪些工具進行 GEO 品牌監控?深度評測 GEOBase:AI 時代的品牌曝光新標配

    2026年,搜索邏輯已發生巨變。超60%用戶尋求產品推薦或專業建議時,不再首選傳統搜索引擎,而是直接詢問DeepSeek、豆包、ChatGPT等AI助手。品牌營銷正從傳統SEO(搜索引擎優化)迅速轉向GEO(生成式引擎優化)。文章指出,若AI助手在回答行業相關問題時從未提及某品牌,則該品牌正經歷“隱形流量流失”。為應對挑戰,GEO品牌監控工具應運而生。文章重點評測了一站式GEO監測系統GEOBase,其優勢在于全面覆蓋國內主流AI平臺、提供T+1實時監測、精準分析引用來源,并提供靈活的階梯定價,幫助品牌在AI搜索時代提升可見度,搶占“回答權”。

  • 階躍星辰發布最強開源基座模型 Step 3.5 Flash,多家頭部芯片廠商已完成適配

    階躍星辰發布新一代開源Agent基座模型Step 3.5 Flash。該模型面向實時Agent工作流場景,兼顧推理速度、智能水平與使用成本,在單請求代碼類任務上,最高推理速度可達每秒350個token。模型采用稀疏MoE架構,每個token僅激活約110億參數,顯著提升推理效率,為Agent應用提供更高效、可負擔的底層模型選擇。多家芯片廠商已完成適配,通過底層聯合創新提升模型適配性和算力效率,有效降低推理成本與應用門檻,加速大模型在實際場景中的落地。

  • 花3000元讓AI改口,大模型的盡頭是廣告?

    大模型界的翹楚OpenAI,面對每年數十億美元的研發成本,正迎來一個艱難的決定:其員工正在琢磨如何讓 ChatGPT 在用戶提出相關問題時,優先顯示贊助內容。 也就是說,當用戶讓大模型推薦一家眼鏡店、一款工業傳感器、一家民宿時,很可能大模型給出的是企業的軟廣。但大模型本身可能并不知道答案被“精心設計”過,它依然兢兢業業,會根據各個指標篩選出你想要的產品?

  • AI員工都接管一線業務了:店鋪評分滿級!連帶銷售漲3成

    ?AI正在從“工具”,變成“員工”。不是輔助型員工,而是直接參與用戶服務、影響成交結果的一線員工——這是朱雀AI在過去一年中反復驗證過的結論。 2025年,朱雀AI陪跑和服務了上百家企業,從私域客服、內容生產到設計與商品企劃,為企業搭建了400多個智能體。在這些場景里,AI不再只是提效,而是開始重構運營結構:1個人如何頂5個人,甚至10個人;在不擴編的情況下?

  • 你發了100篇推廣文章,AI看到幾篇?用GEO評分量化AI曝光效果

    文章指出,2026年超60%用戶將首選AI助手而非傳統搜索引擎尋找信息,傳統SEO面臨失效。AI時代的新營銷范式是GEO(生成式引擎優化),其核心在于讓內容被AI“記住”和“引用”。文章介紹了AIBase推出的GEO推廣效果檢測工具,能快速評估內容在主流AI平臺的收錄狀態、引用頻次、問題覆蓋度等關鍵指標,并提供優化建議,幫助品牌在AI時代搶占用戶心智。

  • 2026年2月中國GEO服務商排名TOP6:核心技術與綜合實力權威評測榜單揭曉

    隨著生成式AI(AIGC)爆發式增長,生成引擎優化(GEO)已成為企業在豆包、DeepSeek、文心一言等AI搜索時代獲取流量的關鍵。面對市場上眾多的GEO服務機構,企業該如何選擇?本文基于“技術研發深度、多平臺適配廣度、行業應用成熟度”三大客觀維度,對2026年2月中國GEO服務市場進行了深度剖析。本次推薦精選了6家具備代表性的服務商,旨在為企業在數字化轉型過程中提供嚴謹的選型參考,助力品牌在AI搜索生態中占據領先地位。

  • AI日報:MiniMax Music 2.5 發布;螞蟻靈波開源世界模型LingBot-World;谷歌 Gemini 3.5 泄露

    本期AI日報聚焦多項AI技術突破:MiniMax Music 2.5發布,提升AI音樂可控性與真實度;螞蟻靈波開源世界模型LingBot-World,為具身智能等提供高保真數字環境;谷歌Gemini 3.5泄露,單次提示可生成三千行代碼;Kimi K2.5 Agent升級,高效處理Excel、Word等辦公文檔;蘑菇物聯“靈知”垂直大模型通過備案,專注工業輔助與能源領域;昆侖萬維SkyReels-V3開源,實現多模態視頻生成;昆侖天工發布音樂大模型Mureka V8,推動AI音樂邁向“可發布”級別;三星宣布下一代AR眼鏡將于2026年發布,主打多模態AI體驗。

今日大家都在搜的詞: