智譜今日正式發(fā)布并開源了專業(yè)級 OCR 模型 GLM-OCR。該模型以0.9B 的輕量化尺寸實現(xiàn)了跨級性能突破,在多項權(quán)威基準測試中登頂,旨在解決復雜文檔解析中的真實業(yè)務痛點。
核心性能:小尺寸下的 SOTA 表現(xiàn)
盡管參數(shù)規(guī)模僅為0.9B,但 GLM-OCR 的表現(xiàn)驚人。在權(quán)威文檔解析榜單 OmniDocBench V1.5 中,它以 94.6分的高分奪冠,其性能已逼近通用大模型 Gemini-3-Pro。無論是在文本識別、數(shù)學公式推導、復雜表格解析,還是關(guān)鍵信息抽取(KIE)方面,均取得了 SOTA(業(yè)內(nèi)最頂尖)表現(xiàn)。

場景突破:直擊復雜文檔痛點
GLM-OCR 針對六大高難業(yè)務場景進行了專項優(yōu)化,表現(xiàn)穩(wěn)健:
復雜表格: 支持合并單元格與多層表頭,可直接輸出標準 HTML 代碼。
結(jié)構(gòu)化提取: 智能識別卡證票據(jù),輸出標準 JSON 格式。
手寫體與代碼: 完美兼容教育科研中的手寫公式及程序員的代碼截圖。
特殊標識: 具備極高的印章識別與多語言混排處理能力。

極致效率:推理更快,成本更低
在效率與成本控制上,GLM-OCR 展現(xiàn)了極強的商業(yè)競爭力:
極速推理: PDF 處理吞吐量達 1.86頁/秒,顯著優(yōu)于同類模型;支持 vLLM、Ollama 等主流部署方式。
極致性價比: API 價格低至 0.2元/百萬 Tokens。相比傳統(tǒng) OCR 方案,成本僅為其1/10,處理一千張 A4掃描件僅需約0.5元。
技術(shù)揭秘:多模態(tài)架構(gòu)與強化學習
GLM-OCR 繼承自 GLM-V 系列架構(gòu),集成自研 CogViT 視覺編碼器。通過引入**多 Tokens 預測損失(MTP)**與全任務強化學習,模型在復雜版面下的泛化能力顯著提升。其獨特的4倍下采樣策略與 SwiGLU 機制,確保了視覺信息與語言解碼器的高效融合。
目前,GLM-OCR 已在
