中國 AI 領(lǐng)軍企業(yè) DeepSeek 近日發(fā)布了全新的視覺編碼器 DeepSeek OCR2,在文檔處理和圖像識別領(lǐng)域?qū)崿F(xiàn)重大突破。該模型通過模擬人類視覺的靈活掃描模式,徹底顛覆了傳統(tǒng)視覺模型平鋪直敘的處理邏輯。

DeepSeek 研究人員指出,人類眼睛在觀察物體時會根據(jù)內(nèi)容進(jìn)行靈活聚焦。為了實(shí)現(xiàn)這一特性,DeepSeek OCR2引入了全新的架構(gòu),棄用了傳統(tǒng)的 CLIP 組件,轉(zhuǎn)而采用輕量級語言模型架構(gòu)。該架構(gòu)利用“因果流 Token”對視覺信息進(jìn)行重新排列和上下文整合,使 AI 能夠像人類一樣,根據(jù)內(nèi)容的意義而非固定的網(wǎng)格順序來“觀察”世界。
這種創(chuàng)新的處理方式不僅提升了理解力,更極大地優(yōu)化了效率。在相同的圖像處理任務(wù)中,DeepSeek OCR2僅需256到1,120個 Token,相比同類系統(tǒng)通常消耗的6,000個以上 Token,其視覺 Token 消耗量銳減了80% 以上。這種極高的壓縮率使得模型在處理長文檔時具有巨大的成本和速度優(yōu)勢。

在權(quán)威的 OmniDocBench 基準(zhǔn)測試中,該模型以91.09% 的高分刷新紀(jì)錄,在文檔解析性能上全面超越了 Gemini3Pro。目前,DeepSeek 已將該模型的代碼和權(quán)重向公眾開放。研究團(tuán)隊(duì)認(rèn)為,這種架構(gòu)是邁向統(tǒng)一多模態(tài)處理的重要一步,未來有望在同一框架下實(shí)現(xiàn)文本、語音和圖像的深度融合理解。
劃重點(diǎn):
?? 能效巔峰:DeepSeek OCR2將單張圖像的視覺 Token 需求大幅降低,相比同類系統(tǒng)減少了約80% 的資源消耗。
?? 性能超越:在 OmniDocBench 測試中,該模型在文檔解析和識別閱讀順序方面表現(xiàn)卓越,準(zhǔn)確率超越了 Gemini3Pro。
?? 架構(gòu)創(chuàng)新:通過引入“因果流 Token”重組視覺信息,模型實(shí)現(xiàn)了從機(jī)械掃描到理解內(nèi)容邏輯的跨越。
