為國產模型和國產芯片造“橋”：昇騰平臺上的DeepSeek-OCR-2遷移實錄

2026-02-03 17:04 · 稿源：站長之家用戶

摘要:以前適配國產芯片:掉頭發、改代碼、查文檔、修報錯?，F在適配國產芯片:敲一行命令，然后去喝咖啡。

做過國產芯片模型遷移的兄弟們，應該都懂那種痛。

明明手里的國產卡（NPU）理論參數很強，價格也香，但代碼一下載，心態就崩了:全是 CUDA 依賴。

好不容易改完了 import，一跑起來，報錯提示比代碼行數還長;咬牙查文檔寫了個算子，結果速度慢得像在跑 CPU。

大家常在群里自嘲:現在的 AI 產業，不僅有人工智能，還有大量的“人工”智能——全靠工程師沒日沒夜地手工填坑。

但這一次，在遷移DeepSeek-OCR-2時，我們決定“偷個懶”。我們沒有派出一整個算法團隊去死磕，而是只派出了一個 Agent ——智子芯元 KernelCAT。

結果它用了38分鐘，干完了我們原來要干一周的活。

KernelCAT CLI版

KernelCAT桌面端

接到任務:把“大象”裝進“冰箱”

任務很明確:把 DeepSeek-OCR-2部署到華為昇騰Atlas A2上。

這不是個輕松活。DeepSeek-OCR-2結構復雜，涉及視覺編碼和文本生成的協同，對算子精度和顯存管理要求極高。如果是按傳統流程，我得準備好紅牛，打開十幾個網頁標簽，準備迎接“版本地獄”。

但這次，我只是打開了 KernelCAT 的終端，輸入了一行指令，告訴它我的目標。

然后，我就雙手離開鍵盤，準備看戲了。

第一關:它自己看懂了“方言”

KernelCAT 啟動后的第一件事，是給代碼做“體檢”。

它迅速掃描了整個項目，發現原版 vLLM 的 MOE（混合專家）層里，大量使用了針對英偉達 GPU 優化的特有指令。這就像是一個只說英語的老外，你非讓他去廣東菜市場買菜，肯定行不通。

如果是人工遷移，這時候我得去翻 CANN 的開發者文檔，一行行查對應的 API 怎么寫。

但 KernelCAT 與眾不同，它沒有報錯然后等待人類幫助，而是直接生成了一份遷移計劃，標記出了所有需要“翻譯”的關鍵節點。

第二關:自動修補“斷路”

最讓人頭大的環境配置開始了。

DeepSeek-OCR-2對環境極其挑剔，vLLM、torch 和 torch_npu 只要有一個版本對不上，就是滿屏紅字。

我看這就眼熟的操作:KernelCAT 開始自動下載依賴，檢測到版本沖突時，它沒有把問題拋回給我，而是自己生成了 Patch（補?。?。

這就好比裝修房子，發現水管接口尺寸不對。普通師傅會讓你去買轉接頭，而 KernelCAT 直接現場3D 打印了一個轉接頭裝上了。

“Environment setup completed.”看到這行字跳出來的時候，我手里的咖啡還是熱的。

第三關:它嫌原生算子太慢，自己改了

模型跑通了，但重頭戲還在后面。

一開始，推理速度只有15toks/s 左右。按理說，能跑通已經謝天謝地了，但 KernelCAT 顯然是個完美主義者。

它通過分析計算圖，發現通用的算子在昇騰 NPU 上效率不高。于是，它自己引入vllm-ascend原生MOE實現等補丁，把那些“蹩腳”的通用計算邏輯，全部替換成了針對國產硬件優化過的。

見證奇跡的時刻到了。

當屏幕上的進度條再次滾動，吞吐量數值開始瘋狂跳動，最終穩定在了550.45toks/s。相比Transformers方案實現了驚人的35倍加速!

我揉了揉眼睛，確認沒看錯小數點。這不僅僅是“能用”，這簡直是“起飛”。

結語:讓 AI 去造 AI

整個遷移任務期間，我沒有寫一行代碼，沒有翻一頁文檔，甚至沒怎么動鼠標。

這或許就是未來的開發范式:人類定義目標，AI 解決路徑。

我們不再需要為了適配硬件而變成“為了醋包頓餃子”的底層搬磚工。KernelCAT 讓國產芯片不再是被生態封印的“算力廢鐵”，而是變成觸手可及的性能引擎。

無論你是想跑 DeepSeek系列模型，還是其他自研模型，KernelCAT 都能幫你打通這“最后一公里”，不挑硬件，不挑語言。

以后這種費頭發的活，還是交給 AI 去干吧。畢竟，它不嫌累，也不用睡。

福利時間

不想再在這個周末加班寫算子了?

KernelCAT 現已開放限時免費內測!支持 Linux x86/ARM 及 macOS。

（推廣）

特別聲明：以上內容(如有圖片或視頻亦包括在內)均為站長傳媒平臺用戶上傳并發布，本平臺僅提供信息存儲服務，對本頁面內容所引致的錯誤、不確或遺漏，概不負任何法律責任，相關信息僅供參考。站長之家將盡力確保所提供信息的準確性及可靠性，但不保證有關資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。任何單位或個人認為本頁面內容可能涉嫌侵犯其知識產權或存在不實內容時，可及時向站長之家提出書面權利通知或不實情況說明，并提供身份證明、權屬證明及詳細侵權或不實情況證明（點擊查看反饋聯系地址）。本網站在收到上述法律文件后，將會依法依規核實信息，溝通刪除相關內容或斷開相關鏈接。

相關推薦

關鍵詞：

全天候AI智能體Moltbot在國產操作系統上部署

Moltbot是一款創新的開源AI助手平臺，憑借7×24小時主動工作、無限記憶等核心能力，在AI智能體領域脫穎而出。它支持全天候自動股票交易、智能物品采購等自動化任務，實現了從“問答”到“做事”的跨越。國產銀河麒麟桌面操作系統已支持Moltbot本地部署，為用戶帶來更靈活、更自主的AI體驗。其突出特點主要體現在以下三個方面：第一，具備主動工作的能力，徹底打破了傳統AI的被動式響應，能夠主動為用戶提供所需服務，如日程提醒、新聞推送等；第二，可以直接操作設備，使主動服務形成完整閉環，能夠通過各類應用程序直接為用戶解決問題；第三，擁有長期記憶能力，可以記錄用戶的偏好與習慣，在長期互動中逐漸成為真正懂用戶的個人助手，提供高度個性化的服務。

?開源AI助手 ?主動工作 ?無限記憶
為什么大型商超很少賣國產香蕉背后有這些原因

?近日，有消費者注意到，在眾多大型商超中，國產香蕉的售賣情況相對較少，這一現象引發了廣泛關注。為何在琳瑯滿目的水果貨架上，國產香蕉的身影不那么常見呢? 據業內人士分析，大型商超在選擇水果供應商時，會綜合考慮多個因素，包括水果的品質、價格、供應穩定性以及市場需求等。雖然國產香蕉在口感和新鮮度上并不遜色于進口香蕉，但在品牌知名度、包裝和?

?國產香蕉 ?商超水果 ?進口香蕉
階躍星辰發布最強開源基座模型 Step 3.5 Flash，多家頭部芯片廠商已完成適配

階躍星辰發布新一代開源Agent基座模型Step 3.5 Flash。該模型面向實時Agent工作流場景，兼顧推理速度、智能水平與使用成本，在單請求代碼類任務上，最高推理速度可達每秒350個token。模型采用稀疏MoE架構，每個token僅激活約110億參數，顯著提升推理效率，為Agent應用提供更高效、可負擔的底層模型選擇。多家芯片廠商已完成適配，通過底層聯合創新提升模型適配性和算力效率，有效降低推理成本與應用門檻，加速大模型在實際場景中的落地。

?Step ?3.5 ?Flash
中國市場收入規模達2859億元，女性玩家數量迅速增長；海外市場雙平臺下載量顯著遷移

2025年中國移動游戲市場收入達2859.2億元，同比增長僅0.56%，增長顯著放緩，正式進入存量平臺期。同期海外市場收入規模亦延續平緩增長，年增速維持在1%-2%的低位區間。市場分化源于用戶紅利消退、競爭格局固化等共性因素，也受區域政策、渠道生態演變及產品創新節奏等多重變量驅動。行業心態從尋求“復蘇”轉向對“平臺期”的冷靜接受與長期適應，企業戰略重心從追求增長規模全面轉向捍衛存量份額與提升運營確定性。未來突破將依賴能彌合當前“代差”的根本性體驗革新，如AI驅動的交互革命或AR/VR等硬件成熟帶來的體驗重構。女性玩家數量迅速增長，推動市場新一輪拓展與創新。頭部超級產品缺位致使新品整體收入大幅縮水，市場對“IP情懷”與“已驗證玩法模型的微創新”依賴加深。小游戲與APP協同構建“多端協同”戰略，成為觸及更廣泛用戶、覆蓋全場景體驗的核心能力。

?移動游戲市場 ?收入增長 ?海外市場
2026國企招采平臺測評榜出爐誰才是國產化標桿

目前，國有企業電子招標平臺越來越向復合型功能發展——既要應對因出資機構不同而出現的多樣合規政策，又要提升招標質量、保障項目交付，更要在成本控制與風險防控中找到平衡點，而這一切的核心都離不開“全流程貫通”與 “生態高適配”的雙重能力。用友、浪潮、歐菲斯、新點、三維天地等國有企業電子招標采購平臺供應商是市場上的主流選擇，各家在不同領域均?

?國有企業 ?電子招標平臺 ?全流程貫通
薦實時生成開放世界：新AI模型貼臉開大，游戲研發慌不慌？

這兩天，又有一款全新的AI模型出現了。雖說如今AI改變各行各業的事情早就屢見不鮮，在游戲業，很多崗位也或多或少已經用上了AI技術，但最近發布的這款AI模型，它真不一樣。這款AI模型名叫PixVerse R1，按官方說法，PixVerse R1是全球首個真正意義上的「實時生成世界模型（Real-time World Model）」。

?AI模型 ?游戲行業 ?實時生成
2025新質生產力示范案例發布華為云CloudMatrix AI Infra榮獲人工智能TOP案例

AI正從參數比拼轉向賦能實體經濟的“下半場”，行業重心轉向千行百業的規?；瘧寐涞?。華為云憑借基于CloudMatrix+AI Infra的智算云服務，成功入選“人工智能基礎與產業融合”示范案例TOP5，彰顯了中國式AI與產業融合發展新路徑。華為云堅持深入產業，解決行業難題，通過“車-網-云”協同的AI無人駕駛全棧方案，賦能礦山、水泥等行業實現降本增效。未來，華為云將繼續堅持“做難而正確的事”，推動AI真正深入行業場景，共同邁向新質生產力發展的下一程。

?新質生產力 ?AI產業融合 ?華為云
國企電子招采平臺權威解讀！從合規、高效、成熟度拆解國產化方案

國有企業電子招標采購平臺已從“可選配置”升級為支撐采購合規、降本增效的核心基礎設施。面對平臺選型難題，三維天地憑借全流程、國產化、高適配等優勢，成為眾多國企的可靠選擇。其平臺通過“全鏈閉環+全流程電子化”深度落地，覆蓋從需求提報、招標采購到物流、檢驗、倉儲、財務結算等20多個核心業務模塊，打通傳統采購信息斷點。平臺嚴格遵循法規，內置合規審核點，確保流程可追溯、數據可審計，并滿足集團穿透式監管需求。數據驅動是其另一亮點，通過AI與機器學習技術，實時監測供應商履約能力、價格波動等關鍵指標，實現從“被動響應”到“主動預警”的升級。平臺采用模塊化設計，EC、SCM、SMS三大系統可靈活組合，并能與主流系統無縫集成，解決跨系統數據同步痛點，真正融入國企數字化生態。此外，平臺深耕能源、化工、制造、冶金礦業等重資產行業，提供定制化服務，如冶金行業定制質量檢驗標準庫，能源行業適配多級集團管控權限體系，滿足國資監管數據互通要求。這種“行業深耕+定制化”思路，讓平臺更具實用性，也使三維天地在競爭中脫穎而出。

?國有企業 ?電子招標采購平臺 ?全流程電子化
范式官宣2026戰略升維：以“AI Agent + 世界模型”為核構建“AI + X”產業新生態

1月30日，范式集團年會在北京舉行。創始人戴文淵正式宣布，集團已完成品牌體系與戰略架構的全面升級。范式確立了以“AI Agent + 世界模型”為核心的技術路線，開啟“AI + X”的產業新生態。自2014年成立以來，范式堅持“AI for Everyone”的使命，始終致力于將AI的紅利惠及每一個人，在金融、制造、能源等20多個領域積累了十多年的經驗。2025年，公司完成集團化轉型，在延續“

?范式集團 ?AI ?Agent
國產存儲突破：綠算GP7000率先適配英偉達G3層KV Cache架構，AI推理效率提升17倍

2026年1月15日，綠算技術宣布其GP7000全閃存存儲平臺已通過英偉達適配，成為全球首批、也是唯一支持G3級KV Cache分層存儲的國產化方案。該平臺采用存算分離架構，結合以太網閃存簇設計，為下一代AI工廠建設提供關鍵基礎設施支撐，能顯著提升推理吞吐量并降低延遲，實現成本與效率的最優平衡。

?AI推理 ?KV ?Cache

今日大家都在搜的詞：

熱文

3 天
7天

為國產模型和國產芯片造“橋”：昇騰平臺上的DeepSeek-OCR-2遷移實錄

全天候AI智能體Moltbot在國產操作系統上部署

為什么大型商超很少賣國產香蕉背后有這些原因

階躍星辰發布最強開源基座模型 Step 3.5 Flash，多家頭部芯片廠商已完成適配

中國市場收入規模達2859億元，女性玩家數量迅速增長；海外市場雙平臺下載量顯著遷移

2026國企招采平臺測評榜出爐誰才是國產化標桿

薦實時生成開放世界：新AI模型貼臉開大，游戲研發慌不慌？

2025新質生產力示范案例發布華為云CloudMatrix AI Infra榮獲人工智能TOP案例

國企電子招采平臺權威解讀！從合規、高效、成熟度拆解國產化方案

范式官宣2026戰略升維：以“AI Agent + 世界模型”為核構建“AI + X”產業新生態

國產存儲突破：綠算GP7000率先適配英偉達G3層KV Cache架構，AI推理效率提升17倍

今日大家都在搜的詞：

熱文

2026支付寶集福正式開啟今年支持掃馬得福玩法

2026支付寶集?？魈扉_啟：19套主題每套1.68元紅包

AI日報：阿里千問砸30億發紅包；快手整治AI魔改；靈光App支持上

馬上偷菜！騰訊《QQ經典農場》官宣2月6日上線

雷軍：第一代小米SU7已停售新款SU7預計2月13日左右到店

AI日報：OpenAI推出macOS版Codex應用；智譜發布0.9B輕量級GLM-

騰訊回應元寶崩了：目前已經恢復 10億紅包活動太火爆

新款聯想拯救者Y700平板官宣3月發布

余承東公布問界M6實車外觀預計將于今年春季發布

華為FreeClip 2耳夾耳機推出冰莓紫、玫瑰金兩款新配色