歡迎來(lái)到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容,聚焦開(kāi)發(fā)者,助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。
新鮮AI產(chǎn)品點(diǎn)擊了解:https://app.aibase.com/zh
1、快手發(fā)布KAT系列Agentic Coding大模型 代碼表現(xiàn)出色
快手旗下的 Kwaipilot 團(tuán)隊(duì)發(fā)布了兩款革命性的大模型 —— KAT 系列中的 KAT-Dev-32B 和 KAT-Coder。這兩款模型在 Code Intelligence 領(lǐng)域表現(xiàn)出色,分別針對(duì)不同的用戶需求和應(yīng)用場(chǎng)景。KAT-Dev-32B 在 SWE-Bench Verified 測(cè)試中解決率達(dá)到了62.4%,而 KAT-Coder 的解決率則高達(dá)73.4%。

【AiBase提要:】
?? KAT-Dev-32B 是一個(gè)開(kāi)源的32億參數(shù)模型,解決率達(dá)到了62.4%。
?? KAT-Coder 作為閉源旗艦?zāi)P停鉀Q率高達(dá)73.4%,表現(xiàn)卓越。
?? KAT-Dev-32B 已在 Hugging Face 平臺(tái)上線,KAT-Coder 可通過(guò) StreamLake 平臺(tái)獲取 API 調(diào)用。
詳情鏈接:https://kwaipilot.github.io/KAT-Coder/
2、騰訊重磅發(fā)布 “混元圖像 3.0”,開(kāi)創(chuàng)多模態(tài)圖像生成新時(shí)代
騰訊重磅發(fā)布“混元圖像3.0”,標(biāo)志著其在多模態(tài)圖像生成領(lǐng)域的重大突破,為人工智能生成內(nèi)容(AIGC)技術(shù)的發(fā)展注入了新的活力。

【AiBase提要:】
?? 混元圖像3.0是首個(gè)開(kāi)源的工業(yè)級(jí)多模態(tài)生圖模型,具備強(qiáng)大的語(yǔ)義解析能力。
?? 3.0版本在2.0基礎(chǔ)上進(jìn)一步增強(qiáng)了模型的復(fù)雜性與表現(xiàn)力,實(shí)現(xiàn)毫秒級(jí)響應(yīng)速度和超寫(xiě)實(shí)圖像質(zhì)量。
?? 騰訊混元系列已形成完整的AIGC技術(shù)矩陣,涵蓋3D生成、定制化圖像生成等工具,推動(dòng)行業(yè)創(chuàng)新。
3、蘋(píng)果悄然研發(fā)ChatGPT式應(yīng)用,Siri即將重大改版
蘋(píng)果公司正在研發(fā)一款類似 ChatGPT 的 iPhone 應(yīng)用,用于測(cè)試 Siri 的重大改版。該應(yīng)用將提升 Siri 在個(gè)人數(shù)據(jù)搜索和操作方面的效率,同時(shí)增強(qiáng)其語(yǔ)音識(shí)別和理解能力,為用戶提供更智能、人性化的服務(wù)。
【AiBase提要:】
?? Siri 將通過(guò)新應(yīng)用提升搜索和操作能力,如查找歌曲和編輯照片。
?? 蘋(píng)果正在開(kāi)發(fā)類似 ChatGPT 的應(yīng)用,用于測(cè)試 Siri 的全新功能。
?? 未來(lái) Siri 的語(yǔ)音識(shí)別和理解能力將顯著提升,提供更自然的對(duì)話體驗(yàn)。
4、谷歌更新Gemini 2.5 Flash Lite,成為最快的專有模型
谷歌對(duì)Gemini系列大型語(yǔ)言模型進(jìn)行了重要更新,尤其是Gemini2.5Flash和Flash Lite,強(qiáng)調(diào)了速度和效率的提升。這些改進(jìn)展示了谷歌在AI領(lǐng)域的持續(xù)進(jìn)步,并為開(kāi)發(fā)者提供了更多靈活性。

【AiBase提要:】
?? Gemini2.5Flash Lite 成為最快的專有模型,輸出速度達(dá)每秒887個(gè) token。
?? 新模型在輸出質(zhì)量和成本效率上顯著提升,尤其是 Flash Lite 減少了50% 的輸出 token。
??? Gemini Live 的更新增強(qiáng)了語(yǔ)音助手的功能,提高了函數(shù)調(diào)用的準(zhǔn)確性和自然對(duì)話的能力。
5、蘋(píng)果推出新圖像模型 Manzano 實(shí)現(xiàn)理解與生成雙重能力
蘋(píng)果公司推出的 Manzano 圖像模型能夠同時(shí)處理圖像理解和生成,解決了當(dāng)前開(kāi)源模型在兩者之間選擇的難題。該模型采用混合圖像標(biāo)記器,減少了沖突,并在文本密集型任務(wù)中表現(xiàn)出色。

【AiBase提要:】
?? Manzano 是一種新型圖像模型,能夠同時(shí)進(jìn)行圖像理解和生成。
?? 蘋(píng)果的研究顯示,Manzano 在處理復(fù)雜文本任務(wù)時(shí)表現(xiàn)優(yōu)異,接近商業(yè)系統(tǒng)的水平。
?? 該模型采用混合圖像標(biāo)記器,減少了圖像理解與生成之間的沖突。
詳情鏈接:https://arxiv.org/abs/2509.16197
6、YouTube Music測(cè)試AI音樂(lè)主播功能:提供曲目故事和粉絲趣聞,正面迎戰(zhàn)Spotify AI DJ
YouTube Music正在測(cè)試AI音樂(lè)主播功能,為用戶播放的音樂(lè)提供相關(guān)故事、粉絲趣聞和評(píng)論解說(shuō)。這一功能是對(duì)Spotify AI DJ的回應(yīng),旨在提升用戶的沉浸式聽(tīng)覺(jué)體驗(yàn)。
【AiBase提要:】
?? YouTube Music推出AI音樂(lè)主播功能,為用戶提供音樂(lè)背后的故事和趣味內(nèi)容。
?? Spotify的AI DJ已提供語(yǔ)音評(píng)論,YouTube Music試圖通過(guò)類似功能進(jìn)行競(jìng)爭(zhēng)。
?? YouTube Labs向所有用戶開(kāi)放,但目前僅限部分美國(guó)用戶參與測(cè)試。
7、從粗糙幾何到逼真3D視頻:VideoFrom3D重塑圖形設(shè)計(jì)新紀(jì)元
文章介紹了VideoFrom3D框架,這是一種通過(guò)融合圖像和視頻擴(kuò)散模型來(lái)生成高度逼真且風(fēng)格一致的3D場(chǎng)景視頻的技術(shù)。該框架無(wú)需依賴昂貴的配對(duì)3D數(shù)據(jù)集,極大地簡(jiǎn)化了設(shè)計(jì)流程,提升了生成效率,并在復(fù)雜動(dòng)態(tài)場(chǎng)景下表現(xiàn)出色。

【AiBase提要:】
?? 稀疏錨視圖生成(SAG)模塊利用圖像擴(kuò)散模型,基于參考圖像和粗糙幾何,生成高質(zhì)量的跨視圖一致錨視圖。
?? 幾何引導(dǎo)生成插幀(GGI)模塊借助視頻擴(kuò)散模型,在錨視圖基礎(chǔ)上插值中間幀,實(shí)現(xiàn)流暢的運(yùn)動(dòng)和時(shí)間一致性。
?? VideoFrom3D無(wú)需依賴昂貴的配對(duì)3D數(shù)據(jù)集,極大簡(jiǎn)化了設(shè)計(jì)流程,讓設(shè)計(jì)師和開(kāi)發(fā)者能夠更高效地探索創(chuàng)意并快速產(chǎn)出高質(zhì)量成果。
詳情鏈接:https://kimgeonung.github.io/VideoFrom3D/
8、Moondream3.0發(fā)布,多項(xiàng)基準(zhǔn)測(cè)試超越了 GPT-5 等頂尖模型
Moondream3.0憑借其高效的混合專家架構(gòu)和輕量化設(shè)計(jì),在視覺(jué)推理能力上表現(xiàn)出色。它在多個(gè)基準(zhǔn)測(cè)試中超越了GPT-5、Gemini和Claude4等頂級(jí)模型,展現(xiàn)了強(qiáng)大的性能。此外,該模型支持開(kāi)放詞匯物體檢測(cè)、結(jié)構(gòu)化輸出以及多場(chǎng)景應(yīng)用,如安防監(jiān)控、醫(yī)學(xué)影像和文檔處理。開(kāi)源特性使其易于部署和使用,適合邊緣計(jì)算環(huán)境。

【AiBase提要:】
?? Moondream3.0采用高效混合專家架構(gòu),僅激活2億參數(shù),實(shí)現(xiàn)輕量化設(shè)計(jì)。
?? 支持開(kāi)放詞匯物體檢測(cè)和結(jié)構(gòu)化輸出,適用于多種復(fù)雜場(chǎng)景。
?? 開(kāi)源設(shè)計(jì),適合邊緣計(jì)算,開(kāi)發(fā)者可輕松解鎖其強(qiáng)大功能。
(舉報(bào))
