??????AI應用
Stability.ai發布開源文生圖模型SDXL Turbo
文生成圖AI平臺Stability.ai發布開源SDXL Turbo,圖像生成實時響應,僅需1秒。SDXL Turbo基于全新對抗擴散蒸餾技術(ADD),將生成步驟減至1-4步,保持高質量。性能測試顯示,SDXL Turbo在1步驟擊敗LCM-XL的4步驟和SDXL的50步驟。雖有局限,只能用于學術研究,生成512x512固定像素圖片,但技術突破可助中小企業低成本應用。

開源地址:https://github.com/Stability-AI/generative-models
在線體驗地址:https://clipdrop.co/stable-diffusion-turbo
論文地址:https://stability.ai/s/adversarial_diffusion_distillation.pdf
【AiBase提要:】
?? SDXL Turbo發布:Stability.ai宣布開源SDXL Turbo,實現文生成圖實時響應,1秒生成圖片。
?? 技術突破:基于對抗擴散蒸餾技術,SDXL Turbo將生成步驟從50減至1-4步,保持高圖像質量。
?? 應用范圍:雖局限于學術研究,SDXL Turbo技術突破可助中小企業以低成本進行圖像生成應用。
Pika Labs1.0版發布
AI初創公司Pika Labs正式發布了其令人印象深刻的AI視頻生成器的1.0版本,為視頻創作帶來了全新的體驗。

Pika Labs體驗網址:https://top.aibase.com/tool/pika-labs
【AiBase提要:】
Pika Labs發布1.0版AI視頻生成器,支持多種風格視頻創作。
Pika Labs成功融資5500萬美元,由知名投資者領投。
Pika Labs1.0支持用戶上傳視頻二次生成和編輯,而且還能局部編輯視頻內容
字節跳動ChitChop在海外上線
字節跳動推出的大模型產品“ChitChop”在海外上線,由POLIGON開發和運營,提供多達200+的智能機器人服務,支持創作、工作、AI畫畫、娛樂、AI學習和生活等六大場景,具備語音輸入和文件分析功能。

【AiBase提要:】
?? ChitChop是字節跳動的人工智能助理工具,提供200+智能機器人服務。
??? 產品支持創作、工作、AI畫畫、娛樂、AI學習和生活等六大場景。
??? ChitChop具備語音輸入功能,能自動識別語音內容,并可進行文件分析和討論。
??????AI新鮮事
OpenAI介入調查:GPT-4在編寫代碼上偷懶
GPT-4最新版本因偷懶不愿編寫完整代碼,用戶抱怨頻出,引起廣泛關注和調查。
【AiBase提要:】
?? GPT-4最新版本存在編寫代碼懶惰的問題,用戶反映在實際需求中難以得到滿足。
?? 用戶反饋GPT-4在解釋問題上花費過多時間,而不提供實際可運行代碼,引發不滿。
?? OpenAI已介入調查,并表示將借助用戶提供的例子加以改進。
法院判決AI生成圖片具備版權
北京互聯網法院首次就AI生成圖片領域著作權侵權案作出一審判決,認定AI生成的圖片具備獨創性和智力投入,應受著作權法保護,為該領域著作權保護樹立了重要判例。
【AiBase提要:】
??法院首次確認AI生成圖片具備獨創性和智力投入,應受著作權法保護。
??在創作過程中,法院強調智力投入主要來自人而非人工智能模型。
???判決對涉案圖片的智力成果、獨創性、作品性質及著作權歸屬等進行詳細解釋,對AI生成圖片領域著作權保護具有重要意義。
vivo S18系列將首批搭載藍心AI大模型
vivo宣布S18系列將成為首批采用AI大模型技術的手機,搭載自研藍心大模型,參數量級涵蓋十億、百億、千億。S18將采用驍龍7Gen3處理器,而S18Pro升級為天璣9200處理器。
【AiBase提要:】
?? 技術領先: vivo S18系列引領潮流,首批搭載覆蓋十億至千億參數級別的藍心AI大模型技術。
?? 卓越配置: S18搭載驍龍7Gen3處理器,曲面屏、超光感人像鏡頭,而S18Pro升級至天璣9200,支持Wi-Fi7等先進配置。
?? 全面布局: vivo不僅在硬件上創新,還推出了藍心小V助理和藍心千詢APP,拓展了基于AI大模型的應用場景。
谷歌搜索展示AI生成圖片替代了真實照片
最新報道指出,谷歌搜索結果中以色列傳奇歌手卡瑪卡維沃·奧萊的照片實際上是由人工智能生成的,引發了對搜索準確性的擔憂。
【AiBase提要:】
?? 谷歌搜索顯示卡瑪卡維沃·奧萊的照片實為AI生成,替代了真實照片。
?? 谷歌表示正在改進Knowledge Panels,但對問題尚未解決。
?? 網頁指責Google對AI生成的虛假信息回應不足,呼吁公司解決問題。
亞馬遜宣布推出新的人工智能芯片Trainium2
亞馬遜AWS推出新的人工智能芯片「Trainium2」,旨在構建和運行AI應用程序,同時深化與英偉達的合作,提供對Nvidia最新芯片的訪問。
【AiBase提要:】
?? 雙管齊下策略: 亞馬遜計劃推出Trainium2人工智能芯片,同時提供對Nvidia最新芯片的訪問,以滿足不斷增長的AI應用需求。
?? 性能提升: Trainium2芯片將使AI模型性能提高四倍,為公司如OpenAI、Databricks等提供更強大的訓練工具。
?? 多元選擇: 亞馬遜強調其云計算服務AWS的多元選擇,包括Graviton4處理器和Nvidia GPU,以滿足客戶對成本效益高的云服務的需求。
一男子用AI工具洗稿競爭對手文章 “竊取”數百萬的頁面瀏覽量
人工智能生成工具在SEO領域引發爭議,Content Growth創始人通過AI文本生成器成功竊取360萬流量,引發用戶質疑和道德擔憂。
【AiBase提要:】
?? 互聯網時代,強大的文本生成器如ChatGPT顛覆傳統SEO,引發人工智能生成內容浪潮。
?? Content Growth創始人通過AI文本生成器實施SEO“搶劫”,引發用戶強烈憤怒和道德質疑。
?? 使用Byword等人工智能生成器清洗現有內容,可能欺騙搜索引擎,呼吁對人工智能內容進行監管和審查。
麻省理工學院推GenSim項目:利用大語言模型編寫機器人新任務
麻省理工學院的“GenSim”項目利用大型語言模型如GPT-4,通過自動生成新任務或詳細說明所需行為的每個步驟,擴大了機器人可以接受培訓的仿真任務范圍,為機器人學習提供更廣泛的模擬任務。
【AiBase提要:】
?? MIT CSAIL的“GenSim”項目通過大型語言模型生成新任務或詳細說明機器人行為步驟,拓展了機器人在仿真任務中的培訓范圍。
?? GenSim系統具有目標導向和探索兩種模式,利用LLM生成任務描述和行為代碼,成功訓練機械臂執行新任務,如高速放置彩色積木。
?? 經過人類預訓練后,GenSim自動生成了100種新行為,相比手動編寫任務的基準測試,展示了在構思新型機器人活動方面的潛力。
亞馬遜推出AI聊天機器人Amazon Q
亞馬遜在re:Invent大會上發布了面向AWS客戶的AI聊天機器人「Amazon Q」,可提供廣泛的解決方案和操作建議,涵蓋業務智能、編程和配置等多個領域。
【AiBase提要:】
?? Amazon Q是面向AWS客戶的聊天機器人,起始價格每用戶每年20美元,能回答廣泛問題。
?? 可連接到各應用程序,學習企業各方面信息,生成內容,提供可視化選項。
?? 重視隱私,Q僅返回用戶有權查看信息,管理員可控制和過濾答案。
????????大模型動態
北大提出Chat-UniVi視覺語言大模型
Chat-UniVi是由北大和中山大學研究者提出的統一視覺語言大模型,在短短三天訓練內獲得130億參數,通過動態視覺token和密度峰聚類算法實現統一視覺表征,在多任務中表現卓越。

項目地址:https://github.com/PKU-YuanGroup/Chat-UniVi
【AiBase提要:】
?? 模型簡介: Chat-UniVi是北大和中山大學研究者提出的視覺語言大模型,僅需三天訓練即可獲得130億參數,實現統一的視覺表征。
?? 核心方法: 采用動態視覺token和密度峰聚類算法,大幅減少視覺token數量,提高模型性能,在多任務中超越其他大型模型。
?? 實驗成果: Chat-UniVi在圖片、視頻理解以及問答任務中表現卓越,使用更少的視覺token達到與其他大模型相媲美的性能水平,并開源了代碼、數據集和模型權重。
新加坡國立大學開源多模態語言模型 NExT-GPT
新加坡國立大學發布的開源多模態語言模型 NExT-GPT,通過處理文本、圖像、視頻和音頻等多樣化輸入,推動了多媒體人工智能應用的發展,為開發者提供強大支持。
【AiBase提要:】
?? 多模態能力: NExT-GPT 提供強大的多模態語言模型,能處理文本、圖像、視頻和音頻,拓展了人工智能應用領域。
?? 架構與訓練: 采用三層架構,包括線性投影、Vicuna LLM 核心和模態特定的轉換層,通過 MosIT 技術進行中間層訓練,降低訓練成本。
?? 開源貢獻: NExT-GPT 的開源使研究者和開發者能夠創建能夠無縫集成文本、圖像、視頻和音頻的應用,為多媒體人工智能應用提供了重要貢獻。
研究人員發布Starling-7B:基于AI反饋的大語言模型
UC伯克利發布基于AI反饋強化學習的Starling-7B大語言模型,采用RLAIF技術,在性能上媲美GPT-3.5,通過基準測試表現出色,邁向更人性化的應用。
項目網址:https://huggingface.co/berkeley-nest/Starling-LM-7B-alpha
【AiBase提要:】
?? RLAIF技術介紹: Starling-7B采用了基于AI反饋的強化學習,通過優化Openchat3.5和Mistral-7B而成。
?? 性能卓越: 在基準測試中,Starling-7B表現出色,對比其他模型性能提升引人矚目。
?? 邁向人性化: RLAIF主要改善了模型的實用性和安全性,未來計劃引入高質量的人工反饋數據,更好地滿足人類需求。
?????????聚焦開發者
Keras3.0正式發布
Keras3.0發布,全面支持TensorFlow、JAX和PyTorch,進行了全新的大模型訓練和部署功能引入,保持高度向后兼容性,為深度學習開發者提供更多選擇和工具。
【AiBase提要:】
?? 全面支持多框架: Keras3.0全面支持TensorFlow、JAX和PyTorch,使用戶可以選擇在不同框架上運行Keras工作流。
?? 大模型訓練和部署: 引入新的大模型訓練和部署功能,支持各種預訓練模型,保持高度向后兼容性,平滑過渡。
?? 跨框架數據pipeline: Keras3.0支持跨框架數據pipeline,包括分布式API,提高在大規模數據并行和模型并行方面的效率。
中國團隊開源大規模高質量圖文數據集ShareGPT4V
中國團隊開源了基于GPT4-Vision構建的圖文數據集ShareGPT4V,訓練了7B模型,涵蓋120萬條多樣性豐富的圖像-文本描述數據,在多模態性能上超越同級別模型,為多模態研究和應用提供了新的基石。

【AiBase提要:】
?? 數據集概要: ShareGPT4V基于GPT4-Vision構建,包含120萬條圖像-文本描述數據,涵蓋世界知識、對象屬性、空間關系、藝術評價等多方面。
?? 性能突破: 中國團隊的7B模型在多模態基準測試上表現優異,超越同級別模型,為多模態研究和應用提供有力支持。
??開源資源: 該數據集已開源,論文地址為
https://arxiv.org/abs/2311.12793,項目地址為https://github.com/InternLM/InternLM-XComposer/tree/main/projects/ShareGPT4V
上海AI實驗室、Meta聯合開發開源模型 可為人體生成3D空間音頻
上海AI實驗室與Meta合作推出的開源模型利用頭戴式麥克風和人體姿態信息,成功生成人體的3D空間音頻,為虛擬環境提供關鍵支持。

項目地址:https://github.com/facebookresearch/SoundingBodies
【AiBase提要:】
?? 技術突破: 上海AI實驗室與Meta的開源模型通過多模態融合,解決了音源位置未知和麥克風距離音源較遠等難題,成功實現了人體的3D空間音頻生成。
?? 局限性挑戰: 雖然取得了技術進展,但該模型僅適用于渲染人體音,難以處理非自由音場傳播環境,且計算量較大,難以在資源受限的設備上部署。
?? 開源模型鏈接: 項目地址為 https://github.com/facebookresearch/SoundingBodies,為虛擬現實領域的發展提供了新的可能性,但仍需進一步優化和拓展。
Real-ESRGAN-Video:將視頻清晰度提升至2K或4K
Real-ESRGAN-Video技術讓用戶輕松將視頻清晰度提升至2K或4K,通過簡化上傳和選擇清晰度的步驟,提供多種模型處理模式,特別適用于動畫視頻。測試結果顯示對相對清晰的視頻效果顯著,為提升視頻素材清晰度帶來新可能。
【AiBase提要:】
?? 清晰度提升: Real-ESRGAN-Video技術簡化步驟,讓用戶輕松將視頻清晰度提升至2K或4K。
?? 多模型支持: 提供多種處理模式,標準模型適用于大多數視頻,動畫專用模型更擅長處理動畫線條和顏色。
?? 測試驗證: 測試結果顯示在相對清晰的視頻上,提升效果顯著,尤其對動畫視頻的效果提升更為明顯。
(舉報)
