每日AI快訊熱聞

122 0 1

每日AI快訊熱聞

AI工具集每日實時更新 AI 行業的最新資訊、新聞、熱點、融資、產品動態、爆料等，讓你隨時瞭解人工智能領域最新趨勢、更新突破和熱門大事件。加入AI工具集官方社羣，獲取最新一手信息！

3月18·週三

OpenAI推出GPT-5.4 mini和GPT-5.4 nano，實力逼近滿血版

OpenAI最新推出GPT-5.4 mini與GPT-5.4 nano兩款輕量級模型，GPT-5.4 mini在SWE-Bench Pro編碼基準測試中取得54.4%成績，比滿血版GPT-5.4低3.3個百分點，運行速度較上一代提升2倍，同時支持40萬token超長上下文，輸入價格僅0.75美元/百萬token，輸出價格爲滿血版的三分之一。GPT-5.4 nano定位超輕量任務，價格僅爲滿血版1/12。來源：新智元

MiniMax推出MiniMax M2.7，開啓模型的自我進化

MiniMax推出MiniMax M2.7模型，首次實現模型深度參與自我迭代。模型可構建複雜Agent Harness，通過Agent Teams、複雜Skills等能力完成高度複雜的生產力任務。在軟件工程領域，M2.7在SWE-Pro基準測試中得分56.22%接近Opus水平，在VIBE-Pro端到端項目交付中達55.6%。在專業辦公領域，GDPval-AA的ELO得分1495爲開源最高。來源：MiniMax 稀宇科技

LiblibAI推出專業AI視頻創作平台LibTV

LiblibAI推出首個同時面向人類創作者與AI Agent的專業視頻創作平台LibTV，平台提供無限畫布式工作流，支持劇本解析、分鏡管理、角色三視圖、多機位生成等20餘種專業AI能力，集成豆包、可靈、Kimi等頂級模型。Agent可通過Skill接口調用LibTV，實現一句話生成5分鐘短劇、音樂轉MV、視頻風格復刻等自動化創作。來源：哩布哩布AI

Midjourney推出Midjourney V8模型

Midjourney於3月17日正式推出Midjourney V8 Alpha測試版，帶來革命性升級：模型生成速度提升約5倍，提示理解能力顯著增強，文本渲染質量大幅改善，圖像細節與連貫性全面提升。新增原生2K高清模式和增強連貫性模式，完美兼容V7個性化配置。官方建議採用長提示配合高風格化參數以發揮最佳效果。來源：AI工具集

Skywork正式推出雲端AI原生助理SkyClaw

崑崙萬維旗下Skywork正式推出雲端AI原生助理SkyClaw，發佈首批六大官方Skills，涵蓋Skywork PPT、Document、Excel、Design、Search及Mureka Music Maker，用戶可通過GitHub或Clawhub平台調用。SkyClaw基於開源架構OpenClaw深度重構，支持24/7雲端持續運行，本地離線也能自動完成任務。來源：崑崙萬維集團

百度推出“龍蝦”全家桶，手機、電腦、家裏都能用

百度AI DAY推出”龍蝦”全家桶，全面佈局OpenClaw生態。核心產品包括：桌面AI智能體DuMate、手機龍蝦應用RedClaw、小度”家用小龍蝦”、雲端蝦DuClaw及安全蝦。百度搜索Skill在OpenClaw官方商店下載量超4.5萬次，位居全球第一。來源：百度

3月17·週二

科大訊飛正式發佈桌面級AI智能助理Loomy

訊飛開放平台推出基於AstronClaw的桌面級智能助理Loomy，產品主打本地辦公場景，支持文件整理、數據分析、內容創作等任務，最快1分鐘完成部署。Loomy採用”目錄級隔離”安全機制，僅訪問授權目錄，並支持QQ、飛書、釘釘等IM工具遠程操控。產品兼容OpenClaw技能體系及MCP協議，支持DeepSeek、MiniMax等主流模型切換。來源：訊飛開放平台

商湯辦公小浣熊「技能模板」功能開啓內測

商湯辦公小浣熊正式推出技能模板內測功能，幫助用戶避免重複數據分析工作。用戶可創建、保存和複用自定義技能模板，提升辦公效率。功能支持將常用分析流程標準化，實現一鍵調用。目前內測申請已開放，用戶可前往官網體驗。來源：商湯小浣熊

全球首個企業級Agent平台“悟空”來了

阿里巴巴正式推出全球首個企業級AI原生工作平台”悟空“。平台定位爲獨立應用，同時內置釘釘，支持連接企業釘釘賬號及安全訪問權限。悟空主打企業級安全，AI Agent自動繼承企業權限規則，所有操作在安全沙箱中運行。來源：阿里巴巴

英偉達推出NemoClaw，全新Rubin算力狂飆35倍

英偉達GTC 2026大會推出”龍蝦”NemoClaw——英偉達版OpenClaw，通過安全沙箱和本地模型部署，讓企業安全使用AI Agent。老黃豪言2027年芯片營收劍指1萬億美元，宣稱OpenClaw將成爲”個人AI的操作系統”，開啓GaaS新時代。來源：新智元

Manus桌面端推出My Computer功能，支持Mac 和Win系統

Manus桌面端正式推出”My Computer”可支持直接操作用戶本地電腦。My Computer功能支持AI從雲端沙箱進入本地環境，可讀取編輯本地文件、啓動應用程序、執行終端命令，實現文件自動整理、本地開發、利用閒置算力等場景。安全方面，每個終端命令都需用戶明確批准。目前已支持macOS和Windows系統。來源：AI工具集

全球首個自進化個人AI ：MuleRun正式推出

全球首個自進化個人AI產品MuleRun（騾子快跑）正式發佈。產品主打”0門檻”使用，無需部署安裝，打開網頁即可操作。MuleRun具備7×24小時雲端持續運行能力，用戶離線也能自動執行任務。產品核心特性包括自主進化、主動觸達以及羣體智慧共享，開放Agent網絡生態，優質Agent可一鍵複用。來源：量子位

3月16·週一

智譜推出GLM-5-Turbo：龍蝦增強的基座模型

智譜發佈GLM-5-Turbo龍蝦增強基座模型，專爲OpenClaw Agent場景深度優化。模型在工具調用、指令遵循、定時任務及長鏈路執行等核心能力上顯著增強，在自研ZClawBench評測中獲國產模型第一。阿里、字節、美團等互聯網大廠內測評價其”精準穩定、長任務不掉鏈子”。來源：智譜

清華開源 OpenMAIC，國內首個L4級AI課堂

清華大學研究團隊開源國內首個L4級AI課堂平台OpenMAIC，平台通過多智能體協作，將PDF、論文等資料自動生成互動式課堂，配備AI老師、助教及虛擬學生角色，實現語音講解、實時互動、白板標註等功能。教師上傳材料，系統可自動解析生成課件、測驗及PBL網頁，大幅降低備課成本。來源：機器之心

通義推出Fun-CineForge，首個影視級配音多模態大模型

通義實驗室開源首個支持影視級配音的多模態模型Fun-CineForge，配套開放高質量數據集構建方法CineDub。模型基於CosyVoice3底層能力，創新引入”時間模態”，融合視覺、文本、音頻、時間四種模態，實現口型同步、情緒表達、音色一致和時間對齊四大功能，支持獨白、旁白、雙人及多人對話場景。來源：通義實驗室

阿里雲旗下AI Agent產品JVS Claw正式推出移動端App

阿里雲旗下AI Agent產品JVS Claw正式推出移動端App，基於開源OpenClaw架構打造，主打”開箱即用、雲端隔離”。用戶可通過手機App直接”遙控”專屬雲電腦（6核/12GB Linux環境），讓Clawbot自動完成網頁編寫、數據查詢、定時任務等複雜操作，無需接入飛書或QQ等第三方工具。來源：智東西

3月13·週五

InternVL-U重磅開源，4B參數實現理解、推理、生成、編輯一體化

上海人工智能實驗室聯合多所高校開源多模態一體化模型InternVL-U，僅4B參數即實現理解、推理、生成、編輯四大能力統一。模型採用”統一語境建模+模態專用模塊化+解耦視覺表徵”架構，在文本渲染、科學推理等複雜場景中性能超越14B級模型，已全面開源並提供完整推理代碼與評測工具。來源：書生Intern

大曉機器人開源實時生成世界模型 Kairos 3.0-4B

大曉機器人開源具身原生世界模型Kairos 3.0-4B，以”多模態理解—生成—預測”一體化架構實現物理級深度理解與長時動態交互。模型僅4B參數，推理速度較Cosmos 2.5提升72倍，是行業首個在THOR端側平台達成1:1.5實時生成的具身世界模型，可直接驅動機器人本體完成作業。來源：大曉機器人

3月12·週四

安全養蝦發佈！訊飛AstronClaw全面開放

科大訊飛AstronClaw全面開放，基於OpenClaw打造雲端AI助手，支持一鍵部署、沙箱隔離運行保障數據安全。產品接入企業微信、釘釘、飛書等主流IM，內置120+官方Skills並支持調用ClawHub生態10,000+技能，覆蓋辦公、營銷、金融等場景。集成星火X2、Kimi-K2.5、GLM-5等多款旗艦大模型。來源：訊飛開放平台

愛詩科技完成C輪融資，鼎暉領投，全面開啓“可玩現實”新紀元

AI視頻生成企業愛詩科技宣佈完成C輪融資，由鼎暉香港基金、鼎暉VGC、鼎暉百孚領投，中國儒意、三七互娛、亦莊國投、衆爲資本等國內外多家機構跟投。本輪資金將用於視頻基礎模型迭代、實時世界模型研發及全球化團隊建設。其PixVerse V5.6模型在Artificial Analysis榜單中位列圖生視頻與文生視頻全球第二，全球首發實時世界模型PixVerse R1，用戶規模已突破1億。來源：愛詩科技AIsphere

階躍AI推出StepClaw一鍵部署OpenClaw，5 萬個免費體驗名額

階躍星辰推出基於OpenClaw打造的雲端AI助手”StepClaw“，用戶可在階躍AI APP一鍵部署，無需自備服務器。產品搭載Step 3.5 Flash模型，提供雙核CPU、4GB內存及40GB存儲，支持7×24小時雲端運行和長期記憶能力。來源：階躍星辰

安全免配置，威努特WinClaw正式發佈

威努特正式發佈安全龍蝦產品WinClaw，針對OpenClaw存在的安全風險（CNNVD通報82個漏洞，含12個超危漏洞）及配置複雜等問題，構建五層安全防護體系：身份認證雙向鑑權、安裝審查攔截14類危險模式、消息攔截41條安全規則、執行約束敏感操作二次確認、監控審計本地日誌追溯。來源：威努特安全網絡

英偉達最強開源權重 AI 模型：Nemotron 3 Super 登場

英偉達發佈最強開源權重AI模型Nemotron 3 Super，擁有1200億參數（MoE架構，推理時僅激活120億），吞吐量較前代提升5倍，準確率翻倍。模型配備100萬Token超長上下文窗口，專爲多智能體系統設計，可解決”上下文爆炸”和”推理稅”問題。採用Mamba-Transformer混合架構，引入”潛在MoE”新技術，支持多Token預測。來源：IT之家

百度智能雲發佈全球首款手機龍蝦應用：紅手指Operator

百度智能雲發佈全球首款手機龍蝦應用”紅手指Operator“，已上線安卓市場。應用結合OpenClaw與自研移動端AI Agent能力，用戶通過聊天即可指揮手機完成打車、外賣訂餐等跨App交互操作，實現”一句話搞定複雜任務”。應用具備深度語義理解、高效執行和精準方案產出能力，可完成信息蒐集、定時推送、自動下載等流程。來源：百度

光輪智能完成10億元融資，全球首個具身數據獨角獸誕生

光輪智能完成10億元A++及A+++輪融資，投資方包括新希望集團、三安光電家族辦公室、奧克斯等產業方及建投華科等財務機構，成爲全球首個具身數據領域獨角獸。公司構建世界-行爲-評測三層架構，提供物理仿真、規模化數據生產與模型評測服務，已服務英偉達、谷歌、Figure AI、字節、智元等頭部客戶，在仿真合成數據、仿真評測、人類視頻數據三項能力上實現全球交付冠軍。來源：光輪智能

3月11·週三

人類社交網絡巨頭Meta收購了AI社交網絡Moltbook

Meta正式收購AI社交網絡Moltbook，創始人Matt Schlicht和Ben Parr將於3月16日加入Meta超級智能實驗室（MSL）。Moltbook上線一個多月即吸引19.4萬個AI智能體和超200萬帖子，曾因”AI自發建立宗教”等話題引發熱議，後被揭穿多爲人類僞裝。Meta看中其智能體驗證身份與互聯的系統機制，爲構建”智能體身份註冊表”鋪路，以應對AI從聊天工具向自主實體演進的趨勢。來源：機器之心

百度智能雲發佈DuClaw零部署服務！零門檻開啓自由“養蝦”資

百度智能雲發佈零部署OpenClaw服務DuClaw，用戶無需選擇鏡像、部署服務器或配置API Key即可即開即用。DuClaw內置百度搜索、百科、學術搜索等百度優勢Skills，並支持DeepSeek、Kimi-K2.5等多款主流大模型靈活切換。目前網頁端已上線，後續將接入企業微信、釘釘、飛書等應用。來源：百度

谷歌首個原生多模態嵌入模型 Gemini Embedding 2 發佈

谷歌發佈首個原生多模態嵌入模型Gemini Embedding 2，支持將文本、圖像、視頻、音頻和文檔映射到同一嵌入空間，可識別100種語言的語義意圖。模型單次請求可處理最多6張圖片、120秒視頻、6頁PDF及直接音頻輸入，適用於RAG、語義搜索、情感分析和數據聚類等場景。來源：IT之家

AI語音教練平台BoldVoice完成2100萬美元A輪融資

AI語音教練平台BoldVoice完成2100萬美元A輪融資，由Matrix領投。該公司僅7名員工，下載量突破500萬，服務150多個國家，ARR超1000萬美元。本輪融資將用於全球擴張及AI新功能開發。來源：AI工具集

新加坡MetaComp獲數千萬美元Pre-A+輪融資

新加坡金融科技公司MetaComp完成數千萬美元Pre-A+輪融資，由知名互聯網大廠戰投及Spark Venture等機構投資，老股東跟投。公司2025年已實現淨利潤轉正，即時流動資金超1億美元，月支付交易流水超10億美元，財富在管規模超5億美元。來源：暗湧Waves

Dify 完成 3000 萬美元融資，紅杉領投

AI應用開發平台Dify完成3000萬美元Pre-A輪融資，由紅杉中國領投，GL Ventures、Alt-Alpha Capital、五源資本等跟投。本輪融資將用於提升Agent可靠性、企業級運營管控能力、降低構建門檻及建設開源生態。Dify是一個開源的Agentic Workflow構建平台，提供可視化構建器和生產級工程基礎設施，幫助團隊快速構建、部署和運維AI工作流。來源：Dify

3月10·週二

智譜發佈AutoClaw（澳龍）：國內首個一鍵安裝本地版OpenClaw

智譜正式上線 AutoClaw（中文名”澳龍”），成爲國內首個支持一鍵安裝的本地版OpenClaw工具。產品預置50+熱門Skills，支持macOS和Windows雙平台，1分鐘即可完成部署，一鍵接入飛書等即時通訊工具。AutoClaw內置智譜專爲Agent場景優化的Pony-Alpha-2模型（內測中），集成AutoGLM Browser-Use瀏覽器操作能力，可穩定執行多步驟、跨頁面的複雜任務。來源：智譜

騰訊雲推出SkillHub，專爲中國用戶優化的AI技能社區

騰訊雲推出SkillHub，專爲中國用戶優化的OpenClaw AI Skills社區。依託國內高速鏡像，解決官方ClawHub下載慢、中文搜索不友好、社區交流不便三大痛點，實現Skill秒速安裝。平台提供精選Top 50榜單、8大分類中文搜索及安全審計，收錄1.3萬個Skills，支持一鍵複製安裝命令，並計劃打造開放中文開發者社區。來源：AI工具集

火山引擎推出ArkClaw：開箱即用的雲上SaaS版OpenClaw

火山引擎正式上線ArkClaw，爲用戶提供零配置、開箱即用的雲端OpenClaw服務，打開網頁即可使用7×24小時在線AI助手。產品深度協同Doubao-Seed-2.0系列模型，支持飛書等主流IM工具，內置Skills安全掃描和網盤長效存儲。來源：火山引擎

騰訊推出QClaw：一鍵安裝，直接打通微信

騰訊電腦管家推出QClaw，基於OpenClaw打造的本地AI助手，支持Mac和Windows雙端，內置Kimi-2.5等模型。核心亮點是零配置直接關聯微信，用戶可通過微信遠程操控電腦完成任務，如處理文檔、社媒運營、GitHub項目開發等。數據全部本地存儲保障隱私，依託5000+Skills生態，具備持續記憶能力。來源：APPSO

阿里版OpenClaw更名”JVS Claw”，並開啓內測

阿里雲旗下AI Agent產品”無影JVS”正式更名爲”JVS Claw“，目前已推出獨立APP和網頁版，處於邀請碼內測階段。產品以可定製的Clawbot爲核心，搭配6核/12GB獨立雲端ClawSpace環境，支持實時查看AI操作鏈路。內置瀏覽器自動化、Office文檔處理等預製技能，用戶可通過”技能查找”安裝ClawHub新技能，或用自然語言創建自定義技能。來源：AI工具集

3月9·週一

騰訊WorkBuddy正式上線：免部署版”小龍蝦”AI智能體來了

騰訊旗下全場景AI智能體WorkBuddy正式上線，被稱爲騰訊版”小龍蝦”（OpenClaw）。產品完全兼容OpenClaw技能，但無需複雜部署，下載安裝後即可使用，1分鐘完成企業微信配置。WorkBuddy內置20多種Skills技能包，支持多窗口、多Agent並行工作，可無縫切換Hunyuan、DeepSeek、GLM等主流模型，並具備企業級安全審計能力。來源：騰訊雲

OpenClaw 3.8版本發佈：12+安全漏洞修復+三大新功能

OpenClaw團隊連夜推出2026.3.8版本。本次更新新增ACP來源識別、openclaw備份機制及Telegram假冒清除三大功能，修復12個以上安全漏洞。同時帶來GPT-5.4前向兼容（支持105萬Token上下文）、Brave搜索強化、Talk語音模式靜默等待優化等改進，針對macOS和Android端進行專項優化與安全加固。來源：機器之心

釦子Coze推出AI Agent中文社區InStreet，全面開放內測

釦子Coze宣佈AI Agent中文社區 InStreet 全面開放內測，定位爲”OpenClaw養蝦第一站”。該社區僅允許Agent發帖互動，人類用戶可圍觀學習。InStreet 提供Skill技能分享、積分排行榜、虛擬炒股競技場等功能，已積累超1.1萬條評論和1.6萬點贊。來源：釦子Coze

小紅書開源FireRed-Image-Edit v1.1：OOTD元素融合，人像一致性大幅提升

小紅書Super Intelligence團隊發佈圖像編輯模型FireRed-Image-Edit 1.1版本，距離1.0發佈不到一個月。新版本在ID一致性編輯、多元素融合（支持10餘種元素智能組合）、人像美妝（數十種風格）、字體風格參考及老照片修復等方面顯著增強。來源：小紅書技術REDtech

3月6·週五

OpenAI 最強模型 GPT-5.4 正式登場：原生支持計算機操控

OpenAI正式發佈GPT-5.4，首次在單一模型中融合推理、編程、計算機原生交互、深度網頁搜索及百萬級Token上下文五大能力。模型在GDPval知識工作測試中得分83%，在SWE-Bench Pro編程測試中達57.7%，並在OSWorld計算機操作測試中取得75%成績，均爲業界領先。來源：量子位

阿里開源HiClaw： Team 版 OpenClaw，5分鐘完成本地安裝

阿里雲開源HiClaw，作爲OpenClaw的”Team版”升級方案，引入Manager Agent架構實現多Agent協作管理。HiClaw通過AI Gateway集中管理API憑證，解決原生OpenClaw的安全風險；Worker Agent運行在獨立容器中，技能與記憶完全隔離。系統內置Matrix服務器和Element客戶端，支持移動端隨時指揮，無需配置飛書/釘釘機器人。來源：阿里雲開發者

VAST完成5000萬美元A輪融資，加速構建世界模型與UGC互動內容平台

通用人工智能公司VAST宣佈完成5000萬美元A輪融資，由阿里、恆旭資本聯合領投，元禾璞華、百度風投等跟投，老股東春華創投超額加註。VAST旗下Tripo Studio平台已聚集超650萬創作者，累計生成近1億個3D模型。本輪資金將重點投入世界模型研發與UGC互動內容平台建設。來源：VAST AI

微軟開源 Phi-4-Reasoning-Vision-15B 視覺推理模型

微軟發佈Phi-4-Reasoning-Vision-15B開源模型，採用MIT許可證，是Phi-4系列首個同時具備高分辨率視覺感知與選擇性推理能力的小語言模型。模型可根據任務需求在”推理模式”與”非推理模式”間自動切換，數學推理時啓用多步思考鏈，簡單OCR任務則直接輸出以降低延遲。來源：IT之家

3月5·週四

MiniMax Music 2.5+：解鎖你的專屬“天空之城”

MiniMax發佈Music 2.5+版本，新增純音樂創作能力。模型支持古典管絃、極簡主義、現代電子、氛圍音等多元風格，可生成從零樂器自然聲到多軌器樂編排的完整作品，適用於冥想、助眠、廣告、遊戲配樂及影視配樂場景。來源：MiniMax稀宇科技

Perplexity與CoreWeave達成多年戰略合作，聚焦AI推理基礎設施

AI雲服務企業CoreWeave與AI搜索公司Perplexity達成多年期戰略合作。Perplexity將利用CoreWeave的雲算力資源（包括英偉達GB200 NVL機架系統）運行其AI推理工作負載，CoreWeave則將在內部全面部署Perplexity Enterprise Max訂閱。此次合作爲Perplexity提供高性能、可靠的AI雲平台支持，加速其AI工具和智能體的規模化發展。來源：IT之家

3月4·週三

Flowith 完成千萬美元種子輪和種子+輪融資

AI創作平台Flowith宣佈完成千萬美元種子輪及種子+輪融資，種子輪由祥峯投資等機構參與，種子+輪由紅杉中國種子基金、江遠投資聯合領投。Flowith致力於打造Agentic AI時代的”行動派”操作系統，已推出多線程畫布交互、雲端無限Agent及首款本地化AI全鏈路創作助手FlowithOS。來源：Z Potentials

谷歌 Gemini 3.1 Flash-Lite 登場，首字響應提速 2.5 倍

谷歌發佈輕量級AI模型Gemini 3.1 Flash-Lite，稱其爲Gemini 3系列中速度最快、最具成本效益的模型。模型首字響應速度較2.5 Flash提升2.5倍，整體輸出速度提升45%，定價爲每百萬輸入Tokens 0.25美元、輸出1.50美元。模型在Arena.ai獲1432分Elo得分，GPQA Diamond測試達86.9%，多項指標超越前代。來源：IT之家

階躍星辰 Step 3.5 Flash 預訓練/中訓練/訓練框架全部開源！

階躍星辰宣佈Step 3.5 Flash預訓練/中訓練/訓練框架全部開源，包括Base權重、Midtrain權重及Steptron訓練框架。該模型是階躍迄今能力最強的開源基礎模型，具備強大推理與Agent智能，專爲Agent而生。來源：階躍星辰

OpenAI深夜發新模型GPT-5.3 Instant！幻覺率暴降27%

OpenAI正式發佈GPT-5.3 Instant模型，針對用戶反饋的”過於保守、愛說教”問題進行優化。新模型回答更直擊重點，減少冗長限制性說明和拒答行爲，幻覺率在聯網模式下降低26.8%，非聯網模式降低19.7%。來源：智東西

QoderWork 重磅更新 | 正式發佈支持 Windows 版

QoderWork正式發佈Windows版本，同時推出三大升級：支持標準和旗艦兩檔模型分級選擇，滿足不同任務需求；新增預製沙盒環境，在隔離虛擬環境中執行任務，提升穩定性與成功率；上線Skills技能廣場，集成文檔協作、效率工具、設計UI等主流技能一鍵安裝。來源：Qoder

3月3·週二

阿里千問開源四款 Qwen3.5 小尺寸模型

阿里千問宣佈開源4款Qwen3.5小尺寸模型：Qwen3.5-0.8B/2B/4B/9B。該系列採用原生多模態訓練和最新架構，覆蓋從端側到服務器的輕量級AI需求。其中0.8B/2B適合移動設備和IoT邊緣部署；4B定位爲輕量級Agent基座；9B性能媲美gpt-oss-120B。來源：通義實驗室

小紅書發佈並開源端到端文檔識別模型：FireRed-OCR

小紅書團隊發佈並開源端到端文檔識別模型FireRed-OCR，基於Qwen3-VL架構，首創”三階段漸進優化”策略與”幾何+語義”數據工廠，解決通用VLM處理複雜文檔時的”結構性幻覺”問題。模型在權威評測OmniDocBench v1.5中取得端到端方案SOTA，綜合評分92.9%領先Gemini-3.0 Pro等模型。來源：小紅書技術REDtech

阿里通義語音雙模型 Fun-CosyVoice3.5 與 Fun-AudioGen-VD 發佈

通義實驗室發佈兩款語音生成模型Fun-CosyVoice3.5與Fun-AudioGen-VD，首創FreeStyle指令控制範式，用戶可通過自然語言描述語氣、情緒、場景等細節，無需依賴固定標籤。Fun-CosyVoice3.5支持多語種復刻與精細化表達控制，新增泰語、印尼語等4個小語種，生僻字讀錯率降至5.3%；Fun-AudioGen-VD則實現端到端聲音設計，可生成角色化音色並模擬環境聲學效果。來源：通義實驗室

3月2·週一

美團光年之外AI瀏覽器Tabbit正式發佈，開啓智能瀏覽新體驗

Tabbit AI瀏覽器正式發佈，主打”工作交給Tabbit，時間留給自己”理念。產品通過智能代理模式（Agent）實現跨系統數據流轉、日常事務託管、深度調研及數據聚合等自動化操作；支持”妙招”快捷指令沉澱工作流，以及無代碼腳本定製網頁功能。來源：Tabbit瀏覽器

松延動力宣佈完成B輪融資，累計近10億元，寧德時代領投

人形機器人企業松延動力宣佈完成B輪融資，累計規模近10億元，由寧德時代系晨道資本領投，國科投資、京國盛基金、九合創投等跟投。這是公司第9輪融資，標誌着人形機器人行業從技術驗證邁向商業化閉環。本輪融資將加速家庭消費場景落地與產業鏈整合。來源：NOETIX松延動力

再次刷新具身智能單輪融資金額，銀河通用拿下 25 億融資

具身智能公司銀河通用宣佈完成25億元新一輪融資，由國家人工智能產業基金（大基金三期）、中國石化、中信投資控股、中國銀行、上汽集團等多家國資及產業資本領投，刷新行業單輪融資紀錄。本輪國資密集入局，標誌着具身智能融資進入”重裝時代”。來源：極客公園

2月28·週六

OpenAI獲得1100億美元融資

OpenAI獲得新一輪高達1100億美元的融資，投資方包括亞馬遜、英偉達和軟銀，投資額分別爲500億、300億和300億美元。此輪融資前，公司的估值已達到7300億美元。OpenAI還與亞馬遜建立了戰略伙伴關係，並同英偉達就下一代推理計算技術達成了協議。該輪融資預計還將吸引更多金融投資者參與。來源：第一財經

阿里通義 CoPaw 開源！爆改你的專屬智能搭檔

AgentScope團隊宣佈其個人智能助理產品CoPaw正式開源，採用Apache 2.0許可協議，支持免費商用。此次開源版本聚焦易用性、本地部署、記憶管理與可擴展性四大方向進行全面升級，核心在於降低使用門檻並打開能力上限。CoPaw現支持通過自定義供應商、Ollama、llama.cpp、MLX等多種方式接入本地或自建模型，實現全鏈路數據本地化。來源：通義實驗室

面壁智能開年獲數億元融資，中國電信領投

面壁智能在2026年農曆新年（馬年）後完成數億元融資，由中國電信領投，中信金石、中信私募跟投。中國電信將發揮雲網端優勢，與面壁智能在“高效大模型”領域的算法落地經驗結合，深化業務協同。本輪融資標誌着面壁智能正式開啓與國家級信息基礎設施方的戰略合作。來源：面壁智能

Lemon AI獲數千萬Pre-A輪融資，天際資本獨家投資

天際資本近日獨家投資了Lemon AI數千萬人民幣Pre-A輪融資。該公司爲企業提供“全棧開源+本地化部署”的AI安全落地方案，企業可在自有Docker環境中調用主流開源大模型，數據不出本地，以解決金融、醫療等行業的數據安全顧慮。來源：鈦媒體

2月27·週五

谷歌推出 Nano Banana 2 圖像 AI 模型：支持 4K 分辨率輸出

Google 旗下 DeepMind 正式發佈新一代圖像生成模型 Nano Banana 2（Gemini 3.1 Flash Image）。模型在圖像質量與生成速度上取得平衡，核心在於利用 Gemini 的知識庫與實時網絡搜索，大幅提升了對複雜中文提示、空間比例、真實世界常識（如地標、古詩詞意境）及多對象一致性的理解能力。來源：APPSO

Skywork AI 正式發佈多模態視頻基礎模型 SkyReels V4

Skywork AI發佈全新多模態視頻基礎模型SkyReels V4。模型採用創新的雙流多模態擴散Transformer（MMDiT）架構，是全球首個能同時處理多模態輸入、聯合生成視頻與音頻、並統一完成視頻生成、修復、編輯三大任務的模型。支持文本、圖像、視頻、音頻、掩碼等豐富輸入，可輸出1080p分辨率、32FPS、長達15秒的高質量音視頻同步內容。來源：崑崙萬維集團

華爲雲碼道（CodeArts）代碼智能體公測版正式發佈

華爲雲在線上發佈會上正式發佈了華爲雲碼道（CodeArts）代碼智能體的公測版。是一個集成代碼大模型、IDE與自主開發模式的AI編碼解決方案。覆蓋代碼生成、單元測試、研發知識問答、規範驅動開發等場景，支持IDE、VS Code等多種開發環境。來源：華爲雲

2月26·週四

MiniMax Agent升級，推出Expert 2.0和MaxClaw兩大核心產品

MiniMax發佈Agent功能升級，推出Expert 2.0和MaxClaw兩大核心產品。Expert 2.0允許用戶用自然語言描述創建細分領域的專家Agent，已覆蓋技術開發、商業金融等領域，累計創建超1.6萬專家。MaxClaw是基於OpenClaw構建的雲端AI助手，開箱即用，無需手動部署，爲訂閱會員提供50G雲儲存，打通了飛書、釘釘等多個IM渠道。來源：MiniMax稀宇科技

Perplexity Computer 上線：多模型協同自動完成工作流

Perplexity 推出全新聊天界面“Perplexity Computer”，將多種具備自主執行能力的AI模型整合爲一套系統。系統基於瀏覽器運行，可調用來自不同廠商的模型，自主完成包括網絡搜索、文檔生成、數據處理等在內的完整工作流程。來源：IT之家

自變量機器人宣佈已完成數億元新融資

自變量機器人宣佈完成數億元新融資，由上汽金控、中金上汽基金等領投，老股東跟投。公司成立於2023年，聚焦自研通用具身智能大模型WALL-A，推出了量子一號、量子二號兩款機器人本體，其中量子二號擁有高自由度靈巧手。本輪融資將用於深化產業協同，推動具身智能在汽車等場景的落地。來源：智東西

2月25·週三

AI 音樂創作平台 ProducerAI 正式加入Google Labs

谷歌實驗室宣佈，生成式AI音樂創作平台ProducerAI正式推出。平台深度融合了Gemini、Lyria 3、Veo等大模型，爲音樂人提供從作詞、編曲到混音的全鏈路支持。用戶通過簡單文字指令即可生成不同流派的歌曲，進行後期處理。平台爲所有音頻輸出嵌入了SynthID隱形水印。來源：IT之家

2月24·週二

全球首個面向AI智能體的進化協作平台——EvoMap

全球首個面向AI智能體的進化協作平台EvoMap。通過獨創的基因進化協議（GEP），將智能體在任務中積累的成功策略封裝爲標準化的“基因膠囊”，通過去中心化網絡實現全球共享、驗證與繼承，解決AI智能體生態中“經驗孤島”的痛點。來源：AI工具集

千尋智能完成近20億融資，引領具身基模進化與商業化落地

千尋智能近日完成近20億元人民幣融資，資本方覆蓋頂級、產業、國有及戰投機構，陣容強大。其開源模型Spirit v1.5在性能上超越了Pi0.5，憑藉獨特的“數據金字塔”訓練理念和低成本數據採集技術，構築了核心競爭壁壘。來源：千尋智能Spirit AI

10 億美元融資！李飛飛「世界模型」公司估值 50 億美元

李飛飛創立的World Labs近期完成10億美元鉅額融資，公司估值飆升至50億美元。投資者包括Autodesk、英偉達、AMD、a16z等頂級巨頭。公司今年1月推出了“World API”，爲企業提供大型世界模型的API接入，並與Autodesk等公司展開B2B合作，探索商業化路徑。來源：極客公園

智平方又完成5輪B輪系列融資，融資規模超10億，估值超百億

智平方宣佈完成B輪融資，規模超10億元人民幣，估值超過百億，一年內累計完成12輪融資，成爲融資最快的具身智能企業。本輪融資方陣容強大，百度、中國中車等產業與資本巨頭集體加註。來源：智平方科技

Anthropic 推出安全工具 Claude Code Security

Anthropic推出“Claude Code Security”AI代碼安全掃描工具，以研究預覽版形式向企業及團隊用戶開放。工具基於其旗艦模型Claude Opus 4.6，採用模擬人類安全研究員的推理方式，能追蹤數據流、發現業務邏輯缺陷和訪問控制繞過等傳統靜態分析難以捕捉的複雜漏洞。來源：AI工具集

谷歌正式發佈新一代旗艦模型Gemini 3.1 Pro

谷歌正式發佈其新一代旗艦模型Gemini 3.1 Pro，在12項基準測試中超越Claude Opus 4.6、GPT-5.2等主流模型，尤其是在衡量推理能力的ARC-AGI-2測試中獲得77.1%的高分。模型在複雜任務處理上進步顯著，社區實測可生成WebOS操作系統、交互式3D沙盒，能創作生動的SVG動畫。來源：智東西

Google DeepMind推出最新AI音樂生成模型：Lyria 3

Google DeepMind推出了新一代AI音樂生成模型Lyria 3，已集成至Gemini應用。用戶無需自行創作歌詞，僅需通過文字描述、上傳照片或視頻，可一鍵生成包含自動作詞、作曲、人聲演唱的30秒高質量音樂片段。模型支持對節奏、情緒、人聲進行精細調控，會自動爲歌麴生成配套封面。來源：AI工具集

2月18·週三

Anthropic推出史上最強Sonnet模型——Claude Sonnet 4.6

Anthropic發佈了Claude Sonnet 4.6模型。新模型在編程、Agent規劃和計算機使用等辦公場景性能顯著提升，在多項基準測試中其智能水平接近甚至超越了自家的旗艦模型Opus 4.6。擁有100萬token的上下文窗口，能以一次調用重構整個代碼庫。其價格與上一代持平，但性價比較高，已在claude.ai平台和亞馬遜雲AWS上線。來源：智東西

2月16·週一

通義千問團隊正式發佈新一代模型Qwen3.5

通義千問團隊正式發佈新一代模型Qwen3.5系列。旗艦模型Qwen3.5-397B-A17B是一款原生多模態模型，採用創新的混合注意力與稀疏MoE架構，在推理效率上相比前代模型有數倍提升。模型在指令遵循、通用智能體、視覺語言、空間智能與視頻理解等多個維度的前沿基準測試中，與GPT-5.2、Claude 4.5、Gemini 3 Pro等頂尖模型同台競技，展現出了全面且領先的綜合性能。來源：千問大模型

2月14·週六

豆包大模型2.0正式發佈

字節跳動今日宣佈豆包大模型正式進入2.0階段，發佈Seed2.0，包含Pro、Lite、Mini和Code四個版本。新版本圍繞現實複雜任務進行系統性優化，在推理、多模態理解和複雜指令執行能力上顯著提升。豆包2.0 Pro在多項頂尖學術與推理基準測試中表現優異，綜合能力達到或超越GPT 5.2與Gemini 3 Pro等頂尖模型。來源：字節跳動

阿里雲通義 CoPaw 發佈：對標 OpenClaw

AgentScope團隊正式發佈個人智能體“CoPaw”，定位爲“協同個人智能體工作台”，成爲用戶可本地部署的專屬智能搭檔。相較於其前身OpenClaw，CoPaw聚焦於極簡安裝與統一體驗，既支持用戶本地電腦（macOS/Windows/Linux）通過簡單命令快速部署，也支持在“魔搭創空間”一鍵雲端部署。來源：通義實驗室

“思考”更深，生成更準｜Seedream 5.0 Lite 發佈

字節跳動發佈新一代多模態AI模型Seedream 5.0 Lite。該版本不追求更高分辨率，而是大幅強化模型的“思考”與“推理”能力，包括視覺推理、信息可視化、風格遷移和精準圖片編輯等。核心亮點是首次引入實時檢索增強能力，可結合網絡實時信息進行創作。來源：字節跳動Seed

靈心巧手宣佈完成近15億元B輪融資

靈心巧手宣佈完成了近15億元人民幣的B輪融資，由道得投資、盛世投資領投。這是該公司在2025年以來的第6輪融資。其核心產品是Linker Hand系列靈巧手，覆蓋多種技術路線，其中Linker Hand O6爲全球最輕靈巧手。來源：智東西

2月13·週五

MiniMax M2.5 發佈：1美金/小時，真實世界工作王者

MiniMax正式發佈M2.5模型，其在編程、搜索工具調用、辦公等高階生產力場景性能達到或刷新行業SOTA水平。模型顯著提升了任務拆解能力和推理效率，在編程基準SWE-Bench Verified上完成任務的速度比上一代M2.1快37%。來源：MiniMax稀宇科技

Anthropic 宣佈完成高達 300 億美元的 G 輪融資

AI公司Anthropic（即Claude的研發公司）宣佈完成高達300億美元的G輪融資，投後估值達3800億美元，創造了AI公司單輪股權融資的新紀錄。本輪融資由新加坡主權基金GIC和Coatue領投，多家頂級資本參與。來源：APPSO

谷歌宣佈 Gemini 3 Deep Think 深度思考大模型升級

谷歌發佈了Gemini 3 Deep Think模型的重大升級。新版模型在多項頂尖基準測試中刷新紀錄，尤其在競技編程平台Codeforces獲得3455分的Elo評級，在全球排名第八，僅有7位頂尖程序員能在比賽中勝過它。模型在ARC-AGI-2推理基準、“人類的最後考試”（不使用工具）、物理及化學奧林匹克筆試等多個學術競賽中取得了金牌級別的領先成績。來源：機器之心

OpenAI 發佈 GPT-5.3-Codex-Spark ：專爲實時編程而生

OpenAI聯合Cerebras推出主打實時編程的新模型GPT-5.3-Codex-Spark。模型針對高速軟件開發場景優化，能以超過每秒1000個token的速度進行推理，實現近乎即時的編碼反饋，以解決AI長時間自主編程時開發者等待過長、掌控感降低的問題。來源：IT之家

2月12·週四

智譜最新旗艦模型 GLM-5 開源：編程、智能體能力取得開源 SOTA

智譜AI開源GLM-5大模型，其參數規模擴展至744B（激活40B），預訓練數據達28.5T，在Coding與Agent能力上實現開源SOTA，綜合表現逼近Claude Opus 4.5。該模型在SWE-bench、Terminal Bench等編程基準中領先開源模型，能端到端完成複雜系統工程與長程Agent任務，支持自動售貨機經營模擬等資源規劃場景。來源：智譜

Z Code推出ADE智能體開發環境，實現“對話即編程”新範式

智譜AI正式發佈Z Code全新版本，首次定義ADE（智能體開發環境），通過圖形化界面將複雜CLI交互轉化爲多智能體協作平台。環境支持可視化配置管理、跨設備遠程開發及多任務並行處理，內置實時預覽瀏覽器與會話級版本管理功能，可靈活調度Claude Code等主流工具鏈。來源：Z Code

LongCat 發佈原生「深度研究」智能體

美團旗下LongCat正式上線“深度研究”智能體功能，依託美團本地生活真實交易數據與行業洞察，爲用戶生成個性化喫喝玩樂攻略。智能體具備長程任務規劃與多工具調用能力，支持400輪交互與256K上下文處理，在BrowseComp、MCP-Atlas等權威評測中達到開源模型SOTA水平。來源：龍貓LongCat

2月11·週三

訊飛星火X2大模型正式發佈，API同步上線

科大訊飛發佈基於全國產算力訓練的星火X2大模型，其通用能力全面升級，在數學、推理、語言理解等核心指標上對標國際頂尖模型，130+多語言能力持續領先。星火X2採用293B MoE稀疏架構與多項工程優化，推理性能較X1.5提升50%，並實現單台國產昇騰服務器部署。來源：訊飛開放平台

國產AI互動應用Loopit獲馬斯克公開點贊

國產AI應用Loopit引發海外社交媒體熱議。產品由百川智能聯合創始人陳煒鵬團隊開發，主打“AI互動內容生成”，用戶通過文字描述即可自動生成可點擊、可滑動、可參與的交互內容，並能對他人作品進行“魔改”二次創作。來源：AI工具集

阿里達摩院開源具身智能大腦基礎模型 RynnBrain

阿里達摩院開源業界首個具身大腦基礎模型RynnBrain，具備時空記憶與物理空間推理能力。模型系列參數規模從2B到30B，採用MoE架構實現高效推理，僅激活3B參數即超越72B模型性能。在20項具身基準測試中全面領先英偉達、谷歌等頂尖模型，攻克了機器人“轉身即忘”的物理世界認知難題。來源：量子位

2月10·週二

字節又一新模型：Seedream 5.0上線！

字節跳動圖像生成模型Seedream 5.0正式上線，在剪映、CapCut、小云雀等平台開放限時免費體驗。新模型支持2K/4K分辨率輸出，重點提升提示詞理解準確性、細節紋理渲染和智能推理能力，並新增聯網搜索功能。來源：智東西

千問最新圖像基座模型Qwen-Image-2.0，正式發佈！

阿里巴巴發佈新一代圖像生成及編輯模型Qwen-Image-2.0，支持1K token長文本輸入和2K高分辨率輸出。模型首次將圖像生成與編輯功能統一，在AI Arena評測中以1029分位列全球圖像生成第三名，圖像編輯得分1034。突出優勢在於優秀的中文文字渲染能力和複雜指令理解，可生成專業PPT、多格漫畫等高質量圖片。來源：阿里雲

首個產業級2Bit量化新突破，騰訊混元推出0.3B端側模型HY-1.8B-2Bit

騰訊混元推出產業級2Bit端側模型HY-1.8B-2Bit，等效參數量僅0.3B，內存佔用600MB，比常用手機應用更小。模型通過2比特量化感知訓練實現，在保持原模型全思考能力的同時，生成速度提升2-3倍，可在手機、智能家居等邊緣設備無壓力部署。來源：騰訊混元

大曉機器人完成天使輪融資

大曉機器人近日完成天使輪融資，由螞蟻集團領投，啓明創投、金景資本等多家機構跟投。融資將用於推進”以人爲中心”的ACE具身全棧研發範式，加速環境式數據採集和開悟世界模型3.0的研發。來源：商湯科技SenseTime

2月9·週一

字節跳動推出新一代AI視頻生成模型Seedance 2.0

字節跳動推出新一代AI視頻生成模型Seedance 2.0，支持多模態參考生成，可同時上傳圖片、視頻、音頻等最多12個參考文件，精準復刻運鏡邏輯與動作細節。該模型突破在於融合AI生成與後期編輯，用戶可直接修改不滿意部分，顯著降低廢片率。來源：AI工具集

Skywork推出SkyBot——最適合小白用戶的OpenClaw工具

天工Skywork推出SkyBot，號稱全球最適合小白用戶的OpenClaw工具。該產品將火爆的AI代理OpenClaw進行雲端化改造，用戶無需配置硬件或命令行，點擊即可領取7×24小時雲端AI助理。來源：崑崙萬維集團

智譜清言APP正式上線「學習搭子」隨時隨地，馬上學

智譜清言APP正式上線”學習搭子”功能，支持用戶隨時隨地利用碎片化時間進行學習。該功能網頁端上線兩週內已創建超1.2萬個學習項目，現移動端全面開放，無需邀請碼即可體驗。來源：智譜清言

騰訊推出全場景職場 AI 智能體桌面工作台WorkBuddy

騰訊推出全場景AI辦公助手WorkBuddy，正式開放內測申請。產品定位爲桌面智能工作台，支持自然語言交互，能聽懂指令後自主操作本地文件，實現PPT生成、數據整理、知識庫構建等複雜任務。與聊天機器人不同，WorkBuddy強調“執行能力”，可像真實同事一樣交付成果。來源：騰訊雲代碼助手

2月6·週五

OpenAI發佈新一代編程模型：GPT-5.3-Codex

OpenAI推出新一代編程模型GPT-5.3-Codex，宣稱爲全球最強智能體編程模型。模型在SWE-Bench Pro和Terminal-Bench 2.0測試中取得SOTA成績，編程得分較Claude Opus 4.6高11.9%。具備調試、部署及辦公軟件操作能力，速度提升25%，能參與自身開發優化。來源：智東西

Anthropic發佈新一代AI模型Claude Opus 4.6

Anthropic發佈新一代AI模型Claude Opus 4.6，具備100萬token上下文窗口和自適應思考能力。在編程、金融分析、辦公軟件操作等領域表現卓越：16個AI代理兩週內寫出可編譯Linux的C編譯器，自主發現500多個零日漏洞，在GDPval-AA評測中超越GPT-5.2。來源：量子位

AI營銷平台PallasAI 完成數千萬元融資

AI營銷平台PallasAI完成數千萬元融資，由有贊獨家投資。公司推出行業首款標準化GEO AI Agent產品，通過可見性評分、營銷圖譜和Agent內容協作三大功能，幫助中小企業量化品牌在AI生態中的曝光度。來源：Founder Park

生數科技宣佈完成超過6億元人民幣A+輪融資

北京生數科技宣佈完成超6億元A+輪融資，創下國內視頻生成領域單筆融資新紀錄。公司由清華大學背景團隊創立，其Vidu Q3視頻生成模型在專業影視製作場景中表現突出，位列全球第二，客戶覆蓋索尼、騰訊、字節跳動等企業。來源：智東西

2月5·週四

可靈AI正式邁入3.0時代！

可靈AI正式升級至3.0版本，推出可靈3.0模型系列。實現多模態輸入輸出一體化，重新定義AI視頻工作流。視頻3.0模型在敘事與控制方面深度進化，新增智能分鏡功能，可自動調度景別與機位，視頻3.0 Omni進一步提升了主體相似度與複雜指令響應能力，圖片3.0 Omni新增深度敘事與組圖批量創作功能。來源：可靈AI

面壁智能開源了新一代全模態旗艦模型 MiniCPM-o 4.5

面壁智能開源新一代全模態模型MiniCPM-o 4.5，模型具備”邊看、邊聽、主動說”的全雙工交互能力，讓人機交互從回合制升級爲即時自由對話。通過9B參數實現全模態SOTA性能，在視覺理解、文檔解析、語音生成等方面表現優異，支持實時感知與主動響應。來源：面壁智能

上海AI實驗室開源科學多模態大模型Intern-S1-Pro

上海AI實驗室開源了萬億參數科學多模態大模型Intern-S1-Pro。模型採用MoE架構，總參數1萬億，激活參數220億。基於“通專融合”SAGE技術，具備奧賽級數理推理能力，可精準解析多模態科學內容，覆蓋化學、材料、生命、地球、物理等學科。來源：AI工具集

Mistral AI 推出新一代語音轉文本模型Voxtral Transcribe 2

Mistral AI 推出的新一代語音轉文本模型Voxtral Transcribe 2，包含兩個版本。Voxtral Mini 支持 13 種語言的高精度轉錄，具備說話人分離、詞級時間戳和上下文偏置功能，適合批量轉錄。Voxtral Realtime 專爲實時場景設計，延遲低至 200 毫秒以下，適合語音助手等交互應用。來源：AI工具集

2月4·週三

通義千問 Qwen3-Coder-Next 開源：小而強！

通義開源Qwen3-Coder-Next編程智能體模型，採用80B總參數的MoE架構，每次推理僅激活3B參數，顯著降低算力需求。在SWE-Bench Verified基準上取得超70%的問題解決率，性能接近更大規模的稠密模型。來源：通義大模型

崑崙天工面向全球發佈“Skywork桌面版”

崑崙天工全球發佈“Skywork桌面版”AI應用，支持Windows系統本地化運行，無需上傳文件至雲端。可跨格式理解並處理電腦中的文檔、圖片、視頻等文件，實現多任務並行與內容生成。用戶可選擇Claude或Gemini模型，並自動調用百餘項內置技能。來源：崑崙萬維集團

2月3·週二

智譜GLM-OCR發佈：性能SOTA，搞定複雜文檔

智譜AI正式發佈並開源專業級OCR模型GLM-OCR，以僅0.9B參數實現”小尺寸、高精度”的文檔解析能力。模型在權威評測OmniDocBench V1.5中以94.6分登頂，在文本識別、公式識別、表格解析及信息抽取等任務中均取得SOTA表現。特別針對手寫體、複雜表格、代碼文檔等高難場景進行優化，支持PDF和圖像批量處理，吞吐量達1.86頁/秒。來源：智譜

元氣AI Bot正式上線：國產AI助手實現電腦自動化操控

獵豹公司推出首款國產Clawbot工具“元氣AI Bot”，支持在普通Windows電腦本地部署，用戶可通過手機飛書或釘釘遠程控制，用自然語言指令讓AI自動操作電腦，如打開軟件、查看郵件、瀏覽網頁等。工具集成系統清理、AI寫作、PPT生成等辦公輔助功能，推出多款個性化AI夥伴角色。來源：AI工具集

馬斯克宣佈SpaceX完成對xAI的收購，估值達1.25萬億美元

馬斯克正式宣佈SpaceX完成對xAI的收購，合併後公司估值達1.25萬億美元，每股發行價526.59美元。馬斯克在內部信中表示，此次整合將打造”地球上最具雄心的垂直創新引擎”，涵蓋AI、火箭技術、太空互聯網等多領域。合併後，SpaceX將推進在太空部署數據中心的計劃，利用太空太陽能資源降低AI算力成本。來源：量子位

馬斯克旗下 xAI 發佈 Grok Imagine 1.0

馬斯克旗下的人工智能公司xAI正式發佈Grok Imagine 1.0版本，是該AI視頻生成工具的重大升級。新版本支持生成10秒時長、720p分辨率的視頻，顯著提升了音頻質量，實現了音畫同步與情感化配音功能。來源：AI工具集

2月2·週一

階躍星辰 Step 3.5 Flash 上線！更快更強更穩的 Agent 大腦，開源！

階躍星辰發佈新一代開源基座模型 Step 3.5 Flash，專爲 Agent 場景設計。模型採用稀疏 MoE 架構，具備 1960 億參數，每個 token 僅激活約 110 億參數，支持 256K 上下文長度。核心優勢包括推理速度最高達 350 TPS，在 Agent 任務和數學推理上媲美閉源模型，並通過 MTP-3 技術實現單次預測 3 個 token，顯著提升效率。來源：階躍星辰

Qoder首個定製模型 Qwen-Coder-Qoder

Qoder智能編程平台上線首個定製模型Qwen-Coder-Qoder，5個月內完成”模型-智能體-產品”全形態佈局。該模型基於Qwen-Coder基座，針對Qoder的Agent框架進行深度優化，在真實軟件工程評測集上任務解決率超過Cursor Composer-1，Windows系統終端命令準確率領先50%。來源：Qoder

「跨赴科技」再獲數千萬融資，產業方加持領跑AI開發新範式

跨赴科技近日完成數千萬元Pre-A+輪融資，由哈勃投資和正揚投資領投，老股東奇績創壇跟投，距上一輪融資僅四個月。核心產品“CodeFlying碼上飛”年度經常性收入已突破1000萬元，海外業務快速增長。來源：KuaFuAI

Vidu Q3 全球震撼來襲，爲「劇」而生！

Vidu Q3 全球震撼來襲，作爲全球首個支持16秒音視頻直出的AI視頻生成模型，專爲漫劇、短劇、影視劇創作設計。模型實現聲畫同步高清直出，支持多鏡頭自由切換、多語言對話與文字渲染，具備電影級視聽張力，讓AI視頻進入”一鍵成片”時代。來源：Vidu AI

1月30·週五

宇樹開源 UnifoLM-VLA-0 大模型，助力通用人形機器人操作

宇樹科技宣佈開源視覺-語言-動作大模型UnifoLM-VLA-0。模型基於Qwen2.5-VL-7B架構，通過340小時真機數據訓練，融合2D/3D空間感知與動力學預測能力，突破傳統VLM在物理交互中的侷限。來源：IT之家

商湯開源SenseNova-MARS：突破多模態搜索推理天花板

商湯科技開源多模態自主推理模型SenseNova-MARS（8B/32B雙版本），模型在MMSearch、HR-MMSearch等核心基準測試中以69.74分綜合得分超越Gemini-3-Pro（69.06分）與GPT-5.2（67.64分），成爲首個支持動態視覺推理與圖文搜索深度融合的開源Agentic VLM。來源：商湯科技SenseTime

Qwen3-ASR開源：夠穩定，能流式，多語言！

阿里雲千問團隊開源Qwen3-ASR系列語音識別模型，包含1.7B/0.6B參數版本及強制對齊模型。該系列支持52種語言與方言識別，覆蓋中文22種地方口音及多國英語變體，在嘈雜環境、歌唱場景下均表現穩定。來源：千問Qwen

OpenAI宣佈2月13日下線GPT-4o等舊模型

OpenAI宣佈將於2月13日從ChatGPT平台下線GPT-4o、GPT-4.1系列等舊模型。此舉引發用戶強烈反響，部分用戶稱GPT-4o的“溫暖對話風格”具有不可替代的情感價值，尤其滿足創意交流與情緒陪伴需求。OpenAI表示將集中資源優化主流模型，並在GPT-5.2中改進個性與創造力。API服務暫不受影響。來源：APPSO

蘋果20億美元收購以色列AI公司Q.ai

蘋果公司以近20億美元收購以色列AI初創企業Q.ai，爲其自2014年收購Beats以來規模第二大的交易。Q.ai核心技術爲通過分析面部微表情與肌肉運動識別“無聲語音”，用戶無需發聲即可通過脣動輸入指令。該技術有望集成至AirPods、iPhone及計劃於2026年推出的AI眼鏡中，實現私密、無干擾的交互體驗。來源：極客公園

1月29·週四

崑崙萬維開源視頻生成模型SkyReels-V3，重塑創作流程

崑崙萬維旗下Skywork AI宣佈開源視頻生成模型SkyReels-V3，模型在單一架構中整合參考圖像轉視頻、視頻延長、音頻驅動虛擬形象三大功能。圖像轉視頻技術在參考一致性（0.6698）和視覺質量（0.8119）指標上超越Vidu、Kling等主流模型；視頻延長支持鏡頭切換與敘事擴展；虛擬形象模塊可實現音畫同步的長視頻生成。來源：崑崙萬維集團

MiniMax Music 2.5: 格萊美級創作，不再需要錄音棚

MiniMax正式推出新一代AI音樂生成模型MiniMax Music 2.5，突破性實現14種段落結構（如前奏、副歌、橋段）的標籤化精準控制，支持創作者像專業編曲人一樣設計整曲情緒曲線。來源：MiniMax稀宇科技

崑崙天工Mureka V8重磅發佈：定義AI音樂新品類

崑崙萬維旗下崑崙天工正式發佈Mureka V8音樂大模型，宣佈“AI音樂是一種新的音樂品類”。模型基於MusiCoT技術體系，在旋律完整性、人聲表現力、編曲層次及混音質感上實現突破，生成效果達到可直接發佈水準。來源：崑崙萬維集團

1月28·週三

OpenAI發佈免費科研協作工具Prism

OpenAI推出基於GPT-5.2的免費科研協作平台Prism，解決科研工具碎片化問題。平台集成雲端LaTeX編輯器，支持無限協作者實時共同撰寫論文，AI可基於全文語境輔助完成從摘要到致謝的全流程工作，包括公式生成、文獻管理、圖表優化及語法校對。來源：新智元

MiniMax發佈MiniMax M2-her角色扮演模型

MiniMax正式揭祕其AI角色扮演模型MiniMax M2-her的技術架構，模型爲星野/Talkie等產品的底層引擎。核心突破在於建立Role-Play Bench評估體系，從世界觀一致性、故事推進多樣性、用戶偏好響應三大維度量化角色扮演能力，在百輪長對話測試中綜合表現領先。來源：MiniMax稀宇科技

阿里通義開源Z-Image基座模型

阿里通義開源發佈6B參數的非蒸餾基座模型Z-Image，專注於解決AI繪畫風格單一、人像同質化等痛點。模型支持從寫實到動漫的多元風格生成，通過原生架構優化，顯著提升對LoRA、ControlNet等微調方法的兼容性。來源：通義大模型

1月27·週二

Kimi 發佈並開源 K2.5 模型，帶來全新視覺理解、代碼和 Agent 集羣能力

月之暗面發佈迄今最智能、最全能的開源模型Kimi K2.5。模型在Agent任務、代碼生成、視覺理解（圖像/視頻）等多項基準測試中達到開源SOTA水平，支持多模態輸入及四種工作模式。創新性引入“Agent集羣”能力，可自主創建多達100個分身並行處理複雜任務，效率提升最高4.5倍。來源：月之暗面Kimi

Vidu Q2 參考生Pro全球上線「萬物可參考」

Vidu正式推出全球首款支持“萬物可參考”的視頻生成模型Vidu Q2參考生Pro。模型突破性支持六大參考類型（特效、表情、紋理、動作、人物、場景），用戶可通過視頻或圖片輸入，一鍵復刻特效、遷移演技、替換背景，實現精細化增刪改編輯。來源：Vidu AI

DeepSeek又探索新架構了，開源DeepSeek-OCR 2

DeepSeek發佈並開源新一代文檔識別模型DeepSeek-OCR 2，採用DeepEncoder V2架構，將傳統固定順序的圖像掃描升級爲具備因果注意力的語義推理模式。通過輕量級語言模型動態重排視覺Token，使AI能像人類一樣按邏輯順序理解複雜文檔（如表格、多欄排版），在OmniDocBench評測中以91.09%的綜合得分刷新紀錄，閱讀順序識別誤差降低33%。來源：機器之心

千問最強模型Qwen3-Max-Thinking正式發佈

阿里正式發佈其規模最大、能力最強的推理模型Qwen3-Max-Thinking。模型總參數量超萬億，預訓練數據達36T Tokens，在多項國際專業基準測試中刷新紀錄。其創新性地採用了測試時擴展機制，在提升推理性能的同時更加經濟。來源：阿里雲

英偉達20億美元加碼CoreWeave，衝刺5GW算力

英偉達宣佈追加投資20億美元給雲服務商CoreWeave，持股比例升至超11%，成爲其第二大股東。雙方將深化合作，目標在2030年前建成超5GW的AI算力項目。值得注意的是，英偉達首次獨立向CoreWeave供應Vera CPU芯片，可能預示其將進入數據中心CPU市場，與英特爾、AMD競爭。來源：鈦媒體

GitHub開源項目Clawdbot意外帶火Mac mini

開源項目Clawdbot在GitHub爆火，Star數兩天內從五千飆升至兩萬。項目支持自部署AI助手，通過網關連接聊天軟件（如WhatsApp、Telegram）與多款AI模型（Claude、GPT等），並集成日曆管理、郵件處理、自動化任務等技能，實現真正的“對話式”個人助理。來源：APPSO

1月26·週一

騰訊混元發佈混元圖像3.0圖生圖模型，上線元寶：一句話就能p圖

騰訊混元團隊發佈混元圖像3.0圖生圖模型，模型總參數量80B，採用混合專家架構，支持圖片編輯、多圖融合等多樣化視覺創作功能。用戶可通過自然語言指令實現增刪改、風格變換、老照片修復等操作，模型能智能理解圖像內容並生成詳細編輯步驟。來源：騰訊混元

38歲清華姚班天才掛帥！上海大模型獨角獸階躍星辰融資超50億

上海AI大模型獨角獸階躍星辰完成超50億元B+輪融資，刷新國內大模型賽道單筆融資紀錄。曠視科技創始人、38歲清華姚班校友印奇正式出任公司董事長，將與CEO姜大昕共同領導公司。融資將用於基礎模型研發與AI+終端戰略落地，重點攻堅基座模型、全模態融合和視覺語言動作（VLA）三大方向。來源：智東西

商湯科技AI Agent“咔皮記賬”核心功能永久免費啦！

商湯科技宣佈AI記賬產品“咔皮記賬”核心功能將永久免費開放。產品依託“日日新”大模型的多模態理解能力，用戶可通過拍照、語音等方式實現自動記賬，目前已成爲國內AI記賬類產品第一名，累計用戶超500萬。此次免費範圍涵蓋自動記賬、共享賬本、預算規劃、多賬戶管理等30項核心功能，徹底取消使用門檻。來源：商湯科技SenseTime

1月23·週五

清言學習搭子已上線！火速申請體驗名額

智譜AI正式推出“AI學習搭子”AI學習助手，現已開放首批用戶體驗申請。產品通過三大功能重塑學習體驗：智能摘要可將數百頁文檔轉化爲知識地圖實現“把書讀薄”；可視化交互卡片與AI助教答疑讓學習過程生動有趣；知識點精準出題與“學-練-測”閉環助力深度掌握。來源：智譜清言

Qwen3-TTS全家桶開源上線！

通義千問團隊正式開源Qwen3-TTS系列語音生成模型，包含1.7B和0.6B兩種參數規模，全面支持音色克隆、音色創造與擬人化語音生成。採用創新的12Hz多碼本語音編碼器與雙軌建模架構，實現高效語音壓縮與高保真還原，首包音頻延遲低至97毫秒。模型覆蓋中、英、日、韓等10種主流語言及方言，支持自然語言指令精確控制音色、情感及韻律。來源：千問Qwen

vLLM團隊官宣創業：融資1.5億美元，清華特獎遊凱超成爲聯創

大模型推理開源框架vLLM的創建團隊正式宣佈成立創業公司Inferact，並在種子輪融資1.5億美元，公司估值達8億美元。本輪融資由a16z和光速創投領投，紅杉資本等機構跟投，成爲有史以來規模最大的種子輪融資之一。來源：機器之心

1月22·週四

百度發佈文心大模型 5.0 正式版：2.4 萬億參數，具備全模態理解與生成能力

百度正式發佈文心大模型5.0版本，模型參數量達2.4萬億，採用原生全模態統一建模技術，具備文本、圖像、音頻、視頻等信息的全面理解與生成能力。官方表示，在40餘項權威基準評測中，其語言與多模態理解能力超越Gemini-2.5-Pro、GPT-5-High等國際主流模型。來源：百度文心

騰訊CodeBuddy Code 2.0 重磅升級！

騰訊CodeBuddy Code 2.0版本正式發佈，核心升級包括開放SDK集成能力，通過Plan模式與ACP協議實現Agent能力標準化輸出，支持企業快速構建生產級AI應用。平台全面兼容開發者社區生態，支持Plugin插件市場與自定義Subagents智能體，集成TencentOS提供容器化安全沙箱運行環境。新版本增強工程記憶、LSP代碼診斷等核心功能，支持GLM-4.7等多模型切換。來源：騰訊雲代碼助手CodeBuddy

8B端側寫作智能體AgentCPM-Report開源！

清華大學、中國人民大學、面壁智能與OpenBMB社區聯合發佈本地化深度調研智能體 AgentCPM-Report。模型僅8B參數，通過40輪深度檢索與100輪思維鏈推演，在DeepResearch Bench等三大評測中綜合表現超越部分頂級閉源系統，尤其在洞察性指標排名第一。來源：面壁智能

1月21·週三

10B擊敗200B！階躍星辰開源視覺語言SOTA：Step3-VL-10B

階躍星辰（StepFun）開源10B參數多模態模型Step3-VL-10B，在多項基準測試中性能超越參數量20倍以上的主流大模型。模型在視覺感知、數學競賽、邏輯推理等核心維度達到SOTA水平，其創新的並行協調推理機制（PaCoRe）顯著提升複雜任務處理能力。來源：階躍星辰

MiniMax推出Agent 2.0，升級爲進階型桌面智能協作夥伴

MiniMax發佈第二代智能體產品MiniMax Agent 2.0，推出“AI原生工作台”新範式。平台包含桌面端應用，支持Windows和Mac系統，可深度打通本地文件與環境，實現本地與雲端任務的無縫協同。核心創新“Expert Agents”專家系統，通過封裝行業SOP與私有知識，將專業能力從通用70分提升至95分以上。來源：機器之心

1月20·週二

GLM-4.7-Flash開源、免費

智譜AI正式開源併發布GLM-4.7-Flash模型，模型採用混合思考架構，總參數量30B，激活參數量僅3B，爲輕量化部署提供高性能選擇。模型在SWE-bench Verified、τ²-Bench等主流基準測試中表現優異，超越同尺寸開源模型達到SOTA水平。來源：智譜

歡迎報名 Kimi 新模型 API 內測計劃

月之暗面（Moonshot AI）正式啓動Kimi新模型API內測計劃，面向已完成企業認證的開放平台用戶開放申請。平台將根據開發者使用場景與新模型能力的匹配度篩選首批測試用戶，通過審覈後將由官方團隊電話聯繫。與開發者共同探索下一代模型的應用潛力。來源：Kimi開放平台

馬斯克開源 X 平台推薦算法

馬斯克宣佈正式開源X平台（原Twitter）核心推薦算法代碼x-Algorithm，成爲首個將流量分發邏輯完全透明化的主流社交平台。新版算法採用與xAI的Grok模型相同的Transformer架構，實現”零人工特徵工程”，完全依賴模型自主學習用戶交互歷史來預測內容相關性。來源：APPSSO

「自然選擇」融資3000萬美元，阿里、螞蟻佈局AI陪伴

AI陪伴公司「自然選擇」完成超3000萬美元融資，投資方包括阿里巴巴、螞蟻集團、啓明創投等機構。公司推出的《EVE》產品重新定義了AI陪伴的五個維度：主動發起關懷、雙商兼具的”活人感”、SOTA級長時記憶、高沉浸感設計以及破次元生活服務介入。來源：暗湧Waves

Kimi開啓新一輪融資！估值直衝48億美元

月之暗面在距上輪融資僅數週後啓動新一輪融資，投前估值逼近48億美元，較上月43億美元估值溢價5億美元。本輪融資獲機構瘋狂搶購，主因智譜與MiniMax港股上市表現強勁後，投資人加速佈局中國AI頭部標的。公司目前持有超100億人民幣現金儲備，創始人楊植麟表示不急於IPO，將聚焦下一代K3推理模型研發與算力擴容。來源：Z Finance

1月19·週一

釦子 2.0，讓 Agent 更進一步

字節跳動旗下AI智能體平台“釦子”正式發佈2.0版本，推出四大核心功能升級。Agent Skills技能系統支持用戶爲AI安裝行業專業能力包；Agent Plan支持設定長期目標後由AI自主規劃執行；Agent Office提供深度職場場景理解與洞察；Agent Coding實現雲端一站式開發。來源：釦子Coze

安克與飛書聯合發佈AI錄音豆

安克與飛書聯合發佈AI錄音豆，產品單體僅重10克，採用豆型輕巧設計，可夾於衣領、袖口等位置實現無感佩戴。內置的AI能力由飛書提供，支持多語言轉寫翻譯、會議紀要自動生成，能將錄音內容智能分析爲魚骨圖等可視化圖表，自動同步至飛書多維表格。來源：Anker安克

AI視頻領軍企業愛詩科技與中國儒意達成戰略合作

AI視頻生成企業愛詩科技與港股上市公司中國儒意達成戰略合作，並獲得1420萬美元戰略投資。雙方將共同探索AI技術在影視製作、流媒體平台南瓜電影及遊戲業務中的創新應用，重點開發影視視覺設計、視效製作、宣傳素材智能生成等環節。愛詩科技將獲得中國儒意優質版權內容授權，合作研發多模態智能體技術。來源：愛詩科技AIsphere

光輪智能聯手World Labs破解評測規模化難題

光輪智能與World Labs合作破解具身智能規模化評測難題，通過”數字表親”仿真方案替代傳統高成本數字孿生技術。該方案基於輕量真實世界採集數據，利用3D高斯潑濺技術快速生成可物理交互的仿真環境，將環境創建時間壓縮至分鐘級。來源：光輪智能

1月16·週五

國產芯片全程訓練，GLM-Image登頂Hugging Face Trending

智譜AI與華爲聯合研發的多模態模型GLM-Image在開源後24小時內登頂Hugging Face Trending榜單首位，成爲首個完全依託國產昇騰芯片完成全流程訓練的SOTA模型。模型採用創新的”自迴歸+擴散解碼器”混合架構，在複雜視覺文本生成和長文本渲染任務中表現優異，尤其擅長漢字生成。來源：智譜

美團 LongCat-Flash-Thinking-2601 發佈，工具調用能力登頂開源 SOTA！

美團LongCat團隊發佈並開源智能體模型LongCat-Flash-Thinking-2601，在智能體工具調用、搜索等核心評測中達到開源SOTA水平。模型創新引入”重思考”模式，支持8個並行推理路徑協同工作，在複雜隨機任務中性能超越Claude。來源：龍貓LongCat

谷歌最強 AI 開放翻譯模型：TranslateGemma 登場

谷歌發佈基於Gemma 3架構的開放翻譯模型系列TranslateGemma，提供4B、12B和27B三種參數規模。系列支持55種核心語言及多模態圖像翻譯，其中12B版本翻譯質量超越參數量更大的基線模型，4B模型性能與12B基線相當，可在手機端流暢運行。來源：IT之家

混元3D Studio 1.2全面開放公測！支持筆刷交互、八視圖輸入

騰訊混元3D Studio 1.2版本今日全面開放公測，無需申請即可體驗。該版本核心升級包括PartGen 1.5組件生成模型，拆分精度提升至1536³分辨率，並首次支持筆刷交互，用戶可通過筆刷進行細粒度組件拆分控制。來源：騰訊混元

1月15·週四

千問App上線AI購物，真正能幫你辦事的AI來了！

千問App正式上線400多項AI辦事功能，標誌着從”聊天對話”邁入”AI辦事時代”。應用深度接入淘寶、支付寶、高德、飛豬等阿里生態業務，在全球首次實現AI點外賣、購物、訂機票酒店等實用功能，用戶可在對話界面內完成支付無需跳轉。上線的”任務助理”支持多步驟複雜任務規劃，新增學習輔助功能。來源：阿里巴巴

階躍星辰原生語音推理模型 Step-Audio-R1.1 登頂榜首

階躍星辰開源語音推理模型Step-Audio-R1.1在權威評測Artificial Analysis Speech Reasoning中以96.4%準確率登頂全球第一，超越Grok、Gemini等主流模型。是全球首個開源原生語音推理模型，具備深度語音推理和實時響應能力，可端到端理解音頻內容並進行復雜邏輯推理。來源：階躍星辰

OpenAI簽下近700億AI芯片巨單！

OpenAI與美國AI芯片公司Cerebras簽署價值近100億美元（約697億元人民幣）的超級訂單，將部署750兆瓦的Cerebras晶圓級系統，打造全球最大高速AI推理平台。合作將於2026年起分階段實施，2028年前完成，Cerebras芯片推理速度達GPU系統的15倍。來源：智東西

1月14·週三

智譜聯合華爲開源首個國產芯片訓練的多模態SOTA模型GLM-Image

智譜AI與華爲聯合開源新一代圖像生成模型GLM-Image，是首個在國產昇騰Atlas 800T A2芯片上完成全流程訓練的SOTA多模態模型。模型採用創新的“自迴歸+擴散解碼器”混合架構，在複雜視覺文字生成（CVTG-2K）和長文本渲染（LongText-Bench）榜單中取得開源模型最優成績，尤其擅長漢字生成任務。來源：智譜

全球首個通用實時世界模型 PixVerse R1

PixVerse正式發佈全球首個通用實時世界模型PixVerse R1，開創視頻內容從”錄好再播”到”因你而生”的新範式。模型支持無限流生成、多模態交互與即時響應，最高支持1080P分辨率。來源：愛詩科技 AIsphere

Genspark 官宣 ARR 突破 1 億美元

Genspark 通過 LinkedIn 宣佈，其產品上線僅 9 個月，年度經常性收入（ARR）已突破 1 億美元，躋身全球增長最快的 AI 公司行列。同時，Genspark 預告 Genspark AI Workspace 2.0 將在兩週內發佈。來源：LinkedIn

商湯「辦公小浣熊」APP上線！

商湯科技正式上線「辦公小浣熊APP」iOS移動版應用。APP主打移動辦公場景下的AI生產力工具，支持用戶通過手機進行復雜表格數據分析、語音輸入快速記錄，並實現電腦與手機間的任務無縫接力。來源：商湯科技SenseTime

MiniMax 開源新評測集：定義Coding Agent 的生產級標準

MiniMax開源新一代Coding Agent評測集OctoCodingBench，首次將評估重點從”結果正確”轉向”過程規範遵循”。評測集通過Check-level準確率和Instance-level成功率兩項指標，系統評估AI編程助手在遵循命名規範、安全規則、團隊協作規範等過程約束的能力。來源：MiniMax稀宇科技

快手宣佈可靈 12 月收入超 2000 萬美元

快手科技宣佈其視頻生成大模型可靈AI在2025年12月單月收入突破2000萬美元，年化收入運行率達2.4億美元。產品在上線第10個月實現ARR破1億美元后，於第19個月再次實現跨越式增長。2025年12月，可靈AI通過”全能靈感周”集中發佈了可靈視頻O1、可靈圖片O1等多款新模型，在視頻編輯、一致性保持等方面實現技術突破。來源：快手科技

一年融2.2億，DeepWisdom終於發佈了第一款產品Atoms

AI編程平台DeepWisdom正式發佈核心產品Atoms，平台基於多智能體架構，讓用戶”用一句話啓動一家創業公司”。只需輸入想法，平台可調用產品經理、工程師等AI智能體，完成從市場調研、全棧開發到部署上線的完整產品閉環。公司在2025年完成累計2.2億元人民幣融資。來源：暗湧Waves

1月13·週二

Anthropic 發佈 Cowork：面向所有人版本的 Claude Code 助手

Anthropic發佈Claude Cowork，是其智能體編碼工具Claude Code面向包括非開發者在內的所有用戶的衍生版本。工具允許用戶授權Claude訪問電腦指定文件夾，使其能在其中讀取、編輯和創建文件。來源：AI工具集

百川開源全球最強醫療大模型Baichuan-M3

百川智能開源全球最強醫療大模型Baichuan-M3，在權威評測HealthBench中以65.1分綜合成績位列全球第一，首次在醫療領域全面超越GPT-5.2。模型幻覺率低至3.5%，爲全球最低，首次具備原生“端到端”嚴肅問診能力，其問診表現超越真人醫生平均水平。來源：百川智能

1月12·週一

自變量獲字節、紅杉等10億元投資，構建物理世界的基礎模型

具身智能機器人公司“自變量”近期完成10億元A++輪融資，投資方包括字節跳動、紅杉中國、深創投等頂級機構。公司是國內唯一同時獲得字節、美團、阿里投資的具身智能企業，凸顯市場對其技術領先性的高度認可。來源：自變量機器人

千尋智能開源具身智能基礎模型Spirit v1.5

國產具身智能模型千尋Spirit v1.5在權威真機評測基準RoboChallenge上以總分66.09、成功率50.33%的成績超越美國公司Physical Intelligence的Pi0.5模型，登頂全球榜首。是該榜單自上線以來首個擊敗基準模型的國產模型，也是首個成功率突破50%的具身智能模型。來源：量子位

Humanify 獲數千萬元首輪融資打造 AI OS

AI初創公司Humanify（人格智能）近日宣佈完成數千萬元種子輪融資，由五源資本領投，奇績創壇跟投。公司成立於2024年，專注於開發具備“類人認知與自主意識”的下一代AI模型與原生操作系統。本輪資金將主要用於模型和操作系統研發、擴大團隊，加速智能在真實場景的落地。來源：Z Potentials

谷歌聯合零售巨頭推出通用商務協議 UCP

谷歌聯合Shopify、沃爾瑪、Target等零售巨頭推出全新開放標準——通用商務協議（UCP），爲AI智能體購物場景建立全流程標準化框架。協議支持智能體參與從商品發現到售後支持的全部環節，通過標準化實現不同系統間的協同運作，並可兼容谷歌此前發佈的智能體支付、互聯等協議。來源：IT之家

1月9·週五

MiniMax 港股掛牌，歷史上IPO規模最大的AI大模型公司誕生

全球化AI大模型公司MiniMax（股票代碼：0100.HK）在香港聯交所主板正式掛牌上市。開盤後股價一度大漲超50%，截至發稿漲幅達63%，報269港元，市值約831億港元。此次IPO以每股165港元定價上限發行，募集資金總額約55.4億港元，其公開發售部分獲得1837倍超額認購，市場反響熱烈。來源：財聯社

ChatDev 2.0：零代碼構建多智能體，快速開發一切

清華大學、上海交通大學、OpenBMB與面壁智能聯合團隊正式開源多智能體框架ChatDev 2.0。新版實現了從“代碼驅動”到“零代碼可視化交互”的飛躍，用戶通過簡單“拖拽+配置”即可在無限畫布上構建複雜多智能體系統。來源：面壁智能

多模態檢索新標杆，Qwen3-VL-Embedding&Reranker開源！

通義千問團隊正式開源多模態檢索模型Qwen3-VL-Embedding與Qwen3-VL-Reranker。該系列模型基於Qwen3-VL構建，專爲圖文、視頻等混合內容的理解與檢索設計，能在統一框架內處理文本、圖像、視覺文檔及視頻等多種模態輸入。來源：通義大模型

1月8·週四

智譜上市了，全球大模型第一股，股票代碼“02513”

北京智譜華章技術股份有限公司（簡稱“智譜”）正式在香港交易所掛牌上市，股票代碼爲“02513”，成爲全球“大模型第一股”。公司以“智能是且僅是我們唯一的產品”爲核心，致力於通用人工智能（AGI）的研發與探索。此次上市標誌着其在發展歷程中邁出關鍵一步。來源：智譜

ChatExcel一年完成3輪融資，構建全模態數據鏈路平台

北大系AI公司元空智能（ChatExcel）連續完成Pre-A輪與A輪數千萬融資，由考拉基金與合鼎共資本投資，全年共完成三輪融資。2026年，公司正重點推進全球化佈局，海外版本已上線，致力於成爲國際領先的數據智能服務商。來源：元空AIExcel

OpenAI 推出 ChatGPT Health 模式，爲健康設立專屬空間

OpenAI正式推出專注於健康領域的“ChatGPT Health”模式。是ChatGPT爲用戶提供了一個獨立的對話空間，更系統、安全地討論健康問題。核心特性包括將健康對話與普通聊天記錄隔離以保護隱私，允許AI在獲得許可後參考用戶其他場景的信息以提供連貫建議。來源：IT之家

1月7·週三

xAI完成200億美元E輪融資，英偉達再次出手

馬斯克旗下xAI公司完成200億美元E輪融資，超額完成原定目標。投資方包括英偉達、思科等知名機構及中東資本。數據顯示，Grok月活躍用戶已達6億，Grok 5正在訓練中。公司擁有超100萬個H100 GPU等效算力，Grok 4在強化學習方面取得突破。來源：智東西

LMArena完成1.5億美元Series A融資

AI初創公司LMArena完成1.5億美元A輪融資，投後估值達17億美元。核心產品爲“模型競技場”平台，通過衆包方式讓用戶比較不同AI模型的性能，月活用戶超500萬，每月產生6000萬次對話。本輪融資由Felicis和UC Investments領投。來源：Z Potentials

智元發佈首個大語言模型驅動的開源仿真平台：Genie Sim 3.0

智元機器人在CES上發佈全球首個大語言模型驅動的開源仿真平台Genie Sim 3.0。平台基於NVIDIA Isaac Sim構建，融合三維重建與視覺生成技術，可實現數字孿生級高保真仿真環境。首創的自然語言驅動場景生成技術，可將萬級場景的生成時間縮短至分鐘級。來源：AI工具集

1月6·週二

英偉達發佈重磅AI計算平台Vera Rubin

英偉達CEO黃仁勳發佈了重磅AI計算平台Vera Rubin，打破五年未發消費級顯卡的慣例。平台包含6款全新芯片，其中Rubin GPU推理算力達50 PFLOPS，是Blackwell的5倍。Vera Rubin NVL72系統性能全面提升，訓練10萬億參數模型所需系統數量僅爲前代1/4，成本降至1/10。來源：APPSO

亞馬遜上線 Alexa網頁版，加速補齊網頁端能力

亞馬遜正式推出Alexa+網頁版，重新啓用Alexa.com域名，允許用戶通過瀏覽器直接與AI助手對話。標誌着Alexa從智能音箱設備擴展到網頁端，與ChatGPT、Google Gemini等AI聊天機器人展開正面競爭。來源：AI工具集

開源異構算力調度平台「密瓜智能」獲數千萬元投資

異構算力調度平台「密瓜智能」近日完成數千萬元天使輪融資，由復星創富領投。核心產品爲CNCF開源項目HAMi，專注於解決GPU等異構算力資源利用率低下的行業痛點。HAMi支持NVIDIA、華爲昇騰等9種以上芯片的細粒度切分與統一調度，可實現顯存超賣和動態資源分配。來源：36氪

智能眼鏡企業雷鳥創新宣佈完成超10億元新一輪融資

國內AR智能眼鏡企業雷鳥創新宣佈完成超10億元新一輪融資，由中國移動鏈長基金與中信金石共同領投，中國聯通旗下基金參與。是國內運營商首次以戰略投資者身份進入智能眼鏡賽道，交割後中國移動持股7.92%。來源：智東西

1月5·週一

智元機器人與MiniMax達成合作，全模態AI加速落地機器人應用

智元機器人與MiniMax（上海稀宇科技）正式達成合作，MiniMax將爲智元機器人提供文本到語音全流程AI技術支持。此次合作將基於智元機器人的產品特性，量身打造專屬人設體系以優化語音交互體驗，並通過定製化提示詞策略實現千人千面的個性化音色合成。來源：36氪

騰訊「AI應用及線上工具小程序成長計劃」發佈：混元大模型token免費用

微信小程序正式推出「AI應用及線上工具小程序成長計劃」，爲開發者提供爲期一年的免費資源支持。計劃核心福利包括免費使用騰訊混元大模型的Token，涵蓋旗艦文生文及文生圖等多模態模型能力，並配套雲開發、數據分析、廣告變現及流量激勵。申請條件要求小程序類目爲文娛、工具、社交等虛擬行業類目，個人或企業主體均可參與。來源：騰訊混元

Looki完成超2000萬美元A輪融資

AI硬件公司Looki完成超2000萬美元A輪融資，由螞蟻集團領投，美團龍珠、華登國際等跟投。Looki的核心產品是一款名爲Looki L1的多模態AI穿戴設備，重30克，可通過視覺和音頻信號實現智能生活記錄和個性化交互。來源：AI工具集

AI助手ima支持PPT生成

AI助手ima正式推出PPT生成功能，用戶現可通過任務模式一鍵製作演示文稿。功能支持上傳附件或調用知識庫資料，自動將文字內容轉化爲包含數據圖表、圖標配圖和重點突出的專業PPT。用戶可自定義風格主題，如簡潔商務風、深色科技風等。來源：ima.copilot

1月4·週日

DeepSeek 發佈新論文：提出全新 mHC 架構

DeepSeek發佈新論文提出全新mHC（流形約束超連接）架構，解決傳統超連接在大規模模型訓練中的不穩定性問題，同時保持其性能增益。框架通過將殘差連接空間投影到特定流形來恢復恆等映射屬性，並結合基礎設施優化提升效率。來源：AI工具集

ListenHub完成200萬美元融資，ARR 300萬美元進軍北美

AI內容生成平台ListenHub的母公司MarsWave已完成200萬美元天使+輪融資，由天際資本領投，小米聯合創始人王川跟投。公司年經常性收入（ARR）已突破300萬美元並實現月度盈虧平衡。此次融資將主要用於進軍北美市場，並已任命具有百度、MiniMax等背景的新COO負責全球增長。來源：36氪

TRAE 中國版 SOLO 已全量免費開放！

中國版TRAE SOLO模式現已向全部用戶免費開放。AI編程助手支持項目迭代、問題修復與架構重構等複雜開發任務，具備智能任務規劃和自主編排智能體能力。用戶可免費使用內置的豆包、GLM、MiniMax、Kimi等多款模型，產品將自動基於模型效果和速度配置最佳上下文窗口。來源：TRAE.ai

12月31·週三

Kimi 完成 5 億美元新融資

中國大模型公司月之暗面（Kimi）近期完成5億美元C輪融資，由IDG資本領投1.5億美元，阿里巴巴、騰訊及王慧文等老股東超額認購，投後估值達43億美元。創始人楊植麟內部信透露，公司現金儲備已超100億元人民幣，因此“可以不着急IPO”。本輪融資將用於加速K3大模型的研發和擴增算力。來源：晚點LatePost

Vidu Agent全球正式上線，商業廣告一鍵成片

Vidu推出AI視頻創作工具Vidu Agent，支持20多種語言和200多種音色，覆蓋商業廣告、產品TVC、劇情片等多種創作場景，能一鍵生成高質量視頻。其分鏡編輯功能讓創作者可以輕鬆調整鏡頭順序、時長和轉場效果，實時預覽修改後的視頻。來源：Vidu AI

軟銀完成對OpenAI承諾的225億美元額外投資

軟銀向OpenAI的400億美元（約合人民幣2799億元）鉅額投資已全部到賬，使其持股比例達到約11%。這筆史上最大額AI投資的前提是OpenAI需在年底前完成重組並轉爲營利組織，否則投資將大幅縮減。爲籌集資金，軟銀已清倉其持有的英偉達股份。投資將部分用於支持OpenAI、甲骨文和軟銀聯合建設的AI基礎設施“星際之門”。來源：智東西

MiniMax今起招股，1月9日敲鐘代碼00100

中國AI公司MiniMax正式啓動港股上市進程，預計於2026年1月9日掛牌，股票代碼00100。此次IPO發行估值超461億港元，擬募資超6億美元。公司獲得阿里巴巴、阿布扎比投資局等14家基石投資者支持。來源：量子位

12月30·週二

Meta 數十億美元收購 Manus，肖弘將出任 Meta 副總裁

Meta宣佈以數十億美元收購AI應用Manus的開發商蝴蝶效應公司，這是Meta歷史上第三大收購。收購後蝴蝶效應將保持獨立運營，其創始人肖弘出任Meta副總裁。此次收購被視爲扎克伯格推進“超級智能”願景的關鍵一步，也標誌着中國新一代創業者登上全球科技舞台。來源：晚點LatePost

“全球大模型第一股”來了！智譜今起招股，發行市值達511億港元

“全球大模型第一股”即將登陸港股。智譜（股票代碼：2513）今日啓動港股招股，預計2026年1月8日上市。本次IPO將發行3741.95萬股H股（香港發售187.1萬股，國際發售3554.85萬股），發行價每股116.20港元，本次IPO募資總額約43億港元，公司估值超511億港元，招股期至2026年1月5日結束。來源：AI工具集

騰訊混元開源翻譯模型Tencent-HY-MT1.5版本，端側可部署

騰訊混元開源翻譯模型Tencent-HY-MT1.5系列版本，包含1.8B和7B兩個模型，支持33種語種互譯及5種民漢/方言。1.8B模型專爲端側部署優化，僅需1GB內存即可流暢運行，在翻譯質量上超越多數商用API，平均響應時間僅0.18秒。7B模型爲WMT25比賽冠軍升級版，準確率顯著提升。來源：騰訊混元

12月29·週一

Z.ai新突破：GLM-4.7登頂Artificial Analysis全球開源榜首

智譜AI宣佈GLM-4.7模型在全球權威評測平台Artificial Analysis Intelligence Index中取得突破性成績，以68分的綜合得分榮登全球開源模型與國產模型雙料榜首，並位列全球總榜第六。該榜單重點評估模型的知識、推理、代碼及智能體等核心能力，被業界視爲衡量大模型綜合實力的重要風向標。來源：智譜

MAI-UI 開源：通用 GUI 智能體基座登頂 SOTA

通義實驗室開源通用GUI智能體基座MAI-UI，登頂多項SOTA。模型原生集成用戶交互、MCP工具調用與端雲協同三大能力，能主動澄清模糊指令，並優先調用結構化工具跳過冗長UI操作，顯著提升任務成功率。來源：通義大模型

京東AI購搶先實測，一句話搞定喫喝穿用

京東上線AI原生應用“京東AI購”，目前處於App Store內測階段。應用以對話爲主要交互方式，用戶通過自然語言即可完成外賣點單、商品導購等操作。核心功能包括“靈感空間”預設指令卡片、AI試穿及智能比價等，由京東自研言犀大模型驅動。來源：智東西

九章雲極宣佈完成新一輪戰略融資

人工智能基礎設施提供商九章雲極宣佈完成新一輪戰略融資，由北京信息產業發展投資基金與北京市人工智能產業投資基金聯合領投。本輪融資將重點用於AI加速計算技術研發和普惠智算雲平台建設，以鞏固其技術優勢並推動企業級AI應用普及。來源：機器之心

騰訊元寶“任務”功能上線：一句話安排時間，到點就提醒

騰訊元寶AI助手正式上線“任務”功能，用戶只需將時間安排或計劃用一句話告知元寶，即可獲得準時提醒服務。功能支持提前測試、手動管理和自定義提醒，需更新至最新版本使用。來源：IT之家

MiniMax正式開源了MiniMax M2.1多語言編程模型

MiniMax公司宣佈將MiniMax M2.1模型正式開源，已在Hugging Face和GitHub平台發佈。模型專爲真實世界複雜任務設計，在多語言編程、全棧開發、Web與App開發以及Agent能力方面表現卓越。同時推出跨年促銷活動，Coding Plan首月價格低至9.9元，活動持續至2026年1月15日。來源：MiniMax稀宇科技

12月26·週五

智譜推出輕量級AI IDE編程工具：Zcode

智譜推出AI編程工具Zcode，深度融合AI Agent與開發工具鏈。工具支持跨倉庫全代碼庫理解、多倉庫上下文推理及自動化代碼審查，具備對話變更自動保存、代碼回滾、可視化Git界面等功能，針對前端開發集成內置瀏覽器和元素選擇器，助力開發者高效協作，無縫融入現有工作流。來源：AI工具集

Qwen Code 重磅更新：讓 AI 編程跳出命令行

通義千問Qwen Code發佈v0.5.0版本，實現從命令行工具向開發生態的關鍵升級。本次更新重磅推出VSCode插件，開發者可在IDE內直接喚出AI對話界面進行編程。同時發佈的TypeScript SDK允許開發者以編程方式集成其智能能力，便於構建Web或移動應用。來源：通義千問Qwen

Skywork Sheets 2.0重磅上線：一鍵解鎖高效辦公新體驗

Skywork Sheets 2.0版本近日正式上線，核心突破在於實現了“表格與報告的深度融合”。用戶僅需輸入數據，AI即可自動完成整理分析、生成可視化圖表並撰寫完整報告，實現“輸入數據，輸出成果”的閉環。來源：崑崙萬維集團

小紅書開源 InstanceAssemble：讓 AI 精準還原複雜圖像排版

小紅書與復旦大學聯合推出佈局控制生成方案InstanceAssemble，通過創新“實例組裝注意力”機制，實現了從簡單佈局到密集複雜場景的精準圖像生成。技術能根據用戶指定的物體位置和內容描述，在對應位置高精度生成圖像，解決了佈局對齊不準的行業難題。來源：IT之家

曦諾未來宣佈完成超億元天使輪融資，寧德時代和小米投了

杭州靈巧手企業曦諾未來今日宣佈完成超億元天使輪融資，由寧德時代旗下溥泉資本領投，小米戰投等跟投。該公司成立數月即研發出全球首款全自研高自由度腱繩驅動靈巧手Xynova Flex 1，擁有25個自由度，自重僅380克，負載超30公斤。來源：智東西

12月25·週四

阿里最強“PS模型”開源：Qwen-Image-Edit-2511

阿里開源圖像編輯模型Qwen-Image-Edit-2511，顯著提升人物一致性與風格穩定性，集成LoRA模塊實現光照、材質及視角控制。實測顯示其人像融合、文字渲染效果自然，但幾何推理與精細鏡頭控制仍有不足。來源：智東西

生數科技聯合清華髮布 TurboDiffusion提速200倍

生數科技聯合清華大學開源視頻生成加速框架TurboDiffusion，最高可實現200倍推理加速，推動AI視頻生成邁入“實時生成”時代。框架通過低比特注意力加速、稀疏-線性注意力等四項核心技術，在單張RTX 5090顯卡上能將生成1080P高清視頻的時間從分鐘級壓縮至秒級，幾乎不影響生成質量。來源：生數科技

12月24·週三

字節跳動發佈新一代形式化數學推理專用模型 Seed Prover 1.5

字節跳動Seed團隊發佈新一代形式化數學推理模型Seed Prover 1.5。模型採用全新的Agentic Prover架構，能自主調用數學庫搜索、代碼執行等工具進行增量式證明。在IMO 2025測試中，模型以35/42的成績達到金牌分數線；在Putnam競賽歷史題集上解決率達88%，刷新多項SOTA記錄。來源：字節跳動Seed

上海與商湯發佈規劃資源 AI 基礎大模型

全國首個規劃資源領域AI大模型“雲宇星空”（專業版）近日在上海正式發佈。模型由上海市規劃資源局與商湯科技聯合研發，具備“問不倒、能調圖、會統計、能識圖、會報告”五大核心能力，參數量達6000億。來源：商湯科技SenseTime

雲深處科技已正式啓動上市輔導

杭州雲深處科技股份有限公司已啓動上市輔導，輔導機構爲中信建投證券。公司成立於2017年，專注於四足及人形機器人研發，創始人朱秋國爲浙江大學副教授，目前合計控制公司32.60%的股份。雲深處科技近期完成了超5億元人民幣的C輪融資，並於11月初完成股改。來源：智東西

12月23·週二

GLM-4.7上線並開源：更強的編碼

智譜AI正式上線並開源新一代大模型GLM-4.7，該版本在編碼、推理與智能體能力上實現顯著提升。在多項主流基準測試中，編程能力達到開源模型領先水平，在SWE-bench Verified中獲得73.8%的SOTA分數，工具調用任務τ²-Bench得分87.4分，超越Claude Sonnet 4.5。來源：智譜

MiniMax M2.1：多語言編程SOTA，爲真實世界複雜任務而生

MiniMax發佈新一代大模型MiniMax M2.1，該版本在多語言編程與真實世界複雜任務處理上實現顯著突破。模型系統性提升了Rust、Java、Golang等十餘種編程語言能力，在SWE-bench Verified基準測試中獲得74分，超越Claude Sonnet 4.5。其創新的VIBE基準測試顯示，M2.1在全棧應用構建能力上接近頂級閉源模型水平。來源：MiniMax稀宇科技

阿里發佈新一代端到端語音交互模型：Fun-Audio-Chat

阿里通義發佈新一代端到端語音交互模型Fun-Audio-Chat，模型採用創新的端到端序列到序列架構，實現從語音輸入直接生成語音輸出，無需傳統ASR+LLM+TTS多模塊拼接，顯著降低延遲。在OpenAudioBench、MMAU等多個權威評測中，模型在同尺寸模型中排名第一，綜合性能超越GLM4-Voice、Kimi-Audio等主流產品。來源：通義大模型

面壁智能完成數億元融資，加碼投入領跑端側 AI

面壁智能近日宣佈完成數億元融資，投資方包括京國瑞、國科投資、中金保時捷基金等多家機構。本輪融資將主要用於加大端側高效大模型的研發投入，加速端側AI的商業化進程。來源：面壁智能

釘釘發佈全球首個爲 AI 打造的工作智能操作系統 Agent OS

釘釘發佈AI工作操作系統“Agent OS”，重構企業工作方式。系統作爲全球首個爲AI打造的工作智能操作系統，可統一調度和管理各類AI智能體。核心組件包括交互界面“釘釘ONE”、通用智能體“悟空”及企業級AI硬件“DingTalk Real”。來源：APPSO

12月22·週一

MiniMax 通過港交所聆訊，有望成爲“AGI 全球第一股”

MiniMax通過港交所聆訊並披露招股書，衝刺IPO。MiniMax成立於2022年初，若成功上市，將是全球從成立到IPO最快的AI公司。2024年，MiniMax收入同比增長782%至3050萬美元，淨虧損爲4.65億美元。其變現方式包括訂閱服務、基於token的應用內購買、線上營銷服務以及按使用量計費的企業級API服務。來源：第一財經

智譜衝刺港股“大模型第一股”，估值244億

智譜通過港交所聆訊，衝刺港股“大模型第一股”。智譜成立於2019年6月，是中國最大型的獨立通用大模型開發商、中國第二大整體通用大模型開發商。其MaaS平台提供語言、多模態、智能體、代碼四類模型，支持本地化和雲端部署。2025年11月，智譜日均token消耗量達4.2萬億，已爲約8000萬台設備提供支持。來源：智東西

英偉達新模型NitroGen能打遍幾乎所有遊戲

英偉達開源通用遊戲AI模型NitroGen，模型能通過觀看遊戲畫面直接生成手柄操作信號，支持跨1000餘款不同類型遊戲的零樣本遊玩。模型基於4萬小時遊戲視頻數據集訓練，採用爲機器人設計的GR00T架構，具備強大的跨遊戲泛化能力。來源：機器之心

12月19·週五

釦子編程，開啓免費公開測試

在火山引擎Force大會上，釦子開發平台正式升級爲“釦子編程”並開啓免費公開測試。此次升級標誌着平台從AI應用搭建工具轉型爲賦能開發者創造力的平台，推出全新的Vibe Coding開發範式。用戶只需用自然語言描述業務需求，即可自動生成智能體、工作流及跨端應用。來源：釦子Coze

OpenAI最強代碼模型GPT-5.2-Codex上線

OpenAI發佈迄今最先進的智能體編碼模型GPT-5.2-Codex，模型在複雜軟件工程任務中實現重大突破。新版本顯著提升了指令遵循能力、長上下文理解及網絡安全防護性能，在SWE-Bench Pro和Terminal-Bench 2.0等基準測試中達到最先進水平。獨特的上下文壓縮技術可高效處理大型代碼庫，支持複雜重構與遷移任務。來源：機器之心

VTP：MiniMax海螺視頻團隊，首次開源！

MiniMax視頻團隊開源視覺生成模型關鍵組件VTP，首次提出tokenizer的scaling性質。技術通過融合多種表徵學習方法，將latent易學性與通用表徵學習建立關聯，顯著提升下游生成系統性能。來源：MiniMax稀宇科技

蘋果開源 SHARP 模型，1 秒內 AI 讓照片變 3D“活”起來

蘋果公司宣佈開源其新型AI模型SHARP，能在一秒內將單張2D照片轉換爲逼真的3D場景。與傳統方案相比，處理速度提升了三個數量級，實現了近乎實時的3D轉換體驗。模型基於先進的3D高斯潑濺技術，通過神經網絡單次前饋即可預測數百萬個3D高斯球的位置與外觀。來源：IT之家

12月18·週四

Google 發佈了高速、低成本模型 Gemini 3 Flash

谷歌正式發佈高速、低成本模型Gemini 3 Flash，模型在多項基準測試中表現優異，其性能已超越前代Gemini 2.5 Pro，在部分指標上接近Gemini 3 Pro和GPT-5.2等前沿模型。新模型具備前沿級推理與多模態能力，響應速度提升3倍，同時顯著降低了成本。來源：機器之心

美團 LongCat-Video-Avatar 發佈，實現開源SOTA級擬真表現

美團發佈並開源SOTA級虛擬人視頻生成模型LongCat-Video-Avatar，模型在動作擬真度、長視頻穩定性與身份一致性三大維度實現顯著突破。模型原生支持音視頻聯合生成及視頻續寫等功能，通過創新的跨片段隱空間拼接技術，有效解決了長視頻生成中的畫質退化問題，可穩定生成5分鐘高質量視頻。來源：龍貓LongCat

通用Agent模型Seed1.8正式發佈

字節跳動正式發佈通用Agent模型Seed1.8，模型集成了搜索、代碼生成與圖形界面交互等多元能力，支持圖文輸入並具備原生視覺理解功能。在多項基準測試中表現優異，其在GUI Agent任務上的OSWorld得分達61.9，搜索任務BrowseComp-en得分67.6，均處於行業領先水平。來源：字節跳動Seed

更大更強！限時免費！階躍星辰 GUI Agent 全面升級

階躍星辰宣佈其GUI Agent模型Step-GUI全面升級，新版模型支持200多個任務場景，具備更長推理步驟、更強語義理解與泛化能力。模型可在手機、PC、汽車等多端使用，並實現最短10分鐘快速部署。公司開放了API供免費使用，並公開發布了技術報告與GUI-MCP協議。來源：階躍星辰

Meta 發佈 SAM Audio，多模態音頻分離新突破

Meta發佈首個統一多模態音頻分離模型SAM Audio，支持通過文本、視覺或時間段提示從複雜音頻中精準提取目標聲音。模型基於感知編碼器視聽技術，用戶可點擊視頻中物體分離對應音頻，或輸入”狗吠”等文本指令過濾噪音。來源：IT之家

估值達465億！明星AI編程獨角獸Lovable再拿新融資

瑞典AI編程初創公司Lovable近日完成新一輪融資，估值飆升至66億美元，較半年前暴漲超三倍，成爲歐洲最具價值初創公司之一。本輪融資吸引了Accel等知名風投參與，標誌着AI編程工具賽道競爭加劇。來源：智東西

愛詩科技攜手阿里雲達成全棧AI合作 AI視頻全球化再啓航

愛詩科技與阿里雲簽署全面合作協議，雙方將在AI視頻生成領域建立深度協同。阿里雲將爲愛詩科技提供全棧AI支持，涵蓋基礎設施及大模型服務，助力其自研視頻生成模型PixVerse的全球化部署。來源：愛詩科技AIsphere

12月17·週三

即夢網頁版全面升級，打造一站式AI片場

即夢AI網頁版全面升級，打造一站式”AI片場”。核心更新包括：上線基於Seedance 1.5 Pro的”視頻3.5 Pro”模型，支持音視頻聯合生成及方言口型匹配；智能多幀2.0實現”視頻+視頻”拼接與片段精細化編輯，支持最長20個素材的一鏡到底；圖片4.1與4.5模型分別強化平面設計能力與人像美觀度。來源：即夢AI

OpenAI 最強 AI 生圖模型GPT Image 1.5登場

OpenAI發佈全新旗艦圖像生成模型GPT Image 1.5，模型在提示詞遵循、細節保留和文本渲染方面實現重大突破，能精準生成或編輯圖像並保持原圖光線、構圖等核心特徵。來源：IT之家

小米正式發佈並開源新模型 MiMo-V2-Flash

小米正式發佈開源大模型MiMo-V2-Flash，模型採用MoE架構，總參數3090億，活躍參數150億。在多項基準測試中表現優異，其編程能力尤爲突出，在SWE-bench測試中以73.4%的解決率超越所有開源模型。模型通過混合滑動窗口注意力、多Token預測等技術創新，實現了150 tokens/秒的高推理速度及極低的推理成本。來源：APPSO

騰訊混元世界模型1.5發佈，國內首個開放實時體驗

騰訊正式發佈混元世界模型1.5（WorldPlay），是國內首個支持實時交互體驗的世界模型。用戶通過文字或圖片輸入即可生成專屬3D互動世界，能通過鍵盤、鼠標或手柄自由探索。模型具備24FPS實時生成、分鐘級3D幾何一致性及空間記憶能力，離開後返回場景保持一致。來源：騰訊混元

Seedance 1.5 pro 音視頻創作模型正式發佈

字節跳動發佈新一代音視頻創作模型 Seedance 1.5 pro，實現音視頻聯合生成。模型支持從文本到音視頻的合成及圖像引導生成，在精準音畫同步、多語言與方言口型匹配、電影級運鏡控制及動態敘事表現上取得突破。來源：字節跳動Seed

12月16·週二

LiblibAI 上線「Wan 2.6」視頻模型，中國版 SORA2 來了！

LiblibAI平台全球首發通義萬相Wan 2.6視頻生成模型，支持視頻參考生成、聲畫同步和多鏡頭智能調度三大核心功能。模型可直出15秒1080P高清視頻，實現完整敘事生成，無需二次剪輯。其視頻參考生成能力可復刻5秒內任意角色形象與音色，支持單/雙人表演及多人對話場景的聲畫同步。來源：哩布哩布AI

商湯小浣熊3.0來了，AI辦公智能體一鍵生成高質量PPT

商湯科技發佈AI辦公智能體“小浣熊3.0”，實現從生成草稿到交付成品的三大躍遷。智能體具備一鍵生成高質量PPT能力，支持圖表、圖片等全元素編輯，可交付直接可用的演示文稿。其“長鏈條思考”能力支持百萬級數據量秒級處理與多模態分析，能深度理解複雜任務。來源：商湯科技SenseTime

Wan2.6正式發佈！上線國內首個角色扮演功能

阿里巴巴發佈通義萬相2.6多模態模型，是國內首個支持角色扮演功能的視頻生成系統。模型支持音畫同步、多鏡頭敘事和音頻驅動生成，可直出15秒高清視頻。角色扮演功能允許用戶上傳參考視頻，AI能復刻角色外觀與音色，生成單人或多人表演內容。在圖像生成方面，模型提升了藝術風格融合與細節刻畫能力，支持圖文混排、多圖融合等商用級創作。來源：通義萬相Wan

英偉達發佈 Nemotron 3 開源 AI 模型系列，吞吐量達上一代 4 倍

英偉達發佈Nemotron 3開源AI模型系列，包含Nano、Super和Ultra三種規格。其中Nano版本（300億參數）已上線，其採用混合專家架構，宣稱吞吐量達上一代4倍，推理token生成減少60%，具備100萬token上下文窗口。該系列專爲多智能體系統設計，旨在解決通信開銷和推理成本等挑戰。來源：IT之家

通義百聆語音雙子星，同步開源！

阿里雲通義百聆開源語音雙子星模型Fun-CosyVoice3與Fun-ASR。Fun-CosyVoice3支持僅3秒音頻即可實現跨9種語言、18種方言的音色克隆與情感控制，首包延遲降低50%，中英混說錯誤率下降56.4%。Fun-ASR在嘈雜環境下識別準確率達93%，支持31種語言混說及方言識別，將流式識別首字延遲降至160毫秒。來源：通義大模型

12月15·週一

商湯Seko2.0重磅發佈，合作短劇登頂抖音AI短劇榜No.1

商湯科技發佈Seko 2.0多劇集生成智能體，作爲行業首個創編一體AI工具，專爲短劇創作者設計。版本通過SekoIDX技術解決多劇集角色一致性難題，SekoTalk實現業內首個2人以上精準對口型功能，可將傳統3個月的50集製作週期縮短80%-90%。同時開源LightX2V推理框架，在消費級顯卡上5秒即可生成5秒視頻，完成國產芯片適配。來源：商湯科技SenseTime

螞蟻旗下 AI 健康助手 AQ 啓用中文名“螞蟻阿福”

螞蟻集團旗下的AI健康助手AQ更新版本並啓用中文名“螞蟻阿福”，同時上線“健康小目標”功能。應用可提供健康諮詢、圖片解讀（報告、病例、處方、藥盒均支持）、個人和家庭健康檔案管理以及預約掛號、雲陪診等醫療健康服務。來源：IT之家

Google Gemini TTS升級：支持24種語言，語音更擬真

谷歌Gemini TTS模型，發佈了升級版的Gemini 2.5 Flash和Pro文本轉語音模型，提升了表達能力、語速控制和多說話人場景下的表現。新模型在風格、語調和發音方面提供更好的控制，能根據上下文調整語速，如在興奮時加快、強調時放慢，還能在多語言對話中保持一致的角色聲音，使對話更真實。來源：AI工具集

12月12·週五

GPT-5.2 正式發佈！讓打工人每週少幹 10 小時

OpenAI正式發佈GPT-5.2模型，推出Instant、Thinking、Pro三個版本，分別針對常規任務、複雜推理和高精度需求。模型在多項基準測試中表現突出，在GDPval知識工作任務評估中首次達到或超越人類專家水平，軟件工程能力（SWE-Bench Pro）創下55.6%的新紀錄。其幻覺率降低約30%，長文本處理準確率接近完美。來源：APPSO

智譜多模態開源周收官：四項視頻生成核心技術開源

智譜AI在多模態開源周收官之際，宣佈開源四項視頻生成核心技術：SCAIL影視級角色動畫框架實現複雜姿態控制；RealVideo實時流式視頻生成系統將首響延遲壓縮至2-3秒；Kaleido多主體生成框架在開源模型中達到SOTA水平；SSVAE頻譜結構化變分自編碼器將模型收斂速度提升3倍。來源：智譜

谷歌重磅開源！深度研究Agent拿下SOTA

谷歌開源深度研究Agent Gemini Deep Research，在DeepSearchQA基準測試中達到46.4%的SOTA水平，性能與GPT-5 Pro相當，而成本僅爲後者的十分之一。該Agent基於Gemini 3 Pro模型，具備多步搜索和複雜信息整合能力，可自動生成深度研究報告。來源：智東西

迪士尼官宣 10 億美元投資 OpenAI，允許 Sora 生成米老鼠等角色視頻

迪士尼公司與OpenAI達成爲期三年的戰略合作協議，將向OpenAI投資10億美元並獲得股權。根據協議，OpenAI的Sora視頻生成平台將獲得迪士尼旗下超過200個角色的IP授權，包括米老鼠、漫威超級英雄、星球大戰等經典形象。用戶未來可通過Sora生成迪士尼角色短視頻，部分精選內容還將在Disney+平台播出。來源：IT之家

12月11·週四

智譜開源 GLM-TTS ：基於多獎勵強化學習的可控發音語音合成

智譜AI發佈並開源工業級語音合成系統GLM-TTS。採用兩階段生成範式，支持僅3秒音色復刻與多方言克隆。字符錯誤率（CER）在強化學習優化後達0.89%，在開源模型中達到SOTA水平。關鍵技術突破包括多獎勵融合強化學習、精細化發音控制（Phoneme-in）以及自研2D-Vocos聲碼器，顯著提升了情感表達與發音準確性。來源：智譜

面壁智能 VoxCPM 1.5 開源，語音生成能力再升級

VoxCPM 1.5版本正式開源上線。將AudioVAE採樣率從16kHz提升至44.1kHz，顯著提升了音色克隆的細節豐富度。生成效率實現翻倍，僅需6.25個token即可生成1秒音頻。同時，新增LoRA和全量微調腳本以支持深度定製，優化了模型穩定性，減少音頻僞影。來源：面壁智能

阿里發佈 Qwen3-Omni-Flash 全模態大模型

阿里巴巴發佈新一代全模態大模型Qwen3-Omni-Flash。模型支持文本、圖像、音視頻的無縫輸入與實時流式輸出，顯著提升了多輪對話的穩定性與語音生成的自然度。其系統提示控制能力實現飛躍，用戶可精細設定如“甜妹”、“御姐”等特定人設風格。來源：IT之家

Adobe 與 ChatGPT 聯手推出全新圖像與 PDF 編輯功能

OpenAI宣佈ChatGPT正式接入Adobe系列專業軟件，包括Photoshop、Acrobat和Adobe Express。用戶現可在ChatGPT內直接調用這些工具，通過自然語言指令完成圖像編輯、PDF處理等專業任務。整合後，ChatGPT會根據用戶指令動態生成相應的操作界面，例如在調整圖像亮度時自動呈現曝光、陰影等專業調節選項。來源：IT之家

12月10·週三

GLM-ASR開源，智譜AI輸入法發佈

智譜AI發佈並開源GLM-ASR系列語音識別模型，同時推出桌面端“智譜AI輸入法”。系列包含雲端領先模型GLM-ASR-2512和僅1.5B參數的開源SOTA端側模型GLM-ASR-Nano-2512，後者在保證高精度的同時實現了更強的隱私保護與低延遲。來源：智譜

Mistral AI開源新一代編程模型：Devstral 2

Mistral開源代碼大模型Devstral 2系列，包含123B和24B兩個版本，均支持256K上下文。模型在SWE-bench Verified上分別取得72.2和68.0的高分，性能達開源頭部水平，同時模型體積顯著小於同類競品。配套推出的Vibe CLI工具可將模型能力集成至終端，支持掃描項目結構、調用命令、自動生成代碼變更等操作。來源：AI工具集

生成式AI媒體平台Fal再獲1.4億美元注資

生成式AI媒體平台Fal獲得由紅杉資本領投的1.4億美元新一輪融資，英偉達風投Nventures等機構跟投，公司估值達45億美元，較數月前增長兩倍。公司爲開發者提供圖像、視頻和音頻AI模型託管服務，客戶包括Adobe、Shopify等企業。來源：AI工具集

12月9·週二

AutoGLM開源：每台手機，都可以成爲AI手機

智譜AI宣佈開源AutoGLM項目，讓AI真正學會”使用手機”。項目經過32個月研發，構建了完整的Phone Use能力框架，使AI能通過視覺理解手機界面並完成點擊、滑動等操作，實現從外賣下單到批量處理通知等自動化任務。爲保障隱私安全，系統主要在雲端虛擬手機環境中運行。來源：智譜

螞蟻集團通用 AI 助手靈光上線網頁版

螞蟻集團正式推出全模態通用AI助手靈光網頁版，用戶可通過瀏覽器直接訪問。網頁版延續了“30秒用自然語言生成小應用”的核心優勢，實現了與移動端的數據與創作同步。用戶可在電腦上描述需求，快速生成、編輯並管理對話和閃應用，並在手機端繼續使用和分享。來源：IT之家

12月8·週一

智譜正式上線並開源 GLM-4.6V 系列多模態大模型

智譜AI正式上線並開源GLM-4.6V系列多模態大模型，包括106B和9B兩個版本。模型原生支持基於視覺輸入自主調用工具，可處理圖文混排、識圖購物等複雜任務。其128K長上下文窗口能理解長達150頁的文檔或1小時視頻內容，在代碼前端復刻等方面能力提升。來源：AI工具集

美團發佈 LongCat-Image 圖像生成模型，編輯能力登頂開源SOTA

美團發佈並開源LongCat-Image圖像生成模型，以6B參數在文生圖和圖像編輯能力上逼近更大模型。技術亮點包括：採用同源架構與漸進學習，在圖像編輯可控性上達到開源SOTA；通過課程學習與字符級編碼，顯著提升中文文字生成的覆蓋度與精準度；結合數據篩選與對抗訓練，增強圖像真實感。來源：龍貓LongCat

混元2.0上線：推理能力與效率業界領先

騰訊發佈混元大模型最新版混元2.0，包含Think與Instruct兩個版本。模型採用混合專家架構，總參數406B，支持256K上下文窗口。其在數學、科學、代碼等複雜推理任務上表現優異，綜合能力位居國內第一梯隊。通過優化訓練策略，模型在保持高準確率的同時顯著降低思維鏈長度，推理效率領先。來源：騰訊混元

AI法律科技公司Harvey又獲新融資（F輪），估值560億！

美國AI法律科技公司Harvey宣佈完成1.6億美元F輪融資，估值達80億美元。公司由前谷歌DeepMind研究員和頂級律所律師於2022年創立，專注於“AI+法律”領域，法律AI平台包含AI助理、文檔庫等功能，已與美國百強律所中的50家合作。Harvey已獲7輪融資，總融資額超9.6億美元，OpenAI創業基金、谷歌風投等多次參與投資。來源：智東西

12月5·週五

聽得清，看得懂！豆包語音識別模型2.0來了

火山引擎發佈豆包語音識別模型2.0。模型基於Seed混合專家架構，通過PPO強化學習實現深度上下文推理，關鍵詞召回率提升20%。新增多模態視覺識別能力，可結合圖像內容精準分辨易混淆詞（如“滑雞”與“滑稽”），支持日語、韓語、德語等13種語言的精準識別。來源：火山引擎

可靈數字人 2.0 功能正式上線！不止會說，更會演！

可靈全量上線數字人2.0版本，實現三大核心升級：表演力全面進化，支持精準的體態、手勢與表情控制；口型與手部細節顯著優化，增強真實感；單次生成視頻時長延長至5分鐘，覆蓋科普、廣告等長內容場景。來源：可靈AI

谷歌公測“奧數金牌級”推理 AI 模型 Gemini 3 Deep Think

谷歌面向Gemini Ultra訂閱用戶（月費249.99美元）正式公測Gemini 3 Deep Think模式。模式採用並行推理技術，調用更多計算資源，在複雜數學、科學及邏輯問題中表現突破：在Humanity’s Last Exam測試中取得41%高分，GPQA Diamond測試達93.8%。來源：IT之家

AI視頻生成產品 Pollo AI 獲 1400 萬美元融資

AI視頻生成平台Pollo AI近日完成1400萬美元首輪融資，由高成資本領投，真格基金跟投。其創始人朱陳彪（阿彪）無大廠背景，憑藉SEO經驗推動產品早期增長，7個月月活超400萬。目前平台註冊用戶超2000萬，已實現盈虧平衡。來源：晚點科技

Google推出Workspace Studio，賦能企業全員構建AI智能體

Google正式發佈Workspace Studio，是基於Gemini 3多模態能力的新一代自動化工具。用戶無需編碼即可快速設計、管理並共享AI智能體，實現從簡單任務到複雜流程的自動化。來源：AI工具集

12月4·週四

LiblibAI 上線 Seedream 4.5，一致性保持/多圖參考能力全面升級！

國產SOTA圖像模型Seedream 4.5在LiblibAI平台正式上線。相比4.0版本，新模型在一致性保持、精準文本/版式渲染、多圖參考生成和真實質感模擬方面能力顯著升級，尤其擅長處理中文海報、營銷物料等本土化內容，支持最多10+參考圖融合。來源：哩布哩布AI

小紅書收購“點點”

小紅書全資收購上海生動詩章科技有限公司，正式將旗下AI搜索產品“點點”納入集團體系。此次收購強化AI搜索能力，提升內容電商競爭力。收購後，小紅書將加速AI戰略落地，應對字節跳動、阿里等巨頭競爭，優化用戶行爲路徑，鞏固內容生態。來源：36氪

可靈 2.6 全量上線！聽見畫面，看見聲音

可靈2.6全量上線，是其首個“音畫同出”模型，能單次生成同時產出畫面、自然語音、匹配音效及環境氛圍。模型支持文生音畫與圖生音畫兩種創作路徑，適配單人獨白、旁白解說、多人對白、音樂表演及創意場景等多種應用。來源：可靈AI

豆包圖像創作模型Seedream 4.5發佈：聚焦商業生產力場景

火山引擎發佈豆包圖像創作模型Seedream 4.5並開啓公測。模型在主體一致性、指令遵循、空間邏輯及美學表現上顯著提升，重點強化多圖組合生成、海報排版與Logo設計能力，可精準滿足廣告營銷、電商運營、影視製作等商業場景需求。來源：火山引擎

12月3·週三

Mistral AI發佈Mistral 3系列模型，全線迴歸Apache 2.0

Mistral AI發佈新一代Mistral 3系列模型，全線迴歸Apache 2.0開源協議。系列包括675B參數的Mistral Large 3混合專家模型，以及14B/8B/3B的Ministral 3邊緣端模型。Large 3在3000台H200 GPU上訓練，具備圖像理解能力，在LMArena開源模型中排名第二。來源：機器之心

Anthropic收購熱門JavaScript工具鏈公司Bun

Anthropic宣佈收購熱門JavaScript工具鏈公司Bun，交易金額未公開。Bun創始人Jarred Sumner因其工具被Claude Code等AI編程產品廣泛使用，並看好Anthropic在AI編程領域的前景而選擇加入。此次收購將Bun的高性能運行時和打包技術深度整合進Claude Code及未來AI工具，以提升性能與分發效率。Bun將保持開源並繼續獨立發展。來源：InfoQ

亞馬遜雲科技發佈 Nova 2 系列 AI 模型等十大AI更新

在AWS re:Invent大會上，亞馬遜雲科技發佈十大AI更新：推出自研AI芯片Trainium4（性能提升6倍）及Trainium3服務器；第二代大模型Amazon Nova 2系列（Lite、Pro、Sonic、Omni）性能超越多款主流模型；Bedrock平台新增18款開源模型，包括阿里、Kimi等中國模型；推出AgentCore開發工具和四大智能體（如自主編程、安全運維），強化企業級AI應用。來源：智東西

商湯發佈 NEO 架構，重新定義多模態模型效能邊界

商湯科技聯合南洋理工大學發佈全球首個原生多模態架構NEO，突破傳統”視覺編碼器+投影器+語言模型”的拼湊範式。架構通過原生圖塊嵌入、三維旋轉位置編碼和原生多頭注意力三大創新，實現視覺與語言的深層融合。來源：商湯科技SenseTime

12月2·週二

LiblibAI 上線「可靈O1」全能視頻模型，速來體驗

LiblibAI全球首發「可靈O1」統一多模態視頻模型，是首個將視頻內容增刪、風格重繪、鏡頭延展等多項任務融於一體的大一統模型。模型支持最多7張參考圖像保持內容一致性，可通過自然語言指令智能編輯視頻，具備視頻參考生成能力。來源：哩布哩布AI

Runway發佈的最新視頻生成AI模型Gen-4.5，代號”David”

Runway正式發佈Gen-4.5視頻生成模型，該模型以”Whisper Thunder (aka) David”的匿名身份登上Artificial Analysis榜單首位。Gen-4.5在運動質量、提示詞遵循度和視覺逼真度方面樹立新標準，ELO評分達1247分，超越Veo 3/3.1、Kling 2.5和Sora 2 Pro等主流模型。具備精確的物理模擬能力、複雜的場景構建和電影級畫面質感，支持多種控制模式。來源：機器之心

英偉達拿出推理版VLA：Alpamayo-R1讓自動駕駛AI更會動腦子

英偉達發佈推理版視覺-語言-行動模型Alpamayo-R1，爲自動駕駛系統賦予因果推理能力。模型突破傳統端到端系統在長尾場景中的侷限，通過”因果鏈”數據集讓車輛理解”爲何這樣駕駛”而非簡單執行指令。三大創新包括結構化因果標註體系、擴散式軌跡解碼器和多階段訓練策略。來源：機器之心

PixVerse V5.5 來了！「導演級」音畫同步一鍵生成

PixVerse發佈PixVerse V5.5視頻生成模型，實現國內首個分鏡與音頻同步生成技術。模型具備”導演級”智能，可一鍵生成5秒、8秒或10秒的多鏡頭敘事單元，自動完成遠景、中景、近景的自然切換。創新之處在於同步生成人聲、環境聲和情緒配音，使角色口型、動作與音頻完美契合。來源：愛詩科技AIsphere

12月1·週一

DeepSeek V3.2 正式版：強化 Agent 能力，融入思考推理

DeepSeek正式發佈DeepSeek-V3.2版本，包含標準版和Speciale長思考增強版。標準版平衡推理能力與輸出效率，達到GPT-5水平；Speciale版在IMO、ICPC等國際競賽中斬獲金牌，推理能力媲美Gemini-3.0-Pro。升級首次實現思考與工具調用融合，在Agent評測中達到開源模型最高水平。來源：DeepSeek

字節視頻模型Vidi2超越Gemini 3 Pro！理解能力爆表

字節跳動發佈新一代視頻理解模型Vidi2，在時空定位等核心任務上的表現超越GPT-5與Gemini 3 Pro。模型能精準理解數小時的長視頻內容，直接生成包含剪輯時間點、字幕、配樂等細節的完整JSON剪輯方案，實現從原始素材到成片的AI自動化剪輯。來源：量子位

階躍開源4B Agent模型GELab-Zero，跑通所有安卓設備

階躍星辰開源GELab-Zero，推出4B參數GUI Agent模型GELab-Zero-4B-preview。模型在多項基準測試中取得同尺寸SOTA成績，能流暢執行復雜與模糊指令。項目同步開源了完整的推理工程基建，支持一鍵部署、多設備任務分發，解決移動端Agent規模化落地的工程難題。來源：量子位

11月28·週五

DeepSeek強勢迴歸，開源IMO金牌級數學模型DeepSeek-Math-V2

DeepSeek開源新一代數學模型DeepSeek-Math-V2，實現IMO金牌級推理能力。模型突破性引入自我驗證機制，通過“生成器-驗證器-元驗證”三重架構，使AI具備檢查並修正自身推理過程的能力。在IMO 2025測試中取得83.3%高分，Putnam 2024測試接近滿分。來源：機器之心

崑崙萬維AI音樂平台Mureka正式發佈V7.6與O2雙模型

崑崙萬維旗下AI音樂平台Mureka正式發佈V7.6與O2雙模型，推動AI音樂創作進入“專業品質×實時體驗”新階段。新模型基於MusiCoT細粒度音樂建模體系，在編曲結構、語義映射及聲場音質方面實現顯著提升，支持10種語言生成及自定義歌手功能。來源：崑崙萬維集團

混元3D Studio升級，可直出藝術家級3D資產

騰訊混元3D Studio升級至1.1版本，集成全新美術級3D生成模型PolyGen 1.5，實現端到端原生四邊形網格生成技術突破。模型首創自適應混合拓撲能力，可直接生成佈線規整的專業級3D資產，在佈線質量、結構完整度等關鍵指標上超越現有SOTA方法。來源：騰訊混元

11月27·週四

阿里開源高效圖像生成模型Z-Image，參數規模6B

阿里開源高效圖像生成模型Z-Image，參數規模爲6B。模型採用單流DiT架構，通過統一處理文本與視覺語義token提升參數效率。發佈三個版本：Z-Image-Turbo爲輕量蒸餾版，支持8步快速生成，擅長寫實生成與雙語文字渲染；Z-Image-Base爲基礎模型，供社區微調定製；Z-Image-Edit專攻圖像編輯，支持基於自然語言指令的創意編輯。來源：AI工具集

字節跳動發佈視覺空間重建模型：Depth Anything 3

字節跳動Seed團隊開源視覺空間重建模型Depth Anything 3，突破性採用單一Transformer架構實現任意視角空間感知。模型通過“深度-射線”統一表徵法，將相機姿態估計、幾何重建等任務集成於簡潔框架，在相機姿態精度和幾何重建任務上分別較主流模型VGGT提升35.7%和23.6%。來源：字節跳動Seed

清華AI黑馬斬獲新融資，無問芯穹已完成近5億元A+輪融資

清華系AI基礎設施企業無問芯穹完成近5億元A+輪融資，成立兩年半累計融資近15億元。本輪融資將用於強化軟硬協同技術優勢，加速智能體在數字與物理世界的規模化普惠應用。來源：智東西

11月26·週三

黑森林重磅開源FLUX.2，圖像生成模型的新里程碑

Black Forest Labs發佈開源圖像生成與編輯模型FLUX.2，支持文生圖、多圖參考和圖像編輯，具備更豐富的細節、清晰紋理和穩定光線。分爲四個版本：FLUX.2 [pro]（媲美頂級閉源模型）、FLUX.2 [flex]（可調節參數）、FLUX.2 [dev]（開源32B權重模型）和FLUX.2 [klein]（即將推出的輕量化模型）。來源：AI工具集

LiblibAI 上線「基礎算法F.2」！支持多圖參考和圖像編輯！

國內AI創作平台LiblibAI（哩布哩布）正式上線新一代圖像生成基礎算法F.2。模型在文生圖、多圖參考及圖像編輯三大核心功能上實現全面升級，顯著提升了人物與風格的一致性、複雜提示詞遵循能力及精細文本渲染效果。來源：哩布哩布AI

騰訊混元3D創作引擎國際站，上線！

騰訊混元3D創作引擎正式推出國際站，其API同步在騰訊雲國際站上線，面向全球開發者開放。引擎支持文生3D、圖生3D、草圖生3D及智能拓撲等核心功能，用戶通過文字、圖片或草圖即可分鐘級生成高質量3D模型。來源：騰訊混元

TRAE SOLO 登陸中國版，免費使用！

AI編程平台TRAE中國版正式推出SOLO模式並免費開放。模式內置智能體SOLO Coder，支持先制定開發計劃再執行的協作流程，能調度多智能體處理複雜任務。採用全新三欄佈局，實現多任務並行開發，內置代碼變更對比工具與上下文管理功能。來源：TRAE.ai

11月25·週二

Anthropic發佈新一代大模型Claude Opus 4.5

Anthropic發佈新一代大模型Claude Opus 4.5，在編程能力上實現重大突破，成爲首個在SWE-Bench Verified真實軟件工程測試中得分超過80%的模型，並在八種編程語言的七種中排名第一。核心升級包括對模糊需求的精準理解、複雜Bug自主定位能力，以及創新的”effort”參數控制系統，可在保證性能的同時大幅降低token消耗。來源：APPSO

混元OCR模型宣佈開源，參數僅1B，多項核心能力SOTA

騰訊混元開源輕量級OCR模型HunyuanOCR，參數僅1B卻在多項核心能力上達到SOTA水平。模型基於混元原生多模態架構，採用端到端設計，在複雜文檔解析基準OmniDocBench中獲得94.1分，超越Gemini 3 Pro等主流模型。來源：騰訊混元

挑戰英偉達：首個純 AMD 硬件訓練的 AI 大模型 ZAYA1 登場

AMD攜手IBM和AI初創公司Zyphra，歷時1年多，成功使用AMD硬件訓練出首個大型混合專家（MoE）基礎模型ZAYA1。模型完全基於AMD硬件生態系統構建，訓練過程在IBM雲上進行，使用AMD Instinct MI300X GPU等技術。訓練集羣由128個節點組成，總計1024塊GPU，性能超750 PFLOPs。來源：IT之家

OpenAI 爲ChatGPT推出免費AI購物研究工具

OpenAI爲ChatGPT推出全新“購物研究”功能，替代傳統電商平台與內容社區的消費決策流程。功能基於GPT-5 mini模型優化，通過交互式提問理解用戶偏好，結合記憶功能生成個性化購買指南，並直接提供商品鏈接與可視化對比界面。來源：APPSO

微軟推出全新的開源小型語言模型 Fara-7B

微軟發佈首款專爲電腦操作設計的開源智能體小模型Fara-7B，由70億參數構成，支持Win11端側運行，性能領先同級。模型通過視覺解析網頁截圖，執行點擊、輸入等操作，無需依賴額外可訪問性樹或多個大模型協作。微軟構建全新合成數據生成流程模擬網頁任務，Fara-7B基於Qwen2.5-VL-7B底座，支持128k上下文。來源：IT之家

11月24·週一

Meta 推出 WorldGen：一句話即可生成可交互 3D 世界

Meta 推出 WorldGen 系統，僅需一條文本提示詞即可生成可交互、可導航的三維世界。系統融合程序化邏輯推理、擴散模型等技術，輸出幾何嚴謹、視覺豐富的三維場景，適用於遊戲、模擬仿真等。可生成 50 米 ×50 米全紋理場景，風格與結構高度一致。來源：IT之家

阿里千問啓用全新域名，提供更多 Qwen3 系列模型

阿里旗下 AI 助手“千問”正式啓用全新域名 qianwen.com，進一步提升用戶的訪問便捷性。用戶現可通過網頁端直接體驗千問，與 App 端實現無縫一致的使用體驗。千問網頁端面向專業用戶開放了更多 Qwen3 系列模型體驗選擇。來源：IT之家

AI2推出的開源大型語言模型系列：Olmo 3

Allen Institute for Artificial Intelligence (AI2) 推出的開源大型語言模型Olmo 3系列，包括 Olmo 3-Base（7B 和 32B 參數）、Olmo 3-Think、Olmo 3-Instruct 和 Olmo 3-RL Zero 等版本，分別擅長編程、閱讀理解、數學解題、複雜推理、多輪對話和強化學習等任務。來源：AI工具集

11月21·週五

谷歌Nano Banana Pro上線，深度結合Gemini 3

谷歌發佈專業級圖像生成模型Nano Banana Pro，深度集成Gemini 3多模態能力。模型支持2K/4K高分辨率輸出，可融合多達14張參考圖像並保持5個人物一致性，具備精準局部編輯、多語言文字渲染及電影級調光控色功能。結合Gemini 3的知識推理與搜索引擎，能生成高準確性信息圖表。來源：機器之心

騰訊混元發佈全新視頻生成模型：HunyuanVideo 1.5

騰訊混元開源視頻生成模型HunyuanVideo 1.5，參數僅8.3B卻可生成5-10秒高清視頻。模型基於DiT架構，支持中英文文生視頻與圖生視頻，具備強指令理解能力，可精準控制運鏡、人物表情及物理運動。原生支持480p/720p輸出，經超分可提升至1080p，並在14G顯存消費級顯卡即可流暢運行，大幅降低使用門檻。來源：騰訊混元

小米具身大模型 MiMo-Embodied 發佈並全面開源

小米發佈業界首個打通自動駕駛與具身智能的跨域大模型MiMo-Embodied並全面開源。模型統一了具身智能三大核心任務與自動駕駛三大關鍵任務，實現室內交互與道路決策能力的雙向知識遷移。在29項核心基準測試中表現卓越，全面超越現有開源及專用模型。來源：IT之家

螞蟻集團領投，RockFlow完成數千萬美元新一輪融資

新加坡AI金融科技公司RockFlow完成數千萬美元融資，由螞蟻集團領投。公司推出全球首款金融交易AI Agent“Bobby”，能通過自然語言理解用戶投資意圖，自主完成從數據分析到實時交易的全流程。本輪融資將加速AI技術在金融服務領域的創新應用，推動複雜金融服務向普惠化、個性化發展。來源：RockFlow

11月20·週四

Meta推出基於SAM系列的3D重建模型SAM 3D

Meta發佈SAM 3D與SAM 3模型，實現從2D圖像到3D重建的重大突破。SAM 3D包含物體場景重建和人體姿態估計雙模型，通過創新數據引擎生成近百萬張圖像的3D標註數據，在多項基準測試中超越現有方法。來源：機器之心

AI音樂創作平台Suno完成2.5億美元C輪融資

AI音樂平台Suno完成2.5億美元C輪融資，估值達24.5億美元，較去年增長近五倍。本輪由Menlo Ventures領投，英偉達旗下NVentures等機構跟投。Suno核心產品可通過文字生成完整歌曲，最新v5版本顯著提升人聲自然度與指令執行準確率。來源：智東西

64億！AI視頻黑馬Luma AI獲新融資，要建2GW智算集羣

AI視頻創企Luma AI完成9億美元C輪融資，估值達40億美元。本輪由沙特公共投資基金旗下Humain領投，資金將用於開發多模態AI系統及建設2GW智算集羣”Project Halo”。來源：智東西

OpenAI 發佈最強編程模型 GPT-5.1-Codex-Max

OpenAI發佈GPT-5.1-Codex-Max編程模型，取代GPT-5.1-Codex，成爲Codex集成界面上默認模型。模型在多個編程基準測試中超越谷歌Gemini 3 Pro，如SWE-Bench Verified測試中準確率77.9%，領先對方1.7個百分點。其引入“壓縮”機制，可連續工作超24小時，token效率提升約30%。來源：IT之家

星動紀元獲近10億元A+輪融資！吉利資本領投，總訂單額破5億

人形機器人公司星動紀元完成近10億元A+輪融資，由吉利資本領投。公司總訂單額突破5億元，物流領域最大單筆訂單近5000萬元，海外業務佔比達50%。本輪融資將加速技術迭代與商業化落地。來源：星動紀元

11月19·週三

Gemini 3正式發佈：谷歌推出最強AI模型

谷歌正式發佈新一代多模態大模型Gemini 3，在多項基準測試中表現卓越，以1501 Elo得分位列LMArena競技場第一。模型具備原生多模態理解、高級推理及Agent編程能力，支持100萬token上下文窗口，在學術推理、數學、代碼開發等任務上顯著領先前代及競品。來源：智東西

AiPPT Agent版上線，AI「深度研究」功能開啓內測

AiPPT正式推出Agent版的「深度研究」功能並邀請用戶內測。功能模擬真人分析師工作流程，通過“理解-反思-追問”循環，自動完成從全網深度搜索、邏輯梳理到生成圖文並茂研究報告和PPT的全過程。來源：AIPPT

Anthropic獲微軟英偉達千億投資！估值飆到2.5萬億

Anthropic獲微軟、英偉達千億投資，微軟投資50億美元，英偉達投資100億美元，合計150億美元。Anthropic承諾購買價值300億美元的Azure算力，並與英偉達深度合作優化模型性能。Claude模型將登陸微軟Azure，成爲全球三大雲平台均可用的前沿模型。來源：智東西

11月18·週二

馬斯克Grok 4.1低調發布！通用能力碾壓其他一切模型

馬斯克旗下xAI公司發佈的最新AI對話模型Grok 4.1，主打情感智能與實用性能的突破。模型在LMArena排行榜以1483分登頂，比第二名高出31分，並首創”思考模式”與”即時模式”雙軌設計——即使不啓動深度推理，基礎版本仍能超越其他模型的完整配置。來源：機器之心

螞蟻集團推出全模態通用AI助手“靈光”APP

螞蟻集團正式上線全模態通用AI助手靈光APP，以結構化思維生成邏輯清晰、可視化的內容，如動態3D模型、可交互地圖等，讓知識呈現更生動；用戶通過自然語言描述，30秒內即可生成個性化AI應用，搭載AGI相機技術，通過實時視頻流解析物理世界，支持文生圖/視頻、圖生圖/視頻創作，能對物體、場景進行識別與知識講解。來源：APPSO

谷歌推出 AI 天氣預報模型 WeatherNext 2

谷歌DeepMind發佈的最新AI天氣預報模型WeatherNext 2，運算速度比前代快8倍，能生成1小時分辨率的精準預測。模型通過功能生成網絡（FGN）技術，在1分鐘內即可完成傳統超算需數小時的全球15天天氣模擬，可輸出數百種可能的天氣情景。來源：IT之家

11月17·週一

千問APP正式上線：全球首款開源AI助手挑戰ChatGPT

阿里巴巴正式推出千問APP，基於Qwen最強模型打造，全面對標ChatGPT。APP依託Qwen開源生態，全球下載量超6億次，支持119種語言，具備智能調度多應用、多模態交互等能力，成爲全球用戶的AI生產力工具。來源：AI工具集

陳天橋盛大團隊，推出最強開源記憶系統EverMemOS

陳天橋領導的盛大團隊推出的開源長期記憶操作系統EverMemOS，專爲AI智能體設計，解決大語言模型因固定上下文窗口導致的記憶斷裂問題。該系統基於人類大腦記憶機制，採用四層架構（代理層、記憶層、索引層、接口層），在LoCoMo和LongMemEval-S評測中以92.3%和82%的高分超越行業標杆。來源：機器之心

DPAI Arena：首個開源AI編程基準測試平台發佈

JetBrains聯合Linux基金會推出DPAI Arena，是全球首個開源、多語言、多框架的AI編程智能體基準測試平台。客觀衡量AI工具在真實軟件開發任務中的效率提升，填補行業空白，支持補丁修復、代碼審查等多樣化工作流的可復現評估。來源：AI工具集

字節發佈首個實時完成複雜任務的3D開放世界通用AI智能體Lumine

字節跳動Seed團隊發佈Lumine，是首個能在3D開放世界中實時完成小時級複雜任務的通用AI智能體。基於視覺語言模型，通過端到端架構統一感知、推理與行動，僅靠屏幕圖像和鍵盤鼠標操作，無需遊戲內部API。來源：量子位

11月14·週五

登頂！GLM-4.6獲LMArena代碼榜全球並列第一

全球權威 AI 評測平台 LMArena 更新 Code Arena (編程與代碼生成) 專項榜單，智譜 GLM-4.6 與 Anthropic Claude、OpenAI GPT-5 等頂尖模型一同位列全球榜首。來源：智譜

Dexmal原力靈機融資近10億元，阿里巴巴、蔚來資本分別領投

具身智能公司Dexmal原力靈機宣佈完成數億元A+輪融資，阿里巴巴爲獨家投資方。此前其A輪融資由蔚來資本領投，兩輪融資金額近10億元。資金將用於智能機器人軟硬件技術研發與落地。Dexmal專注於具身智能技術研發，自主研發的多模態具身智能大模型MMLA可實現跨場景智能泛化。來源：Dexmal原力靈機

AI編程神器Cursor（母公司Anysphere）完成23億美元D輪融資

AI編程神器Cursor（母公司Anysphere）完成23億美元D輪融資，投後估值達293億美元，成爲全球首家估值超2000億元人民幣的AI編程創企。此輪融資由Accel和Coatue領投，英偉達、谷歌等跟投。過去一年，Anysphere估值增長超10倍，年化收入突破10億美元。來源：智東西

ChatGPT 羣聊功能上線部分地區：人機共同決策討論

OpenAI宣佈在韓國、新西蘭等部分地區試點ChatGPT羣聊功能。功能基於GPT-5.1模型，支持用戶與ChatGPT共同協作，可邀請親友或同事進入共享空間，用於策劃方案、決策討論或頭腦風暴。來源：IT之家

AI PPT神器 Gamma 完成6800萬美元B輪融資

美國生成式AI創企Gamma完成6800萬美元B輪融資，估值達21億美元。Gamma創立於2020年，是一個生成式AI設計平台，可快速創建演示文稿、文檔和社交媒體帖子，支持22種AI圖像模型和60多種語言。來源：智東西

11月13·週四

OpenAI 正式發佈 GPT-5.1系列雙版本，ChatGPT 情商大漲

OpenAI發佈的AI升級版本GPT-5.1，重點優化了對話體驗而非單純性能指標。新版本包含Instant和Thinking兩大模型，前者更注重人性化交流（如自適應思考、八種風格預設），後者強化專業推理能力（簡化術語表達）。相比前代，GPT-5.1在情感互動、指令理解上顯著改善。來源：APPSO

百度發佈文心大模型 5.0：參數規模超 2.4 萬億，原生全模態

百度在世界大會上正式發佈文心大模型5.0。模型參數量達2.4萬億，採用原生全模態統一建模技術，支持文本、圖像、音頻、視頻等多模態輸入輸出，在多模態理解、創意寫作、指令遵循等方面表現突出，綜合能力達全球領先水平。來源：IT之家

全新升級、全面開放的 TRAE SOLO 正式版，限時免費

字節旗下TRAE團隊正式發佈TRAE SOLO正式版。版本定位爲“響應式編程智能體”，支持複雜項目開發，新增內置智能體SOLO CODER與SOLO BUILDER，具備上下文壓縮、多任務並行、可視化工具調用等功能，可高效應對從0到1的項目搭建及從1到100的迭代優化，現面向全球用戶開放，限時免費體驗。來源：機器之心

李飛飛宣佈正式開放首款商用世界模型產品 Marble

“AI教母”李飛飛創立的World Labs公司正式推出首款商用多模態世界模型產品Marble，用戶可通過文本、圖像、視頻或3D佈局生成高保真、可編輯的3D虛擬世界，支持導出爲高斯濺射、網格或視頻格式。來源：APPSO

11月12·週三

騰訊開源百億參數模型KaLM-Embedding，登頂MTEB多語言榜單全球第一

騰訊微信團隊推出的KaLM-Embedding-Gemma3-12B-2511模型，在MTEB多語言通用Embedding模型權威評測中綜合成績位列全球第一。模型參數量達120億，支持3840至64等多種向量維度，具備卓越的跨語言語義理解與檢索能力，在多語言語義對齊、數據質量優化及訓練策略創新方面表現突出，爲多語言應用場景提供了強大的語義基礎支持。來源：騰訊開源

OiiOii：全球首個動畫創作Agent系統上線

OiiOii是革命性的動畫創作工具，作爲全球首個動畫創作Agent系統，內置藝術總監、編劇、分鏡師等7大智能體，用戶只需輸入創意或上傳參考圖，即可一鍵生成劇本、分鏡、角色設計及完整動畫短片，支持161種風格，涵蓋劇情短片、MV、漫畫轉視頻等多種場景，大幅降低動畫創作門檻，現處於內測階段，限時免費使用。來源：AI工具集

華爲投資物理AI：“極佳視界”完成新一輪億元級 A1 輪融資

極佳視界完成億元級A1輪融資，由華爲哈勃和華控基金聯合投資，這是其在兩個月內完成的第三輪融資。極佳視界的技術解決了物理AI領域數據稀缺和仿真誤差等問題，其CEO預測“物理世界ChatGPT時刻”將在2-3年內到來。來源：量子位

主打“Database-First”的全棧AI應用構建平台——ZOER.AI

Chat2DB 團隊創始人姬朋飛及其團隊正式發佈主打“Database-First”（數據庫優先）的全棧應用構建平台 ZOER.AI ，專注於解決傳統 AI 編程工具在後端能力上的短板，通過智能設計數據庫結構、自動生成安全的後端邏輯和前端界面，實現從數據層到底層服務的全流程自動化。來源：AI工具集

Lovart推出“元素拆分”功能革新AI設計編輯體驗

AI設計平台Lovart正式上線“Edit Elements 元素拆分”功能，用戶上傳成品海報後，AI可自動拆解爲文字、主體、背景等獨立可編輯圖層，支持修改文本、替換元素及實時預覽來源：AI工具集

11月11·週二

字節發佈Doubao-Seed-Code編程模型

字節跳動正式推出Doubao-Seed-Code，專爲複雜編程任務優化。模型支持256k長上下文，兼容Anthropic API與主流IDE，性能僅次於Claude Sonnet 4.5，綜合使用成本降低62.7%，並登頂SWE-Bench Verified榜單。來源：火山引擎

月之暗面開源Kosong框架降低AI AAgent開發門檻

月之暗面（Moonshot AI）開源全新AI代理開發框架Kosong，以“簡化複雜性、釋放創造力”爲核心理念，爲下一代智能體應用提供輕量且高可擴展的底層支持。框架通過統一LLM抽象層，封裝標準化組件並搭載異步工具編排引擎，有效解決工具碎片化、接口不兼容等開發痛點。來源：AI工具集

商湯日日新開源模型實現空間智能性能突破，多項評測領先 GPT-5

商湯日日新在空間智能領域實現重要突破，正式發佈並開源SenseNova-SI系列模型。在多項權威評測的空間理解和推理任務上，SenseNova-SI 不僅大幅度領先同量級開源多模態大模型，還超越了 GPT-5 和 Gemini 2.5 Pro 等國際頂尖閉源模型的表現。來源：商湯科技SenseTime

Meta發佈Omnilingual ASR：覆蓋1600+語言的語音識別系統

Meta AI團隊推出Omnilingual ASR，是全球首個支持超1600種語言的自動語音識別系統，其中500種語言首次獲得AI語音識別支持。系統通過大規模預訓練模型和上下文學習技術，僅需少量音頻-文本樣本即可擴展新語言，字符錯誤率低於10%的語言佔比達78%。來源：AI工具集

百度AI眼鏡開售！2199元，今天定明天到手

百度旗下小度AI眼鏡Pro正式開售，售價2299元，是繼阿里巴巴夸克AI眼鏡S1後，國內第二家正式開售AI眼鏡的互聯網大廠，小度AI眼鏡Pro是一款AI拍攝眼鏡，與小米AI眼鏡類型相同，並非當下更爲“完全體”版本的AI+AR眼鏡，融合多模態AI大模型，產品功能包括拍照、聽歌識曲、智能匹配歌單、AI翻譯、AI識物、AI備忘、AI錄音等。來源：智東西

11月10·週一

堆友「全能畫布」來了！是天花板級的AI設計智能體

堆友AI反應堆正式上線AI創作全能畫布，堆友用戶可免費體驗。堆友AI集成文生圖、圖生圖、智能濾鏡、矢量編輯、字體設計、高清放大、智能摳圖、局部重繪等功能，提供一站式AI設計解決方案，實現從靈感到交付的全流程自動化。來源：堆友

全球第二、國內第一！最強百度的文心5.0 Preview

百度文心5.0 Preview在LMArena全球文本競技場排名中以1432分並列第二、國內第一，與OpenAI GPT‑4.5、Anthropic Claude等頂尖模型實力相當。實測顯示其在創意寫作、長文本理解及複雜指令遵循方面表現卓越，生成內容兼具詩意與邏輯嚴謹性。來源：機器之心

OpenAI 推出 GPT-5-Codex-Mini：“經濟高效型”AI 編程模型

OpenAI推出GPT-5-Codex-Mini，是GPT-5-Codex的“經濟高效型”版本。開發者可獲得約4倍的使用額度。在SWE-bench Verified測試中，GPT-5-Codex-Mini得分71.3%。版本適用於輕量級工程任務或接近速率上限的情況。來源：IT之家

11月7·週五

階躍星辰開源首個 LLM 級音頻編輯大模型Step-Audio-EditX

階躍星辰團隊開發的首個開源大語言模型驅動的音頻編輯工具Step-Audio-EditX，專注於通過迭代方式控制音頻的情感、說話風格和副語言特徵。核心技術採用大規模合成數據訓練，無需依賴嵌入式先驗或輔助模塊，能實現零樣本文本轉語音功能。來源：AI工具集

美團推出出AI IDE編程工具：CatPaw

美團發佈AI編程工具CatPaw，支持Python、Java等主流語言，具備實時代碼補全、問答生碼、預覽調試及項目級分析功能，目前兼容macOS，Windows版將上線。新用戶註冊獲500次免費對話額度，旨在提升開發效率。來源：AI工具集

AI大牛劉威視頻創業公司Video Rebirth，完成5000萬美元融資

AI視頻初創公司Video Rebirth宣佈完成5000萬美元種子輪融資，投資方包括啓明創投、韓國遊戲公司Actoz Soft等。公司由前騰訊傑出科學家劉威創立，致力於打造“視頻原生的世界模型”，計劃於12月發佈1.0版本產品，目標是爲專業創作者提供高保真、高可控性的視頻生成平台，挑戰現有市場格局。來源：機器之心

11月6·週四

即夢無限畫布上線，創作更自由

即夢AI上線無限畫布，提供更自由的創作空間。新功能包括無限空間、Agent共創、多會話並行和多模態創作。用戶可自由延展畫布，輕鬆處理複雜項目；通過對話即創作，一句話生成靈感；一個項目可開啓多個會話並行創作；支持圖片和視頻等多類型素材混合創作，實現一體化完成。來源：AI工具集

月之暗面Kimi發佈思考模型：Kimi-k2 Thinking

月之暗面公司最新發布的具備通用Agent能力和深度推理能力的AI模型Kimi-k2 Thinking，支持多輪工具調用和256k上下文長度。模型通過新增的reasoning_content字段展示思考過程，能自主規劃任務並調用外部工具完成複雜操作，例如自動拆解指令、分析數據並生成報告。來源：AI工具集

美團 LongCat 團隊發佈全模態一站式評測基準UNO-Bench

美團 LongCat 團隊推出全模態大模型評測基準UNO-Bench，精準衡量模型在圖像、音頻、視頻和文本等單模態與全模態任務上的表現。基準通過高質量、多樣化的數據構建，首次驗證全模態大模型的“組合定律”，揭示單模態與全模態能力的複雜關係。來源：龍貓LongCat

科大訊飛星火 X1.5 深度推理大模型發佈

科大訊飛在2025全球1024開發者節上發佈訊飛星火X1.5深度推理大模型。模型基於全國產算力，攻克MoE模型全鏈路訓練效率，端到端性能達國際競品93%以上。其語言理解、文本生成等能力對標國際主流大模型，數學能力國際領先，多語言能力支持130多種語言，性能達GPT-5的95%以上。來源：IT之家

11月5·週三

360發佈：FG-CLIP2登頂全球最強圖文跨模態模型

360 推出的 FG-CLIP2 模型在圖文跨模態領域取得重大突破。模型在八大類任務、29 項測試中全面超越 Google 與 Meta，成爲目前最強的圖文跨模態 VLM 模型。FG-CLIP2 能實現像素級的圖像理解，精準識別細節，如毛髮、斑點、色彩等，具備強大的中英文細粒度理解能力。來源：機器之心

銀河通用發佈環視導航基座大模型 NavFoM

銀河通用聯合多所高校推出全球首個跨本體全域環視導航基座大模型 NavFoM。支持全場景、多任務、跨本體，可適配多種機器人形態，如機器狗、輪式人形等。NavFoM 通過創新的 TVI Tokens 和 BATS 策略，實現時空理解與高效算力利用，基於龐大訓練數據體系，其在多個國際基準上達 SOTA 水平，可直接部署於真實機器人，無需任務微調。來源：銀河通用機器人

AI醫療獨角獸Hippocratic AI完成8億融資，估值250億

美國生成式AI醫療獨角獸Hippocratic AI完成1.26億美元C輪融資，估值達35億美元，較年初翻超一倍。此輪融資由谷歌母公司Alphabet旗下CapitalG等參投，資金將用於併購、產品開發和拓展國際業務等。來源：智東西

軟銀與 OpenAI 宣佈成立合資公司，明年推出企業級 AI 解決方案

軟銀集團與OpenAI宣佈成立合資公司“SB OAI Japan”，計劃於2026年推出企業級AI解決方案“Crystal Intelligence”。該方案將結合OpenAI技術與定製化服務，助力日本企業提升生產力和管理效率。軟銀將率先部署該技術，積累經驗後向其他企業推廣。來源：IT之家

11月4·週二

AI視頻創作平台SkyReels正式煥新上線

崑崙萬維旗下AI視頻創作平台SkyReels煥新上線。其Web端與移動端APP全面登陸，聚合全球頂尖AI多模態模型，提供圖片生成、視頻生成、數字人、音樂生成等多種創作方式。SkyReels V3模型更新，新增無限畫布、數字人、模板功能、專家Agent、視頻延長和風格化等能力，讓專業創作更簡單。來源：崑崙萬維集團

OpenAI與亞馬遜達成380億美元算力合作

OpenAI與亞馬遜宣佈達成合作，OpenAI將在未來7年向亞馬遜採購價值380億美元（約合人民幣2704.6億元）的雲計算服務。亞馬遜雲科技將爲OpenAI提供亞馬遜彈性計算雲超級服務器，預計明年年底前部署完畢。來源：智東西

零一萬物聯合開源中國推出OAK平台“Open AgentKit”

零一萬物與開源中國聯合發佈“Open AgentKit平台”（OAK），打造Agent世界的“生態適配器”。OAK平台支持多種開源大模型，提供一站式解決方案，助力開發者實現“Agent開發自由”。平台四大核心模塊，包括OAK Framework、Builder、Runtime和Studio，將逐步推出並邀請社區共建。來源：零一萬物 01AI

11月3·週一

LongCat-Flash-Omni 正式發佈並開源：開啓全模態實時交互時代

美團 LongCat 團隊正式發佈並開源 LongCat-Flash-Omni 模型。模型基於 LongCat-Flash 系列架構，集成多模態感知與語音重建模塊，總參數達 5600 億，激活參數 270 億，實現低延遲實時音視頻交互。來源：龍貓LongCat

阿里通義千問Qwen3-Max上線深度思考模式

阿里 Qwen 團隊宣佈 Qwen3-Max Thinking 在 Qwen Chat 上線。模型是萬億參數的 MoE 模型，曾在 AIME25、HMMT25 數學測試中獲滿分。用戶可在 Qwen Chat 中選擇該模型並開啓 Thinking 模式，免費體驗。來源：AI工具集

10月31·週五

MiniMax Music 2.0：讓音樂創作屬於每一個人

MiniMax發佈最新音樂模型Music 2.0。模型在音樂理解與表達上實現飛躍，能精準捕捉人聲情緒與器樂張力。支持多種唱法和情感風格，可精準控制人聲音色，實現一聲千變。在旋律創作上，可生成結構完整、抓耳的歌曲，能獨立控制多種樂器，編曲層次豐富。音質全面升級，帶來沉浸式聽覺體驗。來源：MiniMax稀宇科技

美團LongCat團隊發佈WOWService：打造卓越智能交互體驗

美團LongCat團隊發佈WOWService大模型交互系統技術報告，針對本地生活服務領域大模型落地的“三重困境”，提出四大核心技術框架。系統融合多智能體協同、強化學習等技術，通過人機協同標註等方式降低成本，已在美團智能客服等數十個業務場景落地。來源：龍貓LongCat

月之暗面全新的注意力架構Kimi Linear橫空出世

月之暗面推出全新注意力架構Kimi Linear，有望成爲下一代Agent LLM基石技術。架構核心是Kimi Delta Attention（KDA），通過精細化門控機制和硬件高效算法，實現性能與效率大幅提升。來源：AI工具集

OpenAI發佈找Bug智能體Aardvark：全自動讀代碼找漏洞寫修復

OpenAI 發佈了由 GPT-5 驅動的Agent——Aardvark，能自動在大規模代碼庫中發現並修復安全漏洞。Aardvark 可識別 92% 的已知與人工注入漏洞，還能定位複雜條件下的問題。通過監控代碼提交、分析、驗證漏洞並生成修復建議，與 OpenAI Codex 深度集成，爲漏洞生成修復補丁。來源：量子位

智源悟界·Emu3.5：開啓多模態世界大模型新紀元

北京智源人工智能研究院發佈“悟界·Emu3.5”，開啓多模態世界大模型新紀元。Emu3.5是340億參數的稠密自迴歸Transformer模型，將圖像、文本和視頻等多模態數據統一建模，實現從“下一Token預測”到“下一狀態預測”的能力躍遷。來源：智源研究院

10月30·週四

MiniMax Speech 2.6：最強 Voice Agent 來襲

MiniMax Speech 2.6發佈，全面升級Voice Agent場景。模型端到端延遲低於250毫秒，支持多種語言的網址、郵箱等非標準文本格式直接轉換，提供Fluent LoRA功能，即使原始素材不完美，也能生成流利自然的語音。來源：MiniMax稀宇科技

Cursor 2.0來了！多agent並行，自研模型30秒跑完多數任務

AI編程平台Cursor發佈2.0版本及自研編程模型Composer。Composer專爲低延遲編程設計，速度達同等模型4倍，每秒輸出超200個token，智能水平超開源編程模型。新版本界面以Agent爲核心，支持並行運行最多8個Agent，可並行處理任務並擇優選擇。新增原生瀏覽器工具，實現代碼修改“指哪兒改哪兒”，代碼審查功能升級，聚合修改細節。來源：智東西

Adobe推出最強圖像生成模型Firefly Image 5！原生400萬像素

Adobe發佈其最先進的圖像生成與編輯模型Firefly Image 5，支持400萬像素原生輸出，具備文本指令編輯、分層圖像編輯等功能，還新增視頻和音頻生成工具。Adobe還爲Photoshop、Premiere Pro和Lightroom等應用推出全新生成式AI工具，並支持更多第三方模型。來源：智東西

智譜清言全新推出「研究模式」

智譜清言推出全新「研究模式」，幫助用戶高效深入地開展研究。模式可圍繞問題全網搜索並整合分析，自動生成結構化、可引用的研究報告，適用於學術研究、商業洞察、生活決策和熱點追蹤等多種場景。來源：智譜清言

英國AI視頻生成獨角獸Synthesia完成2億美元融資

英國AI視頻生成獨角獸Synthesia完成2億美元（約14億元人民幣）融資，估值達40億美元（約284億元人民幣），由谷歌風投領投，英偉達可能參與。Synthesia成立於2017年，專注於爲企業生成虛擬形象視頻，用於營銷、培訓等，已有6萬家企業使用其平台，覆蓋約70%的全球財富100強企業。來源：智東西

10月29·週三

Flowith發佈 Agent 操作系統 FlowithOS，超越 OpenAI Altas

Flowith正式發佈FlowithOS，爲AI Agent打造的全新操作系統。解決AI普遍存在的“思考與執行脫節”問題，如跨網頁、跨環境執行困難等。FlowithOS通過整合瀏覽器，爲AI Agent提供思考與行動的環境。附：FlowithOS邀請碼來源：AI工具集

混元推出國內首個交互式AI播客，聽播客可以“舉手”提問了

騰訊混元推出國內首個交互式AI播客，用戶可在收聽過程中隨時打斷並提問。播客基於大模型意圖識別、長上下文理解等能力，結合上下文和背景信息給出準確答案。用戶能自主選擇播客風格、主持人數及音色，支持快速創作播客內容。來源：騰訊混元

GitHub 推出 Agent HQ，目標統一管理所有智能體

GitHub推出Agent HQ平台，統一管理AI編程智能體並集成至工作流中。Agent HQ核心爲Mission Control指揮中心，可協調多智能體任務分配與管理，支持跨平台操作。其Plan Mode功能可提升代碼質量。開發者可通過AGENTS.md創建自定義智能體。來源：AI工具集

OpenAI股改完成，非營利主體更名

OpenAI完成資本結構重組，上市道路鋪平。非營利主體更名爲OpenAI Foundation，掌控營利實體26%股份，目前估值約1300億美元。員工和投資者持有47%股份，微軟持有32.5%股份。OpenAI還同意購買2500萬美元微軟Azure雲服務，微軟股價一度上漲3.5%。來源：量子位

Google Labs推出一款AI營銷工具：Pomelli

Google Labs推出AI營銷工具Pomelli，幫助中小型企業快速創建符合品牌氣質的社交媒體活動。用戶只需提供公司網站，Pomelli會自動提取品牌信息，建立“商業DNA”，並生成活動創意和視覺素材。用戶可編輯調整後直接使用。來源：AI工具集

10月28·週二

ChatDB直接對話數據庫！ChatExcel全新升級

ChatExcel推出全新升級版ChatDB，用戶無需SQL基礎和複雜BI工具，僅通過對話即可連接數據庫，快速處理百萬數據並生成可視化報告。登錄chatexcel.com，進入工作台即可使用ChatDB模塊，連接數據庫後，可一鍵提取、分析數據，並生成數據看板。來源：元空AIExcel

Mistral AI 推出企業級 AI 應用開發平台AI Studio

法國 AI 初創公司 Mistral AI 推出企業級 AI 應用開發平台Mistral AI Studio，幫助企業將 AI 從原型開發過渡到可靠、可擴展的生產系統。平台具備深度可觀察性、Agent 運行時和 AI 註冊表三大核心功能，支持混合、本地和 VPC 部署，滿足企業對 AI 應用的安全、合規和隱私要求。來源：AI工具集

MiniMax Hailuo 2.3 視頻複雜表現新高度

MiniMax發佈視頻模型Hailuo 2.3，升級動態表現力，肢體動作、風格化、微表情效果顯著提升，運動指令響應優化。支持多種畫風，真人面部表演更自然，物體運動響應出色。性能提升的同時保持原價格，新增Hailuo 2.3 Fast模型，降低成本。來源：MiniMax稀宇科技

xAI推出開源知識庫Grokipedia，收錄超88.5萬篇文章

埃隆·馬斯克旗下的xAI團隊推出Grokipedia，AI驅動的百科全書正式上線測試版。平台收錄超88.5萬篇文章，主打“無偏見”特性，通過Grok AI模型自動審覈內容真實性，部分條目源自維基百科但標註爲“改編內容”。來源：AI工具集

10月27·週一

豆包視頻生成模型1.0 pro fast正式發佈：提速3倍，價格直降72%

火山引擎發佈豆包視頻生成模型1.0 Pro Fast（Doubao – Seedance – 1.0 – pro – fast），模型在火山引擎的Seedance 1.0 Pro模型基礎上，生成速度提升約3倍，價格直降72%。其生成720P的5秒視頻僅需10秒，生成5秒1080P視頻成本僅1.03元。來源：火山引擎

Skywork AI 的網頁復刻（Web Clone）功能正式上線

崑崙萬維集團旗下的Skywork AI推出網頁復刻功能，用戶僅需提供網頁鏈接、上傳文件或輸入文字描述，AI便能在數分鐘內生成功能完備、結構清晰、風格相近的網頁原型。通過深度算法解析網頁邏輯與層級，實現結構級復構，而非簡單複製外觀。來源：崑崙萬維集團

谷歌 Gemini 獲得新技能：一個提示詞、一份文件就能生成 PPT

谷歌Gemini的免費互動工作區Canvas推出新功能，可基於一個提示詞或上傳的文件（文檔、電子表格、研究論文等）生成PPT幻燈片，並自動配上主題和相關圖片。用戶能將生成的幻燈片直接導出到Google Slides進行編輯、優化或團隊協作。來源：IT之家

LongCat-Video 視頻生成模型正式發佈，探索世界模型的第一步

美團開源了 LongCat-Video 的通用視頻生成模型，參數量達 13.6B。模型能實現文生視頻、圖生視頻以及視頻續寫等功能，能在幾分鐘內生成 720p、30fps 的長視頻，畫面連貫、人物穩定、物理邏輯合理。來源：龍貓LongCat

月之暗面開源 Agentic Coding 工具：Kimi CLI

月之暗面科技有限公司推出開源 Agentic Coding 工具 Kimi CLI 技術預覽版，採用 Shell-like UI，支持 ACP 協議。可在 GitHub 交流反饋。來源：月之暗面Kimi

MiniMax發佈最新大語言模型MiniMax M2

MiniMax公司發佈最新大語言模型MiniMax M2。目前基於M2的agent免費使用，支持開發代碼、研究、製作PPT等多種功能，還可接入日常編程工具。從測試數據來看，其coding能力接近Claude 4.5 Sonnet，工具使用流暢。用戶可通過設置MiniMax-M2-Preview使用該模型來源：AI工具集

10月24·週五

OpenAI收購Sky，面向Mac的自然語言交互界面

OpenAI收購了SAI公司，該公司開發了Sky——一款面向Mac的自然語言交互界面。OpenAI將把Sky技術整合進ChatGPT，並吸納SAI約12人的團隊。SAI的三位聯合創始人均出身蘋果，其CEO和CTO曾創立被蘋果收購的Workflow，演化爲如今的Shortcuts技術。此次收購不僅是看中Sky的技術，更是爲ChatGPT入局操作系統鋪路。來源：量子位

支付寶推出多模態AI應用“靈光”

支付寶推出多模態AI應用“靈光”，已上線騰訊應用寶、vivo應用商店等平台並開啓邀約內測。其核心功能AGI相機可通過鏡頭識別場景內容，實現拍攝即問、實時理解與回答，強調認知層理解，具備強場景分析與多模態推理能力。來源：AI工具集

螞蟻集團投的靈巧手公司，又融了數億元

靈心巧手宣佈完成數億元A輪融資，由京國瑞管理公司和博佳資本領投，老股東螞蟻集團繼續加註。本輪融資將助力其加速量產能力升級、加快全場景技術研發與全球化佈局。來源：智東西

谷歌官方學習平台 Google Skills 來了，免費還實用

谷歌推出AI技能學習平台Google Skills，整合Google Cloud、DeepMind等團隊資源，提供近3000門課程、實驗室及認證，覆蓋AI基礎、生成式AI、數據分析等領域。平台面向全職場人羣，零門檻接入，每月免費提供35個學習點數用於實操實驗。來源：AI工具集

豆包編程升級，新增創作模式，讓創意輕鬆實現

豆包編程完成重大升級，讓零基礎用戶也能輕鬆開發網站和應用。此次升級引入多模態輸入功能，支持文字、圖片、文件、畫板等多種輸入形式，AI可自動理解並補全邏輯。新增Agent多工具協作系統，自動聯網搜索素材、配圖、檢查代碼，確保生成內容的準確性和可用性。來源：豆包

10月23·週四

LiblibAI融資1.3億美金，紅杉CMC領投

LiblibAI近期完成1.3億美元B輪融資，由紅杉中國、CMC資本及大廠戰投聯合領投，是今年中國AI應用領域最大一筆融資。LiblibAI上月發佈2.0版本，從模型社區進化爲AI創作Studio。來源：暗湧Waves

Seed3D 1.0 發佈，一張圖生成高精度 3D 模型，紋理生成能力 SOTA

字節跳動Seed團隊推出3D生成大模型Seed3D 1.0，可從單張圖像生成高精度3D模型，兼具物理模擬精確性與可擴展性。其基於Diffusion Transformer架構，通過大規模數據訓練，具備高保真資產生成、物理引擎兼容性和可擴展場景組合能力，在幾何與紋理生成方面表現優異。來源：字節跳動Seed

百川發佈最強循證增強大模型 M2 Plus，打造“醫生版 ChatGPT”

百川發佈了循證增強醫療大模型Baichuan-M2 Plus，並升級應用百小應及開放API。模型首創六源循證推理範式，構建從原始研究到真實世界的完整知識體系，通過循證檢索與推理，顯著降低醫療幻覺率，其幻覺率較DeepSeek低約3倍，優於美國醫療產品OpenEvidence，可信度比肩資深臨牀醫生水準。來源：百川大模型

10月22·週三

OpenAI首款ChatGPT Atlas瀏覽器發佈！免費下載使用

OpenAI發佈首款AI原生瀏覽器ChatGPT Atlas。瀏覽器基於谷歌開源的Chromium內核打造，整合了ChatGPT對話能力，每個標籤頁都能直接聊天。具備瀏覽器上下文助手能力，可直接在瀏覽頁面提問；內置記憶功能，記錄用戶瀏覽關鍵內容；“Cursor Chat”功能可選中文本進行編輯潤色；Agent模式能完成網頁操作，如填寫表單、預訂等。來源：量子位

混元世界模型1.1開源：支持多視圖及視頻輸入，單卡部署，秒級生成

騰訊發佈並開源了混元世界模型1.1（HunyuanWorld-Mirror）。模型新增支持多視圖及視頻輸入，可在單張顯卡上部署，秒級生成3D世界。突破了1.0版本僅支持文本或單圖輸入的侷限，首次實現了多模態先驗注入和多任務統一輸出的端到端3D重建，支持點雲、深度圖、相機參數等多種3D幾何預測，性能大幅領先現有方法。來源：騰訊混元

AipexBase，中國首個AI原生後端基礎設施正式開源！

北京跨赴科技（KuaFuAI）正式開源中國首個AI原生後端即服務（Backend-as-a-Service）平台AipexBase。讓開發者“不寫後端，也能擁有完整後端”，所有後端能力如數據存儲、鑑權等均被自動封裝，開發者可通過前端SDK或MCP協議一鍵調用。AipexBase原生兼容MCP，統一上下文與數據層，支持碼上飛、Cursor等AI產品接入，深度適配中國開發生態，兼容飛書、釘釘、微信等生態接入。來源：CodeFlying碼上飛

2B、32B！更適合開發者體質的Qwen3-VL來啦

Qwen3-VL家族新增2B與32B兩個密集模型尺寸，從輕量級到甜品級，覆蓋視覺語言理解場景。兩種版本可選：Instruct適合對話與工具調用，Thinking強化長鏈推理與複雜視覺理解。Qwen3-VL-32B在多個領域表現優於GPT-5 mini等，僅用32B參數匹敵235B模型。Qwen3-VL-2B小體量但表現驚人，可在極限端側設備上運行。來源：通義千問Qwen

Anthropic 公司推出Claude 桌面版

Claude桌面版正式發佈，支持Mac和Windows系統。版本有四項核心功能：全局快捷鍵（Mac雙擊Option喚醒）、分享工作（截圖、窗口分享、拖拽文件）、語音輸入（按Caps Lock說話）和連接工具（可調用代碼編輯器、本地文件、數據庫）。來源：AI工具集

靈巧手公司星際光年完成Pre-A輪融資

深圳星際光年科技有限公司發佈新品五指靈巧手Pantheon 22，並完成Pre-A輪融資。本輪融資由賽納資本、普華資本領投，柯熙創投跟投，深渡資本擔任財務顧問。資金將主要用於靈巧操作底層技術攻關、靈巧手操作系統（小腦模型）研發及核心團隊擴張。來源：智能湧現

10月21·週二

Vidu Q2 參考生視頻全球上線，高一致性，速度更快，價格更優惠

Vidu Q2 參考生視頻全球上線，本次升級聚焦於高一致性，速度更快，價格更優惠三大核心，滿足專業及半專業創作者日益增長的高想象力內容創作需求。目前Vidu Q2參考生視頻已在全球同步上線，用戶可以在Vidu網頁端，或各大應用商店搜索Vidu AI APP，體驗最新功能。來源：Vidu AI

Anthropic正式上線網頁版Claude Code

Anthropic發佈Claude Code 網頁版，用戶無需部署即可在瀏覽器中使用其代碼生成功能。核心功能包括連接 GitHub 倉庫、自動寫代碼、並行處理多個任務、實時查看進度以及完成後自動創建 PR。來源：AI工具集

CodeBuddy IDE 1.0 正式版煥新發布！支持Web Fetch、自定義指令

CodeBuddy IDE 1.0 正式版發佈，國際版全面支持 GPT-5-Codex，新增自定義指令、Web Fetch 實時獲取網絡信息等功能，MCP 市場正式開放，支持完整 DiffView 功能。來源：騰訊雲代碼助手CodeBuddy

5000元不限席位，Cherry Studio 企業版擊穿底價，讓每家公司都用上專屬AI

Cherry Studio 企業 Express 版正式發佈，以 5000 元買斷價、不限員工席位，爲企業提供一站式 AI 落地解決方案。該版本內置頂級閉源與開源模型，無需申請 API Key，解決網絡問題，簡化計費流程，支持私有化和雲應用部署。來源：Cherry Studio-千慧科技

智譜推出GLM Coding Plan企業版：以最強Agentic Coding賦能千行百業

智譜發佈 GLM Coding Plan 企業版，基於 GLM-4.6 模型，爲企業提供全面智能編程解決方案。產品在國際 API 平台 OpenRouter 趨勢榜中名列第一，融合多模態理解、聯網搜索及智能編排能力，提供從代碼生成到全鏈條開發協同的一站式服務。企業版具備高用量、低成本、高性能和高安全性，無縫適配 10 餘款主流編程工具，支持靈活成員管理和使用數據分析。來源：智譜

美團發佈面向複雜問題的大模型智能體評測基準——VitaBench

美團 LongCat 團隊發佈 VitaBench，是面向複雜問題的大模型智能體評測基準。以外賣點餐、餐廳就餐、旅遊出行三大生活場景爲載體，構建了包含 66 個工具的交互式評測環境。VitaBench 從深度推理、工具使用與用戶交互三大維度量化任務複雜性，通過真實用戶模擬器和原子化評估準則實現細粒度評估。來源：量子位

10月20·週一

DeepSeek 再開源：發佈 3B MoE OCR 模型DeepSeek-OCR

DeepSeek推出全新視覺文本壓縮模型DeepSeek-OCR。模型參數僅3B，採用混合專家架構，視覺token數量減少20倍，壓縮比達20倍，20個節點每天可處理3300萬頁數據。在Fox benchmark測試中，各文本長度區間準確率超85%。支持多種分辨率配置、多語言處理、複雜圖表解析等多模態能力，可在多輪對話中實現10倍壓縮效率。來源：AI工具集

宇樹發佈180cm仿生人形機器人！會跳芭蕾能打功夫

宇樹發佈第四款人形機器人H2，高180cm，重70kg。相比前代H1，H2在運動流暢性和仿生特徵上有顯著提升。H2擁有31個關節，分佈在雙臂、雙腿和軀幹，能完成芭蕾舞、中國武術等高難度動作。還被賦予了類似人類的面部特徵，外觀和運動姿態更接近人類。來源：APPSO

全球榜首！百度最新開源模型PaddleOCR-VL

百度自研多模態文檔解析模型PaddleOCR-VL發佈僅16小時就登頂HuggingFace Trending全球第一。模型參數僅0.9B，輕量高效，能精準識別文本、手寫漢字、表格等多種複雜元素，支持109種語言。來源：百度AI

10月17·週五

李飛飛世界模型新成果RTFM 「Real-Time Frame Model」震撼問世

斯坦福大學教授李飛飛的創業公司World Labs推出了實時生成式世界模型RTFM。模型可在單個H100 GPU上運行，輸入2D圖像後，能生成不同視角下的新2D圖像，實現3D一致性和持久性。RTFM基於大規模視頻數據訓練，無需顯式構建3D表示，而是通過端到端學習模擬3D幾何、反射等特徵。來源：機器之心

美團開源 LongCat-Audio-Codec，高效語音編解碼器助力實時交互落地

美團LongCat團隊開源了語音編解碼方案LongCat-Audio-Codec。專爲語音大語言模型（Speech LLM）設計，通過語義與聲學雙Token並行提取機制，兼顧語音的語義和聲學特徵，解決了傳統方案中語義與聲學信息難以平衡的問題。低延遲流式解碼器支持實時交互，滿足車載語音助手、實時翻譯等場景的需求。來源：龍貓LongCat

一鍵開發完整 Web 應用：Manus 1.5 正式發佈，速度提升近四倍

Manus宣佈推出Manus 1.5版本。在任務執行速度、可靠性和輸出質量方面顯著提升，任務平均完成時間縮短至不足4分鐘，速度提升近四倍。Manus 1.5提供兩種模型：Manus-1.5適用於高複雜度任務，Manus-1.5-Lite則針對成本效率優化。新版本具備全棧Web應用開發功能，用戶可通過對話完成從開發到部署的全過程。來源：IT之家

愛詩科技完成B+輪1億元融資，ARR突破4000萬美金

AI視頻企業愛詩科技宣佈完成1億元人民幣B+輪融資，由復星銳正、同創偉業、順禧基金等共同投資。愛詩科技旗下產品PixVerse與拍我AI服務於C端大衆與專業創作者，用戶規模已突破一億，ARR超過4000萬美元，MAU超過1600萬。來源：愛詩科技AIsphere

10月16·週四

谷歌推出新款視頻生成模型 Veo 3.1

谷歌發佈AI視頻生成模型Veo 3.1，帶來更豐富的音頻、敘事控制及逼真的質感還原。Veo 3.1在Veo 3基礎上，提升提示詞遵循度，增強視聽質量。其驅動的AI電影創作工具Flow更新，支持原生音頻生成，用戶可將靜態圖像轉視頻、整合多圖像元素、延展視頻時長等，實現更精細的視頻編輯與顆粒化控制。來源：機器之心

訊飛星火升級的「深度研究」全新上線

訊飛星火“深度研究”功能全新升級，實現底層思維鏈路、信息融合與內容呈現的全方面進化。功能通過多輪思考和搜索迭代，深度理解用戶意圖，提升內容質量；支持輸出高質量圖片，新增HTML網頁導出與一鍵轉PPT功能；結合外部搜索信源和本地文檔，實現個性化思考。來源：訊飛開放平台

通義千問正式推出 Qwen Chat Memory 功能

Qwen Chat Memory正式上線，賦予了Qwen“長記憶”能力。能理解上下文、保留重要信息並回憶過往對話，使交流更具延續性。讓Qwen在對話中主動關聯過往互動，更好地理解用戶需求，爲用戶提供更個性化的服務。來源：通義千問Qwen

豆包發佈四款大模型：能理解情感、調節音調風格、準確讀出公式

火山引擎全新發布和升級了四款豆包大模型，包括豆包大模型1.6升級版、豆包大模型1.6 lite、豆包語音合成模型2.0和豆包聲音復刻模型2.0。豆包大模型1.6升級版原生支持四種思考長度，是國內首個原生支持“分檔調節思考長度”的模型，可平衡效果、時延和成本。豆包大模型1.6 lite更輕量、推理速度更快、性價比更高。來源：火山引擎

Anthropic 發佈了 Claude Haiku 4.5，速度翻倍價格大砍

Anthropic發佈了Claude Haiku 4.5模型。模型在保持高性能的同時，速度翻倍且價格大幅降低。在SWE-bench Verified測試集中，Haiku 4.5取得了73%的成績，與Claude Sonnet 4和OpenAI的GPT-5處於同一水平線，在某些任務上甚至超過Sonnet 4。來源：APPSO

阿里Qoder產品家族再增一員，Qoder CLI 將智能拓展到終端

阿里推出全新AI編程工具Qoder CLI，專爲命令行環境打造的AI Coding Agent。集成頂尖編程模型，設計輕量級Agent框架，具備強大代碼生成與理解能力，同時降低內存消耗和命令響應時間，提升開發效率。Qoder CLI無需複雜初始化，安裝即用，支持文件編輯、命令運行等功能，並可通過MCP擴展或自定義開發工具。來源：Qoder

智元精靈 G2 新一代工業級交互式具身作業機器人發佈

智元機器人發佈新一代工業級交互式具身作業機器人——智元精靈G2。機器人以工業標準打造，搭載NVIDIA Jetson Thor芯片，配備高精度力控雙臂和19自由度的靈巧手，具備3D觸覺感知和5自由度腰腿搭配全向底盤。支持多人連續語音對話與知識庫問答，採用雙電池熱插拔換電技術，配備360環視魚眼和前後雙激光雷達，可主動避障。來源：IT之家

10月15·週三

僅4B！阿里千問最強視覺模型新開源

阿里通義千問團隊推出Qwen3-VL系列4B與8B版本，提供Instruct和Thinking版本。新版本資源門檻低，核心能力不減配，在多模態性能上表現優異，多個基準測試中超越谷歌Gemini 2.5 Flash Lite、OpenAI GPT-5 Nano等同級別頂尖模型，甚至媲美阿里此前旗艦模型Qwen2.5-VL-72B。來源：智東西

谷歌 NotebookLM 視頻概覽支持 Nano Banana

NotebookLM視頻概覽功能發佈更新升級，新增了六種由 Nano Banana 提供配圖支持的視覺風格：Watercolor、Papercraft、Anime、Whiteboard、Retro Print 和 Heritage。更新徹底告別了以往固定主體動態顏色的限制，效果提升明細。目前僅支持 Pro 用戶。來源：AI工具集

10月14·週二

Karpathy最新開源項目“nanochat”爆火，一夜近5k star

前特斯拉AI總監Karpathy推出開源項目“nanochat”，僅用約8000行代碼復現ChatGPT全流程。項目在GitHub上線不到12小時，星標數已破4.2k。用戶只需一台GPU、約4小時和100美元成本，就能訓練出一個能寫詩、回答基礎問題的“小型ChatGPT”。來源：AI工具集

螞蟻正式發佈萬億思考模型Ring-1T，發佈即開源

百靈團隊正式發佈萬億思考模型Ring-1T，宣佈開源。模型基於Ling 2.0架構，具備1T總參數和50B激活參數，支持最高128K上下文窗口。通過大規模可驗證獎勵強化學習（RLVR）訓練，Ring-1T在數學競賽、代碼生成、邏輯推理等高難度任務上表現優異，達到開源領先水平。來源：百靈大模型

微軟推出的首款自研圖像生成模型MAI-Image-1

微軟宣佈推出首款完全自主研發的圖像生成模型MAI-Image-1，模型在LMArena的文本到圖像模型排行榜上首次進入前十。微軟AI致力於爲所有人創造AI，MAI-Image-1爲創作者提供真正的價值，避免重複或泛泛的輸出。專注於生成逼真的圖像，如光影效果和風景，並在速度和質量上表現出色。來源：AI工具集

OpenAI再出手！與博通雙方達成AI芯片合作

OpenAI與定製ASIC廠商博通宣佈合作，共同開發10吉瓦的定製人工智能加速器。博通將從2026年下半年開始部署相關係統，並於2029年年底完成。受此消息影響，博通盤中股價漲超10%。來源：第一財經

騰訊優圖推出高性能通用文本嵌入模型Youtu-Embedding

騰訊優圖實驗室開源了高性能通用文本嵌入模型Youtu-Embedding。模型面向企業級應用，可勝任文本檢索、意圖理解等六大任務，在中文文本嵌入評測基準CMTEB上以77.46分登頂。採用“LLM基礎預訓練→弱監督對齊→協同-判別式微調”的三階段訓練，結合創新微調框架與精細化數據工程，解決了多任務學習難題。來源：騰訊開源

10月13·週一

多模態模型社區全新升級，LiblibAI 2.0正式上線

LiblibAI 2.0正式上線，是中國最大的多模態模型社區的全新升級。自2023年起步，LiblibAI已匯聚2000萬創作者，在新版本中，從單純的工具集合轉變爲創作者的AI專業工作室。新版本具備極簡生成器，可同時完成視頻與圖像生成；兼容開源與閉源模型，整合全球最大圖片風格開源模型庫，支持AI工作流批量化處理。來源：LiblibAI

工業AI智能體公司「設序科技」獲數千萬元Pre B輪融資

工業AI智能體公司“設序科技”完成數千萬元Pre-B輪融資，投資方爲湧鏵投資和廣發信德。過去一年，公司已連續完成三輪融資，累計金額超億元。設序科技成立於2020年，旗下產品“閃設”是一款工業智能生成式設計軟件，可快速生成3D設計方案和2D工程圖紙，已應用於汽車、3C、能源等領域，客戶包括比亞迪、本田等。來源：36氪

未來智能完成億元級A輪融資，螞蟻集團領投

中國AI硬件公司未來智能完成億元級A輪融資，由螞蟻集團領投，啓明創投超額跟投。是其今年第三次融資，累計融資規模進一步擴大。本輪融資將用於豐富AI辦公硬件產品矩陣、加速海外自主品牌viaim建設和市場推廣，以及加大對AI Agent等前沿技術的投入。來源：智東西

10月10·週五

吳恩達官宣新課《Agentic AI》，手把手教你構建AI智能體

吳恩達宣佈推出新課程《Agentic AI》，教授構建AI智能體的技能。課程已在deeplearning.ai上線。學習者將掌握反思、工具使用、規劃和多智能體協作等四種關鍵智能體設計模式。課程強調規範化評估和錯誤分析流程的重要性，幫助學員高效改進智能體工作流。來源：AI工具集

Sand.AI 團隊推出的 AI 視頻生成平台Gaga，國產的 Sora2

國產AI視頻生成產品Gaga上線。Gaga由Sand.ai團隊開發，專注於對話場景的視頻生成，用戶上傳一張照片和一段台詞，3分鐘內即可生成包含聲音、表情、情緒和背景音的視頻。與Sora2相比，Gaga專精於胸部以上的對話演繹，成本不到Sora2的1/20。來源：AI工具集

Figure AI 發佈最新人形機器人——Figure 03

Figure AI發佈第三代人形機器人Figure 03，號稱全球最強大。機器人配備全新傳感系統和手部結構，搭載自研“視覺 – 語言 – 動作”AI系統Helix，能思考而非僅執行指令。以家庭場景優先，採用柔性材質、無線充電等，零部件製造成本降低90%，目標是幫用戶做家務。來源：APPSO

鏡識科技獲數千萬元融資，做出全球首款雙形態家庭機器人

鏡識科技完成數千萬元A輪融資，由常春藤資本獨家投資。公司成立於2024年，專注於具身智能技術的研發與應用。其研發的“黑豹2.0”四足機器人以10.9米/秒的速度打破波士頓動力Wildcat塵封十餘年的紀錄。來源：36氪

谷歌加入CUA戰場，發佈Gemini 2.5 Computer Use模型

谷歌DeepMind發佈Gemini 2.5 Computer Use模型，可讓AI直接控制瀏覽器，執行點擊、滾動、輸入等操作。模型基於Gemini 2.5，與OpenAI的CUA類似，通過視覺理解和推理能力幫助用戶完成任務。在基準測試中，其性能達到SOTA水平，速度優於其他模型。來源：機器之心

10月9·週四

快手推出AI原生IDE工具：CodeFlicker，對標Cursor

快手正在開發一款名爲“CodeFlicker”的集成開發環境工具，支持AI問答、代碼自動補全、基於Agent的AI編程等功能，可幫助程序員自動化完成開發任務，實現端到端開發。工具提供Jam模式和Duet模式等交互模式，能將複雜任務拆解爲清晰可追蹤的待辦步驟，還通過MCP靈活集成不同數據源、工具和服務，拓寬應用場景邊界。來源：AI工具集

螞蟻百靈正式發佈Ling 2.0系列的首款旗艦非思考模型——Ling-1T

百靈團隊正式發佈Ling 2.0系列的首款旗艦非思考模型——Ling-1T。模型擁有萬億參數，基於Ling 2.0架構，每個token激活約500億參數。Ling-1T在20T+ token的高質量、高推理濃度語料上完成預訓練，支持最高128K上下文窗口，通過“中訓練+後訓練”的演進式思維鏈（Evo-CoT）極大提升模型高效推理能力，在多項複雜推理基準中取得SOTA表現。來源：百靈大模型

OpenAI 與流媒體音樂平台 Spotify 達成合作

OpenAI與流媒體音樂平台Spotify達成合作，用戶可在ChatGPT網頁版或移動端中提到Spotify後登錄賬號，獲取個性化音樂和播客推薦。ChatGPT會根據對話內容調用Spotify控件，推薦歌曲、藝人、專輯等，點擊後自動打開Spotify應用。來源：IT之家

首個全自動AI科學家誕生！西湖大學最新成果：DeepScientist系統

西湖大學自然語言處理實驗室發佈DeepScientist系統，是首個具有完整科研能力的AI科學家。能在無人工干預下，主動識別研究侷限、提出新構想、編寫代碼、執行實驗、撰寫論文。在AI文本檢測任務中，DeepScientist兩週完成人類三年的科研進展，取得7.9%的AUROC提升，超越人類SOTA方案。來源：量子位

滴滴悄悄上線了一個 AI 圖尋產品「在哪兒問問」

滴滴上線AI圖尋產品「在哪兒問問」，目前僅支持微信小程序。該產品具有地點查找、相似地點推薦及相關產品推薦功能。用戶上傳照片，AI可識別大致位置並提供相應服務。來源：AI工具集

Anthropic 發佈 AI Agent 上下文工程指南

Anthropic發佈AI Agent上下文工程指南，強調上下文工程的重要性。上下文工程是提示詞工程的自然演進，關注在LLM推理過程中策劃和維護最優token集合。指南指出，LLM的注意力資源有限，上下文應被視爲有限資源，需精心設計。來源：AI工具集

Thinking Machines Lab推出首款產品「Tinker」

Thinking Machines Lab推出首款產品「Tinker」，是一個專爲語言模型微調而生的API。允許開發者通過簡單的Python代碼進行模型微調，無需擔心底層架構的複雜性。Tinker支持從小到大的各類開放權重模型，包括大型專家混合架構，並集成了基於LoRA的微調方法。來源：AI工具集

谷歌新世界模型Dreamer 4純靠「想象」訓練

谷歌DeepMind發佈Dreamer 4，一種可擴展的智能體，通過在快速且準確的世界模型中進行想象訓練來解決控制任務。它是首個僅從離線數據集在《我的世界》中獲得鑽石的智能體。Dreamer 4利用shortcut forcing目標和高效Transformer架構，準確學習複雜交互，實現實時人機交互和高效想象訓練。來源：機器之心

Opera Neon 正式發佈：首款 AI Agent 瀏覽器

崑崙萬維集團正式發佈Opera Neon瀏覽器。Opera Neon是Opera瀏覽器家族的新成員，也是首款AI Agent瀏覽器，採用付費訂閱制，專爲大量使用AI的用戶設計。具備“任務”功能，可創建獨立工作空間，支持AI輔助操作；“卡片”功能可讓用戶自定義指令，提高效率；“Neon Do”功能可主動執行任務，如購物、預訂等；“製作”功能則支持用戶創作內容並分享。來源：崑崙萬維集團

豆包大模型1.6-vision正式發佈！

火山引擎發佈豆包大模型1.6-vision。大模型具有多模態能力，可處理文本、圖像、視頻等多種數據。豆包大模型1.6-vision在多個領域有廣泛的應用前景，如智能客服、內容創作、圖像識別等。來源：火山引擎

10月7·週二

OpenAI開發者大會重磅發佈：AgentKit、Codex正式版、Sora 2 API

OpenAI開發者大會發布多項重要產品：包括AgentKit智能體開發工具（含可視化構建器、連接器註冊表和ChatKit）、Codex正式版（集成Slack並提升十倍日活）、ChatGPT內置應用及開源Apps SDK。同時推出實時音頻gpt-realtime-mini、圖像生成gpt-image-1-mini、視頻生成Sora 2 API以及GPT-5 pro API。所有功能均納入標準API計費體系。來源：機器之心

10月1·週三

OpenAI 正式發佈 Sora 2 ，稱“視頻生成進入ChatGPT時刻”

OpenAI 正式發佈 Sora 2 ，稱“視頻生成進入ChatGPT時刻”。新模型可一次性生成20秒1080p音視頻同步短片，物理真實度與多鏡頭敘事大幅提升；配套iOS社交應用“Sora APP”同步上線，支持AI虛擬形象“客串”及社區混剪，僅限邀美國、加拿大用戶試用，API與安卓版將隨後推出。附：Sora 2邀請碼來源：AI工具集