SenseNova U1 – 商湯日日新推出的原生統一多模態模型

AI工具2周前發佈新公告 AI管理員

1 0 0

SenseNova U1是什麼

SenseNova U1是商湯日日新基於NEO-Unify架構推出的原生統一多模態模型，在單一架構內實現理解、推理與生成。模型摒棄傳統視覺編碼器和VAE，構建統一表徵空間，開源Lite版包含8B-MoT稠密模型與A3B-MoE模型。在圖像理解、生成、編輯及視覺推理等基準上達同量級開源SOTA，8B版本可比肩部分商業閉源模型，且推理延遲顯著低於同類競品。

SenseNova U1 – 商湯日日新推出的原生統一多模態模型

SenseNova U1的主要功能

多模態理解： 支持OCR、文檔解析、圖表問答、視覺問答及多圖推理。
圖像生成： 可生成寫實、藝術及知識密集型圖像，支持複雜信息圖合成。
圖像編輯： 實現風格遷移、目標移除、構圖控制等精準編輯操作。
交錯生成： 支持視覺與語言內容交錯輸出，實現圖文混合創作。
統一推理： 具備跨模態數學、常識與科學推理能力。

SenseNova U1的技術原理

NEO-Unify原生架構： 從第一性原理出發，徹底去除視覺編碼器與VAE，消除潛在空間瓶頸。
統一表徵空間： 將像素與文本信息在同一空間內端到端建模，避免模態間轉譯損耗。
原生MoT機制： 採用Mixture of Tokens擴展架構，實現高效跨模態計算與參數利用。
端到端訓練： 圖像與語言作爲統一複合體直接輸入，在同一計算流程中完成理解與生成。

如何使用SenseNova U1

訪問倉庫： 訪問GitHub倉庫 https://github.com/OpenSenseNova/SenseNova-U1 瀏覽項目文檔。
下載權重： 訪問HuggingFace模型頁 https://huggingface.co/collections/sensenova/sensenova-u1 下載對應模型。
配置環境： 根據README安裝依賴並準備GPU推理環境。
加載模型： 將SenseNova-U1-8B-MoT或A3B-MoT模型加載至本地。
執行任務： 輸入文本或圖像提示，運行多模態理解、生成或編輯任務。

SenseNova U1的關鍵信息和使用要求

開發團隊： 商湯科技（SenseTime）
開源協議： 開源（GitHub / HuggingFace 可獲取）
模型規格： SenseNova-U1-8B-MoT（稠密）、SenseNova-U1-A3B-MoT（MoE）
硬件要求： 需GPU支持，具體顯存要求參考官方文檔
使用門檻： 需具備基礎模型部署與推理環境配置能力

SenseNova U1的核心優勢

架構統一： 單一模型同時覆蓋理解與生成，無需多模塊拼接與適配器轉譯。
效率突出： 去除VE/VAE後信息流轉更直接，推理延遲顯著低於同類開源及商業模型。
性能領先： 8B輕量版即達同量級開源SOTA，比肩部分大型商業閉源模型。
空間智能： 在3D推理、幾何理解與導航等複雜空間任務上表現優異。
信息圖生成： 模型對複雜排版與文字渲染具備商業級控制力與生成質量。

SenseNova U1的項目地址

GitHub倉庫：https://github.com/OpenSenseNova/SenseNova-U1
HuggingFace模型庫：https://huggingface.co/collections/sensenova/sensenova-u1

SenseNova U1的同類競品對比

對比維度	SenseNova U1	Qwen3VL	Janus
開發團隊	商湯科技	阿里雲	DeepSeek
架構特點	NEO-Unify原生統一，無VE/VAE	視覺編碼器+LLM拼接	解耦視覺編碼統一架構
模型規模	8B / A3B MoE	8B / 30B-A3B MoE等	1.3B / 7B
理解能力	OCR/VQA/空間推理/文檔解析	強視覺理解，OCR/VQA領先	多模態理解與推理
生成能力	圖像生成+編輯+信息圖+交錯生成	主要聚焦理解，生成需獨立模型	圖像生成與編輯
開源狀態	開源（Lite版）	開源	開源

SenseNova U1的應用場景

智能文檔解析： 自動識別並理解掃描件、PDF中的文字、表格與圖表，實現結構化信息提取與問答。
營銷海報生成： 根據文字描述自動生成高質量電商海報、信息圖，精準控制排版與文字渲染。
圖像精準編輯： 支持風格遷移、目標移除、構圖調整等操作，實現”所想即所得”的圖像修改。
多模態內容創作： 支持圖文交錯生成，自動產出圖文混排的長文、教程與社交媒體內容。
機器人具身智能： 作爲機器人”大腦”，在單一模型閉環內完成環境感知、邏輯推演到任務執行。

© 版權聲明

文章版权归作者所有，未经允许请勿转载。

相關文章

Moshi – 法國AI實驗室Kyutai開發的實時音頻多模態模型

earnbyshare2016

4 0

國家網信辦發佈第六批深度合成服務算法備案信息，騰訊混元等492個算法在列

earnbyshare2016

9 0

ChatBotKit – AI聊天機器人搭建平台，無縫對接搭建多樣化機器人

earnbyshare2016

0 0

AnimateDiff-Lightning – 字節推出的快速生成高質量視頻的模型

earnbyshare2016

15 0

RapidPages – AI驅動的集成開放環境，實時生成UI組件和CSS代碼

earnbyshare2016

7 0

PhotoPrism – 開源的AI照片管理工具，AI驅動的照片分類和搜索功能

earnbyshare2016

11 0

暫無評論

暫無評論...