Qwen3.5-Omni – 阿里通義推出的全模態大模型

AI工具1天前發佈新公告 AI管理員
0 0

Qwen3.5-Omni 是什麼

Qwen3.5-Omni 是阿里通義實驗室推出的全模態大模型,可同時理解文本、圖像、音頻及音視頻輸入。模型採用Thinker-Talker分工架構與Hybrid-MoE技術,在215項音頻/音視頻任務中取得SOTA成績,超越Gemini-3.1 Pro。模型支持256K超長上下文、語義打斷、音色克隆、語音控制,原生集成WebSearch與Function Call,具備自然湧現的Audio-Visual Vibe Coding能力,可根據音視頻指令直接生成可運行代碼。

Qwen3.5-Omni – 阿里通義推出的全模態大模型

Qwen3.5-Omni 的主要功能

  • 全模態理解:模型原生無縫處理文本、圖像、音頻及音視頻輸入,支持帶時間戳的細粒度描述生成。
  • 視頻智能分析:模型可生成結構化視頻筆記,識別畫面內容、對話、鏡頭切換及敏感信息。
  • Vibe Coding:無需專門訓練即可根據音視頻指令自然湧現代碼生成能力。
  • 真人級對話:支持語義打斷與語音控制,能區分環境噪音和真實插話,實時調節情緒語速。
  • 音色克隆:上傳錄音可定製專屬AI音色,支持多語言自然生成。
  • 智能任務執行:原生集成WebSearch與Function Call,自主判斷和調用工具完成複雜任務。

Qwen3.5-Omni 的技術原理

  • Thinker-Talker 分工架構:Thinker負責多模態理解,接收視覺與音頻信號並通過TMRoPE編碼位置信息;Talker負責語音生成,基於Thinker輸出採用RVQ編碼實現高效語音合成,兩者協同實現理解與生成分離。
  • Hybrid-Attention MoE:將聽、看、理解等任務分配給不同專家網絡,避免模態間干擾,在保持文本視覺能力不下降的同時實現215項SOTA性能。
  • ARIA 動態對齊技術:模型自適應調節文本與語音單元速率,解決傳統固定比例導致的漏字、數字念不清問題,支持實時語音控制響應。

如何使用Qwen3.5-Omni

  • API 調用:訪問阿里雲百鍊官網搜索 Qwen3.5-Omni 可調用 API,提供 Plus、Flash、Light 三種尺寸,滿足不同場景的性能與成本需求。
  • 在線體驗:直接在 Qwen Chat 上體驗 Qwen3.5-Omni 的全部能力,無需部署可快速上手。

Qwen3.5-Omni的關鍵信息和使用要求

  • 發佈方:阿里通義實驗室
  • 模型定位:全模態大模型(文本/圖像/音頻/音視頻)
  • 版本規格:提供Plus、Flash、Light 三種尺寸
  • 性能成績:215 項 SOTA,全面超越 Gemini-3.1 Pro
  • 上下文長度:256K(支持 10 小時音頻 / 1 小時視頻)
  • 語言支持:74 種語音識別 + 39 種方言
  • 核心架構:Thinker-Talker 分工 + Hybrid-MoE

Qwen3.5-Omni的核心優勢

  • 全模態原生統一:真正無縫理解文本、圖像、音頻、音視頻。
  • 頂尖性能:215 項 SOTA 霸榜,音頻/音視頻能力全面超越 Gemini-3.1 Pro。
  • 超長上下文:256K上下文長度,支持 10 小時音頻或 1 小時視頻處理。
  • 自然交互:支持語義打斷、語音控制、音色克隆,對話體驗接近真人。
  • 湧現能力:未經專門訓練即具備 Audio-Visual Vibe Coding,可根據音視頻生成代碼。
  • 智能執行:原生支持 WebSearch 與 Function Call,從聊天到辦事無縫銜接。
  • 多語言覆蓋:74 種語音識別 + 39 種方言,打破語言壁壘。

Qwen3.5-Omni的同類競品對比

對比維度 Qwen3.5-Omni Gemini-3.1 Pro GPT-4o
發佈方 阿里通義實驗室 Google OpenAI
模態支持 文本/圖像/音頻/音視頻 文本/圖像/音頻/音視頻 文本/圖像/音頻/音視頻
上下文長度 256K(10小時音頻/1小時視頻) 未公開具體時長 128K
音頻理解 SOTA 215 項領先 被超越 部分落後
音視頻理解 全面領先 總體持平 未重點優化
語音識別語種 74 種 + 39 種方言 多語言支持 多語言支持
音色克隆 支持 支持 有限支持
Vibe Coding 自然湧現 需專門優化 需專門優化
語義打斷 支持 支持 支持
語音控制 支持(音量/情緒/語速) 有限 有限

Qwen3.5-Omni應用場景

  • 視頻創作與剪輯:自動生成帶時間戳的結構化描述,識別畫面、對話、鏡頭切換,檢測敏感內容,將長視頻轉爲可搜索筆記。
  • 智能會議助手:實時轉錄會議內容,區分發言人,生成會議紀要,支持多語言識別與翻譯。
  • 代碼輔助開發:根據設計稿或口述需求直接生成前端頁面或 Python 代碼,實現 Vibe Coding。
  • 個性化語音助手:克隆專屬音色打造數字分身,支持語音控制音量情緒,提供陪伴式交互。
  • 多語言實時溝通:模型支持74 種語言識別+39 種方言,實現跨語言實時對話與翻譯。
  • 智能任務執行:結合 WebSearch 與工具調用,完成查天氣、訂酒店、搜資料等複雜任務。
© 版權聲明

相關文章

暫無評論

暫無評論...