Qwen3.7-Plus – 阿里通義推出的智能體多模態大模型

AI工具1周前發佈新公告 AI管理員
0 0

Qwen3.7-Plus是什麼

Qwen3.7-Plus 是通義千問推出的新一代多模態大模型,將視覺與語言統一爲一體化智能體基座。模型能感知真實世界場景、讀取屏幕並操作 GUI、基於視覺參考生成代碼,支持端到端導航移動應用、結合網絡知識回答視覺問題,在單一智能體循環中無縫融合 GUI 與 CLI 交互。作爲全能型編碼智能體與生產力助手,模型用全模態輸入處理從前端原型到複雜軟件工程、再到多步工作流自動化的全方位任務,且具備跨框架泛化能力。

Qwen3.7-Plus – 阿里通義推出的智能體多模態大模型

Qwen3.7-Plus的主要功能

  • 多模態交互混合智能體:統一處理圖像、視頻、屏幕、網頁和文本輸入,在 GUI/CLI/工具環境中完成複雜任務閉環。
  • 視覺智能體:結合視覺理解、代碼解釋器和搜索增強,解決視覺謎題、真實世界問答和複雜推理任務。
  • 視覺編程:從圖像或視頻生成 SVG、網頁和交互式前端,實現視覺參考到代碼的端到端轉化。
  • GUI 智能體:理解移動端和桌面端界面,進行控件定位、任務規劃和多步操作。
  • 真實世界感知與推理:覆蓋真實場景、文檔圖表、OCR、視頻和駕駛場景理解。

Qwen3.7-Plus的技術原理

  • 視覺感知與推理融合:模型在 BabyVision、MathVision、HiPhO 等高難度視覺推理基準上表現強勁,體現出對圖像細節、空間關係、物理常識和多步邏輯的綜合理解能力。尤其在 BabyVision 上相比前代有顯著提升,說明模型在更接近人類早期視覺認知和空間推理的任務上具備更強泛化能力。
  • 視覺到代碼的端到端轉化:通過代碼解釋器集成,模型能將視覺問題轉化爲可計算的問題表示,自主編寫並執行代碼進行求解、搜索或驗證。在找不同、補圖塊、華容道、迷宮和拼圖等任務中,模型能識別圖像內容,進行空間建模、路徑搜索、狀態推演和結果校驗。
  • GUI 自動化與多步交互:模型能識別屏幕內容,定位關鍵 UI 元素、理解任務意圖並完成多步交互操作。在 ScreenSpot Pro、OSWorld-Verified 和 AndroidWorld 上顯著提升,支撐從”看懂界面”走向”操作界面”和”構建界面”。
  • 搜索增強的多模態知識問答:模型將視覺輸入與外部知識檢索結合,先從視覺輸入中提取關鍵實體、場景、文字和上下文線索,通過搜索獲取外部知識,綜合視覺證據和檢索結果給出答案。
  • 視頻理解與駕駛場景感知:增強對短視頻和長視頻中事件、動作、時序和語義關係的處理能力,同時在 LingoQA、SURDS 和 VLADBench 等駕駛相關評測中展現出對動態場景、交通參與者和空間關係的強理解能力。

如何使用Qwen3.7-Plus

  • 訪問官方平台:通過阿里雲百鍊或 Qwen Studio官網訪問模型服務。
  • 選擇模型版本:在模型市場中選擇 Qwen3.7-Plus,根據需求配置調用參數。
  • 輸入多模態內容:支持上傳圖像、視頻、屏幕截圖或網頁鏈接,結合文本指令進行交互。
  • 執行任務:根據場景選擇對應能力模式(Visual Agent、GUI Agent、Visual Coding 等),模型將自動完成感知、推理與執行閉環。

Qwen3.7-Plus的核心優勢

  • 多模態 Agent 閉環能力:將看、想、寫、做、驗整合進統一智能體工作流,支撐複雜軟件任務從理解到交付的端到端自動完成。
  • 跨框架泛化:無論通過 Claude Code、OpenClaw、Qwen Code 還是其他框架部署,均能保持穩定表現。
  • 視覺編程領先:在 QwenVision2Code 上得分 1772.0,接近 GPT-5.4 的 1884.0,顯著領先 Claude-Opus-4.6(1518.0)和 Gemini-3.1 Pro(1632.0)。
  • GUI 操作能力強:ScreenSpot Pro 79.0、AndroidWorld 81.0,在界面理解和操作任務上處於第一梯隊。
  • 長時自主運行:案例顯示 Agent 可持續穩定運行 11+ 小時,累計生成代碼超 10,000+ 行,觸發調用超 1,000+ 次。

Qwen3.7-Plus的項目地址

  • 項目官網:https://qwen.ai/blog?id=qwen3.7-plus

Qwen3.7-Plus的同類競品對比

對比維度 Qwen3.7-Plus GPT-5.4
定位 多模態交互混合智能體基座模型 通用多模態大模型
Vision Arena 排名 全球第5 / 中國第一 未進入前7
ScreenSpot Pro (GUI定位) 79.0 67.4
AndroidWorld (移動端操作) 81.0 未測試
QwenVision2Code (視覺編程) 1772.0 1884.0
BabyVision (視覺推理) 70.4/64.7 53.1
RealWorldQA (真實世界問答) 86.9 83.8
Terminal Bench 2.0 (終端編碼) 70.3 未測試
SWE-bench 多語言 75.8 77.5
視頻理解 VideoMMMU 88.0 89.5
多模態搜索 MMSearchPlus 41.4 19.7
核心優勢 GUI操作、視覺推理、長時Agent閉環、跨框架泛化 視覺編程、視頻理解、通用語言任務
適用場景 複雜軟件工程自動化、桌面/移動端GUI操作、多模態Agent工作流 通用內容生成、視覺參考轉代碼、多語言翻譯

Qwen3.7-Plus的應用場景

  • 智能軟件開發:從需求文檔生成到代碼編寫、測試用例創建、GUI 自動化測試、版本迭代演進的全鏈路 APP 開發。
  • 桌面應用復刻:自主理解原生應用 UI 佈局與功能細節,生成對應源碼並接入真實 API,實現高保真應用復刻。
  • 視覺內容生成:將設計參考圖轉化爲可執行的 SVG、網頁或交互式前端代碼,降低從視覺到代碼資產的成本。
  • 多模態知識問答:結合圖像、視頻與網絡搜索,回答開放世界的視覺問題,如地點識別、事件背景分析、商品信息查詢。
  • 自動駕駛與具身智能:理解動態駕駛場景、交通參與者和空間關係,支撐真實世界多模態智能體和 embodied 場景。
© 版權聲明

相關文章

暫無評論

暫無評論...