Qwen3.7-Plus – 阿里通義推出的智能體多模態大模型

0 0 0

Qwen3.7-Plus是什麼

Qwen3.7-Plus 是通義千問推出的新一代多模態大模型，將視覺與語言統一爲一體化智能體基座。模型能感知真實世界場景、讀取屏幕並操作 GUI、基於視覺參考生成代碼，支持端到端導航移動應用、結合網絡知識回答視覺問題，在單一智能體循環中無縫融合 GUI 與 CLI 交互。作爲全能型編碼智能體與生產力助手，模型用全模態輸入處理從前端原型到複雜軟件工程、再到多步工作流自動化的全方位任務，且具備跨框架泛化能力。

Qwen3.7-Plus的主要功能

多模態交互混合智能體：統一處理圖像、視頻、屏幕、網頁和文本輸入，在 GUI/CLI/工具環境中完成複雜任務閉環。
視覺智能體：結合視覺理解、代碼解釋器和搜索增強，解決視覺謎題、真實世界問答和複雜推理任務。
視覺編程：從圖像或視頻生成 SVG、網頁和交互式前端，實現視覺參考到代碼的端到端轉化。
GUI 智能體：理解移動端和桌面端界面，進行控件定位、任務規劃和多步操作。
真實世界感知與推理：覆蓋真實場景、文檔圖表、OCR、視頻和駕駛場景理解。

Qwen3.7-Plus的技術原理

視覺感知與推理融合：模型在 BabyVision、MathVision、HiPhO 等高難度視覺推理基準上表現強勁，體現出對圖像細節、空間關係、物理常識和多步邏輯的綜合理解能力。尤其在 BabyVision 上相比前代有顯著提升，說明模型在更接近人類早期視覺認知和空間推理的任務上具備更強泛化能力。
視覺到代碼的端到端轉化：通過代碼解釋器集成，模型能將視覺問題轉化爲可計算的問題表示，自主編寫並執行代碼進行求解、搜索或驗證。在找不同、補圖塊、華容道、迷宮和拼圖等任務中，模型能識別圖像內容，進行空間建模、路徑搜索、狀態推演和結果校驗。
GUI 自動化與多步交互：模型能識別屏幕內容，定位關鍵 UI 元素、理解任務意圖並完成多步交互操作。在 ScreenSpot Pro、OSWorld-Verified 和 AndroidWorld 上顯著提升，支撐從”看懂界面”走向”操作界面”和”構建界面”。
搜索增強的多模態知識問答：模型將視覺輸入與外部知識檢索結合，先從視覺輸入中提取關鍵實體、場景、文字和上下文線索，通過搜索獲取外部知識，綜合視覺證據和檢索結果給出答案。
視頻理解與駕駛場景感知：增強對短視頻和長視頻中事件、動作、時序和語義關係的處理能力，同時在 LingoQA、SURDS 和 VLADBench 等駕駛相關評測中展現出對動態場景、交通參與者和空間關係的強理解能力。

如何使用Qwen3.7-Plus

訪問官方平台：通過阿里雲百鍊或 Qwen Studio官網訪問模型服務。
選擇模型版本：在模型市場中選擇 Qwen3.7-Plus，根據需求配置調用參數。
輸入多模態內容：支持上傳圖像、視頻、屏幕截圖或網頁鏈接，結合文本指令進行交互。
執行任務：根據場景選擇對應能力模式（Visual Agent、GUI Agent、Visual Coding 等），模型將自動完成感知、推理與執行閉環。

Qwen3.7-Plus的核心優勢

多模態 Agent 閉環能力：將看、想、寫、做、驗整合進統一智能體工作流，支撐複雜軟件任務從理解到交付的端到端自動完成。
跨框架泛化：無論通過 Claude Code、OpenClaw、Qwen Code 還是其他框架部署，均能保持穩定表現。
視覺編程領先：在 QwenVision2Code 上得分 1772.0，接近 GPT-5.4 的 1884.0，顯著領先 Claude-Opus-4.6（1518.0）和 Gemini-3.1 Pro（1632.0）。
GUI 操作能力強：ScreenSpot Pro 79.0、AndroidWorld 81.0，在界面理解和操作任務上處於第一梯隊。
長時自主運行：案例顯示 Agent 可持續穩定運行 11+ 小時，累計生成代碼超 10,000+ 行，觸發調用超 1,000+ 次。

Qwen3.7-Plus的項目地址

項目官網：https://qwen.ai/blog?id=qwen3.7-plus

Qwen3.7-Plus的同類競品對比

對比維度	Qwen3.7-Plus	GPT-5.4
定位	多模態交互混合智能體基座模型	通用多模態大模型
Vision Arena 排名	全球第5 / 中國第一	未進入前7
ScreenSpot Pro (GUI定位)	79.0	67.4
AndroidWorld (移動端操作)	81.0	未測試
QwenVision2Code (視覺編程)	1772.0	1884.0
BabyVision (視覺推理)	70.4/64.7	53.1
RealWorldQA (真實世界問答)	86.9	83.8
Terminal Bench 2.0 (終端編碼)	70.3	未測試
SWE-bench 多語言	75.8	77.5
視頻理解 VideoMMMU	88.0	89.5
多模態搜索 MMSearchPlus	41.4	19.7
核心優勢	GUI操作、視覺推理、長時Agent閉環、跨框架泛化	視覺編程、視頻理解、通用語言任務
適用場景	複雜軟件工程自動化、桌面/移動端GUI操作、多模態Agent工作流	通用內容生成、視覺參考轉代碼、多語言翻譯