Step 3.7 Flash開源模型實測 – 多模態 Agent 大腦更省Token

AI教程10小時前發佈新公告 AI管理員

0 0 0

很難想象，企業使用 AI 的成本已經遠遠超過了僱傭員工的成本。

上週，Axios 報道里提到，一位 AI 顧問透露，他的某家企業客戶因爲沒有給員工的 Claude 許可證設置使用上限，在短短一個月內花掉了驚人的 5 億美元。

Step 3.7 Flash開源模型實測 – 多模態 Agent 大腦更省Token

米哈遊員工在測試 AI Agent 時，因爲搭了幾十個 Agent 沒及時關，一晚上燒光了約 200 萬人民幣的 Token。

多個 Agent 協同的生產鏈路，多輪調用、工具高頻觸發帶來的 Token 消耗和延遲開銷，正在成爲企業難以承受的負擔。

Step 3.7 Flash開源模型實測 – 多模態 Agent 大腦更省Token

所以這也是爲什麼最近各家都在推 Flash 模型。

Flash 模型現在已經不只是旗艦模型更快、更便宜的平替。而是能放進 Agent 工作流裏，讓每一步都更快、更穩、更省。

最近，階躍星辰推出了新一代高效率 Flash 開源模型 Step 3.7 Flash。官方介紹裏，Step 3.7 Flash 是 198B 參數稀疏 MoE 多模態模型，每個 token 激活約 11B 參數，支持 256K 上下文，最高吞吐可達 400 tokens/s，也支持 low、medium、high 三檔推理強度。

Step 3.7 Flash開源模型實測 – 多模態 Agent 大腦更省Token

我們更關心它在真實複雜場景下的 Agent 鏈路效率。今天，咱們拋開評分和排行榜，用真實的場景來實測一波

01. 實測 Coding Agent 的 One-shot 表現

本次實測用到的是 Claude Code + StepFun 的 Coding Plan。

Case 1 多模態感知與 UI 執行力

我隨手畫了一張草圖，讓 Step 3.7 Flash 做一個電商運營覆盤看板。

參考草稿圖做一個電商運營覆盤看板。

Step 3.7 Flash開源模型實測 – 多模態 Agent 大腦更省Token

Step 3.7 Flash 將視覺理解內置進 Agent 工作流，模型能準確識別草圖中的手寫文字和空間佈局。將草圖轉化爲符合現代審美、帶自適應響應式的 HTML/CSS / JS 看板應用。

Step 3.7 Flash開源模型實測 – 多模態 Agent 大腦更省Token

生成的網頁還原度超級高，和我手繪的草稿幾乎一模一樣，頁面板塊、文字都識別的非常準確，我畫的小箭頭、小圖標都被還原出來了。

不過，渠道銷售額板塊最上方應該有一個“全部”選項，Step 3.7 Flash 遺漏了。

Step 3.7 Flash開源模型實測 – 多模態 Agent 大腦更省Token

我們繼續讓它根據草圖優化頁面：

繼續優化頁面，渠道銷售額板塊，與原圖有出入。按照原圖排版在上方添加【全部】選項。

Step 3.7 Flash開源模型實測 – 多模態 Agent 大腦更省Token

Step 3.7 Flash 的多模態能力不只是停在看懂圖片，可以直接定位到需要修改的地方，準確修改。

Case 2 視覺搜索與工具增強推理

今天比亞迪公佈了 5 月份的產銷快報，我們讓 Step 3.7 Flash 識別試試：

讀取圖片中的關鍵信息，並聯網生成分析報告。

Step 3.7 Flash開源模型實測 – 多模態 Agent 大腦更省Token

這個任務不是單純 OCR 識字，而是看 Step 3.7 Flash 能不能做到先提取關鍵數據，再聯網驗證背景，最後輸出一份可讀的分析報告。

Step 3.7 Flash 識別的信息非常精準。

Step 3.7 Flash開源模型實測 – 多模態 Agent 大腦更省Token

我們一起來看看生成的報告，Step 3.7 Flash 抓到了幾個重點，內容都很準確：

比亞迪 2026 年 5 月新能源汽車銷量爲 383453 輛，新能源汽車產量爲 380549 輛。

1月到 5 月累計同比下降 20.32%，5月產量增長 8.78%，銷量增長 0.26%，有明顯回暖，是重要的拐點，產銷兩端都在恢復性增長。

5 月出口占新能源汽車總銷量的 41.9%，出口成爲比亞迪最重要的增長引擎之一。

Step 3.7 Flash開源模型實測 – 多模態 Agent 大腦更省Token

Case 3 視覺理解

我上傳了一張調音台照片，問它：

麥克風怎麼調。

Step 3.7 Flash開源模型實測 – 多模態 Agent 大腦更省Token

Step 3.7 Flash 識別出這是 NFM M系列專業調音台，還了解了調麥克風要看通道、GAIN、FADER、MUTE、AUX、主輸出這些關鍵位置。

對普通小白來說，Step 3.7 Flash 給出的流程基本能指導人排查“爲什麼麥克風沒聲”、“聲音太小”、“有嘯叫”等等問題。

尤其是提醒先看 MUTE、再看增益、再推通道推子、再檢查主輸出，視覺理解非常厲害，邏輯也對。

Step 3.7 Flash開源模型實測 – 多模態 Agent 大腦更省Token

Case 4 圖片轉互動地圖

請將文件夾中的圖片直接作爲輸入，不提供額外背景說明。請一次性完成整個工作流程。

目標：創建一個完整的、可演示的單頁 HTML 城市導覽頁面，文件名 ucsd-tour.html。頁面要求能夠：

1.識別提供的圖片中的地標。

2.通過網頁搜索驗證識別結果。

3.將圖片複製到當前工作目錄並按合適名稱保存。

4.構建一個美觀、交互式的地圖式城市導覽指南。

重要輸入規則：

僅使用直接提供的圖片作爲輸入。

不掃描文件夾或目錄尋找額外圖片。

不導入當前目錄中無關的圖片。

將提供的圖片視爲完整的圖片集。