Step 3.7 Flash開源模型實測 – 多模態 Agent 大腦更省Token

AI教程10小時前發佈新公告 AI管理員
0 0

Step 3.7 Flash開源模型實測 – 多模態 Agent 大腦更省Token

很難想象,企業使用 AI 的成本已經遠遠超過了僱傭員工的成本。

上週,Axios 報道里提到,一位 AI 顧問透露,他的某家企業客戶因爲沒有給員工的 Claude 許可證設置使用上限,在短短一個月內花掉了驚人的 5 億美元。

Step 3.7 Flash開源模型實測 – 多模態 Agent 大腦更省Token

米哈遊員工在測試 AI Agent 時,因爲搭了幾十個 Agent 沒及時關,一晚上燒光了約 200 萬人民幣的 Token。

多個 Agent 協同的生產鏈路,多輪調用、工具高頻觸發帶來的 Token 消耗和延遲開銷,正在成爲企業難以承受的負擔。

Step 3.7 Flash開源模型實測 – 多模態 Agent 大腦更省Token

所以這也是爲什麼最近各家都在推 Flash 模型。

Flash 模型現在已經不只是旗艦模型更快、更便宜的平替。而是能放進 Agent 工作流裏,讓每一步都更快、更穩、更省。

最近,階躍星辰推出了新一代高效率 Flash 開源模型 Step 3.7 Flash。官方介紹裏,Step 3.7 Flash 是 198B 參數稀疏 MoE 多模態模型,每個 token 激活約 11B 參數,支持 256K 上下文,最高吞吐可達 400 tokens/s,也支持 low、medium、high 三檔推理強度。

Step 3.7 Flash開源模型實測 – 多模態 Agent 大腦更省Token

我們更關心它在真實複雜場景下的 Agent 鏈路效率。今天,咱們拋開評分和排行榜,用真實的場景來實測一波

 

01. 實測 Coding Agent 的 One-shot 表現

 

本次實測用到的是 Claude Code + StepFun 的 Coding Plan。

Case 1 多模態感知與 UI 執行力

我隨手畫了一張草圖,讓 Step 3.7 Flash 做一個電商運營覆盤看板。

參考草稿圖做一個電商運營覆盤看板。

Step 3.7 Flash開源模型實測 – 多模態 Agent 大腦更省Token

Step 3.7 Flash 將視覺理解內置進 Agent 工作流,模型能準確識別草圖中的手寫文字和空間佈局。將草圖轉化爲符合現代審美、帶自適應響應式的 HTML/CSS / JS 看板應用。

Step 3.7 Flash開源模型實測 – 多模態 Agent 大腦更省Token

生成的網頁還原度超級高,和我手繪的草稿幾乎一模一樣,頁面板塊、文字都識別的非常準確,我畫的小箭頭、小圖標都被還原出來了。

不過,渠道銷售額板塊最上方應該有一個“全部”選項,Step 3.7 Flash 遺漏了。

Step 3.7 Flash開源模型實測 – 多模態 Agent 大腦更省Token

我們繼續讓它根據草圖優化頁面:

繼續優化頁面,渠道銷售額板塊,與原圖有出入。按照原圖排版在上方添加【全部】選項。

Step 3.7 Flash開源模型實測 – 多模態 Agent 大腦更省Token

Step 3.7 Flash 的多模態能力不只是停在看懂圖片,可以直接定位到需要修改的地方,準確修改。

Case 2 視覺搜索與工具增強推理

今天比亞迪公佈了 5 月份的產銷快報,我們讓 Step 3.7 Flash 識別試試:

讀取圖片中的關鍵信息,並聯網生成分析報告。

Step 3.7 Flash開源模型實測 – 多模態 Agent 大腦更省Token

這個任務不是單純 OCR 識字,而是看 Step 3.7 Flash 能不能做到先提取關鍵數據,再聯網驗證背景,最後輸出一份可讀的分析報告。

Step 3.7 Flash 識別的信息非常精準。

Step 3.7 Flash開源模型實測 – 多模態 Agent 大腦更省Token

我們一起來看看生成的報告,Step 3.7 Flash 抓到了幾個重點,內容都很準確:

比亞迪 2026 年 5 月新能源汽車銷量爲 383453 輛,新能源汽車產量爲 380549 輛。

1月到 5 月累計同比下降 20.32%,5月產量增長 8.78%,銷量增長 0.26%,有明顯回暖,是重要的拐點,產銷兩端都在恢復性增長。

5 月出口占新能源汽車總銷量的 41.9%,出口成爲比亞迪最重要的增長引擎之一。

Step 3.7 Flash開源模型實測 – 多模態 Agent 大腦更省Token

Case 3 視覺理解

我上傳了一張調音台照片,問它:

麥克風怎麼調。

Step 3.7 Flash開源模型實測 – 多模態 Agent 大腦更省Token

Step 3.7 Flash 識別出這是 NFM M系列 專業調音台,還了解了調麥克風要看通道、GAIN、FADER、MUTE、AUX、主輸出這些關鍵位置。

對普通小白來說,Step 3.7 Flash 給出的流程基本能指導人排查“爲什麼麥克風沒聲”、“聲音太小”、“有嘯叫”等等問題。

尤其是提醒先看 MUTE、再看增益、再推通道推子、再檢查主輸出,視覺理解非常厲害,邏輯也對。

Step 3.7 Flash開源模型實測 – 多模態 Agent 大腦更省Token

Case 4 圖片轉互動地圖

請將文件夾中的圖片直接作爲輸入,不提供額外背景說明。請一次性完成整個工作流程。

目標: 創建一個完整的、可演示的單頁 HTML 城市導覽頁面,文件名 ucsd-tour.html。頁面要求能夠:

1.識別提供的圖片中的地標。

2.通過網頁搜索驗證識別結果。

3.將圖片複製到當前工作目錄並按合適名稱保存。

4.構建一個美觀、交互式的地圖式城市導覽指南。

重要輸入規則:

  • 僅使用直接提供的圖片作爲輸入。
  • 不掃描文件夾或目錄尋找額外圖片。
  • 不導入當前目錄中無關的圖片。
  • 將提供的圖片視爲完整的圖片集。

Step 3.7 Flash開源模型實測 – 多模態 Agent 大腦更省Token

網頁整體看是那麼回事,有首頁、地圖、地點介紹、導覽路線圖,排版也不錯。

Step 3.7 Flash開源模型實測 – 多模態 Agent 大腦更省Token

Step 3.7 Flash 能準確的識別出 7 個地點,說明視覺理解和網頁搜索能力是過關的。

不過仔細一看,地標名字和圖片並沒有對應上,模型在多文件管理、路徑映射、資源命名方面可能不夠嚴謹。

Step 3.7 Flash開源模型實測 – 多模態 Agent 大腦更省Token

再看看 Step 3.7 Flash 生成的地圖,只是初步畫了個方位,並沒有地圖,地標的方位也和實際的地理方位有偏差。

Step 3.7 Flash開源模型實測 – 多模態 Agent 大腦更省Token

整體來說,Step 3.7 Flash 只完成了核心的識別任務,細節處理還有提升空間。

 

02. 一些分享

 

Step 3.7 Flash 在實際交互中給我最直觀的感受就是響應速度快。

雖然在面對多文件映射、精確的空間邏輯等複雜任務時,偶爾有一些細節還有提升空間,但 Step 3.7 Flash 的高響應速度和多模態感知的結合,在多輪交互中展現出了高效的糾錯能力,從而以較低的延遲與成本,爲複雜的 Agent 鏈路換取了更大的容錯空間。

本次評測的實際消耗的 Token 僅佔 Coding Plan 套餐周額度的 15% 左右。得益於 MoE 架構的成本優勢,即便 Agent 在長工作流中面臨高頻的多輪迭代、檢索和糾錯,其算力成本依然能保持在企業完全可承受的區間內。

有了 Step 3.7 Flash 這樣面向生產級 Agent 的高效率 Flash 模型,Agent 在應對真實任務時,能夠以更快、更穩、更省的方式跑通整個工作流,而不再是令人望而卻步的 Token 吞噬獸。

大模型應用正在走向務實。當企業不必再爲高昂的賬單與延遲感到焦慮時,AI 才能真正從單點展示的玩具,轉化爲工業級生產線上穩定運轉的生產力工具。

原文鏈接:實測階躍 Step 3.7 Flash:更穩、更快、更省的 Agent 大腦

© 版權聲明

相關文章

暫無評論

暫無評論...