JoyAI-VL-Interaction是什麼
JoyAI-VL-Interaction 是京東 Joy Future Academy 開源的實時視頻視覺語言交互模型,是全球首個全棧開源的 interaction 模型系統。JoyAI-VL-Interaction讓大模型從一問一答轉向邊看邊說,可持續觀察視頻流、自主判斷何時發聲、實時響應畫面變化,支持將複雜任務委託給後台 Agent 處理。在 58 項真人盲評中,對比豆包視頻通話助手勝率 77.6%,對比 Gemini 勝率 87.9%。

JoyAI-VL-Interaction的主要功能
-
主動視覺響應:持續觀察攝像頭/直播流/監控流,自主判斷何時說話、何時沉默,無需用戶逐輪提問。
-
實時流式交互:面向正在發生的視頻流即時響應,畫面變化時秒級反饋,而非事後總結完整視頻。
-
智能體委託:遇到代碼生成、工具調用、複雜推理等任務時,自動交給後台大模型或 Agent,前台繼續觀察。
-
多模態輸入輸出:支持語音輸入輸出、可視化界面、長期記憶,ASR/TTS/界面均可按需替換。
-
長時記憶:具備分鐘級視覺記憶,可回溯數分鐘前的畫面細節並準確回答。
JoyAI-VL-Interaction的技術原理
- 視覺優先的交互決策:模型核心是一個每秒自動執行的決策——說話、沉默或委託。模型基於 JoyAI-VL-8B 視覺語言指令模型構建,將語音作爲可插拔的輸入輸出,模型的唯一任務是觀察畫面並判斷行動時機。
- 預測性視頻編解碼:採用 AdaCodec 預測性視頻編解碼器,對可預測幀僅消耗少量 token,在場景實際變化時保留完整細節,使 token 預算隨時間緩慢增長而非逐幀膨脹,支撐長時實時流處理。
- 時序對齊的行爲學習:模型通過超過 400 萬條逐秒標註的時序交互片段進行訓練,每條數據精確標註何時該說話、沉默或委託,並輔以強化學習微調,使行爲從數據中學習。
- 可插拔的系統架構:圍繞核心模型構建完整部署系統,包括流式 ASR/TTS、長時記憶模塊、可視化 UI、後台模型橋接。所有組件均可獨立替換,整體基於標準 vLLM 基礎設施運行,獲得 vLLM-Omni 的 day-0 原生支持。

微信關注回覆 “開源”,加入AI開源項目交流羣
如何使用JoyAI-VL-Interaction
-
克隆倉庫:訪問 GitHub 開源倉庫
jd-opensource/JoyAI-VL-Interaction獲取完整代碼與部署系統。 -
獲取模型:從 Hugging Face 下載
jdopensource/JoyAI-VL-Interaction-Preview模型權重。 -
準備環境:基於標準 vLLM 基礎設施部署,支持攝像頭、RTSP 監控流、直播流等多種視頻輸入。
-
自定義組件:按需替換 ASR、TTS、語音服務、Agent、API 或前端界面,接入自有業務系統。
-
運行體驗:啓動後指向攝像頭或直播流,模型即進入實時觀察與交互狀態。
JoyAI-VL-Interaction的核心優勢
-
全棧開源:8B 模型、訓練配方、400 萬條時序數據、完整可部署系統全部開放,可復現可擴展。
-
實時在場:能在直播流中持續觀察數小時,響應延遲低於 1 秒,真正”在場”而非輪詢喚醒。
-
視覺觸發主動性:從畫面內容自主決策發言時機,在監控預警、實時翻譯等場景中實現零延遲告警。
-
前後台分離:前台模型保持視覺觀察不間斷,後台處理複雜任務,結果自然接回對話,不中斷交互流。
-
輕量可部署:8B 參數規模緊湊,可在標準基礎設施上運行,降低實時 AI 助手的部署門檻。
JoyAI-VL-Interaction的項目地址
- 項目官網:https://joyai-vl-video-future-academy-jd.github.io/JoyAI-VL-Interaction/
- GitHub倉庫:https://github.com/jd-opensource/JoyAI-VL-Interaction/
- HuggingFace模型庫:https://huggingface.co/datasets/jdopensource/JoyAI-VL-Interaction
- 技術論文:https://echovideo.jd.cn/JoyAI-VL-Interaction/JoyAI-VL-Interaction-Reportv1.pdf
JoyAI-VL-Interaction的同類競品對比
| 對比維度 | JoyAI-VL-Interaction | 豆包視頻通話模型 |
|---|---|---|
| 模型規模 | 8B 參數,輕量視覺語言交互模型 | 大參數規模,通用多模態模型 |
| 核心範式 | 視覺優先的主動交互模型,每秒自主決策”說/沉默/委託” | 輪詢式問答模型,依賴用戶觸發後才處理當前幀 |
| 實時處理 | 面向流式視頻持續觀察,畫面變化即時響應 | 主要處理用戶提問瞬間的靜態畫面快照 |
| 時序感知 | 內置時間感知能力,可執行”20秒後提醒””每3秒播報”等時序任務 | 時序任務表現不穩定,測試中未按時提醒 |
| 記憶機制 | 分鐘級長時視覺記憶,可回溯數分鐘前的畫面細節 | 長時視覺記憶易出錯,如測試中給出錯誤的肉丸數量 |
| 視覺觸發 | 由畫面事件自主觸發語音輸出,無需用戶提問 | 需用戶主動提問才能生成回覆,無法自主告警 |
| 持續跟蹤 | 可持續跟蹤字幕變化、重複動作計數、App界面切換 | 難以維持跨幀狀態,計數和翻譯易中斷 |
JoyAI-VL-Interaction的應用場景
-
安防監控:實時觀察監控流,對異常事件(如摔倒、入侵)即時語音告警,無需人工盯屏。
-
老人/兒童看護:持續觀察居家畫面,發現危險行爲(靠近 stove、獨自外出)主動提醒。
-
直播導覽/電商導購:實時解說直播畫面,自動介紹商品細節,或根據用戶穿搭主動給出搭配建議。
-
實時翻譯:觀看外語視頻或面對面交流時,持續識別字幕/對話並實時口播翻譯。
-
操作指導:指導用戶操作 App 或設備,跟隨屏幕變化逐步提示,而非僅描述靜態截圖。
-
AI 眼鏡/無障礙輔助:作爲 AI 眼鏡的核心視覺大腦,爲視障人士實時描述周圍環境並主動提示障礙。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...