JoyAI-VL-Interaction – 京東開源的實時視頻視覺語言交互模型

0 0 0

JoyAI-VL-Interaction是什麼

JoyAI-VL-Interaction 是京東 Joy Future Academy 開源的實時視頻視覺語言交互模型，是全球首個全棧開源的 interaction 模型系統。JoyAI-VL-Interaction讓大模型從一問一答轉向邊看邊說，可持續觀察視頻流、自主判斷何時發聲、實時響應畫面變化，支持將複雜任務委託給後台 Agent 處理。在 58 項真人盲評中，對比豆包視頻通話助手勝率 77.6%，對比 Gemini 勝率 87.9%。

JoyAI-VL-Interaction的主要功能

主動視覺響應：持續觀察攝像頭/直播流/監控流，自主判斷何時說話、何時沉默，無需用戶逐輪提問。
實時流式交互：面向正在發生的視頻流即時響應，畫面變化時秒級反饋，而非事後總結完整視頻。
智能體委託：遇到代碼生成、工具調用、複雜推理等任務時，自動交給後台大模型或 Agent，前台繼續觀察。
多模態輸入輸出：支持語音輸入輸出、可視化界面、長期記憶，ASR/TTS/界面均可按需替換。
長時記憶：具備分鐘級視覺記憶，可回溯數分鐘前的畫面細節並準確回答。

JoyAI-VL-Interaction的技術原理

視覺優先的交互決策：模型核心是一個每秒自動執行的決策——說話、沉默或委託。模型基於 JoyAI-VL-8B 視覺語言指令模型構建，將語音作爲可插拔的輸入輸出，模型的唯一任務是觀察畫面並判斷行動時機。
預測性視頻編解碼：採用 AdaCodec 預測性視頻編解碼器，對可預測幀僅消耗少量 token，在場景實際變化時保留完整細節，使 token 預算隨時間緩慢增長而非逐幀膨脹，支撐長時實時流處理。
時序對齊的行爲學習：模型通過超過 400 萬條逐秒標註的時序交互片段進行訓練，每條數據精確標註何時該說話、沉默或委託，並輔以強化學習微調，使行爲從數據中學習。
可插拔的系統架構：圍繞核心模型構建完整部署系統，包括流式 ASR/TTS、長時記憶模塊、可視化 UI、後台模型橋接。所有組件均可獨立替換，整體基於標準 vLLM 基礎設施運行，獲得 vLLM-Omni 的 day-0 原生支持。

JoyAI-VL-Interaction – 京東開源的實時視頻視覺語言交互模型

微信關注回覆 “開源”，加入AI開源項目交流羣

如何使用JoyAI-VL-Interaction

克隆倉庫：訪問 GitHub 開源倉庫 jd-opensource/JoyAI-VL-Interaction 獲取完整代碼與部署系統。
獲取模型：從 Hugging Face 下載 jdopensource/JoyAI-VL-Interaction-Preview 模型權重。
準備環境：基於標準 vLLM 基礎設施部署，支持攝像頭、RTSP 監控流、直播流等多種視頻輸入。
自定義組件：按需替換 ASR、TTS、語音服務、Agent、API 或前端界面，接入自有業務系統。
運行體驗：啓動後指向攝像頭或直播流，模型即進入實時觀察與交互狀態。

JoyAI-VL-Interaction的核心優勢

全棧開源：8B 模型、訓練配方、400 萬條時序數據、完整可部署系統全部開放，可復現可擴展。
實時在場：能在直播流中持續觀察數小時，響應延遲低於 1 秒，真正”在場”而非輪詢喚醒。
視覺觸發主動性：從畫面內容自主決策發言時機，在監控預警、實時翻譯等場景中實現零延遲告警。
前後台分離：前台模型保持視覺觀察不間斷，後台處理複雜任務，結果自然接回對話，不中斷交互流。
輕量可部署：8B 參數規模緊湊，可在標準基礎設施上運行，降低實時 AI 助手的部署門檻。

JoyAI-VL-Interaction的項目地址

項目官網：https://joyai-vl-video-future-academy-jd.github.io/JoyAI-VL-Interaction/
GitHub倉庫：https://github.com/jd-opensource/JoyAI-VL-Interaction/
HuggingFace模型庫：https://huggingface.co/datasets/jdopensource/JoyAI-VL-Interaction
技術論文：https://echovideo.jd.cn/JoyAI-VL-Interaction/JoyAI-VL-Interaction-Reportv1.pdf

JoyAI-VL-Interaction的同類競品對比

對比維度	JoyAI-VL-Interaction	豆包視頻通話模型
模型規模	8B 參數，輕量視覺語言交互模型	大參數規模，通用多模態模型
核心範式	視覺優先的主動交互模型，每秒自主決策”說/沉默/委託”	輪詢式問答模型，依賴用戶觸發後才處理當前幀
實時處理	面向流式視頻持續觀察，畫面變化即時響應	主要處理用戶提問瞬間的靜態畫面快照
時序感知	內置時間感知能力，可執行”20秒後提醒””每3秒播報”等時序任務	時序任務表現不穩定，測試中未按時提醒
記憶機制	分鐘級長時視覺記憶，可回溯數分鐘前的畫面細節	長時視覺記憶易出錯，如測試中給出錯誤的肉丸數量
視覺觸發	由畫面事件自主觸發語音輸出，無需用戶提問	需用戶主動提問才能生成回覆，無法自主告警
持續跟蹤	可持續跟蹤字幕變化、重複動作計數、App界面切換	難以維持跨幀狀態，計數和翻譯易中斷