JoyAI-VL-Interaction – 京東開源的實時視頻視覺語言交互模型

AI工具8小時前發佈新公告 AI管理員
0 0

JoyAI-VL-Interaction是什麼

JoyAI-VL-Interaction 是京東 Joy Future Academy 開源的實時視頻視覺語言交互模型,是全球首個全棧開源的 interaction 模型系統。JoyAI-VL-Interaction讓大模型從一問一答轉向邊看邊說,可持續觀察視頻流、自主判斷何時發聲、實時響應畫面變化,支持將複雜任務委託給後台 Agent 處理。在 58 項真人盲評中,對比豆包視頻通話助手勝率 77.6%,對比 Gemini 勝率 87.9%。

JoyAI-VL-Interaction – 京東開源的實時視頻視覺語言交互模型

JoyAI-VL-Interaction的主要功能

  • 主動視覺響應:持續觀察攝像頭/直播流/監控流,自主判斷何時說話、何時沉默,無需用戶逐輪提問。
  • 實時流式交互:面向正在發生的視頻流即時響應,畫面變化時秒級反饋,而非事後總結完整視頻。
  • 智能體委託:遇到代碼生成、工具調用、複雜推理等任務時,自動交給後台大模型或 Agent,前台繼續觀察。
  • 多模態輸入輸出:支持語音輸入輸出、可視化界面、長期記憶,ASR/TTS/界面均可按需替換。
  • 長時記憶:具備分鐘級視覺記憶,可回溯數分鐘前的畫面細節並準確回答。

JoyAI-VL-Interaction的技術原理

  • 視覺優先的交互決策:模型核心是一個每秒自動執行的決策——說話、沉默或委託。模型基於 JoyAI-VL-8B 視覺語言指令模型構建,將語音作爲可插拔的輸入輸出,模型的唯一任務是觀察畫面並判斷行動時機。
  • 預測性視頻編解碼:採用 AdaCodec 預測性視頻編解碼器,對可預測幀僅消耗少量 token,在場景實際變化時保留完整細節,使 token 預算隨時間緩慢增長而非逐幀膨脹,支撐長時實時流處理。
  • 時序對齊的行爲學習:模型通過超過 400 萬條逐秒標註的時序交互片段進行訓練,每條數據精確標註何時該說話、沉默或委託,並輔以強化學習微調,使行爲從數據中學習。
  • 可插拔的系統架構:圍繞核心模型構建完整部署系統,包括流式 ASR/TTS、長時記憶模塊、可視化 UI、後台模型橋接。所有組件均可獨立替換,整體基於標準 vLLM 基礎設施運行,獲得 vLLM-Omni 的 day-0 原生支持。

JoyAI-VL-Interaction – 京東開源的實時視頻視覺語言交互模型

微信關注回覆 “開源”,加入AI開源項目交流羣

如何使用JoyAI-VL-Interaction

  • 克隆倉庫:訪問 GitHub 開源倉庫 jd-opensource/JoyAI-VL-Interaction 獲取完整代碼與部署系統。
  • 獲取模型:從 Hugging Face 下載 jdopensource/JoyAI-VL-Interaction-Preview 模型權重。
  • 準備環境:基於標準 vLLM 基礎設施部署,支持攝像頭、RTSP 監控流、直播流等多種視頻輸入。
  • 自定義組件:按需替換 ASR、TTS、語音服務、Agent、API 或前端界面,接入自有業務系統。
  • 運行體驗:啓動後指向攝像頭或直播流,模型即進入實時觀察與交互狀態。

JoyAI-VL-Interaction的核心優勢

  • 全棧開源:8B 模型、訓練配方、400 萬條時序數據、完整可部署系統全部開放,可復現可擴展。
  • 實時在場:能在直播流中持續觀察數小時,響應延遲低於 1 秒,真正”在場”而非輪詢喚醒。
  • 視覺觸發主動性:從畫面內容自主決策發言時機,在監控預警、實時翻譯等場景中實現零延遲告警。
  • 前後台分離:前台模型保持視覺觀察不間斷,後台處理複雜任務,結果自然接回對話,不中斷交互流。
  • 輕量可部署:8B 參數規模緊湊,可在標準基礎設施上運行,降低實時 AI 助手的部署門檻。

JoyAI-VL-Interaction的項目地址

  • 項目官網:https://joyai-vl-video-future-academy-jd.github.io/JoyAI-VL-Interaction/
  • GitHub倉庫:https://github.com/jd-opensource/JoyAI-VL-Interaction/
  • HuggingFace模型庫:https://huggingface.co/datasets/jdopensource/JoyAI-VL-Interaction
  • 技術論文:https://echovideo.jd.cn/JoyAI-VL-Interaction/JoyAI-VL-Interaction-Reportv1.pdf

JoyAI-VL-Interaction的同類競品對比

對比維度 JoyAI-VL-Interaction 豆包視頻通話模型
模型規模 8B 參數,輕量視覺語言交互模型 大參數規模,通用多模態模型
核心範式 視覺優先的主動交互模型,每秒自主決策”說/沉默/委託” 輪詢式問答模型,依賴用戶觸發後才處理當前幀
實時處理 面向流式視頻持續觀察,畫面變化即時響應 主要處理用戶提問瞬間的靜態畫面快照
時序感知 內置時間感知能力,可執行”20秒後提醒””每3秒播報”等時序任務 時序任務表現不穩定,測試中未按時提醒
記憶機制 分鐘級長時視覺記憶,可回溯數分鐘前的畫面細節 長時視覺記憶易出錯,如測試中給出錯誤的肉丸數量
視覺觸發 由畫面事件自主觸發語音輸出,無需用戶提問 需用戶主動提問才能生成回覆,無法自主告警
持續跟蹤 可持續跟蹤字幕變化、重複動作計數、App界面切換 難以維持跨幀狀態,計數和翻譯易中斷

JoyAI-VL-Interaction的應用場景

  • 安防監控:實時觀察監控流,對異常事件(如摔倒、入侵)即時語音告警,無需人工盯屏。
  • 老人/兒童看護:持續觀察居家畫面,發現危險行爲(靠近 stove、獨自外出)主動提醒。
  • 直播導覽/電商導購:實時解說直播畫面,自動介紹商品細節,或根據用戶穿搭主動給出搭配建議。
  • 實時翻譯:觀看外語視頻或面對面交流時,持續識別字幕/對話並實時口播翻譯。
  • 操作指導:指導用戶操作 App 或設備,跟隨屏幕變化逐步提示,而非僅描述靜態截圖。
  • AI 眼鏡/無障礙輔助:作爲 AI 眼鏡的核心視覺大腦,爲視障人士實時描述周圍環境並主動提示障礙。
© 版權聲明

相關文章

暫無評論

暫無評論...