AI工具
SwiftBrush V2 – 文本到圖像的單步擴散模型,性能與多步模型相媲美
SwiftBrush V2是什麼 SwiftBrush V2 是文本到圖像的單步擴散模型,通過改進訓練方法和模型融合技術,實現與多步Stable Diffusion擴散模型相媲美的性能。模型...
PoseTalk – 文本和音頻驅動的生成會說話的頭部動畫開源項目
PoseTalk是什麼 PoseTalk 是基於文本和音頻的姿勢控制和運動細化方法的開源項目,用於一次性生成會說話的頭部視頻。從圖像、驅動音頻和驅動姿勢合成說話人臉...
Claude Dev – AI編程助手,基於Claude 3.5 Sonnet模型
Claude Dev是什麼 Claude Dev是一個集成在Visual Studio Code中的AI編程助手,基於Anthropic公司的Claude 3.5 Sonnet模型,爲開發者提供自動化的編程支持。Cl...
書生·築夢2.0(Vchitect 2.0) – 上海人工智能實驗室推出的AI視頻生成模型
書生·築夢2.0是什麼 書生·築夢2.0(Vchitect 2.0)是由上海人工智能實驗室推出的升級版視頻生成開源大模型,旨在生成符閤中國文化和東方審美的視頻內容。模型...
FaceSwap – 開源的在線AI換臉工具,深度僞造視頻和圖像
FaceSwap是什麼 FaceSwap 是一個開源的AI軟件,用於創建深度僞造(Deepfakes)視頻和圖像。基於深度學習技術,在視頻或圖片中將一個人的臉替換成另一個人的臉...
PhotoPrism – 開源的AI照片管理工具,AI驅動的照片分類和搜索功能
PhotoPrism是什麼 PhotoPrism 是一個開源的AI照片管理工具,用 Go 語言編寫,旨在爲用戶提供一個去中心化的照片存儲和組織解決方案。支持用戶在自己的硬件上...
AI Youtube Shorts Generator – 開源的AI視頻編輯工具,自動分析視頻提取精彩片段
AI Youtube Shorts Generator是什麼 AI Youtube Shorts Generator 是一款開源的 AI 視頻編輯工具,基於 GPT-4、FFmpeg 和 OpenCV 等技術自動分析長視頻,提取...
QA-MDT – 中科大聯合科大訊飛推出開源音樂生成模型
QA-MDT是什麼 QA-MDT(Quality-aware Masked Diffusion Transformer)是由中國科學技術大學和科大訊飛聯合推出的開源音樂生成模型。模型基於文本描述生成高質...
SleepFM – 斯坦福大學開源的多模態睡眠分析模型
SleepFM是什麼 SleepFM 是斯坦福大學開源的多模態睡眠分析模型,基於超過14,000名參與者的100,000小時睡眠數據,通過融合大腦活動、心電圖和呼吸信號,提供全...
mPLUG-DocOwl2 – 阿里推出多頁文檔理解的多模態大模型,單頁僅需324個token
mPLUG-DocOwl2是什麼 mPLUG-DocOwl 2是由阿里巴巴通義實驗室mPLUG團隊推出的用於多頁文檔理解的多模態大型語言模型。在不依賴光學字符識別(OCR)技術的情況...