AI工具

GPT-SoVITS – 開源的聲音克隆項目,只需少量數據即可合成聲音

GPT-SoVITS是什麼 GPT-SoVITS是一個開源的聲音克隆項目,由B站UP主、RVC變聲器創始人花兒不哭推出,該語音合成工具結合了GPT(Generative Pre-trained Transf...

YOLOv9 – 新一代高效的實時目標檢測系統

YOLOv9是什麼 YOLOv9是一個由台北中研院和台北科技大學等機構的研究團隊推出的新一代先進的目標檢測系統,是YOLO(You Only Look Once)算法系列的最新版本。...

ScreenAgent – 基於視覺語言模型的計算機控制智能體

ScreenAgent是什麼 ScreenAgent是一個由吉林大學人工智能學院的研究團隊開發的計算機控制智能體,該智能體是基於視覺語言模型(VLM)構建的,能夠與真實計算...

ConsiStory – 免訓練實現主題一致性的文生圖方法

ConsiStory是什麼 ConsiStory是由NVIDIA和特拉維夫大學的研究人員共同開發的一種無需訓練的文本生成圖像的方法,可以實現讓圖像在保持風格和主題不變的情況下...

Stable Diffusion 3 – Stability AI推出的新一代圖像生成模型

Stable Diffusion 3是什麼 Stable Diffusion 3 是由 Stability AI 開發的一款先進的文本到圖像生成模型,是 Stable Diffusion 系列模型的最新迭代,旨在通過...

SDXL-Lightning – 字節跳動推出的文本到圖像生成模型

SDXL-Lightning是什麼 SDXL-Lightning是由字節跳動的研究團隊推出的一種基於擴散模型的文本到圖像生成技術,旨在解決傳統擴散模型在圖像生成速度和計算成本上...

VideoPoet – 谷歌推出的AI視頻生成模型

VideoPoet是什麼 VideoPoet是由谷歌的研究團隊開發的一種基於大模型的AI視頻生成方案,支持從文本、圖像或視頻輸入中合成高質量的視頻內容,並生成匹配的音頻...

VideoPoet – 谷歌推出的AI視頻生成模型

VideoPoet是什麼 VideoPoet是由谷歌的研究團隊開發的一種基於大模型的AI視頻生成方案,支持從文本、圖像或視頻輸入中合成高質量的視頻內容,並生成匹配的音頻...

DiT – 基於Transfomer架構的擴散模型

DiT是什麼 DiT(Diffusion Transformers)是一種新型的擴散模型,由William Peebles(Sora的研發負責人之一) 與紐約大學助理教授謝賽寧提出,結合了去噪擴散...

Boximator – 字節推出的控制視頻生成中對象運動的框架

Boximator是什麼? Boximator是由字節跳動的研究團隊開發的一種視頻合成技術,旨在生成豐富且可控的運動,以增強視頻合成的質量和可控性。該技術通過引入兩種...
1 ... 117 118 119 120 121 ... 127