ComfyGen – 英偉達聯合特拉維夫推出的文本到圖像生成系統

AI工具3周前發佈新公告 AI管理員
1 0

ComfyGen是什麼

ComfyGen是由NVIDIA和特拉維夫大學研究人員推出的一種文本到圖像生成系統,基於大型語言模型(LLM)自動創建與用戶文本提示相匹配的工作流,提升圖像生成的質量。系統解決傳統單體模型在生成圖像時存在的限制,結合多個專業組件如微調基礎模型、LoRAs、嵌入、超分辨率步驟等構建複雜的工作流。ComfyGen提出兩種基於LLM的方法:一種是基於用戶偏好數據的調優方法,另一種是無需訓練、直接選擇現有流程的方法。兩種方法顯示出比傳統模型或通用工作流更高的圖像質量。

ComfyGen – 英偉達聯合特拉維夫推出的文本到圖像生成系統

ComfyGen的主要功能

  • 自適應工作流生成:根據用戶的文本提示自動創建最適合的圖像生成工作流。
  • 多組件協同:結合微調基礎模型、LoRAs、嵌入、超分辨率步驟等多種專業組件構建複雜工作流。
  • 質量提升:基於優化工作流提高生成圖像的質量,更符合用戶的文本提示。
  • 自動化流程設計:減少設計有效工作流所需的專業知識,自動化流程設計適應不同的文本提示。
  • LLM預測集成:基於大型語言模型(LLM)預測和選擇與文本提示最匹配的圖像生成流程。

ComfyGen的技術原理

  • 數據收集與訓練集構建:研究人員收集一組由人類創建的ComfyUI工作流,基於對工作流的參數(如基礎模型、LoRAs、採樣器等)進行隨機交換來增強數據集。用一組文本提示生成圖像,基於美學和人類偏好預測器對圖像進行評分,形成包含提示、工作流、分數的三元組數據集。
  • LLM預測:ComfyGen基於LLM預測給定文本提示的最優工作流。涉及到兩種方法:
    • 上下文方法(ComfyGen-IC):給LLM提供一個包含工作流及在不同類別中的得分的表格,要求爲新的文本提示選擇最合適的工作流。
    • 微調方法(ComfyGen-FT):微調一個LLM,在給定文本提示和目標分數的情況下,預測能達到目標分數的工作流。
  • 工作流生成:在推理階段,ComfyGen接收一個文本提示和一個高分數作爲輸入,LLM預測出一個與條件相匹配的工作流。
  • 圖像生成與評估:用預測出的工作流生成圖像,喲個人類偏好和圖像質量評估指標評估生成的圖像。

ComfyGen的項目地址

  • 項目官網:comfygen-paper.github.io
  • arXiv技術論文:https://arxiv.org/pdf/2410.01731v1

ComfyGen的應用場景

  • 藝術創作:藝術家和設計師用ComfyGen生成具有特定風格和主題的圖像,加速創作過程,探索新的視覺概念。
  • 遊戲開發:遊戲開發者用ComfyGen快速生成遊戲環境中的背景、角色概念圖或其他遊戲元素,提高開發效率。
  • 廣告和營銷:營銷團隊用ComfyGen設計廣告圖像和營銷材料,確保與廣告文案和品牌信息相匹配。
  • 電影和娛樂行業:電影製作人和視覺特效團隊用ComfyGen創建電影中的場景概念圖或特效圖像,輔助前期製作和視覺效果設計。
  • 教育和研究:教育工作者和研究人員用ComfyGen生成教學材料中的插圖,在進行科學可視化時創建精確的圖像。
© 版權聲明

相關文章

暫無評論

暫無評論...