ComfyGen – 英偉達聯合特拉維夫推出的文本到圖像生成系統

AI工具1年前 (2024)發佈新公告 AI管理員

9 0 0

ComfyGen是什麼

ComfyGen是由NVIDIA和特拉維夫大學研究人員推出的一種文本到圖像生成系統，基於大型語言模型（LLM）自動創建與用戶文本提示相匹配的工作流，提升圖像生成的質量。系統解決傳統單體模型在生成圖像時存在的限制，結合多個專業組件如微調基礎模型、LoRAs、嵌入、超分辨率步驟等構建複雜的工作流。ComfyGen提出兩種基於LLM的方法：一種是基於用戶偏好數據的調優方法，另一種是無需訓練、直接選擇現有流程的方法。兩種方法顯示出比傳統模型或通用工作流更高的圖像質量。

ComfyGen的主要功能

自適應工作流生成：根據用戶的文本提示自動創建最適合的圖像生成工作流。
多組件協同：結合微調基礎模型、LoRAs、嵌入、超分辨率步驟等多種專業組件構建複雜工作流。
質量提升：基於優化工作流提高生成圖像的質量，更符合用戶的文本提示。
自動化流程設計：減少設計有效工作流所需的專業知識，自動化流程設計適應不同的文本提示。
LLM預測集成：基於大型語言模型（LLM）預測和選擇與文本提示最匹配的圖像生成流程。

ComfyGen的技術原理

數據收集與訓練集構建：研究人員收集一組由人類創建的ComfyUI工作流，基於對工作流的參數（如基礎模型、LoRAs、採樣器等）進行隨機交換來增強數據集。用一組文本提示生成圖像，基於美學和人類偏好預測器對圖像進行評分，形成包含提示、工作流、分數的三元組數據集。
LLM預測：ComfyGen基於LLM預測給定文本提示的最優工作流。涉及到兩種方法：
- 上下文方法（ComfyGen-IC）：給LLM提供一個包含工作流及在不同類別中的得分的表格，要求爲新的文本提示選擇最合適的工作流。
- 微調方法（ComfyGen-FT）：微調一個LLM，在給定文本提示和目標分數的情況下，預測能達到目標分數的工作流。
工作流生成：在推理階段，ComfyGen接收一個文本提示和一個高分數作爲輸入，LLM預測出一個與條件相匹配的工作流。
圖像生成與評估：用預測出的工作流生成圖像，喲個人類偏好和圖像質量評估指標評估生成的圖像。