美圖奇想大模型 – 美圖公司推出的AI視覺大模型

AI工具2年前 (2024)發佈新公告 AI管理員

0 0 0

美圖奇想大模型是什麼

美圖奇想大模型（MiracleVision）是美圖公司推出的一款AI視覺大模型，專注於美學創作，包括東方美學、人像和商業設計等。模型完成了視頻生成能力的全面升級，能生成1分鐘、每秒24幀、1080P分辨率的高質量視頻，顯著提升視頻的畫質、流暢性和真實性。升級後的模型在美圖旗下的產品如美圖秀秀、美顏相機、Wink等應用中使用，將逐步推廣到其他產品，如開拍、美圖設計室、WHEE、MOKI等。美圖公司在AI領域的進一步發展，提升了用戶的視覺體驗，提高了工作流的效率，在電商、廣告、遊戲、動漫和影視行業中具有應用潛力。

美圖奇想大模型的主要功能

圖像和視頻生成：生成多種風格和類型的圖像及視頻，如動物攝影、平面商插、數字渲染、Q版卡通、數字3D、動漫遊戲、廣告攝影、電商廣告、概念藝術、工業設計、概念設計、影視遊戲、人像美容、裝置藝術、人像攝影及手工藝品等。
文生圖和圖生圖：輸入文字或圖像智能生成創作圖，提供多種風格和豐富的可調參數，實現精準畫面控制。
視頻生成能力：支持生成長達1分鐘、每秒24幀、1080P分辨率的高質量視頻，提升視頻的畫質、流暢性和真實性。
AI畫面擴展：讓作品尺寸更大、細節更豐富。
局部修改：對部分畫面進行精準修改與調整。
分辨率提升：支持生成高清大圖，使細節表現、色彩展示、物體辨識更加精準和生動。

美圖奇想大模型的技術原理

深度學習與視覺Transformer：基於深度學習技術進行圖像和視頻的生成，採用視覺Transformer架構，結合自注意力機制和位置編碼捕捉圖像中的全局和局部信息。
自注意力機制：通過自注意力機制，模型能關注輸入數據中的重要部分，並計算同一序列的表示，擴大圖像的感受野，獲取更多上下文信息。
位置編碼：用位置編碼添加序列中每個元素的位置信息，使模型能理解圖像中元素的位置關係。
美學評估系統：整合美學評估系統，通過機器學習提升模型的美學表現力和創作能力。
數據集優化：與外部設計師合作構建高質量的數據集，優化模型在美學上的表現。
視頻生成能力：採用Diffusion與Transformer模型結合的技術路線，使用DiT視頻生成架構，解決主體一致性、運動連貫性、物理邏輯合理性等視頻生成能力落地的核心問題。