Llama 3.2 – Meta推出的中小型視覺語言模型和輕量級文本模型

Llama 3.2是什麼 Llama 3.2是Meta公司最新推出的開源AI大模型系列,包括小型和中型視覺語言模型(11B和90B參數)以及輕量級純文本模型(1B和3B參數)。Llama ...

15個免費的AI視頻生成工具和軟件,視頻創作提效神器

在數字時代,視覺內容的影響力不容小覷。視頻,作爲最吸引人的媒介之一,已經成爲傳達信息、講述故事和創造影響力的強大工具。高質量的視頻製作往往需要昂貴...

Cal AI – 掃描食物熱量的APP,AI分析食物中蛋白、碳水和脂肪含量

Cal AI是什麼 Cal AI是一款基於AI技術能掃描食物熱量的APP,通過用戶拍攝食物照片追蹤卡路里和營養成分,幫助用戶管理飲食和體重。Cal AI基於先進的圖像識別...

MMMLU – OpenAI推出的多語言大規模多任務語言理解數據集

MMMLU是什麼 MMMLU(多語言大規模多任務語言理解)是OpenAI推出的一個開源數據集,爲評估和提升人工智能模型在不同語言、認知和文化背景下的性能而設計。MMML...

PortraitGen – 中科大推出的AI人像視頻編輯工具

PortraitGen是什麼 PortraitGen是中國科學技術大學研究團隊推出的一款AI人像視頻編輯工具。基於3D高斯濺射技術和神經高斯紋理機制,將2D人像視頻轉換爲4D高斯...

豆包PixelDance – 字節跳動推出的AI視頻生成大模型,基於DiT結構

豆包PixelDance是什麼 豆包PixelDance是字節跳動最新推出的AI視頻生成模型,採用DiT結構,支持文生視頻和圖生視頻。它能理解複雜指令,生成長達10秒的連貫視...

豆包Seaweed – 字節跳動推出的AI視頻生成模型,基於Transformer結構

豆包Seaweed是什麼 豆包Seaweed是字節跳動推出的AI視頻生成模型,支持文生視頻和圖生視頻兩種模式。基於Transformer結構,利用時空壓縮技術進行訓練,原生支...

GOT-OCR2.0 – 開源的端到端OCR模型,多語言多模態識別,多樣化輸入輸出

GOT-OCR2.0是什麼 GOT-OCR 2.0是一種先進的光學字符識別(OCR)模型,推動OCR技術進入2.0時代。GOT-OCR 2.0端到端的模型由高壓縮編碼器和長上下文解碼器組成...

onewebot2 – 微信AI機器人一鍵運行包,雙擊exe直接使用

onewebot2是什麼 oneWebot2是一款微信AI機器人一鍵運行軟件包,用戶下載exe文件後,雙擊即可啓動,無需複雜的Python環境配置。有圖形化界面,簡化配置流程,...

SFR-RAG – 專注於上下文理解和檢索增強生成的語言模型

SFR-RAG是什麼 SFR-RAG是由Salesforce AI Research推出的一款大型語言模型,專注於提升機器在理解和生成文本方面的應用能力。模型特別強調對上下文的忠實理解...
1 ... 53 54 55 56 57 ... 137