AI工具

商湯輸入法AudioClaw – 商湯科技推出的 AI 語音輸入工具

商湯輸入法AudioClaw是什麼 商湯輸入法AudioClaw是商湯科技基於日日新多模態大模型推出的智能語音輸入工具。工具集語音轉文字、智能潤色、即時翻譯、口語淨化...

MOCR – 小紅書聯合華中科技推出的多模態文檔解析模型

MOCR是什麼 MOCR(Multimodal OCR)是華中科技大學與小紅書hi lab聯合推出的多模態文檔解析模型,僅3B參數在文檔解析和圖形重建上實現突破性表現。模型打破傳...

Voxtral TTS – Mistral AI開源的文本轉語音模型

Voxtral TTS是什麼 Voxtral TTS 是 Mistral AI開源的文本轉語音模型,基於 40 億參數架構,支持 9 種語言。模型具備 90 毫秒超低延遲和 6 倍實時生成速度,僅...

Gemini 3.1 Flash Live – 谷歌推出的實時語音模型

Gemini 3.1 Flash Live是什麼 Gemini 3.1 Flash Live是Google最新推出的高質量實時語音模型,專爲自然流暢的對話交互設計。模型在語調理解、推理能力和響應速...

Suno v5.5 – Suno推出的 AI 音樂生成模型

Suno v5.5是什麼 Suno V5.5 是Suno推出的 AI 音樂生成模型,標誌着從”生成即完成”向”精細化製作”的重大轉型。模型新增 Voices 聲音定製、Custom Models 自定...

Sand.ai – AI視頻生成平台,一鍵直出完整視頻

Sand.ai是什麼 Sand.ai(北京三呆科技)是AI視頻生成平台。平台專注自迴歸世界模型技術路線,現已開源150億參數音視頻模型daVinci-MagiHuman、分佈式訓練組件...

SClaw – 超算互聯網推出的科研專屬 AI Agent

SClaw 是什麼 SClaw 是超算互聯網推出的科研專屬 AI Agent(智能體),是基於 OpenClaw 打造、深度集成於 SCNet 客戶端。產品支持「對話即指令」的自然交互,...

LongCat-Next – 美團 LongCat 推出的多模態模型

LongCat-Next是什麼 LongCat-Next是美團LongCat推出的多模態模型,核心創新是LoZA稀疏注意力機制。模型通過智能篩查模塊重要性,將50%低重要模塊替換爲流式稀...

daVinci-MagiHuman – Sand.ai等開源的音視頻生成模型

daVinci-MagiHuman是什麼 daVinci-MagiHuman 是上海創智學院 GAIR 實驗室與 Sand.ai 聯合開源的音視頻聯合生成基座模型。模型採用 150 億參數的單流 Transfor...

TurboQuant – 谷歌推出的向量量化算法

TurboQuant是什麼 TurboQuant 是 Google Research 推出的向量量化算法,可將大模型 KV Cache 從 32-bit 壓縮至 3-bit,實現內存降低 6 倍、推理速度提升 8 倍...
1 ... 3 4 5 6 7 ... 87