赤兔Chitu – 清華聯合清程極智開源的大模型推理引擎

AI工具1年前 (2025)發佈新公告 AI管理員
0 0

Chitu是什麼

Chitu(赤兔)是清華大學高性能計算研究所與清程極智聯合開源的高性能大模型推理引擎,專爲解決大模型在推理階段的高成本和低效率問題設計,具有強大的硬件適配能力,支持英偉達多款GPU及國產芯片,打破了對特定硬件(如英偉達Hopper架構)的依賴。 在性能方面,在A800集羣上部署DeepSeek-R1-671B時,相比部分國外開源框架,GPU使用量減少50%,推理速度提升3.15倍。支持從純CPU到大規模集羣的全場景部署,能滿足不同規模和場景下的推理需求。

赤兔Chitu – 清華聯合清程極智開源的大模型推理引擎

Chitu的主要功能

  • 多元算力適配:支持英偉達從最新旗艦到舊款的多系列GPU,同時爲國產芯片提供優化支持,打破了對英偉達Hopper架構的依賴。
  • 全場景可伸縮:從純CPU部署、單GPU部署到大規模集羣部署,赤兔引擎都能提供可擴展的解決方案,滿足不同規模和場景下的推理需求。
  • 低延遲優化:針對對延遲敏感的場景,如金融風控等,優化模型推理速度,減少響應時間。
  • 高吞吐優化:在高併發場景下,如智能客服,提高單位時間內處理的請求數量。
  • 小顯存優化:降低單卡顯存佔用,使企業可以用更少的硬件資源獲得更高的推理性能。
  • 長期穩定運行:赤兔引擎可應用於實際生產環境,穩定性足以承載併發業務流量。
  • 開箱即用:清程極智推出了基於赤兔的推理一體機,提供開箱即用的部署方案及專業運維服務,進一步簡化企業AI落地流程。

Chitu的技術原理

  • 底層技術革新:赤兔引擎通過底層技術革新,首次實現了在非英偉達Hopper架構GPU及各類國產芯片上原生運行FP8精度模型。打破了過去FP8模型對英偉達H系列高端GPU的依賴,使企業可以在更多類型的硬件上高效部署大模型。
  • 算子級優化:赤兔對關鍵算子(如GeMM、MoE等)進行了指令級優化,直接處理FP8數據而非簡單量化。確保了模型精度無損,同時顯著提升了推理速度。在A800集羣的測試中,相比部分國外開源框架,赤兔引擎在GPU使用量減少50%的情況下,推理速度仍有3.15倍的提升。
  • 全場景性能優化:赤兔引擎支持低延遲、高吞吐和小顯存優化,能根據不同場景需求,在不同硬件配置和系統環境下,提供最優解決方案。赤兔可以根據系統資源狀況,在GPU利用率、內存效率和網絡傳輸之間尋找最佳平衡點。
  • 並行計算與編譯優化:赤兔引擎凝結了清華大學團隊多年的並行計算與編譯優化技術積累。通過智能編譯技術,團隊能夠加速高性能算子的開發過程,在較短時間內實現對不同硬件架構的優化。

Chitu的項目地址

  • Github倉庫:https://github.com/thu-pacman/chitu

Chitu的應用場景

  • 風險識別與預警:赤兔引擎能快速處理海量交易數據,實時監測潛在風險並及時預警,幫助金融機構提升風險管理效率。
  • 智能客服與客戶體驗優化:通過大模型智能知識庫,快速響應客戶需求,提升服務體驗。
  • 疾病診斷輔助:赤兔引擎能快速處理醫療數據,提升疾病診斷的速度和準確性,改善患者的就醫體驗。
  • 交通流量優化:赤兔引擎可以實時處理交通數據,優化交通流量,緩解城市擁堵。
  • 科研數據分析:赤兔引擎能高效處理科研數據,加速科研進程。
© 版權聲明

相關文章

暫無評論

暫無評論...