LOGOS – 阿里開源的首個統一科學大模型

AI工具9小時前發佈新公告 AI管理員
0 0

LOGOS是什麼

LOGOS(Language Of Generative Objects in Science)是阿里 ATH-Token Foundry 聯合中國人民大學高瓴人工智能學院開源的首個統一科學語法多領域科學生成基礎模型。模型將蛋白質、小分子、材料、抗體等異構科學對象編碼爲統一 Token 序列,基於純序列建模範式,在口袋配體生成、逆合成預測、蛋白質編輯、材料生成等六大科學任務上一致性匹配或超越領域專用方法,用 1B 參數超越 56B 參數模型,驗證一個模型解決萬千科學任務的可行性。

LOGOS – 阿里開源的首個統一科學大模型

LOGOS的主要功能

  • 口袋條件配體生成:給定蛋白質口袋結構,生成能精準結合的小分子藥物,同時滿足結合親和力、藥物相似性和合成可行性三重要求。
  • 逆合成預測:給定目標分子,預測合成所需前體分子,Top-1 準確率達 74.8%,輔助化學家設計合成路線。
  • 口袋位點識別:僅靠氨基酸序列預測蛋白質結合位點,無需 3D 結構數據,在 HOLO4K 數據集上 Top-n 準確率達 58.5%。
  • MOF 材料生成:生成新型金屬有機框架材料,新型構建單元比例(NBB)達 17.78%,較基線提升 76%。
  • 蛋白質編輯:在 Hard 難度 Fitness 任務上得分達 0.93,較基線 0.34 提升 174%。
  • 抗體 CDR 設計:抗體互補決定區設計 AAR 達 79.82%,超越結構依賴的逆摺疊方法。

LOGOS的技術原理

  • 統一”科學語法” + 空間交互離散化:設計共享詞彙表,將蛋白質、小分子、材料等異構對象統一編碼爲離散 Token 序列;發明文字描述法將 3D 空間接觸模式語法化,無需顯式 3D 座標可理解複雜空間互作規律。
  • 形式與目標完全對齊:預訓練數據的序列形式等於下游任務的輸入輸出形式,預訓練的 next-token prediction 等於下游條件生成目標,消除預訓練與下游應用之間的 gap。
  • 跨領域知識正向遷移:統一語法使生物、化學、材料等領域數據在同一模型框架內迴流訓練,實驗證實多任務聯合訓練效果優於獨立訓練,實現”1+1>2″的協同效應。

LOGOS – 阿里開源的首個統一科學大模型

微信關注回覆 “開源”,加入AI開源項目交流羣

如何使用LOGOS

  • 獲取開源資源:訪問 HuggingFace(LOGOS-Hub)下載模型權重,或從 GitHub(LOGOS-Hub/LOGOS)獲取推理代碼。
  • 基於 LLM 生態部署:直接複用 vLLM 推理加速、模型量化等成熟工程基建,無需構建獨立技術棧。
  • 下游任務調用:將科學對象按統一語法格式化爲 Token 序列,通過自迴歸生成完成口袋配體設計、逆合成預測等任務。

LOGOS的核心優勢

  • 純序列範式超越 3D 模型:在口袋配體生成任務上,純序列方法首次打敗依賴 3D 座標的擴散模型,證明空間結構可完全通過序列預測捕獲。
  • 極致參數效率:LOGOS-1B 用 1/56 參數量(1B vs 8×7B)在多個任務上超越 NatureLM,展現極高參數效率。
  • 零 3D 座標依賴:口袋位點識別僅需氨基酸序列,無需昂貴且稀缺的 3D 結構數據,大幅降低藥物發現門檻。
  • 統一架構降低工程成本:與 LLM 共享架構、訓練範式和推理基礎設施,可直接複用現有成熟工程生態,無需獨立技術棧。

LOGOS的項目地址

  • GitHub倉庫:https://github.com/LOGOS-Hub/LOGOS
  • HuggingFace模型庫:https://huggingface.co/LOGOS-Hub
  • arXiv技術論文:https://arxiv.org/pdf/2606.16905

LOGOS的同類競品對比

對比維度 LOGOS NatureLM
核心定位 統一科學語法的多領域生成基礎模型 分子與蛋白質領域專用語言模型
參數規模 1B / 3B / 8B 8×7B(56B)
建模範式 純序列自迴歸,無需 3D 座標 依賴 3D 座標與專用幾何網絡
任務覆蓋 蛋白質、分子、材料、反應、抗體、口袋識別 分子生成、蛋白質結構
跨領域遷移 統一語法實現正向知識遷移 各領域獨立建模,難以遷移
參數效率 1B 參數在多個任務上超越 56B 模型 需更大參數量達到同等性能
工程生態 複用 LLM 基建(vLLM、量化等) 構建獨立於 LLM 的技術棧

LOGOS的應用場景

  • AI 輔助藥物設計:針對特定蛋白質靶點口袋生成候選藥物分子,同時優化結合親和力、藥物相似性與合成可行性。
  • 化學合成路線規劃:爲有機合成提供逆合成路徑預測,Top-1 準確率達 74.8%,減少實驗試錯成本。
  • 蛋白質工程改造:定向編輯蛋白質序列以提升穩定性或功能,Hard Fitness 得分達 0.93,用於酶工程與生物催化劑開發。
  • 新材料發現:生成新型 MOF 材料,新型構建單元比例提升 76%,適用於氣體存儲、分離與能源轉化。
  • 抗體藥物開發:設計高親和力抗體 CDR 區域,AAR 達 79.82%,加速治療性抗體研發。
© 版權聲明

相關文章

暫無評論

暫無評論...