Models.dev是什麼
Models.dev 是 OpenCode 團隊開源的 AI 模型數據庫。Models.dev 以標準化 TOML 格式整合 OpenAI、Anthropic、Google 等數十家主流廠商的模型信息,涵蓋價格、上下文窗口、工具調用、知識截止等關鍵規格,提供公開 JSON API(models.dev/api.json)供開發者直接調用。Models.dev 解決了 AI 模型信息碎片化痛點,幫助開發者一站式查詢與精確成本估算,高效完成模型選型。

Models.dev的主要功能
-
一站式模型信息查詢:收錄 OpenAI、Anthropic、Google、Meta 等數十家主流廠商的基礎對話模型與專業領域模型,無需在多個官網間切換查找。
-
精確成本估算:詳細記錄每個模型的輸入/輸出/推理/緩存讀取/緩存寫入成本(每百萬 token 美元),以及音頻輸入輸出成本,幫助項目精確估算預算。
-
能力規格對比:標準化展示模型是否支持工具調用、推理/思維鏈、結構化輸出、溫度控制、文件附件,以及知識截止日期、上下文窗口、最大輸入輸出 token 數、支持模態等關鍵指標。
-
公開 JSON API:提供
models.dev/api.json接口,開發者可直接在項目中調用完整模型數據,用於構建模型選型工具、成本計算器或管理面板。 -
提供商 Logo 獲取:通過
models.dev/logos/{provider}.svg接口直接獲取各廠商 Logo。 -
社區協作維護:數據用 TOML 格式按提供商分類存儲,支持社區貢獻,確保數據庫持續更新。
Models.dev的技術原理
-
三階段循環架構:輸入經Prelude(標準Transformer層)編碼後,進入Recurrent Block循環迭代T次,最後由Coda輸出;每次循環通過注入原始輸入e防止隱狀態漂移。
-
隱式思維鏈:每次循環等效於一步Chain-of-Thought推理,但在連續潛空間靜默運行,不輸出中間token;支持同時編碼多條推理路徑。
-
LTI穩定約束:將循環視爲線性時不變系統,通過參數化A爲負對角矩陣並離散化,嚴格保證譜半徑ρ(A)<1,從根本上解決殘差爆炸和訓練發散。
-
MoE+循環協同:MoE提供跨領域廣度,循環機制提供推理深度;隱藏狀態在循環中演化時,路由器可能選擇不同專家子集,使每次循環計算獨特。
-
自適應停止:支持ACT(Adaptive Computation Time)機制,模型動態決定何時停止循環,避免”過度思考”。
如何使用Models.dev
-
安裝:
pip install open-mythos,可選[flash]啓用Flash Attention 2。 -
配置:選擇
mla或gqa注意力類型,使用MythosConfig設置維度、頭數、循環次數等參數。 -
創建模型:
OpenMythos(cfg)初始化網絡。 -
推理生成:調用
model.generate(max_new_tokens=8, n_loops=8),通過n_loops控制推理深度。 -
訓練:使用
training/3b_fine_web_edu.py腳本,單卡直接運行或多卡通過torchrun啓動。
Models.dev的關鍵信息和使用要求
-
環境:Python + PyTorch;Flash Attention 2需CUDA與編譯工具鏈。
-
分詞器:使用
openai/gpt-oss-20b分詞器。 -
精度:H100/A100推薦bfloat16,舊GPU使用float16 + GradScaler。
-
訓練配置:AdamW優化器,線性warmup 2000步後餘弦衰減,目標約30B tokens。
-
規模覆蓋:從1B實驗模型到1T理論配置均有預定義參數。
Models.dev的核心優勢
-
參數高效:k層循環L次等效於kL層固定深度網絡,參數量僅k層規模,內存不隨推理深度增長。
-
推理可擴展:測試時增加循環次數即可提升推理能力,遵循可預測的飽和指數衰減規律。
-
訓練穩定:LTI約束機制徹底解決循環模型訓練不穩定和損失尖峯問題。
-
系統泛化:在分佈外(OOD)組合推理上表現優異,通過”頓悟”式三階段過程實現能力躍遷。
-
深度外推:訓練5步推理鏈,測試時可成功擴展至10步, vanilla Transformer則失敗。
Models.dev的項目地址
- 項目官網:https://models.dev/
- GitHub倉庫:https://github.com/anomalyco/models.dev
Models.dev的同類競品對比
| 維度 | OpenMythos | DeepSeek-V3 | Qwen2.5 |
|---|---|---|---|
| 核心架構 | 循環深度Transformer(RDT) | MoE Transformer | Dense / MoE Transformer |
| 注意力機制 | MLA / GQA 可切換 | MLA | GQA |
| 循環推理 | 核心特性(潛空間隱式CoT) | 無 | 無 |
| 開源程度 | 完全開源(代碼+訓練腳本+文檔) | 開源權重 | 開源權重 |
| 模型規模 | 1B – 1T 預配置 | 671B(總參) | 0.5B – 72B 等 |
| 產品定位 | 研究驗證 / 理論復刻 | 生產級通用模型 | 生產級通用模型 |
| 推理擴展 | 增加循環次數擴展深度 | 固定層數 | 固定層數 |
Models.dev的應用場景
-
AI架構研究:驗證循環Transformer、隱式推理鏈與測試時計算擴展理論。
-
注意力機制實驗:對比MLA與GQA在循環架構下的KV緩存效率與推理質量。
-
MoE研究:測試稀疏專家路由與循環深度結合對多領域任務的影響。
-
模型訓練:基於開源代碼和腳本,在FineWeb-Edu等數據集上從頭訓練自定義規模模型。
-
穩定性研究:驗證LTI約束、譜半徑控制與連續深度批處理等技術的實際效果。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...