Models.dev – OpenCode 團隊開源的 AI 模型數據庫

0 0 0

Models.dev是什麼

Models.dev 是 OpenCode 團隊開源的 AI 模型數據庫。Models.dev 以標準化 TOML 格式整合 OpenAI、Anthropic、Google 等數十家主流廠商的模型信息，涵蓋價格、上下文窗口、工具調用、知識截止等關鍵規格，提供公開 JSON API（models.dev/api.json）供開發者直接調用。Models.dev 解決了 AI 模型信息碎片化痛點，幫助開發者一站式查詢與精確成本估算，高效完成模型選型。

Models.dev的主要功能

一站式模型信息查詢：收錄 OpenAI、Anthropic、Google、Meta 等數十家主流廠商的基礎對話模型與專業領域模型，無需在多個官網間切換查找。
精確成本估算：詳細記錄每個模型的輸入/輸出/推理/緩存讀取/緩存寫入成本（每百萬 token 美元），以及音頻輸入輸出成本，幫助項目精確估算預算。
能力規格對比：標準化展示模型是否支持工具調用、推理/思維鏈、結構化輸出、溫度控制、文件附件，以及知識截止日期、上下文窗口、最大輸入輸出 token 數、支持模態等關鍵指標。
公開 JSON API：提供 models.dev/api.json 接口，開發者可直接在項目中調用完整模型數據，用於構建模型選型工具、成本計算器或管理面板。
提供商 Logo 獲取：通過 models.dev/logos/{provider}.svg 接口直接獲取各廠商 Logo。
社區協作維護：數據用 TOML 格式按提供商分類存儲，支持社區貢獻，確保數據庫持續更新。

Models.dev的技術原理

三階段循環架構：輸入經Prelude（標準Transformer層）編碼後，進入Recurrent Block循環迭代T次，最後由Coda輸出；每次循環通過注入原始輸入e防止隱狀態漂移。
隱式思維鏈：每次循環等效於一步Chain-of-Thought推理，但在連續潛空間靜默運行，不輸出中間token；支持同時編碼多條推理路徑。
LTI穩定約束：將循環視爲線性時不變系統，通過參數化A爲負對角矩陣並離散化，嚴格保證譜半徑ρ(A)<1，從根本上解決殘差爆炸和訓練發散。
MoE+循環協同：MoE提供跨領域廣度，循環機制提供推理深度；隱藏狀態在循環中演化時，路由器可能選擇不同專家子集，使每次循環計算獨特。
自適應停止：支持ACT（Adaptive Computation Time）機制，模型動態決定何時停止循環，避免”過度思考”。

如何使用Models.dev

安裝：pip install open-mythos，可選[flash]啓用Flash Attention 2。
配置：選擇mla或gqa注意力類型，使用MythosConfig設置維度、頭數、循環次數等參數。
創建模型：OpenMythos(cfg)初始化網絡。
推理生成：調用model.generate(max_new_tokens=8, n_loops=8)，通過n_loops控制推理深度。
訓練：使用training/3b_fine_web_edu.py腳本，單卡直接運行或多卡通過torchrun啓動。

Models.dev的關鍵信息和使用要求

環境：Python + PyTorch；Flash Attention 2需CUDA與編譯工具鏈。
分詞器：使用openai/gpt-oss-20b分詞器。
精度：H100/A100推薦bfloat16，舊GPU使用float16 + GradScaler。
訓練配置：AdamW優化器，線性warmup 2000步後餘弦衰減，目標約30B tokens。
規模覆蓋：從1B實驗模型到1T理論配置均有預定義參數。

Models.dev的核心優勢

參數高效：k層循環L次等效於kL層固定深度網絡，參數量僅k層規模，內存不隨推理深度增長。
推理可擴展：測試時增加循環次數即可提升推理能力，遵循可預測的飽和指數衰減規律。
訓練穩定：LTI約束機制徹底解決循環模型訓練不穩定和損失尖峯問題。
系統泛化：在分佈外（OOD）組合推理上表現優異，通過”頓悟”式三階段過程實現能力躍遷。
深度外推：訓練5步推理鏈，測試時可成功擴展至10步， vanilla Transformer則失敗。

Models.dev的項目地址

項目官網：https://models.dev/
GitHub倉庫：https://github.com/anomalyco/models.dev

Models.dev的同類競品對比

維度	OpenMythos	DeepSeek-V3	Qwen2.5
核心架構	循環深度Transformer（RDT）	MoE Transformer	Dense / MoE Transformer
注意力機制	MLA / GQA 可切換	MLA	GQA
循環推理	核心特性（潛空間隱式CoT）	無	無
開源程度	完全開源（代碼+訓練腳本+文檔）	開源權重	開源權重
模型規模	1B – 1T 預配置	671B（總參）	0.5B – 72B 等
產品定位	研究驗證 / 理論復刻	生產級通用模型	生產級通用模型
推理擴展	增加循環次數擴展深度	固定層數	固定層數