Ornith-1.0 – DeepReinforce 開源的 Agentic 編程系列模型

0 0 0

Ornith-1.0是什麼

Ornith-1.0 是 DeepReinforce 團隊推出的專爲 Agentic 編程任務設計的開源大模型系列，模型基於 Gemma 4 與 Qwen 3.5 預訓練基座，採用自改進訓練框架，在代碼生成與軟件工程基準上達到同級別開源模型的 SOTA 水平。

Ornith-1.0 – DeepReinforce 開源的 Agentic 編程系列模型

微信關注回覆 “開源”，加入AI開源項目交流羣

基座模型：基於 Gemma 4 和 Qwen 3.5 的預訓練權重進行後訓練，繼承其語言理解與代碼生成能力。
自改進訓練框架：區別於傳統 RL 依賴人工設計腳手架，Ornith-1.0 通過強化學習讓模型聯合生成解決方案 rollout 與任務特定 harness，實現腳手架與最終解的協同優化。
聯合優化機制：在訓練過程中同時優化任務腳手架和生成結果，使模型能夠自主發現更優的搜索軌跡，持續提升輸出質量。

同級 SOTA：397B 旗艦版在 Terminal-Bench 2.1取得77.5 分和 SWE-Bench Verified取得82.4 分超越 Claude Opus 4.7。
越級性能：35B MoE 版本在 Terminal-Bench 2.1 上以 64.4 分超越 397B 參數的 Qwen 3.5-397B取得53.5 分，實現以小博大。
邊緣友好：9B 模型可在低資源環境部署，性能匹敵 Gemma 4-31B 與 Qwen 3.6 35B。

項目官網：https://deep-reinforce.com/ornith_1_0.html
HuggingFace模型庫：https://huggingface.co/collections/deepreinforce-ai/ornith-10

對比維度	Ornith-1.0	DeepSeek-V4-Pro
參數規模	9B / 31B Dense、35B / 397B MoE（全系列梯度覆蓋）	超大參數（具體規格未公開細分梯度）
開源協議	MIT（完全開源，可自由商用）	開源（具體協議以官方爲準）
Terminal-Bench 2.1	77.5（397B）/ 64.4（35B）	67.9
SWE-Bench Verified	82.4（397B）	80.6
核心訓練方法	自改進訓練框架：模型自主生成任務腳手架（harness）並與解決方案聯合優化，減少人工設計依賴	RLHF + 規則驅動優化：依賴人類反饋與預設規則進行代碼優化
模型定位	Agentic 編程專用：專爲智能體編程、終端命令執行、軟件工程自動化設計	通用編程開源：面向廣泛代碼生成與編程輔助任務
部署靈活性	全規格覆蓋：9B 可部署至邊緣設備，397B 面向服務器集羣	主要聚焦超大參數版本，邊緣部署受限