FreeLLMAPI – 開源 AI 模型聚合平台，統一OpenAI兼容格式

0 0 0

FreeLLMAPI是什麼

FreeLLMAPI 是開源的 OpenAI 兼容代理服務，可將約 14 家 AI 服務商的免費額度聚合爲單一 API 端點，每月總計約 13 億 tokens 的免費推理額度。項目基於 TypeScript/Express 構建，支持自動故障轉移、智能路由、密鑰加密和用量追蹤，專爲個人開發者本地實驗和原型驗證設計。

FreeLLMAPI的主要功能

OpenAI 兼容 API 代理：對外暴露標準的 /v1/chat/completions 與 /v1/models 端點，兼容官方 OpenAI SDK、LangChain、LlamaIndex 等客戶端，僅需修改 base_url 即可接入。
多提供商免費額度聚合：同時接入 Google Gemini、Groq、Cerebras、SambaNova、NVIDIA NIM、Mistral、OpenRouter、GitHub Models、HuggingFace、Cohere、Cloudflare、智譜 Z.ai、Moonshot Kimi、MiniMax 等約 14 家平台，每月總計約 13 億 tokens 免費推理額度。
自動故障轉移：當首選提供商返回 429/5xx 或請求超時時，自動將其置爲冷卻狀態，並按預設優先級鏈嘗試下一家提供商，最多重試 20 次。
智能速率與配額追蹤：針對每個 (平台, 模型, 密鑰) 組合實時跟蹤 RPM、RPD、TPM、TPD 用量，確保始終調用未超限的健康密鑰。
粘性會話鎖定：多輪對話在 30 分鐘內鎖定同一模型，防止中途切換模型導致輸出質量跳變或上下文斷裂。
AES-256-GCM 密鑰加密：上游提供商的 API 密鑰在 SQLite 數據庫中靜態加密，僅在發起請求前於內存中臨時解密，降低密鑰泄露風險。
統一認證令牌管理：客戶端使用單一的 freellmapi-… Bearer Token 訪問代理，無需在代碼中暴露多家上游真實密鑰。
SSE 流式輸出：完整支持 stream: true 的 Server-Sent Events 流式返回，兼容長文本逐字生成場景。
工具調用（Function Calling）：支持 OpenAI 風格的 tools / tool_choice 多輪工具調用流程，滿足 Agent 開發需求。
可視化儀表盤與 Playground：內置 React/Vite 管理後台，支持拖拽調整回退鏈優先級、在 Playground 中快速測試模型，並查看延遲、成功率、Token 用量等 24h/7d/30d 統計數據。
輕量本地部署：基於 TypeScript/Express 構建，空載僅約 40MB RSS，可在樹莓派等 ARM 設備上通過 PM2/systemd 常駐運行。

如何使用FreeLLMAPI

克隆安裝：git clone https://github.com/tashfeenahmed/freellmapi.git && cd freellmapi && npm install。
配置密鑰：cp .env.example .env 並生成 32 字節 ENCRYPTION_KEY 用於 AES-256-GCM 加密。
啓動服務：npm run dev 同時啓動後端 API（:3001）和儀表盤（:5173）。
添加上游 Key：在 http://localhost:5173 的 Keys 頁面粘貼各平台免費 API Key。
調整回退鏈：在 Fallback Chain 頁面拖拽設置提供商優先級。
獲取統一 Token：在面板生成 freellmapi-… 單一 Bearer Token。
SDK 調用：修改 base_url="http://localhost:3001/v1"，model 設爲 "auto" 或具體模型名。
cURL 調用：向 http://localhost:3001/v1/chat/completions 發送標準 OpenAI 格式請求。
Playground 驗證：在儀表盤 Playground 中直接輸入提示詞測試連通性與路由情況。
後台常駐：通過 PM2 或 systemd 託管，可在樹莓派等 ARM 設備長期運行。

FreeLLMAPI的核心優勢

OpenAI 標準兼容：對外暴露 /v1/chat/completions 與 /v1/models 端點，支持官方 OpenAI SDK、LangChain、LlamaIndex 等任意兼容客戶端，僅需修改 base_url 即可接入。
14 家平台免費額度聚合：同時接入 Google Gemini、Groq、Cerebras、SambaNova、NVIDIA NIM、Mistral、OpenRouter、GitHub Models、HuggingFace、Cohere、Cloudflare、智譜 Z.ai、Moonshot Kimi、MiniMax 等，每月總計約 13 億 tokens 免費推理額度。
自動故障轉移：當首選提供商返回 429/5xx 或超時時，自動將其置爲冷卻並按優先級鏈嘗試下一家，最多重試 20 次，保障服務連續性。
智能速率與配額追蹤：針對每個 (平台, 模型, 密鑰) 組合實時跟蹤 RPM、RPD、TPM、TPD 用量，始終選擇未超限的健康密鑰，避免手動切換。
粘性會話機制：多輪對話在 30 分鐘內鎖定同一模型，防止中途切換模型導致輸出質量跳變或上下文斷裂。
AES-256-GCM 密鑰加密：上游提供商 API 密鑰在 SQLite 中靜態加密，僅在發起請求前於內存中臨時解密，用完即焚，降低密鑰泄露風險。
統一認證令牌：客戶端只需使用單一的 freellmapi-… Bearer Token，無需在代碼中暴露多家上游真實密鑰，簡化管理。
完整流式與工具調用：支持 SSE 流式輸出（stream: true）及 OpenAI 風格的 tools / tool_choice 多輪工具調用流程。

FreeLLMAPI的項目地址

GitHub倉庫：https://github.com/tashfeenahmed/freellmapi

FreeLLMAPI的同類競品對比

對比維度	FreeLLMAPI	LiteLLM	One API
項目定位	開源免費 LLM 額度聚合代理，專注個人本地實驗與學習	開源多模型統一調用 SDK + 代理網關，面向開發者與企業級 AI Gateway	開源 API 分發管理系統，面向國內團隊與企業級 Key 分發
GitHub Stars	500+	41.8k+	31.3k+
技術棧	TypeScript / Express + React / Vite	Python（SDK + Proxy Server）	Go（完整 Web 管理後台）
支持提供商	約 14 家免費平台（Gemini、Groq、Cerebras、GitHub Models、智譜等）	100+ 家（OpenAI、Anthropic、Azure、Bedrock、Vertex AI、HuggingFace 等）	國內模型覆蓋最全（文心、通義、訊飛、智譜、Kimi、豆包等）+ 國際主流模型
免費額度聚合	核心能力，月總計約 13 億 tokens	不支持自動聚合免費額度，需自備各廠商 Key	不支持自動聚合免費額度，需自備各廠商 Key
OpenAI 兼容	✅ 標準 `/v1/chat/completions`	✅ 統一歸一化爲 OpenAI 格式	✅ 統一轉換爲 OpenAI 格式
自動故障轉移	✅ 最多 20 次重試，冷卻機制	✅ 支持重試、Fallback、負載均衡	✅ 支持負載均衡與故障切換
智能路由	✅ 按速率配額自動選擇健康密鑰	✅ 支持 least-busy、cheapest-completion 等多種策略	✅ 按渠道優先級和權重路由
速率限制追蹤	✅ 實時跟蹤 RPM/RPD/TPM/TPD	✅ 內置限速與預算管控	✅ 支持 QPS/IP 限流與額度控制
密鑰安全	✅ AES-256-GCM 靜態加密 + 統一 Token	依賴環境變量/配置文件，開源版無內置加密	集中式 Token 管理，支持密鑰輪換
多租戶/用戶管理	❌ 單用戶本地運行	✅ 支持多團隊、多 Key、預算隔離	✅ 完善的用戶體系、充值、配額、分組管理
成本追蹤	❌ 無	✅ 按項目/用戶粒度追蹤 Token 消耗	✅ 渠道計費統計與用量分析
可視化界面	✅ React 儀表盤 + Playground	❌ 無圖形界面（開源版），依賴配置文件	✅ 中文 Web 管理界面，運營友好
流式 / 工具調用	✅ 完整支持 SSE 與 Function Calling	✅ 完整支持	✅ 支持（New-API 增強函數調用）
部署難度	極低，`npm run dev` 一鍵啓動	中等，需 Python/Docker/Helm 知識	低，Docker 一鍵部署

FreeLLMAPI的應用場景

個人開發者本地實驗與原型驗證：項目明確面向個人學習與原型開發，將多家免費額度疊成單一本地 OpenAI 端點，無需付費即可快速驗證 AI 應用創意。
多平台免費額度聚合調用：同時接入 Gemini、Groq、Cerebras、GitHub Models、智譜等約 14 家平台的免費檔，每月總計約 13 億 tokens，適合需要大用量但預算有限的個人項目。
低功耗設備常駐代理：空載僅約 40MB RSS，可在樹莓派等 ARM 設備上通過 PM2/systemd 長期運行，作爲家庭內網或邊緣節點的輕量 AI 網關。
OpenAI 兼容接口學習：對外暴露標準 /v1/chat/completions 端點，適合學習或調試 OpenAI SDK、LangChain、LlamaIndex 等生態工具，僅需修改 base_url 即可切換。
多模型快速對比測試：通過統一接口和 Playground 儀表盤，可在同一環境下快速對比不同免費提供商的響應質量、延遲與輸出風格。