FreeLLMAPI是什麼
FreeLLMAPI 是開源的 OpenAI 兼容代理服務,可將約 14 家 AI 服務商的免費額度聚合爲單一 API 端點,每月總計約 13 億 tokens 的免費推理額度。項目基於 TypeScript/Express 構建,支持自動故障轉移、智能路由、密鑰加密和用量追蹤,專爲個人開發者本地實驗和原型驗證設計。

FreeLLMAPI的主要功能
-
OpenAI 兼容 API 代理:對外暴露標準的
/v1/chat/completions與/v1/models端點,兼容官方 OpenAI SDK、LangChain、LlamaIndex 等客戶端,僅需修改base_url即可接入。 -
多提供商免費額度聚合:同時接入 Google Gemini、Groq、Cerebras、SambaNova、NVIDIA NIM、Mistral、OpenRouter、GitHub Models、HuggingFace、Cohere、Cloudflare、智譜 Z.ai、Moonshot Kimi、MiniMax 等約 14 家平台,每月總計約 13 億 tokens 免費推理額度。
-
自動故障轉移:當首選提供商返回 429/5xx 或請求超時時,自動將其置爲冷卻狀態,並按預設優先級鏈嘗試下一家提供商,最多重試 20 次。
-
智能速率與配額追蹤:針對每個
(平台, 模型, 密鑰)組合實時跟蹤 RPM、RPD、TPM、TPD 用量,確保始終調用未超限的健康密鑰。 -
粘性會話鎖定:多輪對話在 30 分鐘內鎖定同一模型,防止中途切換模型導致輸出質量跳變或上下文斷裂。
-
AES-256-GCM 密鑰加密:上游提供商的 API 密鑰在 SQLite 數據庫中靜態加密,僅在發起請求前於內存中臨時解密,降低密鑰泄露風險。
-
統一認證令牌管理:客戶端使用單一的
freellmapi-…Bearer Token 訪問代理,無需在代碼中暴露多家上游真實密鑰。 -
SSE 流式輸出:完整支持
stream: true的 Server-Sent Events 流式返回,兼容長文本逐字生成場景。 -
工具調用(Function Calling):支持 OpenAI 風格的
tools/tool_choice多輪工具調用流程,滿足 Agent 開發需求。 -
可視化儀表盤與 Playground:內置 React/Vite 管理後台,支持拖拽調整回退鏈優先級、在 Playground 中快速測試模型,並查看延遲、成功率、Token 用量等 24h/7d/30d 統計數據。
-
輕量本地部署:基於 TypeScript/Express 構建,空載僅約 40MB RSS,可在樹莓派等 ARM 設備上通過 PM2/systemd 常駐運行。
如何使用FreeLLMAPI
-
克隆安裝:
git clone https://github.com/tashfeenahmed/freellmapi.git && cd freellmapi && npm install。 -
配置密鑰:
cp .env.example .env並生成 32 字節ENCRYPTION_KEY用於 AES-256-GCM 加密。 -
啓動服務:
npm run dev同時啓動後端 API(:3001)和儀表盤(:5173)。 -
添加上游 Key:在
http://localhost:5173的 Keys 頁面粘貼各平台免費 API Key。 -
調整回退鏈:在 Fallback Chain 頁面拖拽設置提供商優先級。
-
獲取統一 Token:在面板生成
freellmapi-…單一 Bearer Token。 -
SDK 調用:修改
base_url="http://localhost:3001/v1",model設爲"auto"或具體模型名。 -
cURL 調用:向
http://localhost:3001/v1/chat/completions發送標準 OpenAI 格式請求。 -
Playground 驗證:在儀表盤 Playground 中直接輸入提示詞測試連通性與路由情況。
-
後台常駐:通過 PM2 或 systemd 託管,可在樹莓派等 ARM 設備長期運行。
FreeLLMAPI的核心優勢
-
OpenAI 標準兼容:對外暴露
/v1/chat/completions與/v1/models端點,支持官方 OpenAI SDK、LangChain、LlamaIndex 等任意兼容客戶端,僅需修改base_url即可接入。 -
14 家平台免費額度聚合:同時接入 Google Gemini、Groq、Cerebras、SambaNova、NVIDIA NIM、Mistral、OpenRouter、GitHub Models、HuggingFace、Cohere、Cloudflare、智譜 Z.ai、Moonshot Kimi、MiniMax 等,每月總計約 13 億 tokens 免費推理額度。
-
自動故障轉移:當首選提供商返回 429/5xx 或超時時,自動將其置爲冷卻並按優先級鏈嘗試下一家,最多重試 20 次,保障服務連續性。
-
智能速率與配額追蹤:針對每個
(平台, 模型, 密鑰)組合實時跟蹤 RPM、RPD、TPM、TPD 用量,始終選擇未超限的健康密鑰,避免手動切換。 -
粘性會話機制:多輪對話在 30 分鐘內鎖定同一模型,防止中途切換模型導致輸出質量跳變或上下文斷裂。
-
AES-256-GCM 密鑰加密:上游提供商 API 密鑰在 SQLite 中靜態加密,僅在發起請求前於內存中臨時解密,用完即焚,降低密鑰泄露風險。
-
統一認證令牌:客戶端只需使用單一的
freellmapi-…Bearer Token,無需在代碼中暴露多家上游真實密鑰,簡化管理。 -
完整流式與工具調用:支持 SSE 流式輸出(
stream: true)及 OpenAI 風格的tools/tool_choice多輪工具調用流程。
FreeLLMAPI的項目地址
- GitHub倉庫:https://github.com/tashfeenahmed/freellmapi
FreeLLMAPI的同類競品對比
| 對比維度 | FreeLLMAPI | LiteLLM | One API |
|---|---|---|---|
| 項目定位 | 開源免費 LLM 額度聚合代理,專注個人本地實驗與學習 | 開源多模型統一調用 SDK + 代理網關,面向開發者與企業級 AI Gateway | 開源 API 分發管理系統,面向國內團隊與企業級 Key 分發 |
| GitHub Stars | 500+ | 41.8k+ | 31.3k+ |
| 技術棧 | TypeScript / Express + React / Vite | Python(SDK + Proxy Server) | Go(完整 Web 管理後台) |
| 支持提供商 | 約 14 家免費平台(Gemini、Groq、Cerebras、GitHub Models、智譜等) | 100+ 家(OpenAI、Anthropic、Azure、Bedrock、Vertex AI、HuggingFace 等) | 國內模型覆蓋最全(文心、通義、訊飛、智譜、Kimi、豆包等)+ 國際主流模型 |
| 免費額度聚合 | 核心能力,月總計約 13 億 tokens | 不支持自動聚合免費額度,需自備各廠商 Key | 不支持自動聚合免費額度,需自備各廠商 Key |
| OpenAI 兼容 | ✅ 標準 /v1/chat/completions |
✅ 統一歸一化爲 OpenAI 格式 | ✅ 統一轉換爲 OpenAI 格式 |
| 自動故障轉移 | ✅ 最多 20 次重試,冷卻機制 | ✅ 支持重試、Fallback、負載均衡 | ✅ 支持負載均衡與故障切換 |
| 智能路由 | ✅ 按速率配額自動選擇健康密鑰 | ✅ 支持 least-busy、cheapest-completion 等多種策略 | ✅ 按渠道優先級和權重路由 |
| 速率限制追蹤 | ✅ 實時跟蹤 RPM/RPD/TPM/TPD | ✅ 內置限速與預算管控 | ✅ 支持 QPS/IP 限流與額度控制 |
| 密鑰安全 | ✅ AES-256-GCM 靜態加密 + 統一 Token | 依賴環境變量/配置文件,開源版無內置加密 | 集中式 Token 管理,支持密鑰輪換 |
| 多租戶/用戶管理 | ❌ 單用戶本地運行 | ✅ 支持多團隊、多 Key、預算隔離 | ✅ 完善的用戶體系、充值、配額、分組管理 |
| 成本追蹤 | ❌ 無 | ✅ 按項目/用戶粒度追蹤 Token 消耗 | ✅ 渠道計費統計與用量分析 |
| 可視化界面 | ✅ React 儀表盤 + Playground | ❌ 無圖形界面(開源版),依賴配置文件 | ✅ 中文 Web 管理界面,運營友好 |
| 流式 / 工具調用 | ✅ 完整支持 SSE 與 Function Calling | ✅ 完整支持 | ✅ 支持(New-API 增強函數調用) |
| 部署難度 | 極低,npm run dev 一鍵啓動 |
中等,需 Python/Docker/Helm 知識 | 低,Docker 一鍵部署 |
FreeLLMAPI的應用場景
-
個人開發者本地實驗與原型驗證:項目明確面向個人學習與原型開發,將多家免費額度疊成單一本地 OpenAI 端點,無需付費即可快速驗證 AI 應用創意。
-
多平台免費額度聚合調用:同時接入 Gemini、Groq、Cerebras、GitHub Models、智譜等約 14 家平台的免費檔,每月總計約 13 億 tokens,適合需要大用量但預算有限的個人項目。
-
低功耗設備常駐代理:空載僅約 40MB RSS,可在樹莓派等 ARM 設備上通過 PM2/systemd 長期運行,作爲家庭內網或邊緣節點的輕量 AI 網關。
-
OpenAI 兼容接口學習:對外暴露標準
/v1/chat/completions端點,適合學習或調試 OpenAI SDK、LangChain、LlamaIndex 等生態工具,僅需修改base_url即可切換。 -
多模型快速對比測試:通過統一接口和 Playground 儀表盤,可在同一環境下快速對比不同免費提供商的響應質量、延遲與輸出風格。
© 版權聲明
文章版权归作者所有,未经允许请勿转载。
相關文章
暫無評論...