A-A+

free-claude-code 让Claude Code真的免费用起来

2026年04月27日 10:54 汪洋大海暂无评论共3008字 (阅读106 views次)

本文从工具机制拆解的视角出发，解释 free-claude-code 如何利用 Claude Code 的官方配置项对接免费 LLM 后端，帮你判断这条路是否适合自己的场景。

1、一个环境变量，接管 Claude Code 的所有请求

Claude Code 在设计上预留了一个出口：ANTHROPIC_BASE_URL。默认值指向 Anthropic 服务器，但把它改成本地代理地址，Claude Code 就会把所有 API 请求打过去——它认不出后端换了，照常工作。

free-claude-code 就是那个本地代理。它在 :8082 端口监听，把 Claude Code 发来的 Anthropic 格式请求，翻译成 OpenAI 兼容格式，转发给 NVIDIA NIM、OpenRouter 或本地模型，再把响应原路翻回来。整个链路对 Claude Code 透明。

这不是破解，也不是逆向——ANTHROPIC_BASE_URL 本来就是 Claude Code 官方文档里的配置项，设计用来支持私有化部署场景。free-claude-code 只是把这个口子用在了接入免费公共 API 上。

启动只需两步：本地起代理，Claude Code 启动时带上两个环境变量。


# 终端 1：启动代理
uv run uvicorn server:app --host 0.0.0.0 --port 8082

# 终端 2：启动 Claude Code
ANTHROPIC_AUTH_TOKEN="freecc" ANTHROPIC_BASE_URL="http://localhost:8082" claude

VSCode 和 IntelliJ 插件同样支持，在设置里加两个环境变量即可，不需要其他改动。

重点：改变的只是 ANTHROPIC_BASE_URL 的值，Claude Code 本身零修改。但后端模型的能力上限决定了实际体验，简单任务和复杂多文件重构的差距真实存在。

2、格式转换、请求拦截与模型路由

代理在中间做的事不只是转发。

格式转换是核心工作。Claude Code 说 Anthropic 方言，各后端说 OpenAI 方言，两者格式不同。代理把请求翻译过去，把响应翻译回来，包括 <think> 标签和 reasoning_content 字段——这些推理内容会被还原成 Claude 原生的 thinking block，在界面上照常显示。

请求拦截是实际节省配额的关键。Claude Code 运行时会发出大量跟编程任务无关的背景请求——网络探测、对话标题生成、前缀检测、自动建议、文件路径提取，共 5 类。代理全部本地拦截，直接返回预设响应，不转发出去。NVIDIA NIM 每分钟 40 次的配额，被这 5 类请求消耗的比例很低，实际可用量远高于字面数字。

模型路由让三个槽位各自独立。.env 里 MODEL_OPUS、MODEL_SONNET、MODEL_HAIKU 可以分别指向不同提供商和模型，混用没有限制。Claude Code 发 Opus 请求时走一个后端，发 Haiku 请求时走另一个，互不干扰。

还有一个工具调用解析器（Heuristic Tool Parser）：Claude Code 高度依赖文件读写、命令执行等工具调用，这要求后端模型输出标准 JSON 格式的 function call。有些模型会把工具调用混在自然语言里输出，代理会尝试从中提取并格式化——这个解析器不能兜住所有情况，但能让一批原本不可用的模型勉强可用。

重点：5 类请求本地拦截是配额效率的关键；工具调用解析器是低兼容模型的补丁，选原生支持 function call 的模型可以不依赖它。

3、NVIDIA NIM 首选，OpenRouter 备用，本地模型兜底

NVIDIA NIM 是起步的最优解。免费账号，每分钟 40 次请求，可用模型包括 Kimi K2.5、GLM5、Qwen3.5-397B、Step-3.5-Flash、MiniMax M2.5。这些模型对编程任务的支持都算稳定，日常写代码、改 bug、解释逻辑，40 req/min 在请求优化开启后基本够用。参见本公众号之前发的文章《不花一分钱用 Claude Code！NVIDIA 免费算力 + 2300 亿参数，手把手教你搞定》

OpenRouter 的价值是模型多。deepseek/deepseek-r1-0528:free 和 openai/gpt-oss-120b:free 都在免费档，可以直接配进 .env。免费档有时会有队列延迟，NIM 额度耗尽或某个模型下线时，OpenRouter 是最顺手的接替方案。

LM Studio 和 llama.cpp 解决的是另一类需求：数据不出本机、没有速率限制。代价是显存。GLM-4.7-Flash 的 GGUF 量化版在 12GB 显存上可以跑；Qwen3.5-35B-A3B 需要 24GB。本地模型对编程任务的质量与模型本身相关，不是所有本地模型都能稳定完成复杂的 agentic 工作流——选之前先用简单任务测一下工具调用是否正常。

混用策略比单一后端灵活：把 Opus 槽位指向 NIM 里质量最高的模型（Kimi K2.5 或 MiniMax M2.5），Haiku 槽位指向本地轻量模型。Opus 槽位的请求频率最低，配给最强的免费模型性价比最高。

MODEL_OPUS="nvidia_nim/moonshotai/kimi-k2.5"
MODEL_SONNET="open_router/deepseek/deepseek-r1-0528:free"
MODEL_HAIKU="lmstudio/unsloth/GLM-4.7-Flash-GGUF"

重点：从 NVIDIA NIM 单后端开始，跑一周看 40 req/min 是否满足，不够再引入 OpenRouter 或本地模型补充——不要一开始就配复杂的混用方案。

4、工具链与模型解耦

Claude Code 的核心价值不是 Claude 模型本身，而是它的工具链——读写文件、执行命令、理解项目结构、管理跨文件上下文。free-claude-code 的存在说明这套工具链可以脱离 Anthropic 后端独立运行。

对个人开发者来说，实际意义很具体：日常任务走 NIM 免费额度，遇到需要最强推理能力的复杂重构切回官方 Claude API，代码涉及敏感数据时用本地模型。Per-Model 路由把这个切换做成了改三行 .env 的事。

这条路有一个真实的能力上限需要认清：Claude Sonnet 4.5 / Opus 4.7 在跨十几个文件的系统级重构、超长上下文追踪上的表现，目前没有任何免费替代品能完全匹配。free-claude-code 能替代的是 80% 的日常场景，剩下 20% 的高强度任务，官方订阅仍然有价值。

重点：工具链可以解耦不等于能力对等——用 free-claude-code 覆盖日常，保留官方账号应对复杂任务，是比全量替代更务实的用法。

项目地址：https://github.com/Alishahryar1/free-claude-code

NVIDIA NIM API Key 申请：参见本公众号之前发的文章《不花一分钱用 Claude Code！NVIDIA 免费算力 + 2300 亿参数，手把手教你搞定》

OpenRouter 免费模型列表：https://openrouter.ai/collections/free-models

文章来源：https://mp.weixin.qq.com/s/Utt_upkdbUnU1b1pz1Rw-Q

蜗居

窄小蜗居，虽非富贵王侯宅；清闲螺径，也异寻常百姓家。 woj → 蜗居

free-claude-code 让Claude Code真的免费用起来

1、一个环境变量，接管 Claude Code 的所有请求

2、格式转换、请求拦截与模型路由

3、NVIDIA NIM 首选，OpenRouter 备用，本地模型兜底

4、工具链与模型解耦

给我留言取消回复

1、一个环境变量，接管 Claude Code 的所有请求

2、格式转换、请求拦截与模型路由

3、NVIDIA NIM 首选，OpenRouter 备用，本地模型兜底

4、工具链与模型解耦

布施恩德可便相知重

微信扫一扫打赏

支付宝扫一扫打赏

给我留言取消回复