免费LLM API资源全攻略：从永久免费到试用积分，开发者必备清单

随着大语言模型（LLM）的爆发式增长，越来越多的开发者希望通过API快速集成AI能力。然而，付费API往往让个人开发者、学生或小团队望而却步。好消息是——市面上存在大量真正免费、合法合规的LLM API资源，有些甚至提供高达百万token的试用额度。

本文为你梳理了一份经过筛选的免费LLM API服务清单，涵盖永久免费档、高请求限额服务，以及附带试用积分的平台。所有收录的服务均无逆向工程、无非法套壳，请放心使用，也请合理调用，共同维护这份来之不易的开放生态。

⚠️ 写在前面

请勿滥用：所有免费资源均有速率与额度限制，恶意刷接口会导致服务关闭，最终损害整个社区。
注意隐私：部分免费服务会使用你的输入数据进行模型训练（如Google AI Studio的非EEA区域），请根据合规要求选择。
验证门槛：部分服务需手机号验证（如NVIDIA、Mistral、NLP Cloud），这是常见反滥用手段，非歧视性政策。

一、永久免费提供商（无时间限制）

以下服务提供无需付费、持续可用的API访问，部分设有每日/每分钟请求限制，但足够支撑原型开发与小型应用。

🌐 OpenRouter —— 聚合30+免费模型，共享配额

访问地址：openrouter.ai
速率限制：20请求/分钟，50请求/天；若累计消费满$10，提升至1000请求/天。

OpenRouter是聚合类API网关，免费模型共享上述配额。代表性免费模型包括：

Gemma 3 4B/12B/27B Instruct
Llama 3.1/3.2/3.3 全系列（含405B）
Mistral Small 3.1 24B
Qwen 2.5 VL 7B（视觉模型）
社区微调模型：Dolphin、Trinity、Kimi K2、Solar Pro等

适合场景：多模型对比测试、轻量级聊天机器人。

🧠 Google AI Studio —— Gemini系列大杯免费

访问地址：aistudio.google.com
⚠️ 数据训练提醒：英国、瑞士、EEA及欧盟以外区域，输入数据会被用于模型训练。

模型	每日请求	每分钟请求	每分钟tokens
Gemini 3/2.5 Flash	20	5	250k
Gemini 2.5 Flash-Lite	20	10	250k
Gemma 3 全系列	14.4k	30	15k

Gemini 3 Flash 系列拥有极长的上下文（1M tokens），非常适合长文档分析、多轮对话。

🎮 NVIDIA NIM —— 企业级推理微服务

访问地址：build.nvidia.com
限制：40请求/分钟，需手机号验证。
模型：Llama 3、Mistral、Qwen、Phi等数十种优化过的高性能版本，尤其适合低延迟推理。

🇫🇷 Mistral AI —— 开源与专有模型并行

La Plateforme（实验计划）

限制：1请求/秒，50万tokens/分钟，10亿tokens/月
要求：需手机号验证，且必须同意数据用于训练
模型：Mistral 7B/8x7B、Mixtral 8x22B、Codestral、Mathstral等

Codestral（编程专用）

限制：30请求/分钟，2000请求/天
模型：Codestral（代码生成/补全）
状态：目前完全免费，订阅制正在路上

🤗 HuggingFace Inference Providers

访问地址：hf.co/docs/inference-providers
免费额度：每月$0.1（足够小型实验）
模型：HuggingFace上小于10GB的模型自动支持，部分热门大模型（如Llama 3.1 405B）也通过合作伙伴提供。

⚡ Vercel AI Gateway —— 统一代理，自带免费额度

访问地址：vercel.com/docs/ai-gateway
免费额度：每月$5，可用于路由到OpenAI、Anthropic、Cohere等，不限制模型本身，仅收代理费。

🚀 Cerebras —— 极速推理，大杯配额

访问地址：cloud.cerebras.ai

模型	每日请求	每分钟tokens	特殊限制
gpt-oss-120b	14.4k	60k	–
Qwen 3 235B	14.4k	60k	–
Llama 3.3 70B	14.4k	64k	–
Z.ai GLM-4.6	100	60k	10请求/分钟

Cerebras 以晶圆级引擎著称，推理速度极快，且免费配额相当慷慨。

🔥 Groq —— LPU™ 极速推理，视觉/语音也免费

访问地址：console.groq.com

Llama 3.3 70B：1000请求/天，12k tokens/分钟
Llama 4 Maverick/Scout：1000请求/天，6k~30k tokens/分钟
Whisper Large v3/v3 Turbo：2000请求/天，7200音频秒/分钟
Moonshot Kimi K2、OpenAI OSS 系列均有免费档

特别适合实时语音转文字、高并发文本生成。

🐦 Cohere —— 多语言与检索增强

访问地址：cohere.com
限制：20请求/分钟，1000请求/月（所有模型共享）
模型：

Aya Expanse 8B/32B（多语言）
Command A/R/R+（商用级）
Command R7B（阿拉伯语优化）

🧑‍💻 GitHub Models —— Copilot用户专享

访问地址：github.com/marketplace/models
限制：根据Copilot订阅等级（Free/Pro/企业）差异较大，输入输出tokens极严格
模型亮点：

OpenAI GPT-4.1/4o/o1/o3/o4-mini（部分预览）
Grok 3、Llama 4、DeepSeek-V3、Phi-4
Mistral Small 3.1、Ministral 3B

如果你的日常开发已使用Copilot，这是零成本调用闭源模型的最佳入口。

☁️ Cloudflare Workers AI —— 边缘推理

访问地址：developers.cloudflare.com/workers-ai
免费额度：10,000 neurons/天（1 neuron ≈ 1/128 请求，需具体计算）
模型：超过50种，包括：

Gemma 3 12B、Llama 3.3 70B、Llama 4 Scout
Qwen 2.5 Coder 32B、DeepSeek R1、Mistral Small 3.1
视觉模型：Llama 3.2 11B Vision、Qwen 2.5 VL

与Cloudflare生态高度整合，适合无服务器架构、边缘计算场景。

🧱 Google Cloud Vertex AI —— 预览期完全免费

访问地址：console.cloud.google.com/vertex-ai/model-garden
限制（预览期间）：

Llama 3.2 90B Vision：30请求/分钟
Llama 3.1 70B/8B：60请求/分钟
要求：需绑定支付方式（但预览期内不扣费）

二、试用积分提供商（限时/定额）

以下服务需注册获取免费额度，通常在几十美元等值，无需担心突然扣费，额度用尽即停。

服务	额度	有效期	主要模型
Fireworks	$1	无明确	开源模型全家桶
Baseten	$30	无明确	按计算时长付费，支持任意模型
Nebius	$1	无明确	开源模型
Novita	$0.5	1年	多种开源模型
AI21	$10	3个月	Jamba 1.5系列
Upstage	$10	3个月	Solar Pro/Mini
NLP Cloud	$15	无明确	需手机号验证
Alibaba Cloud Model Studio	100万tokens/模型	无明确	Qwen全系
Modal	$5 （注册） /$ 30（加支付）	月	任意模型（按计算时长）
Inference.net	$1$ 25	无明确	开源模型，反馈问卷可多得$25
Hyperbolic	$1	无明确	DeepSeek V3、Llama 405B、Qwen 235B等
SambaNova Cloud	$5	3个月	Llama 4、DeepSeek V3.1、Qwen 3等
Scaleway Generative APIs	100万tokens	无明确	含Gemma 3 27B、Pixtral、Voxtral等

特别提示：

Modal 和 Baseten 本质是算力平台，可部署任何模型，额度按GPU时长扣除，非常灵活。
Hyperbolic 和 SambaNova 提供了最新的大模型（如DeepSeek-V3.1、Qwen 3 235B），适合尝鲜前沿模型。
Scaleway 作为欧洲云厂商，提供的模型列表极具特色（如devstral、voxtral），适合多语言实验。

结语：如何选择最适合你的免费API？

如果只想要一个「万能钥匙」：首选 OpenRouter，聚合最多免费模型，配额合理。
如果你需要超长上下文：Google AI Studio 的 Gemini Flash 系列无可替代。
如果追求极致速度：Groq 或 Cerebras，LPU与晶圆级硬件的体验极其畅快。
如果已有Copilot订阅：GitHub Models 可零成本解锁GPT-4.1/o3等前沿模型。
如果想长期低成本生产：申请 Mistral 或 Cohere 的免费档，月配额足够中小应用。
如果你是欧洲用户/关心数据隐私：Scaleway 与 Cloudflare 是不错的选择。

最后再次强调：所有免费资源均来之不易，请勿使用脚本刷量、转卖接口或进行违法内容生成。善待这些开放者，我们才能长久享受技术红利。

保持好奇，保持善意，愉快编码！ 🚀

不花一分钱！开发者必读的免费LLM API终极白嫖指南