免费LLM API资源全攻略:从永久免费到试用积分,开发者必备清单
随着大语言模型(LLM)的爆发式增长,越来越多的开发者希望通过API快速集成AI能力。然而,付费API往往让个人开发者、学生或小团队望而却步。好消息是——市面上存在大量真正免费、合法合规的LLM API资源,有些甚至提供高达百万token的试用额度。
本文为你梳理了一份经过筛选的免费LLM API服务清单,涵盖永久免费档、高请求限额服务,以及附带试用积分的平台。所有收录的服务均无逆向工程、无非法套壳,请放心使用,也请合理调用,共同维护这份来之不易的开放生态。
⚠️ 写在前面
-
请勿滥用:所有免费资源均有速率与额度限制,恶意刷接口会导致服务关闭,最终损害整个社区。 -
注意隐私:部分免费服务会使用你的输入数据进行模型训练(如Google AI Studio的非EEA区域),请根据合规要求选择。 -
验证门槛:部分服务需手机号验证(如NVIDIA、Mistral、NLP Cloud),这是常见反滥用手段,非歧视性政策。
一、永久免费提供商(无时间限制)
以下服务提供无需付费、持续可用的API访问,部分设有每日/每分钟请求限制,但足够支撑原型开发与小型应用。
🌐 OpenRouter —— 聚合30+免费模型,共享配额
访问地址:openrouter.ai
速率限制:20请求/分钟,50请求/天;若累计消费满$10,提升至1000请求/天。
OpenRouter是聚合类API网关,免费模型共享上述配额。代表性免费模型包括:
-
Gemma 3 4B/12B/27B Instruct -
Llama 3.1/3.2/3.3 全系列(含405B) -
Mistral Small 3.1 24B -
Qwen 2.5 VL 7B(视觉模型) -
社区微调模型:Dolphin、Trinity、Kimi K2、Solar Pro等
适合场景:多模型对比测试、轻量级聊天机器人。
🧠 Google AI Studio —— Gemini系列大杯免费
访问地址:aistudio.google.com
⚠️ 数据训练提醒:英国、瑞士、EEA及欧盟以外区域,输入数据会被用于模型训练。
| 模型 | 每日请求 | 每分钟请求 | 每分钟tokens |
|---|---|---|---|
| Gemini 3/2.5 Flash | 20 | 5 | 250k |
| Gemini 2.5 Flash-Lite | 20 | 10 | 250k |
| Gemma 3 全系列 | 14.4k | 30 | 15k |
Gemini 3 Flash 系列拥有极长的上下文(1M tokens),非常适合长文档分析、多轮对话。
🎮 NVIDIA NIM —— 企业级推理微服务
访问地址:build.nvidia.com
限制:40请求/分钟,需手机号验证。
模型:Llama 3、Mistral、Qwen、Phi等数十种优化过的高性能版本,尤其适合低延迟推理。
🇫🇷 Mistral AI —— 开源与专有模型并行
La Plateforme(实验计划)
-
限制:1请求/秒,50万tokens/分钟,10亿tokens/月 -
要求:需手机号验证,且必须同意数据用于训练 -
模型:Mistral 7B/8x7B、Mixtral 8x22B、Codestral、Mathstral等
Codestral(编程专用)
-
限制:30请求/分钟,2000请求/天 -
模型:Codestral(代码生成/补全) -
状态:目前完全免费,订阅制正在路上
🤗 HuggingFace Inference Providers
访问地址:hf.co/docs/inference-providers
免费额度:每月$0.1(足够小型实验)
模型:HuggingFace上小于10GB的模型自动支持,部分热门大模型(如Llama 3.1 405B)也通过合作伙伴提供。
⚡ Vercel AI Gateway —— 统一代理,自带免费额度
访问地址:vercel.com/docs/ai-gateway
免费额度:每月$5,可用于路由到OpenAI、Anthropic、Cohere等,不限制模型本身,仅收代理费。
🚀 Cerebras —— 极速推理,大杯配额
访问地址:cloud.cerebras.ai
| 模型 | 每日请求 | 每分钟tokens | 特殊限制 |
|---|---|---|---|
| gpt-oss-120b | 14.4k | 60k | – |
| Qwen 3 235B | 14.4k | 60k | – |
| Llama 3.3 70B | 14.4k | 64k | – |
| Z.ai GLM-4.6 | 100 | 60k | 10请求/分钟 |
Cerebras 以晶圆级引擎著称,推理速度极快,且免费配额相当慷慨。
🔥 Groq —— LPU™ 极速推理,视觉/语音也免费
访问地址:console.groq.com
-
Llama 3.3 70B:1000请求/天,12k tokens/分钟 -
Llama 4 Maverick/Scout:1000请求/天,6k~30k tokens/分钟 -
Whisper Large v3/v3 Turbo:2000请求/天,7200音频秒/分钟 -
Moonshot Kimi K2、OpenAI OSS 系列均有免费档
特别适合实时语音转文字、高并发文本生成。
🐦 Cohere —— 多语言与检索增强
访问地址:cohere.com
限制:20请求/分钟,1000请求/月(所有模型共享)
模型:
-
Aya Expanse 8B/32B(多语言) -
Command A/R/R+(商用级) -
Command R7B(阿拉伯语优化)
🧑💻 GitHub Models —— Copilot用户专享
访问地址:github.com/marketplace/models
限制:根据Copilot订阅等级(Free/Pro/企业)差异较大,输入输出tokens极严格
模型亮点:
-
OpenAI GPT-4.1/4o/o1/o3/o4-mini(部分预览) -
Grok 3、Llama 4、DeepSeek-V3、Phi-4 -
Mistral Small 3.1、Ministral 3B
如果你的日常开发已使用Copilot,这是零成本调用闭源模型的最佳入口。
☁️ Cloudflare Workers AI —— 边缘推理
访问地址:developers.cloudflare.com/workers-ai
免费额度:10,000 neurons/天(1 neuron ≈ 1/128 请求,需具体计算)
模型:超过50种,包括:
-
Gemma 3 12B、Llama 3.3 70B、Llama 4 Scout -
Qwen 2.5 Coder 32B、DeepSeek R1、Mistral Small 3.1 -
视觉模型:Llama 3.2 11B Vision、Qwen 2.5 VL
与Cloudflare生态高度整合,适合无服务器架构、边缘计算场景。
🧱 Google Cloud Vertex AI —— 预览期完全免费
访问地址:console.cloud.google.com/vertex-ai/model-garden
限制(预览期间):
-
Llama 3.2 90B Vision:30请求/分钟 -
Llama 3.1 70B/8B:60请求/分钟
要求:需绑定支付方式(但预览期内不扣费)
二、试用积分提供商(限时/定额)
以下服务需注册获取免费额度,通常在几十美元等值,无需担心突然扣费,额度用尽即停。
| 服务 | 额度 | 有效期 | 主要模型 |
|---|---|---|---|
| Fireworks | $1 | 无明确 | 开源模型全家桶 |
| Baseten | $30 | 无明确 | 按计算时长付费,支持任意模型 |
| Nebius | $1 | 无明确 | 开源模型 |
| Novita | $0.5 | 1年 | 多种开源模型 |
| AI21 | $10 | 3个月 | Jamba 1.5系列 |
| Upstage | $10 | 3个月 | Solar Pro/Mini |
| NLP Cloud | $15 | 无明确 | 需手机号验证 |
| Alibaba Cloud Model Studio | 100万tokens/模型 | 无明确 | Qwen全系 |
| Modal | 30(加支付) | 月 | 任意模型(按计算时长) |
| Inference.net | 25 | 无明确 | 开源模型,反馈问卷可多得$25 |
| Hyperbolic | $1 | 无明确 | DeepSeek V3、Llama 405B、Qwen 235B等 |
| SambaNova Cloud | $5 | 3个月 | Llama 4、DeepSeek V3.1、Qwen 3等 |
| Scaleway Generative APIs | 100万tokens | 无明确 | 含Gemma 3 27B、Pixtral、Voxtral等 |
特别提示:
-
Modal 和 Baseten 本质是算力平台,可部署任何模型,额度按GPU时长扣除,非常灵活。 -
Hyperbolic 和 SambaNova 提供了最新的大模型(如DeepSeek-V3.1、Qwen 3 235B),适合尝鲜前沿模型。 -
Scaleway 作为欧洲云厂商,提供的模型列表极具特色(如devstral、voxtral),适合多语言实验。
结语:如何选择最适合你的免费API?
-
如果只想要一个「万能钥匙」:首选 OpenRouter,聚合最多免费模型,配额合理。 -
如果你需要超长上下文:Google AI Studio 的 Gemini Flash 系列无可替代。 -
如果追求极致速度:Groq 或 Cerebras,LPU与晶圆级硬件的体验极其畅快。 -
如果已有Copilot订阅:GitHub Models 可零成本解锁GPT-4.1/o3等前沿模型。 -
如果想长期低成本生产:申请 Mistral 或 Cohere 的免费档,月配额足够中小应用。 -
如果你是欧洲用户/关心数据隐私:Scaleway 与 Cloudflare 是不错的选择。
最后再次强调:所有免费资源均来之不易,请勿使用脚本刷量、转卖接口或进行违法内容生成。善待这些开放者,我们才能长久享受技术红利。
保持好奇,保持善意,愉快编码! 🚀

