免费LLM API资源全攻略:从永久免费到试用积分,开发者必备清单

随着大语言模型(LLM)的爆发式增长,越来越多的开发者希望通过API快速集成AI能力。然而,付费API往往让个人开发者、学生或小团队望而却步。好消息是——市面上存在大量真正免费、合法合规的LLM API资源,有些甚至提供高达百万token的试用额度。

本文为你梳理了一份经过筛选的免费LLM API服务清单,涵盖永久免费档、高请求限额服务,以及附带试用积分的平台。所有收录的服务均无逆向工程、无非法套壳,请放心使用,也请合理调用,共同维护这份来之不易的开放生态。


⚠️ 写在前面

  • 请勿滥用:所有免费资源均有速率与额度限制,恶意刷接口会导致服务关闭,最终损害整个社区。
  • 注意隐私:部分免费服务会使用你的输入数据进行模型训练(如Google AI Studio的非EEA区域),请根据合规要求选择。
  • 验证门槛:部分服务需手机号验证(如NVIDIA、Mistral、NLP Cloud),这是常见反滥用手段,非歧视性政策。

一、永久免费提供商(无时间限制)

以下服务提供无需付费、持续可用的API访问,部分设有每日/每分钟请求限制,但足够支撑原型开发与小型应用。


🌐 OpenRouter —— 聚合30+免费模型,共享配额

访问地址openrouter.ai
速率限制:20请求/分钟,50请求/天;若累计消费满$10,提升至1000请求/天。

OpenRouter是聚合类API网关,免费模型共享上述配额。代表性免费模型包括:

  • Gemma 3 4B/12B/27B Instruct
  • Llama 3.1/3.2/3.3 全系列(含405B)
  • Mistral Small 3.1 24B
  • Qwen 2.5 VL 7B(视觉模型)
  • 社区微调模型:Dolphin、Trinity、Kimi K2、Solar Pro等

适合场景:多模型对比测试、轻量级聊天机器人。


🧠 Google AI Studio —— Gemini系列大杯免费

访问地址aistudio.google.com
⚠️ 数据训练提醒:英国、瑞士、EEA及欧盟以外区域,输入数据会被用于模型训练。

模型 每日请求 每分钟请求 每分钟tokens
Gemini 3/2.5 Flash 20 5 250k
Gemini 2.5 Flash-Lite 20 10 250k
Gemma 3 全系列 14.4k 30 15k

Gemini 3 Flash 系列拥有极长的上下文(1M tokens),非常适合长文档分析、多轮对话


🎮 NVIDIA NIM —— 企业级推理微服务

访问地址build.nvidia.com
限制:40请求/分钟,需手机号验证
模型:Llama 3、Mistral、Qwen、Phi等数十种优化过的高性能版本,尤其适合低延迟推理


🇫🇷 Mistral AI —— 开源与专有模型并行

La Plateforme(实验计划)

  • 限制:1请求/秒,50万tokens/分钟,10亿tokens/月
  • 要求:需手机号验证,且必须同意数据用于训练
  • 模型:Mistral 7B/8x7B、Mixtral 8x22B、Codestral、Mathstral等

Codestral(编程专用)

  • 限制:30请求/分钟,2000请求/天
  • 模型:Codestral(代码生成/补全)
  • 状态:目前完全免费,订阅制正在路上

🤗 HuggingFace Inference Providers

访问地址hf.co/docs/inference-providers
免费额度每月$0.1(足够小型实验)
模型:HuggingFace上小于10GB的模型自动支持,部分热门大模型(如Llama 3.1 405B)也通过合作伙伴提供。


⚡ Vercel AI Gateway —— 统一代理,自带免费额度

访问地址vercel.com/docs/ai-gateway
免费额度每月$5,可用于路由到OpenAI、Anthropic、Cohere等,不限制模型本身,仅收代理费。


🚀 Cerebras —— 极速推理,大杯配额

访问地址cloud.cerebras.ai

模型 每日请求 每分钟tokens 特殊限制
gpt-oss-120b 14.4k 60k
Qwen 3 235B 14.4k 60k
Llama 3.3 70B 14.4k 64k
Z.ai GLM-4.6 100 60k 10请求/分钟

Cerebras 以晶圆级引擎著称,推理速度极快,且免费配额相当慷慨。


🔥 Groq —— LPU™ 极速推理,视觉/语音也免费

访问地址console.groq.com

  • Llama 3.3 70B:1000请求/天,12k tokens/分钟
  • Llama 4 Maverick/Scout:1000请求/天,6k~30k tokens/分钟
  • Whisper Large v3/v3 Turbo:2000请求/天,7200音频秒/分钟
  • Moonshot Kimi K2OpenAI OSS 系列均有免费档

特别适合实时语音转文字、高并发文本生成


🐦 Cohere —— 多语言与检索增强

访问地址cohere.com
限制:20请求/分钟,1000请求/月(所有模型共享)
模型

  • Aya Expanse 8B/32B(多语言)
  • Command A/R/R+(商用级)
  • Command R7B(阿拉伯语优化)

🧑‍💻 GitHub Models —— Copilot用户专享

访问地址github.com/marketplace/models
限制:根据Copilot订阅等级(Free/Pro/企业)差异较大,输入输出tokens极严格
模型亮点

  • OpenAI GPT-4.1/4o/o1/o3/o4-mini(部分预览)
  • Grok 3、Llama 4、DeepSeek-V3、Phi-4
  • Mistral Small 3.1、Ministral 3B

如果你的日常开发已使用Copilot,这是零成本调用闭源模型的最佳入口。


☁️ Cloudflare Workers AI —— 边缘推理

访问地址developers.cloudflare.com/workers-ai
免费额度10,000 neurons/天(1 neuron ≈ 1/128 请求,需具体计算)
模型:超过50种,包括:

  • Gemma 3 12B、Llama 3.3 70B、Llama 4 Scout
  • Qwen 2.5 Coder 32B、DeepSeek R1、Mistral Small 3.1
  • 视觉模型:Llama 3.2 11B Vision、Qwen 2.5 VL

与Cloudflare生态高度整合,适合无服务器架构、边缘计算场景


🧱 Google Cloud Vertex AI —— 预览期完全免费

访问地址console.cloud.google.com/vertex-ai/model-garden
限制(预览期间):

  • Llama 3.2 90B Vision:30请求/分钟
  • Llama 3.1 70B/8B:60请求/分钟
    要求:需绑定支付方式(但预览期内不扣费)

二、试用积分提供商(限时/定额)

以下服务需注册获取免费额度,通常在几十美元等值,无需担心突然扣费,额度用尽即停。

服务 额度 有效期 主要模型
Fireworks $1 无明确 开源模型全家桶
Baseten $30 无明确 按计算时长付费,支持任意模型
Nebius $1 无明确 开源模型
Novita $0.5 1年 多种开源模型
AI21 $10 3个月 Jamba 1.5系列
Upstage $10 3个月 Solar Pro/Mini
NLP Cloud $15 无明确 需手机号验证
Alibaba Cloud Model Studio 100万tokens/模型 无明确 Qwen全系
Modal 30(加支付) 任意模型(按计算时长)
Inference.net 25 无明确 开源模型,反馈问卷可多得$25
Hyperbolic $1 无明确 DeepSeek V3、Llama 405B、Qwen 235B等
SambaNova Cloud $5 3个月 Llama 4、DeepSeek V3.1、Qwen 3等
Scaleway Generative APIs 100万tokens 无明确 含Gemma 3 27B、Pixtral、Voxtral等

特别提示

  • ModalBaseten 本质是算力平台,可部署任何模型,额度按GPU时长扣除,非常灵活。
  • HyperbolicSambaNova 提供了最新的大模型(如DeepSeek-V3.1、Qwen 3 235B),适合尝鲜前沿模型。
  • Scaleway 作为欧洲云厂商,提供的模型列表极具特色(如devstral、voxtral),适合多语言实验。

结语:如何选择最适合你的免费API?

  1. 如果只想要一个「万能钥匙」:首选 OpenRouter,聚合最多免费模型,配额合理。
  2. 如果你需要超长上下文Google AI Studio 的 Gemini Flash 系列无可替代。
  3. 如果追求极致速度GroqCerebras,LPU与晶圆级硬件的体验极其畅快。
  4. 如果已有Copilot订阅GitHub Models 可零成本解锁GPT-4.1/o3等前沿模型。
  5. 如果想长期低成本生产:申请 MistralCohere 的免费档,月配额足够中小应用。
  6. 如果你是欧洲用户/关心数据隐私Scaleway 与 Cloudflare 是不错的选择。

最后再次强调:所有免费资源均来之不易,请勿使用脚本刷量、转卖接口或进行违法内容生成。善待这些开放者,我们才能长久享受技术红利。


保持好奇,保持善意,愉快编码! 🚀