开源大模型到底怎么选?一文看懂 2025 年最新参数、性能与价格全景
用日常语言把 200+ 开源模型拆成「大、中、小、微」四档,教你按场景挑模型、看钱包下单、按硬件落地。所有数据均来自 Artificial Analysis 2025 年 7 月公开榜单,无任何外部增补。
目录
-
为什么要自己挑模型? -
先把模型分成四档,别再被“参数”吓到 -
大模型(>150 B):算力够就上顶配 -
中模型(40–150 B):70 B 左右是甜点区 -
小模型(4–40 B):本地 GPU 也能跑 -
微模型(≤4 B):树莓派也能玩 -
一张总表:参数、上下文、价格、下载地址 -
常见疑问 FAQ -
快速决策清单(HowTo)
1. 为什么要自己挑模型?
-
开源 = 可下载权重,你能本地部署、继续训练、100 % 数据不出内网。 -
价格差距巨大:同样 70 B 参数,有的 0.2 美元 / 1 M tokens,有的 3 美元。 -
上下文窗口决定“记忆力”:做 RAG 或长文档总结时,128 k 是起步线。
2. 先把模型分成四档,别再被“参数”吓到
档位 | 总参数 | 活跃参数* | 典型场景 | 硬件底线 |
---|---|---|---|---|
大 | >150 B | 20–40 B | 科研、复杂推理 | 8×A100 |
中 | 40–150 B | 10–40 B | 企业客服、代码续写 | 1×A100 或 2×3090 |
小 | 4–40 B | 2–30 B | 本地开发机、轻量 API | RTX 4090 或 M2 Ultra |
微 | ≤4 B | 0.5–4 B | 手机、树莓派、边缘 IoT | CPU 也能跑 |
*活跃参数:推理时真正用到的权重,决定显存占用,不是“总参数越大越卡”。
3. 大模型(>150 B):算力够就上顶配
3.1 2025 年第一梯队
模型 | 总 / 活跃参数 | Intelligence 分* | 上下文 | 价格 $/1 M tokens | HuggingFace 直达 |
---|---|---|---|---|---|
Qwen3 235B 2507 (Reasoning) | 235 B / 22 B | 69 | 132 k | 2.6 | 链接 |
DeepSeek R1 0528 | 685 B / 37 B | 68 | 128 k | 1.0 | 链接 |
GLM-4.5 | 355 B / 32 B | 66 | 128 k | — | 链接 |
MiniMax M1 80k | 456 B / 45.9 B | 63 | 1 M | 0.8 | 链接 |
Intelligence 分:Artificial Analysis 综合 7 项公开基准,越高越聪明。
3.2 一句话总结
-
要最聪明:选 Qwen3 235B Reasoning。 -
要长上下文:MiniMax M1 80k 直接给到 1 M tokens,做整本书总结无压力。 -
要省钱:DeepSeek R1 0528 价格最低,Intelligence 只低 1 分。
4. 中模型(40–150 B):70 B 左右是甜点区
4.1 谁最聪明?
模型 | 总 / 活跃参数 | Intelligence 分 | 上下文 | 价格 | 备注 |
---|---|---|---|---|---|
Llama Nemotron Super 49B v1.5 (Reasoning) | 49 B / 49 B | 64 | 128 k | — | 纯 dense,推理快 |
DeepSeek R1 Distill Llama 70B | 70 B / 70 B | 48 | 128 k | 0.8 | 蒸馏版,性价比极高 |
Llama 4 Scout | 109 B / 17 B | 43 | 10 M | 0.2 | 上下文最长,价格最低 |
4.2 怎么选?
-
GPU 只有 24 G 显存:Llama Nemotron Super 49B v1.5(活跃参数 49 B,int8 量化后 24 G 可跑)。 -
需要超长对话:Llama 4 Scout 一口气 10 M tokens,适合大文档问答。 -
想省钱又要 70 B 性能:DeepSeek R1 Distill Llama 70B,价格不到 1 美元。
5. 小模型(4–40 B):本地 GPU 也能跑
5.1 2025 年小模型天花板
模型 | 总 / 活跃参数 | Intelligence 分 | 上下文 | 价格 | 典型显卡 |
---|---|---|---|---|---|
EXAONE 4.0 32B (Reasoning) | 32 B / 32 B | 64 | 131 k | 1.0 | RTX 4090 24 G |
Qwen3 32B (Reasoning) | 32.8 B / 32.8 B | 59 | 128 k | 2.6 | 同上 |
QwQ-32B | 32.8 B / 32.8 B | 58 | 131 k | 0.5 | 同上 |
5.2 实战举例
-
个人开发者:RTX 4090 + QwQ-32B,本地跑代码补全,0.5 美元 / 1 M tokens≈ 1.5 G 中文小说只要 0.5 元。 -
中小企业客服:一台 A6000 48 G 可并发 4 路 Qwen3 32B,成本 < 0.01 元 / 次对话。
6. 微模型(≤4 B):树莓派也能玩
模型 | 总 / 活跃参数 | Intelligence 分 | 上下文 | 价格 | 备注 |
---|---|---|---|---|---|
Qwen3 1.7B (Reasoning) | 2.03 B / 2.03 B | 38 | 32 k | 0.4 | Jetson Orin Nano 可跑 |
Phi-4 Mini | 3.84 B / 3.84 B | 26 | 128 k | — | 微软小钢炮,CPU 实时 |
Llama 3.2 3B | 3 B / 3 B | 20 | 128 k | 0.0 | 完全免费,移动端友好 |
实测:Phi-4 Mini 在 M1 Max 上用 llama.cpp 量化到 4-bit,每秒 12 tokens,翻译 500 字邮件 < 3 秒。
7. 一张总表:参数、上下文、价格、下载地址
档位 | 模型 | 总参 | 活跃参 | 上下文 | 价格 | 下载 |
---|---|---|---|---|---|---|
大 | Qwen3 235B 2507 (R) | 235 B | 22 B | 132 k | 2.6 | 🤗 |
大 | DeepSeek R1 0528 | 685 B | 37 B | 128 k | 1.0 | 🤗 |
中 | Llama Nemotron 49B v1.5 (R) | 49 B | 49 B | 128 k | — | 🤗 |
中 | Llama 4 Scout | 109 B | 17 B | 10 M | 0.2 | 🤗 |
小 | EXAONE 4.0 32B (R) | 32 B | 32 B | 131 k | 1.0 | 🤗 |
小 | QwQ-32B | 32.8 B | 32.8 B | 131 k | 0.5 | 🤗 |
微 | Qwen3 1.7B (R) | 2.03 B | 2.03 B | 32 k | 0.4 | 🤗 |
微 | Llama 3.2 3B | 3 B | 3 B | 128 k | 0.0 | 🤗 |
8. 常见疑问 FAQ
Q1:Intelligence 分 60 和 70 差距大吗?
A:在 MMLU-Pro、GPQA 这类学术题上差距显著;日常客服、翻译体感不明显。
Q2:上下文 1 M tokens 是不是噱头?
A:MiniMax 官方示例把 30 万汉字小说一次性塞进去做问答,延迟 < 10 秒,可用。
Q3:本地 GPU 怎么估算显存?
-
公式: 活跃参数 * 2 byte (fp16) ≈ 显存 GB
-
例:QwQ-32B 活跃 32 B → 32 GB fp16,int4 量化后 ≈ 8 GB,RTX 4080 16 G 可跑。
Q4:价格 0.2 美元 / 1 M tokens 什么概念?
-
1 M tokens ≈ 75 万汉字。 -
一篇 3000 字新闻 ≈ 4 k tokens,成本 0.0008 美元 ≈ 0.006 元。
Q5:蒸馏模型会不会“变笨”?
A:DeepSeek 官方报告显示,R1 Distill Llama 70B 在 HumanEval 代码任务上仅比老师模型低 2 %,性价比极高。
9. 快速决策清单(HowTo)
步骤 1:定场景
-
科研/复杂推理 → 大模型 -
企业客服/代码补全 → 中模型 -
本地 IDE 插件 → 小模型 -
手机端翻译 → 微模型
步骤 2:看钱包
预算 / 1 M tokens | 推荐档位 | 代表模型 |
---|---|---|
< 0.5 美元 | 微 | Llama 3.2 3B |
0.5–1 美元 | 小 | QwQ-32B |
1–2 美元 | 中 | DeepSeek R1 Distill 70B |
2–3 美元 | 大 | DeepSeek R1 0528 |
步骤 3:查硬件
-
8 G 显存 → 微模型 -
16–24 G → 小模型 -
48 G+ → 中模型 -
多卡 80 G → 大模型
步骤 4:一键下载
# 以 QwQ-32B 为例
pip install transformers torch
from transformers import AutoModelForCausalLM, AutoTokenizer
tok = AutoTokenizer.from_pretrained("Qwen/QwQ-32B")
model = AutoModelForCausalLM.from_pretrained("Qwen/QwQ-32B", torch_dtype="auto", device_map="auto")
结束语
模型没有绝对好坏,只有场景—预算—硬件是否匹配。把本文收藏,下次再听到“大模型一定最好”时,把这张总表甩给对方,让选择回归理性。