本地运行大型语言模型(LLM)的终极指南:开源工具、平台和资源大全
在人工智能时代,大型语言模型(LLM)如ChatGPT和Claude已成为日常工具。但你知道吗?通过本地运行LLM,你可以实现完全隐私保护、零成本访问,并自定义AI应用。本文汇集了最全面的开源平台、推理引擎、用户界面、模型提供者和工具,帮助你轻松搭建本地AI生态。无论你是开发者、研究者还是AI爱好者,这份指南都能助你一臂之力。
「关键词」:本地LLM、开源AI工具、LLM推理引擎、RAG框架、AI代理、模型微调
(本文基于Awesome Local LLM列表整理,持续更新中。如果你有新资源,欢迎贡献!)
为什么选择本地运行LLM?
本地LLM的优势显而易见:数据隐私高、无需依赖云服务、自定义灵活。相比云端模型,本地部署能节省费用,并支持离线使用。根据Hugging Face和GitHub数据,2025年开源LLM下载量已超亿次。本指南覆盖从推理平台到硬件教程的全链路,帮助你从入门到高级应用。
推理平台:快速启动本地LLM
推理平台是本地LLM的入口,它们简化模型下载、运行和管理。以下是热门开源选项:
-
「LM Studio」:轻松发现、下载和运行本地LLM,支持多种模型格式。 -
「Jan」:开源ChatGPT替代品,100%离线运行在你的电脑上。GitHub星标:查看Jan仓库。 -
「LocalAI」:免费开源的OpenAI/Claude替代,支持GPU加速。GitHub星标:查看LocalAI仓库。 -
「ChatBox」:用户友好的桌面客户端,支持多种AI模型。 -
「Lemonade」:本地LLM服务器,支持GPU和NPU加速。
这些平台适合初学者,一键安装即可体验本地AI聊天。
推理引擎:高效运行LLM的核心
推理引擎负责模型的计算优化,确保在有限硬件上高效运行。推荐以下引擎:
-
「Ollama」:快速启动LLM,支持多种架构。GitHub星标:查看Ollama仓库。 -
「Llama.cpp」:C/C++实现的LLM推理,支持量化模型。(注意:原文档中为ggml-org,但正确是ggerganov) -
「vLLM」:高吞吐量、内存高效的LLM服务引擎。 -
「Exo」:用日常设备构建自家AI集群。 -
「BitNet」:1-bit LLM的官方推理框架。 -
「SGLang」:快速服务框架,支持视觉语言模型。 -
「Nano-vLLM」:轻量级vLLM实现,从零构建。 -
「KoboldCPP」:轻松运行GGUF模型,带KoboldAI界面。 -
「GPUStack」:简单可扩展的GPU集群部署。 -
「MLX-LM」:Apple硅芯片上的文本生成和微调。 -
「Distributed-Llama」:连接家用设备加速LLM推理。 -
「ik_llama.cpp」:Llama.cpp fork,添加SOTA量化,提升性能。 -
「FastFlowLM」:AMD Ryzen AI NPU上的LLM运行。 -
「vLLM-gfx906」:AMD gfx906 GPU(如Radeon VII)支持。 -
「LLM-Scaler」:Intel Arc Pro B60 GPU上的LLM运行。
选择引擎时,考虑你的硬件:NVIDIA GPU首选vLLM,AMD/Intel则看专用支持。
用户界面:友好交互本地LLM
用户界面让本地LLM更易用,支持聊天、代码生成等:
-
「Open WebUI」:用户友好的AI界面,支持Ollama和OpenAI API。 -
「Lobe Chat」:现代设计AI聊天框架。 -
「Text Generation Web UI」:高级LLM UI,支持多后端。 -
「SillyTavern」:针对高级用户的LLM前端。 -
「Page Assist」:本地AI模型辅助网页浏览。
这些UI兼容多种引擎,提升用户体验。
大型语言模型:探索与选择
模型浏览器、基准和排行榜
-
「AI Models & API Providers Analysis」:分析AI景观,选择最佳模型。 -
「LLM Explorer」:开源LLM模型列表。 -
「Dubesor LLM Benchmark」:手动性能比较基准。 -
「Oobabooga Benchmark」:按大小排序的模型分数列表。
模型提供者
-
「Qwen」:阿里巴巴云支持的模型。 -
「Mistral AI」:法国AI初创,提供前沿模型。 -
「Tencent」:腾讯的开源模型。 -
「Unsloth AI」:使AI更易访问,提供GGUF版本。 -
「Bartowski」:热门LLM的GGUF版本。 -
「Beijing Academy of Artificial Intelligence」:AI研发非营利组织。 -
「Open Thoughts」: curation最佳开放推理数据集。
具体模型
通用模型
-
「Qwen3-Next」:最新Qwen系列。 -
「Gemma 3」:Google轻量级开放模型。 -
「GPT-OSS」:OpenAI开源权重模型。 -
「Ministral 3」:Mistral边缘模型,支持视觉。 -
「GLM-4.5」:ZhipuAI混合推理模型。 -
「Hunyuan」:腾讯高效LLM。 -
「Phi-4-mini-instruct」:Microsoft轻量模型。 -
「NVIDIA Nemotron v3」:NVIDIA企业模型。 -
「Llama Nemotron」:NVIDIA生产级模型。 -
「OpenReasoning-Nemotron」:NVIDIA推理模型。 -
「Granite 4.0」:IBM多语言模型,支持RAG和工具使用。 -
「EXAONE-4.0」:LG AI多模态模型。 -
「ERNIE 4.5」:百度大规模多模态模型。 -
「Seed-OSS」:字节跳动长上下文模型。
编码模型
-
「Qwen3-Coder」:Qwen代理级代码模型。 -
「Devstral 2」:Mistral软件工程模型。 -
「Mellum-4b-base」:JetBrains代码优化模型。 -
「OlympicCoder-32B」:竞赛级编码模型。 -
「NextCoder」:Microsoft代码编辑模型。
多模态模型
-
「Qwen3-Omni」:Qwen端到端多模态模型。
图像模型
-
「Qwen-Image」:Qwen图像生成模型。 -
「Qwen-Image-Edit-2509」:图像编辑版本。 -
「Qwen3-VL」:Qwen视觉语言模型。 -
「GLM-4.5V」:ZhipuAI视觉LLM。 -
「HunyuanImage-2.1」:腾讯高分辨率文本到图像。 -
「FastVLM」:Apple高效视觉编码。 -
「MiniCPM-V-4_5」:手机级多图像/视频理解。 -
「LFM2-VL」:LiquidAI设备端视觉模型。 -
「ClipTagger-12b」:大规模视频理解VLM。
音频模型
-
「Voxtral-Small-24B-2507」:Mistral音频输入增强模型。 -
「Chatterbox」:首个生产级开源TTS模型。 -
「VibeVoice」:Microsoft前沿TTS模型。 -
「Canary-1b-v2」:NVIDIA多任务语音转录。 -
「Parakeet-tdt-0.6b-v3」:NVIDIA多语言STT模型。 -
「Kitten TTS」:轻量级开源TTS模型。
其他模型
-
「Jan-v1-4B」:Jan家族首发,针对代理推理。 -
「Jan-nano」:4B参数研究模型。 -
「Jan-nano-128k」:128k上下文窗口版本。 -
「Arch-Router-1.5B」:最快LLM路由模型。 -
「GPT-OSS-Safeguard」:OpenAI安全推理模型。 -
「Qwen3Guard」:Qwen安全 moderation模型。 -
「NemoGuard」:NVIDIA内容安全模型。 -
「HunyuanWorld-1」:腾讯3D世界生成模型。 -
「Hunyuan-GameCraft-1.0」:腾讯互动视频生成框架。
工具:扩展LLM功能
模型工具
-
「Unsloth」:LLM微调和强化学习。 -
「Outlines」:LLM结构化输出。 -
「Heretic」:自动移除模型审查。 -
「Llama-Swap」:可靠模型交换。
代理框架
-
「AutoGPT」:连续AI代理自动化工作流。 -
「Langflow」:可视化构建AI代理。 -
「Langchain」:上下文感知推理应用。 -
「Autogen」:代理AI编程框架。 -
「Anything-LLM」:内置RAG和代理构建器。 -
「Flowise」:可视化AI代理构建。 -
「Llama Index」:LLM代理数据框架。 -
「CrewAI」:角色扮演自治代理。 -
「Agno」:多代理系统框架。 -
「Sim」:开源AI代理工作流平台。 -
「OpenAI Agents Python」:多代理工作流框架。 -
「SuperAGI」:自治AI代理框架。 -
「Camel」:首个多代理框架。 -
「Pydantic-AI」:生产级AI应用框架。 -
「TxtAI」:开源AI框架,支持语义搜索。 -
「Agent-Framework」:构建多代理工作流。 -
「Archgw」:高性能代理代理服务器。 -
「ClaraVerse」:隐私优先AI工作空间。 -
「Ragbits」:GenAI应用快速开发块。
模型上下文协议(MCP)
-
「MindsDB」:AI联邦查询引擎。 -
「GitHub MCP Server」:GitHub官方MCP服务器。 -
「Playwright MCP」:网页自动化MCP。 -
「Chrome DevTools MCP」:编码代理Chrome工具。 -
「n8n-MCP」:n8n工作流构建MCP。 -
「AWS MCP」:AWS服务MCP。 -
「MCP-Atlassian」:Atlassian工具MCP。
检索增强生成(RAG)
-
「Pathway」:Python ETL框架,支持实时RAG。 -
「GraphRAG」:模块化图基RAG系统。 -
「LightRAG」:简单快速RAG。 -
「Haystack」:AI编排框架,适合RAG和聊天机器人。 -
「Vanna」:开源Python RAG SQL生成。 -
「Graphiti」:实时知识图谱构建。 -
「Onyx」:连接文档、应用和人员的AI平台。 -
「Claude-Context」:整个代码库作为上下文。 -
「Pipeshub-AI」:可扩展企业搜索和工作流自动化。
编码代理
-
「Zed」:高性能协作代码编辑器。 -
「OpenHands」:AI驱动软件开发平台。 -
「Cline」:IDE中自治编码代理。 -
「Aider」:终端AI配对编程。 -
「Opencode」:终端AI编码代理。 -
「Tabby」:开源GitHub Copilot替代。 -
「Continue」:自定义AI代码助手。 -
「Void」:开源Cursor替代,支持AI代理。 -
「Goose」:超越代码建议的AI代理。 -
「Roo-Code」:AI开发团队在编辑器中。 -
「Crush」:终端AI编码代理。 -
「Kilocode」:开源AI编码助手。 -
「Humanlayer」:解决复杂代码库问题。 -
「ProxyAI」:JetBrains开源AI副驾驶。
计算机使用
-
「Open Interpreter」:自然语言计算机接口。 -
「OmniParser」:纯视觉GUI代理屏幕解析。 -
「CUA」:计算机使用AI代理Docker容器。 -
「Self-Operating Computer」:多模态模型操作计算机框架。 -
「Agent-S」:像人类一样使用计算机的开源框架。
浏览器自动化
-
「Puppeteer」:Chrome/Firefox JavaScript API。 -
「Playwright」:网页测试和自动化框架。 -
「Browser-Use」:使网站适用于AI代理。 -
「Firecrawl」:网站转LLM-ready Markdown或结构数据。 -
「Stagehand」:AI浏览器自动化框架。 -
「Nanobrowser」:开源AI网页自动化Chrome扩展。
内存管理
-
「Mem0」:AI代理通用内存层。 -
「Letta」:状态代理框架,支持内存和推理。 -
「Supermemory」:快速可扩展内存引擎。 -
「Cognee」:5行代码的AI代理内存。 -
「LMCache」:最快KV缓存层。 -
「MemU」:开源AI伴侣内存框架。
测试、评估和可观察性
-
「Langfuse」:开源LLM工程平台,支持观测和评估。 -
「Opik」:调试、评估和监控LLM应用。 -
「OpenLLMetry」:基于OpenTelemetry的LLM观测。 -
「Garak」:NVIDIA LLM漏洞扫描器。 -
「Giskard」:开源AI系统评估。 -
「Agenta」:开源LLMOps平台。
研究工具
-
「Perplexica」:开源Perplexity AI替代。 -
「GPT-Researcher」:自主代理进行深度研究。 -
「SurfSense」:开源NotebookLM/Perplexity替代。 -
「Open-Notebook」:更灵活的Notebook LM实现。 -
「RD-Agent」:自动化工业R&D过程。 -
「Local-Deep-Researcher」:全本地网页研究助手。 -
「Local-Deep-Research」:AI驱动迭代研究助手。 -
「Maestro」:AI研究应用简化复杂任务。
训练和微调
-
「OpenRLHF」:开源RLHF框架,支持Ray和vLLM。 -
「Kiln」:最简单LLM微调和合成数据工具。 -
「Augmentoolkit」:用新事实训练开源LLM。
其他工具
-
「Context7」:LLM和AI代码编辑器的代码文档。 -
「CAI」:网络安全AI框架。 -
「Speakr」:自托管音频转录应用。 -
「Presenton」:开源AI演示生成器和API。 -
「OmniGen2」:高级多模态生成探索。 -
「4o-Ghibli-At-Home」:自托管AI照片风格化。 -
「Observer」:本地微代理观察和反应。 -
「Mobile-Use」:开源AI代理控制移动设备。 -
「Gabber」:使用屏幕、麦克风和相机构建AI应用。 -
「Promptcat」:零依赖提示管理库。
硬件:选择适合本地LLM的设备
-
「YouTube频道」:Alex Ziskind(测试PC/Laptop/GPU)、Digital Spaceport(LLM构建评论)、JetsonHacks(NVIDIA Jetson开发)、Miyconst(硬件测试)。 -
「工具」:Kolosal LLM内存计算器、LLM推理VRAM计算器。 -
「ZLUDA」:非NVIDIA GPU上的CUDA。
教程:从入门到高级
模型教程
-
「重现GPT-2 (124M)」:YouTube教程。 -
「Nanochat」:单节点全栈LLM实现。 -
「知识蒸馏」:LLM相互训练教程。 -
「GGUF量化文档」:非官方GGUF指南。
提示工程
-
「Prompt Engineering Guide」:指南、论文和资源。 -
「NirDiamant提示工程」:从基础到高级教程。 -
「Google提示指南101」:有效提示手册。 -
「Google提示工程」:Google提示工程。 -
「Anthropic提示工程」:Anthropic提示工程。 -
「Prompt Engineering Interactive Tutorial」:Anthropic交互教程。 -
「Real World Prompting」:Anthropic真实世界提示教程。 -
「Prompt Evaluations」:Anthropic提示评估课程。 -
「系统提示泄露」:从AI工具提取系统提示。 -
「System Prompts Leaks」:从ChatGPT等提取提示。 -
「Prompt from Codex」:OpenAI Codex行为引导提示。
上下文工程
-
「Context-Engineering」:超越提示工程的手册。 -
「Awesome-Context-Engineering」:全面调查。
推理教程
-
「vLLM Production Stack」:K8S集群部署参考。
代理教程
-
「GenAI Agents」:各种代理技术教程。 -
「500+ AI代理项目」:跨行业用例。 -
「12-Factor Agents」:可靠LLM应用原则。 -
「Agents Towards Production」:从概念到生产的教程。 -
「LLM Agents Handbook」:构建、部署和评估手册。 -
「601 GenAI用例」:Google真实案例。 -
「OpenAI代理构建指南」:OpenAI实用指南。
RAG教程
-
「Pathway AI Pipelines」:RAG云模板。 -
「RAG Techniques」:高级RAG技术。 -
「Controllable RAG Agent」:复杂问答解决方案。 -
「LangChain RAG Cookbook」:模块化RAG实现。
其他教程
-
「自托管AI编码」:Reddit讨论。
社区:加入讨论
-
「Reddit」:LocalLLaMA、LLMDevs、LocalLLM、LocalAIServers。 -
「Telegram」:GenAI Monitor(更新监控)。
结语:开启你的本地LLM之旅
本地LLM是AI民主化的关键。通过这些工具和资源,你能构建强大、私密的AI系统。记得优化你的提示和上下文,以获得最佳性能。如果你有反馈或新建议,欢迎在评论区分享!订阅博客,获取最新AI更新。
