用 Jina AI Remote MCP Server 把网页、论文、图片“一键变成”可用数据
一篇只讲干货、不绕弯子的长文,带你从零到一用好远程 MCP 服务器。
目录
-
为什么你需要一个远程 MCP 服务器? -
Jina AI Remote MCP Server 是什么? -
8 个核心功能逐点拆解 -
5 分钟上手:本地与云端部署全步骤 -
没有支持的客户端怎么办? -
常见问题汇总(FAQ) -
小结:下一步怎么玩?
1. 为什么你需要一个远程 MCP 服务器?
做数据分析、AI 应用或学术研究,最常见的痛点有三:
-
网页抓取后格式杂乱,需要清洗; -
需要大量图片、论文,但来源分散; -
API 太多,调用方式各异,维护成本高。
Remote MCP(Model Context Protocol)服务器把“抓取、清洗、向量化、重排序”封装成一套统一接口。你只需发一条请求,服务器返回干净、结构化的数据,省去 80% 的重复劳动。
2. Jina AI Remote MCP Server 是什么?
一句话:
Jina AI Remote MCP Server 是运行在云端的“瑞士军刀”,提供 8 种开箱即用的数据工具,全部通过 HTTPS 访问,无需安装复杂依赖。
维度 | 说明 |
---|---|
使用者 | 开发者、专科及以上学生、科研人员 |
运行位置 | 官方托管或你的 Cloudflare Workers |
付费模式 | 免费额度 + 可选 API Key 提升限额 |
技术亮点 | 统一 MCP 协议、全链路 HTTPS、无状态设计 |
3. 8 个核心功能逐点拆解
工具 | 它能做什么? | 是否需要 Jina API Key |
---|---|---|
read_url | 把任意网页转成干净 Markdown | 可选 |
capture_screenshot_url | 生成网页高清截图 | 可选 |
search_web | 网络搜索返回带摘要的结果 | 必填 |
search_arxiv | 在 arXiv 搜论文 | 必填 |
search_image | 搜全网图片 | 必填 |
sort_by_relevance | 对文档按查询重排序 | 必填 |
deduplicate_strings | 文本去重并保留多样性 | 必填 |
deduplicate_images | 图像去重并保留多样性 | 必填 |
注:带“可选”的工具在没 API Key 时也能用,但有速率限制;填上免费申请的 Key 后,速率和并发双双提升。
3.1 read_url:网页一键变 Markdown
-
典型场景:写报告需要引用网页内容,复制粘贴格式全乱。 -
调用示例: curl https://r.jina.ai/https://example.com
-
返回:结构化的 Markdown,标题、段落、代码块都保留层级。
3.2 capture_screenshot_url:把网页拍成高清图
-
典型场景:保存证据、做视觉对比。 -
调用示例: curl https://s.jina.ai/https://example.com
-
返回:PNG 图片,支持长截图。
3.3 search_web:实时全网搜索
-
典型场景:追踪最新新闻、技术动态。 -
调用示例: curl -H "Authorization: Bearer $JINA_API_KEY" \ "https://search.jina.ai/?q=AI+regulation+2025"
-
返回:JSON 数组,含标题、摘要、URL、时间戳。
3.4 search_arxiv:论文搜索不求人
-
典型场景:找最新预印本,写综述。 -
调用示例: curl -H "Authorization: Bearer $JINA_API_KEY" \ "https://arxiv.jina.ai/?q=transformer+efficiency"
-
返回:论文标题、作者、摘要、PDF 链接。
3.5 search_image:批量找图
-
典型场景:做 PPT、训练视觉模型。 -
调用示例: curl -H "Authorization: Bearer $JINA_API_KEY" \ "https://img.jina.ai/?q=green+energy+diagram"
-
返回:图片 URL、缩略图、尺寸、来源页。
3.6 sort_by_relevance:智能重排序
-
典型场景:已有 100 份文档,想知道哪几份最相关。 -
输入:查询 + 文档列表 -
输出:按相关度降序排列的新列表。
3.7 deduplicate_strings / deduplicate_images:语义去重
-
典型场景: -
抓了几万条评论,重复率高达 60%。 -
爬了数千张商品图,同款不同角度。
-
-
原理:先用 Embedding 转成向量,再用子模优化挑最“多样”的子集。 -
结果:保留信息量的同时,数据量减半。
4. 5 分钟上手:本地与云端部署全步骤
4.1 先拿到 Jina API Key(可选但强烈建议)
-
打开 https://jina.ai -
注册 → 进入 Dashboard → 复制 Key -
设环境变量: export JINA_API_KEY=你的真实Key
4.2 场景 A:你的客户端已支持远程 MCP
直接把下面 JSON 贴进配置:
{
"mcpServers": {
"jina-mcp-server": {
"url": "https://mcp.jina.ai/sse",
"headers": {
"Authorization": "Bearer ${JINA_API_KEY}"
}
}
}
}
保存后重启客户端即可。
4.3 场景 B:客户端暂不支持远程 MCP
用官方提供的 mcp-remote
本地代理:
-
安装 npm install -g mcp-remote
-
配置 { "mcpServers": { "jina-mcp-server": { "command": "npx", "args": [ "mcp-remote", "https://mcp.jina.ai/sse", "--header", "Authorization: Bearer ${JINA_API_KEY}" ] } } }
-
启动客户端,代理会自动连接云端。
4.4 本地开发(想改源码)
git clone https://github.com/jina-ai/MCP.git
cd MCP
npm install
npm run start
浏览器打开 http://localhost:3000/sse
验证是否跑通。
4.5 部署到你自己的 Cloudflare Workers
-
点仓库里的紫色 “Deploy to Workers” 按钮 -
登录 Cloudflare → 选子域 → 一键部署 -
部署完成后拿到 https://jina-mcp-server.<your-account>.workers.dev/sse
-
把该地址替换到前面 JSON 的 url
字段即可。
5. 没有支持的客户端怎么办?
目前 MCP 生态还在早期,如果你使用的工具(如某些低代码平台)尚未支持 MCP,可采取两条路线:
-
路线 1:用 4.3 节的 mcp-remote
做本地桥接。 -
路线 2:直接用 HTTP API,例如: curl -X POST https://mcp.jina.ai/sse/read_url \ -H "Authorization: Bearer $JINA_API_KEY" \ -d '{"url":"https://example.com"}'
任何能发 HTTP 请求的环境都能用,Postman、Python、JavaScript 都可以。
6. 常见问题汇总(FAQ)
Q1:没有 API Key 会怎样?
-
可选工具仍能使用,但每分钟只能调用 20 次; -
带“必填”的工具直接返回 401。
免费 Key 立刻把限额拉到每分钟 200 次,足够个人项目。
Q2:会不会泄露隐私链接?
-
官方服务器不存储请求内容; -
自建 Worker 的话,代码完全在你账号里,隐私自控。
Q3:返回的 Markdown 格式乱?
-
99% 网站表现良好; -
遇到极端复杂页面,可先用 capture_screenshot_url
截图留底,再人工校正。
Q4:重排序和去重支持中文吗?
-
支持,Embedding 模型在多语言语料上训练,中英文效果一致。
Q5:Cloudflare Workers 有免费额度吗?
-
有,每日 100,000 次请求,个人使用绰绰有余。
Q6:如何批量抓取 10 万网页?
-
先准备 URL 列表; -
用脚本顺序或并发调用 read_url
; -
超过免费额度就分批申请多个 Key 或多 Worker 实例。
7. 小结:下一步怎么玩?
你已经拥有了 8 把“数据瑞士军刀”。建议的进阶路线:
-
先用 read_url
+search_web
做一份行业速览; -
用 search_arxiv
深挖学术论文,配合sort_by_relevance
选最相关的 20 篇精读; -
用 deduplicate_images
整理配图,生成高质量素材库; -
把整套流程写成脚本,定时跑,自动更新知识库。
技术的世界不缺工具,缺的是把工具串成流水线的人。祝你玩得开心,产出有深度的作品!