用 Jina AI Remote MCP Server 把网页、论文、图片“一键变成”可用数据

一篇只讲干货、不绕弯子的长文,带你从零到一用好远程 MCP 服务器。


目录

  1. 为什么你需要一个远程 MCP 服务器?
  2. Jina AI Remote MCP Server 是什么?
  3. 8 个核心功能逐点拆解
  4. 5 分钟上手:本地与云端部署全步骤
  5. 没有支持的客户端怎么办?
  6. 常见问题汇总(FAQ)
  7. 小结:下一步怎么玩?

1. 为什么你需要一个远程 MCP 服务器?

做数据分析、AI 应用或学术研究,最常见的痛点有三:

  • 网页抓取后格式杂乱,需要清洗;
  • 需要大量图片、论文,但来源分散;
  • API 太多,调用方式各异,维护成本高。

Remote MCP(Model Context Protocol)服务器把“抓取、清洗、向量化、重排序”封装成一套统一接口。你只需发一条请求,服务器返回干净、结构化的数据,省去 80% 的重复劳动。


2. Jina AI Remote MCP Server 是什么?

一句话:
Jina AI Remote MCP Server 是运行在云端的“瑞士军刀”,提供 8 种开箱即用的数据工具,全部通过 HTTPS 访问,无需安装复杂依赖。

维度 说明
使用者 开发者、专科及以上学生、科研人员
运行位置 官方托管或你的 Cloudflare Workers
付费模式 免费额度 + 可选 API Key 提升限额
技术亮点 统一 MCP 协议、全链路 HTTPS、无状态设计

3. 8 个核心功能逐点拆解

工具 它能做什么? 是否需要 Jina API Key
read_url 把任意网页转成干净 Markdown 可选
capture_screenshot_url 生成网页高清截图 可选
search_web 网络搜索返回带摘要的结果 必填
search_arxiv 在 arXiv 搜论文 必填
search_image 搜全网图片 必填
sort_by_relevance 对文档按查询重排序 必填
deduplicate_strings 文本去重并保留多样性 必填
deduplicate_images 图像去重并保留多样性 必填

注:带“可选”的工具在没 API Key 时也能用,但有速率限制;填上免费申请的 Key 后,速率和并发双双提升。

3.1 read_url:网页一键变 Markdown

  • 典型场景:写报告需要引用网页内容,复制粘贴格式全乱。
  • 调用示例:

    curl https://r.jina.ai/https://example.com
    
  • 返回:结构化的 Markdown,标题、段落、代码块都保留层级。

3.2 capture_screenshot_url:把网页拍成高清图

  • 典型场景:保存证据、做视觉对比。
  • 调用示例:

    curl https://s.jina.ai/https://example.com
    
  • 返回:PNG 图片,支持长截图。

3.3 search_web:实时全网搜索

  • 典型场景:追踪最新新闻、技术动态。
  • 调用示例:

    curl -H "Authorization: Bearer $JINA_API_KEY" \
         "https://search.jina.ai/?q=AI+regulation+2025"
    
  • 返回:JSON 数组,含标题、摘要、URL、时间戳。

3.4 search_arxiv:论文搜索不求人

  • 典型场景:找最新预印本,写综述。
  • 调用示例:

    curl -H "Authorization: Bearer $JINA_API_KEY" \
         "https://arxiv.jina.ai/?q=transformer+efficiency"
    
  • 返回:论文标题、作者、摘要、PDF 链接。

3.5 search_image:批量找图

  • 典型场景:做 PPT、训练视觉模型。
  • 调用示例:

    curl -H "Authorization: Bearer $JINA_API_KEY" \
         "https://img.jina.ai/?q=green+energy+diagram"
    
  • 返回:图片 URL、缩略图、尺寸、来源页。

3.6 sort_by_relevance:智能重排序

  • 典型场景:已有 100 份文档,想知道哪几份最相关。
  • 输入:查询 + 文档列表
  • 输出:按相关度降序排列的新列表。

3.7 deduplicate_strings / deduplicate_images:语义去重

  • 典型场景:

    • 抓了几万条评论,重复率高达 60%。
    • 爬了数千张商品图,同款不同角度。
  • 原理:先用 Embedding 转成向量,再用子模优化挑最“多样”的子集。
  • 结果:保留信息量的同时,数据量减半。

4. 5 分钟上手:本地与云端部署全步骤

4.1 先拿到 Jina API Key(可选但强烈建议)

  1. 打开 https://jina.ai
  2. 注册 → 进入 Dashboard → 复制 Key
  3. 设环境变量:

    export JINA_API_KEY=你的真实Key
    

4.2 场景 A:你的客户端已支持远程 MCP

直接把下面 JSON 贴进配置:

{
  "mcpServers": {
    "jina-mcp-server": {
      "url": "https://mcp.jina.ai/sse",
      "headers": {
        "Authorization": "Bearer ${JINA_API_KEY}"
      }
    }
  }
}

保存后重启客户端即可。

4.3 场景 B:客户端暂不支持远程 MCP

用官方提供的 mcp-remote 本地代理:

  1. 安装

    npm install -g mcp-remote
    
  2. 配置

    {
      "mcpServers": {
        "jina-mcp-server": {
          "command": "npx",
          "args": [
            "mcp-remote",
            "https://mcp.jina.ai/sse",
            "--header",
            "Authorization: Bearer ${JINA_API_KEY}"
          ]
        }
      }
    }
    
  3. 启动客户端,代理会自动连接云端。

4.4 本地开发(想改源码)

git clone https://github.com/jina-ai/MCP.git
cd MCP
npm install
npm run start

浏览器打开 http://localhost:3000/sse 验证是否跑通。

4.5 部署到你自己的 Cloudflare Workers

  1. 点仓库里的紫色 “Deploy to Workers” 按钮
  2. 登录 Cloudflare → 选子域 → 一键部署
  3. 部署完成后拿到 https://jina-mcp-server.<your-account>.workers.dev/sse
  4. 把该地址替换到前面 JSON 的 url 字段即可。

5. 没有支持的客户端怎么办?

目前 MCP 生态还在早期,如果你使用的工具(如某些低代码平台)尚未支持 MCP,可采取两条路线:

  • 路线 1:用 4.3 节的 mcp-remote 做本地桥接。
  • 路线 2:直接用 HTTP API,例如:

    curl -X POST https://mcp.jina.ai/sse/read_url \
         -H "Authorization: Bearer $JINA_API_KEY" \
         -d '{"url":"https://example.com"}'
    

    任何能发 HTTP 请求的环境都能用,Postman、Python、JavaScript 都可以。


6. 常见问题汇总(FAQ)

Q1:没有 API Key 会怎样?

  • 可选工具仍能使用,但每分钟只能调用 20 次;
  • 带“必填”的工具直接返回 401。
    免费 Key 立刻把限额拉到每分钟 200 次,足够个人项目。

Q2:会不会泄露隐私链接?

  • 官方服务器不存储请求内容;
  • 自建 Worker 的话,代码完全在你账号里,隐私自控。

Q3:返回的 Markdown 格式乱?

  • 99% 网站表现良好;
  • 遇到极端复杂页面,可先用 capture_screenshot_url 截图留底,再人工校正。

Q4:重排序和去重支持中文吗?

  • 支持,Embedding 模型在多语言语料上训练,中英文效果一致。

Q5:Cloudflare Workers 有免费额度吗?

  • 有,每日 100,000 次请求,个人使用绰绰有余。

Q6:如何批量抓取 10 万网页?

  • 先准备 URL 列表;
  • 用脚本顺序或并发调用 read_url
  • 超过免费额度就分批申请多个 Key 或多 Worker 实例。

7. 小结:下一步怎么玩?

你已经拥有了 8 把“数据瑞士军刀”。建议的进阶路线:

  1. 先用 read_url + search_web 做一份行业速览;
  2. search_arxiv 深挖学术论文,配合 sort_by_relevance 选最相关的 20 篇精读;
  3. deduplicate_images 整理配图,生成高质量素材库;
  4. 把整套流程写成脚本,定时跑,自动更新知识库。

技术的世界不缺工具,缺的是把工具串成流水线的人。祝你玩得开心,产出有深度的作品!