探索Meka Agent:开源的视觉驱动计算机助手

还在为重复性网页操作耗费时间?试试像人类一样“看”屏幕操作的AI助手

什么是Meka Agent?

Meka Agent是开源自主计算机操作助手,通过模拟人类视觉交互方式实现浏览器自动化。与传统工具不同,它不依赖网页代码解析,而是像真人一样“看”屏幕内容进行操作决策。这种基于视觉的交互方式,使其能处理包括系统级弹窗、文件上传等传统工具难以操作的元素。

核心突破

  • 视觉优先:仅通过屏幕图像理解界面
  • 全环境支持:操作系统级控制能力
  • 模块化架构:自由组合AI模型与基础设施

Meka在WebArena基准测试中的表现
图示:在WebArena基准测试中达到72.7%成功率(当前行业最佳水平)


技术架构解析

双核心组件

graph LR
A[视觉模型] --> C[Meka Agent]
B[基础设施] --> C
C --> D[自动化任务]

1. 视觉处理引擎

需具备视觉基础能力(visual grounding) 的模型,推荐:

  • OpenAI o3
  • Claude Sonnet 4
  • Claude Opus 4

2. 基础设施提供方

必须支持操作系统级控制(非单纯浏览器层),原因在于:

  • 30%的网页元素由系统渲染
  • 需处理浏览器弹窗/文件选择器等特殊控件
  • 现有推荐方案:Anchor Browser

五分钟快速上手

环境准备

npm install @trymeka/core @trymeka/ai-provider-vercel @ai-sdk/openai @trymeka/computer-provider-anchor-browser playwright-core

密钥配置(.env文件)

OPENAI_API_KEY=你的OpenAI密钥
ANCHOR_BROWSER_API_KEY=你的AnchorBrowser密钥

基础示例:新闻摘要机器人

import { createAgent } from "@trymeka/core/ai/agent";
// 配置提供方(此处使用OpenAI+Anchor组合)

const agent = createAgent({
  aiProvider: createVercelAIProvider({...}),
  computerProvider: createAnchorBrowserComputerProvider({...}),
});

const session = await agent.initializeSession();
const task = await session.runTask({
  instructions: "总结头条新闻",
  initialUrl: "https://news.ycombinator.com",
  outputSchema: z.object({...}) // 定义输出结构
});
console.log("执行结果:", task.result);

技术设计理念

人类行为模拟三原则

  1. 视觉驱动:仅通过像素信息理解界面
  2. 工具化思维:将操作抽象为可复用动作
  3. 情景记忆:维持跨页面任务状态

“我们坚持让AI像人类一样‘看’屏幕操作,这解决了传统自动化工具90%的兼容性问题。” —— Meka技术白皮书


四大核心优势

1. 模型自由切换

| 模型类型       | 推荐模型               | 适用场景         |
|----------------|------------------------|------------------|
| 视觉基础模型   | Claude Sonnet 4        | 复杂界面理解     |
| 快速响应模型   | Gemini 2.5 Flash       | 简单任务执行     |
| 混合评估模型   | OpenAI o3 + Claude 4   | 高精度操作       |

2. 扩展架构设计

  • 自定义工具钩子(Tool Hooks)
  • 提供方适配接口(Provider Adapters)
  • 任务生命周期监听(Task Lifecycle)

3. 类型安全实现

// 强类型输出示例
outputSchema: z.object({
  articles: z.array(
    z.object({
      title: z.string(),
      url: z.string().url(),
      summary: z.string().max(200)
    })
  )
})

4. 开源协作生态

  • MIT许可证自由使用
  • 工具开发标准模板
  • 跨平台测试套件

应用场景实例

案例1:电商价格监控

1. 访问目标商品页
2. 识别价格显示区域
3. 提取价格数值
4. 低于阈值时触发通知

案例2:科研数据采集

1. 登录学术数据库
2. 输入检索关键词
3. 翻页抓取文献元数据
4. 生成BibTeX引用文件

案例3:跨系统数据迁移

[旧系统] -> [视觉识别] -> [数据转换] -> [新系统录入]
           ↑Meka Agent↑

开发者进阶指南

多模型混合策略

// 配置多模型协同
aiProvider: {
  ground: o3AIProvider,       // 主视觉模型
  alternateGround: claudeAI,  // 备用视觉模型
  evaluator: geminiFlash      // 结果校验模型
}

性能优化技巧

  1. 截图压缩:分辨率保持1280×720
  2. 操作超时:设置单动作5秒限制
  3. 缓存复用:相同界面跳过重复识别

常见问题解答(FAQ)

Q1:为什么需要OS级控制?

因浏览器安全限制,传统工具无法操作:

  • 文件选择对话框
  • 浏览器认证弹窗
  • 系统级通知提醒
    AnchorBrowser通过虚拟机穿透这些限制

Q2:哪些模型适配最好?

经我们测试:

  • 英文任务:Claude Opus 4(准确率92%)
  • 中文任务:暂未系统测试(欢迎贡献!)
  • 成本均衡:Gemini 2.5 Flash(速度/成本最优)

Q3:如何处理动态加载内容?

采用三重保障机制:

  1. 智能等待(DOM稳定检测)
  2. 滚动截图(捕获全页面)
  3. 多帧分析(视频流处理)

开始你的自动化之旅

零门槛体验

访问 Meka应用平台 获取$10试用额度,无需安装配置。

开发者通道

git clone https://github.com/meka-agent/meka
cd meka/examples/e-commerce
npm run start

项目秉持“视觉即接口”理念,将持续优化人类级计算机交互体验。我们期待您的参与,共同探索自主智能体技术的边界。