Magnitude:用自然语言控制浏览器的AI自动化神器

在如今的数字化生活中,浏览器是我们不可或缺的伙伴。无论是浏览网页、处理工作,还是完成日常任务,我们都离不开它。但你有没有想过,如果能像跟朋友聊天一样,用简单的语言告诉浏览器“帮我打开这个网站”或者“提取页面上的数据”,然后它就自动帮你完成,那会是多么省心的事情?Magnitude正是这样一个工具——一个利用视觉AI技术,让你用自然语言指挥浏览器的AI自动化框架。今天,我们就来聊聊这个有趣又实用的工具,看看它能为我们的生活和工作带来什么改变。

Magnitude是什么?

Magnitude是一个AI浏览器自动化框架,简单来说,它能让你用自然语言控制浏览器。它通过视觉AI技术“看懂”屏幕上的内容,然后根据你的指令执行操作。无论是打开网页、点击按钮,还是从页面中提取信息,Magnitude都能轻松搞定。

想象一下,你对Magnitude说:“帮我在任务管理网站上创建一个新任务。”它不仅能理解你的意思,还会自动打开浏览器,找到正确的按钮,输入任务信息,甚至还能把任务拖到指定的位置。更厉害的是,它还能从网页中提取数据,比如列出所有正在进行中的任务标题和描述。这种能力让它成为了自动化任务的好帮手。

Magnitude能做什么?

Magnitude的功能可以用四个关键词来概括:导航、交互、提取和验证。我们来一一看看它们是什么意思。

1. 导航(Navigate)

Magnitude就像一个聪明的向导,能“看懂”任何界面,并规划出操作路径。比如,你告诉它“打开某个网站的登录页面”,它会分析屏幕,找到正确的链接或按钮,然后带你过去。不管界面是简单还是复杂,它都能准确导航。

2. 交互(Interact)

它还能像你的双手一样,执行具体的鼠标和键盘操作。比如点击某个按钮、输入文字,甚至拖动一个元素到指定位置。那些重复的手动操作,比如每天登录网站检查更新,用Magnitude就能一键完成。

3. 提取(Extract)

Magnitude的“智能”还体现在它能从网页中提取有用的信息。你可以告诉它“列出页面上所有任务的标题和描述”,它会自动分析页面内容,把数据整理好给你。这种功能特别适合需要收集数据的人,比如做市场调研或监控网页变化。

4. 验证(Verify)

对于开发者和测试人员来说,Magnitude内置的测试运行器是个大亮点。它可以通过视觉断言,检查网页的功能或界面是否正常。比如,你可以用它验证“登录按钮点击后是否跳转到正确页面”,省去手动测试的麻烦。

除了这四个核心功能,Magnitude还能用来自动化网页任务、连接没有API的应用程序、提取数据、测试网页应用,甚至作为开发更复杂浏览器代理的基础工具。它的用途非常广泛,几乎能满足各种需求。

Magnitude是怎么工作的?

你可能会好奇,Magnitude为什么这么聪明?答案在于它的视觉AI技术。传统的浏览器自动化工具,比如Selenium,通常依赖网页的DOM结构(一种网页的代码框架)来操作。但现代网站越来越复杂,DOM结构变化多端,传统工具有时会“迷路”。

Magnitude的思路完全不同。它不依赖DOM,而是用视觉AI“看”屏幕,就像人类一样。它会截取浏览器界面的图像,然后用强大的视觉模型(比如Claude Sonnet 4或Qwen-2.5VL 72B)分析这些图像,找出需要操作的元素,并确定具体的像素坐标。比如,它能直接“看到”某个按钮的位置,然后点击它。

这种方法有几个好处:


  • 适用范围广:不管是网页、桌面程序还是虚拟机界面,只要能显示在屏幕上,Magnitude都能处理。

  • 适应性强:即使网页设计或技术变了,Magnitude也能通过视觉识别继续工作。

  • 更像人类:它的操作方式模仿了人类的视觉感知,所以能处理复杂的交互场景。

Magnitude和传统工具比有什么不同?

市场上已经有不少浏览器自动化工具,比如Selenium和Puppeteer,它们通过编程控制浏览器,功能也很强大。但这些工具通常需要你会写代码,而且脚本维护起来比较麻烦。Magnitude则完全不一样,我们来看看它的独特之处。


  • 自然语言控制:你不需要写复杂的代码,只要用日常语言告诉它想做什么就行。比如说“打开网站”或者“提取任务列表”,它就能懂。

  • 视觉AI技术:它不依赖网页代码,而是通过图像识别操作,能应对各种复杂界面。

  • 智能提取数据:你可以直接告诉它需要什么信息,它会自动整理好给你。

  • 测试更方便:内置的测试运行器让开发者可以轻松验证网页功能。

简单来说,Magnitude更像是你的智能助手,而不是一个需要你手动操控的工具。它把技术门槛降得很低,让普通人也能享受自动化的便利。

Magnitude适合用在哪些场景?

Magnitude的用途非常多,下面是几个常见的例子,帮你更好地理解它的价值。

  1. 自动化网页任务
    比如每天登录某个网站、填写表单、下载文件,这些重复的工作交给Magnitude就行了。你只需要告诉它一次,它就能每次都自动完成。

  2. 连接没有API的应用程序
    有些老系统没有API接口,但你需要把它们的数据用到其他地方。Magnitude可以通过模拟人工操作,把这些系统“连起来”。

  3. 提取网页数据
    比如你想从电商网站收集产品价格,或者从新闻网站提取头条标题,Magnitude能帮你快速整理出结构化的数据。

  4. 测试网页应用
    如果你是开发者,可以用Magnitude自动测试网页的功能,比如检查按钮是否正常、页面跳转是否正确,省时又省力。

  5. 开发浏览器代理
    如果你有更高级的需求,Magnitude还能作为基础工具,帮你打造自己的自动化系统。

无论你是普通用户还是技术人员,Magnitude都能为你节省时间、提高效率。

如何开始使用Magnitude?

用Magnitude并不难,下面是具体的步骤,让你快速上手。

运行你的第一个自动化任务

  1. 安装Magnitude
    打开终端,输入以下命令:

    npx create-magnitude-app
    

    这个命令会创建一个新项目,并引导你完成设置。安装完成后,你会得到一个示例脚本,可以直接运行试试看。

  2. 写一个简单的脚本
    Magnitude用TypeScript编写脚本,但你不需要太担心复杂的代码。它的指令很简单,看看这个例子:

    // 创建一个新任务
    await agent.act('Create a task', {
        data: {
            title: 'Use Magnitude',
            description: 'Run "npx create-magnitude-app" and follow the instructions',
        },
    });
    
    // 把任务拖到“进行中”栏的顶部
    await agent.act('Drag "Use Magnitude" to the top of the in progress column');
    
    // 提取正在进行的任务列表
    const tasks = await agent.extract(
        'List in progress tasks',
        z.array(z.object({
            title: z.string(),
            description: z.string(),
            difficulty: z.number().describe('Rate the difficulty between 1-5')
        })),
    );
    

    这个脚本做了三件事:创建任务、拖动任务、提取任务列表。是不是很简单?

  3. 运行脚本
    在终端输入运行命令,Magnitude就会打开浏览器,自动完成这些操作。你可以坐下来,看它一步步执行。

用测试运行器检查网页

如果你想用Magnitude测试现有的网页应用,可以这样做:

  1. 安装测试运行器
    在终端输入:

    npm i --save-dev magnitude-test && npx magnitude init
    

    这会生成一个tests/magnitude目录,里面有:


    • magnitude.config.ts:配置文件

    • example.mag.ts:示例测试文件
  2. 编写测试用例
    tests/magnitude目录里写你的测试脚本,用Magnitude的指令检查网页功能。

  3. 运行测试
    输入测试命令,Magnitude会自动运行并告诉你结果。

如果想了解更多,比如怎么把测试集成到CI/CD流程,可以看看官方文档

小贴士:Magnitude需要一个强大的视觉模型支持。官方推荐用Claude Sonnet 4,效果最好,但也支持Qwen-2.5VL 72B。想了解配置细节,可以参考文档

Magnitude为什么与众不同?

Magnitude能从众多工具中脱颖而出,靠的是它的两大特点。

1. 视觉优先的设计

很多传统的浏览器工具会在页面元素上画编号框,通过这些框来操作。但碰到复杂的现代网站,这种方法就容易失灵。Magnitude不一样,它用视觉AI直接分析屏幕图像,找到操作位置。这种方式不依赖网页代码,所以能适应各种界面,甚至包括桌面程序和虚拟机。

2. 可控又稳定的自动化

有些工具靠“给个大目标然后让AI自己干”的方式,虽然演示时很酷,但在实际工作中不够稳定。Magnitude提供了灵活的控制,你既可以用简单指令完成大任务,也能细化到具体操作。它还允许你自定义动作,确保每次运行都稳定可靠。未来,它还会通过本地缓存让结果更可预测。

为什么选择Magnitude?

在这么多自动化工具中,为什么要试试Magnitude?原因很简单:


  • 简单易用:不需要编程基础,普通人也能上手。

  • 功能强大:导航、交互、提取、验证,一个工具全搞定。

  • 用途广泛:从日常任务到专业开发,都能派上用场。

  • 未来可期:视觉AI让它能适应各种新变化。

  • 支持到位:有Discord社区可以交流和求助。

总结:让浏览器为你工作

Magnitude是一个让人眼前一亮的AI浏览器自动化框架。它用视觉AI和自然语言控制,帮你轻松搞定繁琐的网页任务。无论是想节省时间、提取数据,还是测试网页,Magnitude都能成为你的得力助手。

试想一下,你只需要说一句“帮我把任务列表整理出来”,然后喝杯咖啡的工夫,Magnitude就帮你完成了所有操作。这种效率和便利,谁不想体验一把呢?安装过程简单,功能强大,值得你花几分钟试试看。

想了解更多?可以去Magnitude文档看看详细说明。