当你读到这篇文章时,或许正为重复的网页操作感到厌倦,或是为UI测试的繁琐而头疼。现在,这一切都有了新的解决方案。

十年前,我们还在幻想AI助手能帮我们完成电脑上的重复性工作。今天,Google让这个幻想成为了现实。作为基于Gemini 2.5 Pro的专门化模型,Gemini 2.5 Computer Use不仅仅能理解你的指令——它真的能「看到」屏幕,并像人类一样点击、输入、滚动,完成那些曾经只能手动操作的任务。

从想象到现实:当AI真正「看见」并「操作」图形界面

传统AI与软件交互大多依赖结构化API,但现实世界中,大量数字任务仍需通过图形用户界面完成。想象一下:填写繁琐的报销表单、在多个网站间比价、执行重复的UI测试……这些任务看似简单,却占据了大量宝贵时间。

Google DeepMind团队在10月7日正式发布的Gemini 2.5 Computer Use模型,正是为了解决这一痛点。它不像传统API那样需要开发者预先定义每个操作,而是通过分析屏幕截图,自主决定如何与界面交互。

这不仅仅是另一个AI模型——这是一个能真正「使用电脑」的智能体。

揭秘核心技术:Computer Use如何工作?

要理解这一技术的突破性,我们需要了解其核心工作机制。与人类操作电脑类似,Gemini 2.5 Computer Use遵循一个直观的循环流程:

  1. 观察:模型接收当前屏幕的截图
  2. 思考:分析用户指令与屏幕内容,决定下一步操作
  3. 行动:生成具体的UI动作(点击、输入、滚动等)
  4. 反馈:执行动作后捕获新状态,重新开始循环

这个过程的精妙之处在于,模型不需要预先知道目标网站的结构——它像人一样,通过视觉理解界面元素及其功能。

关键代码:理解模型的「动作语言」

模型通过函数调用的方式表达其操作意图。以下是几个典型示例:

# 点击操作
{"name": "click_at", "args": {"x": 371, "y": 470}}

# 文本输入
{"name": "type_text_at", "args": {"x": 400, "y": 250, "text": "搜索查询", "press_enter": true}}

# 页面滚动
{"name": "scroll_document", "args": {"direction": "down"}}

这些坐标基于1000×1000的归一化网格,模型会自动适应不同屏幕分辨率。这种设计既保证了灵活性,又确保了操作精度。

亲手搭建:从零实现你的第一个AI助手

理论说了这么多,现在让我们动手搭建一个实际的Computer Use代理。我将带你一步步创建能自动化网页操作的AI助手。

环境准备:打好基础

首先,你需要设置开发环境:

# 克隆官方示例代码
git clone https://github.com/google/computer-use-preview.git
cd computer-use-preview

# 创建Python虚拟环境
python3 -m venv .venv
source .venv/bin/activate

# 安装依赖
pip install -r requirements.txt

# 安装Playwright和浏览器
playwright install-deps chrome
playwright install chrome

身份认证:获取API访问权限

接下来,你需要配置API访问。Gemini 2.5 Computer Use支持两种认证方式:

选项A:使用Gemini Developer API

export GEMINI_API_KEY="你的_Gemini_API_密钥"

选项B:使用Vertex AI(适合企业用户)

export USE_VERTEXAI=true
export VERTEXAI_PROJECT="你的项目ID"
export VERTEXAI_LOCATION="你的位置"

建议将这些配置添加到虚拟环境激活脚本中,避免每次重新设置。

核心实现:构建代理循环

现在来到最精彩的部分——编写AI代理的核心逻辑。下面的代码展示了一个完整的代理循环实现:

from playwright.sync_api import sync_playwright
from google import genai
from google.genai import types

# 初始化客户端和浏览器
client = genai.Client()
playwright = sync_playwright().start()
browser = playwright.chromium.launch(headless=False)
context = browser.new_context(viewport={"width": 1440, "height": 900})
page = context.new_page()

try:
    # 导航到起始页面
    page.goto("https://www.google.com")
    
    # 配置Computer Use工具
    config = types.GenerateContentConfig(
        tools=[types.Tool(computer_use=types.ComputerUse(
            environment=types.Environment.ENVIRONMENT_BROWSER
        ))],
        thinking_config=types.ThinkingConfig(include_thoughts=True),
    )
    
    # 初始化对话历史
    initial_screenshot = page.screenshot(type="png")
    user_prompt = "搜索Gemini API定价信息"
    
    contents = [
        types.Content(role="user", parts=[
            types.Part(text=user_prompt),
            types.Part.from_bytes(data=initial_screenshot, mime_type='image/png')
        ])
    ]
    
    # 代理循环 - 最多5轮交互
    for turn in range(5):
        print(f"第 {turn+1} 轮思考中...")
        response = client.models.generate_content(
            model='gemini-2.5-computer-use-preview-10-2025',
            contents=contents,
            config=config,
        )
        
        candidate = response.candidates[0]
        contents.append(candidate.content)
        
        # 检查是否有需要执行的动作
        has_actions = any(part.function_call for part in candidate.content.parts)
        if not has_actions:
            print("任务完成!")
            break
            
        # 执行模型建议的动作
        execute_function_calls(candidate, page, 1440, 900)
        
        # 捕获新状态并继续
        function_responses = get_function_responses(page, [])
        contents.append(
            types.Content(role="user", 
                         parts=[types.Part(function_response=fr) for fr in function_responses])
        )
        
finally:
    browser.close()
    playwright.stop()

这个简单的例子展示了AI代理如何通过多轮交互完成复杂任务。在实际使用中,你可以观察到模型会先定位搜索框,输入查询词,然后点击搜索按钮——完全模拟人类操作流程。

不只是浏览器:扩展到移动端和其他平台

虽然Gemini 2.5 Computer Use主要针对浏览器优化,但其架构设计允许扩展到其他平台。通过自定义函数,你可以让模型操作移动应用甚至桌面软件:

def open_app(app_name: str, intent: str = None) -> dict:
    """打开指定名称的应用程序"""
    return {"status": "requested_open", "app_name": app_name, "intent": intent}

def long_press_at(x: int, y: int) -> dict:
    """在指定坐标长按"""
    return {"x": x, "y": y}

def go_home() -> dict:
    """返回主屏幕"""
    return {"status": "home_requested"}

将这些自定义函数与Computer Use工具结合,你可以构建真正跨平台的自动化助手。

安全第一:负责任地部署AI助手

让AI直接操作电脑听起来很强大,但也带来了新的安全考量。Google在这方面做了周密考虑:

内置安全机制

模型包含多层安全防护:

  • 每一步安全检查:在每次动作执行前,安全服务会评估潜在风险
  • 用户确认机制:对于敏感操作(如购买、发送消息),模型会要求用户明确确认
  • 可配置的系统指令:开发者可以定义额外的安全规则

安全实践代码示例

当模型遇到敏感操作时,你的代码应该这样处理:

def get_safety_confirmation(safety_decision):
    """处理需要用户确认的安全决策"""
    print("⚠️  安全提醒:此操作需要确认")
    print(safety_decision["explanation"])
    
    decision = input("是否继续?[Y]es/[N]o: ")
    if decision.lower() in ("n", "no"):
        return "TERMINATE"
    return "CONTINUE"

# 在执行动作前检查安全决策
if 'safety_decision' in function_call.args:
    decision = get_safety_confirmation(function_call.args['safety_decision'])
    if decision == "TERMINATE":
        break
    # 记录用户确认
    extra_fields["safety_acknowledgement"] = "true"

性能实测:不只是理论上的优势

你可能好奇这个模型在实际任务中表现如何。根据Google和Browserbase的评估数据,Gemini 2.5 Computer Use在多个基准测试中表现优异:

  • 在Web操作任务中,成功率显著高于其他同类模型
  • 响应延迟降低约50%,提供接近实时的交互体验
  • 在复杂多步任务中保持高一致性

早期采用者已经看到了实际价值。例如,Google支付平台团队使用该模型处理脆弱的UI测试,成功修复了60%以上的测试失败案例。

实战场景:从简单到复杂的应用案例

场景一:自动化数据收集

「帮我从电商网站收集前5名智能冰箱的价格和规格,整理成表格」

模型会自动:

  1. 导航到目标网站
  2. 使用筛选条件(价格、规格等)
  3. 提取产品信息
  4. 整理成结构化数据

场景二:跨系统工作流

「登录公司CRM,将上周的客户反馈导出为Excel,然后通过邮件发送给团队」

这个复杂任务涉及多个系统,模型能像人类员工一样按步骤完成。

场景三:UI回归测试

「检查新版本是否破坏了现有的用户流程」

模型可以执行完整的用户旅程测试,比传统脚本更灵活地适应UI变化。

快速上手指南

想要立即尝试?最简单的方式是通过Browserbase的演示环境:

  1. 访问 gemini.browserbase.com
  2. 输入你想让AI完成的任务
  3. 观察模型如何一步步操作浏览器

对于开发者,建议从官方示例代码开始:

# 运行示例任务
python main.py --query="在Google搜索Hello World" --env="playwright"

未来展望:AI代理的新纪元

Gemini 2.5 Computer Use的发布标志着AI代理发展的一个重要里程碑。这不仅仅是技术的进步,更是人机交互方式的革新想象一下:

  • 个人数字助理真正能帮你处理日常电脑任务
  • 企业自动化达到前所未有的灵活性和智能程度
  • 软件测试进入AI驱动的新时代

正如Google DeepMind所言,这还只是开始。随着模型能力的演进,我们可能会看到AI代理在更多复杂场景中发挥作用。

常见问题解答

Q:Gemini 2.5 Computer Use与传统的RPA(机器人流程自动化)有何不同?
A:传统RPA依赖预定义的规则和界面元素定位,而Computer Use通过视觉理解动态适应界面变化,无需预先编程每个步骤。

Q:模型如何处理动态加载的内容?
A:模型通过循环的「观察-行动」流程自然处理动态内容。如果内容尚未加载,它会等待或执行触发加载的操作。

Q:是否需要为每个网站专门训练模型?
A:不需要。模型具备通用的界面理解能力,能直接应用于未见过的网站和应用。

Q:安全性如何保障?模型会执行危险操作吗?
A:模型内置多层安全机制,包括实时安全评估和用户确认流程。建议在沙箱环境中测试和运行代理。

Q:目前支持哪些浏览器和平台?
A:主要优化支持Chrome浏览器,但通过Playwright可扩展到其他浏览器。移动端支持仍在完善中。


技术的意义不在于它有多先进,而在于它如何赋能普通人完成非凡之事。Gemini 2.5 Computer Use正是这样的技术——它不是为了取代人类,而是为了增强我们的能力,将我们从重复劳动中解放出来,专注于真正需要创造力和智慧的工作。

现在,是时候让你的AI助手开始工作了。