Gemini 2.5 Computer Use 模型：让AI真正学会「操作电脑」的革命来了

“

当你读到这篇文章时，或许正为重复的网页操作感到厌倦，或是为UI测试的繁琐而头疼。现在，这一切都有了新的解决方案。

十年前，我们还在幻想AI助手能帮我们完成电脑上的重复性工作。今天，Google让这个幻想成为了现实。作为基于Gemini 2.5 Pro的专门化模型，Gemini 2.5 Computer Use不仅仅能理解你的指令——它真的能「看到」屏幕，并像人类一样点击、输入、滚动，完成那些曾经只能手动操作的任务。

从想象到现实：当AI真正「看见」并「操作」图形界面

传统AI与软件交互大多依赖结构化API，但现实世界中，大量数字任务仍需通过图形用户界面完成。想象一下：填写繁琐的报销表单、在多个网站间比价、执行重复的UI测试……这些任务看似简单，却占据了大量宝贵时间。

Google DeepMind团队在10月7日正式发布的Gemini 2.5 Computer Use模型，正是为了解决这一痛点。它不像传统API那样需要开发者预先定义每个操作，而是通过分析屏幕截图，自主决定如何与界面交互。

这不仅仅是另一个AI模型——这是一个能真正「使用电脑」的智能体。

揭秘核心技术：Computer Use如何工作？

要理解这一技术的突破性，我们需要了解其核心工作机制。与人类操作电脑类似，Gemini 2.5 Computer Use遵循一个直观的循环流程：

观察：模型接收当前屏幕的截图
思考：分析用户指令与屏幕内容，决定下一步操作
行动：生成具体的UI动作（点击、输入、滚动等）
反馈：执行动作后捕获新状态，重新开始循环

这个过程的精妙之处在于，模型不需要预先知道目标网站的结构——它像人一样，通过视觉理解界面元素及其功能。

关键代码：理解模型的「动作语言」

模型通过函数调用的方式表达其操作意图。以下是几个典型示例：

# 点击操作
{"name": "click_at", "args": {"x": 371, "y": 470}}

# 文本输入
{"name": "type_text_at", "args": {"x": 400, "y": 250, "text": "搜索查询", "press_enter": true}}

# 页面滚动
{"name": "scroll_document", "args": {"direction": "down"}}

这些坐标基于1000×1000的归一化网格，模型会自动适应不同屏幕分辨率。这种设计既保证了灵活性，又确保了操作精度。

亲手搭建：从零实现你的第一个AI助手

理论说了这么多，现在让我们动手搭建一个实际的Computer Use代理。我将带你一步步创建能自动化网页操作的AI助手。

环境准备：打好基础

首先，你需要设置开发环境：

# 克隆官方示例代码
git clone https://github.com/google/computer-use-preview.git
cd computer-use-preview

# 创建Python虚拟环境
python3 -m venv .venv
source .venv/bin/activate

# 安装依赖
pip install -r requirements.txt

# 安装Playwright和浏览器
playwright install-deps chrome
playwright install chrome

身份认证：获取API访问权限

接下来，你需要配置API访问。Gemini 2.5 Computer Use支持两种认证方式：

选项A：使用Gemini Developer API

export GEMINI_API_KEY="你的_Gemini_API_密钥"

选项B：使用Vertex AI（适合企业用户）

export USE_VERTEXAI=true
export VERTEXAI_PROJECT="你的项目ID"
export VERTEXAI_LOCATION="你的位置"

建议将这些配置添加到虚拟环境激活脚本中，避免每次重新设置。

核心实现：构建代理循环

现在来到最精彩的部分——编写AI代理的核心逻辑。下面的代码展示了一个完整的代理循环实现：

from playwright.sync_api import sync_playwright
from google import genai
from google.genai import types

# 初始化客户端和浏览器
client = genai.Client()
playwright = sync_playwright().start()
browser = playwright.chromium.launch(headless=False)
context = browser.new_context(viewport={"width": 1440, "height": 900})
page = context.new_page()

try:
    # 导航到起始页面
    page.goto("https://www.google.com")
    
    # 配置Computer Use工具
    config = types.GenerateContentConfig(
        tools=[types.Tool(computer_use=types.ComputerUse(
            environment=types.Environment.ENVIRONMENT_BROWSER
        ))],
        thinking_config=types.ThinkingConfig(include_thoughts=True),
    )
    
    # 初始化对话历史
    initial_screenshot = page.screenshot(type="png")
    user_prompt = "搜索Gemini API定价信息"
    
    contents = [
        types.Content(role="user", parts=[
            types.Part(text=user_prompt),
            types.Part.from_bytes(data=initial_screenshot, mime_type='image/png')
        ])
    ]
    
    # 代理循环 - 最多5轮交互
    for turn in range(5):
        print(f"第 {turn+1} 轮思考中...")
        response = client.models.generate_content(
            model='gemini-2.5-computer-use-preview-10-2025',
            contents=contents,
            config=config,
        )
        
        candidate = response.candidates[0]
        contents.append(candidate.content)
        
        # 检查是否有需要执行的动作
        has_actions = any(part.function_call for part in candidate.content.parts)
        if not has_actions:
            print("任务完成!")
            break
            
        # 执行模型建议的动作
        execute_function_calls(candidate, page, 1440, 900)
        
        # 捕获新状态并继续
        function_responses = get_function_responses(page, [])
        contents.append(
            types.Content(role="user", 
                         parts=[types.Part(function_response=fr) for fr in function_responses])
        )
        
finally:
    browser.close()
    playwright.stop()

这个简单的例子展示了AI代理如何通过多轮交互完成复杂任务。在实际使用中，你可以观察到模型会先定位搜索框，输入查询词，然后点击搜索按钮——完全模拟人类操作流程。

不只是浏览器：扩展到移动端和其他平台

虽然Gemini 2.5 Computer Use主要针对浏览器优化，但其架构设计允许扩展到其他平台。通过自定义函数，你可以让模型操作移动应用甚至桌面软件：

def open_app(app_name: str, intent: str = None) -> dict:
    """打开指定名称的应用程序"""
    return {"status": "requested_open", "app_name": app_name, "intent": intent}

def long_press_at(x: int, y: int) -> dict:
    """在指定坐标长按"""
    return {"x": x, "y": y}

def go_home() -> dict:
    """返回主屏幕"""
    return {"status": "home_requested"}

将这些自定义函数与Computer Use工具结合，你可以构建真正跨平台的自动化助手。

安全第一：负责任地部署AI助手

让AI直接操作电脑听起来很强大，但也带来了新的安全考量。Google在这方面做了周密考虑：

内置安全机制

模型包含多层安全防护：

每一步安全检查：在每次动作执行前，安全服务会评估潜在风险
用户确认机制：对于敏感操作（如购买、发送消息），模型会要求用户明确确认
可配置的系统指令：开发者可以定义额外的安全规则

安全实践代码示例

当模型遇到敏感操作时，你的代码应该这样处理：

def get_safety_confirmation(safety_decision):
    """处理需要用户确认的安全决策"""
    print("⚠️  安全提醒：此操作需要确认")
    print(safety_decision["explanation"])
    
    decision = input("是否继续？[Y]es/[N]o: ")
    if decision.lower() in ("n", "no"):
        return "TERMINATE"
    return "CONTINUE"

# 在执行动作前检查安全决策
if 'safety_decision' in function_call.args:
    decision = get_safety_confirmation(function_call.args['safety_decision'])
    if decision == "TERMINATE":
        break
    # 记录用户确认
    extra_fields["safety_acknowledgement"] = "true"

性能实测：不只是理论上的优势

你可能好奇这个模型在实际任务中表现如何。根据Google和Browserbase的评估数据，Gemini 2.5 Computer Use在多个基准测试中表现优异：

在Web操作任务中，成功率显著高于其他同类模型
响应延迟降低约50%，提供接近实时的交互体验
在复杂多步任务中保持高一致性

早期采用者已经看到了实际价值。例如，Google支付平台团队使用该模型处理脆弱的UI测试，成功修复了60%以上的测试失败案例。

实战场景：从简单到复杂的应用案例

场景一：自动化数据收集

「帮我从电商网站收集前5名智能冰箱的价格和规格，整理成表格」

模型会自动：

导航到目标网站
使用筛选条件（价格、规格等）
提取产品信息
整理成结构化数据

场景二：跨系统工作流

「登录公司CRM，将上周的客户反馈导出为Excel，然后通过邮件发送给团队」

这个复杂任务涉及多个系统，模型能像人类员工一样按步骤完成。

场景三：UI回归测试

「检查新版本是否破坏了现有的用户流程」

模型可以执行完整的用户旅程测试，比传统脚本更灵活地适应UI变化。

快速上手指南

想要立即尝试？最简单的方式是通过Browserbase的演示环境：

访问 gemini.browserbase.com
输入你想让AI完成的任务
观察模型如何一步步操作浏览器

对于开发者，建议从官方示例代码开始：

# 运行示例任务
python main.py --query="在Google搜索Hello World" --env="playwright"

未来展望：AI代理的新纪元

Gemini 2.5 Computer Use的发布标志着AI代理发展的一个重要里程碑。这不仅仅是技术的进步，更是人机交互方式的革新想象一下：

个人数字助理真正能帮你处理日常电脑任务
企业自动化达到前所未有的灵活性和智能程度
软件测试进入AI驱动的新时代

正如Google DeepMind所言，这还只是开始。随着模型能力的演进，我们可能会看到AI代理在更多复杂场景中发挥作用。

常见问题解答

Q：Gemini 2.5 Computer Use与传统的RPA（机器人流程自动化）有何不同？
A：传统RPA依赖预定义的规则和界面元素定位，而Computer Use通过视觉理解动态适应界面变化，无需预先编程每个步骤。

Q：模型如何处理动态加载的内容？
A：模型通过循环的「观察-行动」流程自然处理动态内容。如果内容尚未加载，它会等待或执行触发加载的操作。

Q：是否需要为每个网站专门训练模型？
A：不需要。模型具备通用的界面理解能力，能直接应用于未见过的网站和应用。

Q：安全性如何保障？模型会执行危险操作吗？
A：模型内置多层安全机制，包括实时安全评估和用户确认流程。建议在沙箱环境中测试和运行代理。

Q：目前支持哪些浏览器和平台？
A：主要优化支持Chrome浏览器，但通过Playwright可扩展到其他浏览器。移动端支持仍在完善中。

技术的意义不在于它有多先进，而在于它如何赋能普通人完成非凡之事。Gemini 2.5 Computer Use正是这样的技术——它不是为了取代人类，而是为了增强我们的能力，将我们从重复劳动中解放出来，专注于真正需要创造力和智慧的工作。

现在，是时候让你的AI助手开始工作了。