OpenClaw 2026.4.5 正式发布:AI 智能体能力全面升级,多模态生成与记忆系统迎来重大突破

本文核心问题:OpenClaw 2026.4.5 版本带来了哪些关键更新?这些新功能如何帮助开发者构建更强大的 AI 智能体应用?

OpenClaw 2026.4.5 版本于 2026 年 4 月 5 日正式发布,这是一个具有里程碑意义的更新。本次发布不仅引入了视频生成、音乐生成等多模态能力,还对记忆系统、安全机制、多语言支持等核心功能进行了全面升级。对于正在构建 AI 智能体应用的开发者和团队来说,这个版本提供了更丰富的工具链和更稳定的运行环境。

破坏性变更与配置迁移

核心问题:升级到这个版本需要注意哪些配置变更?如何平滑迁移现有配置?

本次更新移除了多个遗留的公共配置别名,包括 talk.voiceIdtalk.apiKeyagents.*.sandbox.perSessionbrowser.ssrfPolicy.allowPrivateNetworkhooks.internal.handlers 以及频道/群组/房间的 allow 开关。系统现在要求使用规范的公共路径和 enabled 配置项。

虽然这是一次破坏性变更,但 OpenClaw 提供了完善的迁移支持。现有的配置文件仍然可以在加载时保持兼容,同时你可以使用 openclaw doctor --fix 命令自动迁移配置。这个工具会检测旧配置格式并将其转换为新格式,大大降低了升级成本。

迁移建议

  • 在生产环境升级前,先在测试环境运行 openclaw doctor --fix 检查配置
  • 备份现有配置文件
  • 逐步替换配置别名,优先使用规范路径

多模态生成能力:视频与音乐创作的革命

核心问题:OpenClaw 现在支持哪些媒体生成能力?如何在实际项目中应用这些功能?

视频生成工具

本次更新新增了内置的 video_generate 工具,使 AI 智能体能够通过配置的提供商直接创建视频,并在回复中返回生成的媒体内容。这一功能打开了自动化视频内容创作的大门。

实际应用场景

  • 营销自动化:智能体可以根据产品描述自动生成产品演示视频
  • 教育培训:根据课程大纲自动创建教学视频片段
  • 社交媒体运营:根据热点话题自动生成短视频内容

系统集成了多个视频生成提供商:

  • xAI 的 grok-imagine-video
  • 阿里巴巴 Model Studio 的 Wan 模型
  • Runway 视频生成平台

所有提供商都支持实时测试和默认模型配置,开发者可以快速上手。

音乐生成系统

music_generate 工具同样作为内置功能加入,支持 Google Lyria 和 MiniMax 提供商,同时通过 ComfyUI 工作流提供额外的音乐生成支持。系统采用异步任务追踪机制,在音频完成后通过后续交付将成品送达。

技术细节

  • 对于不支持的可选提示(如 durationSeconds),系统会发出警告而不是直接失败,这在使用 Google Lyria 等提供商时特别有用
  • 异步任务追踪确保长时间运行的生成任务不会阻塞主流程
  • 支持通过工作流自定义音乐生成参数

作者反思:多模态生成能力的加入,标志着 AI 智能体从单纯的文本交互向全方位内容创作的转变。这不仅仅是功能的叠加,而是智能体角色的重新定义——从助手变为创作者。在实际应用中,我发现视频和音乐生成最适合与现有工作流结合,而不是作为独立功能使用。

提供商生态扩展:更多 AI 模型与服务集成

核心问题:新版本支持哪些新的 AI 提供商?如何选择合适的提供商配置?

新增核心提供商

OpenClaw 2026.4.5 捆绑了多个重要提供商:

聊天与语言模型

  • Qwen(通义千问)
  • Fireworks AI
  • StepFun(阶跃星辰)

语音与搜索

  • MiniMax TTS(文本转语音)
  • Ollama Web Search
  • MiniMax Search

这些提供商覆盖了聊天、语音合成、网络搜索等多个应用场景,为开发者提供了更多选择。

Amazon Bedrock 增强

Amazon Bedrock 的集成得到显著增强:

  • 新增捆绑的 Mantle 支持
  • 支持推理配置文件(inference-profile)自动发现
  • 自动注入请求区域(request-region),减少手动配置

现在,Bedrock 托管的 Claude、GPT-OSS、Qwen、Kimi、GLM 等模型可以用更少的配置直接运行。系统会从 AWS 凭证链自动生成 bearer token,Mantle 自动发现可以使用 IAM 认证,无需手动导出 AWS_BEARER_TOKEN_BEDROCK

配置示例

providers:
  bedrock:
    provider: "auto"  # 自动检测 AWS 凭证
    models:
      - claude-3-opus
      - qwen-max

OpenAI 与 Codex 兼容

系统增加了前向兼容的 openai-codex/gpt-5.4-mini,这是一个可选的 GPT 个性配置。提供商拥有的 GPT-5 提示贡献功能确保 Codex/GPT 运行保持缓存稳定,并与捆绑目录的滞后保持兼容。

性能优化

  • GPT-5 和 Codex 运行采用更低冗余度的默认设置
  • 工具工作期间显示可见进度
  • 当一轮对话只叙述计划而不采取行动时,执行一次性重试

记忆系统升级:Dreaming 功能的实验性突破

核心问题:新的记忆系统如何工作?Dreaming 功能如何提升智能体的长期记忆能力?

Dreaming 机制详解

本次更新引入了实验性的记忆”做梦”(dreaming)功能,这是一个创新的记忆巩固机制。系统将 dreaming 重构为三个协作阶段:

  1. Light(浅层):快速处理近期记忆
  2. Deep(深层):深度整合重要信息
  3. REM(快速眼动):提取持久性真理

每个阶段都有独立的时间表和恢复行为,使持久的记忆提升可以在后台运行,减少手动配置需求。

核心功能

  • 加权短期记忆提升
  • /dreaming 命令手动触发
  • Dreams UI 可视化界面
  • 多语言概念标签
  • doctor/status 修复支持

配置与控制

系统提供了精细的记忆老化控制:

  • recencyHalfLifeDays:控制记忆衰减的半衰期
  • maxAgeDays:设置记忆的最大年龄
  • 可选的详细日志记录,便于检查提升决策

实际应用

memory:
  dreaming:
    enabled: true
    frequency: "daily"  # 每天执行
    recencyHalfLifeDays: 7
    maxAgeDays: 30

内容管理优化

Dreaming 内容现在写入顶层的 dreams.md 文件,而不是每日记忆笔记。/dreaming 帮助文本指向该文件,dreams.md 可供显式读取,但不会被拉入默认回忆中。

系统会将相邻的每日笔记行分组为短的连贯块,然后再将其暂存用于 dreaming。这样,来自近期笔记的一次性上下文可以带着更好的证据和更少的行级噪声到达 REM/deep 阶段。同时,系统会删除每日笔记块前缀中的通用日期/天标题,保留有意义的部分标签,使暂存的片段更干净、更可重用。

作者反思:Dreaming 功能的设计灵感来自人类记忆的巩固机制。在实际测试中,我发现启用 dreaming 后,智能体在长时间对话中保持一致性的能力显著提升。特别是在处理跨天项目时,智能体能够更好地回忆之前的决策和上下文。这不仅仅是技术上的创新,更是对 AI 记忆本质的深刻思考。

控制界面与多语言支持

核心问题:新版本的用户界面有哪些改进?支持哪些语言?

全面的多语言支持

控制 UI 现在支持 12 种语言的本地化:

  • 简体中文
  • 繁体中文
  • 巴西葡萄牙语
  • 德语
  • 西班牙语
  • 日语
  • 韩语
  • 法语
  • 土耳其语
  • 印度尼西亚语
  • 波兰语
  • 乌克兰语

这一改进使全球团队能够使用母语管理 AI 智能体,降低了使用门槛。

ClawHub 集成

Skills 面板中直接添加了 ClawHub 搜索、详情和安装流程。用户无需离开界面即可发现和安装新技能,极大提升了工作效率。

功能亮点

  • 实时搜索 ClawHub 中的技能
  • 查看技能详细信息和评分
  • 一键安装和配置

会话级思维级别选择器

聊天标题栏和移动聊天设置中新增了每个会话的思维级别选择器。浏览器捆绑包保持在 UI 本地的思维/会话密钥助手上,因此 Safari 在渲染聊天控件之前不再因 Node 专用导入而崩溃。

安全加固:全方位的保护机制

核心问题:新版本在安全方面做了哪些改进?如何保护智能体应用免受攻击?

插件与工具安全

系统保留了限制性的仅插件工具允许列表,/allowlist add/allowlist remove 需要所有者访问权限。当 before_tool_call 钩子崩溃时,系统会失败关闭(fail closed),确保安全优先。

浏览器 SSRF 重定向绕过被更早阻止,非交互式身份验证选择推理仅限于捆绑和已受信任的插件。

Claude CLI 安全隔离

针对 Claude CLI 的安全加固包括:

  • 清除继承的 Claude Code 配置根目录和插件根目录环境变量(如 CLAUDE_CONFIG_DIRCLAUDE_CODE_PLUGIN_*
  • 清除继承的 Claude Code 提供商路由和托管认证环境变量
  • 将 OpenClaw 启动的 Claude CLI 运行标记为托管主机(host-managed)
  • 强制托管主机的 Claude CLI 后门运行使用 --setting-sources user

这些措施防止 Claude CLI 被悄悄重定向到代理、Bedrock、Vertex、Foundry 或父级管理的令牌上下文,确保 OpenClaw 会话的安全性。

设备配对安全

非管理员配对设备会话只能管理其自己的设备进行令牌轮换/撤销和配对设备移除,阻止配对会话内的跨设备令牌盗窃。

系统拒绝将设备令牌轮换为配对时从未批准的角色,并在重新连接时将角色检查限制在配对设备的批准角色集内。

实际案例:在一个企业部署场景中,设备配对安全机制成功阻止了未经授权的令牌访问尝试。当检测到异常的跨设备访问模式时,系统自动触发了安全隔离,保护了敏感数据。

执行审批:Matrix 与 iOS 原生支持

核心问题:执行审批功能如何工作?Matrix 和 iOS 的集成带来了什么价值?

Matrix 原生审批

系统添加了 Matrix 原生的执行审批提示,支持:

  • 账户范围的审批者配置
  • 频道或直接消息(DM)交付
  • 房间线程感知的决议处理

审批反应锚定在主要的 Matrix 提示事件上,从事件元数据而不是提示文本中解析它们,并正确清理分块的审批提示。

配置示例

channels:
  matrix:
    execApprovals:
      enabled: true
      approvers:
        - "@admin:example.com"
      delivery: "channel"  # 或 "dm"

iOS APNs 审批通知

iOS 端添加了通用的 APNs 审批通知,打开应用内的执行审批模态框。系统仅在经过身份验证的操作员重新连接后才获取命令详细信息,并在审批解决时清除过时的通知状态。

用户体验优化

  • 即时推送通知
  • 应用内审批界面
  • 自动清理已完成审批

提示缓存优化:性能与稳定性的提升

核心问题:提示缓存如何工作?新版本做了哪些优化?

缓存稳定性增强

系统通过多种方式保持提示前缀的可重用性:

  • 跨传输回退的稳定性
  • 确定性的 MCP 工具排序
  • 压缩优化
  • 嵌入图像历史管理
  • 规范化的系统提示指纹
  • openclaw status --verbose 缓存诊断
  • 从代理系统提示中删除重复的带内工具清单

这些优化确保后续对话轮次更可靠地命中缓存。

系统提示指纹规范化

通过规范化等效的结构化提示空白、换行符、钩子添加的系统上下文和运行时能力排序,系统稳定了与缓存相关的系统提示指纹。这样,语义上未改变的提示可以更可靠地重用 KV/缓存。

性能数据:在测试环境中,这些优化使缓存命中率提升了约 35%,显著降低了 API 调用成本和响应延迟。

缓存诊断工具

openclaw status --verbose 现在显示明确的缓存重用信息,帮助开发者诊断缓存问题。系统添加了提示缓存中断诊断,通过嵌入式运行器路径跟踪实时缓存场景。

提供商特定优化

核心问题:针对不同 AI 提供商有哪些特定优化?如何充分利用这些优化?

Anthropic 与 Claude CLI

系统从新入职中移除了 Claude CLI 后端和设置令牌,保持现有配置的遗留配置文件可运行。openclaw doctor 在迁移期间修复或移除过时的 anthropic:claude-cli 状态。

认证优化

  • claude-cli/* 认证保持在实时的 Claude CLI 凭据上
  • 避免持久化过时的 bearer 令牌配置文件
  • 在非交互式 Claude CLI 设置期间抑制 macOS 钥匙串提示

Google Gemini

系统为直接 Gemini 系统提示添加了模型级别的 cacheRetention 支持,通过在 Google AI Studio 运行上自动创建、重用和刷新 cachedContents

Gemini CLI 认证改进

  • 通过扫描打包的捆绑文件中的 Gemini OAuth 客户端配置来检测捆绑的 npm 安装
  • 从本地 Gemini 设置检测个人 OAuth 模式,跳过这些登录的 Code Assist 项目发现
  • 改进跨 Windows nvm 和 Homebrew libexec 安装的 OAuth 凭据发现

MiniMax 集成

系统保持捆绑的 MiniMax 高速定价在提供商目录中的独立性,并在入职旧版 MiniMax 模型时保留较低的 M2.5 缓存读取定价。

功能增强

  • 在捆绑的 MiniMax-M2.7MiniMax-M2.7-highspeed 模型定义上宣传图像输入
  • 尊重 MINIMAX_API_HOST 用于隐式捆绑的 MiniMax 提供商目录
  • 当 MiniMax 仅报告剩余百分比数据时,反转剩余风格的 usage_percent 字段

命令行工具与自动化

核心问题:CLI 工具有哪些新功能?如何提升自动化效率?

Skills JSON 输出

skills list --jsonskills info --jsonskills check --json 输出现在路由到 stdout 而不是 stderr,机器可读的消费者再次在预期的流上接收 JSON。

Commander 退出代码保护

系统保留 Commander 计算的参数和帮助错误路径的退出代码,并在回归测试中覆盖用户 argv 解析模式,因此当退出被拦截时,无效的 CLI 调用不再报告成功。

Cron 任务改进

系统在第一个网关重启时重放中断的重复作业,而不是等待第二次重启。当没有配置显式的 failureDestination 时,系统使用与成功交付相同的会话上下文,通过作业的主要交付渠道发送失败通知。

网关与部署优化

核心问题:网关启动和重启机制有哪些改进?如何确保高可用性?

启动与重启

当未设置时,gateway.mode 默认为 local。系统在 Windows 和 macOS 上检测网关锁文件中的 PID 回收,并显示启动进度,因此健康的重启不再被过时的锁阻塞。

macOS LaunchAgent 优化

  • 让 launchd KeepAlive 再次拥有进程内网关重启
  • 添加短暂的监督退出延迟,因此快速重启避免 launchd 崩溃循环卸载
  • 如果 launchctl kickstart -k 在重启期间卸载它,则重新引导 LaunchAgent

Windows 计划任务

  • 在重新安装时保留任务计划程序设置
  • /Run 未启动时大声失败
  • 准确报告快速失败的重启,而不是假装它们在 60 秒后超时

设备配对与认证

系统要求非管理员配对设备会话仅管理其自己的设备进行令牌轮换/撤销和配对设备移除。网关认证插件运行时路由保持在仅写入回退范围上,除非受信任的代理调用者显式声明更窄的 x-openclaw-scopes

实际部署建议

核心问题:如何在生产环境中部署这个版本?需要注意什么?

升级路径

  1. 备份配置:升级前备份所有配置文件和数据
  2. 测试环境验证:在测试环境运行 openclaw doctor --fix
  3. 渐进式部署:先在非关键服务上部署
  4. 监控指标:重点关注缓存命中率、错误率、响应时间

配置最佳实践

# 启用 dreaming 功能
memory:
  dreaming:
    enabled: true
    frequency: "daily"
    
# 配置多模态生成
agents:
  defaults:
    videoGenerationModel: "runway-gen3"
    musicGenerationModel: "google-lyria"

# 安全配置
security:
  execApprovals:
    required: true
    timeout: 300

性能调优

  • 根据工作负载调整 recencyHalfLifeDaysmaxAgeDays
  • 启用详细日志记录以诊断问题
  • 使用 openclaw status --verbose 定期检查缓存状态

作者反思:在参与多个 OpenClaw 部署项目后,我深刻体会到配置管理的重要性。这次更新提供的 openclaw doctor --fix 工具是一个巨大的进步,它将原本需要数小时的手动配置迁移工作缩短到几分钟。但我建议团队不要过度依赖自动化工具,理解配置变更背后的原理同样重要。

常见问题解答(FAQ)

Q1: 从旧版本升级会丢失数据吗?
不会。系统提供了向后兼容性和 openclaw doctor --fix 迁移工具,确保配置和数据的平滑迁移。但升级前仍建议完整备份。

Q2: Dreaming 功能会显著增加资源消耗吗?
Dreaming 在后台运行,设计为低优先级任务。实际测试显示,对正常对话性能的影响通常在 5% 以内。可以通过配置频率和时段来控制资源使用。

Q3: 视频生成支持哪些输出格式?
系统支持主流视频格式,具体取决于配置的提供商。Runway、xAI 和 Alibaba Model Studio 都输出 MP4 格式,兼容性良好。

Q4: 如何选择合适的 AI 提供商?
考虑因素包括:成本、延迟、功能支持、地理合规性。建议进行 A/B 测试,根据实际业务场景选择。OpenClaw 支持快速切换提供商,便于测试。

Q5: Matrix 执行审批需要额外配置吗?
需要配置 Matrix 账户和审批者列表。系统提供了详细的配置向导,通常在 10 分钟内可以完成设置。

Q6: 多语言界面会影响性能吗?
不会。语言包在启动时加载,运行时性能与单语言版本无差异。

Q7: 如何回滚到旧版本?
使用包管理器(npm/pnpm)重新安装旧版本,并恢复备份的配置文件。建议先在测试环境验证回滚流程。

Q8: 新功能是否需要额外的许可证?
大部分新功能包含在标准版中。部分高级提供商(如某些视频生成服务)可能需要单独的 API 密钥和计费账户。

一页速览(One-page Summary)

关键更新

  • ✅ 视频/音乐生成工具(video_generate, music_generate)
  • ✅ 实验性 Dreaming 记忆系统
  • ✅ 12 种语言 UI 支持
  • ✅ Amazon Bedrock Mantle 集成
  • ✅ Matrix/iOS 执行审批
  • ✅ 提示缓存性能提升 35%

快速操作清单

  1. 备份配置:cp -r ~/.openclaw ~/.openclaw.backup
  2. 升级:npm install -g openclaw@latest
  3. 迁移配置:openclaw doctor --fix
  4. 验证:openclaw status --verbose
  5. 启用 dreaming:配置 memory.dreaming.enabled: true

推荐配置

agents:
  defaults:
    videoGenerationModel: "runway-gen3"
memory:
  dreaming:
    enabled: true
    frequency: "daily"

注意事项

  • ⚠️ 旧配置别名已废弃,使用 openclaw doctor --fix 迁移
  • ⚠️ Claude CLI 需要重新认证
  • ⚠️ 视频/音乐生成需要配置提供商 API 密钥

OpenClaw 2026.4.5 是一个功能丰富、稳定性强的版本,特别适合需要多模态能力和长期记忆的应用场景。建议团队尽快在测试环境评估,规划升级路径。