AI代理的现状:从实验室到企业生产环境的真实挑战与机遇
你是否还记得那个烦人的Office助手Clippy?那个在1996年推出的数字回形针,总是不合时宜地给你提建议,最终在2007年被永久关闭?微软CEO萨提亚·纳德拉曾开玩笑说:”Copilot?把它想象成在健身房锻炼了十年的Clippy。”而Salesforce CEO马克·贝尼奥夫则警告说:”客户看到微软的Copilot,会想’哦,太棒了,Clippy 2.0来了!'”
这些关于1996年虚拟助手的调侃并非毫无意义。历史不会简单重复,但往往会押韵。随着Gartner预测到2027年底将有超过40%的基于代理的AI项目被取消,我们不禁要问:究竟需要什么条件才能让AI代理在大型企业的生产环境中成功部署?什么样的代理产品才能真正被员工喜爱和使用,而非重蹈Clippy的覆辙?
通过对30多家欧洲顶级AI代理初创公司的创始人进行调查,以及40多位从业者的深入访谈,我们发现AI代理的真正挑战往往不是技术层面的。让我们一起探索AI代理的现状、挑战与成功之道。
什么是AI代理,为什么我们需要它们?
“名称有何重要?我们称之为AI代理的东西,即使换个名字,也不会减少它的炒作。”
这不是莎士比亚说的,但确实反映了当今AI代理领域的现实。那么,究竟什么是AI代理?我们将其定义为具有以下关键特性的系统:
-
目标导向:AI代理被赋予特定任务或目标,其行动都旨在实现这些目标 -
推理能力:代理会创建计划来达成目标,并将不断变化的现实环境纳入规划;它们将主要目标或复杂问题分解为更小、可管理的任务,并思考下一步最佳行动 -
自主性:AI代理能够独立行动,无需人类不断输入指令;它们基于周围环境变化做出决策并采取行动(通过工具调用)。考虑到当前生成式AI代理的可靠性和企业对完全自主系统的谨慎态度,我们的定义不要求完全自主。因此,协同驾驶模式(co-pilot)也包含在我们的定义中(只要它们满足其他标准,如目标导向、推理和通过工具使用执行行动) -
持久性:代理拥有记忆,能够记住先前经验并在会话间保持对长期目标的关注。这也被称为状态管理
AI代理与基础LLM聊天机器人的区别在于,状态管理和工具调用是更复杂的工程挑战,使得它们的部署更加困难。这一概念的进一步发展是多代理系统(MAS),其中代理可以共享记忆、拥有总体目标,并在彼此之间进行协调。这些MAS涉及具有专业能力的个体代理(或更广泛目标的不同子组件)共同解决复杂问题,甚至跨越组织边界。
多代理系统通过在多个代理之间分配认知负荷(每个代理针对特定子任务进行优化),已被证明在处理复杂、开放式问题方面优于单代理方法。它们提高了效率,降低了成本,并提供了更好的容错性和灵活性,这意味着它们在整体性能上超越了单代理系统。
但为什么我们要使用AI代理?为什么不使用RPA(机器人流程自动化)或其他传统自动化形式?这是因为AI代理更适合处理需要认知能力、推理和适应性的复杂、动态和非结构化任务。与遵循严格预定义规则的RPA不同,AI代理可以朝着目标进行推理,即时做出动态决策,并随时间学习或改进——这使它们能够处理边缘情况和环境变化而不会崩溃。
企业采用AI代理的真实面貌
某些调查,如KPMG的AI 3Q 2025季度脉搏报告,指出AI代理部署已增长近四倍,42%的组织现在已部署”至少一些代理”,而两个季度前这一比例仅为11%。虽然这听起来很有希望,但我们认为”至少部署了一些代理”并不是衡量真正采用情况的良好指标。
我们的从业者对话表明,是的,大多数大型企业确实在生产环境中部署了AI代理,但这些部署通常规模相当小。它们也主要集中在(相对)更成熟的领域,如客户支持、销售和营销、网络安全以及技术(例如AI编码代理)。
更有效的思考方式是通过以下视角来看待采用情况:
-
实际使用人数与团队:2025年5月普华永道的一项调查指出,对大多数受访者(68%)来说,一半或更少的员工在日常工作中与代理互动。然而,我们的从业者对话表明,员工正在使用个人账户,因为企业没有采用该技术,这引发了”影子AI”问题,导致合规问题泛滥。
-
工作流程自动化程度:员工在”潜在可自动化”的工作流程中使用AI代理的程度(是很少、部分还是大部分)
-
自主程度:每个工作流程赋予AI代理的自主程度(它只能执行给定工作流程中的某些任务,还是可以端到端驱动整个工作流程)
我们的企业从业者对话表明,他们采取了保守的方法。即使AI代理解决方案理论上可以以80%的自主性可靠运行,大多数从业者仍倾向于更高级别的人工参与,并以50%的自主性运行解决方案。
准确性与自主性的关键平衡
自主性和准确性是相互关联的维度——毕竟,你只会自动化到能够从AI代理获得可靠和准确输出的程度。在理想的代理世界中,我们将同时拥有极高的准确性和自主性。通过准确性,我们指的是代理执行任务产生成功或可接受结果的百分比(即0表示完全被人类覆盖,10表示完全接受无需更改)。
虽然我们尚未达到这一理想状态,但我们发现目前超过90%的AI代理初创公司至少达到70%的准确性,但只有66%的AI代理初创公司达到至少70%的自主性。毫不意外,可接受的准确性水平因行业和用例而异——例如,金融服务的平均准确性为80%,医疗保健为90%等。更有趣的问题是:在什么情况下中等水平的准确性是可接受的?
考虑到准确性和自主性之间的相互作用,我们确定了初创公司主要处于的三种配置:
中等准确性,高自主性
中等准确性水平(60-70%)在以下情况下是可接受的:
-
低风险且结果易于人类验证和修改 -
低准确性水平被非常高程度的自动化所抵消,因此如果是耗时且量大的任务,你会选择更高级别的自动化,这样你就能处理大量工作,只关注代理无法处理的边缘情况 -
全新的能力,以前不可能实现,因此权衡是,你宁愿以70%的准确性执行某项活动,而不是完全无法执行
高准确性,低自主性
这一类别主要由医疗保健代理初创公司组成,典型的准确性和自主性水平分别为90%和40%——这些是风险更高的用例(例如临床试验研究、心理健康护理),其中准确性至关重要。正如一位创始人所指出的(关于其代理AI解决方案>85%的准确性):
“这种准确性水平不足以消除人工监督并实现完全自主,特别是在临床试验的敏感环境中,监管标准非常严格。”
高准确性,高自主性
大多数处于此类别的初创公司运营在80-90%的准确性和自主性水平,主要集中在金融服务用例(例如合规)以及AI部署相对成熟的领域,如客户支持、网络安全和研究。在这些情况下,我们观察到创始人越来越将概率性LLM与更确定性的AI方法结合,以提高准确性和随之而来的自主性。
随着我们越来越多地在多步骤问题上部署代理或引入多代理系统,准确性的标准只会提高——就像当你将一个90%准确的代理与另一个90%准确的代理连锁起来时会发生什么,错误在每一步都会累积?这会触发一种称为级联故障的现象,我们将在即将发布的研究报告中探讨(以及知识图谱和神经符号AI如何成为前进的方向)。
AI代理的商业模式与定价策略
考虑到AI代理生态系统仍处于早期阶段,我们交谈的大多数创始人都将定价策略视为需要随时间发展的东西,我们认为这一立场很有道理。例如,”按用户”定价在较低自主性水平下有意义(因为协同驾驶需要人类用户),但在较高自主性水平下,代理可能执行大多数员工任务(加上解锁新能力),”按代理”定价加上结果奖金可能更有意义。
由于SaaS许可和基于API使用量的定价已被充分理解,我们在此重点关注其他定价策略及其影响:
基于结果的定价
基于结果的定价通常被称为AI货币化的圣杯,因为它让客户只在实现特定预定义业务结果时付费。Intercom就是一个很好的例子,它对每次由其Fin AI代理成功自主解决的对话收取0.99美元,确保客户只在代理交付时付费。这种方式将价格与交付的业务价值对齐,客户风险较低,并且因为与有形产出相连,比基于令牌的计算更容易理解(后者感觉不够直观)。
然而,在实践中,基于结果的定价很难实现,原因多种多样。首先,你需要就客户重视的结果达成一致(不同客户可能重视不同结果,因此你可能最终面临大量定制合同)。其次,你需要解决归属问题——例如,对于销售协同驾驶,很难区分新客户赢得中有多少是由AI代理驱动的,有多少是由人类销售代表驱动的。与此相关的是如何衡量结果的问题——所有这些都使计算变得复杂。最后,它可能难以预测,因为某些结果(例如成本节约百分比)难以提前预测——你不仅不确定结果的幅度,也不确定结果的时间(可能是延迟的)。一位创始人这样说:
“但问题最终在于,就这些结果达成一致非常困难。就追踪这些结果达成一致非常困难,而且很难规模化。你不能真正自助完成,因为它太容易被操纵了——人们有动机不向你报告结果。”
在以下情况下,基于结果的定价更容易实现:
-
期望结果在客户之间定义明确且相似 -
代理端到端操作整个工作流程或任务,因此更容易归属 -
结果易于实时测量和监控(例如Intercom的结果是二元的——要么代理解决,要么没有,且反馈接收很快)
因此,我们预计会看到更多混合模型,而非纯粹的基于结果定价,其中按代理定价模型辅以结果奖金,而不是仅对结果收费。
按用户定价
从预算分配角度看,这对客户来说更容易理解,在协同驾驶需要人类用户伴随产品时也很有意义。这种定价模型的缺点是,它不区分你代理AI解决方案的重度用户和轻度用户,导致轻度用户补贴低或负利润的重度用户。然而,如果你的协同驾驶产品价格点足够高,足以覆盖支持重度用户的成本,这是一个好的起点。正如一位创始人所指出的:
“我们很幸运处于一个[金融服务]行业,价格锚定相当高;如果你有优质产品,你可以收取更好的价格。虽然使用量很高,但使用量需要相当极端才会显著侵蚀利润。”
此外,如果你的代理解决方案在自动化大量任务方面非常成功,它最终会减少可用的席位数量——因此它不适合高度自动化的解决方案。尽管如此,我们交谈的大多数创始人打算将其定价演变为混合模型,特别是在他们实现更高自主性时。
按代理定价
当自动化特定员工执行的绝大多数任务时,这是一种直观的定价模型;这样你就在替代人类,它来自人力预算。它也是可预测的,客户容易理解。然而,我们观察到围绕按代理定价模型的创始人定位方式的一个有趣维度——他们不是将产品定位为人类员工的替代品(或关注员工当前执行的任务),而是关注AI代理解锁的人类员工无法实现的新能力,这使他们能够收取更高的价格。
按任务定价
这在直观上容易理解,因为它直接将使用量与成本连接(因此客户只为他们使用的付费)。这在难以预测任务执行频率和量的情况下特别有帮助。因为它与执行的任务相关,它还帮助初创公司利用服务预算。
混合定价
我们越来越多地看到创始人选择混合策略,通常涉及某种基本费用,加上可变定价,有层级和超额费用。或者可能是按代理收费加上基于结果的奖金。或者可能是按代理收费加上计量的专用工具(有点像人类员工要求SaaS工具来执行工作)。如你所见,有多种方式实现混合定价模型。
这种方式很好,因为它更灵活,并通过限制使用量保护利润(因此初创公司可以控制成本并降低不盈利客户的风险)。然而,它可能很快变得复杂,帮助客户预测消耗是关键——无论是通过安装前分析现有可自动化工作量,设置使用提醒和硬性使用限制,还是信用结转,取决于混合模型的实施方式。
AI代理正成为业务预算的一部分
我们询问创始人:”你目前利用哪些企业预算?”我们很高兴地看到,AI代理初创公司主要向业务线或核心支出预算销售。这表明我们正在超越纯实验阶段(创新预算所在的地方),AI代理正在对真实业务用例或核心活动产生影响。这是追踪AI代理主流化的绝佳方式——尽管当前部署是”广泛”而非”深入”的,但这无疑是积极的。
我们的发现也得到了其他面向企业调查的证实:
-
平均而言,CFO报告将当前总AI预算的25%用于AI代理。(Salesforce,2025年8月对261位全球CFO的调查) -
88%的高管表示,由于AI代理,他们的公司计划今年增加AI相关预算。其中超过四分之一计划增加26%或更多。(普华永道,2025年5月对300位高级高管的调查) -
组织正在将AI投资重新导向核心职能,现在占AI预算的64%,而非核心活动占36%。这种重新分配表明日益成熟的认识:当AI应用于核心业务运营而非外围流程时,它能带来最有说服力的价值。(IBM,2025年6月对全球2,900位高管的调查)
AI代理部署的主要挑战
我们向调查中的创始人询问:”在为客户提供AI代理部署时,你遇到的最大问题是什么?请按重要性排序(例如,1级分配给最大问题)”
前三大问题的结果令人深思:我们经常听说与遗留技术堆栈集成和数据质量问题很痛苦。这些问题并未消失;它们只是被其他主要问题掩盖了。即:
-
将AI代理集成到现有客户/公司工作流程的困难,以及人机界面(60%的受访者) -
员工抵制和非技术因素(50%的受访者) -
数据隐私和安全(50%的受访者)
工作流程集成与人机界面
我们指的是概念层面(例如,我的流程、工作流程或角色应该如何演变以适应AI?AI代理在哪些方面可以帮助我?)和实践层面(例如,UI看起来如何?)。
在概念上,终端用户需要一些时间来适应这种新范式。首先是要接受并认识到流程需要改变,其次是弄清楚它们需要如何改变。这不仅适用于终端用户,也适用于为企业AI代理解决方案做购买决策的团队。
在实践上,初创公司专注于确保其代理部署在用户需要的上下文中,并在跨系统的其他UI(例如ServiceNow、Slack)中显示在工作流程中。基本上,无论用户在哪里,都要满足他们,使采用代理的过程尽可能无摩擦。它还涉及确保工作流程和输出针对人类用户定制。正如一位创始人所观察到的:
“许多公司会想要非常特定的工作流程——这是有道理的——但支持多个独特实例仍然相当困难,因为一些用户会希望非常特定的格式,例如特定的Excel输出——支持这种’最后一英里’UI可能是最大的头痛。”
员工抵制与非技术因素
我们在调查结果中观察到一个有趣的模式,即那些代理在更高自主性水平(9/10或更高)运营的初创公司更可能报告员工抵制作为更大问题。那些在高度监管行业和领域(医疗保健、合规)运营并因此需要高准确性的公司也指出,客户对代理解决方案持怀疑态度。我们关于自主性、准确性及其对员工抵制影响的发现,只是单一问题的表现:信任问题。
这些信任问题不可避免地有其他表现形式。我们与企业从业者的对话表明,人机协作并不总是有效;要么人类过度依赖给出错误响应的AI,要么他们依赖不足并检查AI做的每件事,降低效率。这一现象也在MIT研究中被观察到,研究表明人机协作的表现通常不如人类或AI单独工作。原因包括沟通障碍、信任问题、道德关切以及人类和AI系统之间缺乏有效协调。正如一位创始人所指出的:
“他们[人类用户]通常认为AI是’魔法’,并不完全理解其优点和缺点。未能理解AI的工作原理有时会导致挫折和困惑。还有一种不愿放弃旧流程并完全投入AI的倾向。”
另一个主要的非技术因素是,创始人指出客户通常缺乏连贯的AI和数据战略,导致大量用例和测试试点,但没有在规模上采用AI的连贯计划。公平地说,另一位创始人强调:
“AI的普及创造了销售摩擦。每个现有提供商现在都承诺AI赋能的点解决方案,这些解决方案对客户来说通常最初很有吸引力,因为它被承诺的预算覆盖。但这导致AI战略分散,往往未能带来最新创新;并非所有AI都平等。”
AI代理基础设施:自建还是利用第三方
我们询问创始人:”在构建、部署、监控代理时,你与哪些第三方AI代理基础设施解决方案合作?例如内存、工具调用、代理框架、浏览器基础设施、代理支付等解决方案。”
根据他们的回答,我们发现52%的受访创始人完全或主要在内部构建其AI代理基础设施。我们主要将此归因于代理生态系统的新兴性质。
在提到的第三方工具中,ChatGPT和Claude模型最常被提及,其次是Google代理开发工具包,而LangChain(不出所料)成为最受欢迎的框架。其他获得特别提及的工具包括:框架和协调平台(Pydantic、Temporal、Inngest、Pipecat);监控、可观测性和评估(Langfuse、Langtrace、Coval);代理浏览器(Browserbase、Browser Use、Strawberry)和向量数据库(Qdrant)。
成功部署AI代理的关键策略
基于我们与40多位企业从业者和初创公司创始人的访谈,我们概述了初创公司成功在企业部署AI代理的常见方法。
战略性用例推出
我们看到的最成功的部署策略始于:
-
简单具体的用例,有明确的价值驱动因素,风险低但影响中等 -
不会对现有工作流程造成重大干扰 -
最好是自动化人类用户不喜欢(或已外包)的任务 -
工作流程的输出可以被人类快速/轻松验证准确性和适用性 -
快速展示明确的投资回报率
考虑到当前的技术发展水平,AI代理在狭窄应用到非常特定任务并在特定上下文中操作时效果最佳。例如,我们在医疗保健领域看到这一点,医疗系统已经在将收入周期管理流程(索赔和拒付管理)外包给第三方提供商。
AI代理的落地扩展策略与传统SaaS非常不同。考虑到企业越来越受到C-Suite压力,要求将AI纳入工作,初创公司有大量机会”落地”,但”扩展”要困难得多——不仅如此,即使他们想要扩展,扩展也需要更长时间,因为这是逐个用例推出的。就像标志性的大众汽车广告一样,有时最好”想小”,首先建立信任,而不是一开始就尝试太多用例(和过度复杂的用例)。
手把手指导与教育
AI代理在企业中的成功部署需要大量手把手指导和教育。这主要是因为企业通常并不完全清楚将AI代理应用于哪些最佳用例,该技术的机会和限制,如何最好地使用工具,如何重新设计工作流程…更重要的是,如何评估和购买AI代理产品。
“每当我谈论产品战略时,我总是谈到在我们和客户之间保持’零距离’。如果你不了解客户在做什么以及他们的痛点是什么,你真的不会构建一个有用的解决方案。” —— Hanah-Marie Darley,Geordie AI联合创始人兼首席AI官
工作坊和咨询式GTM:安装前分析和最初的工作坊对于设定和管理期望至关重要,从确定代理可以或不可以帮助的领域,到预先提供关于预期使用量和定价的清晰度。例如,Health Force(AI代理自动化医院日常行政任务)免费提供AI就绪评估,帮助医院识别AI代理最有用的工作流程。或者Runwhen(开发者体验的AI代理)对现有警报或聊天进行安装前分析,并测量哪些可以通过Runwhen自动化。采用咨询式GTM方法也给企业带来舒适感,让他们了解第三方解决方案的定制程度(每个组织都有其独特的工作流程,纳入其特定需求对推动采用至关重要)。
前驻工程师(FDE)推动采用:前驻工程师(FDE)是直接与客户合作的软件工程师,通常嵌入到他们的团队中,解决复杂的现实世界问题——因此这是一个混合角色,FDE是软件开发人员、顾问和产品经理的结合。
我们交谈的大多数AI代理初创公司发现,在向拥有复杂数据(分散在不同数据源中)的企业/中端市场客户销售时,Palantir式的前驻部署很有用。但还有其他形式的复杂性,如产品复杂性和流程复杂性,这也需要在一开始就与客户建立更深层次的合作伙伴关系,以确保代理解决方案实现预期结果。数据集成、产品和业务流程越复杂,就越需要FDE帮助为客户驱动最佳结果。
人机界面与三个E(教育、娱乐和期望管理):正如我们之前观察到的,我们的调查表明60%的AI代理初创公司在工作流程集成和人机界面方面遇到困难。像Strawberry(浏览器上的AI代理)这样的初创公司专注于构建这一界面的多个维度,例如:(a)超越仅仅是聊天机器人式界面;(b)让AI代理本身教育客户它们能做什么和不能做什么,并就如何更好地使用产品提供建议,同时管理期望;(c)使AI代理变得有趣或引人入胜。就我们而言,Strawberry的代理如LinkedIn Linus、Competition Camille或Data Extraction Denise让我们非常开心(如你所见,我们对押头韵有着热切的欣赏)。
“最大的问题是期望管理。如果你给人们一个浏览器并说,哦,它可以在网上做任何事情,那么人们会写查询如’从亚马逊获取所有产品并建立一个价格表’,并期望它能工作,而实际上这需要数十万美元和专业网络爬虫。但人们也会低估什么是可能的,所以他们会写非常简单的提示或非常模糊的提示,然后对结果感到失望。” —— Charles Maddock,Strawberry联合创始人兼CEO
除了以引人入胜的方式教育客户如何最好地使用代理和管理期望外,创始人还专注于使人类用户能够教育代理,因此用户可以指导代理行为以反映变化的优先级和工作量,以及捕捉用户独特的工作风格。用户需要足够享受与代理合作,以至于愿意推广它(显然,不要像Clippy!)
产品定位策略
我们从AI代理创始人那里得到的一个常见问题是,当每个人的营销听起来都一样时,如何定位他们的产品。此外,许多解决方案声称使用AI代理;它们过度承诺却交付不足,导致买家疲劳和怀疑——这为真正高质量的AI代理解决方案创造了挑战性的环境,使其难以脱颖而出。采取咨询式、协作式和问题导向的方法,展示真实价值至关重要(我们在上文已描述),但定位的各种维度(我们在下文讨论)也很重要。我们完全承认,定位主要是当前认知和技术发展水平的函数;随着这些系统获得更多主流接受,代理可靠地实现更高水平的自主性,定位策略无疑也会演变。
是否提及AI:我们观察到定位策略中的一个有趣二分法。在医疗保健等垂直领域,创始人积极淡化其解决方案中AI代理的使用。正如两位医疗保健领域的创始人所观察到的:
“你知道什么很奇怪吗?如果你使用’代理’或’AI’这个词,它实际上弊大于利。当你向客户展示AI时,就像’哦,又是一堆废话’。”
“我们向客户定位为心理健康公司,而不是代理公司。”
然而,在金融服务等垂直领域,创始人在解决方案中突出展示其”AI代理”主张,因为AI导向的定位与用户和买家产生共鸣。好消息是,在大多数垂直领域(医疗保健之外),”AI代理”定位效果良好(前提是它满足我们在”战略用例推出”部分概述的所有标准)。
自主性水平:我们交谈的大多数创始人选择了协同驾驶方式销售,即使他们的解决方案能够达到更高水平的自主性。这主要是为了建立客户信任。例如,Juna AI(其代理优化重工业中的复杂制造流程)从协同驾驶方式开始,代理向客户提供关于如何最佳运行系统的建议,客户仍有选择是否实施的选项。虽然目标是最终达到更高自主性水平(解决方案确实具备这一能力),但现在是小步前进。
我们交谈的大多数从业者感觉自己处于学习过程中,更喜欢协同驾驶方式而非完全自主方式(尽管这再次取决于三个因素:自动化任务的关键性/影响,审计AI可能犯的错误并在造成任何伤害前抓住它们的容易程度,以及它是否解锁了全新的能力,例如能够执行人类以前无法完成的任务)。然而,能够轻松审查AI代理的输出是至关重要的。
增强而非替代:与前一点关于较低自主性水平相关,那些将自己定位为”增强”而非替代现有员工或遗留技术堆栈的初创公司发现在大型企业中更容易站稳脚跟。如果他们正在推广以前不可能实现的全新能力,那就更好了。从技术角度看,替换现有技术对拥有复杂下游工作流程(建立在现有ERP如SAP之上)的客户来说很困难,而像askLio(采购领域)这样的初创公司专注于与现有技术合作,以实现更快部署。从员工角度看,我们尚未达到大多数AI代理足够可靠或能够自动化如此多端到端工作流程的程度,以至于企业可以考虑真正的FTE替代。即使这两点都成立(回到我们之前关于自动化水平的观点),企业从业者对高度自主部署也更为谨慎。
价值主张和投资回报率的表述:我们可以从两个角度分析这个问题:(1)价值主张被充分理解,因此相对容易表述投资回报率;或(2)AI代理解锁了全新的能力(因此难以与现有解决方案比较),因此难以描述投资回报率。
让我们看一下第一种情况,其中用例更容易理解,投资回报率更容易表述,因为它是一个已建立的工作流程。在这里,通常是关于宣传时间和成本节约和/或收入增长。例如,Covecta(金融服务的AI代理)谈到在起草详细信贷申请等任务上节省70%的时间,而Biorce(加速药物开发的临床AI平台)谈及投资回报率既包括劳动力成本节约,也包括更快的上市时间(Biorce的计算是,在其平台上花费一小时可节省720个人工小时),更快的上市时间本身创造了收入加速机会。信贷申请和药物发现仍然很容易理解;但像生成式UI这样的全新发展呢?
这就引出了第二种情况。像Architect这样的初创公司提供AI代理来构建、个性化和优化每个访问者的网页——我们称之为”生成式UI”,因为网站的视觉呈现、内容和访问者体验会根据查看者是谁而动态变化。考虑到解决方案的新颖性,推销产品可能具有挑战性,但Architect通过将产品定位为广告系统/平台(如Google AdWords)的补充并衡量成功通过转化率提高(强调实用性,而不仅仅是新颖性)来克服这一点。
由于我们在2019年支持了Synthesia(AI视频平台,生成逼真的人工智能头像表演),我们亲眼目睹了具有高度创新技术的初创公司如何通过强调实用性而非新颖性获得广泛采用。我们预计AI代理浪潮(针对全新用例)也不会有什么不同。
通往理想状态的道路
今天的AI代理在很大程度上仍然是反应式的,因为它们是在响应人类提示或明确用户指令而被触发的。然而,未来我们预计会看到更多环境代理和主动代理,它们自己发起任务,并能更有效地推理边缘情况,使任务执行在不确定性下依然稳健。这意味着代理需要适应而不变得不可靠,它们需要持续学习并长期保留这些记忆(很像人类同事了解你的组织)。今天,它们在组织中更受约束和控制的环境中运行,但我们看到代理最终将与”开放”环境交互——与其他组织的代理互动和谈判,雇佣其他代理,并像人类同事一样与更广阔的世界互动。
问题是:我们如何到达那里?我们在关于AI代理的系列研究的接下来三部分中探讨这一点,重点关注使代理能够:
-
访问准确、相关和最新的信息,以及管理上下文和记忆的技术和初创公司 -
可靠地执行行动的技术,无论是通过安全工具执行还是代理浏览器,帮助代理像人类一样导航视觉世界 -
确保代理可信、可靠,并对对抗性攻击或意外故障模式具有鲁棒性的技术
常见问题解答
什么是AI代理,它与普通聊天机器人有什么区别?
AI代理是具有目标导向、推理能力、一定程度自主性和持久记忆的AI系统。与普通聊天机器人相比,AI代理能够分解复杂任务、制定计划、使用工具执行操作,并在多次交互中记住上下文。它们不仅仅是回答问题,而是能主动完成具体任务。
AI代理在企业中的真实采用情况如何?
根据研究,42%的组织已部署”至少一些”AI代理,相比之前大幅增长。但真正的采用深度有限——68%的公司只有一半或更少的员工在日常工作中与AI代理互动。大多数企业部署规模较小,集中在客户支持、销售营销、网络安全和技术等领域。
为什么很多AI代理项目可能会失败?
Gartner预测到2027年底,超过40%的基于代理的AI项目将被取消。主要原因不是技术问题,而是:工作流程集成困难(60%的初创公司报告)、员工抵制(50%)和数据隐私安全问题(50%)。其他挑战包括与遗留系统集成、缺乏清晰的AI战略和信任问题。
AI代理需要多高的准确率才实用?
这取决于用例。医疗保健领域需要90%以上的准确率,金融服务约80%。在低风险、易验证或高价值新能力的场景中,60-70%的准确率也可接受。关键在于准确率与自主性的平衡——高准确率可支持更高自主性,而低准确率需要更多人工监督。
企业为AI代理解决方案支付什么价格?
定价模式多样:23%的初创公司使用混合定价,23%按任务收费,17%按代理收费。纯基于结果的定价仅占3%,因为难以衡量和归属。大多数初创公司从按用户或基本费+用量的模式开始,随产品成熟转向更复杂的模式。
如何成功部署AI代理解决方案?
成功的部署从小处开始:选择低风险但中等影响的用例,最好是员工不喜欢的任务;确保输出易于验证;快速展示ROI。需要大量教育和手把手指导,管理好期望,并采用”增强而非替代”的定位策略。前驻工程师(FDE)模式对复杂部署特别有效。
AI代理的基础设施应该自建还是使用第三方工具?
目前52%的初创公司完全或主要在内部构建代理基础设施,反映了生态系统的新兴性质。最常用的第三方工具包括LangChain(框架)、ChatGPT和Claude(模型)、Langfuse(监控)和Qdrant(向量数据库)。
AI代理会取代人类工作吗?
当前阶段,成功的AI代理被定位为增强而非替代人类。它们最适合处理重复性、规则不明确或人类不喜欢的任务,同时保留人类在决策、创造力和复杂判断方面的优势。大多数企业采取保守态度,即使技术上可行,也保持较高的人工参与度。
