AI Agents与Agentic AI:概念、架构、应用与挑战

一、引言

随着人工智能技术的飞速发展,AI代理(AI Agents)和代理型AI(Agentic AI)正逐渐成为研究和应用的热点。这些技术在多个领域展现出巨大潜力,从自动化客户服务到复杂的医疗决策支持。本文将深入解析AI Agents和Agentic AI的基本概念、架构演变、实际应用以及面临的挑战,并提供实施指南。

二、AI Agents与Agentic AI的概念剖析

(一)AI Agents:模块化与任务特定的智能体

AI Agents是一类自主软件实体,旨在数字环境中执行目标导向的任务。它们通过感知结构化或非结构化输入、基于上下文信息进行推理,并采取行动以实现特定目标。与传统自动化脚本不同,AI Agents展现出反应性智能和有限的适应性,使其能够解读动态输入并相应地重新配置输出。

核心特性

  • 自主性:AI Agents在部署后能够最小化或无需人工干预地运行。一旦初始化,它们能够感知环境输入、基于上下文数据进行推理,并在实时环境中执行预定义或自适应动作。
  • 任务特定性:AI Agents被设计为专门处理狭窄且明确定义的任务。它们在固定领域内优化执行可重复操作,如电子邮件过滤、数据库查询或日历协调。
  • 反应性与适应性:AI Agents通常包含与动态输入交互的基本机制,使其能够响应实时刺激,如用户请求、外部API调用或软件环境状态变化。一些系统通过反馈循环、基本学习启发式方法或上下文缓冲区更新来随时间改进行为。

(二)Agentic AI:多智能体协作与动态任务分解

Agentic AI代表了一种范式转变,其特点是多智能体协作、动态任务分解、持久记忆和协调自主性。这些系统由多个专业智能体组成,它们通过集中式协调器或去中心化协议进行通信和协作,以实现更广泛的工作流程中的共享目标。

关键特征

  • 多智能体协作:多个智能体协同工作,每个智能体负责整个目标的一个子组件。它们通过通信渠道(如异步消息队列、共享内存缓冲区或中间输出交换)进行交互,无需持续的中央监督。
  • 动态任务分解:用户指定的目标被自动解析并分解为更小、更易管理的任务。规划智能体处理这些子任务的分解、分配和动态排序,使系统能够在不确定性下或部分任务失败时进行适应性调整。
  • 持久记忆:Agentic AI系统包含记忆子系统,以跨任务周期或智能体会话持久化知识。记忆类型包括情景记忆(任务特定历史)、语义记忆(长期事实或结构化数据)和基于矢量的记忆(用于检索增强生成)。

三、架构演变:从AI Agents到Agentic AI

(一)AI Agents的基础架构组件

传统AI Agents通常由以下四个主要子系统组成:

  • 感知模块:摄入来自用户或外部系统(如API、文件上传、传感器流)的输入信号,并将数据预处理为智能体推理模块可解释的格式。
  • 知识表示与推理(KRR)模块:这是智能体智能的核心,应用符号、统计或混合逻辑来处理输入数据。技术包括基于规则的逻辑、确定性工作流引擎和简单的规划图。
  • 行动选择与执行模块:将推断出的决策通过行动库转换为外部操作。这些操作可能包括发送消息、更新数据库、查询API或生成结构化输出。
  • 基本学习与适应:传统AI Agents具有有限的学习机制,如启发式参数调整或基于历史的上下文保留。

(二)Agentic AI的架构增强

Agentic AI继承了AI Agents的模块化设计原则,并扩展其架构以支持更复杂、分布式和适应性行为。关键架构增强包括:

  • 专业智能体集合:Agentic AI系统由多个智能体组成,每个智能体被分配特定功能。这些智能体通过通信渠道(如消息队列、黑板或共享内存)进行交互。
  • 高级推理与规划:Agentic系统嵌入了使用框架如ReAct、链式思考(CoT)提示和思维树的递归推理能力。这些机制允许智能体将复杂任务分解为多个推理阶段,评估中间结果,并动态重新规划行动。
  • 持久记忆架构:与传统智能体不同,Agentic AI纳入了记忆子系统,以跨任务周期或智能体会话持久化知识。
  • 协调层/元智能体:Agentic AI的关键创新是引入了协调器元智能体,它们协调下属智能体的生命周期,管理依赖关系、分配角色并解决冲突。

四、应用场景解析

(一)AI Agents的应用场景

  1. 客户服务自动化与企业内部搜索

    • AI Agents在企业环境中广泛用于自动化客户服务和促进企业内部知识检索。在客户服务中,这些智能体利用基于检索的LLMs与API和组织知识库接口,以回答用户查询、分流工单并执行订单跟踪或退货启动等操作。
    • 实证案例:一家跨国电子商务公司部署了基于AI Agents的客户服务和企业搜索助手。该AI Agents与公司的CRM(如Salesforce)和履行API集成,以解决如“我的订单在哪里?”或“我如何退回此商品?”等查询。
  2. 电子邮件过滤与优先级排序

    • 在生产力工具中,AI Agents通过内容分类和优先级排序自动化电子邮件分流。它们分析元数据和消息语义,以检测紧急情况、提取任务并推荐回复。
  3. 个性化内容推荐与基本数据报告

    • AI Agents通过分析行为模式支持自适应个性化,用于新闻、产品或媒体推荐。例如,亚马逊、YouTube和Spotify等平台部署这些智能体以推断用户偏好。
  4. 自主调度助手

    • 与日历系统集成的AI Agents自主管理会议协调、重新调度和冲突解决。例如,x.ai和Reclaim AI等工具解释模糊的调度命令,访问日历API,并根据学习的用户偏好识别最佳时间槽。

(二)Agentic AI的应用场景

  1. 多智能体研究助手

    • Agentic AI系统在学术和工业研究管道中用于自动化多阶段知识工作。例如,AutoGen和CrewAI等平台为多个智能体分配专门角色,如检索器、摘要器、合成器和引用格式化器,在中央协调器的管理下。
  2. 智能机器人协调

    • 在机器人和自动化领域,Agentic AI支持多机器人系统中的协作行为。例如,农业无人机群可能集体映射树行、识别患病水果并启动机械干预。
  3. 协作医疗决策支持

    • 在高风险的临床环境中,Agentic AI通过将任务分配给专门智能体(如诊断、生命体征监测和治疗规划)实现分布式医疗推理。
  4. 多智能体游戏AI和适应性工作流自动化

    • 在模拟环境和企业系统中,Agentic AI促进去中心化任务执行和新兴协调。例如,AI Dungeon等游戏平台部署具有目标、记忆和动态互动的独立NPC智能体,以创造新兴叙事和社交行为。

五、实施指南

(一)AI Agents的实施步骤

  1. 需求分析与目标定义

    • 明确具体任务和预期成果,确定AI Agents在业务流程中的角色。
  2. 技术选型与架构设计

    • 根据任务需求选择合适的LLMs和工具集成,设计智能体的感知、推理和行动模块。
  3. 数据准备与模型训练

    • 收集和准备训练数据,对LLMs进行微调,以适应特定任务和领域。
  4. 开发与测试

    • 使用选定框架(如LangChain)构建AI Agents,进行功能测试和性能优化。
  5. 部署与监控

    • 将AI Agents部署到生产环境,持续监控其性能和行为,确保可靠性和安全性。

(二)Agentic AI的实施步骤

  1. 系统规划与智能体设计

    • 规划Agentic AI系统的整体架构,设计各智能体的角色、功能和交互方式。
  2. 多智能体架构构建

    • 实现多智能体架构,确保智能体间的通信和协作机制正常运行。
  3. 协调层与记忆系统开发

    • 开发协调层和记忆系统,以管理智能体的协作和知识共享。
  4. 测试与优化

    • 对Agentic AI系统进行全面测试,优化智能体间的协作和整体系统性能。
  5. 安全与伦理考量

    • 实施安全措施,确保智能体行为符合伦理和法律标准,保护用户隐私和数据安全。

六、挑战与应对策略

(一)AI Agents面临的挑战

  1. 缺乏因果理解

    • AI Agents基于LLMs,擅长识别训练数据中的统计相关性,但无法进行因果推理。这导致在分布外条件下表现不佳。
  2. LLMs继承的局限性

    • AI Agents继承了LLMs的幻觉倾向、提示敏感性、浅层推理能力和计算成本高等问题。
  3. 不完整的代理特性

    • 当前的AI Agents在自主性、主动性、反应性和社交能力方面存在不足,无法完全满足智能交互代理商的标准。
  4. 有限的长期规划与恢复能力

    • AI Agents在长期规划和复杂任务中表现不佳,缺乏内在记忆和系统性恢复机制。
  5. 可靠性和安全性问题

    • AI Agents在关键基础设施中的部署存在风险,缺乏因果推理导致在分布外条件下行为不可预测。

(二)Agentic AI面临的挑战

  1. 放大的因果挑战

    • Agentic AI系统的复杂交互放大了因果缺陷,导致智能体间协调困难和错误级联。
  2. 通信和协调瓶颈

    • 实现高效通信和协调是Agentic AI的关键挑战,包括目标对齐、共享上下文和协议限制等问题。
  3. 新兴行为和可预测性

    • Agentic AI的新兴行为可能产生意外结果,增加系统不稳定性。
  4. 可扩展性和调试复杂性

    • 随着智能体数量和角色多样性的增加,系统的可维护性和可解释性变得复杂。
  5. 信任、可解释性和验证

    • Agentic AI系统的分布式架构增加了可解释性和验证的难度,缺乏正式验证工具。
  6. 安全性和对抗性风险

    • Agentic AI架构扩展了攻击面,增加了复杂对抗性威胁的风险。
  7. 伦理和治理挑战

    • Agentic AI的分布式和自主性质引发了问责、公平和价值对齐等伦理和治理问题。
  8. 基础不成熟和研究空白

    • Agentic AI仍处于研究初期,缺乏标准化架构和因果基础。

(三)应对策略

  1. 检索增强生成(RAG)

    • 在AI Agents中,RAG通过将输出基于实时数据来减少幻觉并扩展LLMs的静态知识。在Agentic AI系统中,RAG作为智能体间的共享基础,确保分布式智能体基于统一的语义层操作。
  2. 工具增强推理(函数调用)

    • AI Agents通过函数调用扩展与现实世界系统的交互能力。在Agentic AI中,函数调用支持智能体级别的自主性和角色差异化。
  3. 代理循环:推理、行动、观察

    • AI Agents通过引入迭代循环进行更谨慎、上下文敏感的行为。在Agentic AI中,该模式对协作一致性至关重要。
  4. 多智能体协调与角色专业化

    • 在AI Agents中,任务复杂性通过模块化提示模板或条件逻辑处理。在Agentic AI中,协调是核心,元智能体或协调器分配任务给专业智能体。
  5. 反思和自我批评机制

    • AI Agents通过二次推理通道进行自我评估,提高鲁棒性并降低错误率。在Agentic AI中,反思扩展到智能体间的评估,确保协作质量控制。
  6. 程序化提示工程管道

    • 手动提示调整引入了脆弱性并降低了可重复性。程序化管道基于任务类型、智能体角色或用户查询自动生成提示。
  7. 因果建模和基于模拟的规划

    • AI Agents通常基于统计相关性而非因果模型操作。嵌入因果推理使智能体能够区分相关性和因果关系,并进行更稳健的规划。
  8. 监控、审计和可解释性管道

    • AI Agents缺乏透明度,使得调试和信任变得复杂。记录系统通过记录提示、工具调用、内存更新和输出,实现事后分析和性能调优。
  9. 治理感知架构(问责和角色隔离)

    • AI Agents目前缺乏内置的伦理合规或错误归因保障。治理感知设计引入基于角色的访问控制、沙盒和身份解析,确保智能体在范围内行动,并且其决策可以被审计或撤销。

七、结论

本文提供了AI Agents和Agentic AI的全面文献评估,提出了一个强调基础概念、架构演变、应用领域和关键限制的结构化分类。AI Agents被表征为具有约束自主性和反应性的模块化、任务特定实体。它们的操作范围基于LLMs和LIMs的集成,后者作为感知、语言理解和决策制定的核心推理模块。Agentic AI系统作为从孤立代理到协调的多智能体生态系统的变革性演变,通过分布式认知、持久记忆和协调规划等关键差异化特征与传统代理模型相区分。本文还对这两个范式部署的应用领域进行了调查,并深入分析了影响两者的挑战和限制。这些见解为未来开发值得信赖、可扩展的代理系统提供了路线图。

八、致谢

本研究由美国国家科学基金会和美国农业部国家食品与农业研究所通过“人工智能(AI)农业研究所”计划资助,获奖编号AWD003473和AWD004595,存取号1029004,“使用软操作器进行机器人花序疏剪”。

九、声明

所有作者均声明没有利益冲突。

十、人工智能写作协助声明

ChatGPT和Perplexity被用来增强语法准确性和优化句子结构;所有人工智能生成的修订都经过了相关性审查和编辑。此外,ChatGPT-4o被用来生成现实的可视化。

十一、参考文献

[1] E. Oliveira, K. Fischer, and O. Stepankova, “Multi-agent systems: which research for which applications,” Robotics and Autonomous Systems, vol. 27, no. 1-2, pp. 91–106, 1999.

[2] Z. Ren and C. J. Anumba, “Multi-agent systems in construction–state of the art and prospects,” Automation in Construction, vol. 13, no. 3, pp. 421–434, 2004.

[3] C. Castelfranchi, “Modelling social action for ai agents,” Artificial Intelligence, vol. 103, no. 1-2, pp. 157–182, 1998.

[4] J. Ferber and G. Weiss, Multi-agent systems: an introduction to distributed artificial intelligence, vol. 1. Addison-Wesley Reading, 1999.

[5] R. C. Cardoso and A. Ferrando, “A review of agent-based programming for multi-agent systems,” Computers, vol. 10, no. 2, p. 16, 2021.

[6] R. C. Calegari, G. Ciatto, V. Mascardi, and A. Omicini, “Logic-based technologies for multi-agent systems: a systematic literature review,” Autonomous Agents and Multi-Agent Systems, vol. 35, no. 1, p. 1, 2021.

[7] E. Shortliffe, Computer-based medical consultations: MYCIN, vol. 2. Elsevier, 2012.

[8] H. P. Moravec, “The stanford cart and the cmu rover,” Proceedings of the IEEE, vol. 71, no. 7, pp. 872–884, 1983.

[9] B. Dai and H. Chen, “A multi-agent and auction-based framework and approach for carrier collaboration,” Logistics Research, vol. 3, pp. 101–120, 2011.

[10] J. Grosset, A.-J. Fougères, M. Djoko-Kouam, and J.-M. Bonnin, “Multi-agent simulation of autonomous industrial vehicle fleets: Towards dynamic task allocation in v2x cooperation mode,” Integrated Computer-Aided Engineering, vol. 31, no. 3, pp. 249–266, 2024.

[11] R. A. Agis, S. Gottifredi, and A. J. García, “An event-driven behavior trees extension to facilitate non-player multi-agent coordination in video games,” Expert Systems with Applications, vol. 155, p. 113457, 2020.

[12] A. Guerra-Hernández, A. El Fallah-Seghrouchni, and H. Soldano, “Learning in bdi multi-agent systems,” in International Workshop on Computational Logic in Multi-Agent Systems, pp. 218–233, Springer, 2004.

[13] A. Saadi, R. Maamri, and Z. Sahnoun, “Behavioral flexibility in belief-desire-intention (bdi) architectures,” Multiagent and Grid Systems, vol. 16, no. 4, pp. 343–377, 2020.

[14] D. B. Acharya, K. Kuppan, and B. Divya, “Agentic ai: Autonomous intelligence for complex goals–a comprehensive survey,” IEEE Access, 2025.

[15] M. Z. Pan, M. Cemri, L. A. Agrawal, S. Yang, B. Chopra, R. Tiwari, K. Keutzer, A. Parameswaran, K. Ramchandran, D. Klein, et al., “Why do multiagent systems fail?,” in ICLR 2025 Workshop on Building Trust in Language Models and Applications, 2025.

[16] L. Hughes, Y. K. Dwivedi, T. Malik, M. Shawosh, M. A. Albashrawi, I. Jeon, V. Dutot, M. Appanderanda, T. Crick, R. De’, et al., “Ai agents and agentic systems: A multi-expert analysis,” Journal of Computer Information Systems, pp. 1–29, 2025.

[17] Z. Deng, Y. Guo, C. Han, W. Ma, J. Xiong, S. Wen, and Y. Xiang, “Ai agents under threat: A survey of key security challenges and future pathways,” ACM Computing Surveys, vol. 57, no. 7, pp. 1–36, 2025.

[18] M. Gridach, J. Nanavati, K. Z. E. Abidine, L. Mendes, and C. Mack, “Agentic ai for scientific discovery: A survey of progress, challenges, and future directions,” arXiv preprint arXiv:2503.08979, 2025.

[19] T. Song, M. Luo, X. Zhang, L. Chen, Y. Huang, J. Cao, Q. Zhu, D. Liu, B. Zhang, G. Zou, et al., “A multiagent-driven robotic ai chemist enabling autonomous chemical research on demand,” Journal of the American Chemical Society, vol. 147, no. 15, pp. 12534–12545, 2025.

[20] M. M. Karim, D. H. Van, S. Khan, Q. Qu, and Y. Kholodov, “Ai agents meet blockchain: A survey on secure and scalable collaboration for multi-agents,” Future Internet, vol. 17, no. 2, p. 57, 2025.

[21] A. Radford, K. Narasimhan, T. Salimans, I. Sutskever, et al., “Improving language understanding by generative pre-training,” arxiv, 2018.

[22] J. Sánchez Cuadrado, S. Pérez-Soler, E. Guerra, and J. De Lara, “Automating the development of task-oriented llm-based chatbots,” in Proceedings of the 6th ACM Conference on Conversational User Interfaces, pp. 1–10, 2024.

[23] Y. Lu, A. Aleta, C. Du, L. Shi, and Y. Moreno, “Llms and generative agent-based models for complex systems research,” Physics of Life Reviews, 2024.

[24] A. Zhang, Y. Chen, L. Sheng, X. Wang, and T.-S. Chua, “On generative agents in recommendation,” in Proceedings of the 47th international ACM SIGIR conference on research and development in Information Retrieval, pp. 1807–1817, 2024.

[25] S. Peng, E. Kalliamvakou, P. Cihon, and M. Demirer, “The impact of ai on developer productivity: Evidence from github copilot,” arXiv preprint arXiv:2302.06590, 2023.

[26] J. Li, V. Lavrukhin, B. Ginsburg, R. Leary, O. Kuchaiev, J. M. Cohen, H. Nguyen, and R. T. Gadde, “Jasper: An end-to-end convolutional neural acoustic model,” arXiv preprint arXiv:1904.03288, 2019.

[27] A. Jaruga-Rozdolska, “Artificial intelligence as part of future practices in the architect’s work: Midjourney generative tool as part of a process of creating an architectural form,” Architectus, no. 3 (71, pp. 95–104, 2022.

[28] K. Basu, “Bridging knowledge gaps in llms via function calls,” in Proceedings of the 33rd ACM International Conference on Information and Knowledge Management, pp. 5556–5557, 2024.

[29] Z. Liu, T. Hoang, J. Zhang, M. Zhu, T. Lan, J. Tan, W. Yao, Z. Liu, Y. Feng, R. RN, et al., “Apigen: Automated pipeline for generating verifiable and diverse function-calling datasets,” Advances in Neural Information Processing Systems, vol. 37, pp. 54463–54482, 2024.

[30] H. Yang, S. Yue, and Y. He, “Auto-gpt for online decision making: Benchmarks and additional opinions,” arXiv preprint arXiv:2306.02224, 2023.

[31] I. Hettiarachchi, “Exploring generative ai agents: Architecture, applications, and challenges,” Journal of Artificial Intelligence General science (JAIGS) ISSN: 3006-4023, vol. 8, no. 1, pp. 105–127, 2025.

[32] A. Das, S.-C. Chen, M.-L. Shyu, and S. Sadiq, “Enabling synergistic knowledge sharing and reasoning in large language models with collaborative multi-agents,” in 2023 IEEE 9th International Conference on Collaboration and Internet Computing (CIC), pp. 92–98, IEEE, 2023.

[33] R. Surapaneni, J. Miku, M. Vakoc, and T. Segal, “Announcing the agent2agent protocol (a2a) – google developers blog,” 4 2025.

[34] Z. Duan and J. Wang, “Exploration of llm multi-agent application implementation based on langgraph+ crewai,” arXiv preprint arXiv:2411.18241, 2024.