AI Agent 基础了解

通用人工智能(AGI)的终极目标是创造一种能够像人类一样完成各种复杂任务,同时还能自然交流的通用人工智能。根据这个定义,AGI 的发展被分成了五个等级。

目前使用的大语言模型,比如ChatGPT、DeepSeek等,大多停留在第一级和第二级,可以处理许多知识性的问题,它们的能力主要在于接收指令,根据预训练时学到的知识进行推理并给出答案。 这种工作方式虽然和人类的思考有些相似,但它们在许多需要更高认知能力的任务上仍然力有不逮,比如无法长期记住信息,缺乏持续的记忆能力;面对复杂任务,难以像人类那样分解成具体的步骤并逐步完成,更不用说像人类一样灵活地调用各种工具,并将它们组合起来完成目标。

AI Agent ,也就是“智能体”,是通向更高级智能的关键一步。通过引入行动能力、长期记忆机制和工具整合能力,AI Agent 能弥补当前大语言模型的短板,使得它们不仅能够回答问题,还可以真正去“做”事情。

术语概念

  • LLM 端点:端点是模型服务的 “网络地址”,是大语言模型(Large Language Model)对外提供服务的网络访问入口,类似于 API 接口的 “地址门牌号”。开发者通过向端点发送请求,即可调用模型的文本生成、对话交互等能力,而无需本地部署庞大的模型文件。LLM端点负责管理模型的资源,包括内存和计算资源,并提供可扩展和容错的接口,用于向下游应用程序提供LLM输出。
  • Agent:“代理” 通常是指有意行动的表现。在哲学领域,Agent 可以是人、动物,甚至是具有自主性的概念或实体。
  • AI Agent:AI Agent(人工智能代理)是一种能够感知环境、进行决策和执行动作的智能实体。
  • RPA:RPA(Robotic Process Automation) 即机器人流程自动化,是一种软件自动化技术。RPA 通过模仿人类在电脑上的手动操作,如打开网站、点击鼠标、键盘输入等,实现业务流程的自动化。 RPA 系统可以自动处理大量重复的、基于规则的工作流程任务,例如在银行中,纸质文件输入、文件票据验证、从电子邮件和文件中提取数据、跨系统数据迁移、自动化 IT 应用操作等。 RPA 的主要优势包括减少劳动成本、提高生产力、出错率低、可监控的操作和开发周期短。它可以在金融、办公自动化、IT 流程自动化等多个领域发挥重要作用。
  • Copilot:即飞机的 “副驾驶”,这里 Copilot 指依托于底层大语言模型(LLM),用户只需说几句话,做出指示,它就可以创建类似人类撰写的文本和其他内容。
  • LangChain:LangChain 是一个强大的框架,旨在帮助开发人员使用语言模型构建端到端的应用程序,它提供了一套工具、组件和接口,可简化创建由大型语言模型 (LLM) 和聊天模型提供支持的应用程序的过程。LangChain 是一个语言模型集成框架,其使用案例与语言模型的使用案例大致重叠,包括文档分析和摘要、聊天机器人和代码分析。
  • LLM:大型语言模型(LLM)是一种人工智能(AI)算法,它使用深度学习技术和大量大型数据集来理解、总结、生成和预测新内容。
  • 感知记忆(Sensory Memory):感知记忆是信息处理的第一个阶段,它涉及对通过感官接收的信息进行短暂的存储。感知记忆通常只持续几百毫秒到几秒。就像你看到一张美丽的风景照片,感知记忆是大脑对刚刚通过感官接收到的信息的短暂存储。比如,你闭上眼睛后,还能在脑海中短暂地 “看到” 那张照片的颜色和形状,这就是感知记忆在起作用。
  • 短期记忆(Short-term memory):短期记忆就像是你的心智工作台,它能够暂时存储和处理少量信息。比如,当你试图记住一个电话号码时,你可能会重复念叨这个号码,直到你拨打它,这就是短期记忆在工作。所有的上下文学习(In-context Learning)都是利用模型的短期记忆来学习。
  • 长期记忆(Long-term memory):长期记忆就像是一个大仓库,能够存储我们的经验、知识和技能,而且这个存储时间可以非常长,甚至是一生。比如,你学会骑自行车的技能,即使多年不骑,你仍然记得怎么骑,这就是长期记忆。Agent 一般通过外部向量存储和快速检索实现。
  • Memory Stream:“记忆” 存储了 Agent 过去的观察、思考和行动序列。正如人脑依靠记忆系统来回溯利用先前的经验制定策略和做出决策一样,Agent 也需要特定的记忆机制来确保其熟练处理一系列连续任务。
  • MRKL(Modular Reasoning, Knowledge and Language):MRKL 可以理解为是一种构建 AI 的方式,用于自主代理的神经符号结构,它将推理、知识理解和语言能力作为不同的模块来处理。就像搭积木,每个积木代表 AI 的一个能力,组合在一起就能让 AI 进行复杂的思考和交流。
  • TALM(Tool Augmented Language Models):TOOL 增强的语言模型,是指通过工具或技术来增强的语言处理模型,通常通过微调来实现。 例如,一个 AI 聊天机器人,通过接入搜索引擎或其他数据库,能够更准确地回答问题或提供信息。
  • 子目标与分解(Subgoal and decomposition):在解决问题时,Agent 经常会把一个大目标分解成几个小目标(子目标),从而实现对复杂任务的高效处理。比如,准备一顿晚餐,你可能需要先去购物(子目标 1),然后准备食材(子目标 2),最后烹饪(子目标 3)。
  • 反思与完善(Reflection and refinement):Agent 可以对历史的动作进行自我批评和自我反思,从错误中吸取教训,并为未来的步骤进行改进,从而提高最终结果的质量。就像写完一篇文章后,你回顾并修改语法错误或不清晰的表达,使文章更加完善。
  • 思维链(Chain-of-thought, CoT):已成为一种标准的提示技术,用于提高模型在复杂任务中的表现。模型被要求 “一步一步地思考”,将艰巨的任务分解为更小更简单的步骤。 思维链将大任务转化为多个可管理的任务,并帮助人们理解模型的思维过程。思维链是解决问题时的逻辑推理过程。 比如,你想找出为什么天空是蓝色的,你可能会想:“光是由不同颜色组成的... 蓝色光波短,容易被大气散射... 所以天空看起来是蓝色的。 思维链提示,就是把一个多步骤推理问题,分解成很多个中间步骤,分配给更多的计算量,生成更多的 token,再把这些答案拼接在一起进行求解。
  • 思维树(Tree of Thoughts, ToT):通过在任务的每一步探索多种推理可能性来扩展思维链。它首先将问题分解为多个思考步骤,并在每个步骤中生成多个想法,从而创建一个树状结构。 搜索过程可以是 BFS(广度优先搜索)或 DFS(深度优先搜索)。思维树是一种图形化的思维链,它像一棵大树,每个分支代表一个思考的方向或想法,可以帮助我们组织和可视化复杂的思考过程。 ToT 做 4 件事:思想分解、思想生成器、状态评估器和搜索算法。
  • 自我反思(Self Reflection): 自我反思是指对自己的行为、想法或情感进行深入的思考和分析。就像在一天结束时,回想自己的所作所为,评估自己做得好的地方和需要改进的地方。
  • ReAct:将任务中单独的行为和语言空间组合在一起,从而使大模型的推理和行动融为一体。该模式帮助大模型与环境互动(例如使用维基百科搜索 API),并以自然语言留下推理的痕迹。 主要包括:Thought:Action\Observation。
  • Reflexion:一个让 AI Agent 具备动态记忆和自我反思能力以提高推理能力的框架。沿用了 ReAct 中的设置,并提供简单的二进制奖励。 每次行动后,AI Agent 都会计算一个启发式函数,并根据自我反思的结果决定是否重置环境以开始新的试验。这个启发式的函数可以判断是否当下的路径效率低下(耗时过长却没有成功)或包含幻觉(在环境中遇到一连串导致相同观察结果的相同行动),并在出现这两种情况下终止函数。
  • Self-ask:Self-ask 可能是指 AI 系统在处理问题时,自主提出问题以引导其思考过程。这类似于人类在面对问题时,会自问:“我接下来应该做什么?” 来推动解决问题的进程。
  • 后见链(Chain of Hindsight):通过向模型明确展示一系列过去的输出结果,鼓励模型改进自身的输出结果,使得下一次预测的行动比之前的试验取得更好的成绩。算法蒸馏(Algorithm Distillation)将同样的理念应用于强化学习任务中的跨集轨迹。

大语言模型

本质上,大语言模型是深层次的 API,核心功能是任务生成。从更高的维度来看,它主要具备以下四大能力:

  1. 文本分类与信息提取:大语言模型能够胜任文本分类任务。例如,当用户输入“我今天想去黄山景区玩”,可以通过模型判断用户的意图。根据输入内容,模型可以识别用户是否想去景区玩、想去哪个景区玩等,这是典型的文本分类任务。
  2. 问答能力(Question-Answering):问答是大语言模型的经典应用场景。例如,用户提问时,模型能够基于预训练阶段沉淀的知识,通过概率计算生成针对用户问题的适当回答。
  3. 文档总结:大语言模型能够对文档内容进行总结和压缩。例如,用户输入一篇论文,模型可以提取其中的核心观点、使用的方法、数据和验证公式,并生成简明扼要的总结。通过这一功能,模型可以省略与需求无关的内容,将相关信息提炼成简短的表述。
  4. 文本生成:文本生成是大语言模型最核心的能力之一。通过学习前后文字的概率关系,模型可以根据已知内容预测并生成后续文本。例如,在写作任务中,用户提供开头段落,模型能够根据上下文逻辑生成完整的故事情节。这种能力利用了大模型在语料学习中掌握的语言模式和语义关系。

局限性

  1. 幻觉问题:大模型在生成内容时可能会产生“幻觉”,即生成一些不存在或错误的信息。例如,当被问到“长颈鹿的腿有几只眼睛”时,早期模型可能会尝试回答一个不真实的问题。 尽管模型对常见的客观事实已有较好的处理,但在私有领域或专业领域,仍可能对非通用共识的内容存在误判。这需要通过模型微调或额外训练,帮助其识别领域内的客观事实。
  2. 指令遵循不稳定:在某些任务中,模型可能无法稳定地遵循指令。例如,当用户要求按照指定格式输出内容时,模型有时会偏离预设格式。这种情况通常通过优化 Prompt(指令)设计和精调来提升模型的指令遵循能力。
  3. 数据的时效性不足:大语言模型的训练数据往往存在滞后性,难以覆盖实时更新的知识。此外,由于预训练耗时长、资源消耗大,无法频繁更新所有知识。 为了解决这一问题,需要通过外挂知识库(RAG)技术,为模型提供实时知识和私有领域知识支持。RAG 通过向量化检索增强模型能力,让其能够回答实时性强、领域专属的问题,从而弥补预训练数据的时效性不足。

AI Agent

AI Agent(人工智能代理)是一种能够感知环境、进行决策和执行动作的智能实体。 一个基于大模型的 AI Agent 系统可以拆分为大模型、规划、记忆与工具使用四个组件部分。 img_1.png

AI Agent智能体,通常具备以下特点:

  • 自主性: AI Agent能够自主决策和执行任务,无需人类干预。
  • 适应性: 能够根据环境变化调整自己的行为。
  • 交互性: 能够与人类或其他AI Agent进行交流与合作。
  • 学习能力: 通过学习不断优化自己的行为和决策

Agents与Agentic Workflow的区别

二者的核心差异在于系统架构的自主权分配,直接决定了任务执行的灵活性与适用边界。用戏剧比喻:Workflow是严格遵循剧本的演员,而Agent是自带导演思维的即兴表演者。

  • Agentic Workflow(工作流):基于预设规则的线性编排,通过硬编码或配置化流程控制LLM与工具的执行顺序 (例如:先调用搜索API获取信息 → 再通过代码工具处理数据 → 最后调用邮件API发送结果)。其决策路径如同火车轨道,所有分支和工具调用在开发阶段已固定。
  • Agent(智能体):采用动态决策引擎,由LLM自主生成任务分解策略和工具调用序列(例如:面对“帮我策划旅行”的需求,可能自主选择先查天气 → 再比价机票 → 最后生成行程表)。 其决策路径更像GPS导航,根据实时反馈动态调整路线。

技术实现差异

  • Agentic Workflow:依赖有限状态机(FSM)或低代码平台实现流程编排,开发成本低但扩展性受限。
  • Agent:需要构建认知架构(如MetaGPT中的角色分工、AutoGPT的目标分解),通常结合记忆机制(VectorDB)、工具库(Toolkit)与强化学习实现持续进化。

AI agent框架

Spring AI

Spring 官方推出的开源框架(隶属于 Spring 生态系统),专为 Java 开发者设计,用于简化生成式人工智能(如大语言模型 LLM)在企业级应用中的集成与开发。 其核心目标是让开发者能像构建普通 Spring 应用一样便捷地接入和利用 AI 能力,无需深入底层 API 差异。

它的推出旨在适配当前 AI 潮流,方便开发者集成各类 AI 模型及对应的 API 接口,无需像以往那样为每个模型单独设置。其最主要的优点是:

  • 内置对文本生成(如 ChatGPT 式对话)、文本嵌入(向量化)、图像生成(如 DALL-E)、语音转文本、内容审核等功能的支持;
  • 与 Spring Boot 深度集成,极大简化开发流程。

代码示例:SpringAI 调用 AI 服务

@RestController
public class AIController {    
    private final OpenAiChatClient chatClient;    
    public String ask(@RequestParam String question) {        
        return chatClient.call(question); // 一行调用 AI 服务    
    }
}

2. Alibaba SpringAI

阿里巴巴的 Spring AI Alibaba 是基于 Spring AI 框架的企业级扩展,由阿里云团队开发,专注于为 Java 开发者提供与阿里云生态深度集成的 AI 应用开发解决方案。

它与原生 SpringAI 的核心差异在于本土化适配,针对国内常用模型做了优化,更适合国内开发人员使用,具体优势包括:

  • 集成阿里云生态组件:ARMS(应用监控)、Langfuse(可观测性)、Nacos(动态配置管理),实现生产环境的高可用治理;
  • 国产模型原生支持:默认支持通义千问等国产大模型,并优化中文场景的 Prompt 工程和 RAG(检索增强生成)能力;
  • 内置 RAG 核心组件:提供 DocumentReader、Splitter、Embedding 等组件,支持海量文档的向量化存储与边界合并。

代码示例:Alibaba SpringAI 实现模型交互

// 4行代码实现模型交互
@Autowired 
private ChatClient chatClient;

public String ask(String question) {    
    return chatClient.call(question).getContent(); 
}

核心框架对比

框架定位核心功能优势劣势典型场景
langchain4jJava 版 LangChain,简化 LLM 集成统一 LLM/向量库 API、Agent 工具链、RAG 流水线、多轮对话管理1. Java 生态友好:无缝对接 Spring、Quarkus 等框架
2. 异步编程优化:支持大规模数据集处理
3. 多语言协作:通过统一 API 兼容 Python/JavaScript 项目
1. 企业级支持不足:开源社区活跃但缺乏商业级技术支持
2. 功能待完善:部分高级功能(如复杂 Agent 决策链)尚未成熟
聊天机器人、RAG 知识库、多模态交互系统
spring-aiSpring 生态 AI 开发框架,支持微服务架构模型加载/预测、数据预处理、分布式训练、硬件加速适配、与 Spring Boot/Cloud 深度集成1. 企业级特性:依赖注入、配置管理、监控体系
2. 低学习成本:Spring 开发者可快速上手
3. 多框架兼容:支持 TensorFlow、PyTorch 等主流库
1. Java 版本限制:需 Java 17+,不兼容 Java 8
2. 模型适配有限:对 LLM 支持较弱,需依赖第三方库
传统企业 AI 化改造、AI 微服务、数据分析平台
spring-ai-alibabaSpring AI 的阿里云扩展,聚焦云原生开发阿里云大模型(如通义千问)集成、Prompt 模板管理、异步任务编排、私有化部署支持1. 阿里云深度整合:无缝对接阿里云 OSS、函数计算等服务
2. 中文优化:内置中文 NLP 工具包
3. 企业级服务:提供商业技术支持和私有化部署方案
1. 云厂商绑定:对非阿里云环境适配困难
2. 功能封闭:部分高级功能需付费解锁
阿里云用户的 AI 中台建设、企业级智能客服、数据合规场景

同类产品对比

产品核心差异适用场景对比维度
JBoltAI收费框架,提供 AIGS 解决方案(智能表单/搜索/对话)、低代码开发平台、私有化部署支持企业级数智化转型、复杂业务系统改造企业级功能:支持多模态交互、高并发处理,提供商业授权和定制服务
H2O.ai端到端 GenAI 云平台,支持文档分析、自动化数据标注、无代码模型微调金融风控、医疗影像分析、大规模数据处理全栈能力:涵盖数据预处理、模型训练、部署监控,支持多模态 OCR
Deeplearning4jJava 深度学习框架,支持 CNN/RNN/LSTM 等模型,与 Hadoop/Spark 集成图像识别、时间序列预测、推荐系统分布式训练:支持 GPU 加速和集群资源管理
TensorFlow Serving专注模型部署,支持多版本管理、灰度发布、GPU 优化,兼容 TensorFlow/PyTorch 模型高并发推理服务、边缘计算设备高性能推理:内置批处理优化和负载均衡策略
KubeflowMLOps 平台,基于 Kubernetes 编排 ML 工作流,支持分布式训练、模型服务、实验跟踪大规模模型训练、生产级部署流水线云原生架构:与 K8s 深度集成,支持混合云/私有化部署

关键特性横向对比

特性langchain4jspring-aispring-ai-alibabaJBoltAIH2O.ai
编程语言JavaJavaJavaJavaPython/Scala
企业级支持社区驱动(开源)社区驱动(开源)阿里云商业支持付费授权(企业版)云服务订阅
LLM 支持OpenAI、Hugging Face 等 15+ 模型需依赖第三方库通义千问、LLaMA 等国内外主流模型自研模型(如 H2O Danube)
微服务架构支持(需集成 Spring)原生支持原生支持支持云原生部署
中文优化基础支持基础支持深度优化(分词/实体识别)深度优化部分支持
RAG 能力内置工具链需自定义实现阿里云知识库集成可视化配置文档分析模块
部署方式JAR 包Spring Boot 应用阿里云函数计算/容器服务私有化套件云服务/本地部署

Multi-Agent框架

1. AutoGen

GitHub:https://github.com/microsoft/autogen

由微软推出的一个框架,支持创建和管理多个自主Agent,协同完成复杂的任务。这个框架的灵活性极高,可以根据需求定义不同类型的Agent, 包括特定任务的专家、通用助手、策略制定者等。AutoGen提供了一个虚拟的对话空间,让Agent之间可以相互沟通和协作,并支持多方对话和协作, 包括文本、音频或视频形式。

2. LangGraph

GitHub:https://github.com/langchain-ai/langgraph

基于LangChain打造的Multi-Agent框架,通过引入有向循环图的理念,打造了一个极具灵活性和可定制性的解决方案。 LangGraph不仅适用于各类Multi-Agent任务,还能支持几乎所有的多智能体编排应用,使其成为那些面临复杂任务、追求高度灵活性和定制化能力的开发者的首选工具。

3. OpenAI Swarm

GitHub:https://github.com/openai/swarm

OpenAI推出的一个轻量级多智能体编排框架,致力于简化智能体的构建过程以及智能体间的交接操作(即Handoffs)。 Swarm框架特别适合初学者,让他们能够轻松入门多智能体技术,快速搭建演示项目。Swarm的智能体组件可以配备工具、指令和其他参数来执行特定任务。

4. crewAI

GitHub:https://github.com/crewAIInc/crewAI

CrewAI推出的高性能多智能体协作框架,专注于复杂任务的分布式协同与动态角色分配。该框架提供直观的API设计,允许开发者通过声明式代码快速定义智能体角色、目标及交互规则,支持链式任务流、异步通信和实时状态监控。 CrewAI强调"以任务为中心"的编排理念,内置任务优先级调度、结果聚合模块,适用于自动化工作流、数据管道和科研计算等场景,助力开发者构建工业级多智能体系统。

LangChain

LangChain 是一个开源框架,专为构建基于大型语言模型(LLM,如 GPT-3/4、Claude、LLaMA 等)的复杂应用程序而设计。 它的核心目标是解决 LLM 应用的两大痛点:如何将 LLM 与外部数据和工具连接,以及如何组织多个 LLM 调用形成复杂工作流。

可以把 LangChain 理解为 LLM 的“操作系统”——它提供了标准化的接口和模块,让开发者无需从头搭建底层逻辑,就能快速组装出能“思考、记忆、使用工具、连接数据”的智能应用。 LangChain 是一个语言模型集成框架,其使用案例与语言模型的使用案例大致重叠,包括文档分析和摘要、聊天机器人和代码分析。

LangChain 的核心组件:六大模块

  • 模型集成(Models):统一对接各类的LLM和聊天模型,提供标准化调用接口
  • 提示工程(Prompts):优化输入给LLM的提示词,提升输出质量
  • 索引(Indexes):将非结构化数据(文本、PDF、数据库等)转化为 LLM 能理解的格式,解决 LLM “知识截止”和“数据实时性”问题。
  • 链(Chains):将多个 LangChain 组件(模型、提示、索引等)串联起来,形成复杂任务的处理流程。
  • 记忆(Memory):解决 LLM “无状态”问题,让应用能记住对话历史、用户偏好等信息。
  • 代理(Agents):赋予 LLM “自主思考”能力——当遇到无法直接回答的问题时,LLM 能自主选择调用外部工具(如计算器、搜索引擎、API),并基于工具结果生成答案。

LangGraph

LangGraph 是由 LangChain 团队开发的开源 MIT 许可框架,核心定位是为构建有状态管理、多智能体协作能力的复杂 AI 应用提供基础设施,

其核心思想是将智能体应用构建成一个状态图(State Graph)。这个图由节点和边组成,清晰地定义了数据如何在不同模块间流动 通过 “图结构(StateGraph)” 组织任务流程,解决传统线性框架(如 LangChain 早期版本)在动态流程控制、长时状态跟踪上的不足, 尤其适配 LLM(大语言模型)驱动的智能体系统开发。

  • 状态(State):这是整个图的核心,一个所有节点共享的中央数据对象。你可以把它想象成一个“数据总线”或共享内存。开发者需要预先定义 State 的结构,每个节点在执行时都可以读取和更新这个 State 对象 。
  • 节点(Nodes):代表工作流中的一个计算单元或一个步骤。每个节点通常是一个 Python 函数,它接收当前的 State 作为输入,执行特定任务(如调用 LLM、执行工具、处理数据),然后返回对 State 的更新。
  • 边(Edges):连接节点,定义了工作流的路径,即数据在 State 更新后应该流向哪个节点。
    • 简单边(Simple Edges):定义了固定的、无条件的流向,用于实现链式工作流。
    • 条件边(Conditional Edges): 用于实现路由逻辑。它会根据一个函数的输出来决定接下来应该走向哪个节点,从而实现流程的分支 。
  • 检查点(Checkpointer): LangGraph 提供了持久化机制,可以在每一步执行后自动保存 State 的状态。这对于构建需要长期记忆、可中断和恢复、或需要 Human-in-the-Loop 的复杂业务流程至关重要。 AI Agent 是“目标产物”(具备自主能力的智能体),LangChain 和 LangGraph 是“实现工具”(用于构建 AI Agent 的框架)
概念核心定位本质属性典型场景
AI Agent具备“感知环境→决策→行动→反馈”闭环能力的智能体,能自主完成复杂任务目标产物(智能系统)自动驾驶(感知路况→规划路线→控制车辆)、智能客服(理解问题→调用工具→生成回答)
LangChain集成 LLM、工具、数据等组件的框架,通过“链(Chains)”串联组件,简化 LLM 应用开发开发工具(组件集成框架)简单 RAG(检索增强生成)、单步骤工具调用(如“查天气+整理结果”)
LangGraph基于“图结构”的流程编排框架,专注于状态管理和复杂流程(循环、分支、多角色协作)开发工具(流程编排框架)多智能体协作(规划→执行→审核)、迭代任务(代码生成→测试→修改→再测试)

评估 AI Agent 效果的标准

  1. 主观评估:在没有数据和人工标注的情况下,初始阶段可能需要进行主观评估。这包括请专家对 AI 的回答进行人工评分,或者将问题设计成图灵测试,让专家分辨 AI 生成的答案和人类的答案。这种评估方法以人类能力作为基线,但由于涉及人工评分,成本相对较高。
  2. 端到端任务评估:如果有一定的数据,可以基于端到端任务的指标来评估 AI Agent 的性能。例如,在文档智能领域,可以关注 OCR 提取的准确率等具体任务指标。这种方法侧重于任务的具体要求,更注重 AI Agent 在特定领域的表现。
  3. 通用数据集评估:目前常用的是一些通用数据集,如 ALFWorld、HotPotQA 和 HumanEval 等,用于测试 AI Agent 在决策、问答和编程等多个方向的性能。这种方法强调综合性能,但可能无法完全覆盖所有应用场景。
  4. Benchmark 形式数据集评估:新兴的评估方法包括一些综合多个领域的 Benchmark 形式的数据集,如清华发布的 AgentBench 等。这些数据集跨足多个领域,对 AI Agent 进行全面评测,使评估更具广度。
  5. 工程层面评估:从工程层面考虑,可以评估系统的稳健性,包括平均报错率、与底层 API 交互的次数等。这种评估方法关注 AI Agent 的工程实现,有助于了解系统的鲁棒性和效率。
  6. 系统层面评估:最终还需要考虑整个系统的性能,包括端到端的运行效率、时延、成本等。这可以通过评估相同任务下不同 AI Agent 的迭代次数、交互次数和整体耗时来实现。

AgentBench: LLM 的 Agent 能力评估标准,

用来评估 LLM 作为 Agent 在各种真实世界挑战和 8 个不同环境中的能力表现(如推理和决策能力)。这 8 个环境分别是:操作系统、数据库、知识图谱、卡牌对战游戏、家务事、横向思维谜题、网络购物、网页浏览。

GPT-4 性能遥遥领先,开源模型能力显著弱于闭源模型。研究者选择了 25 种主流的大模型 API 来进行 Agent 能力评估, 涵盖了闭源模型(如 OpenAI 的 GPT-4、 GPT-3.5 等)和开源模型( LLaMA 2 和 Baichuan 等)。 根据测试结果来看, GPT-4 基本上在所有环境中都占据领先地位,是名副其实的当前大模型能力边界。 闭源模型 Anthropic 的 Claude 以及 OpenAI 的 GPT-3.5 水平相差不大,而常见的一些开源模型 Vicuna、 Dolly 等由于尺寸和闭源模型相差了至少一个数量级,性能评估显著较弱。

虽然 LLM 能够在自然语言交流等 NLP 上达到基本的类人水平,但在关注行动有效性、上下文长度记忆、多轮对话一致性和代码生成执行等 Agent 重要能力上的表现仍旧相对落后,基于 LLM 的 AI Agent 的发展空间仍具潜力。

目前 AI Agent 大致可以划分为两大类:

  • 自主智能体,力图实现复杂流程自动化。当给定自主智能体一个目标时,它们能自行创建任务、完成任务、创建新任务、重新确定任务列表的优先级、完成新的首要任务,并不断重复这个过程,直到完成目标。准确度要求高,因而更需要外部工具辅助减少大模型不确定性的负面影响。
  • 智能体模拟,力图更加拟人可信。 分为强调情感情商的智能体以及强调交互的智能体,后者往往是在多智能体环境中,可能涌现出超越设计者规划的场景和能力,大模型生成的不确定性反而成为优势,多样性使其有望成为 AIGC 重要组成部分。

评测的流程

  1. 明确评测指标与维度: 首先,需要定义评测的指标和维度。具体来说,就是明确智能体需要提供的主要能力,以及每项能力的评价标准。需要回答的问题是:哪些能力是关键的?回答的好坏如何定义?这一步是评测的基础, 关系到后续数据集的构建与评估。
  2. 构建评测数据集:根据已定义的能力维度,构建与智能体场景相关的数据集。例如,如果智能体主要应用于文旅景区,需要准备一组与景区相关的问答数据(QA 对)作为评测的基础数据集。 这些数据应覆盖智能体的核心功能,确保评测结果具备代表性。
  3. 评测方式:评测可以采用以下两种方式:
    • 主观评测:通过人工评估模型的回答质量。人工评测的人员根据模型的回答打标签或评分,判断其是否符合预期。
    • 自动化评测:利用更强的模型对智能体的回答进行自动化评价。例如,通过一个更高水平的模型来分析回答的正确性和质量。这种方式可以辅助主观评测,提高效率。
  4. 生成评测报告:评测结束后,需要生成一份详细的评测报告。报告应包含以下几个方面:
    • 模型效果:包括回答的准确性、相关性等核心指标。
    • 首字耗时(TTFT):评估模型首次响应时间是否满足用户场景的需求,判断是否在合理范围内。
  5. 完成评测后,可以通过评测报告明确智能体的不足之处,例如:
    • 哪些案例(bad case)尚未能有效回答用户问题。
    • 哪些场景下首字耗时偏长,用户体验受到影响。

根据这些问题,针对性地优化智能体,包括调整 Prompt、优化工作流(Workflow)或更新知识库中的数据与知识内容。通过这一评测与优化的闭环机制,可以不断提升智能体的效果,使其在回答质量和响应速度上更加贴合实际需求。

实际落地过程中的主要挑战

  • 行业认知与流程重塑:要成功将 AI Agent 应用于某个行业,首先需要对该行业有深入的了解与认知。这包括对行业原有逻辑和流程的深刻理解,以及对行业知识和数据的充分沉淀。 只有在对行业特点和需求有全面掌握的前提下,才能有效地利用 AI Agent 重塑行业流程,真正发挥其价值。
  • 效果稳定性与响应时间:AI Agent 的效果稳定性和响应速度是影响用户体验的关键因素。
    • 效果稳定性:大语言模型在某些场景下可能表现不够稳定,因此在搭建 AI Agent 时,如何通过工作流(Workflow)提升其稳定性和可控性,成为一个重要目标。
    • 响应时间:为了保障用户体验,AI Agent 的首次响应时间(TTFT,Time to First Token)必须在合理范围内,避免因回复过慢而影响用户的使用感受。
  • 充分发挥大模型的能力:AI Agent 的落地需要深刻理解大语言模型的优势与不足,并在此基础上制定最佳实践方案。具体而言,需要明确大模型的局限性,并通过优化 Prompt 等方式,充分挖掘和利用其优势。这不仅能提升模型的表现,也能有效规避潜在的问题。

参考资料

  1. 万字长文解析 AI Agent 技术原理和应用open in new window - 华为云开发者联盟
  2. RAG在B站大会员中心数据智能平台的应用实践open in new window - 哔哩哔哩技术
  3. 智能体框架:11 个顶级 AI Agent 框架!open in new window
  4. 2025年,AI Agent干货资料、论文综述都在这了open in new window - 大语言模型论文
  5. AI Agent行业深度:框架拆解、应用方向、应用领域及相关公司深度梳理open in new window - 慧博智能投研
  6. 最新AI Agent万字综述分享!open in new window - 王月凡,支付宝百宝箱团队
  7. Agent 架构综述:从 Prompt 到 Contextopen in new window - 火山引擎开发者社区
  8. 《综述:全新大语言模型驱动的Agent》——4.5万字详细解读复旦NLP和米哈游最新Agent Surveyopen in new window - 兽族机枪兵
  9. 细说复旦大学,斯坦福大学智能代理AI-Agentopen in new window - 爱吃牛油果的璐璐
  10. The Rise and Potential of Large Language Model Based Agents: A Surveyopen in new window
  11. Generative Agents: Interactive Simulacra of Human Behavioropen in new window
最近更新 2025/8/13 21:41:44