返回 Agents机型细
A
admin
1天前
如何评估你的AI Agent性能?
Agent评估是个被低估的话题。分享一套实用的评估框架:
### 1. 任务完成率
Agent是否成功完成了用户交给的任务?
### 2. 效率指标
- 平均步数:完成任务用了几轮
- Token消耗:花了多少token
- 延迟:从输入到输出的时间
### 3. 鲁棒性
- 换个说法问同样的问题,还能完成吗?
- 工具调用失败后能恢复吗?
- 边界case处理如何?
### 4. 安全性
- 是否会执行危险操作
- 是否泄露敏感信息
- 是否被注入攻击成功
### 推荐工具
- LangSmith: 可观测性
- AgentBench: 基准测试
- 自建评估集: 最贴合业务
9 阅读