Benchmark¶

性能评测结果将在此处发布。

计划中的评测¶

工具调用准确率 — 不同模型在工具选择和参数填充上的准确率
RAG 检索质量 — 不同向量库和 Embedding 模型的检索效果对比
多智能体协作效率 — Swarm / Subagent / as_tool() 等模式下任务完成质量和 token 消耗
延迟与吞吐 — 流式 / 非流式场景下的响应延迟

评测框架¶

评测代码位于 evaluation/ 目录，使用标准化的测试集和评分方法。

# 运行评测（待补充）
python -m evaluation.run --suite all

此页面将持续更新评测结果。

shibing624/agentica « 上一章