agentica

Benchmark

性能评测结果将在此处发布。

计划中的评测

工具调用准确率 — 不同模型在工具选择和参数填充上的准确率
RAG 检索质量 — 不同向量库和 Embedding 模型的检索效果对比
多智能体协作效率 — Team 模式下任务完成质量和 token 消耗
延迟与吞吐 — 流式 / 非流式场景下的响应延迟

评测框架

评测代码位于 evaluation/ 目录，使用标准化的测试集和评分方法。

# 运行评测（待补充）
python -m evaluation.run --suite all

此页面将持续更新评测结果。

This site is open source. Improve this page.