Benchmark
性能评测结果将在此处发布。
计划中的评测
- 工具调用准确率 — 不同模型在工具选择和参数填充上的准确率
- RAG 检索质量 — 不同向量库和 Embedding 模型的检索效果对比
- 多智能体协作效率 — Team 模式下任务完成质量和 token 消耗
- 延迟与吞吐 — 流式 / 非流式场景下的响应延迟
评测框架
评测代码位于 evaluation/ 目录,使用标准化的测试集和评分方法。
# 运行评测(待补充)
python -m evaluation.run --suite all
此页面将持续更新评测结果。