跳转至

Benchmark

性能评测结果将在此处发布。

计划中的评测

  • 工具调用准确率 — 不同模型在工具选择和参数填充上的准确率
  • RAG 检索质量 — 不同向量库和 Embedding 模型的检索效果对比
  • 多智能体协作效率 — Team 模式下任务完成质量和 token 消耗
  • 延迟与吞吐 — 流式 / 非流式场景下的响应延迟

评测框架

评测代码位于 evaluation/ 目录,使用标准化的测试集和评分方法。

# 运行评测(待补充)
python -m evaluation.run --suite all

此页面将持续更新评测结果。