agentica

Benchmark

性能评测结果将在此处发布。

计划中的评测

评测框架

评测代码位于 evaluation/ 目录,使用标准化的测试集和评分方法。

# 运行评测(待补充)
python -m evaluation.run --suite all

此页面将持续更新评测结果。