Add Terminal-Bench evaluation result (30.0%)

#55

by burtenshaw HF Staff - opened Feb 19

←

Files changed (1) hide show

.eval_results/terminal_bench.yaml ADDED Viewed

+- dataset:
+    id: harborframework/terminal-bench-2.0
+    task_id: terminalbench_2
+  value: 30.0
+  date: '2025-11-01'
+  source:
+    url: https://www.tbench.ai/leaderboard/terminal-bench/2.0
+    name: Terminal-Bench Leaderboard
+    user: burtenshaw
+  notes: "agent: Terminus 2"