Spaces:

Zen0
/

auscyberbench-evaluator

Sleeping

Zen0 commited on Oct 24, 2025

Commit

35bed4c

1 Parent(s): d9c0e48

Fix dataset schema mismatch: load JSON files directly

The dataset loader has a restricted schema (9 columns) but data has 35 columns.
Bypass the loader entirely and load JSONL files directly using json reader.

Changed:
- load_dataset('Zen0/AusCyberBench', name=subset, split='train')
+ load_dataset('json', data_files='hf://datasets/Zen0/AusCyberBench/data/{subset}/*.jsonl')

This allows the full schema to be inferred from the actual data files.

Files changed (1) hide show

app.py +6 -1

app.py CHANGED Viewed

@@ -77,7 +77,12 @@ def load_benchmark_dataset(subset="australian", num_samples=200):
     global dataset_cache
     if dataset_cache is None:
-        dataset_cache = load_dataset("Zen0/AusCyberBench", name=subset, split="train")
     # Proportional sampling
     import random

     global dataset_cache
     if dataset_cache is None:
+        # Load data files directly as JSON to avoid schema mismatch issues
+        dataset_cache = load_dataset(
+            "json",
+            data_files=f"hf://datasets/Zen0/AusCyberBench/data/{subset}/*.jsonl",
+            split="train"
+        )
     # Proportional sampling
     import random