Spaces:

Zen0
/

auscyberbench-evaluator

Sleeping

Zen0 commited on Oct 24

Commit

ac9d3f4

1 Parent(s): b124e72

Add debug logging and improve answer extraction

Issue: All predictions returning empty string (0% accuracy)
Need to see what models are actually generating.

Changes:
1. Added debug logging for first 3 responses to see actual output
2. Improved answer extraction with 5 patterns:
- Word boundary: \b([A-D])\b
- With punctuation: A. A) A: A,
- Answer phrases: 'Answer: A' or 'Answer is A'
- First character if A-D
- Any A-D in first 50 chars

This should handle various model response formats.

Files changed (1) hide show

app.py +30 -0

app.py CHANGED Viewed

@@ -178,11 +178,33 @@ def extract_answer(response, task):
     response = response.strip()
     if task.get('task_type') == 'multiple_choice':
         match = re.search(r'\b([A-D])\b', response, re.IGNORECASE)
         if match:
             return match.group(1).upper()
         if response and response[0].upper() in ['A', 'B', 'C', 'D']:
             return response[0].upper()
         return ""
     else:
         return response[:100]
@@ -260,10 +282,18 @@ def evaluate_single_model(model_name, tasks, use_4bit=True, temperature=0.7, max
                     skip_special_tokens=True
                 )
                 predicted = extract_answer(response, task)
                 correct = task.get('answer', '')
                 is_correct = predicted.upper() == correct.upper()
                 results.append({
                     'task_id': task.get('task_id'),
                     'category': task.get('category'),

     response = response.strip()
     if task.get('task_type') == 'multiple_choice':
+        # Try multiple extraction patterns
+        # Pattern 1: Letter with word boundary
         match = re.search(r'\b([A-D])\b', response, re.IGNORECASE)
         if match:
             return match.group(1).upper()
+        # Pattern 2: Letter with punctuation (A. A) A: etc)
+        match = re.search(r'([A-D])[.):,]', response, re.IGNORECASE)
+        if match:
+            return match.group(1).upper()
+        # Pattern 3: "Answer: A" or "Answer is A"
+        match = re.search(r'(?:answer|choice)(?:\s+is)?\s*:?\s*([A-D])\b', response, re.IGNORECASE)
+        if match:
+            return match.group(1).upper()
+        # Pattern 4: First character if it's A-D
         if response and response[0].upper() in ['A', 'B', 'C', 'D']:
             return response[0].upper()
+        # Pattern 5: Look anywhere in first 50 chars for isolated letter
+        first_part = response[:50]
+        for char in first_part:
+            if char.upper() in ['A', 'B', 'C', 'D']:
+                return char.upper()
         return ""
     else:
         return response[:100]
                     skip_special_tokens=True
                 )
+                # Debug: print first few responses
+                if i < 3:
+                    print(f"DEBUG Task {i}: Response='{response}'")
                 predicted = extract_answer(response, task)
                 correct = task.get('answer', '')
                 is_correct = predicted.upper() == correct.upper()
+                # Debug: print extraction result
+                if i < 3:
+                    print(f"DEBUG Task {i}: Predicted='{predicted}', Correct='{correct}', Match={is_correct}")
                 results.append({
                     'task_id': task.get('task_id'),
                     'category': task.get('category'),