Spaces:

Sidharth1743
/

grid2op-openenv

Sleeping

App Files Files Community

grid2op-openenv / inference.py

Sidharth1743

space snapshot

a754878 about 1 month ago

raw

history blame contribute delete

83.8 kB

	from __future__ import annotations

	import csv
	import json
	import logging
	import os
	import re
	import argparse
	from dataclasses import dataclass
	from datetime import datetime
	from pathlib import Path
	from statistics import mean, pstdev
	from time import perf_counter
	from typing import Any, Dict, Sequence

	import requests
	from dotenv import load_dotenv
	from openai import OpenAI
	from openenv.core.containers.runtime.providers import LocalDockerProvider

	from grid2op_env import BaselineRequest, BaselineScores, GridAction, GridEnv
	from grid2op_env.models import (
	GridObservation,
	RedispatchGeneratorContext,
	ScenarioMode,
	TaskId,
	)
	from grid2op_env.server.tasks import TASKS, benchmark_tiers_for_task


	def configure_logging(level: int = logging.WARNING) -> None:
	root_logger = logging.getLogger()
	if root_logger.handlers:
	root_logger.setLevel(level)
	return
	logging.basicConfig(
	level=level,
	format="%(asctime)s \| %(levelname)s \| %(name)s \| %(message)s",
	datefmt="%Y-%m-%d %H:%M:%S",
	)


	def _load_env() -> None:
	env_dir = Path(__file__).resolve().parent
	candidate_paths = [
	Path.cwd() / ".env",
	env_dir / ".env",
	env_dir.parent / ".env",
	]
	for path in candidate_paths:
	if path.exists():
	load_dotenv(path, override=False)


	_load_env()
	configure_logging()
	logger = logging.getLogger(__name__)

	TASK_SEED_OVERRIDES: dict[TaskId, int] = {
	"single_fault": 1,
	"n_minus_1": 4,
	"cascade_prevent": 1,
	"multi_stage_cascade": 4,
	}

	HF_ROUTER_BASE_URL = "https://router.huggingface.co/v1"
	HF_ROUTER_DEFAULT_MODEL = "openai/gpt-oss-20b:groq"
	DEFAULT_ENV_BASE_URL = "https://sidharth1743-grid2op-openenv.hf.space"
	DEFAULT_BENCHMARK_NAME = "grid2op_env"
	SUBMISSION_SUCCESS_SCORE_THRESHOLD = float(
	os.getenv("SUCCESS_SCORE_THRESHOLD", "0.1")
	)


	@dataclass
	class BaselineConfig:
	model: str
	max_tokens: int
	temperature: float
	top_p: float
	presence_penalty: float
	top_k: int
	min_p: float
	repetition_penalty: float
	enable_thinking: bool
	num_seeds: int
	seed_start: int
	scenario_mode: ScenarioMode


	@dataclass
	class SimulationOutcome:
	candidate_index: int
	action: GridAction
	trace: dict[str, Any]
	done: bool
	simulated_reward: float
	max_rho: float
	overloaded_line_ids: list[int]
	disconnected_lines: list[int]
	convergence_failed: bool
	exceptions: list[str]
	raw_result: dict[str, Any]


	def _default_model_name() -> str:
	return os.environ.get("MODEL_NAME", HF_ROUTER_DEFAULT_MODEL)


	def _llm_api_base_url() -> str:
	return os.environ.get("API_BASE_URL", HF_ROUTER_BASE_URL)


	def _build_llm_client() -> OpenAI:
	api_key = os.environ.get("HF_TOKEN") or os.environ.get("API_KEY")
	if not api_key:
	raise RuntimeError(
	"Set HF_TOKEN or API_KEY to use Hugging Face Router inference."
	)
	return OpenAI(
	base_url=_llm_api_base_url(),
	api_key=api_key,
	)


	def _chat_completion_kwargs(
	llm_config: BaselineConfig,
	prompt: str,
	) -> dict[str, Any]:
	request_kwargs: dict[str, Any] = {
	"model": llm_config.model,
	"messages": [{"role": "user", "content": prompt}],
	"max_tokens": llm_config.max_tokens,
	"temperature": llm_config.temperature,
	"top_p": llm_config.top_p,
	"presence_penalty": llm_config.presence_penalty,
	"stream": False,
	}
	return request_kwargs


	def log_start(task: str, env: str, model: str) -> None:
	print(f"[START] task={task} env={env} model={model}", flush=True)


	def log_step(
	step: int,
	action: GridAction,
	reward: float,
	done: bool,
	error: str \| None,
	) -> None:
	error_val = error if error else "null"
	done_val = str(done).lower()
	action_str = json.dumps(action.model_dump(), separators=(",", ":"), sort_keys=True)
	print(
	f"[STEP] step={step} action={action_str} reward={reward:.2f} done={done_val} error={error_val}",
	flush=True,
	)


	def log_end(success: bool, steps: int, score: float, rewards: list[float]) -> None:
	rewards_str = ",".join(f"{reward:.2f}" for reward in rewards)
	print(
	f"[END] success={str(success).lower()} steps={steps} score={score:.3f} rewards={rewards_str}",
	flush=True,
	)


	def _docker_image_name() -> str \| None:
	return os.environ.get("LOCAL_IMAGE_NAME") or os.environ.get("IMAGE_NAME")


	def _create_sync_env_client(
	preferred_base_url: str \| None = None,
	) -> tuple[Any, str, str]:
	image_name = _docker_image_name()
	if image_name:
	provider = LocalDockerProvider()
	base_url = provider.start_container(image_name)
	provider.wait_for_ready(base_url)
	async_client = GridEnv(base_url=base_url, provider=provider)
	return (
	async_client.sync(),
	base_url,
	f"docker image {image_name}",
	)

	base_url = preferred_base_url or os.environ.get(
	"GRID2OP_BASE_URL", DEFAULT_ENV_BASE_URL
	)
	return GridEnv(base_url=base_url).sync(), base_url, f"base_url {base_url}"


	def run_submission_episodes(task_ids: Sequence[TaskId] \| None = None) -> dict[TaskId, float]:
	benchmark_name = os.environ.get("GRID2OP_BENCHMARK", DEFAULT_BENCHMARK_NAME)
	scenario_mode = os.environ.get("GRID2OP_SCENARIO_MODE", "benchmark")
	selected_task_ids = list(task_ids) if task_ids is not None else list(TASKS.keys())
	llm_config = BaselineConfig(
	model=_default_model_name(),
	max_tokens=int(os.environ.get("MAX_TOKENS", "300")),
	temperature=float(os.environ.get("TEMPERATURE", "0.7")),
	top_p=float(os.environ.get("TOP_P", "0.8")),
	presence_penalty=float(os.environ.get("PRESENCE_PENALTY", "1.5")),
	top_k=int(os.environ.get("TOP_K", "20")),
	min_p=float(os.environ.get("MIN_P", "0.0")),
	repetition_penalty=float(os.environ.get("REPETITION_PENALTY", "1.0")),
	enable_thinking=False,
	num_seeds=int(os.environ.get("NUM_SEEDS", "5")),
	seed_start=int(os.environ.get("SEED_START", "0")),
	scenario_mode=scenario_mode, # type: ignore[arg-type]
	)
	client = _build_llm_client()
	task_scores: dict[TaskId, float] = {}
	try:
	env_ctx, grader_base_url, env_source = _create_sync_env_client()
	env_ctx.connect()
	except Exception as exc:
	logger.warning(
	"Submission runner could not connect to environment source=%s error=%s",
	locals().get("env_source", "unknown"),
	exc,
	)
	for task_id in selected_task_ids:
	log_start(task=task_id, env=benchmark_name, model=llm_config.model)
	log_end(success=False, steps=0, score=0.01, rewards=[])
	task_scores[task_id] = 0.01
	return task_scores

	with env_ctx as env:
	for task_id in selected_task_ids:
	task = TASKS[task_id]
	benchmark_tiers = benchmark_tiers_for_task(task_id)
	task_num_seeds = TASK_SEED_OVERRIDES.get(task_id, llm_config.num_seeds)
	task_episode_scores: list[float] = []
	for benchmark_tier in benchmark_tiers:
	for seed in range(
	llm_config.seed_start, llm_config.seed_start + task_num_seeds
	):
	rewards: list[float] = []
	steps_taken = 0
	score = 0.0
	success = False
	log_start(task=task_id, env=benchmark_name, model=llm_config.model)
	try:
	result = env.reset(
	task_id=task_id,
	seed=seed,
	difficulty_level=1,
	scenario_mode=scenario_mode, # type: ignore[arg-type]
	benchmark_tier=benchmark_tier,
	)
	state = env.state()
	step_idx = 0

	while not result.done and step_idx < task.max_steps:
	action, _planning_trace = choose_action_with_qwen(
	client=client,
	env=env,
	episode_id=state.episode_id,
	task_id=task_id,
	observation=result.observation,
	step_count=step_idx,
	max_steps=task.max_steps,
	include_task_description=(step_idx == 0),
	llm_config=llm_config,
	)
	error: str \| None = None
	try:
	result = env.step(action)
	except Exception as exc:
	error = str(exc)
	log_step(
	step=step_idx + 1,
	action=action,
	reward=0.0,
	done=True,
	error=error,
	)
	raise
	reward = float(result.reward or 0.0)
	rewards.append(reward)
	steps_taken = step_idx + 1
	log_step(
	step=steps_taken,
	action=action,
	reward=reward,
	done=bool(result.done),
	error=error,
	)
	step_idx += 1

	state = env.state()
	response = requests.post(
	f"{grader_base_url}/grader",
	json={
	"task_id": task_id,
	"episode_log": [
	entry.model_dump() for entry in state.episode_log
	],
	},
	timeout=60,
	)
	response.raise_for_status()
	score = float(response.json()["score"])
	score = max(0.01, min(0.99, score))
	task_episode_scores.append(score)
	success = score >= SUBMISSION_SUCCESS_SCORE_THRESHOLD
	finally:
	log_end(
	success=success,
	steps=steps_taken,
	score=score,
	rewards=rewards,
	)
	task_scores[task_id] = (
	round(mean(task_episode_scores), 6) if task_episode_scores else 0.0
	)
	return task_scores


	def run_baseline_suite(
	base_url: str,
	config: BaselineRequest \| None = None,
	task_ids: Sequence[TaskId] \| None = None,
	) -> BaselineScores:
	timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
	run_paths = prepare_run_paths(timestamp)
	attach_file_logger(run_paths["log"])

	request_config = config or BaselineRequest(model=_default_model_name())
	llm_config = BaselineConfig(
	model=request_config.model,
	max_tokens=request_config.max_tokens,
	temperature=request_config.temperature,
	top_p=request_config.top_p,
	presence_penalty=request_config.presence_penalty,
	top_k=request_config.top_k,
	min_p=request_config.min_p,
	repetition_penalty=request_config.repetition_penalty,
	enable_thinking=request_config.enable_thinking,
	num_seeds=request_config.num_seeds,
	seed_start=request_config.seed_start,
	scenario_mode=request_config.scenario_mode,
	)

	client = _build_llm_client()
	selected_task_ids = list(task_ids) if task_ids is not None else list(TASKS.keys())
	scores: Dict[TaskId, float] = {}
	episode_lengths: Dict[TaskId, int] = {}
	evaluation_records: list[dict[str, Any]] = []
	logger.info(
	"Starting baseline suite base_url=%s llm_api_base_url=%s model=%s num_seeds=%s seed_start=%s",
	base_url,
	_llm_api_base_url(),
	llm_config.model,
	llm_config.num_seeds,
	llm_config.seed_start,
	)

	env_ctx, _, _ = _create_sync_env_client(preferred_base_url=base_url)
	with env_ctx as env:
	task_metrics: Dict[TaskId, list[dict[str, Any]]] = {
	task_id: [] for task_id in selected_task_ids
	}
	task_episode_counts: Dict[TaskId, int] = {
	task_id: 0 for task_id in selected_task_ids
	}
	for task_id in selected_task_ids:
	task = TASKS[task_id]
	benchmark_tiers = benchmark_tiers_for_task(task_id)
	task_num_seeds = TASK_SEED_OVERRIDES.get(task_id, llm_config.num_seeds)
	for benchmark_tier in benchmark_tiers:
	for seed in range(
	llm_config.seed_start, llm_config.seed_start + task_num_seeds
	):
	task_episode_counts[task_id] += 1
	curriculum_episode = task_episode_counts[task_id]
	episode_started_at = perf_counter()
	logger.info(
	"Baseline episode start task_id=%s seed=%s curriculum_episode=%s benchmark_tier=%s max_steps=%s task_num_seeds=%s",
	task_id,
	seed,
	curriculum_episode,
	benchmark_tier,
	task.max_steps,
	task_num_seeds,
	)
	result = env.reset(
	task_id=task_id,
	seed=seed,
	difficulty_level=curriculum_episode,
	scenario_mode=llm_config.scenario_mode,
	benchmark_tier=benchmark_tier,
	)
	state = env.state()
	logger.info(
	"Initial state task_id=%s seed=%s episode_id=%s scenario_metadata=%s max_rho=%.4f disconnected=%s",
	task_id,
	seed,
	state.episode_id,
	state.scenario_metadata,
	float(max(result.observation.rho))
	if result.observation.rho
	else 0.0,
	[
	idx
	for idx, status in enumerate(result.observation.line_status)
	if not status
	],
	)

	step_idx = 0
	do_nothing_steps = 0
	raw_outputs: list[dict[str, Any]] = []
	while not result.done and step_idx < task.max_steps:
	action, planning_trace = choose_action_with_qwen(
	client=client,
	env=env,
	episode_id=state.episode_id,
	task_id=task_id,
	observation=result.observation,
	step_count=step_idx,
	max_steps=task.max_steps,
	include_task_description=(step_idx == 0),
	llm_config=llm_config,
	)
	raw_outputs.append(
	{
	"step": step_idx + 1,
	"proposal_prompt": planning_trace["proposal_prompt"],
	"proposal_raw_output": planning_trace[
	"proposal_raw_output"
	],
	"proposal_trace": planning_trace["proposal_trace"],
	"graph_intelligence": planning_trace[
	"graph_intelligence"
	],
	"simulations": planning_trace["simulations"],
	"final_prompt": planning_trace["final_prompt"],
	"final_raw_output": planning_trace["final_raw_output"],
	"final_trace": planning_trace["final_trace"],
	"selected_action": action.model_dump(),
	"observation_summary": {
	"max_rho": max(result.observation.rho)
	if result.observation.rho
	else 0.0,
	"disconnected_lines": [
	idx
	for idx, status in enumerate(
	result.observation.line_status
	)
	if not status
	],
	"timestep_overflow": result.observation.timestep_overflow,
	},
	}
	)
	if action.do_nothing:
	do_nothing_steps += 1
	logger.info(
	"Baseline action task_id=%s seed=%s step=%s action=%s trace=%s",
	task_id,
	seed,
	step_idx + 1,
	action.model_dump(),
	planning_trace["final_trace"],
	)
	result = env.step(action)
	step_idx += 1

	state = env.state()
	logger.info(
	"Baseline episode finished task_id=%s seed=%s step_count=%s done=%s last_reward=%.4f",
	task_id,
	seed,
	state.step_count,
	state.done,
	state.last_reward,
	)
	response = requests.post(
	f"{base_url}/grader",
	json={
	"task_id": task_id,
	"episode_log": [
	entry.model_dump() for entry in state.episode_log
	],
	},
	timeout=60,
	)
	response.raise_for_status()
	score_payload = response.json()
	episode_score = float(score_payload["score"])
	episode_length = int(state.step_count)
	episode_log = [entry.model_dump() for entry in state.episode_log]
	episode_wall_time_s = round(perf_counter() - episode_started_at, 6)
	total_redispatch_mw = round(
	sum(
	float(entry.get("redispatch_mw", 0.0))
	for entry in episode_log
	),
	6,
	)
	total_action_penalty = round(
	sum(
	float(entry.get("action_penalty", 0.0))
	for entry in episode_log
	),
	6,
	)
	record = {
	"task_id": task_id,
	"seed": seed,
	"curriculum_episode": curriculum_episode,
	"benchmark_tier": benchmark_tier,
	"score": episode_score,
	"episode_length": episode_length,
	"episode_wall_time_s": episode_wall_time_s,
	"done": state.done,
	"do_nothing_steps": do_nothing_steps,
	"non_do_nothing_steps": max(
	0, episode_length - do_nothing_steps
	),
	"episode_total_redispatch_mw": total_redispatch_mw,
	"episode_action_penalty_total": total_action_penalty,
	"episode_action_penalty_mean": round(
	total_action_penalty / max(1, episode_length),
	6,
	),
	"episode_log": episode_log,
	"raw_outputs": raw_outputs,
	"scenario_metadata": state.scenario_metadata,
	}
	evaluation_records.append(record)
	task_metrics[task_id].append(record)
	logger.info(
	"Baseline score task_id=%s seed=%s benchmark_tier=%s score=%.6f episode_length=%s episode_wall_time_s=%.6f do_nothing_steps=%s",
	task_id,
	seed,
	benchmark_tier,
	episode_score,
	episode_length,
	episode_wall_time_s,
	do_nothing_steps,
	)

	for task_id, records in task_metrics.items():
	task_scores = [float(record["score"]) for record in records]
	task_lengths = [int(record["episode_length"]) for record in records]
	scores[task_id] = round(mean(task_scores), 6) if task_scores else 0.0
	episode_lengths[task_id] = round(mean(task_lengths)) if task_lengths else 0

	logger.info("Baseline suite complete scores=%s", scores)
	baseline_scores = BaselineScores(
	model=llm_config.model,
	scores=scores,
	episode_lengths=episode_lengths,
	)
	write_evaluation_outputs(
	timestamp=timestamp,
	run_paths=run_paths,
	model=llm_config.model,
	base_url=base_url,
	llm_config=llm_config,
	baseline_scores=baseline_scores,
	evaluation_records=evaluation_records,
	selected_task_ids=selected_task_ids,
	)
	append_evaluation_markdown(
	timestamp=timestamp,
	model=llm_config.model,
	llm_config=llm_config,
	baseline_scores=baseline_scores,
	evaluation_records=evaluation_records,
	run_paths=run_paths,
	selected_task_ids=selected_task_ids,
	)
	return baseline_scores


	def choose_action_with_qwen(
	client: OpenAI,
	env: GridEnv,
	episode_id: str,
	task_id: TaskId,
	observation: GridObservation,
	step_count: int,
	max_steps: int,
	include_task_description: bool,
	llm_config: BaselineConfig,
	) -> tuple[GridAction, dict[str, Any]]:
	planning_context = env.planning_context(episode_id)
	graph_intelligence = planning_context.graph_intelligence
	redispatchable_generators = planning_context.redispatchable_generators
	redispatch_generators = planning_context.redispatch_generators
	logger.info(
	"Graph intelligence task_id=%s step=%s bridges=%s safe_disconnect=%s central_buses=%s islanded=%s corridor=%s stressed=%s",
	task_id,
	step_count + 1,
	graph_intelligence.get("bridge_lines", []),
	graph_intelligence.get("safe_to_disconnect", []),
	graph_intelligence.get("high_centrality_buses", []),
	graph_intelligence.get("islanded_clusters", []),
	graph_intelligence.get("congestion_corridor", "none"),
	graph_intelligence.get("stressed_lines", []),
	)
	proposal_prompt = build_proposal_prompt(
	task_id=task_id,
	observation=observation,
	graph_intelligence=graph_intelligence,
	redispatchable_generators=redispatchable_generators,
	redispatch_generators=redispatch_generators,
	step_count=step_count,
	max_steps=max_steps,
	include_task_description=include_task_description,
	)

	response = client.chat.completions.create(
	**_chat_completion_kwargs(llm_config=llm_config, prompt=proposal_prompt)
	)

	proposal_raw_output = response.choices[0].message.content or ""
	logger.info(
	"Received proposal response task_id=%s chars=%s content=%r",
	task_id,
	len(proposal_raw_output),
	proposal_raw_output,
	)
	proposal_candidates, proposal_trace = parse_candidate_proposals(
	proposal_raw_output,
	task_id=task_id,
	n_line=len(observation.line_status),
	n_gen=len(observation.gen_p),
	redispatchable_generators=redispatchable_generators,
	redispatch_generators=redispatch_generators,
	)
	proposal_candidates = supplement_candidate_proposals(
	task_id=task_id,
	observation=observation,
	graph_intelligence=graph_intelligence,
	redispatch_generators=redispatch_generators,
	proposal_candidates=proposal_candidates,
	parsed_candidate_count=int(proposal_trace.get("parsed_candidate_count", 0)),
	)
	proposal_candidates, prefilter_trace = filter_candidate_proposals(
	task_id=task_id,
	observation=observation,
	graph_intelligence=graph_intelligence,
	proposal_candidates=proposal_candidates,
	)
	simulation_response = env.simulate_candidates(
	episode_id,
	[action for action, _ in proposal_candidates],
	)
	simulations = [
	SimulationOutcome(
	candidate_index=index,
	action=result.action,
	trace=proposal_candidates[index - 1][1],
	done=result.done,
	simulated_reward=result.simulated_reward,
	max_rho=result.max_rho,
	overloaded_line_ids=result.overloaded_line_ids,
	disconnected_lines=result.disconnected_lines,
	convergence_failed=result.convergence_failed,
	exceptions=result.exceptions,
	raw_result=result.raw_result,
	)
	for index, result in enumerate(simulation_response.results, start=1)
	]
	logger.info(
	"Simulation results task_id=%s step=%s results=%s",
	task_id,
	step_count + 1,
	[
	{
	"candidate_index": outcome.candidate_index,
	"action": outcome.action.model_dump(),
	"max_rho": outcome.max_rho,
	"done": outcome.done,
	"convergence_failed": outcome.convergence_failed,
	"overloaded_line_ids": outcome.overloaded_line_ids,
	"exceptions": outcome.exceptions,
	}
	for outcome in simulations
	],
	)
	selectable_simulations = filter_selectable_simulations(simulations)

	if not selectable_simulations:
	return GridAction(do_nothing=True), {
	"proposal_prompt": proposal_prompt,
	"proposal_raw_output": proposal_raw_output,
	"proposal_trace": {proposal_trace, prefilter_trace},
	"graph_intelligence": graph_intelligence,
	"simulations": [
	serialize_simulation_outcome(outcome) for outcome in simulations
	],
	"final_prompt": "",
	"final_raw_output": "",
	"final_trace": {
	"decision": "do_nothing_all_candidates_failed",
	"reason": "no selectable candidates survived simulation",
	"selectable_candidate_count": 0,
	},
	}

	if task_id == "single_fault":
	selected_outcome = choose_best_simulation(
	task_id=task_id,
	observation=observation,
	simulations=selectable_simulations,
	)
	return selected_outcome.action, {
	"proposal_prompt": proposal_prompt,
	"proposal_raw_output": proposal_raw_output,
	"proposal_trace": {proposal_trace, prefilter_trace},
	"graph_intelligence": graph_intelligence,
	"simulations": [
	serialize_simulation_outcome(outcome) for outcome in simulations
	],
	"final_prompt": "",
	"final_raw_output": "",
	"final_trace": {
	"decision": "deterministic_post_simulation_selection",
	"reason": selected_outcome.trace.get("reason", ""),
	"selected_candidate": selected_outcome.candidate_index,
	"task_id": task_id,
	},
	}

	final_prompt = build_final_selection_prompt(
	task_id=task_id,
	observation=observation,
	step_count=step_count,
	max_steps=max_steps,
	simulations=selectable_simulations,
	)
	final_response = client.chat.completions.create(
	**_chat_completion_kwargs(llm_config=llm_config, prompt=final_prompt)
	)
	final_raw_output = final_response.choices[0].message.content or ""
	logger.info(
	"Received final selection task_id=%s chars=%s content=%r",
	task_id,
	len(final_raw_output),
	final_raw_output,
	)
	action, final_trace = select_final_action(
	task_id=task_id,
	observation=observation,
	final_raw_output=final_raw_output,
	simulations=simulations,
	n_line=len(observation.line_status),
	n_gen=len(observation.gen_p),
	)
	return action, {
	"proposal_prompt": proposal_prompt,
	"proposal_raw_output": proposal_raw_output,
	"proposal_trace": {proposal_trace, prefilter_trace},
	"graph_intelligence": graph_intelligence,
	"simulations": [
	serialize_simulation_outcome(outcome) for outcome in simulations
	],
	"final_prompt": final_prompt,
	"final_raw_output": final_raw_output,
	"final_trace": final_trace,
	}


	def build_proposal_prompt(
	task_id: TaskId,
	observation: GridObservation,
	graph_intelligence: dict[str, Any],
	redispatchable_generators: Sequence[int],
	redispatch_generators: Sequence[RedispatchGeneratorContext],
	step_count: int,
	max_steps: int,
	include_task_description: bool,
	) -> str:
	line_count = len(observation.line_status)
	gen_count = len(observation.gen_p)
	stressed_lines = summarize_lines(observation.rho, limit=8, minimum_rho=0.7)
	sensitivity_guidance = observation.sensitivity_guidance[:3]
	topology_guidance = [
	item
	for item in sensitivity_guidance
	if item.get("action_type") == "disconnect_line"
	]
	redispatch_guidance = [
	item for item in sensitivity_guidance if item.get("action_type") == "redispatch"
	]
	disconnected = [
	{"line_id": idx, "status": "disconnected"}
	for idx, status in enumerate(observation.line_status)
	if not status
	]
	generator_summary = summarize_generators(observation.gen_p, limit=6)
	cooldown_info = observation.metadata.get("time_before_cooldown_line", [])
	stage_index = int(observation.metadata.get("stage_index", 1))
	steps_to_stage_boundary = int(
	observation.metadata.get("steps_to_stage_boundary", 0)
	)
	available_load_ratio = float(observation.metadata.get("available_load_ratio", 1.0))
	available_island_ratio = float(
	observation.metadata.get("available_island_ratio", 1.0)
	)
	stage_boundary_assessed = bool(
	observation.metadata.get("stage_boundary_assessed", False)
	)
	majority_islands_available = bool(
	observation.metadata.get("majority_islands_available", False)
	)
	action_schema = (
	'{"action_type":"disconnect_line\|reconnect_line\|redispatch\|do_nothing","line_id":null\|int,"gen_id":null\|int,"delta_mw":null\|float,"reason":"short string"}'
	)
	response_schema = (
	'{"primary_action":'
	+ action_schema
	+ ',"backup_action_1":'
	+ action_schema
	+ ',"backup_action_2":'
	+ action_schema
	+ "}"
	if task_id == "single_fault"
	else '{"candidates":[' + action_schema + "," + action_schema + "," + action_schema + "]}"
	)
	lines = [
	"You are a grid operator proposing actions for a deterministic simulator.",
	"Propose exactly 3 candidate actions to test in the physics sandbox.",
	"Allowed action types: disconnect_line, reconnect_line, redispatch, do_nothing.",
	"Return a single JSON object only.",
	"Use this exact schema: " + response_schema,
	"Rules: no markdown, no prose, no code fences, no extra keys, exactly 3 candidates.",
	"Diversity rule: use at least two different action types when plausible.",
	"CRITICAL PHYSICS RULE: You must prioritize candidates from the sensitivity_guidance list. These actions have been mathematically verified by power-flow sensitivity factors to reduce the load on the stressed line.",
	f"task_id={task_id}",
	f"step={step_count + 1}/{max_steps}",
	f"max_rho={max(observation.rho):.3f}" if observation.rho else "max_rho=0.0",
	f"line_count={line_count}",
	f"generator_count={gen_count}",
	"redispatchable_generators="
	+ json.dumps(
	[int(x) for x in redispatchable_generators], separators=(",", ":")
	),
	"redispatch_generator_bounds="
	+ json.dumps(
	[context.model_dump() for context in redispatch_generators],
	separators=(",", ":"),
	),
	"stressed_lines=" + json.dumps(stressed_lines, separators=(",", ":")),
	"sensitivity_guidance="
	+ json.dumps(sensitivity_guidance, separators=(",", ":")),
	"disconnected_lines=" + json.dumps(disconnected, separators=(",", ":")),
	"generators=" + json.dumps(generator_summary, separators=(",", ":")),
	"timestep_overflow="
	+ json.dumps(observation.timestep_overflow, separators=(",", ":")),
	"grid_topology_intelligence="
	+ json.dumps(graph_intelligence, separators=(",", ":")),
	]
	if task_id == "single_fault":
	lines.insert(
	6,
	"TASK RULE: For single_fault, do not propose disconnect_line or reconnect_line. Use redispatch and do_nothing only. Solve congestion by shifting generation, not by cutting topology.",
	)
	lines.insert(
	7,
	"TASK RULE: Rank your output strictly as primary_action first, then backup_action_1, then backup_action_2. The simulator will test all three and execute the highest-ranked safe option.",
	)
	if task_id == "n_minus_1":
	danger_lines = [
	entry for entry in stressed_lines if float(entry["rho"]) >= 0.92
	]
	warning_lines = [
	entry for entry in stressed_lines if 0.80 <= float(entry["rho"]) < 0.92
	]
	cooldown_zero_lines = (
	[int(idx) for idx, value in enumerate(cooldown_info) if int(value) == 0]
	if isinstance(cooldown_info, list)
	else []
	)
	lines.insert(
	6,
	"TASK RULE: In n_minus_1, operate the degraded topology safely for 20 steps. Reconnect the faulted line when cooldown allows and when simulation shows it is safe.",
	)
	lines.insert(
	7,
	f"FAULTED_LINE=0; disconnected_now={json.dumps([entry['line_id'] for entry in disconnected], separators=(',', ':'))}",
	)
	lines.insert(
	8,
	f"N-1 PHASE={'emergency' if step_count < 5 else 'steady_state'}; emergency_window_steps_remaining={max(0, 5 - step_count)}",
	)
	lines.insert(
	9,
	"EMERGENCY OBJECTIVE: In steps 1-5, prioritize actions that bring max_rho below 0.92 as fast as possible. Clearing the emergency window is the top priority.",
	)
	lines.insert(
	10,
	"STEADY-STATE OBJECTIVE: From step 6 onward, prioritize keeping max_rho below 0.90 on as many steps as possible while preserving survivability.",
	)
	lines.insert(
	11,
	"RECONNECTION OBJECTIVE: When line 0 cooldown reaches 0, include a reconnect_line candidate for line 0 unless graph intelligence or current overloads strongly suggest it is unsafe.",
	)
	lines.insert(
	12,
	"CANDIDATE RULE: In the emergency phase, include at least one redispatch candidate aimed at immediate rho reduction. Do not fill the set with passive do_nothing-style choices.",
	)
	lines.insert(
	13,
	"CANDIDATE RULE: If no action looks clearly better, still propose the smallest safe redispatch or a safe reconnect test rather than defaulting all candidates toward do_nothing.",
	)
	lines.insert(
	14,
	f"N-1 STRUCTURAL SECURITY: score={float(graph_intelligence.get('n1_security_score', 0.0)):.3f}; bridge_lines={json.dumps(graph_intelligence.get('bridge_lines', []), separators=(',', ':'))}",
	)
	lines.insert(
	15,
	"THRESHOLDS: EMERGENCY if any line rho >= 0.92, WARNING for 0.80 <= rho < 0.92, SAFE if all lines are below 0.80.",
	)
	lines.insert(
	16,
	"EMERGENCY_LINES=" + json.dumps(danger_lines, separators=(",", ":")),
	)
	lines.insert(
	17,
	"WARNING_LINES=" + json.dumps(warning_lines, separators=(",", ":")),
	)
	lines.insert(
	18,
	"RECONNECT_WINDOW_LINES="
	+ json.dumps(cooldown_zero_lines, separators=(",", ":")),
	)
	if task_id == "cascade_prevent":
	overflow_urgent = [
	{
	"line_id": idx,
	"rho": round(float(observation.rho[idx]), 4),
	"timestep_overflow": int(value),
	}
	for idx, value in enumerate(observation.timestep_overflow)
	if int(value) > 0
	]
	overflow_urgent.sort(
	key=lambda item: (item["timestep_overflow"], item["rho"]), reverse=True
	)
	lines.insert(
	6,
	"TASK RULE: In cascade_prevent, prioritize lines with active overflow countdowns. A line with timestep_overflow=2 is more urgent than a line with high rho but overflow=0.",
	)
	lines.insert(
	7,
	"CASCADE RULE: Prevent automatic trips first, then improve thermal margin. Triaging imminent countdown expirations is more important than slightly reducing global max_rho.",
	)
	lines.insert(
	8,
	"OVERFLOW_COUNTDOWNS="
	+ json.dumps(overflow_urgent[:8], separators=(",", ":")),
	)
	if task_id == "multi_stage_cascade":
	overflow_urgent = [
	{
	"line_id": idx,
	"rho": round(float(observation.rho[idx]), 4),
	"timestep_overflow": int(value),
	}
	for idx, value in enumerate(observation.timestep_overflow)
	if int(value) > 0
	]
	overflow_urgent.sort(
	key=lambda item: (item["timestep_overflow"], item["rho"]), reverse=True
	)
	lines.insert(
	6,
	"TASK RULE: In multi_stage_cascade, assume the collapse will continue across three stages. Do not optimize only for this step; position the grid so later stages keep more load available.",
	)
	lines.insert(
	7,
	f"STAGE_CONTEXT=stage_{stage_index}_of_3; steps_to_stage_boundary={steps_to_stage_boundary}; available_load_ratio={available_load_ratio:.4f}; available_island_ratio={available_island_ratio:.4f}",
	)
	lines.insert(
	8,
	f"BOUNDARY_STATUS=assessed:{str(stage_boundary_assessed).lower()}; majority_islands_available:{str(majority_islands_available).lower()}",
	)
	lines.insert(
	9,
	"MSCF RULE: Prefer actions that preserve transferable generation and keep islands self-sustaining at the next boundary. Avoid short-term fixes that strand load in islands with insufficient generation.",
	)
	lines.insert(
	10,
	"TASK RULE: With multiple overloaded lines, topology cuts risk bus isolation. Prioritize redispatch over disconnect_line unless the line is explicitly safe_to_disconnect and the action preserves connectivity.",
	)
	lines.insert(
	11,
	"CONTROLLED_ISLANDING_CANDIDATES="
	+ json.dumps(topology_guidance, separators=(",", ":")),
	)
	lines.insert(
	12,
	"REDISPATCH_CANDIDATES="
	+ json.dumps(redispatch_guidance, separators=(",", ":")),
	)
	lines.insert(
	13,
	"OVERFLOW_COUNTDOWNS="
	+ json.dumps(overflow_urgent[:8], separators=(",", ":")),
	)
	if include_task_description:
	lines.append("task_description=" + TASKS[task_id].description)
	lines.append(
	'example_1={"candidates":[{"action_type":"disconnect_line","line_id":10,"gen_id":null,"delta_mw":null,"reason":"line 10 appears to be the stress bottleneck"},{"action_type":"redispatch","line_id":null,"gen_id":0,"delta_mw":5.0,"reason":"pick one allowed positive delta from redispatch_generator_bounds"},{"action_type":"do_nothing","line_id":null,"gen_id":null,"delta_mw":null,"reason":"keep a safe fallback"}]}'
	)
	lines.append(
	'example_2={"candidates":[{"action_type":"reconnect_line","line_id":0,"gen_id":null,"delta_mw":null,"reason":"restore missing transfer capacity"},{"action_type":"redispatch","line_id":null,"gen_id":1,"delta_mw":-5.0,"reason":"pick one allowed negative delta from redispatch_generator_bounds"},{"action_type":"do_nothing","line_id":null,"gen_id":null,"delta_mw":null,"reason":"baseline if both interventions are dangerous"}]}'
	)
	return "\n".join(lines)


	def build_final_selection_prompt(
	task_id: TaskId,
	observation: GridObservation,
	step_count: int,
	max_steps: int,
	simulations: Sequence[SimulationOutcome],
	) -> str:
	task4_hints = (
	build_task4_selection_hints(simulations)
	if task_id == "multi_stage_cascade"
	else {}
	)
	lines = [
	"You are a grid operator choosing a final action after reviewing simulator outcomes.",
	"Select the safest candidate that reduces stress without ending the episode.",
	"You must select one simulated candidate or explicit do_nothing.",
	"Return a single JSON object only.",
	'Use this exact schema: {"selected_candidate":1\|2\|3\|0,"reason":"short string"}',
	"Use selected_candidate=0 only if every candidate is unsafe.",
	"Rules: no markdown, no prose, no code fences, no extra keys.",
	f"task_id={task_id}",
	f"step={step_count + 1}/{max_steps}",
	f"current_max_rho={max(observation.rho):.3f}"
	if observation.rho
	else "current_max_rho=0.0",
	"simulation_results="
	+ json.dumps(
	[serialize_simulation_outcome(outcome) for outcome in simulations],
	separators=(",", ":"),
	),
	]
	if task_id == "single_fault":
	lines.insert(
	7,
	"RULE: If a simulated candidate safely reduces max_rho compared to the current state, you MUST select it over do_nothing, no matter how small the reduction is. Do not choose do_nothing unless every other candidate increases max_rho or causes a failure. Safe, incremental redispatch improvements are the only way to win.",
	)
	if task_id == "n_minus_1":
	lines.insert(
	7,
	"RULE: In steps 1-5, prioritize candidates that clear the emergency by bringing max_rho below 0.92. Do not choose do_nothing in the emergency window if a safe simulated action lowers max_rho.",
	)
	lines.insert(
	8,
	"RULE: When a safe reconnect_line action for line 0 is available after cooldown, strongly prefer it if it improves or preserves security.",
	)
	lines.insert(
	9,
	"RULE: After step 5, prefer candidates that keep max_rho below 0.90 on future steps rather than merely surviving at higher stress.",
	)
	if task_id == "multi_stage_cascade":
	lines.insert(
	7,
	"RULE: Prefer the candidate that preserves future survivability across stage boundaries. A slightly higher short-term max_rho can be acceptable if it keeps more load in islands that still have enough generation.",
	)
	lines.insert(
	8,
	"RULE: The listed candidates already exclude failed simulations. Choose only from these surviving candidates, or choose 0 only if none are listed.",
	)
	lines.insert(
	9,
	"RULE: If a safe redispatch candidate strictly improves max_rho over do_nothing, choose that redispatch instead of do_nothing. Do not pick do_nothing when a safe redispatch is better, even by a small margin.",
	)
	lines.insert(
	10,
	"RULE: A controlled-islanding candidate is justified only if it materially beats the best redispatch on survivability, not merely because it changes topology.",
	)
	lines.insert(
	11,
	"TASK4_SELECTION_HINTS=" + json.dumps(task4_hints, separators=(",", ":")),
	)
	return "\n".join(lines)


	def build_task4_selection_hints(
	simulations: Sequence[SimulationOutcome],
	) -> dict[str, Any]:
	best_do_nothing = next(
	(outcome for outcome in simulations if outcome.action.do_nothing),
	None,
	)
	redispatch = [
	outcome
	for outcome in simulations
	if outcome.action.redispatch and not outcome.action.line_set
	]
	topology = [outcome for outcome in simulations if outcome.action.line_set]
	best_redispatch = (
	min(redispatch, key=lambda outcome: (outcome.max_rho, outcome.candidate_index))
	if redispatch
	else None
	)
	prefer_redispatch_indices = [
	outcome.candidate_index
	for outcome in redispatch
	if best_do_nothing is not None
	and outcome.max_rho < best_do_nothing.max_rho - 1e-9
	]
	topology_justified_indices = [
	outcome.candidate_index
	for outcome in topology
	if best_redispatch is None
	or outcome.max_rho < best_redispatch.max_rho - 0.02
	or len(outcome.overloaded_line_ids) < len(best_redispatch.overloaded_line_ids)
	]
	return {
	"best_do_nothing_index": best_do_nothing.candidate_index
	if best_do_nothing
	else None,
	"best_redispatch_index": best_redispatch.candidate_index
	if best_redispatch
	else None,
	"prefer_redispatch_indices": prefer_redispatch_indices,
	"topology_justified_indices": topology_justified_indices,
	}


	def summarize_lines(
	rho: Sequence[float], limit: int, minimum_rho: float
	) -> list[dict[str, Any]]:
	return sorted(
	(
	{"line_id": idx, "rho": round(float(value), 4)}
	for idx, value in enumerate(rho)
	if float(value) >= minimum_rho
	),
	key=lambda item: item["rho"],
	reverse=True,
	)[:limit]


	def summarize_generators(gen_p: Sequence[float], limit: int) -> list[dict[str, Any]]:
	return sorted(
	(
	{"gen_id": idx, "p_mw": round(float(value), 4)}
	for idx, value in enumerate(gen_p)
	),
	key=lambda item: abs(item["p_mw"]),
	reverse=True,
	)[:limit]


	def parse_json_action(content: str) -> Dict[str, Any]:
	match = re.search(r"\{.*\}", content, re.DOTALL)
	if not match:
	return {"do_nothing": True}
	try:
	return json.loads(match.group(0))
	except json.JSONDecodeError:
	return {"do_nothing": True}


	def parse_selected_candidate(content: str) -> int \| None:
	match = re.search(r'"selected_candidate"\s:\s(-?\d+)', content)
	if not match:
	return None
	try:
	return int(match.group(1))
	except (TypeError, ValueError):
	return None


	def parse_candidate_proposals(
	content: str,
	n_line: int,
	n_gen: int,
	redispatchable_generators: Sequence[int] \| None = None,
	redispatch_generators: Sequence[RedispatchGeneratorContext] \| None = None,
	task_id: TaskId = "n_minus_1",
	) -> tuple[list[tuple[GridAction, dict[str, Any]]], dict[str, Any]]:
	payload = parse_json_action(content)
	if task_id == "single_fault":
	raw_candidates = [
	payload.get("primary_action"),
	payload.get("backup_action_1"),
	payload.get("backup_action_2"),
	]
	else:
	raw_candidates = payload.get("candidates", [])
	candidates: list[tuple[GridAction, dict[str, Any]]] = []
	if isinstance(raw_candidates, list):
	for item in raw_candidates[:3]:
	if isinstance(item, dict):
	candidates.append(
	validate_baseline_action(
	item,
	task_id=task_id,
	n_line=n_line,
	n_gen=n_gen,
	redispatchable_generators=redispatchable_generators,
	redispatch_generators=redispatch_generators,
	)
	)

	deduped: list[tuple[GridAction, dict[str, Any]]] = []
	seen: set[str] = set()
	for action, trace in candidates:
	key = json.dumps(action.model_dump(), sort_keys=True)
	if key in seen:
	continue
	seen.add(key)
	deduped.append((action, trace))

	fallback_pool = build_diverse_fallback_pool(redispatch_generators)
	for action, trace in fallback_pool:
	if len(deduped) >= 3:
	break
	key = json.dumps(action.model_dump(), sort_keys=True)
	if key in seen:
	continue
	seen.add(key)
	deduped.append((action, trace))

	return deduped[:3], {
	"parsed_candidate_count": len(candidates),
	"deduped_candidate_count": len(deduped[:3]),
	}


	def build_diverse_fallback_pool(
	redispatch_generators: Sequence[RedispatchGeneratorContext] \| None,
	) -> list[tuple[GridAction, dict[str, Any]]]:
	fallback_pool: list[tuple[GridAction, dict[str, Any]]] = []
	if redispatch_generators:
	signed_extremes: list[tuple[float, int, float]] = []
	for context in redispatch_generators:
	feasible = [
	float(value) for value in context.allowed_deltas if abs(float(value)) > 1e-9
	]
	if not feasible:
	continue
	negatives = [value for value in feasible if value < 0.0]
	positives = [value for value in feasible if value > 0.0]
	if negatives:
	signed_extremes.append(
	(abs(min(negatives)), int(context.gen_id), min(negatives))
	)
	if positives:
	signed_extremes.append(
	(abs(max(positives)), int(context.gen_id), max(positives))
	)
	for _magnitude, gen_id, delta in sorted(
	signed_extremes,
	key=lambda item: (-item[0], abs(item[2]), item[1], item[2]),
	):
	fallback_pool.append(
	(
	GridAction(redispatch={gen_id: float(delta)}),
	{
	"decision": "redispatch",
	"reason": f"fallback_generator_{gen_id}_{float(delta):.4f}",
	},
	)
	)
	else:
	fallback_pool.extend(
	[
	(
	GridAction(redispatch={0: 10.0}),
	{"decision": "redispatch", "reason": "fallback_generator_0_up"},
	),
	(
	GridAction(redispatch={0: -10.0}),
	{"decision": "redispatch", "reason": "fallback_generator_0_down"},
	),
	]
	)

	fallback_pool.append(
	(
	GridAction(do_nothing=True),
	{"decision": "do_nothing", "reason": "fallback_baseline"},
	)
	)
	return fallback_pool


	def supplement_candidate_proposals(
	task_id: TaskId,
	observation: GridObservation,
	graph_intelligence: dict[str, Any],
	redispatch_generators: Sequence[RedispatchGeneratorContext],
	proposal_candidates: Sequence[tuple[GridAction, dict[str, Any]]],
	parsed_candidate_count: int,
	) -> list[tuple[GridAction, dict[str, Any]]]:
	emergency = is_emergency_state(task_id=task_id, observation=observation)
	heuristic_candidates = build_heuristic_candidates(
	task_id=task_id,
	observation=observation,
	graph_intelligence=graph_intelligence,
	redispatch_generators=redispatch_generators,
	)
	candidate_stream: list[tuple[GridAction, dict[str, Any]]] = []
	if emergency or parsed_candidate_count == 0:
	candidate_stream.extend(heuristic_candidates)
	candidate_stream.extend(proposal_candidates)
	if not emergency and parsed_candidate_count > 0:
	candidate_stream.extend(heuristic_candidates)

	deduped: list[tuple[GridAction, dict[str, Any]]] = []
	seen: set[str] = set()
	for action, trace in candidate_stream:
	key = json.dumps(action.model_dump(), sort_keys=True)
	if key in seen:
	continue
	seen.add(key)
	deduped.append((action, trace))
	if len(deduped) >= 3:
	break
	return deduped


	def build_heuristic_candidates(
	task_id: TaskId,
	observation: GridObservation,
	graph_intelligence: dict[str, Any],
	redispatch_generators: Sequence[RedispatchGeneratorContext],
	) -> list[tuple[GridAction, dict[str, Any]]]:
	del graph_intelligence
	heuristics: list[tuple[GridAction, dict[str, Any]]] = []
	for item in observation.sensitivity_guidance:
	action_type = item.get("action_type")
	target_id = item.get("target_id")
	try:
	target_id_int = int(target_id)
	except (TypeError, ValueError):
	continue
	if action_type == "disconnect_line" and task_id != "single_fault":
	heuristics.append(
	(
	GridAction(line_set={target_id_int: -1}),
	{
	"decision": "heuristic_disconnect",
	"reason": f"sensitivity_guidance_{target_id_int}",
	},
	)
	)
	elif action_type == "redispatch":
	delta_value = item.get("delta_mw")
	try:
	delta_float = float(delta_value)
	except (TypeError, ValueError):
	delta_float = None
	if delta_float is None:
	continue
	context = next(
	(
	context
	for context in redispatch_generators
	if int(context.gen_id) == target_id_int
	),
	None,
	)
	if context is None:
	continue
	constrained = constrain_redispatch_delta(delta_float, context)
	if constrained is None:
	continue
	heuristics.append(
	(
	GridAction(redispatch={target_id_int: constrained}),
	{
	"decision": "heuristic_redispatch",
	"reason": f"sensitivity_guidance_{target_id_int}_{constrained}",
	},
	)
	)

	if heuristics:
	heuristics.append(
	(
	GridAction(do_nothing=True),
	{"decision": "do_nothing", "reason": "heuristic_safe_fallback"},
	)
	)
	return heuristics

	return build_diverse_fallback_pool(redispatch_generators)


	def filter_candidate_proposals(
	task_id: TaskId,
	observation: GridObservation,
	graph_intelligence: dict[str, Any],
	proposal_candidates: Sequence[tuple[GridAction, dict[str, Any]]],
	) -> tuple[list[tuple[GridAction, dict[str, Any]]], dict[str, Any]]:
	del observation
	filtered: list[tuple[GridAction, dict[str, Any]]] = []
	rejected: list[dict[str, Any]] = []
	safe_disconnect = {
	int(line_id) for line_id in graph_intelligence.get("safe_to_disconnect", [])
	}

	for action, trace in proposal_candidates:
	if task_id == "multi_stage_cascade":
	rejected_line_ids = [
	int(line_id)
	for line_id, status in action.line_set.items()
	if int(status) == -1 and int(line_id) not in safe_disconnect
	]
	if rejected_line_ids:
	rejected.append(
	{
	"action": action.model_dump(),
	"reason": f"unsafe_disconnect_filtered:{sorted(rejected_line_ids)}",
	}
	)
	continue
	filtered.append((action, trace))

	if not filtered:
	filtered = [
	(
	GridAction(do_nothing=True),
	{"decision": "do_nothing", "reason": "all_candidates_prefiltered"},
	)
	]

	deduped: list[tuple[GridAction, dict[str, Any]]] = []
	seen: set[str] = set()
	for action, trace in filtered:
	key = json.dumps(action.model_dump(), sort_keys=True)
	if key in seen:
	continue
	seen.add(key)
	deduped.append((action, trace))

	return deduped[:3], {
	"prefiltered_candidate_count": len(deduped[:3]),
	"prefilter_rejections": rejected,
	}


	def filter_selectable_simulations(
	simulations: Sequence[SimulationOutcome],
	) -> list[SimulationOutcome]:
	return [
	outcome
	for outcome in simulations
	if not outcome.convergence_failed and not outcome.done
	]


	def select_final_action(
	final_raw_output: str,
	simulations: Sequence[SimulationOutcome],
	n_line: int,
	n_gen: int,
	task_id: TaskId = "n_minus_1",
	observation: GridObservation \| None = None,
	) -> tuple[GridAction, dict[str, Any]]:
	selectable_simulations = filter_selectable_simulations(simulations)
	deterministic_best = choose_best_simulation(
	task_id,
	observation,
	selectable_simulations or simulations,
	)
	payload = parse_json_action(final_raw_output)
	reason = payload.get("reason", "")
	selected_candidate = payload.get("selected_candidate")

	try:
	selected_candidate = int(selected_candidate)
	except (TypeError, ValueError):
	selected_candidate = parse_selected_candidate(final_raw_output)

	if selected_candidate == 0:
	return GridAction(do_nothing=True), {
	"decision": "do_nothing",
	"reason": reason or "model_rejected_all_candidates",
	}

	if selected_candidate is not None:
	for outcome in selectable_simulations:
	if outcome.candidate_index == selected_candidate:
	return outcome.action, {
	"decision": "simulated_candidate_by_index",
	"reason": reason or outcome.trace.get("reason", ""),
	"selected_candidate": selected_candidate,
	}

	if not selectable_simulations:
	return GridAction(do_nothing=True), {
	"decision": "do_nothing_no_selectable_candidates",
	"reason": reason or "all_candidates_failed_simulation",
	}

	return deterministic_best.action, {
	"decision": "fallback_best_simulation",
	"reason": reason or "invalid_final_selection",
	"selected_candidate": deterministic_best.candidate_index,
	}


	def choose_best_simulation(
	task_id: TaskId,
	observation: GridObservation \| None,
	simulations: Sequence[SimulationOutcome],
	) -> SimulationOutcome:
	safe = [
	outcome
	for outcome in simulations
	if not outcome.done and not outcome.convergence_failed
	]
	if safe:
	current_max_rho = (
	max(observation.rho) if observation and observation.rho else None
	)
	safe = prefer_active_control_in_emergencies(
	task_id=task_id,
	observation=observation,
	simulations=safe,
	)
	if task_id == "single_fault":
	improving = [
	outcome
	for outcome in safe
	if current_max_rho is not None
	and outcome.max_rho < current_max_rho - 1e-9
	and not outcome.action.do_nothing
	]
	if improving:
	return min(
	improving,
	key=lambda outcome: (
	outcome.max_rho,
	outcome.action.do_nothing,
	len(outcome.overloaded_line_ids),
	len(outcome.action.line_set),
	outcome.candidate_index,
	),
	)
	return min(
	safe,
	key=lambda outcome: (
	outcome.max_rho,
	outcome.action.do_nothing,
	len(outcome.overloaded_line_ids),
	len(outcome.action.line_set),
	outcome.candidate_index,
	),
	)
	nonfatal = [outcome for outcome in simulations if not outcome.convergence_failed]
	if nonfatal:
	return min(
	nonfatal,
	key=lambda outcome: (
	outcome.done,
	outcome.max_rho,
	outcome.action.do_nothing,
	len(outcome.action.line_set),
	outcome.candidate_index,
	),
	)
	return min(simulations, key=lambda outcome: outcome.candidate_index)


	def is_emergency_state(task_id: TaskId, observation: GridObservation \| None) -> bool:
	if observation is None or not observation.rho:
	return False
	current_max_rho = max(float(value) for value in observation.rho)
	max_overflow = max((int(value) for value in observation.timestep_overflow), default=0)
	if task_id == "n_minus_1":
	return current_max_rho >= 0.92
	if task_id == "cascade_prevent":
	return current_max_rho > 1.0 or max_overflow > 0
	if task_id == "multi_stage_cascade":
	return current_max_rho > 1.0 or max_overflow > 0
	return current_max_rho > 0.8


	def prefer_active_control_in_emergencies(
	task_id: TaskId,
	observation: GridObservation \| None,
	simulations: Sequence[SimulationOutcome],
	) -> list[SimulationOutcome]:
	if not is_emergency_state(task_id=task_id, observation=observation):
	return list(simulations)

	do_nothing = [
	outcome for outcome in simulations if outcome.action.do_nothing
	]
	active = [outcome for outcome in simulations if not outcome.action.do_nothing]
	if not do_nothing or not active:
	return list(simulations)

	best_noop = min(
	do_nothing,
	key=lambda outcome: (
	max_simulated_overflow(outcome),
	len(outcome.overloaded_line_ids),
	outcome.max_rho,
	outcome.candidate_index,
	),
	)
	epsilon = 0.02 if task_id == "multi_stage_cascade" else 0.01
	viable_active = [
	outcome
	for outcome in active
	if max_simulated_overflow(outcome) <= max_simulated_overflow(best_noop)
	and len(outcome.overloaded_line_ids) <= len(best_noop.overloaded_line_ids)
	and outcome.max_rho <= best_noop.max_rho + epsilon
	]
	if not viable_active:
	return list(simulations)

	preferred = sorted(
	viable_active,
	key=lambda outcome: (
	max_simulated_overflow(outcome),
	len(outcome.overloaded_line_ids),
	outcome.max_rho,
	len(outcome.action.line_set),
	outcome.candidate_index,
	),
	)
	remainder = [
	outcome
	for outcome in simulations
	if outcome not in preferred
	]
	return preferred + remainder


	def max_simulated_overflow(outcome: SimulationOutcome) -> int:
	overflow = outcome.raw_result.get("timestep_overflow", [])
	if not isinstance(overflow, list):
	return 0
	return max((int(value) for value in overflow), default=0)


	def serialize_simulation_outcome(outcome: SimulationOutcome) -> dict[str, Any]:
	return {
	"candidate_index": outcome.candidate_index,
	"action": outcome.action.model_dump(),
	"proposal_trace": outcome.trace,
	"done": outcome.done,
	"simulated_reward": outcome.simulated_reward,
	"max_rho": outcome.max_rho,
	"overloaded_line_ids": outcome.overloaded_line_ids,
	"disconnected_lines": outcome.disconnected_lines,
	"convergence_failed": outcome.convergence_failed,
	"exceptions": outcome.exceptions,
	"raw_result": outcome.raw_result,
	}


	def actions_equivalent(lhs: GridAction, rhs: GridAction) -> bool:
	return lhs.model_dump() == rhs.model_dump()


	def validate_baseline_action(
	payload: Dict[str, Any],
	task_id: TaskId,
	n_line: int,
	n_gen: int,
	redispatchable_generators: Sequence[int] \| None = None,
	redispatch_generators: Sequence[RedispatchGeneratorContext] \| None = None,
	) -> tuple[GridAction, dict[str, Any]]:
	allowed_redispatch = (
	{int(gen_id) for gen_id in redispatchable_generators}
	if redispatchable_generators is not None
	else set(range(n_gen))
	)
	redispatch_context_by_id = (
	{int(context.gen_id): context for context in redispatch_generators}
	if redispatch_generators is not None
	else {}
	)
	action_type = payload.get("action_type")
	if payload.get("do_nothing") or action_type == "do_nothing":
	return GridAction(do_nothing=True), {
	"decision": "do_nothing",
	"reason": payload.get("reason", "explicit_do_nothing"),
	}

	if task_id == "single_fault" and action_type in {
	"disconnect_line",
	"reconnect_line",
	}:
	return GridAction(do_nothing=True), {
	"decision": "fallback_do_nothing",
	"reason": f"{action_type}_forbidden_for_single_fault",
	}

	line_set_payload = payload.get("line_set") or {}
	if not isinstance(line_set_payload, dict):
	line_set_payload = {}

	valid_line_set = {}
	for key, value in line_set_payload.items():
	try:
	line_id = int(key)
	status = int(value)
	except (TypeError, ValueError):
	continue
	if 0 <= line_id < n_line and status in (-1, 1):
	valid_line_set[line_id] = status

	redispatch_payload = payload.get("redispatch") or {}
	if not isinstance(redispatch_payload, dict):
	redispatch_payload = {}

	if action_type == "disconnect_line":
	line_id = payload.get("line_id")
	try:
	line_id = int(line_id)
	except (TypeError, ValueError):
	line_id = None
	if line_id is not None and 0 <= line_id < n_line:
	return (
	GridAction(line_set={line_id: -1}, redispatch={}),
	{"decision": "disconnect_line", "reason": payload.get("reason", "")},
	)
	return GridAction(do_nothing=True), {
	"decision": "fallback_do_nothing",
	"reason": "invalid_disconnect_line",
	}

	if action_type == "reconnect_line":
	line_id = payload.get("line_id")
	try:
	line_id = int(line_id)
	except (TypeError, ValueError):
	line_id = None
	if line_id is not None and 0 <= line_id < n_line:
	return (
	GridAction(line_set={line_id: 1}, redispatch={}),
	{"decision": "reconnect_line", "reason": payload.get("reason", "")},
	)
	return GridAction(do_nothing=True), {
	"decision": "fallback_do_nothing",
	"reason": "invalid_reconnect_line",
	}

	if action_type == "redispatch":
	gen_id = payload.get("gen_id")
	delta = payload.get("delta_mw")
	try:
	gen_id = int(gen_id)
	delta = float(delta)
	except (TypeError, ValueError):
	gen_id = None
	delta = None
	if (
	gen_id is not None
	and 0 <= gen_id < n_gen
	and gen_id in allowed_redispatch
	and delta is not None
	):
	if gen_id in redispatch_context_by_id:
	delta = constrain_redispatch_delta(
	delta, redispatch_context_by_id[gen_id]
	)
	if delta is None:
	return GridAction(do_nothing=True), {
	"decision": "fallback_do_nothing",
	"reason": "invalid_redispatch",
	}
	return (
	GridAction(redispatch={gen_id: delta}, line_set={}),
	{"decision": "redispatch", "reason": payload.get("reason", "")},
	)
	return GridAction(do_nothing=True), {
	"decision": "fallback_do_nothing",
	"reason": "invalid_redispatch",
	}

	valid_redispatch = {}
	for key, value in redispatch_payload.items():
	try:
	gen_id = int(key)
	delta = float(value)
	except (TypeError, ValueError):
	continue
	if 0 <= gen_id < n_gen and gen_id in allowed_redispatch:
	if gen_id in redispatch_context_by_id:
	delta = constrain_redispatch_delta(
	delta, redispatch_context_by_id[gen_id]
	)
	if delta is None:
	continue
	valid_redispatch[gen_id] = delta

	if not valid_line_set and not valid_redispatch:
	return GridAction(do_nothing=True), {
	"decision": "fallback_do_nothing",
	"reason": "empty_or_invalid_payload",
	}
	return (
	GridAction(line_set=valid_line_set, redispatch=valid_redispatch),
	{"decision": "legacy_payload", "reason": payload.get("reason", "")},
	)


	def constrain_redispatch_delta(
	delta: float,
	context: RedispatchGeneratorContext,
	) -> float \| None:
	if context.allowed_delta_min == 0.0 and context.allowed_delta_max == 0.0:
	return None
	clamped = min(
	max(float(delta), float(context.allowed_delta_min)),
	float(context.allowed_delta_max),
	)
	feasible = [
	float(value)
	for value in context.allowed_deltas
	if float(context.allowed_delta_min)
	<= float(value)
	<= float(context.allowed_delta_max)
	]
	if feasible:
	return min(
	feasible, key=lambda value: (abs(value - clamped), abs(value), value)
	)
	if abs(clamped) < 1e-9:
	return None
	return round(clamped, 4)


	def write_evaluation_outputs(
	timestamp: str,
	run_paths: dict[str, Path],
	model: str,
	base_url: str,
	llm_config: BaselineConfig,
	baseline_scores: BaselineScores,
	evaluation_records: list[dict[str, Any]],
	selected_task_ids: Sequence[TaskId],
	) -> None:
	json_path = run_paths["json"]
	csv_path = run_paths["csv"]

	total_proposal_calls = 0
	total_final_calls = 0
	per_task_llm_calls: dict[str, dict[str, int]] = {}
	aggregate: dict[str, Any] = {}
	for task_id in selected_task_ids:
	records = [
	record for record in evaluation_records if record["task_id"] == task_id
	]
	scores = [float(record["score"]) for record in records]
	lengths = [int(record["episode_length"]) for record in records]
	wall_times = [
	float(record.get("episode_wall_time_s", 0.0)) for record in records
	]
	do_nothing = [int(record["do_nothing_steps"]) for record in records]
	redispatch_mw = [
	float(record.get("episode_total_redispatch_mw", 0.0)) for record in records
	]
	action_penalty = [
	float(record.get("episode_action_penalty_total", 0.0)) for record in records
	]
	task_proposal_calls = sum(
	len(record.get("raw_outputs", [])) for record in records
	)
	task_final_calls = sum(
	1
	for record in records
	for step in record.get("raw_outputs", [])
	if step.get("final_prompt")
	)
	total_proposal_calls += task_proposal_calls
	total_final_calls += task_final_calls
	per_task_llm_calls[task_id] = {
	"proposal_calls": task_proposal_calls,
	"final_calls": task_final_calls,
	"total_llm_calls": task_proposal_calls + task_final_calls,
	}
	aggregate[task_id] = {
	"num_episodes": len(records),
	"score_mean": round(mean(scores), 6) if scores else 0.0,
	"score_std": round(pstdev(scores), 6) if len(scores) > 1 else 0.0,
	"episode_length_mean": round(mean(lengths), 6) if lengths else 0.0,
	"episode_length_std": round(pstdev(lengths), 6)
	if len(lengths) > 1
	else 0.0,
	"episode_wall_time_mean_s": round(mean(wall_times), 6)
	if wall_times
	else 0.0,
	"episode_wall_time_std_s": round(pstdev(wall_times), 6)
	if len(wall_times) > 1
	else 0.0,
	"do_nothing_steps_mean": round(mean(do_nothing), 6) if do_nothing else 0.0,
	"episode_total_redispatch_mw_mean": round(mean(redispatch_mw), 6)
	if redispatch_mw
	else 0.0,
	"episode_action_penalty_total_mean": round(mean(action_penalty), 6)
	if action_penalty
	else 0.0,
	"proposal_calls": task_proposal_calls,
	"final_calls": task_final_calls,
	"total_llm_calls": task_proposal_calls + task_final_calls,
	}
	aggregate_by_tier: dict[str, Any] = {}
	for benchmark_tier in sorted(
	{record["benchmark_tier"] for record in evaluation_records}
	):
	records = [
	record
	for record in evaluation_records
	if record["benchmark_tier"] == benchmark_tier
	]
	scores = [float(record["score"]) for record in records]
	lengths = [int(record["episode_length"]) for record in records]
	wall_times = [
	float(record.get("episode_wall_time_s", 0.0)) for record in records
	]
	do_nothing = [int(record["do_nothing_steps"]) for record in records]
	redispatch_mw = [
	float(record.get("episode_total_redispatch_mw", 0.0)) for record in records
	]
	action_penalty = [
	float(record.get("episode_action_penalty_total", 0.0)) for record in records
	]
	aggregate_by_tier[benchmark_tier] = {
	"num_episodes": len(records),
	"score_mean": round(mean(scores), 6) if scores else 0.0,
	"score_std": round(pstdev(scores), 6) if len(scores) > 1 else 0.0,
	"episode_length_mean": round(mean(lengths), 6) if lengths else 0.0,
	"episode_wall_time_mean_s": round(mean(wall_times), 6)
	if wall_times
	else 0.0,
	"episode_wall_time_std_s": round(pstdev(wall_times), 6)
	if len(wall_times) > 1
	else 0.0,
	"do_nothing_steps_mean": round(mean(do_nothing), 6) if do_nothing else 0.0,
	"episode_total_redispatch_mw_mean": round(mean(redispatch_mw), 6)
	if redispatch_mw
	else 0.0,
	"episode_action_penalty_total_mean": round(mean(action_penalty), 6)
	if action_penalty
	else 0.0,
	}

	payload = {
	"timestamp": timestamp,
	"model": model,
	"base_url": base_url,
	"llm_usage": {
	"proposal_calls": total_proposal_calls,
	"final_calls": total_final_calls,
	"total_llm_calls": total_proposal_calls + total_final_calls,
	"per_task_llm_calls": per_task_llm_calls,
	},
	"sampling": {
	"temperature": llm_config.temperature,
	"top_p": llm_config.top_p,
	"top_k": llm_config.top_k,
	"min_p": llm_config.min_p,
	"presence_penalty": llm_config.presence_penalty,
	"repetition_penalty": llm_config.repetition_penalty,
	"enable_thinking": llm_config.enable_thinking,
	"max_tokens": llm_config.max_tokens,
	"num_seeds": llm_config.num_seeds,
	"seed_start": llm_config.seed_start,
	"scenario_mode": llm_config.scenario_mode,
	"task_seed_overrides": TASK_SEED_OVERRIDES,
	},
	"summary": baseline_scores.model_dump(),
	"aggregate": aggregate,
	"aggregate_by_tier": aggregate_by_tier,
	"episodes": evaluation_records,
	}
	json_path.write_text(json.dumps(payload, indent=2), encoding="utf-8")

	with csv_path.open("w", newline="", encoding="utf-8") as handle:
	writer = csv.DictWriter(
	handle,
	fieldnames=[
	"task_id",
	"seed",
	"curriculum_episode",
	"benchmark_tier",
	"score",
	"episode_length",
	"episode_wall_time_s",
	"done",
	"do_nothing_steps",
	"non_do_nothing_steps",
	"episode_total_redispatch_mw",
	"episode_action_penalty_total",
	"episode_action_penalty_mean",
	],
	)
	writer.writeheader()
	for record in evaluation_records:
	writer.writerow(
	{
	"task_id": record["task_id"],
	"seed": record["seed"],
	"curriculum_episode": record["curriculum_episode"],
	"benchmark_tier": record["benchmark_tier"],
	"score": record["score"],
	"episode_length": record["episode_length"],
	"episode_wall_time_s": record.get("episode_wall_time_s", 0.0),
	"done": record["done"],
	"do_nothing_steps": record["do_nothing_steps"],
	"non_do_nothing_steps": record["non_do_nothing_steps"],
	"episode_total_redispatch_mw": record.get(
	"episode_total_redispatch_mw", 0.0
	),
	"episode_action_penalty_total": record.get(
	"episode_action_penalty_total", 0.0
	),
	"episode_action_penalty_mean": record.get(
	"episode_action_penalty_mean", 0.0
	),
	}
	)
	logger.info("Wrote evaluation outputs json=%s csv=%s", json_path, csv_path)


	def prepare_run_paths(timestamp: str) -> dict[str, Path]:
	base_dir = Path(__file__).resolve().parent
	eval_dir = base_dir / "outputs" / "evals"
	log_dir = base_dir / "outputs" / "logs"
	eval_dir.mkdir(parents=True, exist_ok=True)
	log_dir.mkdir(parents=True, exist_ok=True)
	return {
	"json": eval_dir / f"baseline_eval_{timestamp}.json",
	"csv": eval_dir / f"baseline_eval_{timestamp}.csv",
	"log": log_dir / f"baseline_run_{timestamp}.log",
	}


	def attach_file_logger(log_path: Path) -> None:
	root_logger = logging.getLogger()
	if any(
	isinstance(handler, logging.FileHandler)
	and Path(handler.baseFilename) == log_path
	for handler in root_logger.handlers
	):
	return
	file_handler = logging.FileHandler(log_path, encoding="utf-8")
	file_handler.setLevel(logging.INFO)
	file_handler.setFormatter(
	logging.Formatter(
	fmt="%(asctime)s \| %(levelname)s \| %(name)s \| %(message)s",
	datefmt="%Y-%m-%d %H:%M:%S",
	)
	)
	root_logger.addHandler(file_handler)
	logger.info("Attached file logger log_path=%s", log_path)


	def append_evaluation_markdown(
	timestamp: str,
	model: str,
	llm_config: BaselineConfig,
	baseline_scores: BaselineScores,
	evaluation_records: list[dict[str, Any]],
	run_paths: dict[str, Path],
	selected_task_ids: Sequence[TaskId],
	) -> None:
	eval_md = Path(__file__).resolve().parent.parent / "evaluation.md"
	grouped: dict[str, list[dict[str, Any]]] = {}
	for record in evaluation_records:
	grouped.setdefault(record["task_id"], []).append(record)

	lines = [
	f"## Run {timestamp}",
	"",
	f"- Model: `{model}`",
	f"- Tasks: `{', '.join(selected_task_ids)}`",
	f"- Seeds: `{llm_config.seed_start}` to `{llm_config.seed_start + llm_config.num_seeds - 1}`",
	f"- Scenario mode: `{llm_config.scenario_mode}`",
	f"- Sampling: `temperature={llm_config.temperature}`, `top_p={llm_config.top_p}`, `top_k={llm_config.top_k}`, `min_p={llm_config.min_p}`, `presence_penalty={llm_config.presence_penalty}`, `repetition_penalty={llm_config.repetition_penalty}`",
	f"- JSON output: [{run_paths['json']}]({run_paths['json']})",
	f"- CSV output: [{run_paths['csv']}]({run_paths['csv']})",
	f"- Log file: [{run_paths['log']}]({run_paths['log']})",
	"",
	"\| Task \| Tier \| Mean Score \| Mean Episode Length \| Mean Time (s) \| Mean Do-Nothing Steps \|",
	"\| --- \| --- \| ---: \| ---: \| ---: \| ---: \|",
	]

	for task_id, records in grouped.items():
	tier_groups: dict[str, list[dict[str, Any]]] = {}
	for record in records:
	tier_groups.setdefault(record["benchmark_tier"], []).append(record)
	for benchmark_tier, tier_records in tier_groups.items():
	scores = [float(record["score"]) for record in tier_records]
	lengths = [int(record["episode_length"]) for record in tier_records]
	wall_times = [
	float(record.get("episode_wall_time_s", 0.0)) for record in tier_records
	]
	do_nothing = [int(record["do_nothing_steps"]) for record in tier_records]
	lines.append(
	f"\| `{task_id}` \| `{benchmark_tier}` \| `{mean(scores):.6f}` \| `{mean(lengths):.2f}` \| `{mean(wall_times):.2f}` \| `{mean(do_nothing):.2f}` \|"
	)

	lines.extend(
	[
	"",
	"Summary scores:",
	f"```json\n{baseline_scores.model_dump_json(indent=2)}\n```",
	"",
	]
	)

	with eval_md.open("a", encoding="utf-8") as handle:
	handle.write("\n".join(lines))
	handle.write("\n")


	if __name__ == "__main__":
	parser = argparse.ArgumentParser()
	parser.add_argument(
	"--baseline-suite",
	action="store_true",
	help="Run the internal multi-task baseline suite instead of the submission episode runner.",
	)
	parser.add_argument(
	"--task-id",
	dest="task_ids",
	nargs="+",
	choices=sorted(TASKS.keys()),
	help="Run only the selected task ids for --baseline-suite. Defaults to all tasks.",
	)
	args = parser.parse_args()

	if args.baseline_suite:
	base_url = os.environ.get("GRID2OP_BASE_URL", DEFAULT_ENV_BASE_URL)
	result = run_baseline_suite(base_url=base_url, task_ids=args.task_ids)
	print(result.model_dump_json(indent=2))
	else:
	run_submission_episodes(task_ids=args.task_ids)