sumitdotml
/

moe-emergence

+{
+  "format_version": 1,
+  "step": 500,
+  "preset": "no-lb",
+  "mode": "moe",
+  "config": {
+    "preset": "no-lb",
+    "mode": "moe",
+    "run_name": "no-lb-ablation",
+    "seed": 42,
+    "max_steps": 2000,
+    "batch_size": 2,
+    "grad_accum_steps": 4,
+    "effective_batch_size": 8,
+    "block_size": 512,
+    "learning_rate": 5e-05,
+    "weight_decay": 0.01,
+    "warmup_fraction": 0.1,
+    "max_grad_norm": 1.0,
+    "lb_coef": 0.0,
+    "z_coef": 0.001,
+    "n_experts": 8,
+    "topk": 1,
+    "noise_std": 0.0,
+    "moe_layers": [
+      8,
+      9,
+      10,
+      11
+    ],
+    "size_mb": 10.0,
+    "balance_tokens": true,
+    "eval_every": 100,
+    "save_every": 100,
+    "collapse_early_stop": true
+  },
+  "metrics_summary": {
+    "train_loss": 2.845479725241661,
+    "lm_loss": 2.84168404340744
+  }
+}