Training in progress, step 984, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.bin +1 -1
last-checkpoint/pytorch_model_fsdp.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +242 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b1089357c04ec4a0de85e536d52bb4c8df60d290b4d9d5b00a873e9fd046dbbc
 size 456206152

 version https://git-lfs.github.com/spec/v1
+oid sha256:aba653b21fbd27e90fa714e31d72bee8efe48fa6d68df3f7881b0f0894aab893
 size 456206152

last-checkpoint/optimizer.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:341005da48ef83ba8e839e0b70ed4e82e9000785e704bde8bfccb97361384f99
 size 912763251

 version https://git-lfs.github.com/spec/v1
+oid sha256:3676ffa9d2a4a6b45ff054c1c5e6d9f894f3b60e7b6788564173fff0bcaa9893
 size 912763251

last-checkpoint/pytorch_model_fsdp.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:26402a2eca103da6a9d310b909392899395babe69e239568a171a2b21830103e
 size 456340209

 version https://git-lfs.github.com/spec/v1
+oid sha256:56b3eee5fbed0d56604e1bc7489601d03cdfcc77e7ec58abb77fccc0880116b1
 size 456340209

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2cdab9c82a05ed01f13b244c083ffefdc46b875ecbe29601f180ef3e698088da
 size 14917

 version https://git-lfs.github.com/spec/v1
+oid sha256:b69aed956fe05a1bdbff0aa9f2338ca77aa7f5e0f752b5b5b9d31579d891cfac
 size 14917

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:53d0d0d70f1e731a3047262bd6862bc5a552fb1c97f56fe3ab8a8bfb39f818e9
 size 14917

 version https://git-lfs.github.com/spec/v1
+oid sha256:23b176d2ab9e2baaafc3d2752100872fba127bb76b8c8299ae0e041821c6ac5a
 size 14917

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:92949f20b07ea4400476cbbf4d64075409dbdf1f6201cbb60ef6c1f93ae34bd6
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:4bbdcb7c5a15d09694d6927296d9c5c9ee11f0dbd3ee3bb9a8d6bf66b0db98eb
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.9308943089430894,
   "eval_steps": 50,
-  "global_step": 950,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6818,6 +6818,244 @@
       "eval_samples_per_second": 0.257,
       "eval_steps_per_second": 0.134,
       "step": 950
     }
   ],
   "logging_steps": 1,
@@ -6832,12 +7070,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 9.195368100613063e+18,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.0,
   "eval_steps": 50,
+  "global_step": 984,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 0.257,
       "eval_steps_per_second": 0.134,
       "step": 950
+    },
+    {
+      "epoch": 1.9329268292682928,
+      "grad_norm": 0.30121544003486633,
+      "learning_rate": 1.5620972104934408e-08,
+      "loss": 2.6291,
+      "step": 951
+    },
+    {
+      "epoch": 1.934959349593496,
+      "grad_norm": 0.48420703411102295,
+      "learning_rate": 1.4716493680226596e-08,
+      "loss": 2.4335,
+      "step": 952
+    },
+    {
+      "epoch": 1.9369918699186992,
+      "grad_norm": 0.3064318299293518,
+      "learning_rate": 1.3838910069708944e-08,
+      "loss": 2.4035,
+      "step": 953
+    },
+    {
+      "epoch": 1.9390243902439024,
+      "grad_norm": 0.42194581031799316,
+      "learning_rate": 1.2988230770265287e-08,
+      "loss": 2.7248,
+      "step": 954
+    },
+    {
+      "epoch": 1.9410569105691056,
+      "grad_norm": 0.3294110894203186,
+      "learning_rate": 1.2164464987630131e-08,
+      "loss": 2.2102,
+      "step": 955
+    },
+    {
+      "epoch": 1.943089430894309,
+      "grad_norm": 0.37185436487197876,
+      "learning_rate": 1.1367621636291237e-08,
+      "loss": 2.8291,
+      "step": 956
+    },
+    {
+      "epoch": 1.9451219512195121,
+      "grad_norm": 0.4209384024143219,
+      "learning_rate": 1.0597709339390806e-08,
+      "loss": 2.2557,
+      "step": 957
+    },
+    {
+      "epoch": 1.9471544715447155,
+      "grad_norm": 0.30791327357292175,
+      "learning_rate": 9.854736428633605e-09,
+      "loss": 2.594,
+      "step": 958
+    },
+    {
+      "epoch": 1.9491869918699187,
+      "grad_norm": 0.4715903401374817,
+      "learning_rate": 9.138710944195938e-09,
+      "loss": 2.3257,
+      "step": 959
+    },
+    {
+      "epoch": 1.951219512195122,
+      "grad_norm": 0.3530280590057373,
+      "learning_rate": 8.449640634639878e-09,
+      "loss": 2.4252,
+      "step": 960
+    },
+    {
+      "epoch": 1.953252032520325,
+      "grad_norm": 0.3186476528644562,
+      "learning_rate": 7.787532956828048e-09,
+      "loss": 2.548,
+      "step": 961
+    },
+    {
+      "epoch": 1.9552845528455285,
+      "grad_norm": 0.29438072443008423,
+      "learning_rate": 7.152395075843421e-09,
+      "loss": 2.4232,
+      "step": 962
+    },
+    {
+      "epoch": 1.9573170731707317,
+      "grad_norm": 0.3598599135875702,
+      "learning_rate": 6.544233864911875e-09,
+      "loss": 2.1371,
+      "step": 963
+    },
+    {
+      "epoch": 1.959349593495935,
+      "grad_norm": 0.43737784028053284,
+      "learning_rate": 5.963055905328363e-09,
+      "loss": 2.3519,
+      "step": 964
+    },
+    {
+      "epoch": 1.9613821138211383,
+      "grad_norm": 0.40080031752586365,
+      "learning_rate": 5.408867486384473e-09,
+      "loss": 2.7944,
+      "step": 965
+    },
+    {
+      "epoch": 1.9634146341463414,
+      "grad_norm": 0.35485896468162537,
+      "learning_rate": 4.881674605301534e-09,
+      "loss": 2.5407,
+      "step": 966
+    },
+    {
+      "epoch": 1.9654471544715446,
+      "grad_norm": 0.2693948745727539,
+      "learning_rate": 4.381482967164285e-09,
+      "loss": 2.5014,
+      "step": 967
+    },
+    {
+      "epoch": 1.967479674796748,
+      "grad_norm": 0.36196112632751465,
+      "learning_rate": 3.908297984861198e-09,
+      "loss": 2.3405,
+      "step": 968
+    },
+    {
+      "epoch": 1.9695121951219512,
+      "grad_norm": 0.3092941343784332,
+      "learning_rate": 3.4621247790245227e-09,
+      "loss": 2.4542,
+      "step": 969
+    },
+    {
+      "epoch": 1.9715447154471546,
+      "grad_norm": 0.3844071328639984,
+      "learning_rate": 3.0429681779739485e-09,
+      "loss": 2.4375,
+      "step": 970
+    },
+    {
+      "epoch": 1.9735772357723578,
+      "grad_norm": 0.34891366958618164,
+      "learning_rate": 2.6508327176671953e-09,
+      "loss": 2.5139,
+      "step": 971
+    },
+    {
+      "epoch": 1.975609756097561,
+      "grad_norm": 0.6044580340385437,
+      "learning_rate": 2.285722641647836e-09,
+      "loss": 2.5668,
+      "step": 972
+    },
+    {
+      "epoch": 1.9776422764227641,
+      "grad_norm": 0.389663964509964,
+      "learning_rate": 1.947641901001995e-09,
+      "loss": 2.4824,
+      "step": 973
+    },
+    {
+      "epoch": 1.9796747967479673,
+      "grad_norm": 0.34469953179359436,
+      "learning_rate": 1.6365941543131093e-09,
+      "loss": 2.5478,
+      "step": 974
+    },
+    {
+      "epoch": 1.9817073170731707,
+      "grad_norm": 0.34834548830986023,
+      "learning_rate": 1.3525827676247327e-09,
+      "loss": 2.6576,
+      "step": 975
+    },
+    {
+      "epoch": 1.9837398373983741,
+      "grad_norm": 0.39558902382850647,
+      "learning_rate": 1.0956108144025145e-09,
+      "loss": 2.3903,
+      "step": 976
+    },
+    {
+      "epoch": 1.9857723577235773,
+      "grad_norm": 0.38120120763778687,
+      "learning_rate": 8.656810755008904e-10,
+      "loss": 2.7058,
+      "step": 977
+    },
+    {
+      "epoch": 1.9878048780487805,
+      "grad_norm": 0.37062206864356995,
+      "learning_rate": 6.62796039134772e-10,
+      "loss": 2.5938,
+      "step": 978
+    },
+    {
+      "epoch": 1.9898373983739837,
+      "grad_norm": 0.3332228362560272,
+      "learning_rate": 4.869579008498493e-10,
+      "loss": 2.4417,
+      "step": 979
+    },
+    {
+      "epoch": 1.9918699186991868,
+      "grad_norm": 0.37683814764022827,
+      "learning_rate": 3.3816856350177284e-10,
+      "loss": 2.5171,
+      "step": 980
+    },
+    {
+      "epoch": 1.9939024390243902,
+      "grad_norm": 0.5217941999435425,
+      "learning_rate": 2.1642963723284006e-10,
+      "loss": 3.2324,
+      "step": 981
+    },
+    {
+      "epoch": 1.9959349593495936,
+      "grad_norm": 0.35729387402534485,
+      "learning_rate": 1.2174243945672905e-10,
+      "loss": 2.2729,
+      "step": 982
+    },
+    {
+      "epoch": 1.9979674796747968,
+      "grad_norm": 0.3736533522605896,
+      "learning_rate": 5.410799484323326e-11,
+      "loss": 2.3411,
+      "step": 983
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.780532717704773,
+      "learning_rate": 1.3527035306881708e-11,
+      "loss": 2.3983,
+      "step": 984
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 9.518718229460025e+18,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null