| { | |
| "best_metric": null, | |
| "best_model_checkpoint": null, | |
| "epoch": 1.0661333333333334, | |
| "eval_steps": 50, | |
| "global_step": 1000, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "epoch": 0.0010666666666666667, | |
| "grad_norm": 7.340938305754196, | |
| "learning_rate": 7.092198581560283e-09, | |
| "loss": 0.1541, | |
| "step": 1 | |
| }, | |
| { | |
| "epoch": 0.0021333333333333334, | |
| "grad_norm": 10.456284265762507, | |
| "learning_rate": 1.4184397163120567e-08, | |
| "loss": 0.2166, | |
| "step": 2 | |
| }, | |
| { | |
| "epoch": 0.0032, | |
| "grad_norm": 3.3262532882195073, | |
| "learning_rate": 2.127659574468085e-08, | |
| "loss": 0.125, | |
| "step": 3 | |
| }, | |
| { | |
| "epoch": 0.004266666666666667, | |
| "grad_norm": 11.460851747410167, | |
| "learning_rate": 2.8368794326241133e-08, | |
| "loss": 0.2258, | |
| "step": 4 | |
| }, | |
| { | |
| "epoch": 0.005333333333333333, | |
| "grad_norm": 8.441501897479922, | |
| "learning_rate": 3.546099290780142e-08, | |
| "loss": 0.153, | |
| "step": 5 | |
| }, | |
| { | |
| "epoch": 0.0064, | |
| "grad_norm": 5.414631894804662, | |
| "learning_rate": 4.25531914893617e-08, | |
| "loss": 0.1217, | |
| "step": 6 | |
| }, | |
| { | |
| "epoch": 0.007466666666666667, | |
| "grad_norm": 6.8055262034936135, | |
| "learning_rate": 4.964539007092199e-08, | |
| "loss": 0.2203, | |
| "step": 7 | |
| }, | |
| { | |
| "epoch": 0.008533333333333334, | |
| "grad_norm": 6.03157130162322, | |
| "learning_rate": 5.673758865248227e-08, | |
| "loss": 0.1271, | |
| "step": 8 | |
| }, | |
| { | |
| "epoch": 0.0096, | |
| "grad_norm": 15.918639711164598, | |
| "learning_rate": 6.382978723404254e-08, | |
| "loss": 0.2446, | |
| "step": 9 | |
| }, | |
| { | |
| "epoch": 0.010666666666666666, | |
| "grad_norm": 5.407971560881396, | |
| "learning_rate": 7.092198581560284e-08, | |
| "loss": 0.0969, | |
| "step": 10 | |
| }, | |
| { | |
| "epoch": 0.011733333333333333, | |
| "grad_norm": 6.038181425779358, | |
| "learning_rate": 7.801418439716311e-08, | |
| "loss": 0.1582, | |
| "step": 11 | |
| }, | |
| { | |
| "epoch": 0.0128, | |
| "grad_norm": 6.82290309727894, | |
| "learning_rate": 8.51063829787234e-08, | |
| "loss": 0.1788, | |
| "step": 12 | |
| }, | |
| { | |
| "epoch": 0.013866666666666666, | |
| "grad_norm": 10.744951629042818, | |
| "learning_rate": 9.219858156028367e-08, | |
| "loss": 0.2034, | |
| "step": 13 | |
| }, | |
| { | |
| "epoch": 0.014933333333333333, | |
| "grad_norm": 5.776379057599028, | |
| "learning_rate": 9.929078014184397e-08, | |
| "loss": 0.1466, | |
| "step": 14 | |
| }, | |
| { | |
| "epoch": 0.016, | |
| "grad_norm": 6.451686862431702, | |
| "learning_rate": 1.0638297872340425e-07, | |
| "loss": 0.2048, | |
| "step": 15 | |
| }, | |
| { | |
| "epoch": 0.017066666666666667, | |
| "grad_norm": 8.87773427933643, | |
| "learning_rate": 1.1347517730496453e-07, | |
| "loss": 0.1916, | |
| "step": 16 | |
| }, | |
| { | |
| "epoch": 0.018133333333333335, | |
| "grad_norm": 3.3723817508202414, | |
| "learning_rate": 1.205673758865248e-07, | |
| "loss": 0.102, | |
| "step": 17 | |
| }, | |
| { | |
| "epoch": 0.0192, | |
| "grad_norm": 5.582474730267361, | |
| "learning_rate": 1.2765957446808508e-07, | |
| "loss": 0.1072, | |
| "step": 18 | |
| }, | |
| { | |
| "epoch": 0.020266666666666665, | |
| "grad_norm": 9.981766121447329, | |
| "learning_rate": 1.3475177304964538e-07, | |
| "loss": 0.2441, | |
| "step": 19 | |
| }, | |
| { | |
| "epoch": 0.021333333333333333, | |
| "grad_norm": 6.916457694714178, | |
| "learning_rate": 1.4184397163120568e-07, | |
| "loss": 0.155, | |
| "step": 20 | |
| }, | |
| { | |
| "epoch": 0.0224, | |
| "grad_norm": 15.903970541009066, | |
| "learning_rate": 1.4893617021276595e-07, | |
| "loss": 0.1844, | |
| "step": 21 | |
| }, | |
| { | |
| "epoch": 0.023466666666666667, | |
| "grad_norm": 3.435640900507597, | |
| "learning_rate": 1.5602836879432623e-07, | |
| "loss": 0.1177, | |
| "step": 22 | |
| }, | |
| { | |
| "epoch": 0.024533333333333334, | |
| "grad_norm": 5.983239337047582, | |
| "learning_rate": 1.6312056737588653e-07, | |
| "loss": 0.1839, | |
| "step": 23 | |
| }, | |
| { | |
| "epoch": 0.0256, | |
| "grad_norm": 3.4918264067734004, | |
| "learning_rate": 1.702127659574468e-07, | |
| "loss": 0.0885, | |
| "step": 24 | |
| }, | |
| { | |
| "epoch": 0.02666666666666667, | |
| "grad_norm": 2.159145413848388, | |
| "learning_rate": 1.773049645390071e-07, | |
| "loss": 0.0758, | |
| "step": 25 | |
| }, | |
| { | |
| "epoch": 0.027733333333333332, | |
| "grad_norm": 7.402773228692812, | |
| "learning_rate": 1.8439716312056735e-07, | |
| "loss": 0.1488, | |
| "step": 26 | |
| }, | |
| { | |
| "epoch": 0.0288, | |
| "grad_norm": 15.895667142159159, | |
| "learning_rate": 1.9148936170212765e-07, | |
| "loss": 0.2433, | |
| "step": 27 | |
| }, | |
| { | |
| "epoch": 0.029866666666666666, | |
| "grad_norm": 4.312780260039735, | |
| "learning_rate": 1.9858156028368795e-07, | |
| "loss": 0.106, | |
| "step": 28 | |
| }, | |
| { | |
| "epoch": 0.030933333333333334, | |
| "grad_norm": 3.1997236304738403, | |
| "learning_rate": 2.0567375886524822e-07, | |
| "loss": 0.1183, | |
| "step": 29 | |
| }, | |
| { | |
| "epoch": 0.032, | |
| "grad_norm": 6.243317780451787, | |
| "learning_rate": 2.127659574468085e-07, | |
| "loss": 0.1075, | |
| "step": 30 | |
| }, | |
| { | |
| "epoch": 0.03306666666666667, | |
| "grad_norm": 6.347714245131809, | |
| "learning_rate": 2.198581560283688e-07, | |
| "loss": 0.1556, | |
| "step": 31 | |
| }, | |
| { | |
| "epoch": 0.034133333333333335, | |
| "grad_norm": 4.243462801533408, | |
| "learning_rate": 2.2695035460992907e-07, | |
| "loss": 0.0963, | |
| "step": 32 | |
| }, | |
| { | |
| "epoch": 0.0352, | |
| "grad_norm": 6.623461538070349, | |
| "learning_rate": 2.3404255319148937e-07, | |
| "loss": 0.135, | |
| "step": 33 | |
| }, | |
| { | |
| "epoch": 0.03626666666666667, | |
| "grad_norm": 6.484847083021655, | |
| "learning_rate": 2.411347517730496e-07, | |
| "loss": 0.1279, | |
| "step": 34 | |
| }, | |
| { | |
| "epoch": 0.037333333333333336, | |
| "grad_norm": 3.2077021923002986, | |
| "learning_rate": 2.482269503546099e-07, | |
| "loss": 0.0771, | |
| "step": 35 | |
| }, | |
| { | |
| "epoch": 0.0384, | |
| "grad_norm": 4.116737651211225, | |
| "learning_rate": 2.5531914893617016e-07, | |
| "loss": 0.1264, | |
| "step": 36 | |
| }, | |
| { | |
| "epoch": 0.039466666666666664, | |
| "grad_norm": 4.345662195274936, | |
| "learning_rate": 2.6241134751773046e-07, | |
| "loss": 0.1542, | |
| "step": 37 | |
| }, | |
| { | |
| "epoch": 0.04053333333333333, | |
| "grad_norm": 7.406376789679956, | |
| "learning_rate": 2.6950354609929076e-07, | |
| "loss": 0.1548, | |
| "step": 38 | |
| }, | |
| { | |
| "epoch": 0.0416, | |
| "grad_norm": 3.0054390693138946, | |
| "learning_rate": 2.7659574468085106e-07, | |
| "loss": 0.1181, | |
| "step": 39 | |
| }, | |
| { | |
| "epoch": 0.042666666666666665, | |
| "grad_norm": 5.020408793541103, | |
| "learning_rate": 2.8368794326241136e-07, | |
| "loss": 0.1504, | |
| "step": 40 | |
| }, | |
| { | |
| "epoch": 0.04373333333333333, | |
| "grad_norm": 3.246192355933568, | |
| "learning_rate": 2.907801418439716e-07, | |
| "loss": 0.1346, | |
| "step": 41 | |
| }, | |
| { | |
| "epoch": 0.0448, | |
| "grad_norm": 2.6805112095912067, | |
| "learning_rate": 2.978723404255319e-07, | |
| "loss": 0.1224, | |
| "step": 42 | |
| }, | |
| { | |
| "epoch": 0.04586666666666667, | |
| "grad_norm": 5.576722725427941, | |
| "learning_rate": 3.049645390070922e-07, | |
| "loss": 0.0652, | |
| "step": 43 | |
| }, | |
| { | |
| "epoch": 0.046933333333333334, | |
| "grad_norm": 3.841014006155635, | |
| "learning_rate": 3.1205673758865245e-07, | |
| "loss": 0.0845, | |
| "step": 44 | |
| }, | |
| { | |
| "epoch": 0.048, | |
| "grad_norm": 3.3854913012232064, | |
| "learning_rate": 3.1914893617021275e-07, | |
| "loss": 0.0733, | |
| "step": 45 | |
| }, | |
| { | |
| "epoch": 0.04906666666666667, | |
| "grad_norm": 9.677172849129757, | |
| "learning_rate": 3.2624113475177305e-07, | |
| "loss": 0.1341, | |
| "step": 46 | |
| }, | |
| { | |
| "epoch": 0.050133333333333335, | |
| "grad_norm": 3.8894108779685492, | |
| "learning_rate": 3.333333333333333e-07, | |
| "loss": 0.0818, | |
| "step": 47 | |
| }, | |
| { | |
| "epoch": 0.0512, | |
| "grad_norm": 6.158435704247057, | |
| "learning_rate": 3.404255319148936e-07, | |
| "loss": 0.1103, | |
| "step": 48 | |
| }, | |
| { | |
| "epoch": 0.05226666666666667, | |
| "grad_norm": 4.194471824532617, | |
| "learning_rate": 3.475177304964539e-07, | |
| "loss": 0.1676, | |
| "step": 49 | |
| }, | |
| { | |
| "epoch": 0.05333333333333334, | |
| "grad_norm": 6.6972614887244335, | |
| "learning_rate": 3.546099290780142e-07, | |
| "loss": 0.0954, | |
| "step": 50 | |
| }, | |
| { | |
| "epoch": 0.05333333333333334, | |
| "eval_loss": 0.08882835507392883, | |
| "eval_runtime": 9.0554, | |
| "eval_samples_per_second": 11.043, | |
| "eval_steps_per_second": 5.522, | |
| "step": 50 | |
| }, | |
| { | |
| "epoch": 0.0544, | |
| "grad_norm": 4.889268413654233, | |
| "learning_rate": 3.617021276595745e-07, | |
| "loss": 0.111, | |
| "step": 51 | |
| }, | |
| { | |
| "epoch": 0.055466666666666664, | |
| "grad_norm": 5.574322058931982, | |
| "learning_rate": 3.687943262411347e-07, | |
| "loss": 0.1313, | |
| "step": 52 | |
| }, | |
| { | |
| "epoch": 0.05653333333333333, | |
| "grad_norm": 1.674771584469475, | |
| "learning_rate": 3.75886524822695e-07, | |
| "loss": 0.0604, | |
| "step": 53 | |
| }, | |
| { | |
| "epoch": 0.0576, | |
| "grad_norm": 5.566372795256964, | |
| "learning_rate": 3.829787234042553e-07, | |
| "loss": 0.1418, | |
| "step": 54 | |
| }, | |
| { | |
| "epoch": 0.058666666666666666, | |
| "grad_norm": 3.749599784286942, | |
| "learning_rate": 3.900709219858156e-07, | |
| "loss": 0.1704, | |
| "step": 55 | |
| }, | |
| { | |
| "epoch": 0.05973333333333333, | |
| "grad_norm": 3.5747273894868847, | |
| "learning_rate": 3.971631205673759e-07, | |
| "loss": 0.079, | |
| "step": 56 | |
| }, | |
| { | |
| "epoch": 0.0608, | |
| "grad_norm": 5.499639290770769, | |
| "learning_rate": 4.0425531914893614e-07, | |
| "loss": 0.0561, | |
| "step": 57 | |
| }, | |
| { | |
| "epoch": 0.06186666666666667, | |
| "grad_norm": 5.886058851630259, | |
| "learning_rate": 4.1134751773049644e-07, | |
| "loss": 0.1697, | |
| "step": 58 | |
| }, | |
| { | |
| "epoch": 0.06293333333333333, | |
| "grad_norm": 4.675421646825889, | |
| "learning_rate": 4.184397163120567e-07, | |
| "loss": 0.0879, | |
| "step": 59 | |
| }, | |
| { | |
| "epoch": 0.064, | |
| "grad_norm": 2.9609033041262407, | |
| "learning_rate": 4.25531914893617e-07, | |
| "loss": 0.0599, | |
| "step": 60 | |
| }, | |
| { | |
| "epoch": 0.06506666666666666, | |
| "grad_norm": 4.8304638212349165, | |
| "learning_rate": 4.326241134751773e-07, | |
| "loss": 0.0717, | |
| "step": 61 | |
| }, | |
| { | |
| "epoch": 0.06613333333333334, | |
| "grad_norm": 6.6163194002583845, | |
| "learning_rate": 4.397163120567376e-07, | |
| "loss": 0.0819, | |
| "step": 62 | |
| }, | |
| { | |
| "epoch": 0.0672, | |
| "grad_norm": 6.790998305599636, | |
| "learning_rate": 4.4680851063829783e-07, | |
| "loss": 0.1505, | |
| "step": 63 | |
| }, | |
| { | |
| "epoch": 0.06826666666666667, | |
| "grad_norm": 2.650894150253927, | |
| "learning_rate": 4.5390070921985813e-07, | |
| "loss": 0.0607, | |
| "step": 64 | |
| }, | |
| { | |
| "epoch": 0.06933333333333333, | |
| "grad_norm": 4.408808753479698, | |
| "learning_rate": 4.6099290780141843e-07, | |
| "loss": 0.065, | |
| "step": 65 | |
| }, | |
| { | |
| "epoch": 0.0704, | |
| "grad_norm": 2.951479505537457, | |
| "learning_rate": 4.6808510638297873e-07, | |
| "loss": 0.0691, | |
| "step": 66 | |
| }, | |
| { | |
| "epoch": 0.07146666666666666, | |
| "grad_norm": 2.2831307650993438, | |
| "learning_rate": 4.75177304964539e-07, | |
| "loss": 0.0597, | |
| "step": 67 | |
| }, | |
| { | |
| "epoch": 0.07253333333333334, | |
| "grad_norm": 4.755633341091047, | |
| "learning_rate": 4.822695035460992e-07, | |
| "loss": 0.0864, | |
| "step": 68 | |
| }, | |
| { | |
| "epoch": 0.0736, | |
| "grad_norm": 4.554930100975794, | |
| "learning_rate": 4.893617021276595e-07, | |
| "loss": 0.0763, | |
| "step": 69 | |
| }, | |
| { | |
| "epoch": 0.07466666666666667, | |
| "grad_norm": 2.6442276802850855, | |
| "learning_rate": 4.964539007092198e-07, | |
| "loss": 0.0824, | |
| "step": 70 | |
| }, | |
| { | |
| "epoch": 0.07573333333333333, | |
| "grad_norm": 2.5741437746448783, | |
| "learning_rate": 5.0354609929078e-07, | |
| "loss": 0.0579, | |
| "step": 71 | |
| }, | |
| { | |
| "epoch": 0.0768, | |
| "grad_norm": 3.595530272135639, | |
| "learning_rate": 5.106382978723403e-07, | |
| "loss": 0.0643, | |
| "step": 72 | |
| }, | |
| { | |
| "epoch": 0.07786666666666667, | |
| "grad_norm": 5.477870680617374, | |
| "learning_rate": 5.177304964539006e-07, | |
| "loss": 0.0869, | |
| "step": 73 | |
| }, | |
| { | |
| "epoch": 0.07893333333333333, | |
| "grad_norm": 7.221540857358708, | |
| "learning_rate": 5.248226950354609e-07, | |
| "loss": 0.1179, | |
| "step": 74 | |
| }, | |
| { | |
| "epoch": 0.08, | |
| "grad_norm": 3.113022269373061, | |
| "learning_rate": 5.319148936170212e-07, | |
| "loss": 0.079, | |
| "step": 75 | |
| }, | |
| { | |
| "epoch": 0.08106666666666666, | |
| "grad_norm": 2.41642137337109, | |
| "learning_rate": 5.390070921985815e-07, | |
| "loss": 0.0647, | |
| "step": 76 | |
| }, | |
| { | |
| "epoch": 0.08213333333333334, | |
| "grad_norm": 4.730547946277124, | |
| "learning_rate": 5.460992907801418e-07, | |
| "loss": 0.0656, | |
| "step": 77 | |
| }, | |
| { | |
| "epoch": 0.0832, | |
| "grad_norm": 2.703988101964762, | |
| "learning_rate": 5.531914893617021e-07, | |
| "loss": 0.0707, | |
| "step": 78 | |
| }, | |
| { | |
| "epoch": 0.08426666666666667, | |
| "grad_norm": 4.7268623347309235, | |
| "learning_rate": 5.602836879432624e-07, | |
| "loss": 0.1377, | |
| "step": 79 | |
| }, | |
| { | |
| "epoch": 0.08533333333333333, | |
| "grad_norm": 1.2076954307731242, | |
| "learning_rate": 5.673758865248227e-07, | |
| "loss": 0.0274, | |
| "step": 80 | |
| }, | |
| { | |
| "epoch": 0.0864, | |
| "grad_norm": 4.6689012165897825, | |
| "learning_rate": 5.74468085106383e-07, | |
| "loss": 0.0487, | |
| "step": 81 | |
| }, | |
| { | |
| "epoch": 0.08746666666666666, | |
| "grad_norm": 2.770738253589274, | |
| "learning_rate": 5.815602836879432e-07, | |
| "loss": 0.0512, | |
| "step": 82 | |
| }, | |
| { | |
| "epoch": 0.08853333333333334, | |
| "grad_norm": 3.6483172234190966, | |
| "learning_rate": 5.886524822695035e-07, | |
| "loss": 0.0995, | |
| "step": 83 | |
| }, | |
| { | |
| "epoch": 0.0896, | |
| "grad_norm": 3.739966939654011, | |
| "learning_rate": 5.957446808510638e-07, | |
| "loss": 0.0934, | |
| "step": 84 | |
| }, | |
| { | |
| "epoch": 0.09066666666666667, | |
| "grad_norm": 1.608577977472446, | |
| "learning_rate": 6.028368794326241e-07, | |
| "loss": 0.0385, | |
| "step": 85 | |
| }, | |
| { | |
| "epoch": 0.09173333333333333, | |
| "grad_norm": 3.8617195954418406, | |
| "learning_rate": 6.099290780141844e-07, | |
| "loss": 0.0569, | |
| "step": 86 | |
| }, | |
| { | |
| "epoch": 0.0928, | |
| "grad_norm": 2.081952515100534, | |
| "learning_rate": 6.170212765957446e-07, | |
| "loss": 0.0482, | |
| "step": 87 | |
| }, | |
| { | |
| "epoch": 0.09386666666666667, | |
| "grad_norm": 2.388775033154843, | |
| "learning_rate": 6.241134751773049e-07, | |
| "loss": 0.0524, | |
| "step": 88 | |
| }, | |
| { | |
| "epoch": 0.09493333333333333, | |
| "grad_norm": 3.007951500761127, | |
| "learning_rate": 6.312056737588652e-07, | |
| "loss": 0.0203, | |
| "step": 89 | |
| }, | |
| { | |
| "epoch": 0.096, | |
| "grad_norm": 6.522690069132942, | |
| "learning_rate": 6.382978723404255e-07, | |
| "loss": 0.0809, | |
| "step": 90 | |
| }, | |
| { | |
| "epoch": 0.09706666666666666, | |
| "grad_norm": 3.471639318133103, | |
| "learning_rate": 6.453900709219858e-07, | |
| "loss": 0.046, | |
| "step": 91 | |
| }, | |
| { | |
| "epoch": 0.09813333333333334, | |
| "grad_norm": 3.5195736847771695, | |
| "learning_rate": 6.524822695035461e-07, | |
| "loss": 0.0408, | |
| "step": 92 | |
| }, | |
| { | |
| "epoch": 0.0992, | |
| "grad_norm": 1.6266036572427804, | |
| "learning_rate": 6.595744680851063e-07, | |
| "loss": 0.0458, | |
| "step": 93 | |
| }, | |
| { | |
| "epoch": 0.10026666666666667, | |
| "grad_norm": 2.913848756075948, | |
| "learning_rate": 6.666666666666666e-07, | |
| "loss": 0.0609, | |
| "step": 94 | |
| }, | |
| { | |
| "epoch": 0.10133333333333333, | |
| "grad_norm": 3.639917136914541, | |
| "learning_rate": 6.737588652482269e-07, | |
| "loss": 0.0649, | |
| "step": 95 | |
| }, | |
| { | |
| "epoch": 0.1024, | |
| "grad_norm": 2.731695042035598, | |
| "learning_rate": 6.808510638297872e-07, | |
| "loss": 0.033, | |
| "step": 96 | |
| }, | |
| { | |
| "epoch": 0.10346666666666667, | |
| "grad_norm": 9.817120143278682, | |
| "learning_rate": 6.879432624113475e-07, | |
| "loss": 0.0736, | |
| "step": 97 | |
| }, | |
| { | |
| "epoch": 0.10453333333333334, | |
| "grad_norm": 8.957707046031748, | |
| "learning_rate": 6.950354609929078e-07, | |
| "loss": 0.1436, | |
| "step": 98 | |
| }, | |
| { | |
| "epoch": 0.1056, | |
| "grad_norm": 3.7249541410034217, | |
| "learning_rate": 7.021276595744681e-07, | |
| "loss": 0.1571, | |
| "step": 99 | |
| }, | |
| { | |
| "epoch": 0.10666666666666667, | |
| "grad_norm": 2.1810107595999826, | |
| "learning_rate": 7.092198581560284e-07, | |
| "loss": 0.0234, | |
| "step": 100 | |
| }, | |
| { | |
| "epoch": 0.10666666666666667, | |
| "eval_loss": 0.06481269001960754, | |
| "eval_runtime": 8.2247, | |
| "eval_samples_per_second": 12.158, | |
| "eval_steps_per_second": 6.079, | |
| "step": 100 | |
| }, | |
| { | |
| "epoch": 0.10773333333333333, | |
| "grad_norm": 1.1960831433119428, | |
| "learning_rate": 7.163120567375887e-07, | |
| "loss": 0.0091, | |
| "step": 101 | |
| }, | |
| { | |
| "epoch": 0.1088, | |
| "grad_norm": 7.88812174005162, | |
| "learning_rate": 7.23404255319149e-07, | |
| "loss": 0.0639, | |
| "step": 102 | |
| }, | |
| { | |
| "epoch": 0.10986666666666667, | |
| "grad_norm": 1.7897229106298904, | |
| "learning_rate": 7.304964539007092e-07, | |
| "loss": 0.0272, | |
| "step": 103 | |
| }, | |
| { | |
| "epoch": 0.11093333333333333, | |
| "grad_norm": 2.740100759064914, | |
| "learning_rate": 7.375886524822694e-07, | |
| "loss": 0.044, | |
| "step": 104 | |
| }, | |
| { | |
| "epoch": 0.112, | |
| "grad_norm": 5.0893894072651324, | |
| "learning_rate": 7.446808510638297e-07, | |
| "loss": 0.0409, | |
| "step": 105 | |
| }, | |
| { | |
| "epoch": 0.11306666666666666, | |
| "grad_norm": 2.568188070153663, | |
| "learning_rate": 7.5177304964539e-07, | |
| "loss": 0.0485, | |
| "step": 106 | |
| }, | |
| { | |
| "epoch": 0.11413333333333334, | |
| "grad_norm": 8.001505274552581, | |
| "learning_rate": 7.588652482269503e-07, | |
| "loss": 0.1164, | |
| "step": 107 | |
| }, | |
| { | |
| "epoch": 0.1152, | |
| "grad_norm": 9.975541818451585, | |
| "learning_rate": 7.659574468085106e-07, | |
| "loss": 0.1097, | |
| "step": 108 | |
| }, | |
| { | |
| "epoch": 0.11626666666666667, | |
| "grad_norm": 6.831232611992033, | |
| "learning_rate": 7.730496453900709e-07, | |
| "loss": 0.0999, | |
| "step": 109 | |
| }, | |
| { | |
| "epoch": 0.11733333333333333, | |
| "grad_norm": 4.659876893891191, | |
| "learning_rate": 7.801418439716312e-07, | |
| "loss": 0.0495, | |
| "step": 110 | |
| }, | |
| { | |
| "epoch": 0.1184, | |
| "grad_norm": 3.2805986727535767, | |
| "learning_rate": 7.872340425531915e-07, | |
| "loss": 0.0549, | |
| "step": 111 | |
| }, | |
| { | |
| "epoch": 0.11946666666666667, | |
| "grad_norm": 2.9331360611303827, | |
| "learning_rate": 7.943262411347518e-07, | |
| "loss": 0.0259, | |
| "step": 112 | |
| }, | |
| { | |
| "epoch": 0.12053333333333334, | |
| "grad_norm": 5.955971751835239, | |
| "learning_rate": 8.014184397163121e-07, | |
| "loss": 0.0543, | |
| "step": 113 | |
| }, | |
| { | |
| "epoch": 0.1216, | |
| "grad_norm": 4.113357400085846, | |
| "learning_rate": 8.085106382978723e-07, | |
| "loss": 0.0886, | |
| "step": 114 | |
| }, | |
| { | |
| "epoch": 0.12266666666666666, | |
| "grad_norm": 4.2115598224554915, | |
| "learning_rate": 8.156028368794326e-07, | |
| "loss": 0.0447, | |
| "step": 115 | |
| }, | |
| { | |
| "epoch": 0.12373333333333333, | |
| "grad_norm": 5.438624632240716, | |
| "learning_rate": 8.226950354609929e-07, | |
| "loss": 0.0402, | |
| "step": 116 | |
| }, | |
| { | |
| "epoch": 0.1248, | |
| "grad_norm": 4.86723071794748, | |
| "learning_rate": 8.297872340425532e-07, | |
| "loss": 0.0717, | |
| "step": 117 | |
| }, | |
| { | |
| "epoch": 0.12586666666666665, | |
| "grad_norm": 2.467742405372819, | |
| "learning_rate": 8.368794326241134e-07, | |
| "loss": 0.0416, | |
| "step": 118 | |
| }, | |
| { | |
| "epoch": 0.12693333333333334, | |
| "grad_norm": 7.610907063462189, | |
| "learning_rate": 8.439716312056737e-07, | |
| "loss": 0.0901, | |
| "step": 119 | |
| }, | |
| { | |
| "epoch": 0.128, | |
| "grad_norm": 4.686021668274038, | |
| "learning_rate": 8.51063829787234e-07, | |
| "loss": 0.1223, | |
| "step": 120 | |
| }, | |
| { | |
| "epoch": 0.12906666666666666, | |
| "grad_norm": 2.0727614732992907, | |
| "learning_rate": 8.581560283687943e-07, | |
| "loss": 0.0174, | |
| "step": 121 | |
| }, | |
| { | |
| "epoch": 0.13013333333333332, | |
| "grad_norm": 5.32405840348475, | |
| "learning_rate": 8.652482269503546e-07, | |
| "loss": 0.0808, | |
| "step": 122 | |
| }, | |
| { | |
| "epoch": 0.1312, | |
| "grad_norm": 2.426088323541015, | |
| "learning_rate": 8.723404255319149e-07, | |
| "loss": 0.0619, | |
| "step": 123 | |
| }, | |
| { | |
| "epoch": 0.13226666666666667, | |
| "grad_norm": 3.233558168729233, | |
| "learning_rate": 8.794326241134752e-07, | |
| "loss": 0.0301, | |
| "step": 124 | |
| }, | |
| { | |
| "epoch": 0.13333333333333333, | |
| "grad_norm": 4.0896756561304315, | |
| "learning_rate": 8.865248226950354e-07, | |
| "loss": 0.065, | |
| "step": 125 | |
| }, | |
| { | |
| "epoch": 0.1344, | |
| "grad_norm": 1.6818444665396033, | |
| "learning_rate": 8.936170212765957e-07, | |
| "loss": 0.0333, | |
| "step": 126 | |
| }, | |
| { | |
| "epoch": 0.13546666666666668, | |
| "grad_norm": 2.728458267778592, | |
| "learning_rate": 9.00709219858156e-07, | |
| "loss": 0.0363, | |
| "step": 127 | |
| }, | |
| { | |
| "epoch": 0.13653333333333334, | |
| "grad_norm": 6.345498454995162, | |
| "learning_rate": 9.078014184397163e-07, | |
| "loss": 0.1187, | |
| "step": 128 | |
| }, | |
| { | |
| "epoch": 0.1376, | |
| "grad_norm": 4.328408872797893, | |
| "learning_rate": 9.148936170212766e-07, | |
| "loss": 0.0419, | |
| "step": 129 | |
| }, | |
| { | |
| "epoch": 0.13866666666666666, | |
| "grad_norm": 10.015435899692932, | |
| "learning_rate": 9.219858156028369e-07, | |
| "loss": 0.0964, | |
| "step": 130 | |
| }, | |
| { | |
| "epoch": 0.13973333333333332, | |
| "grad_norm": 1.6723221742745367, | |
| "learning_rate": 9.290780141843972e-07, | |
| "loss": 0.035, | |
| "step": 131 | |
| }, | |
| { | |
| "epoch": 0.1408, | |
| "grad_norm": 3.5841880533579973, | |
| "learning_rate": 9.361702127659575e-07, | |
| "loss": 0.0394, | |
| "step": 132 | |
| }, | |
| { | |
| "epoch": 0.14186666666666667, | |
| "grad_norm": 4.261342222841079, | |
| "learning_rate": 9.432624113475178e-07, | |
| "loss": 0.0669, | |
| "step": 133 | |
| }, | |
| { | |
| "epoch": 0.14293333333333333, | |
| "grad_norm": 6.098751164731887, | |
| "learning_rate": 9.50354609929078e-07, | |
| "loss": 0.1115, | |
| "step": 134 | |
| }, | |
| { | |
| "epoch": 0.144, | |
| "grad_norm": 1.2897369793688551, | |
| "learning_rate": 9.574468085106384e-07, | |
| "loss": 0.0097, | |
| "step": 135 | |
| }, | |
| { | |
| "epoch": 0.14506666666666668, | |
| "grad_norm": 4.544123029340591, | |
| "learning_rate": 9.645390070921985e-07, | |
| "loss": 0.0969, | |
| "step": 136 | |
| }, | |
| { | |
| "epoch": 0.14613333333333334, | |
| "grad_norm": 1.5628401890628374, | |
| "learning_rate": 9.716312056737588e-07, | |
| "loss": 0.0403, | |
| "step": 137 | |
| }, | |
| { | |
| "epoch": 0.1472, | |
| "grad_norm": 1.7549153917413034, | |
| "learning_rate": 9.78723404255319e-07, | |
| "loss": 0.0467, | |
| "step": 138 | |
| }, | |
| { | |
| "epoch": 0.14826666666666666, | |
| "grad_norm": 2.320989852451606, | |
| "learning_rate": 9.858156028368794e-07, | |
| "loss": 0.0193, | |
| "step": 139 | |
| }, | |
| { | |
| "epoch": 0.14933333333333335, | |
| "grad_norm": 2.346049286050555, | |
| "learning_rate": 9.929078014184397e-07, | |
| "loss": 0.0372, | |
| "step": 140 | |
| }, | |
| { | |
| "epoch": 0.1504, | |
| "grad_norm": 1.5488644076712703, | |
| "learning_rate": 1e-06, | |
| "loss": 0.0221, | |
| "step": 141 | |
| }, | |
| { | |
| "epoch": 0.15146666666666667, | |
| "grad_norm": 4.969297825110415, | |
| "learning_rate": 1.00709219858156e-06, | |
| "loss": 0.0628, | |
| "step": 142 | |
| }, | |
| { | |
| "epoch": 0.15253333333333333, | |
| "grad_norm": 7.149276868869306, | |
| "learning_rate": 1.0141843971631206e-06, | |
| "loss": 0.1116, | |
| "step": 143 | |
| }, | |
| { | |
| "epoch": 0.1536, | |
| "grad_norm": 0.2675005720455285, | |
| "learning_rate": 1.0212765957446806e-06, | |
| "loss": 0.0037, | |
| "step": 144 | |
| }, | |
| { | |
| "epoch": 0.15466666666666667, | |
| "grad_norm": 5.3616860538847, | |
| "learning_rate": 1.0283687943262412e-06, | |
| "loss": 0.0766, | |
| "step": 145 | |
| }, | |
| { | |
| "epoch": 0.15573333333333333, | |
| "grad_norm": 6.013894600480369, | |
| "learning_rate": 1.0354609929078012e-06, | |
| "loss": 0.0593, | |
| "step": 146 | |
| }, | |
| { | |
| "epoch": 0.1568, | |
| "grad_norm": 1.4495595799620324, | |
| "learning_rate": 1.0425531914893618e-06, | |
| "loss": 0.012, | |
| "step": 147 | |
| }, | |
| { | |
| "epoch": 0.15786666666666666, | |
| "grad_norm": 4.233815449703168, | |
| "learning_rate": 1.0496453900709218e-06, | |
| "loss": 0.0294, | |
| "step": 148 | |
| }, | |
| { | |
| "epoch": 0.15893333333333334, | |
| "grad_norm": 2.451426369798809, | |
| "learning_rate": 1.0567375886524824e-06, | |
| "loss": 0.0173, | |
| "step": 149 | |
| }, | |
| { | |
| "epoch": 0.16, | |
| "grad_norm": 4.632800200399283, | |
| "learning_rate": 1.0638297872340424e-06, | |
| "loss": 0.0968, | |
| "step": 150 | |
| }, | |
| { | |
| "epoch": 0.16, | |
| "eval_loss": 0.06421443819999695, | |
| "eval_runtime": 8.2805, | |
| "eval_samples_per_second": 12.077, | |
| "eval_steps_per_second": 6.038, | |
| "step": 150 | |
| }, | |
| { | |
| "epoch": 0.16106666666666666, | |
| "grad_norm": 2.856107152285347, | |
| "learning_rate": 1.070921985815603e-06, | |
| "loss": 0.0483, | |
| "step": 151 | |
| }, | |
| { | |
| "epoch": 0.16213333333333332, | |
| "grad_norm": 0.08185139161633281, | |
| "learning_rate": 1.078014184397163e-06, | |
| "loss": 0.0008, | |
| "step": 152 | |
| }, | |
| { | |
| "epoch": 0.1632, | |
| "grad_norm": 5.278258913229691, | |
| "learning_rate": 1.0851063829787233e-06, | |
| "loss": 0.1142, | |
| "step": 153 | |
| }, | |
| { | |
| "epoch": 0.16426666666666667, | |
| "grad_norm": 7.501273081001087, | |
| "learning_rate": 1.0921985815602836e-06, | |
| "loss": 0.097, | |
| "step": 154 | |
| }, | |
| { | |
| "epoch": 0.16533333333333333, | |
| "grad_norm": 2.004995420525806, | |
| "learning_rate": 1.099290780141844e-06, | |
| "loss": 0.0186, | |
| "step": 155 | |
| }, | |
| { | |
| "epoch": 0.1664, | |
| "grad_norm": 4.220058789565755, | |
| "learning_rate": 1.1063829787234042e-06, | |
| "loss": 0.0803, | |
| "step": 156 | |
| }, | |
| { | |
| "epoch": 0.16746666666666668, | |
| "grad_norm": 2.249509514015917, | |
| "learning_rate": 1.1134751773049643e-06, | |
| "loss": 0.0225, | |
| "step": 157 | |
| }, | |
| { | |
| "epoch": 0.16853333333333334, | |
| "grad_norm": 3.8638590825276617, | |
| "learning_rate": 1.1205673758865248e-06, | |
| "loss": 0.0911, | |
| "step": 158 | |
| }, | |
| { | |
| "epoch": 0.1696, | |
| "grad_norm": 1.412533711588782, | |
| "learning_rate": 1.127659574468085e-06, | |
| "loss": 0.0139, | |
| "step": 159 | |
| }, | |
| { | |
| "epoch": 0.17066666666666666, | |
| "grad_norm": 2.82343360057798, | |
| "learning_rate": 1.1347517730496454e-06, | |
| "loss": 0.0851, | |
| "step": 160 | |
| }, | |
| { | |
| "epoch": 0.17173333333333332, | |
| "grad_norm": 1.7495393166443622, | |
| "learning_rate": 1.1418439716312055e-06, | |
| "loss": 0.0308, | |
| "step": 161 | |
| }, | |
| { | |
| "epoch": 0.1728, | |
| "grad_norm": 3.6302290317483297, | |
| "learning_rate": 1.148936170212766e-06, | |
| "loss": 0.0736, | |
| "step": 162 | |
| }, | |
| { | |
| "epoch": 0.17386666666666667, | |
| "grad_norm": 4.896254754620509, | |
| "learning_rate": 1.1560283687943261e-06, | |
| "loss": 0.0554, | |
| "step": 163 | |
| }, | |
| { | |
| "epoch": 0.17493333333333333, | |
| "grad_norm": 4.111273140347231, | |
| "learning_rate": 1.1631205673758864e-06, | |
| "loss": 0.0741, | |
| "step": 164 | |
| }, | |
| { | |
| "epoch": 0.176, | |
| "grad_norm": 3.1818646079754496, | |
| "learning_rate": 1.1702127659574467e-06, | |
| "loss": 0.0934, | |
| "step": 165 | |
| }, | |
| { | |
| "epoch": 0.17706666666666668, | |
| "grad_norm": 4.419859251526752, | |
| "learning_rate": 1.177304964539007e-06, | |
| "loss": 0.0778, | |
| "step": 166 | |
| }, | |
| { | |
| "epoch": 0.17813333333333334, | |
| "grad_norm": 4.56044687337971, | |
| "learning_rate": 1.1843971631205673e-06, | |
| "loss": 0.0706, | |
| "step": 167 | |
| }, | |
| { | |
| "epoch": 0.1792, | |
| "grad_norm": 1.2936041090561832, | |
| "learning_rate": 1.1914893617021276e-06, | |
| "loss": 0.012, | |
| "step": 168 | |
| }, | |
| { | |
| "epoch": 0.18026666666666666, | |
| "grad_norm": 6.909726597822846, | |
| "learning_rate": 1.198581560283688e-06, | |
| "loss": 0.1474, | |
| "step": 169 | |
| }, | |
| { | |
| "epoch": 0.18133333333333335, | |
| "grad_norm": 0.8563591336490418, | |
| "learning_rate": 1.2056737588652482e-06, | |
| "loss": 0.0135, | |
| "step": 170 | |
| }, | |
| { | |
| "epoch": 0.1824, | |
| "grad_norm": 3.3164997831647023, | |
| "learning_rate": 1.2127659574468085e-06, | |
| "loss": 0.0786, | |
| "step": 171 | |
| }, | |
| { | |
| "epoch": 0.18346666666666667, | |
| "grad_norm": 2.8146626483351707, | |
| "learning_rate": 1.2198581560283688e-06, | |
| "loss": 0.0521, | |
| "step": 172 | |
| }, | |
| { | |
| "epoch": 0.18453333333333333, | |
| "grad_norm": 2.8830483742154582, | |
| "learning_rate": 1.2269503546099291e-06, | |
| "loss": 0.0286, | |
| "step": 173 | |
| }, | |
| { | |
| "epoch": 0.1856, | |
| "grad_norm": 1.9820766581104607, | |
| "learning_rate": 1.2340425531914892e-06, | |
| "loss": 0.0337, | |
| "step": 174 | |
| }, | |
| { | |
| "epoch": 0.18666666666666668, | |
| "grad_norm": 1.2778034782738863, | |
| "learning_rate": 1.2411347517730495e-06, | |
| "loss": 0.0308, | |
| "step": 175 | |
| }, | |
| { | |
| "epoch": 0.18773333333333334, | |
| "grad_norm": 1.462555534851203, | |
| "learning_rate": 1.2482269503546098e-06, | |
| "loss": 0.0454, | |
| "step": 176 | |
| }, | |
| { | |
| "epoch": 0.1888, | |
| "grad_norm": 4.565414819418628, | |
| "learning_rate": 1.2553191489361701e-06, | |
| "loss": 0.1228, | |
| "step": 177 | |
| }, | |
| { | |
| "epoch": 0.18986666666666666, | |
| "grad_norm": 2.3313756348264234, | |
| "learning_rate": 1.2624113475177304e-06, | |
| "loss": 0.0318, | |
| "step": 178 | |
| }, | |
| { | |
| "epoch": 0.19093333333333334, | |
| "grad_norm": 3.7670309246458347, | |
| "learning_rate": 1.2695035460992907e-06, | |
| "loss": 0.0699, | |
| "step": 179 | |
| }, | |
| { | |
| "epoch": 0.192, | |
| "grad_norm": 1.7487010839053967, | |
| "learning_rate": 1.276595744680851e-06, | |
| "loss": 0.0486, | |
| "step": 180 | |
| }, | |
| { | |
| "epoch": 0.19306666666666666, | |
| "grad_norm": 1.1340373154975194, | |
| "learning_rate": 1.2836879432624113e-06, | |
| "loss": 0.0177, | |
| "step": 181 | |
| }, | |
| { | |
| "epoch": 0.19413333333333332, | |
| "grad_norm": 1.6584782594569225, | |
| "learning_rate": 1.2907801418439716e-06, | |
| "loss": 0.0208, | |
| "step": 182 | |
| }, | |
| { | |
| "epoch": 0.1952, | |
| "grad_norm": 1.134470635269048, | |
| "learning_rate": 1.297872340425532e-06, | |
| "loss": 0.0161, | |
| "step": 183 | |
| }, | |
| { | |
| "epoch": 0.19626666666666667, | |
| "grad_norm": 1.5565427530107756, | |
| "learning_rate": 1.3049645390070922e-06, | |
| "loss": 0.0264, | |
| "step": 184 | |
| }, | |
| { | |
| "epoch": 0.19733333333333333, | |
| "grad_norm": 3.349937714357119, | |
| "learning_rate": 1.3120567375886525e-06, | |
| "loss": 0.0426, | |
| "step": 185 | |
| }, | |
| { | |
| "epoch": 0.1984, | |
| "grad_norm": 3.437101265121438, | |
| "learning_rate": 1.3191489361702126e-06, | |
| "loss": 0.0512, | |
| "step": 186 | |
| }, | |
| { | |
| "epoch": 0.19946666666666665, | |
| "grad_norm": 1.5534578823823257, | |
| "learning_rate": 1.3262411347517731e-06, | |
| "loss": 0.0512, | |
| "step": 187 | |
| }, | |
| { | |
| "epoch": 0.20053333333333334, | |
| "grad_norm": 3.577731738050452, | |
| "learning_rate": 1.3333333333333332e-06, | |
| "loss": 0.0509, | |
| "step": 188 | |
| }, | |
| { | |
| "epoch": 0.2016, | |
| "grad_norm": 0.8955687373362503, | |
| "learning_rate": 1.3404255319148935e-06, | |
| "loss": 0.0148, | |
| "step": 189 | |
| }, | |
| { | |
| "epoch": 0.20266666666666666, | |
| "grad_norm": 2.2424497514910415, | |
| "learning_rate": 1.3475177304964538e-06, | |
| "loss": 0.0458, | |
| "step": 190 | |
| }, | |
| { | |
| "epoch": 0.20373333333333332, | |
| "grad_norm": 3.0547659131465204, | |
| "learning_rate": 1.354609929078014e-06, | |
| "loss": 0.0414, | |
| "step": 191 | |
| }, | |
| { | |
| "epoch": 0.2048, | |
| "grad_norm": 2.7613386920774126, | |
| "learning_rate": 1.3617021276595744e-06, | |
| "loss": 0.0254, | |
| "step": 192 | |
| }, | |
| { | |
| "epoch": 0.20586666666666667, | |
| "grad_norm": 1.8247270325842186, | |
| "learning_rate": 1.3687943262411347e-06, | |
| "loss": 0.0219, | |
| "step": 193 | |
| }, | |
| { | |
| "epoch": 0.20693333333333333, | |
| "grad_norm": 0.9745378819375361, | |
| "learning_rate": 1.375886524822695e-06, | |
| "loss": 0.006, | |
| "step": 194 | |
| }, | |
| { | |
| "epoch": 0.208, | |
| "grad_norm": 2.2394688913221863, | |
| "learning_rate": 1.3829787234042553e-06, | |
| "loss": 0.0103, | |
| "step": 195 | |
| }, | |
| { | |
| "epoch": 0.20906666666666668, | |
| "grad_norm": 2.745981240625009, | |
| "learning_rate": 1.3900709219858156e-06, | |
| "loss": 0.0324, | |
| "step": 196 | |
| }, | |
| { | |
| "epoch": 0.21013333333333334, | |
| "grad_norm": 1.819255867549425, | |
| "learning_rate": 1.3971631205673757e-06, | |
| "loss": 0.0499, | |
| "step": 197 | |
| }, | |
| { | |
| "epoch": 0.2112, | |
| "grad_norm": 2.244330878993336, | |
| "learning_rate": 1.4042553191489362e-06, | |
| "loss": 0.0525, | |
| "step": 198 | |
| }, | |
| { | |
| "epoch": 0.21226666666666666, | |
| "grad_norm": 2.4420486660479517, | |
| "learning_rate": 1.4113475177304963e-06, | |
| "loss": 0.0456, | |
| "step": 199 | |
| }, | |
| { | |
| "epoch": 0.21333333333333335, | |
| "grad_norm": 3.0961362752080106, | |
| "learning_rate": 1.4184397163120568e-06, | |
| "loss": 0.0819, | |
| "step": 200 | |
| }, | |
| { | |
| "epoch": 0.21333333333333335, | |
| "eval_loss": 0.04034098610281944, | |
| "eval_runtime": 8.5631, | |
| "eval_samples_per_second": 11.678, | |
| "eval_steps_per_second": 5.839, | |
| "step": 200 | |
| }, | |
| { | |
| "epoch": 0.2144, | |
| "grad_norm": 0.44759408047365645, | |
| "learning_rate": 1.4255319148936169e-06, | |
| "loss": 0.0054, | |
| "step": 201 | |
| }, | |
| { | |
| "epoch": 0.21546666666666667, | |
| "grad_norm": 0.42272894381608905, | |
| "learning_rate": 1.4326241134751774e-06, | |
| "loss": 0.0058, | |
| "step": 202 | |
| }, | |
| { | |
| "epoch": 0.21653333333333333, | |
| "grad_norm": 0.3201232486606026, | |
| "learning_rate": 1.4397163120567375e-06, | |
| "loss": 0.0027, | |
| "step": 203 | |
| }, | |
| { | |
| "epoch": 0.2176, | |
| "grad_norm": 1.8690764660164247, | |
| "learning_rate": 1.446808510638298e-06, | |
| "loss": 0.0656, | |
| "step": 204 | |
| }, | |
| { | |
| "epoch": 0.21866666666666668, | |
| "grad_norm": 3.2454931850225903, | |
| "learning_rate": 1.453900709219858e-06, | |
| "loss": 0.0371, | |
| "step": 205 | |
| }, | |
| { | |
| "epoch": 0.21973333333333334, | |
| "grad_norm": 1.3719630571760064, | |
| "learning_rate": 1.4609929078014184e-06, | |
| "loss": 0.0195, | |
| "step": 206 | |
| }, | |
| { | |
| "epoch": 0.2208, | |
| "grad_norm": 4.690223152603984, | |
| "learning_rate": 1.4680851063829787e-06, | |
| "loss": 0.1838, | |
| "step": 207 | |
| }, | |
| { | |
| "epoch": 0.22186666666666666, | |
| "grad_norm": 0.7280526453294364, | |
| "learning_rate": 1.4751773049645388e-06, | |
| "loss": 0.0113, | |
| "step": 208 | |
| }, | |
| { | |
| "epoch": 0.22293333333333334, | |
| "grad_norm": 2.1942258546982, | |
| "learning_rate": 1.4822695035460993e-06, | |
| "loss": 0.0375, | |
| "step": 209 | |
| }, | |
| { | |
| "epoch": 0.224, | |
| "grad_norm": 2.2700526093435385, | |
| "learning_rate": 1.4893617021276594e-06, | |
| "loss": 0.0225, | |
| "step": 210 | |
| }, | |
| { | |
| "epoch": 0.22506666666666666, | |
| "grad_norm": 3.4887713183278706, | |
| "learning_rate": 1.4964539007092199e-06, | |
| "loss": 0.0354, | |
| "step": 211 | |
| }, | |
| { | |
| "epoch": 0.22613333333333333, | |
| "grad_norm": 1.3287581441040275, | |
| "learning_rate": 1.50354609929078e-06, | |
| "loss": 0.0478, | |
| "step": 212 | |
| }, | |
| { | |
| "epoch": 0.2272, | |
| "grad_norm": 0.706172015872483, | |
| "learning_rate": 1.5106382978723405e-06, | |
| "loss": 0.0071, | |
| "step": 213 | |
| }, | |
| { | |
| "epoch": 0.22826666666666667, | |
| "grad_norm": 3.3176110506984555, | |
| "learning_rate": 1.5177304964539006e-06, | |
| "loss": 0.0872, | |
| "step": 214 | |
| }, | |
| { | |
| "epoch": 0.22933333333333333, | |
| "grad_norm": 1.2584019241467503, | |
| "learning_rate": 1.524822695035461e-06, | |
| "loss": 0.0141, | |
| "step": 215 | |
| }, | |
| { | |
| "epoch": 0.2304, | |
| "grad_norm": 3.3428962741186514, | |
| "learning_rate": 1.5319148936170212e-06, | |
| "loss": 0.0469, | |
| "step": 216 | |
| }, | |
| { | |
| "epoch": 0.23146666666666665, | |
| "grad_norm": 5.630841551653268, | |
| "learning_rate": 1.5390070921985815e-06, | |
| "loss": 0.1787, | |
| "step": 217 | |
| }, | |
| { | |
| "epoch": 0.23253333333333334, | |
| "grad_norm": 3.1064693364930704, | |
| "learning_rate": 1.5460992907801418e-06, | |
| "loss": 0.0461, | |
| "step": 218 | |
| }, | |
| { | |
| "epoch": 0.2336, | |
| "grad_norm": 6.955897478479723, | |
| "learning_rate": 1.5531914893617019e-06, | |
| "loss": 0.1266, | |
| "step": 219 | |
| }, | |
| { | |
| "epoch": 0.23466666666666666, | |
| "grad_norm": 6.6141804145859675, | |
| "learning_rate": 1.5602836879432624e-06, | |
| "loss": 0.1013, | |
| "step": 220 | |
| }, | |
| { | |
| "epoch": 0.23573333333333332, | |
| "grad_norm": 1.5187752417644704, | |
| "learning_rate": 1.5673758865248225e-06, | |
| "loss": 0.0219, | |
| "step": 221 | |
| }, | |
| { | |
| "epoch": 0.2368, | |
| "grad_norm": 0.7602007659688867, | |
| "learning_rate": 1.574468085106383e-06, | |
| "loss": 0.0163, | |
| "step": 222 | |
| }, | |
| { | |
| "epoch": 0.23786666666666667, | |
| "grad_norm": 1.2922825373649611, | |
| "learning_rate": 1.581560283687943e-06, | |
| "loss": 0.0126, | |
| "step": 223 | |
| }, | |
| { | |
| "epoch": 0.23893333333333333, | |
| "grad_norm": 1.564285880714171, | |
| "learning_rate": 1.5886524822695036e-06, | |
| "loss": 0.0274, | |
| "step": 224 | |
| }, | |
| { | |
| "epoch": 0.24, | |
| "grad_norm": 1.8256861393160675, | |
| "learning_rate": 1.5957446808510637e-06, | |
| "loss": 0.0801, | |
| "step": 225 | |
| }, | |
| { | |
| "epoch": 0.24106666666666668, | |
| "grad_norm": 5.626390458824275, | |
| "learning_rate": 1.6028368794326242e-06, | |
| "loss": 0.1175, | |
| "step": 226 | |
| }, | |
| { | |
| "epoch": 0.24213333333333334, | |
| "grad_norm": 0.3639992497542339, | |
| "learning_rate": 1.6099290780141843e-06, | |
| "loss": 0.0042, | |
| "step": 227 | |
| }, | |
| { | |
| "epoch": 0.2432, | |
| "grad_norm": 0.9623642386925754, | |
| "learning_rate": 1.6170212765957446e-06, | |
| "loss": 0.0303, | |
| "step": 228 | |
| }, | |
| { | |
| "epoch": 0.24426666666666666, | |
| "grad_norm": 4.786039455247629, | |
| "learning_rate": 1.6241134751773049e-06, | |
| "loss": 0.1451, | |
| "step": 229 | |
| }, | |
| { | |
| "epoch": 0.24533333333333332, | |
| "grad_norm": 1.7940933903892, | |
| "learning_rate": 1.6312056737588652e-06, | |
| "loss": 0.0242, | |
| "step": 230 | |
| }, | |
| { | |
| "epoch": 0.2464, | |
| "grad_norm": 1.1872990094484728, | |
| "learning_rate": 1.6382978723404255e-06, | |
| "loss": 0.0142, | |
| "step": 231 | |
| }, | |
| { | |
| "epoch": 0.24746666666666667, | |
| "grad_norm": 3.6465271365421694, | |
| "learning_rate": 1.6453900709219858e-06, | |
| "loss": 0.1327, | |
| "step": 232 | |
| }, | |
| { | |
| "epoch": 0.24853333333333333, | |
| "grad_norm": 3.4606007899724736, | |
| "learning_rate": 1.652482269503546e-06, | |
| "loss": 0.0752, | |
| "step": 233 | |
| }, | |
| { | |
| "epoch": 0.2496, | |
| "grad_norm": 1.7829502544111206, | |
| "learning_rate": 1.6595744680851064e-06, | |
| "loss": 0.0551, | |
| "step": 234 | |
| }, | |
| { | |
| "epoch": 0.25066666666666665, | |
| "grad_norm": 0.4291699362420302, | |
| "learning_rate": 1.6666666666666667e-06, | |
| "loss": 0.0119, | |
| "step": 235 | |
| }, | |
| { | |
| "epoch": 0.2517333333333333, | |
| "grad_norm": 1.536096095556399, | |
| "learning_rate": 1.6737588652482267e-06, | |
| "loss": 0.0207, | |
| "step": 236 | |
| }, | |
| { | |
| "epoch": 0.2528, | |
| "grad_norm": 1.4834886851834983, | |
| "learning_rate": 1.6808510638297873e-06, | |
| "loss": 0.024, | |
| "step": 237 | |
| }, | |
| { | |
| "epoch": 0.2538666666666667, | |
| "grad_norm": 0.5910974696060286, | |
| "learning_rate": 1.6879432624113473e-06, | |
| "loss": 0.0103, | |
| "step": 238 | |
| }, | |
| { | |
| "epoch": 0.25493333333333335, | |
| "grad_norm": 1.0554413983828212, | |
| "learning_rate": 1.6950354609929076e-06, | |
| "loss": 0.0132, | |
| "step": 239 | |
| }, | |
| { | |
| "epoch": 0.256, | |
| "grad_norm": 1.724598949331031, | |
| "learning_rate": 1.702127659574468e-06, | |
| "loss": 0.0934, | |
| "step": 240 | |
| }, | |
| { | |
| "epoch": 0.25706666666666667, | |
| "grad_norm": 1.7576821288165476, | |
| "learning_rate": 1.7092198581560282e-06, | |
| "loss": 0.0391, | |
| "step": 241 | |
| }, | |
| { | |
| "epoch": 0.2581333333333333, | |
| "grad_norm": 1.035363958245626, | |
| "learning_rate": 1.7163120567375885e-06, | |
| "loss": 0.0141, | |
| "step": 242 | |
| }, | |
| { | |
| "epoch": 0.2592, | |
| "grad_norm": 0.2419170209059454, | |
| "learning_rate": 1.7234042553191488e-06, | |
| "loss": 0.0029, | |
| "step": 243 | |
| }, | |
| { | |
| "epoch": 0.26026666666666665, | |
| "grad_norm": 1.458905410047098, | |
| "learning_rate": 1.7304964539007091e-06, | |
| "loss": 0.0254, | |
| "step": 244 | |
| }, | |
| { | |
| "epoch": 0.2613333333333333, | |
| "grad_norm": 0.2573364956038529, | |
| "learning_rate": 1.7375886524822694e-06, | |
| "loss": 0.0041, | |
| "step": 245 | |
| }, | |
| { | |
| "epoch": 0.2624, | |
| "grad_norm": 2.339489703214308, | |
| "learning_rate": 1.7446808510638297e-06, | |
| "loss": 0.0455, | |
| "step": 246 | |
| }, | |
| { | |
| "epoch": 0.2634666666666667, | |
| "grad_norm": 2.252526531061772, | |
| "learning_rate": 1.75177304964539e-06, | |
| "loss": 0.0456, | |
| "step": 247 | |
| }, | |
| { | |
| "epoch": 0.26453333333333334, | |
| "grad_norm": 0.4833353487456936, | |
| "learning_rate": 1.7588652482269503e-06, | |
| "loss": 0.0049, | |
| "step": 248 | |
| }, | |
| { | |
| "epoch": 0.2656, | |
| "grad_norm": 1.537116413342212, | |
| "learning_rate": 1.7659574468085106e-06, | |
| "loss": 0.0164, | |
| "step": 249 | |
| }, | |
| { | |
| "epoch": 0.26666666666666666, | |
| "grad_norm": 3.76154579366514, | |
| "learning_rate": 1.7730496453900707e-06, | |
| "loss": 0.1398, | |
| "step": 250 | |
| }, | |
| { | |
| "epoch": 0.26666666666666666, | |
| "eval_loss": 0.06543993949890137, | |
| "eval_runtime": 9.6094, | |
| "eval_samples_per_second": 10.406, | |
| "eval_steps_per_second": 5.203, | |
| "step": 250 | |
| }, | |
| { | |
| "epoch": 0.2677333333333333, | |
| "grad_norm": 4.958054469705704, | |
| "learning_rate": 1.780141843971631e-06, | |
| "loss": 0.1019, | |
| "step": 251 | |
| }, | |
| { | |
| "epoch": 0.2688, | |
| "grad_norm": 1.6609198738553164, | |
| "learning_rate": 1.7872340425531913e-06, | |
| "loss": 0.0499, | |
| "step": 252 | |
| }, | |
| { | |
| "epoch": 0.26986666666666664, | |
| "grad_norm": 1.6026871476203264, | |
| "learning_rate": 1.7943262411347516e-06, | |
| "loss": 0.0324, | |
| "step": 253 | |
| }, | |
| { | |
| "epoch": 0.27093333333333336, | |
| "grad_norm": 0.814342996956287, | |
| "learning_rate": 1.801418439716312e-06, | |
| "loss": 0.0158, | |
| "step": 254 | |
| }, | |
| { | |
| "epoch": 0.272, | |
| "grad_norm": 0.21604099963633955, | |
| "learning_rate": 1.8085106382978722e-06, | |
| "loss": 0.0042, | |
| "step": 255 | |
| }, | |
| { | |
| "epoch": 0.2730666666666667, | |
| "grad_norm": 0.6624516019158352, | |
| "learning_rate": 1.8156028368794325e-06, | |
| "loss": 0.0088, | |
| "step": 256 | |
| }, | |
| { | |
| "epoch": 0.27413333333333334, | |
| "grad_norm": 1.694938724635794, | |
| "learning_rate": 1.8226950354609928e-06, | |
| "loss": 0.023, | |
| "step": 257 | |
| }, | |
| { | |
| "epoch": 0.2752, | |
| "grad_norm": 0.4835610610426178, | |
| "learning_rate": 1.8297872340425531e-06, | |
| "loss": 0.0064, | |
| "step": 258 | |
| }, | |
| { | |
| "epoch": 0.27626666666666666, | |
| "grad_norm": 1.6087706175732222, | |
| "learning_rate": 1.8368794326241134e-06, | |
| "loss": 0.024, | |
| "step": 259 | |
| }, | |
| { | |
| "epoch": 0.2773333333333333, | |
| "grad_norm": 1.174005945770529, | |
| "learning_rate": 1.8439716312056737e-06, | |
| "loss": 0.0416, | |
| "step": 260 | |
| }, | |
| { | |
| "epoch": 0.2784, | |
| "grad_norm": 2.0036309118637416, | |
| "learning_rate": 1.8510638297872338e-06, | |
| "loss": 0.0148, | |
| "step": 261 | |
| }, | |
| { | |
| "epoch": 0.27946666666666664, | |
| "grad_norm": 0.27542881905219085, | |
| "learning_rate": 1.8581560283687943e-06, | |
| "loss": 0.0037, | |
| "step": 262 | |
| }, | |
| { | |
| "epoch": 0.28053333333333336, | |
| "grad_norm": 0.10627036820200016, | |
| "learning_rate": 1.8652482269503544e-06, | |
| "loss": 0.0016, | |
| "step": 263 | |
| }, | |
| { | |
| "epoch": 0.2816, | |
| "grad_norm": 1.0016746248189468, | |
| "learning_rate": 1.872340425531915e-06, | |
| "loss": 0.0128, | |
| "step": 264 | |
| }, | |
| { | |
| "epoch": 0.2826666666666667, | |
| "grad_norm": 0.982894777786423, | |
| "learning_rate": 1.879432624113475e-06, | |
| "loss": 0.0173, | |
| "step": 265 | |
| }, | |
| { | |
| "epoch": 0.28373333333333334, | |
| "grad_norm": 2.235584985951457, | |
| "learning_rate": 1.8865248226950355e-06, | |
| "loss": 0.0273, | |
| "step": 266 | |
| }, | |
| { | |
| "epoch": 0.2848, | |
| "grad_norm": 1.9321006724531127, | |
| "learning_rate": 1.8936170212765956e-06, | |
| "loss": 0.0575, | |
| "step": 267 | |
| }, | |
| { | |
| "epoch": 0.28586666666666666, | |
| "grad_norm": 2.446015384106489, | |
| "learning_rate": 1.900709219858156e-06, | |
| "loss": 0.0695, | |
| "step": 268 | |
| }, | |
| { | |
| "epoch": 0.2869333333333333, | |
| "grad_norm": 1.0664504757410167, | |
| "learning_rate": 1.907801418439716e-06, | |
| "loss": 0.0103, | |
| "step": 269 | |
| }, | |
| { | |
| "epoch": 0.288, | |
| "grad_norm": 0.6720506342995207, | |
| "learning_rate": 1.9148936170212767e-06, | |
| "loss": 0.0052, | |
| "step": 270 | |
| }, | |
| { | |
| "epoch": 0.2890666666666667, | |
| "grad_norm": 1.9536878981901187, | |
| "learning_rate": 1.9219858156028366e-06, | |
| "loss": 0.0357, | |
| "step": 271 | |
| }, | |
| { | |
| "epoch": 0.29013333333333335, | |
| "grad_norm": 0.07505605660652574, | |
| "learning_rate": 1.929078014184397e-06, | |
| "loss": 0.0015, | |
| "step": 272 | |
| }, | |
| { | |
| "epoch": 0.2912, | |
| "grad_norm": 0.22146530578795007, | |
| "learning_rate": 1.936170212765957e-06, | |
| "loss": 0.0018, | |
| "step": 273 | |
| }, | |
| { | |
| "epoch": 0.2922666666666667, | |
| "grad_norm": 4.705908517665693, | |
| "learning_rate": 1.9432624113475175e-06, | |
| "loss": 0.1119, | |
| "step": 274 | |
| }, | |
| { | |
| "epoch": 0.29333333333333333, | |
| "grad_norm": 4.923995204775593, | |
| "learning_rate": 1.950354609929078e-06, | |
| "loss": 0.136, | |
| "step": 275 | |
| }, | |
| { | |
| "epoch": 0.2944, | |
| "grad_norm": 3.900812289245892, | |
| "learning_rate": 1.957446808510638e-06, | |
| "loss": 0.1045, | |
| "step": 276 | |
| }, | |
| { | |
| "epoch": 0.29546666666666666, | |
| "grad_norm": 1.785174875347817, | |
| "learning_rate": 1.9645390070921984e-06, | |
| "loss": 0.0623, | |
| "step": 277 | |
| }, | |
| { | |
| "epoch": 0.2965333333333333, | |
| "grad_norm": 1.2213002904218435, | |
| "learning_rate": 1.9716312056737587e-06, | |
| "loss": 0.0377, | |
| "step": 278 | |
| }, | |
| { | |
| "epoch": 0.2976, | |
| "grad_norm": 0.2923059693481855, | |
| "learning_rate": 1.978723404255319e-06, | |
| "loss": 0.003, | |
| "step": 279 | |
| }, | |
| { | |
| "epoch": 0.2986666666666667, | |
| "grad_norm": 3.1731457409440336, | |
| "learning_rate": 1.9858156028368793e-06, | |
| "loss": 0.088, | |
| "step": 280 | |
| }, | |
| { | |
| "epoch": 0.29973333333333335, | |
| "grad_norm": 2.7525901886363915, | |
| "learning_rate": 1.9929078014184396e-06, | |
| "loss": 0.0582, | |
| "step": 281 | |
| }, | |
| { | |
| "epoch": 0.3008, | |
| "grad_norm": 1.8230031551732802, | |
| "learning_rate": 2e-06, | |
| "loss": 0.0199, | |
| "step": 282 | |
| }, | |
| { | |
| "epoch": 0.30186666666666667, | |
| "grad_norm": 1.3865631804560594, | |
| "learning_rate": 1.999999228435859e-06, | |
| "loss": 0.031, | |
| "step": 283 | |
| }, | |
| { | |
| "epoch": 0.30293333333333333, | |
| "grad_norm": 4.165055076177555, | |
| "learning_rate": 1.999996913744627e-06, | |
| "loss": 0.0733, | |
| "step": 284 | |
| }, | |
| { | |
| "epoch": 0.304, | |
| "grad_norm": 1.9754801877369055, | |
| "learning_rate": 1.9999930559298764e-06, | |
| "loss": 0.0301, | |
| "step": 285 | |
| }, | |
| { | |
| "epoch": 0.30506666666666665, | |
| "grad_norm": 0.7925560455697181, | |
| "learning_rate": 1.999987654997559e-06, | |
| "loss": 0.0283, | |
| "step": 286 | |
| }, | |
| { | |
| "epoch": 0.3061333333333333, | |
| "grad_norm": 0.5194694957615784, | |
| "learning_rate": 1.9999807109560105e-06, | |
| "loss": 0.0091, | |
| "step": 287 | |
| }, | |
| { | |
| "epoch": 0.3072, | |
| "grad_norm": 3.345098829097061, | |
| "learning_rate": 1.9999722238159456e-06, | |
| "loss": 0.0856, | |
| "step": 288 | |
| }, | |
| { | |
| "epoch": 0.3082666666666667, | |
| "grad_norm": 0.3547716864050005, | |
| "learning_rate": 1.9999621935904615e-06, | |
| "loss": 0.0069, | |
| "step": 289 | |
| }, | |
| { | |
| "epoch": 0.30933333333333335, | |
| "grad_norm": 4.251478368782789, | |
| "learning_rate": 1.9999506202950355e-06, | |
| "loss": 0.0626, | |
| "step": 290 | |
| }, | |
| { | |
| "epoch": 0.3104, | |
| "grad_norm": 0.854574365002302, | |
| "learning_rate": 1.9999375039475274e-06, | |
| "loss": 0.0289, | |
| "step": 291 | |
| }, | |
| { | |
| "epoch": 0.31146666666666667, | |
| "grad_norm": 1.8930472157492912, | |
| "learning_rate": 1.999922844568177e-06, | |
| "loss": 0.0288, | |
| "step": 292 | |
| }, | |
| { | |
| "epoch": 0.31253333333333333, | |
| "grad_norm": 0.6582644815371133, | |
| "learning_rate": 1.9999066421796056e-06, | |
| "loss": 0.0112, | |
| "step": 293 | |
| }, | |
| { | |
| "epoch": 0.3136, | |
| "grad_norm": 0.41981956976674956, | |
| "learning_rate": 1.999888896806816e-06, | |
| "loss": 0.0101, | |
| "step": 294 | |
| }, | |
| { | |
| "epoch": 0.31466666666666665, | |
| "grad_norm": 0.9804299420337502, | |
| "learning_rate": 1.999869608477191e-06, | |
| "loss": 0.0166, | |
| "step": 295 | |
| }, | |
| { | |
| "epoch": 0.3157333333333333, | |
| "grad_norm": 2.238920439094032, | |
| "learning_rate": 1.999848777220495e-06, | |
| "loss": 0.1084, | |
| "step": 296 | |
| }, | |
| { | |
| "epoch": 0.3168, | |
| "grad_norm": 2.546894901254014, | |
| "learning_rate": 1.999826403068874e-06, | |
| "loss": 0.0631, | |
| "step": 297 | |
| }, | |
| { | |
| "epoch": 0.3178666666666667, | |
| "grad_norm": 3.102610204113791, | |
| "learning_rate": 1.999802486056853e-06, | |
| "loss": 0.1098, | |
| "step": 298 | |
| }, | |
| { | |
| "epoch": 0.31893333333333335, | |
| "grad_norm": 0.6112172433808437, | |
| "learning_rate": 1.9997770262213405e-06, | |
| "loss": 0.0077, | |
| "step": 299 | |
| }, | |
| { | |
| "epoch": 0.32, | |
| "grad_norm": 0.6002667369893008, | |
| "learning_rate": 1.999750023601623e-06, | |
| "loss": 0.0054, | |
| "step": 300 | |
| }, | |
| { | |
| "epoch": 0.32, | |
| "eval_loss": 0.04478977993130684, | |
| "eval_runtime": 8.2194, | |
| "eval_samples_per_second": 12.166, | |
| "eval_steps_per_second": 6.083, | |
| "step": 300 | |
| }, | |
| { | |
| "epoch": 0.32106666666666667, | |
| "grad_norm": 0.6384928870379522, | |
| "learning_rate": 1.9997214782393697e-06, | |
| "loss": 0.0064, | |
| "step": 301 | |
| }, | |
| { | |
| "epoch": 0.3221333333333333, | |
| "grad_norm": 4.121954582585253, | |
| "learning_rate": 1.9996913901786295e-06, | |
| "loss": 0.0282, | |
| "step": 302 | |
| }, | |
| { | |
| "epoch": 0.3232, | |
| "grad_norm": 2.170473758627147, | |
| "learning_rate": 1.9996597594658325e-06, | |
| "loss": 0.0371, | |
| "step": 303 | |
| }, | |
| { | |
| "epoch": 0.32426666666666665, | |
| "grad_norm": 3.277640099123368, | |
| "learning_rate": 1.9996265861497884e-06, | |
| "loss": 0.0826, | |
| "step": 304 | |
| }, | |
| { | |
| "epoch": 0.3253333333333333, | |
| "grad_norm": 1.223126645672684, | |
| "learning_rate": 1.9995918702816883e-06, | |
| "loss": 0.0029, | |
| "step": 305 | |
| }, | |
| { | |
| "epoch": 0.3264, | |
| "grad_norm": 3.2655619174791357, | |
| "learning_rate": 1.999555611915103e-06, | |
| "loss": 0.0666, | |
| "step": 306 | |
| }, | |
| { | |
| "epoch": 0.3274666666666667, | |
| "grad_norm": 3.4156903549207605, | |
| "learning_rate": 1.9995178111059837e-06, | |
| "loss": 0.104, | |
| "step": 307 | |
| }, | |
| { | |
| "epoch": 0.32853333333333334, | |
| "grad_norm": 2.658454045776883, | |
| "learning_rate": 1.9994784679126623e-06, | |
| "loss": 0.0456, | |
| "step": 308 | |
| }, | |
| { | |
| "epoch": 0.3296, | |
| "grad_norm": 0.19585429109140384, | |
| "learning_rate": 1.99943758239585e-06, | |
| "loss": 0.0016, | |
| "step": 309 | |
| }, | |
| { | |
| "epoch": 0.33066666666666666, | |
| "grad_norm": 1.679735095539774, | |
| "learning_rate": 1.999395154618639e-06, | |
| "loss": 0.0609, | |
| "step": 310 | |
| }, | |
| { | |
| "epoch": 0.3317333333333333, | |
| "grad_norm": 2.1430824974971925, | |
| "learning_rate": 1.9993511846465e-06, | |
| "loss": 0.078, | |
| "step": 311 | |
| }, | |
| { | |
| "epoch": 0.3328, | |
| "grad_norm": 2.696363876494053, | |
| "learning_rate": 1.9993056725472844e-06, | |
| "loss": 0.0453, | |
| "step": 312 | |
| }, | |
| { | |
| "epoch": 0.33386666666666664, | |
| "grad_norm": 0.09424756079491534, | |
| "learning_rate": 1.9992586183912243e-06, | |
| "loss": 0.0012, | |
| "step": 313 | |
| }, | |
| { | |
| "epoch": 0.33493333333333336, | |
| "grad_norm": 0.3035530404585692, | |
| "learning_rate": 1.999210022250929e-06, | |
| "loss": 0.0032, | |
| "step": 314 | |
| }, | |
| { | |
| "epoch": 0.336, | |
| "grad_norm": 1.578602700124216, | |
| "learning_rate": 1.999159884201389e-06, | |
| "loss": 0.0679, | |
| "step": 315 | |
| }, | |
| { | |
| "epoch": 0.3370666666666667, | |
| "grad_norm": 2.017282984994957, | |
| "learning_rate": 1.9991082043199736e-06, | |
| "loss": 0.0559, | |
| "step": 316 | |
| }, | |
| { | |
| "epoch": 0.33813333333333334, | |
| "grad_norm": 0.2549750442731066, | |
| "learning_rate": 1.999054982686432e-06, | |
| "loss": 0.004, | |
| "step": 317 | |
| }, | |
| { | |
| "epoch": 0.3392, | |
| "grad_norm": 0.4719506296789255, | |
| "learning_rate": 1.9990002193828922e-06, | |
| "loss": 0.0067, | |
| "step": 318 | |
| }, | |
| { | |
| "epoch": 0.34026666666666666, | |
| "grad_norm": 1.2214945707365839, | |
| "learning_rate": 1.99894391449386e-06, | |
| "loss": 0.023, | |
| "step": 319 | |
| }, | |
| { | |
| "epoch": 0.3413333333333333, | |
| "grad_norm": 0.7302116345834218, | |
| "learning_rate": 1.9988860681062216e-06, | |
| "loss": 0.0098, | |
| "step": 320 | |
| }, | |
| { | |
| "epoch": 0.3424, | |
| "grad_norm": 0.13466607550767162, | |
| "learning_rate": 1.9988266803092416e-06, | |
| "loss": 0.0031, | |
| "step": 321 | |
| }, | |
| { | |
| "epoch": 0.34346666666666664, | |
| "grad_norm": 1.0469671642701126, | |
| "learning_rate": 1.9987657511945624e-06, | |
| "loss": 0.0165, | |
| "step": 322 | |
| }, | |
| { | |
| "epoch": 0.34453333333333336, | |
| "grad_norm": 2.2440378487977406, | |
| "learning_rate": 1.998703280856206e-06, | |
| "loss": 0.0466, | |
| "step": 323 | |
| }, | |
| { | |
| "epoch": 0.3456, | |
| "grad_norm": 2.1387794205897053, | |
| "learning_rate": 1.9986392693905722e-06, | |
| "loss": 0.0777, | |
| "step": 324 | |
| }, | |
| { | |
| "epoch": 0.3466666666666667, | |
| "grad_norm": 1.2931875478250596, | |
| "learning_rate": 1.9985737168964384e-06, | |
| "loss": 0.0327, | |
| "step": 325 | |
| }, | |
| { | |
| "epoch": 0.34773333333333334, | |
| "grad_norm": 0.7580208065267147, | |
| "learning_rate": 1.9985066234749606e-06, | |
| "loss": 0.0177, | |
| "step": 326 | |
| }, | |
| { | |
| "epoch": 0.3488, | |
| "grad_norm": 0.0888189129076451, | |
| "learning_rate": 1.998437989229673e-06, | |
| "loss": 0.002, | |
| "step": 327 | |
| }, | |
| { | |
| "epoch": 0.34986666666666666, | |
| "grad_norm": 1.2397194295081706, | |
| "learning_rate": 1.9983678142664864e-06, | |
| "loss": 0.0378, | |
| "step": 328 | |
| }, | |
| { | |
| "epoch": 0.3509333333333333, | |
| "grad_norm": 1.202705168617386, | |
| "learning_rate": 1.9982960986936908e-06, | |
| "loss": 0.0895, | |
| "step": 329 | |
| }, | |
| { | |
| "epoch": 0.352, | |
| "grad_norm": 0.14800273449305595, | |
| "learning_rate": 1.9982228426219516e-06, | |
| "loss": 0.0023, | |
| "step": 330 | |
| }, | |
| { | |
| "epoch": 0.35306666666666664, | |
| "grad_norm": 1.0116996136565781, | |
| "learning_rate": 1.9981480461643125e-06, | |
| "loss": 0.0202, | |
| "step": 331 | |
| }, | |
| { | |
| "epoch": 0.35413333333333336, | |
| "grad_norm": 1.1189127410717563, | |
| "learning_rate": 1.9980717094361938e-06, | |
| "loss": 0.0132, | |
| "step": 332 | |
| }, | |
| { | |
| "epoch": 0.3552, | |
| "grad_norm": 2.750035640024511, | |
| "learning_rate": 1.9979938325553934e-06, | |
| "loss": 0.0557, | |
| "step": 333 | |
| }, | |
| { | |
| "epoch": 0.3562666666666667, | |
| "grad_norm": 0.5674290503062867, | |
| "learning_rate": 1.997914415642085e-06, | |
| "loss": 0.016, | |
| "step": 334 | |
| }, | |
| { | |
| "epoch": 0.35733333333333334, | |
| "grad_norm": 1.9870605095700231, | |
| "learning_rate": 1.9978334588188193e-06, | |
| "loss": 0.0617, | |
| "step": 335 | |
| }, | |
| { | |
| "epoch": 0.3584, | |
| "grad_norm": 1.7840308480554663, | |
| "learning_rate": 1.997750962210523e-06, | |
| "loss": 0.0266, | |
| "step": 336 | |
| }, | |
| { | |
| "epoch": 0.35946666666666666, | |
| "grad_norm": 1.2398964245336912, | |
| "learning_rate": 1.997666925944499e-06, | |
| "loss": 0.0165, | |
| "step": 337 | |
| }, | |
| { | |
| "epoch": 0.3605333333333333, | |
| "grad_norm": 0.6167879821088218, | |
| "learning_rate": 1.997581350150426e-06, | |
| "loss": 0.0078, | |
| "step": 338 | |
| }, | |
| { | |
| "epoch": 0.3616, | |
| "grad_norm": 1.3178080807296553, | |
| "learning_rate": 1.997494234960358e-06, | |
| "loss": 0.0221, | |
| "step": 339 | |
| }, | |
| { | |
| "epoch": 0.3626666666666667, | |
| "grad_norm": 0.2936607290692452, | |
| "learning_rate": 1.997405580508725e-06, | |
| "loss": 0.0033, | |
| "step": 340 | |
| }, | |
| { | |
| "epoch": 0.36373333333333335, | |
| "grad_norm": 2.463257834805897, | |
| "learning_rate": 1.997315386932333e-06, | |
| "loss": 0.0674, | |
| "step": 341 | |
| }, | |
| { | |
| "epoch": 0.3648, | |
| "grad_norm": 0.6291180686569299, | |
| "learning_rate": 1.9972236543703615e-06, | |
| "loss": 0.0068, | |
| "step": 342 | |
| }, | |
| { | |
| "epoch": 0.3658666666666667, | |
| "grad_norm": 1.9765666525777088, | |
| "learning_rate": 1.997130382964366e-06, | |
| "loss": 0.0353, | |
| "step": 343 | |
| }, | |
| { | |
| "epoch": 0.36693333333333333, | |
| "grad_norm": 1.140272021599622, | |
| "learning_rate": 1.997035572858276e-06, | |
| "loss": 0.0095, | |
| "step": 344 | |
| }, | |
| { | |
| "epoch": 0.368, | |
| "grad_norm": 0.7125188701024316, | |
| "learning_rate": 1.9969392241983957e-06, | |
| "loss": 0.0088, | |
| "step": 345 | |
| }, | |
| { | |
| "epoch": 0.36906666666666665, | |
| "grad_norm": 0.4454568829686679, | |
| "learning_rate": 1.9968413371334035e-06, | |
| "loss": 0.0031, | |
| "step": 346 | |
| }, | |
| { | |
| "epoch": 0.3701333333333333, | |
| "grad_norm": 2.8279184660148524, | |
| "learning_rate": 1.9967419118143514e-06, | |
| "loss": 0.0873, | |
| "step": 347 | |
| }, | |
| { | |
| "epoch": 0.3712, | |
| "grad_norm": 0.31255079659825663, | |
| "learning_rate": 1.996640948394666e-06, | |
| "loss": 0.0051, | |
| "step": 348 | |
| }, | |
| { | |
| "epoch": 0.3722666666666667, | |
| "grad_norm": 1.2215171116516321, | |
| "learning_rate": 1.9965384470301464e-06, | |
| "loss": 0.0265, | |
| "step": 349 | |
| }, | |
| { | |
| "epoch": 0.37333333333333335, | |
| "grad_norm": 1.7159754593735572, | |
| "learning_rate": 1.9964344078789653e-06, | |
| "loss": 0.1093, | |
| "step": 350 | |
| }, | |
| { | |
| "epoch": 0.37333333333333335, | |
| "eval_loss": 0.1534903347492218, | |
| "eval_runtime": 8.3094, | |
| "eval_samples_per_second": 12.035, | |
| "eval_steps_per_second": 6.017, | |
| "step": 350 | |
| }, | |
| { | |
| "epoch": 0.3744, | |
| "grad_norm": 2.0559468510888554, | |
| "learning_rate": 1.996328831101669e-06, | |
| "loss": 0.0241, | |
| "step": 351 | |
| }, | |
| { | |
| "epoch": 0.37546666666666667, | |
| "grad_norm": 0.5971180546425459, | |
| "learning_rate": 1.9962217168611755e-06, | |
| "loss": 0.0049, | |
| "step": 352 | |
| }, | |
| { | |
| "epoch": 0.37653333333333333, | |
| "grad_norm": 4.688206875294817, | |
| "learning_rate": 1.996113065322776e-06, | |
| "loss": 0.1433, | |
| "step": 353 | |
| }, | |
| { | |
| "epoch": 0.3776, | |
| "grad_norm": 0.2870089749889556, | |
| "learning_rate": 1.9960028766541334e-06, | |
| "loss": 0.0034, | |
| "step": 354 | |
| }, | |
| { | |
| "epoch": 0.37866666666666665, | |
| "grad_norm": 1.6375079216434894, | |
| "learning_rate": 1.9958911510252835e-06, | |
| "loss": 0.0232, | |
| "step": 355 | |
| }, | |
| { | |
| "epoch": 0.3797333333333333, | |
| "grad_norm": 4.593636878430014, | |
| "learning_rate": 1.995777888608633e-06, | |
| "loss": 0.093, | |
| "step": 356 | |
| }, | |
| { | |
| "epoch": 0.3808, | |
| "grad_norm": 2.8184656478976904, | |
| "learning_rate": 1.99566308957896e-06, | |
| "loss": 0.0779, | |
| "step": 357 | |
| }, | |
| { | |
| "epoch": 0.3818666666666667, | |
| "grad_norm": 0.2485439291403493, | |
| "learning_rate": 1.995546754113415e-06, | |
| "loss": 0.003, | |
| "step": 358 | |
| }, | |
| { | |
| "epoch": 0.38293333333333335, | |
| "grad_norm": 2.2437059110982585, | |
| "learning_rate": 1.9954288823915176e-06, | |
| "loss": 0.0414, | |
| "step": 359 | |
| }, | |
| { | |
| "epoch": 0.384, | |
| "grad_norm": 2.001140187003796, | |
| "learning_rate": 1.9953094745951597e-06, | |
| "loss": 0.035, | |
| "step": 360 | |
| }, | |
| { | |
| "epoch": 0.38506666666666667, | |
| "grad_norm": 1.4093011606412311, | |
| "learning_rate": 1.9951885309086026e-06, | |
| "loss": 0.0184, | |
| "step": 361 | |
| }, | |
| { | |
| "epoch": 0.38613333333333333, | |
| "grad_norm": 2.1138012491304408, | |
| "learning_rate": 1.9950660515184777e-06, | |
| "loss": 0.0315, | |
| "step": 362 | |
| }, | |
| { | |
| "epoch": 0.3872, | |
| "grad_norm": 0.11796660855631759, | |
| "learning_rate": 1.994942036613787e-06, | |
| "loss": 0.0018, | |
| "step": 363 | |
| }, | |
| { | |
| "epoch": 0.38826666666666665, | |
| "grad_norm": 0.7892341561868786, | |
| "learning_rate": 1.9948164863859004e-06, | |
| "loss": 0.0146, | |
| "step": 364 | |
| }, | |
| { | |
| "epoch": 0.3893333333333333, | |
| "grad_norm": 0.6568964569346487, | |
| "learning_rate": 1.994689401028559e-06, | |
| "loss": 0.0131, | |
| "step": 365 | |
| }, | |
| { | |
| "epoch": 0.3904, | |
| "grad_norm": 1.633661113619997, | |
| "learning_rate": 1.9945607807378715e-06, | |
| "loss": 0.0329, | |
| "step": 366 | |
| }, | |
| { | |
| "epoch": 0.3914666666666667, | |
| "grad_norm": 1.126467308042084, | |
| "learning_rate": 1.9944306257123157e-06, | |
| "loss": 0.0446, | |
| "step": 367 | |
| }, | |
| { | |
| "epoch": 0.39253333333333335, | |
| "grad_norm": 2.0843407882687908, | |
| "learning_rate": 1.9942989361527366e-06, | |
| "loss": 0.0428, | |
| "step": 368 | |
| }, | |
| { | |
| "epoch": 0.3936, | |
| "grad_norm": 2.2219389663095814, | |
| "learning_rate": 1.994165712262349e-06, | |
| "loss": 0.0564, | |
| "step": 369 | |
| }, | |
| { | |
| "epoch": 0.39466666666666667, | |
| "grad_norm": 2.7775942987619797, | |
| "learning_rate": 1.9940309542467345e-06, | |
| "loss": 0.0689, | |
| "step": 370 | |
| }, | |
| { | |
| "epoch": 0.3957333333333333, | |
| "grad_norm": 1.8350062571764503, | |
| "learning_rate": 1.993894662313841e-06, | |
| "loss": 0.0694, | |
| "step": 371 | |
| }, | |
| { | |
| "epoch": 0.3968, | |
| "grad_norm": 1.029665838458409, | |
| "learning_rate": 1.993756836673986e-06, | |
| "loss": 0.0173, | |
| "step": 372 | |
| }, | |
| { | |
| "epoch": 0.39786666666666665, | |
| "grad_norm": 0.571214571115293, | |
| "learning_rate": 1.9936174775398506e-06, | |
| "loss": 0.0053, | |
| "step": 373 | |
| }, | |
| { | |
| "epoch": 0.3989333333333333, | |
| "grad_norm": 1.3213872708985888, | |
| "learning_rate": 1.9934765851264846e-06, | |
| "loss": 0.0695, | |
| "step": 374 | |
| }, | |
| { | |
| "epoch": 0.4, | |
| "grad_norm": 0.23510781603507086, | |
| "learning_rate": 1.993334159651303e-06, | |
| "loss": 0.0054, | |
| "step": 375 | |
| }, | |
| { | |
| "epoch": 0.4010666666666667, | |
| "grad_norm": 1.1060879217421968, | |
| "learning_rate": 1.9931902013340865e-06, | |
| "loss": 0.0189, | |
| "step": 376 | |
| }, | |
| { | |
| "epoch": 0.40213333333333334, | |
| "grad_norm": 0.3710399547602498, | |
| "learning_rate": 1.9930447103969815e-06, | |
| "loss": 0.0046, | |
| "step": 377 | |
| }, | |
| { | |
| "epoch": 0.4032, | |
| "grad_norm": 1.622717686078824, | |
| "learning_rate": 1.992897687064499e-06, | |
| "loss": 0.0247, | |
| "step": 378 | |
| }, | |
| { | |
| "epoch": 0.40426666666666666, | |
| "grad_norm": 2.2476983489121847, | |
| "learning_rate": 1.992749131563514e-06, | |
| "loss": 0.0818, | |
| "step": 379 | |
| }, | |
| { | |
| "epoch": 0.4053333333333333, | |
| "grad_norm": 1.315470500355049, | |
| "learning_rate": 1.9925990441232684e-06, | |
| "loss": 0.0322, | |
| "step": 380 | |
| }, | |
| { | |
| "epoch": 0.4064, | |
| "grad_norm": 2.5737294966668522, | |
| "learning_rate": 1.9924474249753655e-06, | |
| "loss": 0.0836, | |
| "step": 381 | |
| }, | |
| { | |
| "epoch": 0.40746666666666664, | |
| "grad_norm": 0.9394492979525191, | |
| "learning_rate": 1.9922942743537724e-06, | |
| "loss": 0.0297, | |
| "step": 382 | |
| }, | |
| { | |
| "epoch": 0.40853333333333336, | |
| "grad_norm": 0.8069382855063404, | |
| "learning_rate": 1.9921395924948214e-06, | |
| "loss": 0.0166, | |
| "step": 383 | |
| }, | |
| { | |
| "epoch": 0.4096, | |
| "grad_norm": 1.4306192080840419, | |
| "learning_rate": 1.991983379637206e-06, | |
| "loss": 0.0296, | |
| "step": 384 | |
| }, | |
| { | |
| "epoch": 0.4106666666666667, | |
| "grad_norm": 1.3969683122099108, | |
| "learning_rate": 1.991825636021982e-06, | |
| "loss": 0.0203, | |
| "step": 385 | |
| }, | |
| { | |
| "epoch": 0.41173333333333334, | |
| "grad_norm": 1.825285692623069, | |
| "learning_rate": 1.991666361892569e-06, | |
| "loss": 0.0872, | |
| "step": 386 | |
| }, | |
| { | |
| "epoch": 0.4128, | |
| "grad_norm": 0.8975216401244392, | |
| "learning_rate": 1.991505557494747e-06, | |
| "loss": 0.0316, | |
| "step": 387 | |
| }, | |
| { | |
| "epoch": 0.41386666666666666, | |
| "grad_norm": 1.921594655691583, | |
| "learning_rate": 1.9913432230766574e-06, | |
| "loss": 0.0398, | |
| "step": 388 | |
| }, | |
| { | |
| "epoch": 0.4149333333333333, | |
| "grad_norm": 1.8453404863459837, | |
| "learning_rate": 1.9911793588888043e-06, | |
| "loss": 0.0538, | |
| "step": 389 | |
| }, | |
| { | |
| "epoch": 0.416, | |
| "grad_norm": 1.0578785118600522, | |
| "learning_rate": 1.9910139651840495e-06, | |
| "loss": 0.0152, | |
| "step": 390 | |
| }, | |
| { | |
| "epoch": 0.41706666666666664, | |
| "grad_norm": 0.1293043522954174, | |
| "learning_rate": 1.9908470422176183e-06, | |
| "loss": 0.0032, | |
| "step": 391 | |
| }, | |
| { | |
| "epoch": 0.41813333333333336, | |
| "grad_norm": 0.8193852729764006, | |
| "learning_rate": 1.990678590247093e-06, | |
| "loss": 0.0252, | |
| "step": 392 | |
| }, | |
| { | |
| "epoch": 0.4192, | |
| "grad_norm": 0.8114012251103345, | |
| "learning_rate": 1.990508609532417e-06, | |
| "loss": 0.0125, | |
| "step": 393 | |
| }, | |
| { | |
| "epoch": 0.4202666666666667, | |
| "grad_norm": 2.818291734468121, | |
| "learning_rate": 1.9903371003358928e-06, | |
| "loss": 0.0189, | |
| "step": 394 | |
| }, | |
| { | |
| "epoch": 0.42133333333333334, | |
| "grad_norm": 0.9204435003254485, | |
| "learning_rate": 1.9901640629221803e-06, | |
| "loss": 0.0329, | |
| "step": 395 | |
| }, | |
| { | |
| "epoch": 0.4224, | |
| "grad_norm": 0.08712425359694305, | |
| "learning_rate": 1.9899894975582992e-06, | |
| "loss": 0.0011, | |
| "step": 396 | |
| }, | |
| { | |
| "epoch": 0.42346666666666666, | |
| "grad_norm": 0.03241923575638935, | |
| "learning_rate": 1.989813404513626e-06, | |
| "loss": 0.0006, | |
| "step": 397 | |
| }, | |
| { | |
| "epoch": 0.4245333333333333, | |
| "grad_norm": 1.6779979572184394, | |
| "learning_rate": 1.9896357840598943e-06, | |
| "loss": 0.0961, | |
| "step": 398 | |
| }, | |
| { | |
| "epoch": 0.4256, | |
| "grad_norm": 0.050696178342396175, | |
| "learning_rate": 1.9894566364711964e-06, | |
| "loss": 0.001, | |
| "step": 399 | |
| }, | |
| { | |
| "epoch": 0.4266666666666667, | |
| "grad_norm": 1.4891393117145435, | |
| "learning_rate": 1.9892759620239787e-06, | |
| "loss": 0.0906, | |
| "step": 400 | |
| }, | |
| { | |
| "epoch": 0.4266666666666667, | |
| "eval_loss": 0.07928112149238586, | |
| "eval_runtime": 8.2676, | |
| "eval_samples_per_second": 12.095, | |
| "eval_steps_per_second": 6.048, | |
| "step": 400 | |
| }, | |
| { | |
| "epoch": 0.42773333333333335, | |
| "grad_norm": 0.2825199528851997, | |
| "learning_rate": 1.989093760997046e-06, | |
| "loss": 0.0034, | |
| "step": 401 | |
| }, | |
| { | |
| "epoch": 0.4288, | |
| "grad_norm": 0.06701874009051513, | |
| "learning_rate": 1.9889100336715574e-06, | |
| "loss": 0.0014, | |
| "step": 402 | |
| }, | |
| { | |
| "epoch": 0.4298666666666667, | |
| "grad_norm": 1.1540056838329342, | |
| "learning_rate": 1.9887247803310275e-06, | |
| "loss": 0.0344, | |
| "step": 403 | |
| }, | |
| { | |
| "epoch": 0.43093333333333333, | |
| "grad_norm": 0.17492470261185009, | |
| "learning_rate": 1.988538001261327e-06, | |
| "loss": 0.0023, | |
| "step": 404 | |
| }, | |
| { | |
| "epoch": 0.432, | |
| "grad_norm": 1.842060768202244, | |
| "learning_rate": 1.9883496967506787e-06, | |
| "loss": 0.0277, | |
| "step": 405 | |
| }, | |
| { | |
| "epoch": 0.43306666666666666, | |
| "grad_norm": 1.5947437342416269, | |
| "learning_rate": 1.9881598670896615e-06, | |
| "loss": 0.042, | |
| "step": 406 | |
| }, | |
| { | |
| "epoch": 0.4341333333333333, | |
| "grad_norm": 0.9161274283634603, | |
| "learning_rate": 1.9879685125712064e-06, | |
| "loss": 0.0367, | |
| "step": 407 | |
| }, | |
| { | |
| "epoch": 0.4352, | |
| "grad_norm": 2.360301377480192, | |
| "learning_rate": 1.9877756334905984e-06, | |
| "loss": 0.0682, | |
| "step": 408 | |
| }, | |
| { | |
| "epoch": 0.4362666666666667, | |
| "grad_norm": 2.8033256381176845, | |
| "learning_rate": 1.9875812301454742e-06, | |
| "loss": 0.0215, | |
| "step": 409 | |
| }, | |
| { | |
| "epoch": 0.43733333333333335, | |
| "grad_norm": 1.5583202561269525, | |
| "learning_rate": 1.987385302835824e-06, | |
| "loss": 0.0363, | |
| "step": 410 | |
| }, | |
| { | |
| "epoch": 0.4384, | |
| "grad_norm": 2.781896561969346, | |
| "learning_rate": 1.9871878518639875e-06, | |
| "loss": 0.068, | |
| "step": 411 | |
| }, | |
| { | |
| "epoch": 0.43946666666666667, | |
| "grad_norm": 0.21642280193886335, | |
| "learning_rate": 1.9869888775346573e-06, | |
| "loss": 0.0036, | |
| "step": 412 | |
| }, | |
| { | |
| "epoch": 0.44053333333333333, | |
| "grad_norm": 1.6029255115528245, | |
| "learning_rate": 1.986788380154877e-06, | |
| "loss": 0.0647, | |
| "step": 413 | |
| }, | |
| { | |
| "epoch": 0.4416, | |
| "grad_norm": 0.5806042371514701, | |
| "learning_rate": 1.986586360034039e-06, | |
| "loss": 0.0132, | |
| "step": 414 | |
| }, | |
| { | |
| "epoch": 0.44266666666666665, | |
| "grad_norm": 0.9908273749386388, | |
| "learning_rate": 1.9863828174838866e-06, | |
| "loss": 0.0415, | |
| "step": 415 | |
| }, | |
| { | |
| "epoch": 0.4437333333333333, | |
| "grad_norm": 0.6290093251213951, | |
| "learning_rate": 1.9861777528185124e-06, | |
| "loss": 0.0105, | |
| "step": 416 | |
| }, | |
| { | |
| "epoch": 0.4448, | |
| "grad_norm": 0.14553068803017533, | |
| "learning_rate": 1.985971166354357e-06, | |
| "loss": 0.004, | |
| "step": 417 | |
| }, | |
| { | |
| "epoch": 0.4458666666666667, | |
| "grad_norm": 1.3506786155965647, | |
| "learning_rate": 1.9857630584102097e-06, | |
| "loss": 0.0751, | |
| "step": 418 | |
| }, | |
| { | |
| "epoch": 0.44693333333333335, | |
| "grad_norm": 0.5584989326737009, | |
| "learning_rate": 1.985553429307208e-06, | |
| "loss": 0.014, | |
| "step": 419 | |
| }, | |
| { | |
| "epoch": 0.448, | |
| "grad_norm": 1.6294250896843834, | |
| "learning_rate": 1.9853422793688367e-06, | |
| "loss": 0.0636, | |
| "step": 420 | |
| }, | |
| { | |
| "epoch": 0.44906666666666667, | |
| "grad_norm": 0.5596353903671426, | |
| "learning_rate": 1.985129608920927e-06, | |
| "loss": 0.0098, | |
| "step": 421 | |
| }, | |
| { | |
| "epoch": 0.45013333333333333, | |
| "grad_norm": 1.3728856599421018, | |
| "learning_rate": 1.9849154182916564e-06, | |
| "loss": 0.0406, | |
| "step": 422 | |
| }, | |
| { | |
| "epoch": 0.4512, | |
| "grad_norm": 1.4539828782817406, | |
| "learning_rate": 1.984699707811549e-06, | |
| "loss": 0.0425, | |
| "step": 423 | |
| }, | |
| { | |
| "epoch": 0.45226666666666665, | |
| "grad_norm": 1.1916004180696034, | |
| "learning_rate": 1.9844824778134736e-06, | |
| "loss": 0.0306, | |
| "step": 424 | |
| }, | |
| { | |
| "epoch": 0.4533333333333333, | |
| "grad_norm": 1.419985849067304, | |
| "learning_rate": 1.9842637286326438e-06, | |
| "loss": 0.0551, | |
| "step": 425 | |
| }, | |
| { | |
| "epoch": 0.4544, | |
| "grad_norm": 1.3883049129527003, | |
| "learning_rate": 1.984043460606618e-06, | |
| "loss": 0.0513, | |
| "step": 426 | |
| }, | |
| { | |
| "epoch": 0.4554666666666667, | |
| "grad_norm": 0.1278745223052872, | |
| "learning_rate": 1.9838216740752974e-06, | |
| "loss": 0.0052, | |
| "step": 427 | |
| }, | |
| { | |
| "epoch": 0.45653333333333335, | |
| "grad_norm": 0.6233977796404779, | |
| "learning_rate": 1.983598369380928e-06, | |
| "loss": 0.0342, | |
| "step": 428 | |
| }, | |
| { | |
| "epoch": 0.4576, | |
| "grad_norm": 0.39517621879791065, | |
| "learning_rate": 1.9833735468680964e-06, | |
| "loss": 0.01, | |
| "step": 429 | |
| }, | |
| { | |
| "epoch": 0.45866666666666667, | |
| "grad_norm": 0.4211386313113123, | |
| "learning_rate": 1.9831472068837337e-06, | |
| "loss": 0.0135, | |
| "step": 430 | |
| }, | |
| { | |
| "epoch": 0.4597333333333333, | |
| "grad_norm": 1.8464041929380612, | |
| "learning_rate": 1.9829193497771107e-06, | |
| "loss": 0.0597, | |
| "step": 431 | |
| }, | |
| { | |
| "epoch": 0.4608, | |
| "grad_norm": 1.3803065563385135, | |
| "learning_rate": 1.9826899758998406e-06, | |
| "loss": 0.0403, | |
| "step": 432 | |
| }, | |
| { | |
| "epoch": 0.46186666666666665, | |
| "grad_norm": 0.7417135247038509, | |
| "learning_rate": 1.982459085605877e-06, | |
| "loss": 0.016, | |
| "step": 433 | |
| }, | |
| { | |
| "epoch": 0.4629333333333333, | |
| "grad_norm": 1.39451525357249, | |
| "learning_rate": 1.9822266792515126e-06, | |
| "loss": 0.0182, | |
| "step": 434 | |
| }, | |
| { | |
| "epoch": 0.464, | |
| "grad_norm": 2.8641679197940273, | |
| "learning_rate": 1.98199275719538e-06, | |
| "loss": 0.1259, | |
| "step": 435 | |
| }, | |
| { | |
| "epoch": 0.4650666666666667, | |
| "grad_norm": 0.5715361958864581, | |
| "learning_rate": 1.981757319798452e-06, | |
| "loss": 0.0088, | |
| "step": 436 | |
| }, | |
| { | |
| "epoch": 0.46613333333333334, | |
| "grad_norm": 2.4227706234953055, | |
| "learning_rate": 1.981520367424038e-06, | |
| "loss": 0.0455, | |
| "step": 437 | |
| }, | |
| { | |
| "epoch": 0.4672, | |
| "grad_norm": 2.930333077963303, | |
| "learning_rate": 1.981281900437786e-06, | |
| "loss": 0.1153, | |
| "step": 438 | |
| }, | |
| { | |
| "epoch": 0.46826666666666666, | |
| "grad_norm": 2.8810723377913883, | |
| "learning_rate": 1.9810419192076813e-06, | |
| "loss": 0.1719, | |
| "step": 439 | |
| }, | |
| { | |
| "epoch": 0.4693333333333333, | |
| "grad_norm": 1.2033125300206557, | |
| "learning_rate": 1.9808004241040453e-06, | |
| "loss": 0.0335, | |
| "step": 440 | |
| }, | |
| { | |
| "epoch": 0.4704, | |
| "grad_norm": 1.5784293247380277, | |
| "learning_rate": 1.9805574154995368e-06, | |
| "loss": 0.0241, | |
| "step": 441 | |
| }, | |
| { | |
| "epoch": 0.47146666666666665, | |
| "grad_norm": 0.331053930672315, | |
| "learning_rate": 1.980312893769148e-06, | |
| "loss": 0.0059, | |
| "step": 442 | |
| }, | |
| { | |
| "epoch": 0.47253333333333336, | |
| "grad_norm": 0.3750843000391053, | |
| "learning_rate": 1.9800668592902084e-06, | |
| "loss": 0.0116, | |
| "step": 443 | |
| }, | |
| { | |
| "epoch": 0.4736, | |
| "grad_norm": 1.7511119092314256, | |
| "learning_rate": 1.97981931244238e-06, | |
| "loss": 0.0325, | |
| "step": 444 | |
| }, | |
| { | |
| "epoch": 0.4746666666666667, | |
| "grad_norm": 0.8672178018929745, | |
| "learning_rate": 1.97957025360766e-06, | |
| "loss": 0.015, | |
| "step": 445 | |
| }, | |
| { | |
| "epoch": 0.47573333333333334, | |
| "grad_norm": 1.1316891807624356, | |
| "learning_rate": 1.979319683170378e-06, | |
| "loss": 0.0247, | |
| "step": 446 | |
| }, | |
| { | |
| "epoch": 0.4768, | |
| "grad_norm": 1.7458341470636687, | |
| "learning_rate": 1.9790676015171957e-06, | |
| "loss": 0.0645, | |
| "step": 447 | |
| }, | |
| { | |
| "epoch": 0.47786666666666666, | |
| "grad_norm": 2.1936196357092346, | |
| "learning_rate": 1.978814009037108e-06, | |
| "loss": 0.0451, | |
| "step": 448 | |
| }, | |
| { | |
| "epoch": 0.4789333333333333, | |
| "grad_norm": 0.8697055179908226, | |
| "learning_rate": 1.9785589061214406e-06, | |
| "loss": 0.0213, | |
| "step": 449 | |
| }, | |
| { | |
| "epoch": 0.48, | |
| "grad_norm": 0.22437585040149477, | |
| "learning_rate": 1.97830229316385e-06, | |
| "loss": 0.0054, | |
| "step": 450 | |
| }, | |
| { | |
| "epoch": 0.48, | |
| "eval_loss": 0.059111062437295914, | |
| "eval_runtime": 8.3864, | |
| "eval_samples_per_second": 11.924, | |
| "eval_steps_per_second": 5.962, | |
| "step": 450 | |
| }, | |
| { | |
| "epoch": 0.48106666666666664, | |
| "grad_norm": 0.10636278575330274, | |
| "learning_rate": 1.9780441705603223e-06, | |
| "loss": 0.0021, | |
| "step": 451 | |
| }, | |
| { | |
| "epoch": 0.48213333333333336, | |
| "grad_norm": 2.5573873105038434, | |
| "learning_rate": 1.977784538709175e-06, | |
| "loss": 0.1313, | |
| "step": 452 | |
| }, | |
| { | |
| "epoch": 0.4832, | |
| "grad_norm": 1.663012931362963, | |
| "learning_rate": 1.977523398011052e-06, | |
| "loss": 0.0691, | |
| "step": 453 | |
| }, | |
| { | |
| "epoch": 0.4842666666666667, | |
| "grad_norm": 0.7219317225159716, | |
| "learning_rate": 1.977260748868928e-06, | |
| "loss": 0.0096, | |
| "step": 454 | |
| }, | |
| { | |
| "epoch": 0.48533333333333334, | |
| "grad_norm": 0.7982966573390478, | |
| "learning_rate": 1.976996591688104e-06, | |
| "loss": 0.0137, | |
| "step": 455 | |
| }, | |
| { | |
| "epoch": 0.4864, | |
| "grad_norm": 0.20970702399928798, | |
| "learning_rate": 1.976730926876208e-06, | |
| "loss": 0.0046, | |
| "step": 456 | |
| }, | |
| { | |
| "epoch": 0.48746666666666666, | |
| "grad_norm": 0.28803719058990657, | |
| "learning_rate": 1.976463754843195e-06, | |
| "loss": 0.005, | |
| "step": 457 | |
| }, | |
| { | |
| "epoch": 0.4885333333333333, | |
| "grad_norm": 0.7919194276555528, | |
| "learning_rate": 1.9761950760013465e-06, | |
| "loss": 0.0282, | |
| "step": 458 | |
| }, | |
| { | |
| "epoch": 0.4896, | |
| "grad_norm": 1.4705813607789455, | |
| "learning_rate": 1.975924890765268e-06, | |
| "loss": 0.0579, | |
| "step": 459 | |
| }, | |
| { | |
| "epoch": 0.49066666666666664, | |
| "grad_norm": 0.0892978502279876, | |
| "learning_rate": 1.975653199551889e-06, | |
| "loss": 0.002, | |
| "step": 460 | |
| }, | |
| { | |
| "epoch": 0.49173333333333336, | |
| "grad_norm": 0.2924517573264484, | |
| "learning_rate": 1.975380002780465e-06, | |
| "loss": 0.0054, | |
| "step": 461 | |
| }, | |
| { | |
| "epoch": 0.4928, | |
| "grad_norm": 0.13984323661447734, | |
| "learning_rate": 1.9751053008725736e-06, | |
| "loss": 0.0048, | |
| "step": 462 | |
| }, | |
| { | |
| "epoch": 0.4938666666666667, | |
| "grad_norm": 0.9708483997669436, | |
| "learning_rate": 1.9748290942521147e-06, | |
| "loss": 0.0206, | |
| "step": 463 | |
| }, | |
| { | |
| "epoch": 0.49493333333333334, | |
| "grad_norm": 1.2833574509895846, | |
| "learning_rate": 1.974551383345311e-06, | |
| "loss": 0.0296, | |
| "step": 464 | |
| }, | |
| { | |
| "epoch": 0.496, | |
| "grad_norm": 0.8281324977406651, | |
| "learning_rate": 1.974272168580705e-06, | |
| "loss": 0.0278, | |
| "step": 465 | |
| }, | |
| { | |
| "epoch": 0.49706666666666666, | |
| "grad_norm": 0.044148734591724956, | |
| "learning_rate": 1.9739914503891623e-06, | |
| "loss": 0.0015, | |
| "step": 466 | |
| }, | |
| { | |
| "epoch": 0.4981333333333333, | |
| "grad_norm": 0.12615582529209052, | |
| "learning_rate": 1.9737092292038666e-06, | |
| "loss": 0.0029, | |
| "step": 467 | |
| }, | |
| { | |
| "epoch": 0.4992, | |
| "grad_norm": 0.2572697580666658, | |
| "learning_rate": 1.973425505460321e-06, | |
| "loss": 0.0083, | |
| "step": 468 | |
| }, | |
| { | |
| "epoch": 0.5002666666666666, | |
| "grad_norm": 0.1241476180135192, | |
| "learning_rate": 1.9731402795963475e-06, | |
| "loss": 0.0029, | |
| "step": 469 | |
| }, | |
| { | |
| "epoch": 0.5013333333333333, | |
| "grad_norm": 0.2062065751894674, | |
| "learning_rate": 1.972853552052087e-06, | |
| "loss": 0.0042, | |
| "step": 470 | |
| }, | |
| { | |
| "epoch": 0.5024, | |
| "grad_norm": 0.2666525204106077, | |
| "learning_rate": 1.972565323269996e-06, | |
| "loss": 0.0065, | |
| "step": 471 | |
| }, | |
| { | |
| "epoch": 0.5034666666666666, | |
| "grad_norm": 0.81144616074266, | |
| "learning_rate": 1.9722755936948495e-06, | |
| "loss": 0.025, | |
| "step": 472 | |
| }, | |
| { | |
| "epoch": 0.5045333333333333, | |
| "grad_norm": 1.444231248641308, | |
| "learning_rate": 1.9719843637737363e-06, | |
| "loss": 0.0291, | |
| "step": 473 | |
| }, | |
| { | |
| "epoch": 0.5056, | |
| "grad_norm": 0.4874177855432997, | |
| "learning_rate": 1.9716916339560623e-06, | |
| "loss": 0.0074, | |
| "step": 474 | |
| }, | |
| { | |
| "epoch": 0.5066666666666667, | |
| "grad_norm": 0.07849556590261975, | |
| "learning_rate": 1.971397404693547e-06, | |
| "loss": 0.002, | |
| "step": 475 | |
| }, | |
| { | |
| "epoch": 0.5077333333333334, | |
| "grad_norm": 0.5517723930132947, | |
| "learning_rate": 1.9711016764402236e-06, | |
| "loss": 0.0097, | |
| "step": 476 | |
| }, | |
| { | |
| "epoch": 0.5088, | |
| "grad_norm": 0.7299515657510972, | |
| "learning_rate": 1.970804449652439e-06, | |
| "loss": 0.0209, | |
| "step": 477 | |
| }, | |
| { | |
| "epoch": 0.5098666666666667, | |
| "grad_norm": 0.870187254255976, | |
| "learning_rate": 1.9705057247888524e-06, | |
| "loss": 0.0274, | |
| "step": 478 | |
| }, | |
| { | |
| "epoch": 0.5109333333333334, | |
| "grad_norm": 0.4378815653508658, | |
| "learning_rate": 1.9702055023104342e-06, | |
| "loss": 0.0067, | |
| "step": 479 | |
| }, | |
| { | |
| "epoch": 0.512, | |
| "grad_norm": 0.19791484072606055, | |
| "learning_rate": 1.9699037826804664e-06, | |
| "loss": 0.0028, | |
| "step": 480 | |
| }, | |
| { | |
| "epoch": 0.5130666666666667, | |
| "grad_norm": 0.33265027100392863, | |
| "learning_rate": 1.9696005663645413e-06, | |
| "loss": 0.0046, | |
| "step": 481 | |
| }, | |
| { | |
| "epoch": 0.5141333333333333, | |
| "grad_norm": 0.5850664754775464, | |
| "learning_rate": 1.9692958538305603e-06, | |
| "loss": 0.0074, | |
| "step": 482 | |
| }, | |
| { | |
| "epoch": 0.5152, | |
| "grad_norm": 1.424929398925143, | |
| "learning_rate": 1.9689896455487335e-06, | |
| "loss": 0.1158, | |
| "step": 483 | |
| }, | |
| { | |
| "epoch": 0.5162666666666667, | |
| "grad_norm": 0.13577194866828218, | |
| "learning_rate": 1.9686819419915807e-06, | |
| "loss": 0.0015, | |
| "step": 484 | |
| }, | |
| { | |
| "epoch": 0.5173333333333333, | |
| "grad_norm": 0.41803441824249704, | |
| "learning_rate": 1.968372743633927e-06, | |
| "loss": 0.008, | |
| "step": 485 | |
| }, | |
| { | |
| "epoch": 0.5184, | |
| "grad_norm": 4.12682235282853, | |
| "learning_rate": 1.9680620509529057e-06, | |
| "loss": 0.0162, | |
| "step": 486 | |
| }, | |
| { | |
| "epoch": 0.5194666666666666, | |
| "grad_norm": 1.503044654721969, | |
| "learning_rate": 1.9677498644279548e-06, | |
| "loss": 0.0422, | |
| "step": 487 | |
| }, | |
| { | |
| "epoch": 0.5205333333333333, | |
| "grad_norm": 0.7689074004737195, | |
| "learning_rate": 1.9674361845408186e-06, | |
| "loss": 0.0094, | |
| "step": 488 | |
| }, | |
| { | |
| "epoch": 0.5216, | |
| "grad_norm": 0.06909875982015076, | |
| "learning_rate": 1.9671210117755453e-06, | |
| "loss": 0.0007, | |
| "step": 489 | |
| }, | |
| { | |
| "epoch": 0.5226666666666666, | |
| "grad_norm": 1.2206766665571167, | |
| "learning_rate": 1.966804346618487e-06, | |
| "loss": 0.1015, | |
| "step": 490 | |
| }, | |
| { | |
| "epoch": 0.5237333333333334, | |
| "grad_norm": 1.1789396464075375, | |
| "learning_rate": 1.9664861895582992e-06, | |
| "loss": 0.0854, | |
| "step": 491 | |
| }, | |
| { | |
| "epoch": 0.5248, | |
| "grad_norm": 0.21039611614928425, | |
| "learning_rate": 1.9661665410859383e-06, | |
| "loss": 0.0026, | |
| "step": 492 | |
| }, | |
| { | |
| "epoch": 0.5258666666666667, | |
| "grad_norm": 0.054725892737321646, | |
| "learning_rate": 1.9658454016946625e-06, | |
| "loss": 0.0013, | |
| "step": 493 | |
| }, | |
| { | |
| "epoch": 0.5269333333333334, | |
| "grad_norm": 1.1777205041840952, | |
| "learning_rate": 1.9655227718800323e-06, | |
| "loss": 0.0185, | |
| "step": 494 | |
| }, | |
| { | |
| "epoch": 0.528, | |
| "grad_norm": 1.0317741265994544, | |
| "learning_rate": 1.965198652139906e-06, | |
| "loss": 0.0587, | |
| "step": 495 | |
| }, | |
| { | |
| "epoch": 0.5290666666666667, | |
| "grad_norm": 0.891353426464908, | |
| "learning_rate": 1.964873042974442e-06, | |
| "loss": 0.0401, | |
| "step": 496 | |
| }, | |
| { | |
| "epoch": 0.5301333333333333, | |
| "grad_norm": 1.30587203863953, | |
| "learning_rate": 1.9645459448860975e-06, | |
| "loss": 0.0309, | |
| "step": 497 | |
| }, | |
| { | |
| "epoch": 0.5312, | |
| "grad_norm": 1.3596410335486893, | |
| "learning_rate": 1.9642173583796264e-06, | |
| "loss": 0.0413, | |
| "step": 498 | |
| }, | |
| { | |
| "epoch": 0.5322666666666667, | |
| "grad_norm": 1.895269444451895, | |
| "learning_rate": 1.96388728396208e-06, | |
| "loss": 0.0832, | |
| "step": 499 | |
| }, | |
| { | |
| "epoch": 0.5333333333333333, | |
| "grad_norm": 0.8616463910896954, | |
| "learning_rate": 1.9635557221428053e-06, | |
| "loss": 0.0282, | |
| "step": 500 | |
| }, | |
| { | |
| "epoch": 0.5333333333333333, | |
| "eval_loss": 0.0750061422586441, | |
| "eval_runtime": 8.263, | |
| "eval_samples_per_second": 12.102, | |
| "eval_steps_per_second": 6.051, | |
| "step": 500 | |
| }, | |
| { | |
| "epoch": 0.5344, | |
| "grad_norm": 1.0484027260920663, | |
| "learning_rate": 1.963222673433445e-06, | |
| "loss": 0.0384, | |
| "step": 501 | |
| }, | |
| { | |
| "epoch": 0.5354666666666666, | |
| "grad_norm": 0.7655681891587585, | |
| "learning_rate": 1.9628881383479356e-06, | |
| "loss": 0.0143, | |
| "step": 502 | |
| }, | |
| { | |
| "epoch": 0.5365333333333333, | |
| "grad_norm": 1.0787203352903525, | |
| "learning_rate": 1.962552117402508e-06, | |
| "loss": 0.0252, | |
| "step": 503 | |
| }, | |
| { | |
| "epoch": 0.5376, | |
| "grad_norm": 0.4951788218638876, | |
| "learning_rate": 1.9622146111156854e-06, | |
| "loss": 0.0167, | |
| "step": 504 | |
| }, | |
| { | |
| "epoch": 0.5386666666666666, | |
| "grad_norm": 1.0190831345745026, | |
| "learning_rate": 1.9618756200082834e-06, | |
| "loss": 0.0209, | |
| "step": 505 | |
| }, | |
| { | |
| "epoch": 0.5397333333333333, | |
| "grad_norm": 1.5762111962709655, | |
| "learning_rate": 1.9615351446034087e-06, | |
| "loss": 0.0548, | |
| "step": 506 | |
| }, | |
| { | |
| "epoch": 0.5408, | |
| "grad_norm": 0.4583231105242901, | |
| "learning_rate": 1.9611931854264588e-06, | |
| "loss": 0.011, | |
| "step": 507 | |
| }, | |
| { | |
| "epoch": 0.5418666666666667, | |
| "grad_norm": 0.5862500686640746, | |
| "learning_rate": 1.96084974300512e-06, | |
| "loss": 0.0077, | |
| "step": 508 | |
| }, | |
| { | |
| "epoch": 0.5429333333333334, | |
| "grad_norm": 0.8574568627565791, | |
| "learning_rate": 1.960504817869369e-06, | |
| "loss": 0.0373, | |
| "step": 509 | |
| }, | |
| { | |
| "epoch": 0.544, | |
| "grad_norm": 1.2010733201915198, | |
| "learning_rate": 1.960158410551468e-06, | |
| "loss": 0.0447, | |
| "step": 510 | |
| }, | |
| { | |
| "epoch": 0.5450666666666667, | |
| "grad_norm": 0.8555492767495577, | |
| "learning_rate": 1.9598105215859696e-06, | |
| "loss": 0.0466, | |
| "step": 511 | |
| }, | |
| { | |
| "epoch": 0.5461333333333334, | |
| "grad_norm": 0.10178459528093674, | |
| "learning_rate": 1.95946115150971e-06, | |
| "loss": 0.0021, | |
| "step": 512 | |
| }, | |
| { | |
| "epoch": 0.5472, | |
| "grad_norm": 0.800504235107064, | |
| "learning_rate": 1.9591103008618125e-06, | |
| "loss": 0.0274, | |
| "step": 513 | |
| }, | |
| { | |
| "epoch": 0.5482666666666667, | |
| "grad_norm": 0.5316447147161468, | |
| "learning_rate": 1.9587579701836846e-06, | |
| "loss": 0.0079, | |
| "step": 514 | |
| }, | |
| { | |
| "epoch": 0.5493333333333333, | |
| "grad_norm": 1.736227171167706, | |
| "learning_rate": 1.9584041600190176e-06, | |
| "loss": 0.0368, | |
| "step": 515 | |
| }, | |
| { | |
| "epoch": 0.5504, | |
| "grad_norm": 0.733523786009821, | |
| "learning_rate": 1.958048870913786e-06, | |
| "loss": 0.0135, | |
| "step": 516 | |
| }, | |
| { | |
| "epoch": 0.5514666666666667, | |
| "grad_norm": 0.5321584802143156, | |
| "learning_rate": 1.9576921034162466e-06, | |
| "loss": 0.0211, | |
| "step": 517 | |
| }, | |
| { | |
| "epoch": 0.5525333333333333, | |
| "grad_norm": 0.9700623063668581, | |
| "learning_rate": 1.9573338580769374e-06, | |
| "loss": 0.0213, | |
| "step": 518 | |
| }, | |
| { | |
| "epoch": 0.5536, | |
| "grad_norm": 1.5444464892245888, | |
| "learning_rate": 1.9569741354486763e-06, | |
| "loss": 0.064, | |
| "step": 519 | |
| }, | |
| { | |
| "epoch": 0.5546666666666666, | |
| "grad_norm": 0.9917141522432631, | |
| "learning_rate": 1.9566129360865625e-06, | |
| "loss": 0.0233, | |
| "step": 520 | |
| }, | |
| { | |
| "epoch": 0.5557333333333333, | |
| "grad_norm": 0.1624747704143236, | |
| "learning_rate": 1.956250260547972e-06, | |
| "loss": 0.0054, | |
| "step": 521 | |
| }, | |
| { | |
| "epoch": 0.5568, | |
| "grad_norm": 0.020676204559768888, | |
| "learning_rate": 1.955886109392561e-06, | |
| "loss": 0.0006, | |
| "step": 522 | |
| }, | |
| { | |
| "epoch": 0.5578666666666666, | |
| "grad_norm": 2.9044828339315623, | |
| "learning_rate": 1.95552048318226e-06, | |
| "loss": 0.0408, | |
| "step": 523 | |
| }, | |
| { | |
| "epoch": 0.5589333333333333, | |
| "grad_norm": 0.5831891601240735, | |
| "learning_rate": 1.9551533824812774e-06, | |
| "loss": 0.0097, | |
| "step": 524 | |
| }, | |
| { | |
| "epoch": 0.56, | |
| "grad_norm": 0.5857357629454975, | |
| "learning_rate": 1.9547848078560974e-06, | |
| "loss": 0.0139, | |
| "step": 525 | |
| }, | |
| { | |
| "epoch": 0.5610666666666667, | |
| "grad_norm": 0.21217825118743366, | |
| "learning_rate": 1.9544147598754773e-06, | |
| "loss": 0.0032, | |
| "step": 526 | |
| }, | |
| { | |
| "epoch": 0.5621333333333334, | |
| "grad_norm": 2.4670392982236082, | |
| "learning_rate": 1.954043239110449e-06, | |
| "loss": 0.0316, | |
| "step": 527 | |
| }, | |
| { | |
| "epoch": 0.5632, | |
| "grad_norm": 0.5406170478676595, | |
| "learning_rate": 1.9536702461343164e-06, | |
| "loss": 0.0224, | |
| "step": 528 | |
| }, | |
| { | |
| "epoch": 0.5642666666666667, | |
| "grad_norm": 0.055518527171553374, | |
| "learning_rate": 1.953295781522656e-06, | |
| "loss": 0.002, | |
| "step": 529 | |
| }, | |
| { | |
| "epoch": 0.5653333333333334, | |
| "grad_norm": 1.3934912347870063, | |
| "learning_rate": 1.9529198458533144e-06, | |
| "loss": 0.0398, | |
| "step": 530 | |
| }, | |
| { | |
| "epoch": 0.5664, | |
| "grad_norm": 0.4045943505474674, | |
| "learning_rate": 1.952542439706408e-06, | |
| "loss": 0.0058, | |
| "step": 531 | |
| }, | |
| { | |
| "epoch": 0.5674666666666667, | |
| "grad_norm": 1.7864041111845064, | |
| "learning_rate": 1.9521635636643235e-06, | |
| "loss": 0.0444, | |
| "step": 532 | |
| }, | |
| { | |
| "epoch": 0.5685333333333333, | |
| "grad_norm": 1.2920646109126186, | |
| "learning_rate": 1.9517832183117157e-06, | |
| "loss": 0.0388, | |
| "step": 533 | |
| }, | |
| { | |
| "epoch": 0.5696, | |
| "grad_norm": 0.7948792055347192, | |
| "learning_rate": 1.9514014042355057e-06, | |
| "loss": 0.0168, | |
| "step": 534 | |
| }, | |
| { | |
| "epoch": 0.5706666666666667, | |
| "grad_norm": 1.6705131453586166, | |
| "learning_rate": 1.951018122024881e-06, | |
| "loss": 0.1448, | |
| "step": 535 | |
| }, | |
| { | |
| "epoch": 0.5717333333333333, | |
| "grad_norm": 1.1168431435244262, | |
| "learning_rate": 1.950633372271296e-06, | |
| "loss": 0.0415, | |
| "step": 536 | |
| }, | |
| { | |
| "epoch": 0.5728, | |
| "grad_norm": 0.6514860220679357, | |
| "learning_rate": 1.9502471555684693e-06, | |
| "loss": 0.0099, | |
| "step": 537 | |
| }, | |
| { | |
| "epoch": 0.5738666666666666, | |
| "grad_norm": 1.2822333127340622, | |
| "learning_rate": 1.949859472512382e-06, | |
| "loss": 0.0334, | |
| "step": 538 | |
| }, | |
| { | |
| "epoch": 0.5749333333333333, | |
| "grad_norm": 0.05784985500576959, | |
| "learning_rate": 1.9494703237012795e-06, | |
| "loss": 0.002, | |
| "step": 539 | |
| }, | |
| { | |
| "epoch": 0.576, | |
| "grad_norm": 0.9322715943880168, | |
| "learning_rate": 1.9490797097356673e-06, | |
| "loss": 0.0382, | |
| "step": 540 | |
| }, | |
| { | |
| "epoch": 0.5770666666666666, | |
| "grad_norm": 1.195879018881952, | |
| "learning_rate": 1.9486876312183136e-06, | |
| "loss": 0.0307, | |
| "step": 541 | |
| }, | |
| { | |
| "epoch": 0.5781333333333334, | |
| "grad_norm": 0.508657257504912, | |
| "learning_rate": 1.9482940887542458e-06, | |
| "loss": 0.0095, | |
| "step": 542 | |
| }, | |
| { | |
| "epoch": 0.5792, | |
| "grad_norm": 0.06695661372207187, | |
| "learning_rate": 1.9478990829507503e-06, | |
| "loss": 0.0016, | |
| "step": 543 | |
| }, | |
| { | |
| "epoch": 0.5802666666666667, | |
| "grad_norm": 0.6717175414997428, | |
| "learning_rate": 1.947502614417372e-06, | |
| "loss": 0.0143, | |
| "step": 544 | |
| }, | |
| { | |
| "epoch": 0.5813333333333334, | |
| "grad_norm": 0.3243179957792768, | |
| "learning_rate": 1.9471046837659123e-06, | |
| "loss": 0.0112, | |
| "step": 545 | |
| }, | |
| { | |
| "epoch": 0.5824, | |
| "grad_norm": 0.7631675841259196, | |
| "learning_rate": 1.9467052916104297e-06, | |
| "loss": 0.0276, | |
| "step": 546 | |
| }, | |
| { | |
| "epoch": 0.5834666666666667, | |
| "grad_norm": 2.0144599920001727, | |
| "learning_rate": 1.946304438567237e-06, | |
| "loss": 0.0921, | |
| "step": 547 | |
| }, | |
| { | |
| "epoch": 0.5845333333333333, | |
| "grad_norm": 1.0636321610949848, | |
| "learning_rate": 1.945902125254902e-06, | |
| "loss": 0.0187, | |
| "step": 548 | |
| }, | |
| { | |
| "epoch": 0.5856, | |
| "grad_norm": 0.35874953906327267, | |
| "learning_rate": 1.945498352294246e-06, | |
| "loss": 0.0073, | |
| "step": 549 | |
| }, | |
| { | |
| "epoch": 0.5866666666666667, | |
| "grad_norm": 0.11859155797457026, | |
| "learning_rate": 1.9450931203083423e-06, | |
| "loss": 0.004, | |
| "step": 550 | |
| }, | |
| { | |
| "epoch": 0.5866666666666667, | |
| "eval_loss": 0.0564335361123085, | |
| "eval_runtime": 8.2114, | |
| "eval_samples_per_second": 12.178, | |
| "eval_steps_per_second": 6.089, | |
| "step": 550 | |
| }, | |
| { | |
| "epoch": 0.5877333333333333, | |
| "grad_norm": 0.9039799412688934, | |
| "learning_rate": 1.9446864299225154e-06, | |
| "loss": 0.0333, | |
| "step": 551 | |
| }, | |
| { | |
| "epoch": 0.5888, | |
| "grad_norm": 0.7538502138841161, | |
| "learning_rate": 1.9442782817643423e-06, | |
| "loss": 0.0563, | |
| "step": 552 | |
| }, | |
| { | |
| "epoch": 0.5898666666666667, | |
| "grad_norm": 0.1358781642223268, | |
| "learning_rate": 1.943868676463646e-06, | |
| "loss": 0.0025, | |
| "step": 553 | |
| }, | |
| { | |
| "epoch": 0.5909333333333333, | |
| "grad_norm": 1.48617799274998, | |
| "learning_rate": 1.943457614652501e-06, | |
| "loss": 0.047, | |
| "step": 554 | |
| }, | |
| { | |
| "epoch": 0.592, | |
| "grad_norm": 1.1293466674581456, | |
| "learning_rate": 1.9430450969652287e-06, | |
| "loss": 0.0385, | |
| "step": 555 | |
| }, | |
| { | |
| "epoch": 0.5930666666666666, | |
| "grad_norm": 0.8012169267070843, | |
| "learning_rate": 1.9426311240383965e-06, | |
| "loss": 0.013, | |
| "step": 556 | |
| }, | |
| { | |
| "epoch": 0.5941333333333333, | |
| "grad_norm": 0.6572329690288506, | |
| "learning_rate": 1.9422156965108168e-06, | |
| "loss": 0.0306, | |
| "step": 557 | |
| }, | |
| { | |
| "epoch": 0.5952, | |
| "grad_norm": 0.19306800078152603, | |
| "learning_rate": 1.9417988150235494e-06, | |
| "loss": 0.0038, | |
| "step": 558 | |
| }, | |
| { | |
| "epoch": 0.5962666666666666, | |
| "grad_norm": 1.3017265451514113, | |
| "learning_rate": 1.9413804802198945e-06, | |
| "loss": 0.0476, | |
| "step": 559 | |
| }, | |
| { | |
| "epoch": 0.5973333333333334, | |
| "grad_norm": 0.8375105380873863, | |
| "learning_rate": 1.9409606927453965e-06, | |
| "loss": 0.014, | |
| "step": 560 | |
| }, | |
| { | |
| "epoch": 0.5984, | |
| "grad_norm": 0.8885298874629408, | |
| "learning_rate": 1.940539453247842e-06, | |
| "loss": 0.0151, | |
| "step": 561 | |
| }, | |
| { | |
| "epoch": 0.5994666666666667, | |
| "grad_norm": 1.5102673561210778, | |
| "learning_rate": 1.9401167623772573e-06, | |
| "loss": 0.0374, | |
| "step": 562 | |
| }, | |
| { | |
| "epoch": 0.6005333333333334, | |
| "grad_norm": 1.987721672034343, | |
| "learning_rate": 1.9396926207859082e-06, | |
| "loss": 0.0953, | |
| "step": 563 | |
| }, | |
| { | |
| "epoch": 0.6016, | |
| "grad_norm": 0.22000547641573698, | |
| "learning_rate": 1.9392670291283e-06, | |
| "loss": 0.0046, | |
| "step": 564 | |
| }, | |
| { | |
| "epoch": 0.6026666666666667, | |
| "grad_norm": 0.8882455389638617, | |
| "learning_rate": 1.9388399880611754e-06, | |
| "loss": 0.0229, | |
| "step": 565 | |
| }, | |
| { | |
| "epoch": 0.6037333333333333, | |
| "grad_norm": 0.5255035590758061, | |
| "learning_rate": 1.938411498243513e-06, | |
| "loss": 0.0228, | |
| "step": 566 | |
| }, | |
| { | |
| "epoch": 0.6048, | |
| "grad_norm": 0.343214637954108, | |
| "learning_rate": 1.9379815603365282e-06, | |
| "loss": 0.012, | |
| "step": 567 | |
| }, | |
| { | |
| "epoch": 0.6058666666666667, | |
| "grad_norm": 0.6053924697986651, | |
| "learning_rate": 1.93755017500367e-06, | |
| "loss": 0.0145, | |
| "step": 568 | |
| }, | |
| { | |
| "epoch": 0.6069333333333333, | |
| "grad_norm": 0.9254674234883058, | |
| "learning_rate": 1.937117342910621e-06, | |
| "loss": 0.0216, | |
| "step": 569 | |
| }, | |
| { | |
| "epoch": 0.608, | |
| "grad_norm": 0.8523880140703605, | |
| "learning_rate": 1.936683064725297e-06, | |
| "loss": 0.0221, | |
| "step": 570 | |
| }, | |
| { | |
| "epoch": 0.6090666666666666, | |
| "grad_norm": 0.9347656082249436, | |
| "learning_rate": 1.936247341117845e-06, | |
| "loss": 0.0188, | |
| "step": 571 | |
| }, | |
| { | |
| "epoch": 0.6101333333333333, | |
| "grad_norm": 0.8541104243225714, | |
| "learning_rate": 1.935810172760642e-06, | |
| "loss": 0.0473, | |
| "step": 572 | |
| }, | |
| { | |
| "epoch": 0.6112, | |
| "grad_norm": 0.8791764463094474, | |
| "learning_rate": 1.9353715603282955e-06, | |
| "loss": 0.0532, | |
| "step": 573 | |
| }, | |
| { | |
| "epoch": 0.6122666666666666, | |
| "grad_norm": 2.699319257248717, | |
| "learning_rate": 1.93493150449764e-06, | |
| "loss": 0.0537, | |
| "step": 574 | |
| }, | |
| { | |
| "epoch": 0.6133333333333333, | |
| "grad_norm": 0.1353088356819775, | |
| "learning_rate": 1.9344900059477396e-06, | |
| "loss": 0.0037, | |
| "step": 575 | |
| }, | |
| { | |
| "epoch": 0.6144, | |
| "grad_norm": 0.34618338498092704, | |
| "learning_rate": 1.934047065359881e-06, | |
| "loss": 0.0062, | |
| "step": 576 | |
| }, | |
| { | |
| "epoch": 0.6154666666666667, | |
| "grad_norm": 1.7078634001380137, | |
| "learning_rate": 1.9336026834175797e-06, | |
| "loss": 0.0771, | |
| "step": 577 | |
| }, | |
| { | |
| "epoch": 0.6165333333333334, | |
| "grad_norm": 0.14844162026860286, | |
| "learning_rate": 1.933156860806574e-06, | |
| "loss": 0.0031, | |
| "step": 578 | |
| }, | |
| { | |
| "epoch": 0.6176, | |
| "grad_norm": 1.2154534323817083, | |
| "learning_rate": 1.9327095982148254e-06, | |
| "loss": 0.0239, | |
| "step": 579 | |
| }, | |
| { | |
| "epoch": 0.6186666666666667, | |
| "grad_norm": 0.3272739540580518, | |
| "learning_rate": 1.932260896332517e-06, | |
| "loss": 0.007, | |
| "step": 580 | |
| }, | |
| { | |
| "epoch": 0.6197333333333334, | |
| "grad_norm": 0.10198673028774524, | |
| "learning_rate": 1.9318107558520538e-06, | |
| "loss": 0.0019, | |
| "step": 581 | |
| }, | |
| { | |
| "epoch": 0.6208, | |
| "grad_norm": 0.16913851829841492, | |
| "learning_rate": 1.9313591774680597e-06, | |
| "loss": 0.0038, | |
| "step": 582 | |
| }, | |
| { | |
| "epoch": 0.6218666666666667, | |
| "grad_norm": 0.07959301608009922, | |
| "learning_rate": 1.9309061618773786e-06, | |
| "loss": 0.0024, | |
| "step": 583 | |
| }, | |
| { | |
| "epoch": 0.6229333333333333, | |
| "grad_norm": 1.0893009664541993, | |
| "learning_rate": 1.9304517097790717e-06, | |
| "loss": 0.0407, | |
| "step": 584 | |
| }, | |
| { | |
| "epoch": 0.624, | |
| "grad_norm": 1.2631392794129843, | |
| "learning_rate": 1.929995821874417e-06, | |
| "loss": 0.0352, | |
| "step": 585 | |
| }, | |
| { | |
| "epoch": 0.6250666666666667, | |
| "grad_norm": 1.3997694152883324, | |
| "learning_rate": 1.9295384988669073e-06, | |
| "loss": 0.0393, | |
| "step": 586 | |
| }, | |
| { | |
| "epoch": 0.6261333333333333, | |
| "grad_norm": 1.6978660405005055, | |
| "learning_rate": 1.9290797414622513e-06, | |
| "loss": 0.0352, | |
| "step": 587 | |
| }, | |
| { | |
| "epoch": 0.6272, | |
| "grad_norm": 0.6308822438288059, | |
| "learning_rate": 1.928619550368371e-06, | |
| "loss": 0.0132, | |
| "step": 588 | |
| }, | |
| { | |
| "epoch": 0.6282666666666666, | |
| "grad_norm": 0.1371164881678459, | |
| "learning_rate": 1.9281579262953986e-06, | |
| "loss": 0.0025, | |
| "step": 589 | |
| }, | |
| { | |
| "epoch": 0.6293333333333333, | |
| "grad_norm": 0.6370240527064276, | |
| "learning_rate": 1.9276948699556807e-06, | |
| "loss": 0.0112, | |
| "step": 590 | |
| }, | |
| { | |
| "epoch": 0.6304, | |
| "grad_norm": 0.3056363205998125, | |
| "learning_rate": 1.9272303820637725e-06, | |
| "loss": 0.0058, | |
| "step": 591 | |
| }, | |
| { | |
| "epoch": 0.6314666666666666, | |
| "grad_norm": 0.55831070154103, | |
| "learning_rate": 1.926764463336438e-06, | |
| "loss": 0.01, | |
| "step": 592 | |
| }, | |
| { | |
| "epoch": 0.6325333333333333, | |
| "grad_norm": 0.8262080377150349, | |
| "learning_rate": 1.9262971144926496e-06, | |
| "loss": 0.0245, | |
| "step": 593 | |
| }, | |
| { | |
| "epoch": 0.6336, | |
| "grad_norm": 0.7226875150679721, | |
| "learning_rate": 1.9258283362535866e-06, | |
| "loss": 0.0097, | |
| "step": 594 | |
| }, | |
| { | |
| "epoch": 0.6346666666666667, | |
| "grad_norm": 0.042475954479241414, | |
| "learning_rate": 1.925358129342634e-06, | |
| "loss": 0.0006, | |
| "step": 595 | |
| }, | |
| { | |
| "epoch": 0.6357333333333334, | |
| "grad_norm": 0.859032501597276, | |
| "learning_rate": 1.9248864944853816e-06, | |
| "loss": 0.0378, | |
| "step": 596 | |
| }, | |
| { | |
| "epoch": 0.6368, | |
| "grad_norm": 1.3244307530631885, | |
| "learning_rate": 1.9244134324096223e-06, | |
| "loss": 0.0517, | |
| "step": 597 | |
| }, | |
| { | |
| "epoch": 0.6378666666666667, | |
| "grad_norm": 0.5857618506011136, | |
| "learning_rate": 1.9239389438453514e-06, | |
| "loss": 0.003, | |
| "step": 598 | |
| }, | |
| { | |
| "epoch": 0.6389333333333334, | |
| "grad_norm": 1.575917222926197, | |
| "learning_rate": 1.9234630295247656e-06, | |
| "loss": 0.0524, | |
| "step": 599 | |
| }, | |
| { | |
| "epoch": 0.64, | |
| "grad_norm": 0.03170525562888107, | |
| "learning_rate": 1.922985690182262e-06, | |
| "loss": 0.0008, | |
| "step": 600 | |
| }, | |
| { | |
| "epoch": 0.64, | |
| "eval_loss": 0.08799741417169571, | |
| "eval_runtime": 8.2278, | |
| "eval_samples_per_second": 12.154, | |
| "eval_steps_per_second": 6.077, | |
| "step": 600 | |
| }, | |
| { | |
| "epoch": 0.6410666666666667, | |
| "grad_norm": 0.009690918488452322, | |
| "learning_rate": 1.922506926554436e-06, | |
| "loss": 0.0003, | |
| "step": 601 | |
| }, | |
| { | |
| "epoch": 0.6421333333333333, | |
| "grad_norm": 1.7933818506504124, | |
| "learning_rate": 1.922026739380082e-06, | |
| "loss": 0.0453, | |
| "step": 602 | |
| }, | |
| { | |
| "epoch": 0.6432, | |
| "grad_norm": 0.6728832662063972, | |
| "learning_rate": 1.92154512940019e-06, | |
| "loss": 0.0127, | |
| "step": 603 | |
| }, | |
| { | |
| "epoch": 0.6442666666666667, | |
| "grad_norm": 2.0454536910248007, | |
| "learning_rate": 1.921062097357946e-06, | |
| "loss": 0.0386, | |
| "step": 604 | |
| }, | |
| { | |
| "epoch": 0.6453333333333333, | |
| "grad_norm": 0.5798489601175519, | |
| "learning_rate": 1.920577643998731e-06, | |
| "loss": 0.0071, | |
| "step": 605 | |
| }, | |
| { | |
| "epoch": 0.6464, | |
| "grad_norm": 0.2394641534653747, | |
| "learning_rate": 1.9200917700701174e-06, | |
| "loss": 0.0036, | |
| "step": 606 | |
| }, | |
| { | |
| "epoch": 0.6474666666666666, | |
| "grad_norm": 0.9346485691984059, | |
| "learning_rate": 1.9196044763218716e-06, | |
| "loss": 0.0109, | |
| "step": 607 | |
| }, | |
| { | |
| "epoch": 0.6485333333333333, | |
| "grad_norm": 0.20767795476182135, | |
| "learning_rate": 1.919115763505951e-06, | |
| "loss": 0.0032, | |
| "step": 608 | |
| }, | |
| { | |
| "epoch": 0.6496, | |
| "grad_norm": 0.9746443826052226, | |
| "learning_rate": 1.9186256323765014e-06, | |
| "loss": 0.044, | |
| "step": 609 | |
| }, | |
| { | |
| "epoch": 0.6506666666666666, | |
| "grad_norm": 0.03632552447261078, | |
| "learning_rate": 1.9181340836898583e-06, | |
| "loss": 0.0008, | |
| "step": 610 | |
| }, | |
| { | |
| "epoch": 0.6517333333333334, | |
| "grad_norm": 0.016034323467636072, | |
| "learning_rate": 1.9176411182045444e-06, | |
| "loss": 0.0005, | |
| "step": 611 | |
| }, | |
| { | |
| "epoch": 0.6528, | |
| "grad_norm": 1.2072262713544197, | |
| "learning_rate": 1.9171467366812685e-06, | |
| "loss": 0.0396, | |
| "step": 612 | |
| }, | |
| { | |
| "epoch": 0.6538666666666667, | |
| "grad_norm": 0.06082727387699129, | |
| "learning_rate": 1.9166509398829245e-06, | |
| "loss": 0.0012, | |
| "step": 613 | |
| }, | |
| { | |
| "epoch": 0.6549333333333334, | |
| "grad_norm": 0.3879482512495693, | |
| "learning_rate": 1.9161537285745914e-06, | |
| "loss": 0.0039, | |
| "step": 614 | |
| }, | |
| { | |
| "epoch": 0.656, | |
| "grad_norm": 0.638808482088454, | |
| "learning_rate": 1.915655103523529e-06, | |
| "loss": 0.0074, | |
| "step": 615 | |
| }, | |
| { | |
| "epoch": 0.6570666666666667, | |
| "grad_norm": 0.8138491050409327, | |
| "learning_rate": 1.91515506549918e-06, | |
| "loss": 0.0132, | |
| "step": 616 | |
| }, | |
| { | |
| "epoch": 0.6581333333333333, | |
| "grad_norm": 0.540067462167089, | |
| "learning_rate": 1.9146536152731677e-06, | |
| "loss": 0.0172, | |
| "step": 617 | |
| }, | |
| { | |
| "epoch": 0.6592, | |
| "grad_norm": 0.6745443836623596, | |
| "learning_rate": 1.914150753619294e-06, | |
| "loss": 0.0127, | |
| "step": 618 | |
| }, | |
| { | |
| "epoch": 0.6602666666666667, | |
| "grad_norm": 0.0571756718504632, | |
| "learning_rate": 1.9136464813135383e-06, | |
| "loss": 0.0013, | |
| "step": 619 | |
| }, | |
| { | |
| "epoch": 0.6613333333333333, | |
| "grad_norm": 1.0696688251669149, | |
| "learning_rate": 1.9131407991340576e-06, | |
| "loss": 0.0191, | |
| "step": 620 | |
| }, | |
| { | |
| "epoch": 0.6624, | |
| "grad_norm": 0.9286743366557831, | |
| "learning_rate": 1.9126337078611853e-06, | |
| "loss": 0.0155, | |
| "step": 621 | |
| }, | |
| { | |
| "epoch": 0.6634666666666666, | |
| "grad_norm": 0.7214214892481057, | |
| "learning_rate": 1.9121252082774273e-06, | |
| "loss": 0.0122, | |
| "step": 622 | |
| }, | |
| { | |
| "epoch": 0.6645333333333333, | |
| "grad_norm": 1.0342887383390953, | |
| "learning_rate": 1.911615301167464e-06, | |
| "loss": 0.0183, | |
| "step": 623 | |
| }, | |
| { | |
| "epoch": 0.6656, | |
| "grad_norm": 1.158658852177621, | |
| "learning_rate": 1.9111039873181477e-06, | |
| "loss": 0.0208, | |
| "step": 624 | |
| }, | |
| { | |
| "epoch": 0.6666666666666666, | |
| "grad_norm": 0.933991719728494, | |
| "learning_rate": 1.910591267518501e-06, | |
| "loss": 0.0447, | |
| "step": 625 | |
| }, | |
| { | |
| "epoch": 0.6677333333333333, | |
| "grad_norm": 2.6089665241843285, | |
| "learning_rate": 1.910077142559716e-06, | |
| "loss": 0.0638, | |
| "step": 626 | |
| }, | |
| { | |
| "epoch": 0.6688, | |
| "grad_norm": 2.250722631227982, | |
| "learning_rate": 1.909561613235154e-06, | |
| "loss": 0.0592, | |
| "step": 627 | |
| }, | |
| { | |
| "epoch": 0.6698666666666667, | |
| "grad_norm": 0.08631342544886995, | |
| "learning_rate": 1.909044680340343e-06, | |
| "loss": 0.0031, | |
| "step": 628 | |
| }, | |
| { | |
| "epoch": 0.6709333333333334, | |
| "grad_norm": 0.15542900973082988, | |
| "learning_rate": 1.9085263446729764e-06, | |
| "loss": 0.0028, | |
| "step": 629 | |
| }, | |
| { | |
| "epoch": 0.672, | |
| "grad_norm": 1.022068539031681, | |
| "learning_rate": 1.908006607032913e-06, | |
| "loss": 0.0189, | |
| "step": 630 | |
| }, | |
| { | |
| "epoch": 0.6730666666666667, | |
| "grad_norm": 0.15157861026738817, | |
| "learning_rate": 1.907485468222174e-06, | |
| "loss": 0.0033, | |
| "step": 631 | |
| }, | |
| { | |
| "epoch": 0.6741333333333334, | |
| "grad_norm": 0.7061085215681796, | |
| "learning_rate": 1.906962929044944e-06, | |
| "loss": 0.0353, | |
| "step": 632 | |
| }, | |
| { | |
| "epoch": 0.6752, | |
| "grad_norm": 1.7929133283068759, | |
| "learning_rate": 1.9064389903075675e-06, | |
| "loss": 0.097, | |
| "step": 633 | |
| }, | |
| { | |
| "epoch": 0.6762666666666667, | |
| "grad_norm": 0.8589919170763982, | |
| "learning_rate": 1.9059136528185498e-06, | |
| "loss": 0.0157, | |
| "step": 634 | |
| }, | |
| { | |
| "epoch": 0.6773333333333333, | |
| "grad_norm": 0.36494696901420853, | |
| "learning_rate": 1.9053869173885536e-06, | |
| "loss": 0.0067, | |
| "step": 635 | |
| }, | |
| { | |
| "epoch": 0.6784, | |
| "grad_norm": 0.6532318752374391, | |
| "learning_rate": 1.9048587848303995e-06, | |
| "loss": 0.0202, | |
| "step": 636 | |
| }, | |
| { | |
| "epoch": 0.6794666666666667, | |
| "grad_norm": 0.8657373525057245, | |
| "learning_rate": 1.9043292559590633e-06, | |
| "loss": 0.027, | |
| "step": 637 | |
| }, | |
| { | |
| "epoch": 0.6805333333333333, | |
| "grad_norm": 0.5189799148758188, | |
| "learning_rate": 1.9037983315916765e-06, | |
| "loss": 0.0137, | |
| "step": 638 | |
| }, | |
| { | |
| "epoch": 0.6816, | |
| "grad_norm": 0.04327467414717054, | |
| "learning_rate": 1.9032660125475236e-06, | |
| "loss": 0.0008, | |
| "step": 639 | |
| }, | |
| { | |
| "epoch": 0.6826666666666666, | |
| "grad_norm": 0.28806340514043643, | |
| "learning_rate": 1.9027322996480405e-06, | |
| "loss": 0.0057, | |
| "step": 640 | |
| }, | |
| { | |
| "epoch": 0.6837333333333333, | |
| "grad_norm": 0.7926939670917631, | |
| "learning_rate": 1.9021971937168152e-06, | |
| "loss": 0.0159, | |
| "step": 641 | |
| }, | |
| { | |
| "epoch": 0.6848, | |
| "grad_norm": 0.10089339697782138, | |
| "learning_rate": 1.9016606955795846e-06, | |
| "loss": 0.0022, | |
| "step": 642 | |
| }, | |
| { | |
| "epoch": 0.6858666666666666, | |
| "grad_norm": 1.4015949919911506, | |
| "learning_rate": 1.9011228060642346e-06, | |
| "loss": 0.0423, | |
| "step": 643 | |
| }, | |
| { | |
| "epoch": 0.6869333333333333, | |
| "grad_norm": 0.2377784994817877, | |
| "learning_rate": 1.9005835260007969e-06, | |
| "loss": 0.0037, | |
| "step": 644 | |
| }, | |
| { | |
| "epoch": 0.688, | |
| "grad_norm": 0.41763550718320475, | |
| "learning_rate": 1.9000428562214505e-06, | |
| "loss": 0.0066, | |
| "step": 645 | |
| }, | |
| { | |
| "epoch": 0.6890666666666667, | |
| "grad_norm": 0.16240431871680872, | |
| "learning_rate": 1.899500797560518e-06, | |
| "loss": 0.0048, | |
| "step": 646 | |
| }, | |
| { | |
| "epoch": 0.6901333333333334, | |
| "grad_norm": 0.36944281047610233, | |
| "learning_rate": 1.8989573508544653e-06, | |
| "loss": 0.0044, | |
| "step": 647 | |
| }, | |
| { | |
| "epoch": 0.6912, | |
| "grad_norm": 0.048698287672728456, | |
| "learning_rate": 1.8984125169419006e-06, | |
| "loss": 0.001, | |
| "step": 648 | |
| }, | |
| { | |
| "epoch": 0.6922666666666667, | |
| "grad_norm": 1.1741308042050045, | |
| "learning_rate": 1.8978662966635724e-06, | |
| "loss": 0.0275, | |
| "step": 649 | |
| }, | |
| { | |
| "epoch": 0.6933333333333334, | |
| "grad_norm": 1.3558362474002168, | |
| "learning_rate": 1.8973186908623685e-06, | |
| "loss": 0.0205, | |
| "step": 650 | |
| }, | |
| { | |
| "epoch": 0.6933333333333334, | |
| "eval_loss": 0.07789424806833267, | |
| "eval_runtime": 8.3568, | |
| "eval_samples_per_second": 11.966, | |
| "eval_steps_per_second": 5.983, | |
| "step": 650 | |
| }, | |
| { | |
| "epoch": 0.6944, | |
| "grad_norm": 1.7482459975039009, | |
| "learning_rate": 1.8967697003833154e-06, | |
| "loss": 0.0648, | |
| "step": 651 | |
| }, | |
| { | |
| "epoch": 0.6954666666666667, | |
| "grad_norm": 0.9838146620076734, | |
| "learning_rate": 1.8962193260735756e-06, | |
| "loss": 0.0363, | |
| "step": 652 | |
| }, | |
| { | |
| "epoch": 0.6965333333333333, | |
| "grad_norm": 0.21390240495670962, | |
| "learning_rate": 1.895667568782447e-06, | |
| "loss": 0.0024, | |
| "step": 653 | |
| }, | |
| { | |
| "epoch": 0.6976, | |
| "grad_norm": 0.8151337293902924, | |
| "learning_rate": 1.8951144293613618e-06, | |
| "loss": 0.0148, | |
| "step": 654 | |
| }, | |
| { | |
| "epoch": 0.6986666666666667, | |
| "grad_norm": 0.5162306807123138, | |
| "learning_rate": 1.8945599086638854e-06, | |
| "loss": 0.0171, | |
| "step": 655 | |
| }, | |
| { | |
| "epoch": 0.6997333333333333, | |
| "grad_norm": 0.38429318683486613, | |
| "learning_rate": 1.894004007545715e-06, | |
| "loss": 0.0079, | |
| "step": 656 | |
| }, | |
| { | |
| "epoch": 0.7008, | |
| "grad_norm": 0.2911510256599981, | |
| "learning_rate": 1.8934467268646758e-06, | |
| "loss": 0.0072, | |
| "step": 657 | |
| }, | |
| { | |
| "epoch": 0.7018666666666666, | |
| "grad_norm": 0.6637191436854831, | |
| "learning_rate": 1.892888067480725e-06, | |
| "loss": 0.0258, | |
| "step": 658 | |
| }, | |
| { | |
| "epoch": 0.7029333333333333, | |
| "grad_norm": 0.8101059665578735, | |
| "learning_rate": 1.8923280302559442e-06, | |
| "loss": 0.015, | |
| "step": 659 | |
| }, | |
| { | |
| "epoch": 0.704, | |
| "grad_norm": 0.09007455887002334, | |
| "learning_rate": 1.8917666160545443e-06, | |
| "loss": 0.0015, | |
| "step": 660 | |
| }, | |
| { | |
| "epoch": 0.7050666666666666, | |
| "grad_norm": 0.4166713394320213, | |
| "learning_rate": 1.891203825742858e-06, | |
| "loss": 0.0066, | |
| "step": 661 | |
| }, | |
| { | |
| "epoch": 0.7061333333333333, | |
| "grad_norm": 1.140005754244955, | |
| "learning_rate": 1.8906396601893432e-06, | |
| "loss": 0.0296, | |
| "step": 662 | |
| }, | |
| { | |
| "epoch": 0.7072, | |
| "grad_norm": 0.7125664873819846, | |
| "learning_rate": 1.8900741202645807e-06, | |
| "loss": 0.0105, | |
| "step": 663 | |
| }, | |
| { | |
| "epoch": 0.7082666666666667, | |
| "grad_norm": 1.162278687098443, | |
| "learning_rate": 1.8895072068412701e-06, | |
| "loss": 0.0136, | |
| "step": 664 | |
| }, | |
| { | |
| "epoch": 0.7093333333333334, | |
| "grad_norm": 0.12850306398178354, | |
| "learning_rate": 1.8889389207942319e-06, | |
| "loss": 0.0019, | |
| "step": 665 | |
| }, | |
| { | |
| "epoch": 0.7104, | |
| "grad_norm": 0.9709033474128045, | |
| "learning_rate": 1.8883692630004044e-06, | |
| "loss": 0.0346, | |
| "step": 666 | |
| }, | |
| { | |
| "epoch": 0.7114666666666667, | |
| "grad_norm": 0.1236617961891707, | |
| "learning_rate": 1.8877982343388427e-06, | |
| "loss": 0.0019, | |
| "step": 667 | |
| }, | |
| { | |
| "epoch": 0.7125333333333334, | |
| "grad_norm": 0.4869541092375322, | |
| "learning_rate": 1.8872258356907174e-06, | |
| "loss": 0.0161, | |
| "step": 668 | |
| }, | |
| { | |
| "epoch": 0.7136, | |
| "grad_norm": 0.050618181244294486, | |
| "learning_rate": 1.8866520679393125e-06, | |
| "loss": 0.0006, | |
| "step": 669 | |
| }, | |
| { | |
| "epoch": 0.7146666666666667, | |
| "grad_norm": 1.4761081938136003, | |
| "learning_rate": 1.8860769319700258e-06, | |
| "loss": 0.1135, | |
| "step": 670 | |
| }, | |
| { | |
| "epoch": 0.7157333333333333, | |
| "grad_norm": 0.6252382856366319, | |
| "learning_rate": 1.8855004286703657e-06, | |
| "loss": 0.0104, | |
| "step": 671 | |
| }, | |
| { | |
| "epoch": 0.7168, | |
| "grad_norm": 0.6439559554870532, | |
| "learning_rate": 1.8849225589299507e-06, | |
| "loss": 0.0094, | |
| "step": 672 | |
| }, | |
| { | |
| "epoch": 0.7178666666666667, | |
| "grad_norm": 0.28214655901364616, | |
| "learning_rate": 1.8843433236405077e-06, | |
| "loss": 0.0061, | |
| "step": 673 | |
| }, | |
| { | |
| "epoch": 0.7189333333333333, | |
| "grad_norm": 0.5128291981023604, | |
| "learning_rate": 1.8837627236958715e-06, | |
| "loss": 0.033, | |
| "step": 674 | |
| }, | |
| { | |
| "epoch": 0.72, | |
| "grad_norm": 0.7869181765904392, | |
| "learning_rate": 1.8831807599919823e-06, | |
| "loss": 0.0308, | |
| "step": 675 | |
| }, | |
| { | |
| "epoch": 0.7210666666666666, | |
| "grad_norm": 0.006353292310558568, | |
| "learning_rate": 1.8825974334268842e-06, | |
| "loss": 0.0002, | |
| "step": 676 | |
| }, | |
| { | |
| "epoch": 0.7221333333333333, | |
| "grad_norm": 0.014967788496948244, | |
| "learning_rate": 1.8820127449007255e-06, | |
| "loss": 0.0004, | |
| "step": 677 | |
| }, | |
| { | |
| "epoch": 0.7232, | |
| "grad_norm": 0.21859308512940928, | |
| "learning_rate": 1.8814266953157553e-06, | |
| "loss": 0.0055, | |
| "step": 678 | |
| }, | |
| { | |
| "epoch": 0.7242666666666666, | |
| "grad_norm": 1.2461213147088943, | |
| "learning_rate": 1.8808392855763235e-06, | |
| "loss": 0.0371, | |
| "step": 679 | |
| }, | |
| { | |
| "epoch": 0.7253333333333334, | |
| "grad_norm": 0.10500248158730184, | |
| "learning_rate": 1.8802505165888784e-06, | |
| "loss": 0.0017, | |
| "step": 680 | |
| }, | |
| { | |
| "epoch": 0.7264, | |
| "grad_norm": 1.8198780794585319, | |
| "learning_rate": 1.8796603892619665e-06, | |
| "loss": 0.0656, | |
| "step": 681 | |
| }, | |
| { | |
| "epoch": 0.7274666666666667, | |
| "grad_norm": 0.6129129603289553, | |
| "learning_rate": 1.8790689045062297e-06, | |
| "loss": 0.0097, | |
| "step": 682 | |
| }, | |
| { | |
| "epoch": 0.7285333333333334, | |
| "grad_norm": 2.0670625892250705, | |
| "learning_rate": 1.8784760632344043e-06, | |
| "loss": 0.0618, | |
| "step": 683 | |
| }, | |
| { | |
| "epoch": 0.7296, | |
| "grad_norm": 0.040040852797923, | |
| "learning_rate": 1.8778818663613215e-06, | |
| "loss": 0.0006, | |
| "step": 684 | |
| }, | |
| { | |
| "epoch": 0.7306666666666667, | |
| "grad_norm": 0.3734802415610818, | |
| "learning_rate": 1.8772863148039026e-06, | |
| "loss": 0.0086, | |
| "step": 685 | |
| }, | |
| { | |
| "epoch": 0.7317333333333333, | |
| "grad_norm": 2.3829205537157403, | |
| "learning_rate": 1.8766894094811602e-06, | |
| "loss": 0.0727, | |
| "step": 686 | |
| }, | |
| { | |
| "epoch": 0.7328, | |
| "grad_norm": 0.07598476564118967, | |
| "learning_rate": 1.876091151314196e-06, | |
| "loss": 0.0015, | |
| "step": 687 | |
| }, | |
| { | |
| "epoch": 0.7338666666666667, | |
| "grad_norm": 0.8020548938183406, | |
| "learning_rate": 1.8754915412261989e-06, | |
| "loss": 0.0464, | |
| "step": 688 | |
| }, | |
| { | |
| "epoch": 0.7349333333333333, | |
| "grad_norm": 0.9189831756888492, | |
| "learning_rate": 1.8748905801424442e-06, | |
| "loss": 0.0097, | |
| "step": 689 | |
| }, | |
| { | |
| "epoch": 0.736, | |
| "grad_norm": 0.8698201134779201, | |
| "learning_rate": 1.8742882689902916e-06, | |
| "loss": 0.0387, | |
| "step": 690 | |
| }, | |
| { | |
| "epoch": 0.7370666666666666, | |
| "grad_norm": 0.3837850280105085, | |
| "learning_rate": 1.8736846086991853e-06, | |
| "loss": 0.0041, | |
| "step": 691 | |
| }, | |
| { | |
| "epoch": 0.7381333333333333, | |
| "grad_norm": 0.08376766362596819, | |
| "learning_rate": 1.8730796002006498e-06, | |
| "loss": 0.0013, | |
| "step": 692 | |
| }, | |
| { | |
| "epoch": 0.7392, | |
| "grad_norm": 0.8243964566185918, | |
| "learning_rate": 1.8724732444282914e-06, | |
| "loss": 0.0272, | |
| "step": 693 | |
| }, | |
| { | |
| "epoch": 0.7402666666666666, | |
| "grad_norm": 0.06561835665780034, | |
| "learning_rate": 1.8718655423177942e-06, | |
| "loss": 0.0012, | |
| "step": 694 | |
| }, | |
| { | |
| "epoch": 0.7413333333333333, | |
| "grad_norm": 1.9770659144069223, | |
| "learning_rate": 1.8712564948069212e-06, | |
| "loss": 0.1281, | |
| "step": 695 | |
| }, | |
| { | |
| "epoch": 0.7424, | |
| "grad_norm": 0.6808221729580057, | |
| "learning_rate": 1.8706461028355102e-06, | |
| "loss": 0.0278, | |
| "step": 696 | |
| }, | |
| { | |
| "epoch": 0.7434666666666667, | |
| "grad_norm": 0.2805141264349283, | |
| "learning_rate": 1.8700343673454748e-06, | |
| "loss": 0.0057, | |
| "step": 697 | |
| }, | |
| { | |
| "epoch": 0.7445333333333334, | |
| "grad_norm": 1.3630696487065848, | |
| "learning_rate": 1.869421289280801e-06, | |
| "loss": 0.0482, | |
| "step": 698 | |
| }, | |
| { | |
| "epoch": 0.7456, | |
| "grad_norm": 0.45934846960562553, | |
| "learning_rate": 1.8688068695875474e-06, | |
| "loss": 0.0195, | |
| "step": 699 | |
| }, | |
| { | |
| "epoch": 0.7466666666666667, | |
| "grad_norm": 0.8478316453189086, | |
| "learning_rate": 1.8681911092138417e-06, | |
| "loss": 0.022, | |
| "step": 700 | |
| }, | |
| { | |
| "epoch": 0.7466666666666667, | |
| "eval_loss": 0.14599137008190155, | |
| "eval_runtime": 8.3463, | |
| "eval_samples_per_second": 11.981, | |
| "eval_steps_per_second": 5.991, | |
| "step": 700 | |
| }, | |
| { | |
| "epoch": 0.7477333333333334, | |
| "grad_norm": 1.6537827342230196, | |
| "learning_rate": 1.8675740091098817e-06, | |
| "loss": 0.0361, | |
| "step": 701 | |
| }, | |
| { | |
| "epoch": 0.7488, | |
| "grad_norm": 1.3526954464708587, | |
| "learning_rate": 1.8669555702279318e-06, | |
| "loss": 0.0278, | |
| "step": 702 | |
| }, | |
| { | |
| "epoch": 0.7498666666666667, | |
| "grad_norm": 1.15397568692622, | |
| "learning_rate": 1.8663357935223228e-06, | |
| "loss": 0.0287, | |
| "step": 703 | |
| }, | |
| { | |
| "epoch": 0.7509333333333333, | |
| "grad_norm": 0.4320899696852264, | |
| "learning_rate": 1.865714679949449e-06, | |
| "loss": 0.0265, | |
| "step": 704 | |
| }, | |
| { | |
| "epoch": 0.752, | |
| "grad_norm": 0.21985410834860744, | |
| "learning_rate": 1.865092230467769e-06, | |
| "loss": 0.0081, | |
| "step": 705 | |
| }, | |
| { | |
| "epoch": 0.7530666666666667, | |
| "grad_norm": 0.64197353580112, | |
| "learning_rate": 1.8644684460378018e-06, | |
| "loss": 0.0168, | |
| "step": 706 | |
| }, | |
| { | |
| "epoch": 0.7541333333333333, | |
| "grad_norm": 0.49761728799072774, | |
| "learning_rate": 1.863843327622127e-06, | |
| "loss": 0.0396, | |
| "step": 707 | |
| }, | |
| { | |
| "epoch": 0.7552, | |
| "grad_norm": 1.283299911113395, | |
| "learning_rate": 1.8632168761853823e-06, | |
| "loss": 0.0178, | |
| "step": 708 | |
| }, | |
| { | |
| "epoch": 0.7562666666666666, | |
| "grad_norm": 2.118132944346098, | |
| "learning_rate": 1.8625890926942631e-06, | |
| "loss": 0.1543, | |
| "step": 709 | |
| }, | |
| { | |
| "epoch": 0.7573333333333333, | |
| "grad_norm": 0.2694109746423913, | |
| "learning_rate": 1.8619599781175195e-06, | |
| "loss": 0.0049, | |
| "step": 710 | |
| }, | |
| { | |
| "epoch": 0.7584, | |
| "grad_norm": 0.7318430595449652, | |
| "learning_rate": 1.8613295334259559e-06, | |
| "loss": 0.0307, | |
| "step": 711 | |
| }, | |
| { | |
| "epoch": 0.7594666666666666, | |
| "grad_norm": 0.1500358076950247, | |
| "learning_rate": 1.8606977595924293e-06, | |
| "loss": 0.0027, | |
| "step": 712 | |
| }, | |
| { | |
| "epoch": 0.7605333333333333, | |
| "grad_norm": 0.4718961665735485, | |
| "learning_rate": 1.8600646575918484e-06, | |
| "loss": 0.0138, | |
| "step": 713 | |
| }, | |
| { | |
| "epoch": 0.7616, | |
| "grad_norm": 0.8864599535171884, | |
| "learning_rate": 1.85943022840117e-06, | |
| "loss": 0.0442, | |
| "step": 714 | |
| }, | |
| { | |
| "epoch": 0.7626666666666667, | |
| "grad_norm": 0.2217109209467052, | |
| "learning_rate": 1.8587944729994002e-06, | |
| "loss": 0.0045, | |
| "step": 715 | |
| }, | |
| { | |
| "epoch": 0.7637333333333334, | |
| "grad_norm": 0.1856112558053254, | |
| "learning_rate": 1.8581573923675906e-06, | |
| "loss": 0.0035, | |
| "step": 716 | |
| }, | |
| { | |
| "epoch": 0.7648, | |
| "grad_norm": 0.5109471217029353, | |
| "learning_rate": 1.8575189874888392e-06, | |
| "loss": 0.0099, | |
| "step": 717 | |
| }, | |
| { | |
| "epoch": 0.7658666666666667, | |
| "grad_norm": 1.774273478868457, | |
| "learning_rate": 1.856879259348286e-06, | |
| "loss": 0.0653, | |
| "step": 718 | |
| }, | |
| { | |
| "epoch": 0.7669333333333334, | |
| "grad_norm": 0.6357577238575974, | |
| "learning_rate": 1.856238208933114e-06, | |
| "loss": 0.0194, | |
| "step": 719 | |
| }, | |
| { | |
| "epoch": 0.768, | |
| "grad_norm": 1.2519081954903675, | |
| "learning_rate": 1.8555958372325456e-06, | |
| "loss": 0.0445, | |
| "step": 720 | |
| }, | |
| { | |
| "epoch": 0.7690666666666667, | |
| "grad_norm": 0.13216131308199502, | |
| "learning_rate": 1.8549521452378434e-06, | |
| "loss": 0.0027, | |
| "step": 721 | |
| }, | |
| { | |
| "epoch": 0.7701333333333333, | |
| "grad_norm": 2.2932859639163157, | |
| "learning_rate": 1.8543071339423063e-06, | |
| "loss": 0.1572, | |
| "step": 722 | |
| }, | |
| { | |
| "epoch": 0.7712, | |
| "grad_norm": 0.8892398942439078, | |
| "learning_rate": 1.8536608043412696e-06, | |
| "loss": 0.0215, | |
| "step": 723 | |
| }, | |
| { | |
| "epoch": 0.7722666666666667, | |
| "grad_norm": 1.1044212758824195, | |
| "learning_rate": 1.853013157432103e-06, | |
| "loss": 0.0206, | |
| "step": 724 | |
| }, | |
| { | |
| "epoch": 0.7733333333333333, | |
| "grad_norm": 0.04737647613454427, | |
| "learning_rate": 1.8523641942142082e-06, | |
| "loss": 0.0014, | |
| "step": 725 | |
| }, | |
| { | |
| "epoch": 0.7744, | |
| "grad_norm": 1.8740445566312973, | |
| "learning_rate": 1.8517139156890193e-06, | |
| "loss": 0.057, | |
| "step": 726 | |
| }, | |
| { | |
| "epoch": 0.7754666666666666, | |
| "grad_norm": 0.5827727755530225, | |
| "learning_rate": 1.8510623228599994e-06, | |
| "loss": 0.0112, | |
| "step": 727 | |
| }, | |
| { | |
| "epoch": 0.7765333333333333, | |
| "grad_norm": 0.9932722718227635, | |
| "learning_rate": 1.8504094167326394e-06, | |
| "loss": 0.0462, | |
| "step": 728 | |
| }, | |
| { | |
| "epoch": 0.7776, | |
| "grad_norm": 0.2981346688194257, | |
| "learning_rate": 1.8497551983144576e-06, | |
| "loss": 0.0054, | |
| "step": 729 | |
| }, | |
| { | |
| "epoch": 0.7786666666666666, | |
| "grad_norm": 0.48501496823240203, | |
| "learning_rate": 1.8490996686149966e-06, | |
| "loss": 0.0145, | |
| "step": 730 | |
| }, | |
| { | |
| "epoch": 0.7797333333333333, | |
| "grad_norm": 0.785772938987278, | |
| "learning_rate": 1.8484428286458233e-06, | |
| "loss": 0.0135, | |
| "step": 731 | |
| }, | |
| { | |
| "epoch": 0.7808, | |
| "grad_norm": 0.23910637165939902, | |
| "learning_rate": 1.8477846794205257e-06, | |
| "loss": 0.0049, | |
| "step": 732 | |
| }, | |
| { | |
| "epoch": 0.7818666666666667, | |
| "grad_norm": 0.2177932327400783, | |
| "learning_rate": 1.8471252219547124e-06, | |
| "loss": 0.0088, | |
| "step": 733 | |
| }, | |
| { | |
| "epoch": 0.7829333333333334, | |
| "grad_norm": 1.1800699679193265, | |
| "learning_rate": 1.8464644572660113e-06, | |
| "loss": 0.0452, | |
| "step": 734 | |
| }, | |
| { | |
| "epoch": 0.784, | |
| "grad_norm": 2.025992908145484, | |
| "learning_rate": 1.8458023863740666e-06, | |
| "loss": 0.0565, | |
| "step": 735 | |
| }, | |
| { | |
| "epoch": 0.7850666666666667, | |
| "grad_norm": 0.3597458532138365, | |
| "learning_rate": 1.845139010300539e-06, | |
| "loss": 0.0052, | |
| "step": 736 | |
| }, | |
| { | |
| "epoch": 0.7861333333333334, | |
| "grad_norm": 0.23447688879389122, | |
| "learning_rate": 1.8444743300691026e-06, | |
| "loss": 0.0041, | |
| "step": 737 | |
| }, | |
| { | |
| "epoch": 0.7872, | |
| "grad_norm": 1.0217974031018804, | |
| "learning_rate": 1.8438083467054442e-06, | |
| "loss": 0.0174, | |
| "step": 738 | |
| }, | |
| { | |
| "epoch": 0.7882666666666667, | |
| "grad_norm": 0.4407473823580305, | |
| "learning_rate": 1.8431410612372617e-06, | |
| "loss": 0.0065, | |
| "step": 739 | |
| }, | |
| { | |
| "epoch": 0.7893333333333333, | |
| "grad_norm": 0.32606365652237235, | |
| "learning_rate": 1.8424724746942623e-06, | |
| "loss": 0.0072, | |
| "step": 740 | |
| }, | |
| { | |
| "epoch": 0.7904, | |
| "grad_norm": 1.3835298162527605, | |
| "learning_rate": 1.841802588108161e-06, | |
| "loss": 0.012, | |
| "step": 741 | |
| }, | |
| { | |
| "epoch": 0.7914666666666667, | |
| "grad_norm": 0.27234435434149745, | |
| "learning_rate": 1.8411314025126782e-06, | |
| "loss": 0.0043, | |
| "step": 742 | |
| }, | |
| { | |
| "epoch": 0.7925333333333333, | |
| "grad_norm": 0.9264895282601704, | |
| "learning_rate": 1.8404589189435393e-06, | |
| "loss": 0.0177, | |
| "step": 743 | |
| }, | |
| { | |
| "epoch": 0.7936, | |
| "grad_norm": 0.8074935065238816, | |
| "learning_rate": 1.8397851384384734e-06, | |
| "loss": 0.0196, | |
| "step": 744 | |
| }, | |
| { | |
| "epoch": 0.7946666666666666, | |
| "grad_norm": 0.1043654508508842, | |
| "learning_rate": 1.8391100620372097e-06, | |
| "loss": 0.0016, | |
| "step": 745 | |
| }, | |
| { | |
| "epoch": 0.7957333333333333, | |
| "grad_norm": 0.294338685689348, | |
| "learning_rate": 1.8384336907814782e-06, | |
| "loss": 0.0038, | |
| "step": 746 | |
| }, | |
| { | |
| "epoch": 0.7968, | |
| "grad_norm": 1.877458111911435, | |
| "learning_rate": 1.8377560257150058e-06, | |
| "loss": 0.1197, | |
| "step": 747 | |
| }, | |
| { | |
| "epoch": 0.7978666666666666, | |
| "grad_norm": 0.28728205490269343, | |
| "learning_rate": 1.8370770678835173e-06, | |
| "loss": 0.0032, | |
| "step": 748 | |
| }, | |
| { | |
| "epoch": 0.7989333333333334, | |
| "grad_norm": 0.13587158370211505, | |
| "learning_rate": 1.8363968183347311e-06, | |
| "loss": 0.0018, | |
| "step": 749 | |
| }, | |
| { | |
| "epoch": 0.8, | |
| "grad_norm": 0.012187216319295395, | |
| "learning_rate": 1.8357152781183601e-06, | |
| "loss": 0.0004, | |
| "step": 750 | |
| }, | |
| { | |
| "epoch": 0.8, | |
| "eval_loss": 0.12575645744800568, | |
| "eval_runtime": 8.3279, | |
| "eval_samples_per_second": 12.008, | |
| "eval_steps_per_second": 6.004, | |
| "step": 750 | |
| }, | |
| { | |
| "epoch": 0.8010666666666667, | |
| "grad_norm": 0.5959272862031918, | |
| "learning_rate": 1.8350324482861082e-06, | |
| "loss": 0.0089, | |
| "step": 751 | |
| }, | |
| { | |
| "epoch": 0.8021333333333334, | |
| "grad_norm": 0.8599561461029128, | |
| "learning_rate": 1.834348329891669e-06, | |
| "loss": 0.0735, | |
| "step": 752 | |
| }, | |
| { | |
| "epoch": 0.8032, | |
| "grad_norm": 0.3736642755602307, | |
| "learning_rate": 1.8336629239907253e-06, | |
| "loss": 0.0051, | |
| "step": 753 | |
| }, | |
| { | |
| "epoch": 0.8042666666666667, | |
| "grad_norm": 2.1960910655785706, | |
| "learning_rate": 1.8329762316409464e-06, | |
| "loss": 0.0474, | |
| "step": 754 | |
| }, | |
| { | |
| "epoch": 0.8053333333333333, | |
| "grad_norm": 0.23486155369972542, | |
| "learning_rate": 1.8322882539019862e-06, | |
| "loss": 0.0026, | |
| "step": 755 | |
| }, | |
| { | |
| "epoch": 0.8064, | |
| "grad_norm": 0.4135277646156687, | |
| "learning_rate": 1.831598991835483e-06, | |
| "loss": 0.0038, | |
| "step": 756 | |
| }, | |
| { | |
| "epoch": 0.8074666666666667, | |
| "grad_norm": 1.165467690491739, | |
| "learning_rate": 1.8309084465050568e-06, | |
| "loss": 0.0176, | |
| "step": 757 | |
| }, | |
| { | |
| "epoch": 0.8085333333333333, | |
| "grad_norm": 2.02646027680192, | |
| "learning_rate": 1.8302166189763071e-06, | |
| "loss": 0.0831, | |
| "step": 758 | |
| }, | |
| { | |
| "epoch": 0.8096, | |
| "grad_norm": 1.6085867863054608, | |
| "learning_rate": 1.829523510316813e-06, | |
| "loss": 0.0424, | |
| "step": 759 | |
| }, | |
| { | |
| "epoch": 0.8106666666666666, | |
| "grad_norm": 0.08394023384907391, | |
| "learning_rate": 1.8288291215961298e-06, | |
| "loss": 0.0011, | |
| "step": 760 | |
| }, | |
| { | |
| "epoch": 0.8117333333333333, | |
| "grad_norm": 1.5549433129437507, | |
| "learning_rate": 1.8281334538857881e-06, | |
| "loss": 0.0543, | |
| "step": 761 | |
| }, | |
| { | |
| "epoch": 0.8128, | |
| "grad_norm": 1.1958564233447515, | |
| "learning_rate": 1.827436508259293e-06, | |
| "loss": 0.1382, | |
| "step": 762 | |
| }, | |
| { | |
| "epoch": 0.8138666666666666, | |
| "grad_norm": 1.8875089670264504, | |
| "learning_rate": 1.8267382857921207e-06, | |
| "loss": 0.1114, | |
| "step": 763 | |
| }, | |
| { | |
| "epoch": 0.8149333333333333, | |
| "grad_norm": 0.8482532923040282, | |
| "learning_rate": 1.8260387875617183e-06, | |
| "loss": 0.0223, | |
| "step": 764 | |
| }, | |
| { | |
| "epoch": 0.816, | |
| "grad_norm": 0.33106328286533665, | |
| "learning_rate": 1.8253380146475007e-06, | |
| "loss": 0.0047, | |
| "step": 765 | |
| }, | |
| { | |
| "epoch": 0.8170666666666667, | |
| "grad_norm": 0.7790924737666333, | |
| "learning_rate": 1.8246359681308512e-06, | |
| "loss": 0.0542, | |
| "step": 766 | |
| }, | |
| { | |
| "epoch": 0.8181333333333334, | |
| "grad_norm": 1.2138816360719327, | |
| "learning_rate": 1.8239326490951171e-06, | |
| "loss": 0.0637, | |
| "step": 767 | |
| }, | |
| { | |
| "epoch": 0.8192, | |
| "grad_norm": 0.7481846968226915, | |
| "learning_rate": 1.82322805862561e-06, | |
| "loss": 0.0241, | |
| "step": 768 | |
| }, | |
| { | |
| "epoch": 0.8202666666666667, | |
| "grad_norm": 0.49646729395998357, | |
| "learning_rate": 1.822522197809603e-06, | |
| "loss": 0.0119, | |
| "step": 769 | |
| }, | |
| { | |
| "epoch": 0.8213333333333334, | |
| "grad_norm": 0.6802325293844261, | |
| "learning_rate": 1.8218150677363308e-06, | |
| "loss": 0.0157, | |
| "step": 770 | |
| }, | |
| { | |
| "epoch": 0.8224, | |
| "grad_norm": 0.3203206951174304, | |
| "learning_rate": 1.8211066694969851e-06, | |
| "loss": 0.0053, | |
| "step": 771 | |
| }, | |
| { | |
| "epoch": 0.8234666666666667, | |
| "grad_norm": 0.7237727939102068, | |
| "learning_rate": 1.8203970041847156e-06, | |
| "loss": 0.0196, | |
| "step": 772 | |
| }, | |
| { | |
| "epoch": 0.8245333333333333, | |
| "grad_norm": 0.5815456038630266, | |
| "learning_rate": 1.8196860728946267e-06, | |
| "loss": 0.0192, | |
| "step": 773 | |
| }, | |
| { | |
| "epoch": 0.8256, | |
| "grad_norm": 0.7384144199958987, | |
| "learning_rate": 1.8189738767237765e-06, | |
| "loss": 0.0167, | |
| "step": 774 | |
| }, | |
| { | |
| "epoch": 0.8266666666666667, | |
| "grad_norm": 0.8452498499854597, | |
| "learning_rate": 1.8182604167711754e-06, | |
| "loss": 0.0321, | |
| "step": 775 | |
| }, | |
| { | |
| "epoch": 0.8277333333333333, | |
| "grad_norm": 1.1155855351659207, | |
| "learning_rate": 1.8175456941377836e-06, | |
| "loss": 0.0908, | |
| "step": 776 | |
| }, | |
| { | |
| "epoch": 0.8288, | |
| "grad_norm": 0.5831585770270585, | |
| "learning_rate": 1.8168297099265092e-06, | |
| "loss": 0.0178, | |
| "step": 777 | |
| }, | |
| { | |
| "epoch": 0.8298666666666666, | |
| "grad_norm": 0.5159803955898651, | |
| "learning_rate": 1.8161124652422087e-06, | |
| "loss": 0.0509, | |
| "step": 778 | |
| }, | |
| { | |
| "epoch": 0.8309333333333333, | |
| "grad_norm": 0.39455087113487614, | |
| "learning_rate": 1.8153939611916815e-06, | |
| "loss": 0.0202, | |
| "step": 779 | |
| }, | |
| { | |
| "epoch": 0.832, | |
| "grad_norm": 0.4893148909516496, | |
| "learning_rate": 1.8146741988836724e-06, | |
| "loss": 0.0126, | |
| "step": 780 | |
| }, | |
| { | |
| "epoch": 0.8330666666666666, | |
| "grad_norm": 0.3944238669973449, | |
| "learning_rate": 1.8139531794288668e-06, | |
| "loss": 0.0089, | |
| "step": 781 | |
| }, | |
| { | |
| "epoch": 0.8341333333333333, | |
| "grad_norm": 1.3203783416668555, | |
| "learning_rate": 1.8132309039398898e-06, | |
| "loss": 0.044, | |
| "step": 782 | |
| }, | |
| { | |
| "epoch": 0.8352, | |
| "grad_norm": 0.3733033862606873, | |
| "learning_rate": 1.8125073735313056e-06, | |
| "loss": 0.0119, | |
| "step": 783 | |
| }, | |
| { | |
| "epoch": 0.8362666666666667, | |
| "grad_norm": 0.4157990871864292, | |
| "learning_rate": 1.8117825893196143e-06, | |
| "loss": 0.0171, | |
| "step": 784 | |
| }, | |
| { | |
| "epoch": 0.8373333333333334, | |
| "grad_norm": 0.9873948651016035, | |
| "learning_rate": 1.8110565524232508e-06, | |
| "loss": 0.0418, | |
| "step": 785 | |
| }, | |
| { | |
| "epoch": 0.8384, | |
| "grad_norm": 0.373128353176687, | |
| "learning_rate": 1.8103292639625835e-06, | |
| "loss": 0.0082, | |
| "step": 786 | |
| }, | |
| { | |
| "epoch": 0.8394666666666667, | |
| "grad_norm": 0.4700397236766773, | |
| "learning_rate": 1.8096007250599113e-06, | |
| "loss": 0.0094, | |
| "step": 787 | |
| }, | |
| { | |
| "epoch": 0.8405333333333334, | |
| "grad_norm": 1.1544212720503313, | |
| "learning_rate": 1.8088709368394634e-06, | |
| "loss": 0.0306, | |
| "step": 788 | |
| }, | |
| { | |
| "epoch": 0.8416, | |
| "grad_norm": 0.31405851779047433, | |
| "learning_rate": 1.808139900427397e-06, | |
| "loss": 0.0078, | |
| "step": 789 | |
| }, | |
| { | |
| "epoch": 0.8426666666666667, | |
| "grad_norm": 1.7290262085984993, | |
| "learning_rate": 1.8074076169517943e-06, | |
| "loss": 0.055, | |
| "step": 790 | |
| }, | |
| { | |
| "epoch": 0.8437333333333333, | |
| "grad_norm": 1.4623456102740366, | |
| "learning_rate": 1.8066740875426634e-06, | |
| "loss": 0.0607, | |
| "step": 791 | |
| }, | |
| { | |
| "epoch": 0.8448, | |
| "grad_norm": 0.4213527888839155, | |
| "learning_rate": 1.805939313331934e-06, | |
| "loss": 0.0078, | |
| "step": 792 | |
| }, | |
| { | |
| "epoch": 0.8458666666666667, | |
| "grad_norm": 0.8697053625190254, | |
| "learning_rate": 1.8052032954534564e-06, | |
| "loss": 0.0447, | |
| "step": 793 | |
| }, | |
| { | |
| "epoch": 0.8469333333333333, | |
| "grad_norm": 0.07002893438915347, | |
| "learning_rate": 1.8044660350430017e-06, | |
| "loss": 0.0017, | |
| "step": 794 | |
| }, | |
| { | |
| "epoch": 0.848, | |
| "grad_norm": 0.4633257884238649, | |
| "learning_rate": 1.8037275332382564e-06, | |
| "loss": 0.0084, | |
| "step": 795 | |
| }, | |
| { | |
| "epoch": 0.8490666666666666, | |
| "grad_norm": 1.3124423563701477, | |
| "learning_rate": 1.8029877911788241e-06, | |
| "loss": 0.0251, | |
| "step": 796 | |
| }, | |
| { | |
| "epoch": 0.8501333333333333, | |
| "grad_norm": 1.1207872973331625, | |
| "learning_rate": 1.802246810006221e-06, | |
| "loss": 0.0292, | |
| "step": 797 | |
| }, | |
| { | |
| "epoch": 0.8512, | |
| "grad_norm": 0.49388843139638594, | |
| "learning_rate": 1.8015045908638768e-06, | |
| "loss": 0.0416, | |
| "step": 798 | |
| }, | |
| { | |
| "epoch": 0.8522666666666666, | |
| "grad_norm": 0.35403955364230993, | |
| "learning_rate": 1.8007611348971307e-06, | |
| "loss": 0.0127, | |
| "step": 799 | |
| }, | |
| { | |
| "epoch": 0.8533333333333334, | |
| "grad_norm": 0.5034914729242231, | |
| "learning_rate": 1.8000164432532304e-06, | |
| "loss": 0.012, | |
| "step": 800 | |
| }, | |
| { | |
| "epoch": 0.8533333333333334, | |
| "eval_loss": 0.053370095789432526, | |
| "eval_runtime": 8.3092, | |
| "eval_samples_per_second": 12.035, | |
| "eval_steps_per_second": 6.017, | |
| "step": 800 | |
| }, | |
| { | |
| "epoch": 0.8544, | |
| "grad_norm": 0.36895224014402334, | |
| "learning_rate": 1.7992705170813306e-06, | |
| "loss": 0.0078, | |
| "step": 801 | |
| }, | |
| { | |
| "epoch": 0.8554666666666667, | |
| "grad_norm": 0.8252968745608963, | |
| "learning_rate": 1.7985233575324914e-06, | |
| "loss": 0.0272, | |
| "step": 802 | |
| }, | |
| { | |
| "epoch": 0.8565333333333334, | |
| "grad_norm": 1.1763097545031713, | |
| "learning_rate": 1.7977749657596758e-06, | |
| "loss": 0.0344, | |
| "step": 803 | |
| }, | |
| { | |
| "epoch": 0.8576, | |
| "grad_norm": 0.5414117222730287, | |
| "learning_rate": 1.7970253429177476e-06, | |
| "loss": 0.0099, | |
| "step": 804 | |
| }, | |
| { | |
| "epoch": 0.8586666666666667, | |
| "grad_norm": 1.2355141437660309, | |
| "learning_rate": 1.796274490163472e-06, | |
| "loss": 0.0879, | |
| "step": 805 | |
| }, | |
| { | |
| "epoch": 0.8597333333333333, | |
| "grad_norm": 0.5127741675009583, | |
| "learning_rate": 1.7955224086555105e-06, | |
| "loss": 0.0078, | |
| "step": 806 | |
| }, | |
| { | |
| "epoch": 0.8608, | |
| "grad_norm": 1.8632872491399184, | |
| "learning_rate": 1.7947690995544216e-06, | |
| "loss": 0.1231, | |
| "step": 807 | |
| }, | |
| { | |
| "epoch": 0.8618666666666667, | |
| "grad_norm": 0.3007814403727227, | |
| "learning_rate": 1.7940145640226581e-06, | |
| "loss": 0.0044, | |
| "step": 808 | |
| }, | |
| { | |
| "epoch": 0.8629333333333333, | |
| "grad_norm": 0.10168799783835121, | |
| "learning_rate": 1.7932588032245643e-06, | |
| "loss": 0.0017, | |
| "step": 809 | |
| }, | |
| { | |
| "epoch": 0.864, | |
| "grad_norm": 0.307820320152951, | |
| "learning_rate": 1.7925018183263769e-06, | |
| "loss": 0.0074, | |
| "step": 810 | |
| }, | |
| { | |
| "epoch": 0.8650666666666667, | |
| "grad_norm": 0.5182017885407396, | |
| "learning_rate": 1.7917436104962204e-06, | |
| "loss": 0.01, | |
| "step": 811 | |
| }, | |
| { | |
| "epoch": 0.8661333333333333, | |
| "grad_norm": 0.32253536427501683, | |
| "learning_rate": 1.7909841809041065e-06, | |
| "loss": 0.0187, | |
| "step": 812 | |
| }, | |
| { | |
| "epoch": 0.8672, | |
| "grad_norm": 0.34005533079953526, | |
| "learning_rate": 1.790223530721933e-06, | |
| "loss": 0.0057, | |
| "step": 813 | |
| }, | |
| { | |
| "epoch": 0.8682666666666666, | |
| "grad_norm": 0.1909316693569716, | |
| "learning_rate": 1.7894616611234806e-06, | |
| "loss": 0.0043, | |
| "step": 814 | |
| }, | |
| { | |
| "epoch": 0.8693333333333333, | |
| "grad_norm": 1.478335175372691, | |
| "learning_rate": 1.7886985732844114e-06, | |
| "loss": 0.0501, | |
| "step": 815 | |
| }, | |
| { | |
| "epoch": 0.8704, | |
| "grad_norm": 1.1716937815295259, | |
| "learning_rate": 1.787934268382268e-06, | |
| "loss": 0.0335, | |
| "step": 816 | |
| }, | |
| { | |
| "epoch": 0.8714666666666666, | |
| "grad_norm": 0.05439033142980008, | |
| "learning_rate": 1.7871687475964711e-06, | |
| "loss": 0.0013, | |
| "step": 817 | |
| }, | |
| { | |
| "epoch": 0.8725333333333334, | |
| "grad_norm": 0.536222083547284, | |
| "learning_rate": 1.7864020121083171e-06, | |
| "loss": 0.0138, | |
| "step": 818 | |
| }, | |
| { | |
| "epoch": 0.8736, | |
| "grad_norm": 1.3458359629286443, | |
| "learning_rate": 1.785634063100978e-06, | |
| "loss": 0.0385, | |
| "step": 819 | |
| }, | |
| { | |
| "epoch": 0.8746666666666667, | |
| "grad_norm": 1.3649235702755, | |
| "learning_rate": 1.784864901759497e-06, | |
| "loss": 0.0339, | |
| "step": 820 | |
| }, | |
| { | |
| "epoch": 0.8757333333333334, | |
| "grad_norm": 0.30027259568249803, | |
| "learning_rate": 1.7840945292707885e-06, | |
| "loss": 0.0072, | |
| "step": 821 | |
| }, | |
| { | |
| "epoch": 0.8768, | |
| "grad_norm": 1.3243107032449952, | |
| "learning_rate": 1.7833229468236366e-06, | |
| "loss": 0.1008, | |
| "step": 822 | |
| }, | |
| { | |
| "epoch": 0.8778666666666667, | |
| "grad_norm": 0.13681447172171157, | |
| "learning_rate": 1.7825501556086917e-06, | |
| "loss": 0.0036, | |
| "step": 823 | |
| }, | |
| { | |
| "epoch": 0.8789333333333333, | |
| "grad_norm": 0.5040166624199399, | |
| "learning_rate": 1.78177615681847e-06, | |
| "loss": 0.0099, | |
| "step": 824 | |
| }, | |
| { | |
| "epoch": 0.88, | |
| "grad_norm": 0.8191446395314659, | |
| "learning_rate": 1.7810009516473508e-06, | |
| "loss": 0.0528, | |
| "step": 825 | |
| }, | |
| { | |
| "epoch": 0.8810666666666667, | |
| "grad_norm": 0.6656923642458409, | |
| "learning_rate": 1.780224541291575e-06, | |
| "loss": 0.0058, | |
| "step": 826 | |
| }, | |
| { | |
| "epoch": 0.8821333333333333, | |
| "grad_norm": 0.07523140261740402, | |
| "learning_rate": 1.779446926949244e-06, | |
| "loss": 0.0028, | |
| "step": 827 | |
| }, | |
| { | |
| "epoch": 0.8832, | |
| "grad_norm": 0.7327408060072352, | |
| "learning_rate": 1.7786681098203155e-06, | |
| "loss": 0.0243, | |
| "step": 828 | |
| }, | |
| { | |
| "epoch": 0.8842666666666666, | |
| "grad_norm": 0.5688924217563622, | |
| "learning_rate": 1.7778880911066047e-06, | |
| "loss": 0.0283, | |
| "step": 829 | |
| }, | |
| { | |
| "epoch": 0.8853333333333333, | |
| "grad_norm": 0.20295904776689908, | |
| "learning_rate": 1.7771068720117808e-06, | |
| "loss": 0.0038, | |
| "step": 830 | |
| }, | |
| { | |
| "epoch": 0.8864, | |
| "grad_norm": 0.15585420550276582, | |
| "learning_rate": 1.7763244537413649e-06, | |
| "loss": 0.0028, | |
| "step": 831 | |
| }, | |
| { | |
| "epoch": 0.8874666666666666, | |
| "grad_norm": 0.9312786557049378, | |
| "learning_rate": 1.7755408375027284e-06, | |
| "loss": 0.0131, | |
| "step": 832 | |
| }, | |
| { | |
| "epoch": 0.8885333333333333, | |
| "grad_norm": 1.292940050593777, | |
| "learning_rate": 1.7747560245050926e-06, | |
| "loss": 0.0547, | |
| "step": 833 | |
| }, | |
| { | |
| "epoch": 0.8896, | |
| "grad_norm": 0.47924657994827013, | |
| "learning_rate": 1.7739700159595234e-06, | |
| "loss": 0.0109, | |
| "step": 834 | |
| }, | |
| { | |
| "epoch": 0.8906666666666667, | |
| "grad_norm": 0.6959830731874318, | |
| "learning_rate": 1.7731828130789338e-06, | |
| "loss": 0.0117, | |
| "step": 835 | |
| }, | |
| { | |
| "epoch": 0.8917333333333334, | |
| "grad_norm": 0.08123142159922864, | |
| "learning_rate": 1.772394417078078e-06, | |
| "loss": 0.003, | |
| "step": 836 | |
| }, | |
| { | |
| "epoch": 0.8928, | |
| "grad_norm": 0.07894197690380898, | |
| "learning_rate": 1.7716048291735532e-06, | |
| "loss": 0.0029, | |
| "step": 837 | |
| }, | |
| { | |
| "epoch": 0.8938666666666667, | |
| "grad_norm": 0.26682915515866196, | |
| "learning_rate": 1.7708140505837942e-06, | |
| "loss": 0.0041, | |
| "step": 838 | |
| }, | |
| { | |
| "epoch": 0.8949333333333334, | |
| "grad_norm": 0.7307717914383901, | |
| "learning_rate": 1.7700220825290733e-06, | |
| "loss": 0.0593, | |
| "step": 839 | |
| }, | |
| { | |
| "epoch": 0.896, | |
| "grad_norm": 0.5459164968650944, | |
| "learning_rate": 1.7692289262314999e-06, | |
| "loss": 0.0078, | |
| "step": 840 | |
| }, | |
| { | |
| "epoch": 0.8970666666666667, | |
| "grad_norm": 0.6136665907387636, | |
| "learning_rate": 1.7684345829150151e-06, | |
| "loss": 0.0143, | |
| "step": 841 | |
| }, | |
| { | |
| "epoch": 0.8981333333333333, | |
| "grad_norm": 0.029118313370510067, | |
| "learning_rate": 1.767639053805393e-06, | |
| "loss": 0.0008, | |
| "step": 842 | |
| }, | |
| { | |
| "epoch": 0.8992, | |
| "grad_norm": 0.13813382275007977, | |
| "learning_rate": 1.7668423401302369e-06, | |
| "loss": 0.003, | |
| "step": 843 | |
| }, | |
| { | |
| "epoch": 0.9002666666666667, | |
| "grad_norm": 0.6157084116148966, | |
| "learning_rate": 1.766044443118978e-06, | |
| "loss": 0.044, | |
| "step": 844 | |
| }, | |
| { | |
| "epoch": 0.9013333333333333, | |
| "grad_norm": 2.062922045507839, | |
| "learning_rate": 1.765245364002874e-06, | |
| "loss": 0.0558, | |
| "step": 845 | |
| }, | |
| { | |
| "epoch": 0.9024, | |
| "grad_norm": 0.7371080849477383, | |
| "learning_rate": 1.7644451040150066e-06, | |
| "loss": 0.0132, | |
| "step": 846 | |
| }, | |
| { | |
| "epoch": 0.9034666666666666, | |
| "grad_norm": 0.7773691013862728, | |
| "learning_rate": 1.7636436643902793e-06, | |
| "loss": 0.0205, | |
| "step": 847 | |
| }, | |
| { | |
| "epoch": 0.9045333333333333, | |
| "grad_norm": 1.6905175037093625, | |
| "learning_rate": 1.7628410463654163e-06, | |
| "loss": 0.0389, | |
| "step": 848 | |
| }, | |
| { | |
| "epoch": 0.9056, | |
| "grad_norm": 0.06391501037524207, | |
| "learning_rate": 1.7620372511789604e-06, | |
| "loss": 0.0016, | |
| "step": 849 | |
| }, | |
| { | |
| "epoch": 0.9066666666666666, | |
| "grad_norm": 0.23754507243207357, | |
| "learning_rate": 1.7612322800712704e-06, | |
| "loss": 0.0043, | |
| "step": 850 | |
| }, | |
| { | |
| "epoch": 0.9066666666666666, | |
| "eval_loss": 0.06493183970451355, | |
| "eval_runtime": 9.2558, | |
| "eval_samples_per_second": 10.804, | |
| "eval_steps_per_second": 5.402, | |
| "step": 850 | |
| }, | |
| { | |
| "epoch": 0.9077333333333333, | |
| "grad_norm": 0.11522491154504028, | |
| "learning_rate": 1.7604261342845205e-06, | |
| "loss": 0.0033, | |
| "step": 851 | |
| }, | |
| { | |
| "epoch": 0.9088, | |
| "grad_norm": 0.10544553514498471, | |
| "learning_rate": 1.7596188150626963e-06, | |
| "loss": 0.0031, | |
| "step": 852 | |
| }, | |
| { | |
| "epoch": 0.9098666666666667, | |
| "grad_norm": 0.7103429756853613, | |
| "learning_rate": 1.7588103236515954e-06, | |
| "loss": 0.0361, | |
| "step": 853 | |
| }, | |
| { | |
| "epoch": 0.9109333333333334, | |
| "grad_norm": 0.7428779821661828, | |
| "learning_rate": 1.7580006612988238e-06, | |
| "loss": 0.0604, | |
| "step": 854 | |
| }, | |
| { | |
| "epoch": 0.912, | |
| "grad_norm": 1.3285680107698499, | |
| "learning_rate": 1.7571898292537943e-06, | |
| "loss": 0.0248, | |
| "step": 855 | |
| }, | |
| { | |
| "epoch": 0.9130666666666667, | |
| "grad_norm": 0.2700284204147992, | |
| "learning_rate": 1.7563778287677247e-06, | |
| "loss": 0.0047, | |
| "step": 856 | |
| }, | |
| { | |
| "epoch": 0.9141333333333334, | |
| "grad_norm": 0.4285906295736961, | |
| "learning_rate": 1.7555646610936357e-06, | |
| "loss": 0.0132, | |
| "step": 857 | |
| }, | |
| { | |
| "epoch": 0.9152, | |
| "grad_norm": 0.817481863958403, | |
| "learning_rate": 1.7547503274863496e-06, | |
| "loss": 0.0393, | |
| "step": 858 | |
| }, | |
| { | |
| "epoch": 0.9162666666666667, | |
| "grad_norm": 0.8000548344661702, | |
| "learning_rate": 1.7539348292024878e-06, | |
| "loss": 0.0146, | |
| "step": 859 | |
| }, | |
| { | |
| "epoch": 0.9173333333333333, | |
| "grad_norm": 0.5004377055556393, | |
| "learning_rate": 1.7531181675004683e-06, | |
| "loss": 0.0094, | |
| "step": 860 | |
| }, | |
| { | |
| "epoch": 0.9184, | |
| "grad_norm": 0.4818274803342577, | |
| "learning_rate": 1.7523003436405054e-06, | |
| "loss": 0.0088, | |
| "step": 861 | |
| }, | |
| { | |
| "epoch": 0.9194666666666667, | |
| "grad_norm": 0.07482480348938156, | |
| "learning_rate": 1.7514813588846059e-06, | |
| "loss": 0.0032, | |
| "step": 862 | |
| }, | |
| { | |
| "epoch": 0.9205333333333333, | |
| "grad_norm": 0.481044423432111, | |
| "learning_rate": 1.750661214496568e-06, | |
| "loss": 0.0144, | |
| "step": 863 | |
| }, | |
| { | |
| "epoch": 0.9216, | |
| "grad_norm": 0.4984826627914621, | |
| "learning_rate": 1.7498399117419807e-06, | |
| "loss": 0.0224, | |
| "step": 864 | |
| }, | |
| { | |
| "epoch": 0.9226666666666666, | |
| "grad_norm": 1.1474206429314626, | |
| "learning_rate": 1.7490174518882186e-06, | |
| "loss": 0.0526, | |
| "step": 865 | |
| }, | |
| { | |
| "epoch": 0.9237333333333333, | |
| "grad_norm": 0.9434708879125293, | |
| "learning_rate": 1.7481938362044428e-06, | |
| "loss": 0.0311, | |
| "step": 866 | |
| }, | |
| { | |
| "epoch": 0.9248, | |
| "grad_norm": 0.3535353322476962, | |
| "learning_rate": 1.7473690659615985e-06, | |
| "loss": 0.0083, | |
| "step": 867 | |
| }, | |
| { | |
| "epoch": 0.9258666666666666, | |
| "grad_norm": 0.9233610937074402, | |
| "learning_rate": 1.7465431424324115e-06, | |
| "loss": 0.021, | |
| "step": 868 | |
| }, | |
| { | |
| "epoch": 0.9269333333333334, | |
| "grad_norm": 0.0381949887798563, | |
| "learning_rate": 1.7457160668913882e-06, | |
| "loss": 0.0008, | |
| "step": 869 | |
| }, | |
| { | |
| "epoch": 0.928, | |
| "grad_norm": 0.10475509463522734, | |
| "learning_rate": 1.744887840614812e-06, | |
| "loss": 0.0042, | |
| "step": 870 | |
| }, | |
| { | |
| "epoch": 0.9290666666666667, | |
| "grad_norm": 1.097369465053356, | |
| "learning_rate": 1.7440584648807422e-06, | |
| "loss": 0.0226, | |
| "step": 871 | |
| }, | |
| { | |
| "epoch": 0.9301333333333334, | |
| "grad_norm": 0.8034539747593563, | |
| "learning_rate": 1.743227940969012e-06, | |
| "loss": 0.0139, | |
| "step": 872 | |
| }, | |
| { | |
| "epoch": 0.9312, | |
| "grad_norm": 1.5098893310606223, | |
| "learning_rate": 1.7423962701612264e-06, | |
| "loss": 0.0494, | |
| "step": 873 | |
| }, | |
| { | |
| "epoch": 0.9322666666666667, | |
| "grad_norm": 1.183787985459629, | |
| "learning_rate": 1.7415634537407602e-06, | |
| "loss": 0.0324, | |
| "step": 874 | |
| }, | |
| { | |
| "epoch": 0.9333333333333333, | |
| "grad_norm": 0.9869556179312732, | |
| "learning_rate": 1.7407294929927558e-06, | |
| "loss": 0.0293, | |
| "step": 875 | |
| }, | |
| { | |
| "epoch": 0.9344, | |
| "grad_norm": 1.307413794562261, | |
| "learning_rate": 1.739894389204122e-06, | |
| "loss": 0.0174, | |
| "step": 876 | |
| }, | |
| { | |
| "epoch": 0.9354666666666667, | |
| "grad_norm": 0.6586306424965217, | |
| "learning_rate": 1.7390581436635308e-06, | |
| "loss": 0.0197, | |
| "step": 877 | |
| }, | |
| { | |
| "epoch": 0.9365333333333333, | |
| "grad_norm": 0.4043924214860192, | |
| "learning_rate": 1.738220757661416e-06, | |
| "loss": 0.0054, | |
| "step": 878 | |
| }, | |
| { | |
| "epoch": 0.9376, | |
| "grad_norm": 0.5088216345136679, | |
| "learning_rate": 1.7373822324899724e-06, | |
| "loss": 0.0155, | |
| "step": 879 | |
| }, | |
| { | |
| "epoch": 0.9386666666666666, | |
| "grad_norm": 2.1231817727610176, | |
| "learning_rate": 1.736542569443151e-06, | |
| "loss": 0.0648, | |
| "step": 880 | |
| }, | |
| { | |
| "epoch": 0.9397333333333333, | |
| "grad_norm": 0.844118384711583, | |
| "learning_rate": 1.7357017698166604e-06, | |
| "loss": 0.0302, | |
| "step": 881 | |
| }, | |
| { | |
| "epoch": 0.9408, | |
| "grad_norm": 0.06773963213315144, | |
| "learning_rate": 1.7348598349079616e-06, | |
| "loss": 0.0026, | |
| "step": 882 | |
| }, | |
| { | |
| "epoch": 0.9418666666666666, | |
| "grad_norm": 0.520985003208029, | |
| "learning_rate": 1.734016766016269e-06, | |
| "loss": 0.01, | |
| "step": 883 | |
| }, | |
| { | |
| "epoch": 0.9429333333333333, | |
| "grad_norm": 0.6766732414862024, | |
| "learning_rate": 1.7331725644425453e-06, | |
| "loss": 0.0227, | |
| "step": 884 | |
| }, | |
| { | |
| "epoch": 0.944, | |
| "grad_norm": 0.19169654682905016, | |
| "learning_rate": 1.732327231489502e-06, | |
| "loss": 0.0069, | |
| "step": 885 | |
| }, | |
| { | |
| "epoch": 0.9450666666666667, | |
| "grad_norm": 0.5739250700621576, | |
| "learning_rate": 1.7314807684615965e-06, | |
| "loss": 0.0113, | |
| "step": 886 | |
| }, | |
| { | |
| "epoch": 0.9461333333333334, | |
| "grad_norm": 2.589012811817353, | |
| "learning_rate": 1.7306331766650298e-06, | |
| "loss": 0.0453, | |
| "step": 887 | |
| }, | |
| { | |
| "epoch": 0.9472, | |
| "grad_norm": 2.3283272194877607, | |
| "learning_rate": 1.7297844574077445e-06, | |
| "loss": 0.0512, | |
| "step": 888 | |
| }, | |
| { | |
| "epoch": 0.9482666666666667, | |
| "grad_norm": 0.08031806368889559, | |
| "learning_rate": 1.7289346119994234e-06, | |
| "loss": 0.0021, | |
| "step": 889 | |
| }, | |
| { | |
| "epoch": 0.9493333333333334, | |
| "grad_norm": 0.8282674805029137, | |
| "learning_rate": 1.7280836417514873e-06, | |
| "loss": 0.0229, | |
| "step": 890 | |
| }, | |
| { | |
| "epoch": 0.9504, | |
| "grad_norm": 0.5500672651045168, | |
| "learning_rate": 1.7272315479770923e-06, | |
| "loss": 0.015, | |
| "step": 891 | |
| }, | |
| { | |
| "epoch": 0.9514666666666667, | |
| "grad_norm": 0.7803183849599556, | |
| "learning_rate": 1.7263783319911282e-06, | |
| "loss": 0.0176, | |
| "step": 892 | |
| }, | |
| { | |
| "epoch": 0.9525333333333333, | |
| "grad_norm": 0.8919164411124452, | |
| "learning_rate": 1.7255239951102167e-06, | |
| "loss": 0.09, | |
| "step": 893 | |
| }, | |
| { | |
| "epoch": 0.9536, | |
| "grad_norm": 0.8799607735287165, | |
| "learning_rate": 1.7246685386527096e-06, | |
| "loss": 0.0235, | |
| "step": 894 | |
| }, | |
| { | |
| "epoch": 0.9546666666666667, | |
| "grad_norm": 0.5384817024411757, | |
| "learning_rate": 1.7238119639386855e-06, | |
| "loss": 0.0121, | |
| "step": 895 | |
| }, | |
| { | |
| "epoch": 0.9557333333333333, | |
| "grad_norm": 0.12014693936874205, | |
| "learning_rate": 1.7229542722899493e-06, | |
| "loss": 0.0024, | |
| "step": 896 | |
| }, | |
| { | |
| "epoch": 0.9568, | |
| "grad_norm": 0.827858735368603, | |
| "learning_rate": 1.7220954650300292e-06, | |
| "loss": 0.0617, | |
| "step": 897 | |
| }, | |
| { | |
| "epoch": 0.9578666666666666, | |
| "grad_norm": 0.6525540756770545, | |
| "learning_rate": 1.721235543484175e-06, | |
| "loss": 0.0242, | |
| "step": 898 | |
| }, | |
| { | |
| "epoch": 0.9589333333333333, | |
| "grad_norm": 0.44614571143621745, | |
| "learning_rate": 1.720374508979356e-06, | |
| "loss": 0.0112, | |
| "step": 899 | |
| }, | |
| { | |
| "epoch": 0.96, | |
| "grad_norm": 0.7043329837387845, | |
| "learning_rate": 1.7195123628442587e-06, | |
| "loss": 0.0198, | |
| "step": 900 | |
| }, | |
| { | |
| "epoch": 0.96, | |
| "eval_loss": 0.06702824681997299, | |
| "eval_runtime": 8.4156, | |
| "eval_samples_per_second": 11.883, | |
| "eval_steps_per_second": 5.941, | |
| "step": 900 | |
| }, | |
| { | |
| "epoch": 0.9610666666666666, | |
| "grad_norm": 0.7201943038229085, | |
| "learning_rate": 1.7186491064092855e-06, | |
| "loss": 0.0453, | |
| "step": 901 | |
| }, | |
| { | |
| "epoch": 0.9621333333333333, | |
| "grad_norm": 1.6075880142157002, | |
| "learning_rate": 1.7177847410065513e-06, | |
| "loss": 0.0521, | |
| "step": 902 | |
| }, | |
| { | |
| "epoch": 0.9632, | |
| "grad_norm": 0.4452359083266732, | |
| "learning_rate": 1.7169192679698834e-06, | |
| "loss": 0.0125, | |
| "step": 903 | |
| }, | |
| { | |
| "epoch": 0.9642666666666667, | |
| "grad_norm": 0.44141821014464877, | |
| "learning_rate": 1.7160526886348174e-06, | |
| "loss": 0.0168, | |
| "step": 904 | |
| }, | |
| { | |
| "epoch": 0.9653333333333334, | |
| "grad_norm": 0.3041218639469686, | |
| "learning_rate": 1.7151850043385965e-06, | |
| "loss": 0.0092, | |
| "step": 905 | |
| }, | |
| { | |
| "epoch": 0.9664, | |
| "grad_norm": 0.847915323435404, | |
| "learning_rate": 1.7143162164201686e-06, | |
| "loss": 0.0368, | |
| "step": 906 | |
| }, | |
| { | |
| "epoch": 0.9674666666666667, | |
| "grad_norm": 1.6488620050289835, | |
| "learning_rate": 1.7134463262201853e-06, | |
| "loss": 0.0506, | |
| "step": 907 | |
| }, | |
| { | |
| "epoch": 0.9685333333333334, | |
| "grad_norm": 1.4437731473777529, | |
| "learning_rate": 1.7125753350809987e-06, | |
| "loss": 0.0512, | |
| "step": 908 | |
| }, | |
| { | |
| "epoch": 0.9696, | |
| "grad_norm": 3.4417556394185813, | |
| "learning_rate": 1.7117032443466592e-06, | |
| "loss": 0.1375, | |
| "step": 909 | |
| }, | |
| { | |
| "epoch": 0.9706666666666667, | |
| "grad_norm": 1.393607964551126, | |
| "learning_rate": 1.7108300553629156e-06, | |
| "loss": 0.0404, | |
| "step": 910 | |
| }, | |
| { | |
| "epoch": 0.9717333333333333, | |
| "grad_norm": 0.21196540619952392, | |
| "learning_rate": 1.7099557694772102e-06, | |
| "loss": 0.0061, | |
| "step": 911 | |
| }, | |
| { | |
| "epoch": 0.9728, | |
| "grad_norm": 0.6223387116095862, | |
| "learning_rate": 1.7090803880386782e-06, | |
| "loss": 0.0252, | |
| "step": 912 | |
| }, | |
| { | |
| "epoch": 0.9738666666666667, | |
| "grad_norm": 0.07423684189600925, | |
| "learning_rate": 1.7082039123981453e-06, | |
| "loss": 0.0033, | |
| "step": 913 | |
| }, | |
| { | |
| "epoch": 0.9749333333333333, | |
| "grad_norm": 0.05354461119851362, | |
| "learning_rate": 1.707326343908126e-06, | |
| "loss": 0.0014, | |
| "step": 914 | |
| }, | |
| { | |
| "epoch": 0.976, | |
| "grad_norm": 0.17654795092403208, | |
| "learning_rate": 1.7064476839228212e-06, | |
| "loss": 0.0079, | |
| "step": 915 | |
| }, | |
| { | |
| "epoch": 0.9770666666666666, | |
| "grad_norm": 1.1560415348836615, | |
| "learning_rate": 1.705567933798116e-06, | |
| "loss": 0.0709, | |
| "step": 916 | |
| }, | |
| { | |
| "epoch": 0.9781333333333333, | |
| "grad_norm": 0.6343824883733383, | |
| "learning_rate": 1.7046870948915775e-06, | |
| "loss": 0.0127, | |
| "step": 917 | |
| }, | |
| { | |
| "epoch": 0.9792, | |
| "grad_norm": 0.1494249398692408, | |
| "learning_rate": 1.7038051685624527e-06, | |
| "loss": 0.005, | |
| "step": 918 | |
| }, | |
| { | |
| "epoch": 0.9802666666666666, | |
| "grad_norm": 0.6696530221859195, | |
| "learning_rate": 1.702922156171668e-06, | |
| "loss": 0.0106, | |
| "step": 919 | |
| }, | |
| { | |
| "epoch": 0.9813333333333333, | |
| "grad_norm": 0.14314344177076077, | |
| "learning_rate": 1.702038059081824e-06, | |
| "loss": 0.0032, | |
| "step": 920 | |
| }, | |
| { | |
| "epoch": 0.9824, | |
| "grad_norm": 0.32484865198159396, | |
| "learning_rate": 1.7011528786571966e-06, | |
| "loss": 0.0086, | |
| "step": 921 | |
| }, | |
| { | |
| "epoch": 0.9834666666666667, | |
| "grad_norm": 0.8822743257829567, | |
| "learning_rate": 1.7002666162637325e-06, | |
| "loss": 0.0313, | |
| "step": 922 | |
| }, | |
| { | |
| "epoch": 0.9845333333333334, | |
| "grad_norm": 0.7756855471213663, | |
| "learning_rate": 1.6993792732690478e-06, | |
| "loss": 0.018, | |
| "step": 923 | |
| }, | |
| { | |
| "epoch": 0.9856, | |
| "grad_norm": 0.7609762590097283, | |
| "learning_rate": 1.698490851042427e-06, | |
| "loss": 0.0671, | |
| "step": 924 | |
| }, | |
| { | |
| "epoch": 0.9866666666666667, | |
| "grad_norm": 1.2735635481734564, | |
| "learning_rate": 1.6976013509548195e-06, | |
| "loss": 0.0286, | |
| "step": 925 | |
| }, | |
| { | |
| "epoch": 0.9877333333333334, | |
| "grad_norm": 1.4346762691717854, | |
| "learning_rate": 1.6967107743788384e-06, | |
| "loss": 0.1199, | |
| "step": 926 | |
| }, | |
| { | |
| "epoch": 0.9888, | |
| "grad_norm": 0.790669534924756, | |
| "learning_rate": 1.6958191226887566e-06, | |
| "loss": 0.0269, | |
| "step": 927 | |
| }, | |
| { | |
| "epoch": 0.9898666666666667, | |
| "grad_norm": 0.06747991177904396, | |
| "learning_rate": 1.6949263972605082e-06, | |
| "loss": 0.0017, | |
| "step": 928 | |
| }, | |
| { | |
| "epoch": 0.9909333333333333, | |
| "grad_norm": 0.20496814720380593, | |
| "learning_rate": 1.694032599471682e-06, | |
| "loss": 0.0049, | |
| "step": 929 | |
| }, | |
| { | |
| "epoch": 0.992, | |
| "grad_norm": 1.276497227455641, | |
| "learning_rate": 1.6931377307015237e-06, | |
| "loss": 0.0543, | |
| "step": 930 | |
| }, | |
| { | |
| "epoch": 0.9930666666666667, | |
| "grad_norm": 0.5302394338714648, | |
| "learning_rate": 1.6922417923309297e-06, | |
| "loss": 0.0265, | |
| "step": 931 | |
| }, | |
| { | |
| "epoch": 0.9941333333333333, | |
| "grad_norm": 0.22701284188681078, | |
| "learning_rate": 1.6913447857424485e-06, | |
| "loss": 0.008, | |
| "step": 932 | |
| }, | |
| { | |
| "epoch": 0.9952, | |
| "grad_norm": 0.5967580489510217, | |
| "learning_rate": 1.690446712320276e-06, | |
| "loss": 0.0104, | |
| "step": 933 | |
| }, | |
| { | |
| "epoch": 0.9962666666666666, | |
| "grad_norm": 0.3878277040856282, | |
| "learning_rate": 1.689547573450255e-06, | |
| "loss": 0.0103, | |
| "step": 934 | |
| }, | |
| { | |
| "epoch": 0.9973333333333333, | |
| "grad_norm": 0.32365680427814997, | |
| "learning_rate": 1.6886473705198715e-06, | |
| "loss": 0.0058, | |
| "step": 935 | |
| }, | |
| { | |
| "epoch": 0.9984, | |
| "grad_norm": 1.3705000469682167, | |
| "learning_rate": 1.6877461049182546e-06, | |
| "loss": 0.0396, | |
| "step": 936 | |
| }, | |
| { | |
| "epoch": 0.9994666666666666, | |
| "grad_norm": 0.5429930585759183, | |
| "learning_rate": 1.6868437780361726e-06, | |
| "loss": 0.028, | |
| "step": 937 | |
| }, | |
| { | |
| "epoch": 1.0, | |
| "grad_norm": 0.5429930585759183, | |
| "learning_rate": 1.6859403912660318e-06, | |
| "loss": 0.0096, | |
| "step": 938 | |
| }, | |
| { | |
| "epoch": 1.0010666666666668, | |
| "grad_norm": 0.4916829789703387, | |
| "learning_rate": 1.6850359460018735e-06, | |
| "loss": 0.0044, | |
| "step": 939 | |
| }, | |
| { | |
| "epoch": 1.0021333333333333, | |
| "grad_norm": 0.2979310166282705, | |
| "learning_rate": 1.6841304436393732e-06, | |
| "loss": 0.0165, | |
| "step": 940 | |
| }, | |
| { | |
| "epoch": 1.0032, | |
| "grad_norm": 0.8370743670659195, | |
| "learning_rate": 1.6832238855758367e-06, | |
| "loss": 0.0339, | |
| "step": 941 | |
| }, | |
| { | |
| "epoch": 1.0042666666666666, | |
| "grad_norm": 0.16192307827765665, | |
| "learning_rate": 1.6823162732102e-06, | |
| "loss": 0.0037, | |
| "step": 942 | |
| }, | |
| { | |
| "epoch": 1.0053333333333334, | |
| "grad_norm": 0.25394307806042143, | |
| "learning_rate": 1.681407607943025e-06, | |
| "loss": 0.0057, | |
| "step": 943 | |
| }, | |
| { | |
| "epoch": 1.0064, | |
| "grad_norm": 0.5039087022497899, | |
| "learning_rate": 1.6804978911764987e-06, | |
| "loss": 0.0247, | |
| "step": 944 | |
| }, | |
| { | |
| "epoch": 1.0074666666666667, | |
| "grad_norm": 0.04841683509251501, | |
| "learning_rate": 1.679587124314431e-06, | |
| "loss": 0.0168, | |
| "step": 945 | |
| }, | |
| { | |
| "epoch": 1.0085333333333333, | |
| "grad_norm": 0.7702555161572083, | |
| "learning_rate": 1.678675308762252e-06, | |
| "loss": 0.0078, | |
| "step": 946 | |
| }, | |
| { | |
| "epoch": 1.0096, | |
| "grad_norm": 0.5228406163032586, | |
| "learning_rate": 1.6777624459270099e-06, | |
| "loss": 0.0096, | |
| "step": 947 | |
| }, | |
| { | |
| "epoch": 1.0106666666666666, | |
| "grad_norm": 0.07932404354364939, | |
| "learning_rate": 1.6768485372173696e-06, | |
| "loss": 0.001, | |
| "step": 948 | |
| }, | |
| { | |
| "epoch": 1.0117333333333334, | |
| "grad_norm": 0.7272162639399672, | |
| "learning_rate": 1.6759335840436088e-06, | |
| "loss": 0.0338, | |
| "step": 949 | |
| }, | |
| { | |
| "epoch": 1.0128, | |
| "grad_norm": 0.1325222502866181, | |
| "learning_rate": 1.675017587817618e-06, | |
| "loss": 0.006, | |
| "step": 950 | |
| }, | |
| { | |
| "epoch": 1.0128, | |
| "eval_loss": 0.05511786788702011, | |
| "eval_runtime": 8.3359, | |
| "eval_samples_per_second": 11.996, | |
| "eval_steps_per_second": 5.998, | |
| "step": 950 | |
| }, | |
| { | |
| "epoch": 1.0138666666666667, | |
| "grad_norm": 0.2851585922035912, | |
| "learning_rate": 1.674100549952897e-06, | |
| "loss": 0.003, | |
| "step": 951 | |
| }, | |
| { | |
| "epoch": 1.0149333333333332, | |
| "grad_norm": 0.1635246987897608, | |
| "learning_rate": 1.6731824718645523e-06, | |
| "loss": 0.0123, | |
| "step": 952 | |
| }, | |
| { | |
| "epoch": 1.016, | |
| "grad_norm": 0.9554459164625243, | |
| "learning_rate": 1.672263354969297e-06, | |
| "loss": 0.0239, | |
| "step": 953 | |
| }, | |
| { | |
| "epoch": 1.0170666666666666, | |
| "grad_norm": 0.6049818674300176, | |
| "learning_rate": 1.671343200685446e-06, | |
| "loss": 0.0368, | |
| "step": 954 | |
| }, | |
| { | |
| "epoch": 1.0181333333333333, | |
| "grad_norm": 1.2174111129081242, | |
| "learning_rate": 1.6704220104329153e-06, | |
| "loss": 0.0089, | |
| "step": 955 | |
| }, | |
| { | |
| "epoch": 1.0192, | |
| "grad_norm": 0.09893112075059436, | |
| "learning_rate": 1.6694997856332194e-06, | |
| "loss": 0.0023, | |
| "step": 956 | |
| }, | |
| { | |
| "epoch": 1.0202666666666667, | |
| "grad_norm": 0.09001324637021094, | |
| "learning_rate": 1.6685765277094698e-06, | |
| "loss": 0.014, | |
| "step": 957 | |
| }, | |
| { | |
| "epoch": 1.0213333333333334, | |
| "grad_norm": 0.6901973285139684, | |
| "learning_rate": 1.6676522380863718e-06, | |
| "loss": 0.0026, | |
| "step": 958 | |
| }, | |
| { | |
| "epoch": 1.0224, | |
| "grad_norm": 0.059717251369744574, | |
| "learning_rate": 1.6667269181902234e-06, | |
| "loss": 0.0059, | |
| "step": 959 | |
| }, | |
| { | |
| "epoch": 1.0234666666666667, | |
| "grad_norm": 0.3083472218723695, | |
| "learning_rate": 1.6658005694489108e-06, | |
| "loss": 0.0044, | |
| "step": 960 | |
| }, | |
| { | |
| "epoch": 1.0245333333333333, | |
| "grad_norm": 1.2387887367525359, | |
| "learning_rate": 1.66487319329191e-06, | |
| "loss": 0.067, | |
| "step": 961 | |
| }, | |
| { | |
| "epoch": 1.0256, | |
| "grad_norm": 0.05958218523488344, | |
| "learning_rate": 1.6639447911502806e-06, | |
| "loss": 0.0038, | |
| "step": 962 | |
| }, | |
| { | |
| "epoch": 1.0266666666666666, | |
| "grad_norm": 0.25803312922414584, | |
| "learning_rate": 1.6630153644566666e-06, | |
| "loss": 0.0022, | |
| "step": 963 | |
| }, | |
| { | |
| "epoch": 1.0277333333333334, | |
| "grad_norm": 0.13407512286627216, | |
| "learning_rate": 1.6620849146452928e-06, | |
| "loss": 0.0014, | |
| "step": 964 | |
| }, | |
| { | |
| "epoch": 1.0288, | |
| "grad_norm": 0.9967498197509435, | |
| "learning_rate": 1.6611534431519622e-06, | |
| "loss": 0.0098, | |
| "step": 965 | |
| }, | |
| { | |
| "epoch": 1.0298666666666667, | |
| "grad_norm": 0.04855423463199995, | |
| "learning_rate": 1.6602209514140548e-06, | |
| "loss": 0.0021, | |
| "step": 966 | |
| }, | |
| { | |
| "epoch": 1.0309333333333333, | |
| "grad_norm": 0.9190388514477494, | |
| "learning_rate": 1.6592874408705253e-06, | |
| "loss": 0.0249, | |
| "step": 967 | |
| }, | |
| { | |
| "epoch": 1.032, | |
| "grad_norm": 0.15521259953012823, | |
| "learning_rate": 1.6583529129619003e-06, | |
| "loss": 0.0035, | |
| "step": 968 | |
| }, | |
| { | |
| "epoch": 1.0330666666666666, | |
| "grad_norm": 0.0739501147905464, | |
| "learning_rate": 1.6574173691302758e-06, | |
| "loss": 0.0207, | |
| "step": 969 | |
| }, | |
| { | |
| "epoch": 1.0341333333333333, | |
| "grad_norm": 0.48810685041497015, | |
| "learning_rate": 1.6564808108193163e-06, | |
| "loss": 0.0007, | |
| "step": 970 | |
| }, | |
| { | |
| "epoch": 1.0352, | |
| "grad_norm": 0.07637320025474216, | |
| "learning_rate": 1.6555432394742511e-06, | |
| "loss": 0.0064, | |
| "step": 971 | |
| }, | |
| { | |
| "epoch": 1.0362666666666667, | |
| "grad_norm": 0.39526147128400013, | |
| "learning_rate": 1.6546046565418732e-06, | |
| "loss": 0.0022, | |
| "step": 972 | |
| }, | |
| { | |
| "epoch": 1.0373333333333334, | |
| "grad_norm": 0.33979283542891386, | |
| "learning_rate": 1.6536650634705365e-06, | |
| "loss": 0.0076, | |
| "step": 973 | |
| }, | |
| { | |
| "epoch": 1.0384, | |
| "grad_norm": 1.8339909658885087, | |
| "learning_rate": 1.6527244617101537e-06, | |
| "loss": 0.0351, | |
| "step": 974 | |
| }, | |
| { | |
| "epoch": 1.0394666666666668, | |
| "grad_norm": 0.32217927046265177, | |
| "learning_rate": 1.651782852712194e-06, | |
| "loss": 0.0006, | |
| "step": 975 | |
| }, | |
| { | |
| "epoch": 1.0405333333333333, | |
| "grad_norm": 0.28508392541225847, | |
| "learning_rate": 1.6508402379296808e-06, | |
| "loss": 0.0043, | |
| "step": 976 | |
| }, | |
| { | |
| "epoch": 1.0416, | |
| "grad_norm": 0.037354972250637136, | |
| "learning_rate": 1.6498966188171895e-06, | |
| "loss": 0.0031, | |
| "step": 977 | |
| }, | |
| { | |
| "epoch": 1.0426666666666666, | |
| "grad_norm": 0.7166489206167719, | |
| "learning_rate": 1.6489519968308457e-06, | |
| "loss": 0.0641, | |
| "step": 978 | |
| }, | |
| { | |
| "epoch": 1.0437333333333334, | |
| "grad_norm": 1.0515466328685, | |
| "learning_rate": 1.648006373428322e-06, | |
| "loss": 0.01, | |
| "step": 979 | |
| }, | |
| { | |
| "epoch": 1.0448, | |
| "grad_norm": 0.936126382450395, | |
| "learning_rate": 1.6470597500688369e-06, | |
| "loss": 0.0066, | |
| "step": 980 | |
| }, | |
| { | |
| "epoch": 1.0458666666666667, | |
| "grad_norm": 0.06579766473780263, | |
| "learning_rate": 1.6461121282131516e-06, | |
| "loss": 0.0022, | |
| "step": 981 | |
| }, | |
| { | |
| "epoch": 1.0469333333333333, | |
| "grad_norm": 0.09021244626430282, | |
| "learning_rate": 1.6451635093235683e-06, | |
| "loss": 0.0011, | |
| "step": 982 | |
| }, | |
| { | |
| "epoch": 1.048, | |
| "grad_norm": 0.01025702341477458, | |
| "learning_rate": 1.644213894863927e-06, | |
| "loss": 0.0003, | |
| "step": 983 | |
| }, | |
| { | |
| "epoch": 1.0490666666666666, | |
| "grad_norm": 1.3151879642844628, | |
| "learning_rate": 1.6432632862996055e-06, | |
| "loss": 0.0263, | |
| "step": 984 | |
| }, | |
| { | |
| "epoch": 1.0501333333333334, | |
| "grad_norm": 0.9276898564205044, | |
| "learning_rate": 1.6423116850975145e-06, | |
| "loss": 0.0079, | |
| "step": 985 | |
| }, | |
| { | |
| "epoch": 1.0512, | |
| "grad_norm": 0.02947729014406564, | |
| "learning_rate": 1.641359092726096e-06, | |
| "loss": 0.0018, | |
| "step": 986 | |
| }, | |
| { | |
| "epoch": 1.0522666666666667, | |
| "grad_norm": 0.19598979775248843, | |
| "learning_rate": 1.6404055106553234e-06, | |
| "loss": 0.0009, | |
| "step": 987 | |
| }, | |
| { | |
| "epoch": 1.0533333333333332, | |
| "grad_norm": 1.8171369166805973, | |
| "learning_rate": 1.6394509403566952e-06, | |
| "loss": 0.0308, | |
| "step": 988 | |
| }, | |
| { | |
| "epoch": 1.0544, | |
| "grad_norm": 0.7848075693667415, | |
| "learning_rate": 1.6384953833032367e-06, | |
| "loss": 0.0279, | |
| "step": 989 | |
| }, | |
| { | |
| "epoch": 1.0554666666666668, | |
| "grad_norm": 0.04284710379550343, | |
| "learning_rate": 1.637538840969494e-06, | |
| "loss": 0.0005, | |
| "step": 990 | |
| }, | |
| { | |
| "epoch": 1.0565333333333333, | |
| "grad_norm": 0.03007223360486748, | |
| "learning_rate": 1.6365813148315355e-06, | |
| "loss": 0.0007, | |
| "step": 991 | |
| }, | |
| { | |
| "epoch": 1.0576, | |
| "grad_norm": 0.01899139669637451, | |
| "learning_rate": 1.6356228063669465e-06, | |
| "loss": 0.0005, | |
| "step": 992 | |
| }, | |
| { | |
| "epoch": 1.0586666666666666, | |
| "grad_norm": 0.11346226457614883, | |
| "learning_rate": 1.6346633170548287e-06, | |
| "loss": 0.0014, | |
| "step": 993 | |
| }, | |
| { | |
| "epoch": 1.0597333333333334, | |
| "grad_norm": 0.04943624657920941, | |
| "learning_rate": 1.6337028483757966e-06, | |
| "loss": 0.0009, | |
| "step": 994 | |
| }, | |
| { | |
| "epoch": 1.0608, | |
| "grad_norm": 0.015138645630175255, | |
| "learning_rate": 1.6327414018119774e-06, | |
| "loss": 0.0009, | |
| "step": 995 | |
| }, | |
| { | |
| "epoch": 1.0618666666666667, | |
| "grad_norm": 1.4799218601071658, | |
| "learning_rate": 1.631778978847006e-06, | |
| "loss": 0.014, | |
| "step": 996 | |
| }, | |
| { | |
| "epoch": 1.0629333333333333, | |
| "grad_norm": 1.2249010640123865, | |
| "learning_rate": 1.6308155809660247e-06, | |
| "loss": 0.0121, | |
| "step": 997 | |
| }, | |
| { | |
| "epoch": 1.064, | |
| "grad_norm": 1.021197338464407, | |
| "learning_rate": 1.6298512096556795e-06, | |
| "loss": 0.0632, | |
| "step": 998 | |
| }, | |
| { | |
| "epoch": 1.0650666666666666, | |
| "grad_norm": 0.4954690700310796, | |
| "learning_rate": 1.6288858664041198e-06, | |
| "loss": 0.0003, | |
| "step": 999 | |
| }, | |
| { | |
| "epoch": 1.0661333333333334, | |
| "grad_norm": 0.20535195318024518, | |
| "learning_rate": 1.6279195527009938e-06, | |
| "loss": 0.0203, | |
| "step": 1000 | |
| }, | |
| { | |
| "epoch": 1.0661333333333334, | |
| "eval_loss": 0.09908830374479294, | |
| "eval_runtime": 8.2885, | |
| "eval_samples_per_second": 12.065, | |
| "eval_steps_per_second": 6.032, | |
| "step": 1000 | |
| } | |
| ], | |
| "logging_steps": 1, | |
| "max_steps": 2811, | |
| "num_input_tokens_seen": 0, | |
| "num_train_epochs": 3, | |
| "save_steps": 250, | |
| "stateful_callbacks": { | |
| "TrainerControl": { | |
| "args": { | |
| "should_epoch_stop": false, | |
| "should_evaluate": false, | |
| "should_log": false, | |
| "should_save": true, | |
| "should_training_stop": false | |
| }, | |
| "attributes": {} | |
| } | |
| }, | |
| "total_flos": 2259115302912.0, | |
| "train_batch_size": 2, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |