| { | |
| "best_global_step": null, | |
| "best_metric": null, | |
| "best_model_checkpoint": null, | |
| "epoch": 10.0, | |
| "eval_steps": 500, | |
| "global_step": 120, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "epoch": 0.08333333333333333, | |
| "grad_norm": 64.64777867360083, | |
| "learning_rate": 0.0, | |
| "loss": 5.381, | |
| "step": 1 | |
| }, | |
| { | |
| "epoch": 0.16666666666666666, | |
| "grad_norm": 72.87821348117137, | |
| "learning_rate": 4.166666666666666e-08, | |
| "loss": 5.4454, | |
| "step": 2 | |
| }, | |
| { | |
| "epoch": 0.25, | |
| "grad_norm": 72.49010151954481, | |
| "learning_rate": 8.333333333333333e-08, | |
| "loss": 5.4369, | |
| "step": 3 | |
| }, | |
| { | |
| "epoch": 0.3333333333333333, | |
| "grad_norm": 62.567613602515415, | |
| "learning_rate": 1.25e-07, | |
| "loss": 5.6725, | |
| "step": 4 | |
| }, | |
| { | |
| "epoch": 0.4166666666666667, | |
| "grad_norm": 72.6494931298677, | |
| "learning_rate": 1.6666666666666665e-07, | |
| "loss": 6.0553, | |
| "step": 5 | |
| }, | |
| { | |
| "epoch": 0.5, | |
| "grad_norm": 56.23312336739119, | |
| "learning_rate": 2.0833333333333333e-07, | |
| "loss": 4.7893, | |
| "step": 6 | |
| }, | |
| { | |
| "epoch": 0.5833333333333334, | |
| "grad_norm": 57.07641758983788, | |
| "learning_rate": 2.5e-07, | |
| "loss": 4.9433, | |
| "step": 7 | |
| }, | |
| { | |
| "epoch": 0.6666666666666666, | |
| "grad_norm": 68.67394948193441, | |
| "learning_rate": 2.916666666666667e-07, | |
| "loss": 5.4453, | |
| "step": 8 | |
| }, | |
| { | |
| "epoch": 0.75, | |
| "grad_norm": 88.69284246338465, | |
| "learning_rate": 3.333333333333333e-07, | |
| "loss": 6.9095, | |
| "step": 9 | |
| }, | |
| { | |
| "epoch": 0.8333333333333334, | |
| "grad_norm": 83.82614794076648, | |
| "learning_rate": 3.75e-07, | |
| "loss": 6.0308, | |
| "step": 10 | |
| }, | |
| { | |
| "epoch": 0.9166666666666666, | |
| "grad_norm": 66.22542573927635, | |
| "learning_rate": 4.1666666666666667e-07, | |
| "loss": 5.7322, | |
| "step": 11 | |
| }, | |
| { | |
| "epoch": 1.0, | |
| "grad_norm": 71.66053231570135, | |
| "learning_rate": 4.5833333333333327e-07, | |
| "loss": 5.6915, | |
| "step": 12 | |
| }, | |
| { | |
| "epoch": 1.0833333333333333, | |
| "grad_norm": 76.70821028200923, | |
| "learning_rate": 5e-07, | |
| "loss": 6.052, | |
| "step": 13 | |
| }, | |
| { | |
| "epoch": 1.1666666666666667, | |
| "grad_norm": 66.51889900150344, | |
| "learning_rate": 5.416666666666666e-07, | |
| "loss": 5.1533, | |
| "step": 14 | |
| }, | |
| { | |
| "epoch": 1.25, | |
| "grad_norm": 72.56837757310552, | |
| "learning_rate": 5.833333333333334e-07, | |
| "loss": 5.6483, | |
| "step": 15 | |
| }, | |
| { | |
| "epoch": 1.3333333333333333, | |
| "grad_norm": 71.41199823712935, | |
| "learning_rate": 6.249999999999999e-07, | |
| "loss": 5.8299, | |
| "step": 16 | |
| }, | |
| { | |
| "epoch": 1.4166666666666667, | |
| "grad_norm": 82.31719114505589, | |
| "learning_rate": 6.666666666666666e-07, | |
| "loss": 5.6401, | |
| "step": 17 | |
| }, | |
| { | |
| "epoch": 1.5, | |
| "grad_norm": 69.89314982896964, | |
| "learning_rate": 7.083333333333334e-07, | |
| "loss": 5.5711, | |
| "step": 18 | |
| }, | |
| { | |
| "epoch": 1.5833333333333335, | |
| "grad_norm": 68.29439999197663, | |
| "learning_rate": 7.5e-07, | |
| "loss": 5.2674, | |
| "step": 19 | |
| }, | |
| { | |
| "epoch": 1.6666666666666665, | |
| "grad_norm": 63.588459083478654, | |
| "learning_rate": 7.916666666666666e-07, | |
| "loss": 5.6657, | |
| "step": 20 | |
| }, | |
| { | |
| "epoch": 1.75, | |
| "grad_norm": 60.15242713872015, | |
| "learning_rate": 8.333333333333333e-07, | |
| "loss": 5.1052, | |
| "step": 21 | |
| }, | |
| { | |
| "epoch": 1.8333333333333335, | |
| "grad_norm": 56.33280751877033, | |
| "learning_rate": 8.75e-07, | |
| "loss": 4.6811, | |
| "step": 22 | |
| }, | |
| { | |
| "epoch": 1.9166666666666665, | |
| "grad_norm": 69.15328068438829, | |
| "learning_rate": 9.166666666666665e-07, | |
| "loss": 5.6497, | |
| "step": 23 | |
| }, | |
| { | |
| "epoch": 2.0, | |
| "grad_norm": 75.67160873538826, | |
| "learning_rate": 9.583333333333334e-07, | |
| "loss": 5.4269, | |
| "step": 24 | |
| }, | |
| { | |
| "epoch": 2.0833333333333335, | |
| "grad_norm": 77.51108065087409, | |
| "learning_rate": 1e-06, | |
| "loss": 5.6691, | |
| "step": 25 | |
| }, | |
| { | |
| "epoch": 2.1666666666666665, | |
| "grad_norm": 63.45541497933044, | |
| "learning_rate": 9.997322937381827e-07, | |
| "loss": 4.8145, | |
| "step": 26 | |
| }, | |
| { | |
| "epoch": 2.25, | |
| "grad_norm": 61.40088145975123, | |
| "learning_rate": 9.989294616193017e-07, | |
| "loss": 5.143, | |
| "step": 27 | |
| }, | |
| { | |
| "epoch": 2.3333333333333335, | |
| "grad_norm": 52.26188474928575, | |
| "learning_rate": 9.975923633360984e-07, | |
| "loss": 4.9184, | |
| "step": 28 | |
| }, | |
| { | |
| "epoch": 2.4166666666666665, | |
| "grad_norm": 63.05972834371029, | |
| "learning_rate": 9.957224306869053e-07, | |
| "loss": 5.3699, | |
| "step": 29 | |
| }, | |
| { | |
| "epoch": 2.5, | |
| "grad_norm": 44.14281290137183, | |
| "learning_rate": 9.933216660424394e-07, | |
| "loss": 4.0702, | |
| "step": 30 | |
| }, | |
| { | |
| "epoch": 2.5833333333333335, | |
| "grad_norm": 61.854555283518685, | |
| "learning_rate": 9.90392640201615e-07, | |
| "loss": 4.8271, | |
| "step": 31 | |
| }, | |
| { | |
| "epoch": 2.6666666666666665, | |
| "grad_norm": 43.707231150098934, | |
| "learning_rate": 9.869384896386669e-07, | |
| "loss": 3.7206, | |
| "step": 32 | |
| }, | |
| { | |
| "epoch": 2.75, | |
| "grad_norm": 42.13038396520019, | |
| "learning_rate": 9.82962913144534e-07, | |
| "loss": 4.2319, | |
| "step": 33 | |
| }, | |
| { | |
| "epoch": 2.8333333333333335, | |
| "grad_norm": 37.54629441918304, | |
| "learning_rate": 9.784701678661044e-07, | |
| "loss": 3.6847, | |
| "step": 34 | |
| }, | |
| { | |
| "epoch": 2.9166666666666665, | |
| "grad_norm": 38.11544821217541, | |
| "learning_rate": 9.73465064747553e-07, | |
| "loss": 3.7734, | |
| "step": 35 | |
| }, | |
| { | |
| "epoch": 3.0, | |
| "grad_norm": 46.878748195324455, | |
| "learning_rate": 9.67952963378663e-07, | |
| "loss": 4.4293, | |
| "step": 36 | |
| }, | |
| { | |
| "epoch": 3.0833333333333335, | |
| "grad_norm": 36.798563482210106, | |
| "learning_rate": 9.619397662556433e-07, | |
| "loss": 3.7821, | |
| "step": 37 | |
| }, | |
| { | |
| "epoch": 3.1666666666666665, | |
| "grad_norm": 37.86610020340728, | |
| "learning_rate": 9.554319124605879e-07, | |
| "loss": 3.593, | |
| "step": 38 | |
| }, | |
| { | |
| "epoch": 3.25, | |
| "grad_norm": 43.86641343892708, | |
| "learning_rate": 9.484363707663441e-07, | |
| "loss": 4.0237, | |
| "step": 39 | |
| }, | |
| { | |
| "epoch": 3.3333333333333335, | |
| "grad_norm": 37.08873180120634, | |
| "learning_rate": 9.409606321741774e-07, | |
| "loss": 3.7254, | |
| "step": 40 | |
| }, | |
| { | |
| "epoch": 3.4166666666666665, | |
| "grad_norm": 33.791172173955104, | |
| "learning_rate": 9.330127018922193e-07, | |
| "loss": 4.0098, | |
| "step": 41 | |
| }, | |
| { | |
| "epoch": 3.5, | |
| "grad_norm": 31.87057001102688, | |
| "learning_rate": 9.246010907632894e-07, | |
| "loss": 3.5507, | |
| "step": 42 | |
| }, | |
| { | |
| "epoch": 3.5833333333333335, | |
| "grad_norm": 37.28520674431204, | |
| "learning_rate": 9.157348061512726e-07, | |
| "loss": 3.9674, | |
| "step": 43 | |
| }, | |
| { | |
| "epoch": 3.6666666666666665, | |
| "grad_norm": 31.95861068730471, | |
| "learning_rate": 9.064233422958076e-07, | |
| "loss": 3.2541, | |
| "step": 44 | |
| }, | |
| { | |
| "epoch": 3.75, | |
| "grad_norm": 30.848920682064655, | |
| "learning_rate": 8.966766701456176e-07, | |
| "loss": 3.0582, | |
| "step": 45 | |
| }, | |
| { | |
| "epoch": 3.8333333333333335, | |
| "grad_norm": 26.04360346254278, | |
| "learning_rate": 8.865052266813685e-07, | |
| "loss": 2.9016, | |
| "step": 46 | |
| }, | |
| { | |
| "epoch": 3.9166666666666665, | |
| "grad_norm": 27.236466340956436, | |
| "learning_rate": 8.759199037394886e-07, | |
| "loss": 2.7358, | |
| "step": 47 | |
| }, | |
| { | |
| "epoch": 4.0, | |
| "grad_norm": 19.505100842231528, | |
| "learning_rate": 8.649320363489178e-07, | |
| "loss": 2.8091, | |
| "step": 48 | |
| }, | |
| { | |
| "epoch": 4.083333333333333, | |
| "grad_norm": 21.301180433454473, | |
| "learning_rate": 8.535533905932737e-07, | |
| "loss": 2.6819, | |
| "step": 49 | |
| }, | |
| { | |
| "epoch": 4.166666666666667, | |
| "grad_norm": 19.74135520163866, | |
| "learning_rate": 8.417961510114355e-07, | |
| "loss": 2.5253, | |
| "step": 50 | |
| }, | |
| { | |
| "epoch": 4.25, | |
| "grad_norm": 18.255219097491675, | |
| "learning_rate": 8.296729075500343e-07, | |
| "loss": 2.3649, | |
| "step": 51 | |
| }, | |
| { | |
| "epoch": 4.333333333333333, | |
| "grad_norm": 16.596343616877295, | |
| "learning_rate": 8.171966420818227e-07, | |
| "loss": 2.8901, | |
| "step": 52 | |
| }, | |
| { | |
| "epoch": 4.416666666666667, | |
| "grad_norm": 15.64814775828018, | |
| "learning_rate": 8.043807145043603e-07, | |
| "loss": 2.4533, | |
| "step": 53 | |
| }, | |
| { | |
| "epoch": 4.5, | |
| "grad_norm": 14.334493903846182, | |
| "learning_rate": 7.912388484339011e-07, | |
| "loss": 2.4771, | |
| "step": 54 | |
| }, | |
| { | |
| "epoch": 4.583333333333333, | |
| "grad_norm": 14.346678037492122, | |
| "learning_rate": 7.777851165098011e-07, | |
| "loss": 2.586, | |
| "step": 55 | |
| }, | |
| { | |
| "epoch": 4.666666666666667, | |
| "grad_norm": 14.450467015800792, | |
| "learning_rate": 7.640339253251839e-07, | |
| "loss": 2.0636, | |
| "step": 56 | |
| }, | |
| { | |
| "epoch": 4.75, | |
| "grad_norm": 13.59146448382522, | |
| "learning_rate": 7.5e-07, | |
| "loss": 2.2055, | |
| "step": 57 | |
| }, | |
| { | |
| "epoch": 4.833333333333333, | |
| "grad_norm": 18.4619715208293, | |
| "learning_rate": 7.356983684129989e-07, | |
| "loss": 2.3264, | |
| "step": 58 | |
| }, | |
| { | |
| "epoch": 4.916666666666667, | |
| "grad_norm": 13.055197980426811, | |
| "learning_rate": 7.211443451095006e-07, | |
| "loss": 2.5231, | |
| "step": 59 | |
| }, | |
| { | |
| "epoch": 5.0, | |
| "grad_norm": 12.121061967761227, | |
| "learning_rate": 7.063535149021973e-07, | |
| "loss": 2.2845, | |
| "step": 60 | |
| }, | |
| { | |
| "epoch": 5.083333333333333, | |
| "grad_norm": 11.972609778591337, | |
| "learning_rate": 6.913417161825449e-07, | |
| "loss": 2.0076, | |
| "step": 61 | |
| }, | |
| { | |
| "epoch": 5.166666666666667, | |
| "grad_norm": 13.780660342296821, | |
| "learning_rate": 6.761250239606168e-07, | |
| "loss": 2.2602, | |
| "step": 62 | |
| }, | |
| { | |
| "epoch": 5.25, | |
| "grad_norm": 11.300080089130699, | |
| "learning_rate": 6.607197326515807e-07, | |
| "loss": 1.9349, | |
| "step": 63 | |
| }, | |
| { | |
| "epoch": 5.333333333333333, | |
| "grad_norm": 16.520201972470556, | |
| "learning_rate": 6.451423386272311e-07, | |
| "loss": 2.5407, | |
| "step": 64 | |
| }, | |
| { | |
| "epoch": 5.416666666666667, | |
| "grad_norm": 10.69406863095599, | |
| "learning_rate": 6.294095225512604e-07, | |
| "loss": 2.009, | |
| "step": 65 | |
| }, | |
| { | |
| "epoch": 5.5, | |
| "grad_norm": 11.294431796799545, | |
| "learning_rate": 6.135381315171865e-07, | |
| "loss": 2.0818, | |
| "step": 66 | |
| }, | |
| { | |
| "epoch": 5.583333333333333, | |
| "grad_norm": 10.411612804365879, | |
| "learning_rate": 5.975451610080642e-07, | |
| "loss": 2.4461, | |
| "step": 67 | |
| }, | |
| { | |
| "epoch": 5.666666666666667, | |
| "grad_norm": 12.24571730635606, | |
| "learning_rate": 5.814477366972944e-07, | |
| "loss": 1.7136, | |
| "step": 68 | |
| }, | |
| { | |
| "epoch": 5.75, | |
| "grad_norm": 10.947343691025385, | |
| "learning_rate": 5.652630961100258e-07, | |
| "loss": 1.8682, | |
| "step": 69 | |
| }, | |
| { | |
| "epoch": 5.833333333333333, | |
| "grad_norm": 10.946778986792149, | |
| "learning_rate": 5.490085701647804e-07, | |
| "loss": 2.032, | |
| "step": 70 | |
| }, | |
| { | |
| "epoch": 5.916666666666667, | |
| "grad_norm": 10.749685475910947, | |
| "learning_rate": 5.327015646150716e-07, | |
| "loss": 1.8736, | |
| "step": 71 | |
| }, | |
| { | |
| "epoch": 6.0, | |
| "grad_norm": 10.988953376012809, | |
| "learning_rate": 5.163595414108881e-07, | |
| "loss": 2.1209, | |
| "step": 72 | |
| }, | |
| { | |
| "epoch": 6.083333333333333, | |
| "grad_norm": 8.823364583796211, | |
| "learning_rate": 5e-07, | |
| "loss": 1.8032, | |
| "step": 73 | |
| }, | |
| { | |
| "epoch": 6.166666666666667, | |
| "grad_norm": 12.489354232578668, | |
| "learning_rate": 4.83640458589112e-07, | |
| "loss": 2.0656, | |
| "step": 74 | |
| }, | |
| { | |
| "epoch": 6.25, | |
| "grad_norm": 12.855786612033073, | |
| "learning_rate": 4.672984353849284e-07, | |
| "loss": 1.8524, | |
| "step": 75 | |
| }, | |
| { | |
| "epoch": 6.333333333333333, | |
| "grad_norm": 11.180473977952898, | |
| "learning_rate": 4.5099142983521963e-07, | |
| "loss": 2.0501, | |
| "step": 76 | |
| }, | |
| { | |
| "epoch": 6.416666666666667, | |
| "grad_norm": 9.975765778452935, | |
| "learning_rate": 4.347369038899743e-07, | |
| "loss": 1.9089, | |
| "step": 77 | |
| }, | |
| { | |
| "epoch": 6.5, | |
| "grad_norm": 10.042416548244034, | |
| "learning_rate": 4.1855226330270565e-07, | |
| "loss": 1.7796, | |
| "step": 78 | |
| }, | |
| { | |
| "epoch": 6.583333333333333, | |
| "grad_norm": 11.047000031013113, | |
| "learning_rate": 4.0245483899193586e-07, | |
| "loss": 1.7179, | |
| "step": 79 | |
| }, | |
| { | |
| "epoch": 6.666666666666667, | |
| "grad_norm": 11.820487438908788, | |
| "learning_rate": 3.864618684828134e-07, | |
| "loss": 2.0994, | |
| "step": 80 | |
| }, | |
| { | |
| "epoch": 6.75, | |
| "grad_norm": 10.132929595540734, | |
| "learning_rate": 3.7059047744873955e-07, | |
| "loss": 2.1492, | |
| "step": 81 | |
| }, | |
| { | |
| "epoch": 6.833333333333333, | |
| "grad_norm": 11.19751575566329, | |
| "learning_rate": 3.548576613727689e-07, | |
| "loss": 1.7126, | |
| "step": 82 | |
| }, | |
| { | |
| "epoch": 6.916666666666667, | |
| "grad_norm": 10.63475624650615, | |
| "learning_rate": 3.392802673484193e-07, | |
| "loss": 1.7692, | |
| "step": 83 | |
| }, | |
| { | |
| "epoch": 7.0, | |
| "grad_norm": 9.013647497434402, | |
| "learning_rate": 3.238749760393832e-07, | |
| "loss": 1.6331, | |
| "step": 84 | |
| }, | |
| { | |
| "epoch": 7.083333333333333, | |
| "grad_norm": 10.82837457164676, | |
| "learning_rate": 3.086582838174551e-07, | |
| "loss": 1.7417, | |
| "step": 85 | |
| }, | |
| { | |
| "epoch": 7.166666666666667, | |
| "grad_norm": 10.526355901684443, | |
| "learning_rate": 2.9364648509780265e-07, | |
| "loss": 1.8704, | |
| "step": 86 | |
| }, | |
| { | |
| "epoch": 7.25, | |
| "grad_norm": 12.915380002705485, | |
| "learning_rate": 2.7885565489049946e-07, | |
| "loss": 1.776, | |
| "step": 87 | |
| }, | |
| { | |
| "epoch": 7.333333333333333, | |
| "grad_norm": 9.987073505770256, | |
| "learning_rate": 2.6430163158700113e-07, | |
| "loss": 1.9277, | |
| "step": 88 | |
| }, | |
| { | |
| "epoch": 7.416666666666667, | |
| "grad_norm": 8.876649193085937, | |
| "learning_rate": 2.500000000000001e-07, | |
| "loss": 1.3942, | |
| "step": 89 | |
| }, | |
| { | |
| "epoch": 7.5, | |
| "grad_norm": 11.096751104306398, | |
| "learning_rate": 2.35966074674816e-07, | |
| "loss": 1.6563, | |
| "step": 90 | |
| }, | |
| { | |
| "epoch": 7.583333333333333, | |
| "grad_norm": 9.523643812993896, | |
| "learning_rate": 2.2221488349019902e-07, | |
| "loss": 1.9665, | |
| "step": 91 | |
| }, | |
| { | |
| "epoch": 7.666666666666667, | |
| "grad_norm": 9.80220719650778, | |
| "learning_rate": 2.0876115156609898e-07, | |
| "loss": 1.9462, | |
| "step": 92 | |
| }, | |
| { | |
| "epoch": 7.75, | |
| "grad_norm": 11.016173503331954, | |
| "learning_rate": 1.9561928549563966e-07, | |
| "loss": 1.8076, | |
| "step": 93 | |
| }, | |
| { | |
| "epoch": 7.833333333333333, | |
| "grad_norm": 10.427514132399503, | |
| "learning_rate": 1.828033579181773e-07, | |
| "loss": 1.8721, | |
| "step": 94 | |
| }, | |
| { | |
| "epoch": 7.916666666666667, | |
| "grad_norm": 8.962687283734475, | |
| "learning_rate": 1.7032709244996556e-07, | |
| "loss": 1.4642, | |
| "step": 95 | |
| }, | |
| { | |
| "epoch": 8.0, | |
| "grad_norm": 9.27951310606017, | |
| "learning_rate": 1.5820384898856433e-07, | |
| "loss": 1.887, | |
| "step": 96 | |
| }, | |
| { | |
| "epoch": 8.083333333333334, | |
| "grad_norm": 9.414303828018598, | |
| "learning_rate": 1.4644660940672627e-07, | |
| "loss": 2.0148, | |
| "step": 97 | |
| }, | |
| { | |
| "epoch": 8.166666666666666, | |
| "grad_norm": 9.260160083353119, | |
| "learning_rate": 1.350679636510823e-07, | |
| "loss": 1.6731, | |
| "step": 98 | |
| }, | |
| { | |
| "epoch": 8.25, | |
| "grad_norm": 10.736961289604219, | |
| "learning_rate": 1.2408009626051135e-07, | |
| "loss": 1.761, | |
| "step": 99 | |
| }, | |
| { | |
| "epoch": 8.333333333333334, | |
| "grad_norm": 9.792038789400952, | |
| "learning_rate": 1.134947733186315e-07, | |
| "loss": 1.6661, | |
| "step": 100 | |
| }, | |
| { | |
| "epoch": 8.416666666666666, | |
| "grad_norm": 9.34294540380621, | |
| "learning_rate": 1.0332332985438247e-07, | |
| "loss": 1.5433, | |
| "step": 101 | |
| }, | |
| { | |
| "epoch": 8.5, | |
| "grad_norm": 9.886793892113491, | |
| "learning_rate": 9.357665770419243e-08, | |
| "loss": 1.6082, | |
| "step": 102 | |
| }, | |
| { | |
| "epoch": 8.583333333333334, | |
| "grad_norm": 11.554912066311884, | |
| "learning_rate": 8.426519384872732e-08, | |
| "loss": 1.7843, | |
| "step": 103 | |
| }, | |
| { | |
| "epoch": 8.666666666666666, | |
| "grad_norm": 10.155007940829105, | |
| "learning_rate": 7.539890923671061e-08, | |
| "loss": 1.5865, | |
| "step": 104 | |
| }, | |
| { | |
| "epoch": 8.75, | |
| "grad_norm": 10.243399871811297, | |
| "learning_rate": 6.698729810778064e-08, | |
| "loss": 1.5763, | |
| "step": 105 | |
| }, | |
| { | |
| "epoch": 8.833333333333334, | |
| "grad_norm": 10.99978193759172, | |
| "learning_rate": 5.9039367825822526e-08, | |
| "loss": 1.6479, | |
| "step": 106 | |
| }, | |
| { | |
| "epoch": 8.916666666666666, | |
| "grad_norm": 9.305487062892972, | |
| "learning_rate": 5.156362923365587e-08, | |
| "loss": 1.8857, | |
| "step": 107 | |
| }, | |
| { | |
| "epoch": 9.0, | |
| "grad_norm": 9.9206158235666, | |
| "learning_rate": 4.4568087539412045e-08, | |
| "loss": 1.6099, | |
| "step": 108 | |
| }, | |
| { | |
| "epoch": 9.083333333333334, | |
| "grad_norm": 10.912538591544648, | |
| "learning_rate": 3.806023374435663e-08, | |
| "loss": 1.7088, | |
| "step": 109 | |
| }, | |
| { | |
| "epoch": 9.166666666666666, | |
| "grad_norm": 11.184323613405448, | |
| "learning_rate": 3.2047036621337234e-08, | |
| "loss": 1.7825, | |
| "step": 110 | |
| }, | |
| { | |
| "epoch": 9.25, | |
| "grad_norm": 10.618819427665764, | |
| "learning_rate": 2.653493525244721e-08, | |
| "loss": 1.7963, | |
| "step": 111 | |
| }, | |
| { | |
| "epoch": 9.333333333333334, | |
| "grad_norm": 9.88961349898944, | |
| "learning_rate": 2.1529832133895588e-08, | |
| "loss": 1.7781, | |
| "step": 112 | |
| }, | |
| { | |
| "epoch": 9.416666666666666, | |
| "grad_norm": 9.18340232098422, | |
| "learning_rate": 1.7037086855465898e-08, | |
| "loss": 1.5241, | |
| "step": 113 | |
| }, | |
| { | |
| "epoch": 9.5, | |
| "grad_norm": 9.355130581738315, | |
| "learning_rate": 1.3061510361333183e-08, | |
| "loss": 1.9041, | |
| "step": 114 | |
| }, | |
| { | |
| "epoch": 9.583333333333334, | |
| "grad_norm": 9.298692644532725, | |
| "learning_rate": 9.607359798384784e-09, | |
| "loss": 1.6144, | |
| "step": 115 | |
| }, | |
| { | |
| "epoch": 9.666666666666666, | |
| "grad_norm": 9.199225570423533, | |
| "learning_rate": 6.678333957560511e-09, | |
| "loss": 1.7022, | |
| "step": 116 | |
| }, | |
| { | |
| "epoch": 9.75, | |
| "grad_norm": 11.017820995345215, | |
| "learning_rate": 4.277569313094809e-09, | |
| "loss": 1.7182, | |
| "step": 117 | |
| }, | |
| { | |
| "epoch": 9.833333333333334, | |
| "grad_norm": 9.570858551548751, | |
| "learning_rate": 2.407636663901591e-09, | |
| "loss": 1.4762, | |
| "step": 118 | |
| }, | |
| { | |
| "epoch": 9.916666666666666, | |
| "grad_norm": 10.034560931156904, | |
| "learning_rate": 1.0705383806982605e-09, | |
| "loss": 1.6282, | |
| "step": 119 | |
| }, | |
| { | |
| "epoch": 10.0, | |
| "grad_norm": 9.951214029441168, | |
| "learning_rate": 2.677062618171577e-10, | |
| "loss": 1.6644, | |
| "step": 120 | |
| }, | |
| { | |
| "epoch": 10.0, | |
| "step": 120, | |
| "total_flos": 24280399872.0, | |
| "train_loss": 3.0671890596548717, | |
| "train_runtime": 6479.7554, | |
| "train_samples_per_second": 0.14, | |
| "train_steps_per_second": 0.019 | |
| } | |
| ], | |
| "logging_steps": 1, | |
| "max_steps": 120, | |
| "num_input_tokens_seen": 0, | |
| "num_train_epochs": 10, | |
| "save_steps": 10000000000, | |
| "stateful_callbacks": { | |
| "TrainerControl": { | |
| "args": { | |
| "should_epoch_stop": false, | |
| "should_evaluate": false, | |
| "should_log": false, | |
| "should_save": true, | |
| "should_training_stop": true | |
| }, | |
| "attributes": {} | |
| } | |
| }, | |
| "total_flos": 24280399872.0, | |
| "train_batch_size": 2, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |