{ "best_global_step": null, "best_metric": null, "best_model_checkpoint": null, "epoch": 4.32, "eval_steps": 500, "global_step": 648, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.006666666666666667, "grad_norm": 2.1375420093536377, "learning_rate": 8.695652173913044e-07, "loss": 0.6337, "step": 1 }, { "epoch": 0.013333333333333334, "grad_norm": 1.3867141008377075, "learning_rate": 1.7391304347826088e-06, "loss": 0.4949, "step": 2 }, { "epoch": 0.02, "grad_norm": 2.0555808544158936, "learning_rate": 2.6086956521739132e-06, "loss": 0.8126, "step": 3 }, { "epoch": 0.02666666666666667, "grad_norm": 2.612351179122925, "learning_rate": 3.4782608695652175e-06, "loss": 0.7339, "step": 4 }, { "epoch": 0.03333333333333333, "grad_norm": 1.3486746549606323, "learning_rate": 4.347826086956522e-06, "loss": 0.2616, "step": 5 }, { "epoch": 0.04, "grad_norm": 1.0544432401657104, "learning_rate": 5.2173913043478265e-06, "loss": 0.3067, "step": 6 }, { "epoch": 0.04666666666666667, "grad_norm": 1.7482120990753174, "learning_rate": 6.086956521739132e-06, "loss": 0.5077, "step": 7 }, { "epoch": 0.05333333333333334, "grad_norm": 1.1587380170822144, "learning_rate": 6.956521739130435e-06, "loss": 0.3569, "step": 8 }, { "epoch": 0.06, "grad_norm": 0.9702258706092834, "learning_rate": 7.82608695652174e-06, "loss": 0.2481, "step": 9 }, { "epoch": 0.06666666666666667, "grad_norm": 2.1485090255737305, "learning_rate": 8.695652173913044e-06, "loss": 0.8677, "step": 10 }, { "epoch": 0.07333333333333333, "grad_norm": 1.8601247072219849, "learning_rate": 9.565217391304349e-06, "loss": 0.7287, "step": 11 }, { "epoch": 0.08, "grad_norm": 0.7620797753334045, "learning_rate": 1.0434782608695653e-05, "loss": 0.2058, "step": 12 }, { "epoch": 0.08666666666666667, "grad_norm": 1.5065464973449707, "learning_rate": 1.1304347826086957e-05, "loss": 0.3753, "step": 13 }, { "epoch": 0.09333333333333334, "grad_norm": 2.2056727409362793, "learning_rate": 1.2173913043478263e-05, "loss": 0.5868, "step": 14 }, { "epoch": 0.1, "grad_norm": 1.4034738540649414, "learning_rate": 1.3043478260869566e-05, "loss": 0.4816, "step": 15 }, { "epoch": 0.10666666666666667, "grad_norm": 1.3337379693984985, "learning_rate": 1.391304347826087e-05, "loss": 0.3676, "step": 16 }, { "epoch": 0.11333333333333333, "grad_norm": 1.246992588043213, "learning_rate": 1.4782608695652174e-05, "loss": 0.5706, "step": 17 }, { "epoch": 0.12, "grad_norm": 1.2821959257125854, "learning_rate": 1.565217391304348e-05, "loss": 0.3634, "step": 18 }, { "epoch": 0.12666666666666668, "grad_norm": 1.5053499937057495, "learning_rate": 1.6521739130434785e-05, "loss": 0.5677, "step": 19 }, { "epoch": 0.13333333333333333, "grad_norm": 1.814946174621582, "learning_rate": 1.739130434782609e-05, "loss": 0.3515, "step": 20 }, { "epoch": 0.14, "grad_norm": 1.469709873199463, "learning_rate": 1.8260869565217393e-05, "loss": 0.4288, "step": 21 }, { "epoch": 0.14666666666666667, "grad_norm": 2.078496217727661, "learning_rate": 1.9130434782608697e-05, "loss": 0.5581, "step": 22 }, { "epoch": 0.15333333333333332, "grad_norm": 0.9332765340805054, "learning_rate": 2e-05, "loss": 0.2232, "step": 23 }, { "epoch": 0.16, "grad_norm": 2.065216064453125, "learning_rate": 1.999991596837507e-05, "loss": 0.615, "step": 24 }, { "epoch": 0.16666666666666666, "grad_norm": 1.0639126300811768, "learning_rate": 1.999966387506947e-05, "loss": 0.4299, "step": 25 }, { "epoch": 0.17333333333333334, "grad_norm": 1.2220447063446045, "learning_rate": 1.9999243724790705e-05, "loss": 0.333, "step": 26 }, { "epoch": 0.18, "grad_norm": 1.0556367635726929, "learning_rate": 1.9998655525384534e-05, "loss": 0.2706, "step": 27 }, { "epoch": 0.18666666666666668, "grad_norm": 1.2605373859405518, "learning_rate": 1.999789928783482e-05, "loss": 0.3138, "step": 28 }, { "epoch": 0.19333333333333333, "grad_norm": 1.5340529680252075, "learning_rate": 1.9996975026263304e-05, "loss": 0.2929, "step": 29 }, { "epoch": 0.2, "grad_norm": 1.2613033056259155, "learning_rate": 1.9995882757929367e-05, "loss": 0.4769, "step": 30 }, { "epoch": 0.20666666666666667, "grad_norm": 1.3187987804412842, "learning_rate": 1.9994622503229694e-05, "loss": 0.3597, "step": 31 }, { "epoch": 0.21333333333333335, "grad_norm": 1.2319542169570923, "learning_rate": 1.9993194285697898e-05, "loss": 0.394, "step": 32 }, { "epoch": 0.22, "grad_norm": 1.3756078481674194, "learning_rate": 1.9991598132004072e-05, "loss": 0.4712, "step": 33 }, { "epoch": 0.22666666666666666, "grad_norm": 1.537395715713501, "learning_rate": 1.998983407195431e-05, "loss": 0.7394, "step": 34 }, { "epoch": 0.23333333333333334, "grad_norm": 2.503176212310791, "learning_rate": 1.9987902138490118e-05, "loss": 0.7219, "step": 35 }, { "epoch": 0.24, "grad_norm": 2.753596544265747, "learning_rate": 1.9985802367687844e-05, "loss": 0.7032, "step": 36 }, { "epoch": 0.24666666666666667, "grad_norm": 1.8421489000320435, "learning_rate": 1.9983534798757964e-05, "loss": 0.6088, "step": 37 }, { "epoch": 0.25333333333333335, "grad_norm": 1.8208023309707642, "learning_rate": 1.9981099474044362e-05, "loss": 0.4845, "step": 38 }, { "epoch": 0.26, "grad_norm": 1.356024146080017, "learning_rate": 1.997849643902355e-05, "loss": 0.487, "step": 39 }, { "epoch": 0.26666666666666666, "grad_norm": 1.470805048942566, "learning_rate": 1.997572574230381e-05, "loss": 0.54, "step": 40 }, { "epoch": 0.2733333333333333, "grad_norm": 1.4851891994476318, "learning_rate": 1.9972787435624282e-05, "loss": 0.4076, "step": 41 }, { "epoch": 0.28, "grad_norm": 0.803066074848175, "learning_rate": 1.996968157385401e-05, "loss": 0.1891, "step": 42 }, { "epoch": 0.2866666666666667, "grad_norm": 1.5581703186035156, "learning_rate": 1.996640821499091e-05, "loss": 0.3365, "step": 43 }, { "epoch": 0.29333333333333333, "grad_norm": 1.6261980533599854, "learning_rate": 1.9962967420160683e-05, "loss": 0.4267, "step": 44 }, { "epoch": 0.3, "grad_norm": 1.4385892152786255, "learning_rate": 1.9959359253615676e-05, "loss": 0.3899, "step": 45 }, { "epoch": 0.30666666666666664, "grad_norm": 1.3031079769134521, "learning_rate": 1.9955583782733693e-05, "loss": 0.4338, "step": 46 }, { "epoch": 0.31333333333333335, "grad_norm": 1.2695931196212769, "learning_rate": 1.9951641078016725e-05, "loss": 0.6285, "step": 47 }, { "epoch": 0.32, "grad_norm": 1.1178261041641235, "learning_rate": 1.994753121308963e-05, "loss": 0.4285, "step": 48 }, { "epoch": 0.32666666666666666, "grad_norm": 1.6929885149002075, "learning_rate": 1.9943254264698775e-05, "loss": 0.4132, "step": 49 }, { "epoch": 0.3333333333333333, "grad_norm": 0.9805382490158081, "learning_rate": 1.9938810312710585e-05, "loss": 0.3083, "step": 50 }, { "epoch": 0.34, "grad_norm": 0.9645007848739624, "learning_rate": 1.993419944011006e-05, "loss": 0.1915, "step": 51 }, { "epoch": 0.3466666666666667, "grad_norm": 1.752095103263855, "learning_rate": 1.992942173299923e-05, "loss": 0.4278, "step": 52 }, { "epoch": 0.35333333333333333, "grad_norm": 1.3025977611541748, "learning_rate": 1.9924477280595533e-05, "loss": 0.3838, "step": 53 }, { "epoch": 0.36, "grad_norm": 1.117335557937622, "learning_rate": 1.9919366175230163e-05, "loss": 0.392, "step": 54 }, { "epoch": 0.36666666666666664, "grad_norm": 1.9283711910247803, "learning_rate": 1.9914088512346344e-05, "loss": 0.632, "step": 55 }, { "epoch": 0.37333333333333335, "grad_norm": 1.0203382968902588, "learning_rate": 1.9908644390497535e-05, "loss": 0.205, "step": 56 }, { "epoch": 0.38, "grad_norm": 0.7649632692337036, "learning_rate": 1.9903033911345607e-05, "loss": 0.2475, "step": 57 }, { "epoch": 0.38666666666666666, "grad_norm": 1.1519532203674316, "learning_rate": 1.9897257179658936e-05, "loss": 0.4095, "step": 58 }, { "epoch": 0.3933333333333333, "grad_norm": 1.232419729232788, "learning_rate": 1.9891314303310435e-05, "loss": 0.4682, "step": 59 }, { "epoch": 0.4, "grad_norm": 1.3041213750839233, "learning_rate": 1.9885205393275572e-05, "loss": 0.5696, "step": 60 }, { "epoch": 0.4066666666666667, "grad_norm": 1.5985859632492065, "learning_rate": 1.9878930563630257e-05, "loss": 0.3258, "step": 61 }, { "epoch": 0.41333333333333333, "grad_norm": 1.4802793264389038, "learning_rate": 1.9872489931548743e-05, "loss": 0.4622, "step": 62 }, { "epoch": 0.42, "grad_norm": 1.4201364517211914, "learning_rate": 1.9865883617301433e-05, "loss": 0.3725, "step": 63 }, { "epoch": 0.4266666666666667, "grad_norm": 0.6913735270500183, "learning_rate": 1.9859111744252615e-05, "loss": 0.3119, "step": 64 }, { "epoch": 0.43333333333333335, "grad_norm": 1.1920121908187866, "learning_rate": 1.9852174438858177e-05, "loss": 0.3138, "step": 65 }, { "epoch": 0.44, "grad_norm": 1.9476704597473145, "learning_rate": 1.9845071830663237e-05, "loss": 0.6468, "step": 66 }, { "epoch": 0.44666666666666666, "grad_norm": 1.4647783041000366, "learning_rate": 1.9837804052299737e-05, "loss": 0.5353, "step": 67 }, { "epoch": 0.4533333333333333, "grad_norm": 1.4652175903320312, "learning_rate": 1.9830371239483942e-05, "loss": 0.5751, "step": 68 }, { "epoch": 0.46, "grad_norm": 1.1322413682937622, "learning_rate": 1.9822773531013932e-05, "loss": 0.3728, "step": 69 }, { "epoch": 0.4666666666666667, "grad_norm": 1.4815658330917358, "learning_rate": 1.9815011068766996e-05, "loss": 0.5075, "step": 70 }, { "epoch": 0.47333333333333333, "grad_norm": 1.5985065698623657, "learning_rate": 1.9807083997696977e-05, "loss": 0.3835, "step": 71 }, { "epoch": 0.48, "grad_norm": 1.1205939054489136, "learning_rate": 1.979899246583158e-05, "loss": 0.5067, "step": 72 }, { "epoch": 0.4866666666666667, "grad_norm": 0.9271765947341919, "learning_rate": 1.9790736624269596e-05, "loss": 0.2899, "step": 73 }, { "epoch": 0.49333333333333335, "grad_norm": 1.379699468612671, "learning_rate": 1.9782316627178088e-05, "loss": 0.5131, "step": 74 }, { "epoch": 0.5, "grad_norm": 1.1322109699249268, "learning_rate": 1.977373263178951e-05, "loss": 0.4466, "step": 75 }, { "epoch": 0.5066666666666667, "grad_norm": 1.5308328866958618, "learning_rate": 1.9764984798398773e-05, "loss": 0.5935, "step": 76 }, { "epoch": 0.5133333333333333, "grad_norm": 1.3057100772857666, "learning_rate": 1.9756073290360236e-05, "loss": 0.3564, "step": 77 }, { "epoch": 0.52, "grad_norm": 1.281868815422058, "learning_rate": 1.9746998274084683e-05, "loss": 0.3617, "step": 78 }, { "epoch": 0.5266666666666666, "grad_norm": 1.5658316612243652, "learning_rate": 1.9737759919036196e-05, "loss": 0.6316, "step": 79 }, { "epoch": 0.5333333333333333, "grad_norm": 1.439375400543213, "learning_rate": 1.972835839772899e-05, "loss": 0.6616, "step": 80 }, { "epoch": 0.54, "grad_norm": 1.483205795288086, "learning_rate": 1.9718793885724202e-05, "loss": 0.5403, "step": 81 }, { "epoch": 0.5466666666666666, "grad_norm": 1.778740406036377, "learning_rate": 1.970906656162661e-05, "loss": 0.7721, "step": 82 }, { "epoch": 0.5533333333333333, "grad_norm": 0.937252402305603, "learning_rate": 1.9699176607081287e-05, "loss": 0.2401, "step": 83 }, { "epoch": 0.56, "grad_norm": 1.55841064453125, "learning_rate": 1.9689124206770222e-05, "loss": 0.5495, "step": 84 }, { "epoch": 0.5666666666666667, "grad_norm": 1.2646422386169434, "learning_rate": 1.9678909548408873e-05, "loss": 0.6683, "step": 85 }, { "epoch": 0.5733333333333334, "grad_norm": 1.0748180150985718, "learning_rate": 1.9668532822742642e-05, "loss": 0.6502, "step": 86 }, { "epoch": 0.58, "grad_norm": 1.4940849542617798, "learning_rate": 1.965799422354334e-05, "loss": 0.6965, "step": 87 }, { "epoch": 0.5866666666666667, "grad_norm": 1.8773472309112549, "learning_rate": 1.964729394760554e-05, "loss": 0.9707, "step": 88 }, { "epoch": 0.5933333333333334, "grad_norm": 1.481740951538086, "learning_rate": 1.9636432194742935e-05, "loss": 0.6744, "step": 89 }, { "epoch": 0.6, "grad_norm": 1.9039676189422607, "learning_rate": 1.9625409167784567e-05, "loss": 0.5523, "step": 90 }, { "epoch": 0.6066666666666667, "grad_norm": 2.01161789894104, "learning_rate": 1.961422507257108e-05, "loss": 0.6468, "step": 91 }, { "epoch": 0.6133333333333333, "grad_norm": 1.891059160232544, "learning_rate": 1.9602880117950853e-05, "loss": 0.5114, "step": 92 }, { "epoch": 0.62, "grad_norm": 1.6588637828826904, "learning_rate": 1.9591374515776097e-05, "loss": 0.7309, "step": 93 }, { "epoch": 0.6266666666666667, "grad_norm": 1.320695161819458, "learning_rate": 1.9579708480898914e-05, "loss": 0.5601, "step": 94 }, { "epoch": 0.6333333333333333, "grad_norm": 1.2667829990386963, "learning_rate": 1.9567882231167272e-05, "loss": 0.7936, "step": 95 }, { "epoch": 0.64, "grad_norm": 1.051637887954712, "learning_rate": 1.9555895987420947e-05, "loss": 0.3095, "step": 96 }, { "epoch": 0.6466666666666666, "grad_norm": 1.4688889980316162, "learning_rate": 1.954374997348739e-05, "loss": 0.7503, "step": 97 }, { "epoch": 0.6533333333333333, "grad_norm": 1.4855245351791382, "learning_rate": 1.9531444416177558e-05, "loss": 0.4592, "step": 98 }, { "epoch": 0.66, "grad_norm": 1.0585805177688599, "learning_rate": 1.951897954528166e-05, "loss": 0.3554, "step": 99 }, { "epoch": 0.6666666666666666, "grad_norm": 1.1536904573440552, "learning_rate": 1.9506355593564898e-05, "loss": 0.3669, "step": 100 }, { "epoch": 0.6733333333333333, "grad_norm": 0.9789953827857971, "learning_rate": 1.949357279676308e-05, "loss": 0.2606, "step": 101 }, { "epoch": 0.68, "grad_norm": 0.9956246018409729, "learning_rate": 1.9480631393578246e-05, "loss": 0.2972, "step": 102 }, { "epoch": 0.6866666666666666, "grad_norm": 0.9574293494224548, "learning_rate": 1.946753162567421e-05, "loss": 0.3348, "step": 103 }, { "epoch": 0.6933333333333334, "grad_norm": 1.3523496389389038, "learning_rate": 1.9454273737672033e-05, "loss": 0.5854, "step": 104 }, { "epoch": 0.7, "grad_norm": 1.3378841876983643, "learning_rate": 1.9440857977145463e-05, "loss": 0.5229, "step": 105 }, { "epoch": 0.7066666666666667, "grad_norm": 1.2634233236312866, "learning_rate": 1.9427284594616315e-05, "loss": 0.5069, "step": 106 }, { "epoch": 0.7133333333333334, "grad_norm": 1.3043968677520752, "learning_rate": 1.9413553843549783e-05, "loss": 0.4777, "step": 107 }, { "epoch": 0.72, "grad_norm": 1.2690622806549072, "learning_rate": 1.939966598034972e-05, "loss": 0.5222, "step": 108 }, { "epoch": 0.7266666666666667, "grad_norm": 0.7248203754425049, "learning_rate": 1.938562126435384e-05, "loss": 0.2711, "step": 109 }, { "epoch": 0.7333333333333333, "grad_norm": 1.478192687034607, "learning_rate": 1.937141995782888e-05, "loss": 0.6443, "step": 110 }, { "epoch": 0.74, "grad_norm": 1.3677293062210083, "learning_rate": 1.935706232596569e-05, "loss": 0.5191, "step": 111 }, { "epoch": 0.7466666666666667, "grad_norm": 1.9942638874053955, "learning_rate": 1.9342548636874306e-05, "loss": 0.3518, "step": 112 }, { "epoch": 0.7533333333333333, "grad_norm": 1.235351800918579, "learning_rate": 1.9327879161578925e-05, "loss": 0.5076, "step": 113 }, { "epoch": 0.76, "grad_norm": 1.0605601072311401, "learning_rate": 1.9313054174012843e-05, "loss": 0.2477, "step": 114 }, { "epoch": 0.7666666666666667, "grad_norm": 0.9347406029701233, "learning_rate": 1.9298073951013347e-05, "loss": 0.1881, "step": 115 }, { "epoch": 0.7733333333333333, "grad_norm": 1.2547634840011597, "learning_rate": 1.9282938772316546e-05, "loss": 0.7121, "step": 116 }, { "epoch": 0.78, "grad_norm": 1.9678044319152832, "learning_rate": 1.926764892055214e-05, "loss": 0.5544, "step": 117 }, { "epoch": 0.7866666666666666, "grad_norm": 1.6250430345535278, "learning_rate": 1.925220468123815e-05, "loss": 0.6912, "step": 118 }, { "epoch": 0.7933333333333333, "grad_norm": 2.5969297885894775, "learning_rate": 1.9236606342775587e-05, "loss": 0.7151, "step": 119 }, { "epoch": 0.8, "grad_norm": 1.6487793922424316, "learning_rate": 1.9220854196443043e-05, "loss": 0.6429, "step": 120 }, { "epoch": 0.8066666666666666, "grad_norm": 1.015533447265625, "learning_rate": 1.92049485363913e-05, "loss": 0.3685, "step": 121 }, { "epoch": 0.8133333333333334, "grad_norm": 1.0150421857833862, "learning_rate": 1.9188889659637785e-05, "loss": 0.3759, "step": 122 }, { "epoch": 0.82, "grad_norm": 1.318854570388794, "learning_rate": 1.9172677866061055e-05, "loss": 0.2665, "step": 123 }, { "epoch": 0.8266666666666667, "grad_norm": 1.4001891613006592, "learning_rate": 1.9156313458395194e-05, "loss": 0.4919, "step": 124 }, { "epoch": 0.8333333333333334, "grad_norm": 1.5555373430252075, "learning_rate": 1.9139796742224148e-05, "loss": 0.6645, "step": 125 }, { "epoch": 0.84, "grad_norm": 1.693493366241455, "learning_rate": 1.912312802597603e-05, "loss": 0.5109, "step": 126 }, { "epoch": 0.8466666666666667, "grad_norm": 1.7915582656860352, "learning_rate": 1.910630762091735e-05, "loss": 0.3969, "step": 127 }, { "epoch": 0.8533333333333334, "grad_norm": 2.0322561264038086, "learning_rate": 1.9089335841147213e-05, "loss": 1.0327, "step": 128 }, { "epoch": 0.86, "grad_norm": 1.2844659090042114, "learning_rate": 1.9072213003591453e-05, "loss": 0.4539, "step": 129 }, { "epoch": 0.8666666666666667, "grad_norm": 1.2939919233322144, "learning_rate": 1.9054939427996698e-05, "loss": 0.2601, "step": 130 }, { "epoch": 0.8733333333333333, "grad_norm": 1.130388855934143, "learning_rate": 1.903751543692443e-05, "loss": 0.2817, "step": 131 }, { "epoch": 0.88, "grad_norm": 1.6023472547531128, "learning_rate": 1.9019941355744923e-05, "loss": 0.5606, "step": 132 }, { "epoch": 0.8866666666666667, "grad_norm": 1.2601792812347412, "learning_rate": 1.900221751263121e-05, "loss": 0.4864, "step": 133 }, { "epoch": 0.8933333333333333, "grad_norm": 1.3938170671463013, "learning_rate": 1.8984344238552912e-05, "loss": 0.2505, "step": 134 }, { "epoch": 0.9, "grad_norm": 1.1963953971862793, "learning_rate": 1.896632186727009e-05, "loss": 0.5056, "step": 135 }, { "epoch": 0.9066666666666666, "grad_norm": 1.211414098739624, "learning_rate": 1.8948150735327004e-05, "loss": 0.4258, "step": 136 }, { "epoch": 0.9133333333333333, "grad_norm": 1.3093147277832031, "learning_rate": 1.8929831182045816e-05, "loss": 0.423, "step": 137 }, { "epoch": 0.92, "grad_norm": 1.446154236793518, "learning_rate": 1.891136354952026e-05, "loss": 0.5993, "step": 138 }, { "epoch": 0.9266666666666666, "grad_norm": 1.2222667932510376, "learning_rate": 1.8892748182609276e-05, "loss": 0.4825, "step": 139 }, { "epoch": 0.9333333333333333, "grad_norm": 1.3734275102615356, "learning_rate": 1.8873985428930523e-05, "loss": 0.4597, "step": 140 }, { "epoch": 0.94, "grad_norm": 1.3745826482772827, "learning_rate": 1.885507563885394e-05, "loss": 0.3534, "step": 141 }, { "epoch": 0.9466666666666667, "grad_norm": 1.0396696329116821, "learning_rate": 1.883601916549516e-05, "loss": 0.2591, "step": 142 }, { "epoch": 0.9533333333333334, "grad_norm": 1.2262800931930542, "learning_rate": 1.881681636470895e-05, "loss": 0.6013, "step": 143 }, { "epoch": 0.96, "grad_norm": 0.9334357976913452, "learning_rate": 1.879746759508254e-05, "loss": 0.189, "step": 144 }, { "epoch": 0.9666666666666667, "grad_norm": 0.9975462555885315, "learning_rate": 1.8777973217928948e-05, "loss": 0.3069, "step": 145 }, { "epoch": 0.9733333333333334, "grad_norm": 1.211124300956726, "learning_rate": 1.875833359728021e-05, "loss": 0.406, "step": 146 }, { "epoch": 0.98, "grad_norm": 1.4741225242614746, "learning_rate": 1.87385490998806e-05, "loss": 0.5005, "step": 147 }, { "epoch": 0.9866666666666667, "grad_norm": 0.9569060802459717, "learning_rate": 1.8718620095179783e-05, "loss": 0.2188, "step": 148 }, { "epoch": 0.9933333333333333, "grad_norm": 1.4691638946533203, "learning_rate": 1.86985469553259e-05, "loss": 0.5834, "step": 149 }, { "epoch": 1.0, "grad_norm": 1.1948105096817017, "learning_rate": 1.8678330055158625e-05, "loss": 0.3058, "step": 150 }, { "epoch": 1.0066666666666666, "grad_norm": 1.1320759057998657, "learning_rate": 1.8657969772202182e-05, "loss": 0.3591, "step": 151 }, { "epoch": 1.0133333333333334, "grad_norm": 0.9014932513237, "learning_rate": 1.863746648665827e-05, "loss": 0.2829, "step": 152 }, { "epoch": 1.02, "grad_norm": 1.4449048042297363, "learning_rate": 1.861682058139898e-05, "loss": 0.5636, "step": 153 }, { "epoch": 1.0266666666666666, "grad_norm": 0.9455937743186951, "learning_rate": 1.8596032441959634e-05, "loss": 0.3461, "step": 154 }, { "epoch": 1.0333333333333334, "grad_norm": 1.3910088539123535, "learning_rate": 1.8575102456531602e-05, "loss": 0.6239, "step": 155 }, { "epoch": 1.04, "grad_norm": 1.3249852657318115, "learning_rate": 1.8554031015955028e-05, "loss": 0.5565, "step": 156 }, { "epoch": 1.0466666666666666, "grad_norm": 1.2149033546447754, "learning_rate": 1.853281851371156e-05, "loss": 0.4763, "step": 157 }, { "epoch": 1.0533333333333332, "grad_norm": 1.4447301626205444, "learning_rate": 1.8511465345916988e-05, "loss": 0.4467, "step": 158 }, { "epoch": 1.06, "grad_norm": 1.64676034450531, "learning_rate": 1.848997191131383e-05, "loss": 0.3383, "step": 159 }, { "epoch": 1.0666666666666667, "grad_norm": 1.7825281620025635, "learning_rate": 1.8468338611263923e-05, "loss": 0.4622, "step": 160 }, { "epoch": 1.0733333333333333, "grad_norm": 4.348494052886963, "learning_rate": 1.8446565849740903e-05, "loss": 0.3509, "step": 161 }, { "epoch": 1.08, "grad_norm": 1.304581880569458, "learning_rate": 1.842465403332266e-05, "loss": 0.4308, "step": 162 }, { "epoch": 1.0866666666666667, "grad_norm": 2.1287167072296143, "learning_rate": 1.8402603571183766e-05, "loss": 0.4359, "step": 163 }, { "epoch": 1.0933333333333333, "grad_norm": 1.2464728355407715, "learning_rate": 1.838041487508781e-05, "loss": 0.493, "step": 164 }, { "epoch": 1.1, "grad_norm": 1.1451174020767212, "learning_rate": 1.835808835937972e-05, "loss": 0.5766, "step": 165 }, { "epoch": 1.1066666666666667, "grad_norm": 1.1933729648590088, "learning_rate": 1.833562444097802e-05, "loss": 0.3886, "step": 166 }, { "epoch": 1.1133333333333333, "grad_norm": 0.916282594203949, "learning_rate": 1.831302353936708e-05, "loss": 0.3395, "step": 167 }, { "epoch": 1.12, "grad_norm": 1.248387098312378, "learning_rate": 1.8290286076589212e-05, "loss": 0.3477, "step": 168 }, { "epoch": 1.1266666666666667, "grad_norm": 2.040144920349121, "learning_rate": 1.8267412477236855e-05, "loss": 0.6722, "step": 169 }, { "epoch": 1.1333333333333333, "grad_norm": 3.5974485874176025, "learning_rate": 1.824440316844461e-05, "loss": 0.5693, "step": 170 }, { "epoch": 1.1400000000000001, "grad_norm": 1.369241714477539, "learning_rate": 1.8221258579881286e-05, "loss": 0.6999, "step": 171 }, { "epoch": 1.1466666666666667, "grad_norm": 1.1438101530075073, "learning_rate": 1.8197979143741847e-05, "loss": 0.4588, "step": 172 }, { "epoch": 1.1533333333333333, "grad_norm": 1.1206167936325073, "learning_rate": 1.817456529473938e-05, "loss": 0.3783, "step": 173 }, { "epoch": 1.16, "grad_norm": 0.9800361394882202, "learning_rate": 1.815101747009694e-05, "loss": 0.2017, "step": 174 }, { "epoch": 1.1666666666666667, "grad_norm": 0.9270554184913635, "learning_rate": 1.8127336109539412e-05, "loss": 0.4449, "step": 175 }, { "epoch": 1.1733333333333333, "grad_norm": 1.3902397155761719, "learning_rate": 1.8103521655285282e-05, "loss": 0.3596, "step": 176 }, { "epoch": 1.18, "grad_norm": 0.6287861466407776, "learning_rate": 1.8079574552038397e-05, "loss": 0.1432, "step": 177 }, { "epoch": 1.1866666666666668, "grad_norm": 0.9718913435935974, "learning_rate": 1.8055495246979645e-05, "loss": 0.3516, "step": 178 }, { "epoch": 1.1933333333333334, "grad_norm": 0.9533777832984924, "learning_rate": 1.803128418975861e-05, "loss": 0.352, "step": 179 }, { "epoch": 1.2, "grad_norm": 0.9674003720283508, "learning_rate": 1.8006941832485174e-05, "loss": 0.4614, "step": 180 }, { "epoch": 1.2066666666666666, "grad_norm": 1.3588773012161255, "learning_rate": 1.798246862972108e-05, "loss": 0.3159, "step": 181 }, { "epoch": 1.2133333333333334, "grad_norm": 1.5350672006607056, "learning_rate": 1.795786503847144e-05, "loss": 0.7129, "step": 182 }, { "epoch": 1.22, "grad_norm": 0.9531151056289673, "learning_rate": 1.7933131518176194e-05, "loss": 0.2486, "step": 183 }, { "epoch": 1.2266666666666666, "grad_norm": 0.45034581422805786, "learning_rate": 1.790826853070155e-05, "loss": 0.1061, "step": 184 }, { "epoch": 1.2333333333333334, "grad_norm": 0.9796707034111023, "learning_rate": 1.7883276540331333e-05, "loss": 0.3613, "step": 185 }, { "epoch": 1.24, "grad_norm": 1.3566935062408447, "learning_rate": 1.7858156013758333e-05, "loss": 0.593, "step": 186 }, { "epoch": 1.2466666666666666, "grad_norm": 1.1837201118469238, "learning_rate": 1.783290742007559e-05, "loss": 0.3495, "step": 187 }, { "epoch": 1.2533333333333334, "grad_norm": 1.8410696983337402, "learning_rate": 1.7807531230767628e-05, "loss": 0.9237, "step": 188 }, { "epoch": 1.26, "grad_norm": 0.9960632920265198, "learning_rate": 1.7782027919701646e-05, "loss": 0.3333, "step": 189 }, { "epoch": 1.2666666666666666, "grad_norm": 1.4033161401748657, "learning_rate": 1.775639796311869e-05, "loss": 0.5075, "step": 190 }, { "epoch": 1.2733333333333334, "grad_norm": 1.4755662679672241, "learning_rate": 1.7730641839624738e-05, "loss": 0.4519, "step": 191 }, { "epoch": 1.28, "grad_norm": 1.597719430923462, "learning_rate": 1.7704760030181757e-05, "loss": 0.5983, "step": 192 }, { "epoch": 1.2866666666666666, "grad_norm": 1.7625118494033813, "learning_rate": 1.7678753018098762e-05, "loss": 0.5879, "step": 193 }, { "epoch": 1.2933333333333334, "grad_norm": 1.2640427350997925, "learning_rate": 1.765262128902274e-05, "loss": 0.2558, "step": 194 }, { "epoch": 1.3, "grad_norm": 1.67387855052948, "learning_rate": 1.7626365330929622e-05, "loss": 0.4961, "step": 195 }, { "epoch": 1.3066666666666666, "grad_norm": 0.45266011357307434, "learning_rate": 1.759998563411514e-05, "loss": 0.1, "step": 196 }, { "epoch": 1.3133333333333335, "grad_norm": 1.11092209815979, "learning_rate": 1.7573482691185696e-05, "loss": 0.538, "step": 197 }, { "epoch": 1.32, "grad_norm": 1.505696177482605, "learning_rate": 1.7546856997049146e-05, "loss": 0.6605, "step": 198 }, { "epoch": 1.3266666666666667, "grad_norm": 1.3943895101547241, "learning_rate": 1.7520109048905568e-05, "loss": 0.6217, "step": 199 }, { "epoch": 1.3333333333333333, "grad_norm": 1.5668399333953857, "learning_rate": 1.7493239346237965e-05, "loss": 0.6787, "step": 200 }, { "epoch": 1.34, "grad_norm": 1.3335319757461548, "learning_rate": 1.7466248390802964e-05, "loss": 0.5902, "step": 201 }, { "epoch": 1.3466666666666667, "grad_norm": 6.383098602294922, "learning_rate": 1.7439136686621416e-05, "loss": 0.4211, "step": 202 }, { "epoch": 1.3533333333333333, "grad_norm": 1.140836238861084, "learning_rate": 1.7411904739968995e-05, "loss": 0.4312, "step": 203 }, { "epoch": 1.3599999999999999, "grad_norm": 1.1934757232666016, "learning_rate": 1.7384553059366758e-05, "loss": 0.3965, "step": 204 }, { "epoch": 1.3666666666666667, "grad_norm": 1.870481014251709, "learning_rate": 1.735708215557163e-05, "loss": 0.4525, "step": 205 }, { "epoch": 1.3733333333333333, "grad_norm": 0.9946874380111694, "learning_rate": 1.7329492541566865e-05, "loss": 0.3907, "step": 206 }, { "epoch": 1.38, "grad_norm": 1.037879228591919, "learning_rate": 1.7301784732552494e-05, "loss": 0.2094, "step": 207 }, { "epoch": 1.3866666666666667, "grad_norm": 0.8867761492729187, "learning_rate": 1.727395924593568e-05, "loss": 0.292, "step": 208 }, { "epoch": 1.3933333333333333, "grad_norm": 1.338649034500122, "learning_rate": 1.7246016601321047e-05, "loss": 0.5353, "step": 209 }, { "epoch": 1.4, "grad_norm": 1.353572964668274, "learning_rate": 1.7217957320501003e-05, "loss": 0.5069, "step": 210 }, { "epoch": 1.4066666666666667, "grad_norm": 1.1685672998428345, "learning_rate": 1.7189781927445994e-05, "loss": 0.3327, "step": 211 }, { "epoch": 1.4133333333333333, "grad_norm": 1.3291776180267334, "learning_rate": 1.7161490948294687e-05, "loss": 0.6335, "step": 212 }, { "epoch": 1.42, "grad_norm": 1.2127482891082764, "learning_rate": 1.7133084911344188e-05, "loss": 0.493, "step": 213 }, { "epoch": 1.4266666666666667, "grad_norm": 1.2240782976150513, "learning_rate": 1.710456434704015e-05, "loss": 0.5325, "step": 214 }, { "epoch": 1.4333333333333333, "grad_norm": 1.698709487915039, "learning_rate": 1.707592978796688e-05, "loss": 0.4999, "step": 215 }, { "epoch": 1.44, "grad_norm": 1.0113152265548706, "learning_rate": 1.7047181768837376e-05, "loss": 0.2821, "step": 216 }, { "epoch": 1.4466666666666668, "grad_norm": 0.9742848873138428, "learning_rate": 1.7018320826483373e-05, "loss": 0.4345, "step": 217 }, { "epoch": 1.4533333333333334, "grad_norm": 1.7382066249847412, "learning_rate": 1.6989347499845284e-05, "loss": 0.6513, "step": 218 }, { "epoch": 1.46, "grad_norm": 1.3588602542877197, "learning_rate": 1.6960262329962152e-05, "loss": 0.662, "step": 219 }, { "epoch": 1.4666666666666668, "grad_norm": 1.4204033613204956, "learning_rate": 1.693106585996156e-05, "loss": 0.4216, "step": 220 }, { "epoch": 1.4733333333333334, "grad_norm": 1.6735905408859253, "learning_rate": 1.6901758635049464e-05, "loss": 0.5573, "step": 221 }, { "epoch": 1.48, "grad_norm": 1.4119937419891357, "learning_rate": 1.6872341202500028e-05, "loss": 0.4, "step": 222 }, { "epoch": 1.4866666666666668, "grad_norm": 0.8888566493988037, "learning_rate": 1.6842814111645392e-05, "loss": 0.1802, "step": 223 }, { "epoch": 1.4933333333333334, "grad_norm": 1.1101222038269043, "learning_rate": 1.6813177913865436e-05, "loss": 0.3547, "step": 224 }, { "epoch": 1.5, "grad_norm": 1.1994966268539429, "learning_rate": 1.6783433162577457e-05, "loss": 0.4721, "step": 225 }, { "epoch": 1.5066666666666668, "grad_norm": 0.8427855968475342, "learning_rate": 1.6753580413225854e-05, "loss": 0.3638, "step": 226 }, { "epoch": 1.5133333333333332, "grad_norm": 1.6891529560089111, "learning_rate": 1.6723620223271747e-05, "loss": 0.3422, "step": 227 }, { "epoch": 1.52, "grad_norm": 1.614018201828003, "learning_rate": 1.669355315218256e-05, "loss": 0.5234, "step": 228 }, { "epoch": 1.5266666666666666, "grad_norm": 1.6598495244979858, "learning_rate": 1.6663379761421602e-05, "loss": 0.6544, "step": 229 }, { "epoch": 1.5333333333333332, "grad_norm": 1.2119078636169434, "learning_rate": 1.6633100614437546e-05, "loss": 0.4101, "step": 230 }, { "epoch": 1.54, "grad_norm": 1.2607935667037964, "learning_rate": 1.660271627665393e-05, "loss": 0.5589, "step": 231 }, { "epoch": 1.5466666666666666, "grad_norm": 1.1111940145492554, "learning_rate": 1.6572227315458594e-05, "loss": 0.3733, "step": 232 }, { "epoch": 1.5533333333333332, "grad_norm": 1.5404767990112305, "learning_rate": 1.6541634300193085e-05, "loss": 0.3923, "step": 233 }, { "epoch": 1.56, "grad_norm": 0.8019644618034363, "learning_rate": 1.6510937802142023e-05, "loss": 0.1475, "step": 234 }, { "epoch": 1.5666666666666667, "grad_norm": 1.1884678602218628, "learning_rate": 1.6480138394522423e-05, "loss": 0.5737, "step": 235 }, { "epoch": 1.5733333333333333, "grad_norm": 0.7711490988731384, "learning_rate": 1.6449236652473023e-05, "loss": 0.4035, "step": 236 }, { "epoch": 1.58, "grad_norm": 0.9433121681213379, "learning_rate": 1.6418233153043504e-05, "loss": 0.2971, "step": 237 }, { "epoch": 1.5866666666666667, "grad_norm": 1.5755349397659302, "learning_rate": 1.6387128475183743e-05, "loss": 0.6917, "step": 238 }, { "epoch": 1.5933333333333333, "grad_norm": 0.8864415287971497, "learning_rate": 1.6355923199732988e-05, "loss": 0.3182, "step": 239 }, { "epoch": 1.6, "grad_norm": 1.2354004383087158, "learning_rate": 1.6324617909409022e-05, "loss": 0.3832, "step": 240 }, { "epoch": 1.6066666666666667, "grad_norm": 1.0824851989746094, "learning_rate": 1.6293213188797265e-05, "loss": 0.5409, "step": 241 }, { "epoch": 1.6133333333333333, "grad_norm": 1.129772663116455, "learning_rate": 1.6261709624339876e-05, "loss": 0.3416, "step": 242 }, { "epoch": 1.62, "grad_norm": 1.2783231735229492, "learning_rate": 1.6230107804324792e-05, "loss": 0.4821, "step": 243 }, { "epoch": 1.6266666666666667, "grad_norm": 0.8684279918670654, "learning_rate": 1.6198408318874744e-05, "loss": 0.3528, "step": 244 }, { "epoch": 1.6333333333333333, "grad_norm": 1.0495837926864624, "learning_rate": 1.6166611759936234e-05, "loss": 0.4966, "step": 245 }, { "epoch": 1.6400000000000001, "grad_norm": 1.158725619316101, "learning_rate": 1.6134718721268486e-05, "loss": 0.255, "step": 246 }, { "epoch": 1.6466666666666665, "grad_norm": 1.063276767730713, "learning_rate": 1.6102729798432362e-05, "loss": 0.644, "step": 247 }, { "epoch": 1.6533333333333333, "grad_norm": 0.7704464793205261, "learning_rate": 1.6070645588779234e-05, "loss": 0.2915, "step": 248 }, { "epoch": 1.6600000000000001, "grad_norm": 1.0192077159881592, "learning_rate": 1.603846669143982e-05, "loss": 0.5738, "step": 249 }, { "epoch": 1.6666666666666665, "grad_norm": 0.6719574928283691, "learning_rate": 1.6006193707313026e-05, "loss": 0.1746, "step": 250 }, { "epoch": 1.6733333333333333, "grad_norm": 0.9879522919654846, "learning_rate": 1.597382723905469e-05, "loss": 0.3991, "step": 251 }, { "epoch": 1.6800000000000002, "grad_norm": 1.384028673171997, "learning_rate": 1.5941367891066354e-05, "loss": 0.5644, "step": 252 }, { "epoch": 1.6866666666666665, "grad_norm": 1.8280025720596313, "learning_rate": 1.5908816269483965e-05, "loss": 0.6819, "step": 253 }, { "epoch": 1.6933333333333334, "grad_norm": 1.1063525676727295, "learning_rate": 1.587617298216655e-05, "loss": 0.4249, "step": 254 }, { "epoch": 1.7, "grad_norm": 3.4740898609161377, "learning_rate": 1.5843438638684888e-05, "loss": 0.4314, "step": 255 }, { "epoch": 1.7066666666666666, "grad_norm": 0.9208361506462097, "learning_rate": 1.58106138503101e-05, "loss": 0.2783, "step": 256 }, { "epoch": 1.7133333333333334, "grad_norm": 1.0024452209472656, "learning_rate": 1.5777699230002263e-05, "loss": 0.367, "step": 257 }, { "epoch": 1.72, "grad_norm": 1.7223882675170898, "learning_rate": 1.574469539239893e-05, "loss": 0.4302, "step": 258 }, { "epoch": 1.7266666666666666, "grad_norm": 0.8658112287521362, "learning_rate": 1.5711602953803682e-05, "loss": 0.2135, "step": 259 }, { "epoch": 1.7333333333333334, "grad_norm": 1.1215999126434326, "learning_rate": 1.5678422532174608e-05, "loss": 0.4406, "step": 260 }, { "epoch": 1.74, "grad_norm": 1.734351634979248, "learning_rate": 1.564515474711276e-05, "loss": 0.4807, "step": 261 }, { "epoch": 1.7466666666666666, "grad_norm": 1.429038643836975, "learning_rate": 1.56118002198506e-05, "loss": 0.5597, "step": 262 }, { "epoch": 1.7533333333333334, "grad_norm": 1.6158004999160767, "learning_rate": 1.557835957324036e-05, "loss": 0.6275, "step": 263 }, { "epoch": 1.76, "grad_norm": 1.3200069665908813, "learning_rate": 1.554483343174247e-05, "loss": 0.5552, "step": 264 }, { "epoch": 1.7666666666666666, "grad_norm": 0.9847660064697266, "learning_rate": 1.5511222421413845e-05, "loss": 0.2985, "step": 265 }, { "epoch": 1.7733333333333334, "grad_norm": 1.8030058145523071, "learning_rate": 1.5477527169896228e-05, "loss": 0.6832, "step": 266 }, { "epoch": 1.78, "grad_norm": 1.4984818696975708, "learning_rate": 1.5443748306404442e-05, "loss": 0.5897, "step": 267 }, { "epoch": 1.7866666666666666, "grad_norm": 1.6027628183364868, "learning_rate": 1.5409886461714662e-05, "loss": 0.6302, "step": 268 }, { "epoch": 1.7933333333333334, "grad_norm": 1.1679726839065552, "learning_rate": 1.5375942268152635e-05, "loss": 0.8119, "step": 269 }, { "epoch": 1.8, "grad_norm": 2.1344714164733887, "learning_rate": 1.5341916359581858e-05, "loss": 0.355, "step": 270 }, { "epoch": 1.8066666666666666, "grad_norm": 1.595517635345459, "learning_rate": 1.5307809371391747e-05, "loss": 0.8738, "step": 271 }, { "epoch": 1.8133333333333335, "grad_norm": 1.3305667638778687, "learning_rate": 1.5273621940485777e-05, "loss": 0.4503, "step": 272 }, { "epoch": 1.8199999999999998, "grad_norm": 0.977202296257019, "learning_rate": 1.5239354705269587e-05, "loss": 0.2329, "step": 273 }, { "epoch": 1.8266666666666667, "grad_norm": 1.3563309907913208, "learning_rate": 1.520500830563906e-05, "loss": 0.4367, "step": 274 }, { "epoch": 1.8333333333333335, "grad_norm": 1.2666316032409668, "learning_rate": 1.5170583382968363e-05, "loss": 0.5034, "step": 275 }, { "epoch": 1.8399999999999999, "grad_norm": 0.9950445294380188, "learning_rate": 1.5136080580097982e-05, "loss": 0.3498, "step": 276 }, { "epoch": 1.8466666666666667, "grad_norm": 1.3694396018981934, "learning_rate": 1.510150054132272e-05, "loss": 0.3353, "step": 277 }, { "epoch": 1.8533333333333335, "grad_norm": 1.4402964115142822, "learning_rate": 1.5066843912379649e-05, "loss": 0.354, "step": 278 }, { "epoch": 1.8599999999999999, "grad_norm": 1.7509251832962036, "learning_rate": 1.5032111340436073e-05, "loss": 0.4484, "step": 279 }, { "epoch": 1.8666666666666667, "grad_norm": 1.5764682292938232, "learning_rate": 1.499730347407742e-05, "loss": 0.5111, "step": 280 }, { "epoch": 1.8733333333333333, "grad_norm": 2.0803394317626953, "learning_rate": 1.496242096329516e-05, "loss": 0.6957, "step": 281 }, { "epoch": 1.88, "grad_norm": 1.8646881580352783, "learning_rate": 1.492746445947463e-05, "loss": 0.7925, "step": 282 }, { "epoch": 1.8866666666666667, "grad_norm": 0.9404792785644531, "learning_rate": 1.4892434615382905e-05, "loss": 0.2242, "step": 283 }, { "epoch": 1.8933333333333333, "grad_norm": 1.6398634910583496, "learning_rate": 1.4857332085156591e-05, "loss": 0.6085, "step": 284 }, { "epoch": 1.9, "grad_norm": 1.3513060808181763, "learning_rate": 1.4822157524289609e-05, "loss": 0.4406, "step": 285 }, { "epoch": 1.9066666666666667, "grad_norm": 0.8963049650192261, "learning_rate": 1.478691158962096e-05, "loss": 0.2038, "step": 286 }, { "epoch": 1.9133333333333333, "grad_norm": 1.437309741973877, "learning_rate": 1.4751594939322462e-05, "loss": 0.3276, "step": 287 }, { "epoch": 1.92, "grad_norm": 1.9788297414779663, "learning_rate": 1.4716208232886447e-05, "loss": 1.0759, "step": 288 }, { "epoch": 1.9266666666666667, "grad_norm": 1.3424140214920044, "learning_rate": 1.4680752131113455e-05, "loss": 0.6213, "step": 289 }, { "epoch": 1.9333333333333333, "grad_norm": 1.2345807552337646, "learning_rate": 1.4645227296099902e-05, "loss": 0.3295, "step": 290 }, { "epoch": 1.94, "grad_norm": 1.2396150827407837, "learning_rate": 1.4609634391225702e-05, "loss": 0.4937, "step": 291 }, { "epoch": 1.9466666666666668, "grad_norm": 1.2589573860168457, "learning_rate": 1.4573974081141877e-05, "loss": 0.3115, "step": 292 }, { "epoch": 1.9533333333333334, "grad_norm": 1.3282593488693237, "learning_rate": 1.453824703175817e-05, "loss": 0.4194, "step": 293 }, { "epoch": 1.96, "grad_norm": 1.7631460428237915, "learning_rate": 1.4502453910230575e-05, "loss": 0.408, "step": 294 }, { "epoch": 1.9666666666666668, "grad_norm": 1.4355448484420776, "learning_rate": 1.4466595384948913e-05, "loss": 0.3947, "step": 295 }, { "epoch": 1.9733333333333334, "grad_norm": 1.1702021360397339, "learning_rate": 1.4430672125524327e-05, "loss": 0.5111, "step": 296 }, { "epoch": 1.98, "grad_norm": 0.7956981062889099, "learning_rate": 1.4394684802776784e-05, "loss": 0.2917, "step": 297 }, { "epoch": 1.9866666666666668, "grad_norm": 1.3731566667556763, "learning_rate": 1.4358634088722552e-05, "loss": 0.4538, "step": 298 }, { "epoch": 1.9933333333333332, "grad_norm": 1.1730948686599731, "learning_rate": 1.4322520656561652e-05, "loss": 0.4561, "step": 299 }, { "epoch": 2.0, "grad_norm": 0.7473224997520447, "learning_rate": 1.4286345180665277e-05, "loss": 0.2062, "step": 300 }, { "epoch": 2.006666666666667, "grad_norm": 1.4702370166778564, "learning_rate": 1.4250108336563212e-05, "loss": 0.4982, "step": 301 }, { "epoch": 2.013333333333333, "grad_norm": 2.2533392906188965, "learning_rate": 1.4213810800931209e-05, "loss": 0.7325, "step": 302 }, { "epoch": 2.02, "grad_norm": 1.4618300199508667, "learning_rate": 1.4177453251578361e-05, "loss": 0.9485, "step": 303 }, { "epoch": 2.026666666666667, "grad_norm": 0.9844323992729187, "learning_rate": 1.4141036367434433e-05, "loss": 0.2536, "step": 304 }, { "epoch": 2.033333333333333, "grad_norm": 1.3822338581085205, "learning_rate": 1.4104560828537188e-05, "loss": 0.3164, "step": 305 }, { "epoch": 2.04, "grad_norm": 1.3014678955078125, "learning_rate": 1.40680273160197e-05, "loss": 0.4012, "step": 306 }, { "epoch": 2.046666666666667, "grad_norm": 1.521849274635315, "learning_rate": 1.4031436512097612e-05, "loss": 0.5446, "step": 307 }, { "epoch": 2.0533333333333332, "grad_norm": 1.182312250137329, "learning_rate": 1.3994789100056421e-05, "loss": 0.4388, "step": 308 }, { "epoch": 2.06, "grad_norm": 1.3692355155944824, "learning_rate": 1.3958085764238694e-05, "loss": 0.5179, "step": 309 }, { "epoch": 2.066666666666667, "grad_norm": 1.7040317058563232, "learning_rate": 1.3921327190031315e-05, "loss": 0.5444, "step": 310 }, { "epoch": 2.0733333333333333, "grad_norm": 1.5850881338119507, "learning_rate": 1.3884514063852661e-05, "loss": 0.527, "step": 311 }, { "epoch": 2.08, "grad_norm": 1.0130246877670288, "learning_rate": 1.3847647073139806e-05, "loss": 0.2265, "step": 312 }, { "epoch": 2.086666666666667, "grad_norm": 1.9094117879867554, "learning_rate": 1.3810726906335664e-05, "loss": 0.4572, "step": 313 }, { "epoch": 2.0933333333333333, "grad_norm": 1.2002707719802856, "learning_rate": 1.377375425287616e-05, "loss": 0.2674, "step": 314 }, { "epoch": 2.1, "grad_norm": 1.5485289096832275, "learning_rate": 1.373672980317731e-05, "loss": 0.563, "step": 315 }, { "epoch": 2.1066666666666665, "grad_norm": 1.884822130203247, "learning_rate": 1.3699654248622382e-05, "loss": 0.6168, "step": 316 }, { "epoch": 2.1133333333333333, "grad_norm": 1.6859358549118042, "learning_rate": 1.3662528281548954e-05, "loss": 0.5328, "step": 317 }, { "epoch": 2.12, "grad_norm": 2.261037826538086, "learning_rate": 1.3625352595235992e-05, "loss": 0.5648, "step": 318 }, { "epoch": 2.1266666666666665, "grad_norm": 1.7818392515182495, "learning_rate": 1.3588127883890898e-05, "loss": 0.5394, "step": 319 }, { "epoch": 2.1333333333333333, "grad_norm": 1.2540154457092285, "learning_rate": 1.3550854842636558e-05, "loss": 0.5572, "step": 320 }, { "epoch": 2.14, "grad_norm": 1.7134149074554443, "learning_rate": 1.3513534167498355e-05, "loss": 0.4855, "step": 321 }, { "epoch": 2.1466666666666665, "grad_norm": 1.232763409614563, "learning_rate": 1.3476166555391174e-05, "loss": 0.3799, "step": 322 }, { "epoch": 2.1533333333333333, "grad_norm": 1.330854058265686, "learning_rate": 1.3438752704106386e-05, "loss": 0.367, "step": 323 }, { "epoch": 2.16, "grad_norm": 1.4032166004180908, "learning_rate": 1.340129331229881e-05, "loss": 0.6345, "step": 324 }, { "epoch": 2.1666666666666665, "grad_norm": 1.3411375284194946, "learning_rate": 1.336378907947369e-05, "loss": 0.2647, "step": 325 }, { "epoch": 2.1733333333333333, "grad_norm": 1.103200078010559, "learning_rate": 1.3326240705973605e-05, "loss": 0.1682, "step": 326 }, { "epoch": 2.18, "grad_norm": 0.830708384513855, "learning_rate": 1.328864889296541e-05, "loss": 0.1622, "step": 327 }, { "epoch": 2.1866666666666665, "grad_norm": 1.2569397687911987, "learning_rate": 1.3251014342427134e-05, "loss": 0.3398, "step": 328 }, { "epoch": 2.1933333333333334, "grad_norm": 1.1822941303253174, "learning_rate": 1.3213337757134871e-05, "loss": 0.1937, "step": 329 }, { "epoch": 2.2, "grad_norm": 1.551056981086731, "learning_rate": 1.317561984064967e-05, "loss": 0.4919, "step": 330 }, { "epoch": 2.2066666666666666, "grad_norm": 1.3554848432540894, "learning_rate": 1.3137861297304367e-05, "loss": 0.5676, "step": 331 }, { "epoch": 2.2133333333333334, "grad_norm": 0.9740996956825256, "learning_rate": 1.310006283219047e-05, "loss": 0.3267, "step": 332 }, { "epoch": 2.22, "grad_norm": 1.5028480291366577, "learning_rate": 1.3062225151144964e-05, "loss": 0.6523, "step": 333 }, { "epoch": 2.2266666666666666, "grad_norm": 1.5713306665420532, "learning_rate": 1.302434896073714e-05, "loss": 0.3911, "step": 334 }, { "epoch": 2.2333333333333334, "grad_norm": 2.664703607559204, "learning_rate": 1.2986434968255413e-05, "loss": 0.6158, "step": 335 }, { "epoch": 2.24, "grad_norm": 1.2363102436065674, "learning_rate": 1.2948483881694083e-05, "loss": 0.3986, "step": 336 }, { "epoch": 2.2466666666666666, "grad_norm": 2.5949816703796387, "learning_rate": 1.2910496409740147e-05, "loss": 0.7931, "step": 337 }, { "epoch": 2.2533333333333334, "grad_norm": 1.4112695455551147, "learning_rate": 1.287247326176005e-05, "loss": 0.3628, "step": 338 }, { "epoch": 2.26, "grad_norm": 1.946993350982666, "learning_rate": 1.2834415147786434e-05, "loss": 0.6038, "step": 339 }, { "epoch": 2.2666666666666666, "grad_norm": 1.3219523429870605, "learning_rate": 1.2796322778504899e-05, "loss": 0.6566, "step": 340 }, { "epoch": 2.2733333333333334, "grad_norm": 1.262119174003601, "learning_rate": 1.27581968652407e-05, "loss": 0.2201, "step": 341 }, { "epoch": 2.2800000000000002, "grad_norm": 1.1588819026947021, "learning_rate": 1.2720038119945496e-05, "loss": 0.3104, "step": 342 }, { "epoch": 2.2866666666666666, "grad_norm": 1.4515700340270996, "learning_rate": 1.2681847255184035e-05, "loss": 0.375, "step": 343 }, { "epoch": 2.2933333333333334, "grad_norm": 1.5760196447372437, "learning_rate": 1.264362498412085e-05, "loss": 0.3785, "step": 344 }, { "epoch": 2.3, "grad_norm": 1.2922861576080322, "learning_rate": 1.260537202050696e-05, "loss": 0.5141, "step": 345 }, { "epoch": 2.3066666666666666, "grad_norm": 1.482051968574524, "learning_rate": 1.2567089078666517e-05, "loss": 0.5309, "step": 346 }, { "epoch": 2.3133333333333335, "grad_norm": 1.1617043018341064, "learning_rate": 1.2528776873483474e-05, "loss": 0.3671, "step": 347 }, { "epoch": 2.32, "grad_norm": 2.644411325454712, "learning_rate": 1.2490436120388249e-05, "loss": 0.375, "step": 348 }, { "epoch": 2.3266666666666667, "grad_norm": 0.6887607574462891, "learning_rate": 1.2452067535344344e-05, "loss": 0.1441, "step": 349 }, { "epoch": 2.3333333333333335, "grad_norm": 1.5477890968322754, "learning_rate": 1.2413671834834997e-05, "loss": 0.6918, "step": 350 }, { "epoch": 2.34, "grad_norm": 1.377488374710083, "learning_rate": 1.2375249735849785e-05, "loss": 0.3714, "step": 351 }, { "epoch": 2.3466666666666667, "grad_norm": 1.730989933013916, "learning_rate": 1.2336801955871241e-05, "loss": 0.2917, "step": 352 }, { "epoch": 2.3533333333333335, "grad_norm": 1.2716642618179321, "learning_rate": 1.2298329212861461e-05, "loss": 0.3776, "step": 353 }, { "epoch": 2.36, "grad_norm": 1.3299543857574463, "learning_rate": 1.2259832225248693e-05, "loss": 0.3653, "step": 354 }, { "epoch": 2.3666666666666667, "grad_norm": 1.766775369644165, "learning_rate": 1.222131171191392e-05, "loss": 0.4566, "step": 355 }, { "epoch": 2.3733333333333335, "grad_norm": 1.3671021461486816, "learning_rate": 1.2182768392177437e-05, "loss": 0.3764, "step": 356 }, { "epoch": 2.38, "grad_norm": 1.1871297359466553, "learning_rate": 1.2144202985785418e-05, "loss": 0.2786, "step": 357 }, { "epoch": 2.3866666666666667, "grad_norm": 1.684607744216919, "learning_rate": 1.2105616212896478e-05, "loss": 0.6335, "step": 358 }, { "epoch": 2.3933333333333335, "grad_norm": 1.1292977333068848, "learning_rate": 1.2067008794068226e-05, "loss": 0.2257, "step": 359 }, { "epoch": 2.4, "grad_norm": 1.4422345161437988, "learning_rate": 1.2028381450243798e-05, "loss": 0.5768, "step": 360 }, { "epoch": 2.4066666666666667, "grad_norm": 1.675971269607544, "learning_rate": 1.1989734902738414e-05, "loss": 0.8085, "step": 361 }, { "epoch": 2.413333333333333, "grad_norm": 1.3154922723770142, "learning_rate": 1.195106987322589e-05, "loss": 0.3328, "step": 362 }, { "epoch": 2.42, "grad_norm": 1.4331287145614624, "learning_rate": 1.1912387083725174e-05, "loss": 0.3854, "step": 363 }, { "epoch": 2.4266666666666667, "grad_norm": 1.7648396492004395, "learning_rate": 1.1873687256586856e-05, "loss": 0.2884, "step": 364 }, { "epoch": 2.4333333333333336, "grad_norm": 1.2717833518981934, "learning_rate": 1.1834971114479683e-05, "loss": 0.5703, "step": 365 }, { "epoch": 2.44, "grad_norm": 1.749265432357788, "learning_rate": 1.1796239380377064e-05, "loss": 0.5033, "step": 366 }, { "epoch": 2.4466666666666668, "grad_norm": 1.6598306894302368, "learning_rate": 1.175749277754356e-05, "loss": 0.5986, "step": 367 }, { "epoch": 2.453333333333333, "grad_norm": 1.461147665977478, "learning_rate": 1.1718732029521393e-05, "loss": 0.4069, "step": 368 }, { "epoch": 2.46, "grad_norm": 1.7880187034606934, "learning_rate": 1.1679957860116939e-05, "loss": 0.6559, "step": 369 }, { "epoch": 2.466666666666667, "grad_norm": 0.9079005122184753, "learning_rate": 1.1641170993387177e-05, "loss": 0.3556, "step": 370 }, { "epoch": 2.473333333333333, "grad_norm": 1.3653432130813599, "learning_rate": 1.1602372153626207e-05, "loss": 0.3396, "step": 371 }, { "epoch": 2.48, "grad_norm": 1.1392285823822021, "learning_rate": 1.156356206535171e-05, "loss": 0.3157, "step": 372 }, { "epoch": 2.486666666666667, "grad_norm": 1.6712108850479126, "learning_rate": 1.152474145329141e-05, "loss": 0.4391, "step": 373 }, { "epoch": 2.493333333333333, "grad_norm": 1.0093735456466675, "learning_rate": 1.148591104236956e-05, "loss": 0.2155, "step": 374 }, { "epoch": 2.5, "grad_norm": 1.4134020805358887, "learning_rate": 1.1447071557693384e-05, "loss": 0.4543, "step": 375 }, { "epoch": 2.506666666666667, "grad_norm": 1.3809040784835815, "learning_rate": 1.1408223724539555e-05, "loss": 0.5361, "step": 376 }, { "epoch": 2.513333333333333, "grad_norm": 1.4754438400268555, "learning_rate": 1.136936826834063e-05, "loss": 0.6066, "step": 377 }, { "epoch": 2.52, "grad_norm": 2.5914015769958496, "learning_rate": 1.1330505914671535e-05, "loss": 0.3635, "step": 378 }, { "epoch": 2.5266666666666664, "grad_norm": 27.5980167388916, "learning_rate": 1.1291637389235983e-05, "loss": 0.5019, "step": 379 }, { "epoch": 2.533333333333333, "grad_norm": 1.1598241329193115, "learning_rate": 1.1252763417852936e-05, "loss": 0.264, "step": 380 }, { "epoch": 2.54, "grad_norm": 1.512192726135254, "learning_rate": 1.1213884726443068e-05, "loss": 0.2953, "step": 381 }, { "epoch": 2.546666666666667, "grad_norm": 3.973635673522949, "learning_rate": 1.1175002041015171e-05, "loss": 0.4391, "step": 382 }, { "epoch": 2.5533333333333332, "grad_norm": 22.423179626464844, "learning_rate": 1.1136116087652637e-05, "loss": 0.5173, "step": 383 }, { "epoch": 2.56, "grad_norm": 7.488842964172363, "learning_rate": 1.1097227592499873e-05, "loss": 0.467, "step": 384 }, { "epoch": 2.5666666666666664, "grad_norm": 3.525569200515747, "learning_rate": 1.1058337281748759e-05, "loss": 0.8528, "step": 385 }, { "epoch": 2.5733333333333333, "grad_norm": 1.4925084114074707, "learning_rate": 1.1019445881625071e-05, "loss": 0.6664, "step": 386 }, { "epoch": 2.58, "grad_norm": 1.5013151168823242, "learning_rate": 1.0980554118374933e-05, "loss": 0.5361, "step": 387 }, { "epoch": 2.586666666666667, "grad_norm": 0.9918359518051147, "learning_rate": 1.0941662718251242e-05, "loss": 0.3384, "step": 388 }, { "epoch": 2.5933333333333333, "grad_norm": 1.7358088493347168, "learning_rate": 1.0902772407500128e-05, "loss": 0.5748, "step": 389 }, { "epoch": 2.6, "grad_norm": 1.6578431129455566, "learning_rate": 1.0863883912347368e-05, "loss": 0.6826, "step": 390 }, { "epoch": 2.6066666666666665, "grad_norm": 1.4427716732025146, "learning_rate": 1.082499795898483e-05, "loss": 0.4823, "step": 391 }, { "epoch": 2.6133333333333333, "grad_norm": 1.0902202129364014, "learning_rate": 1.0786115273556937e-05, "loss": 0.2488, "step": 392 }, { "epoch": 2.62, "grad_norm": 1.3405840396881104, "learning_rate": 1.0747236582147067e-05, "loss": 0.4914, "step": 393 }, { "epoch": 2.626666666666667, "grad_norm": 1.1086082458496094, "learning_rate": 1.070836261076402e-05, "loss": 0.3075, "step": 394 }, { "epoch": 2.6333333333333333, "grad_norm": 2.0136094093322754, "learning_rate": 1.066949408532847e-05, "loss": 0.5934, "step": 395 }, { "epoch": 2.64, "grad_norm": 1.2072879076004028, "learning_rate": 1.0630631731659373e-05, "loss": 0.5477, "step": 396 }, { "epoch": 2.6466666666666665, "grad_norm": 0.8952162265777588, "learning_rate": 1.0591776275460451e-05, "loss": 0.2464, "step": 397 }, { "epoch": 2.6533333333333333, "grad_norm": 1.2537075281143188, "learning_rate": 1.055292844230662e-05, "loss": 0.3748, "step": 398 }, { "epoch": 2.66, "grad_norm": 1.2542909383773804, "learning_rate": 1.0514088957630441e-05, "loss": 0.3341, "step": 399 }, { "epoch": 2.6666666666666665, "grad_norm": 1.4922471046447754, "learning_rate": 1.0475258546708593e-05, "loss": 0.6402, "step": 400 }, { "epoch": 2.6733333333333333, "grad_norm": 0.8682767152786255, "learning_rate": 1.0436437934648296e-05, "loss": 0.2332, "step": 401 }, { "epoch": 2.68, "grad_norm": 1.1290216445922852, "learning_rate": 1.0397627846373794e-05, "loss": 0.2642, "step": 402 }, { "epoch": 2.6866666666666665, "grad_norm": 0.9641014933586121, "learning_rate": 1.0358829006612828e-05, "loss": 0.1645, "step": 403 }, { "epoch": 2.6933333333333334, "grad_norm": 1.260378122329712, "learning_rate": 1.0320042139883069e-05, "loss": 0.5079, "step": 404 }, { "epoch": 2.7, "grad_norm": 1.3906245231628418, "learning_rate": 1.0281267970478608e-05, "loss": 0.4817, "step": 405 }, { "epoch": 2.7066666666666666, "grad_norm": 1.1177834272384644, "learning_rate": 1.0242507222456446e-05, "loss": 0.2653, "step": 406 }, { "epoch": 2.7133333333333334, "grad_norm": 1.3878509998321533, "learning_rate": 1.0203760619622944e-05, "loss": 0.6585, "step": 407 }, { "epoch": 2.7199999999999998, "grad_norm": 1.9874647855758667, "learning_rate": 1.016502888552032e-05, "loss": 0.9263, "step": 408 }, { "epoch": 2.7266666666666666, "grad_norm": 0.9233214855194092, "learning_rate": 1.0126312743413146e-05, "loss": 0.3941, "step": 409 }, { "epoch": 2.7333333333333334, "grad_norm": 0.6271530389785767, "learning_rate": 1.0087612916274827e-05, "loss": 0.1383, "step": 410 }, { "epoch": 2.74, "grad_norm": 1.5185457468032837, "learning_rate": 1.0048930126774112e-05, "loss": 0.4791, "step": 411 }, { "epoch": 2.7466666666666666, "grad_norm": 1.0689821243286133, "learning_rate": 1.001026509726159e-05, "loss": 0.2481, "step": 412 }, { "epoch": 2.7533333333333334, "grad_norm": 0.5559907555580139, "learning_rate": 9.971618549756203e-06, "loss": 0.1159, "step": 413 }, { "epoch": 2.76, "grad_norm": 0.8540818095207214, "learning_rate": 9.932991205931777e-06, "loss": 0.271, "step": 414 }, { "epoch": 2.7666666666666666, "grad_norm": 0.8246598243713379, "learning_rate": 9.894383787103525e-06, "loss": 0.3051, "step": 415 }, { "epoch": 2.7733333333333334, "grad_norm": 1.019100308418274, "learning_rate": 9.855797014214583e-06, "loss": 0.2954, "step": 416 }, { "epoch": 2.7800000000000002, "grad_norm": 1.2697210311889648, "learning_rate": 9.817231607822565e-06, "loss": 0.4386, "step": 417 }, { "epoch": 2.7866666666666666, "grad_norm": 0.604729413986206, "learning_rate": 9.778688288086084e-06, "loss": 0.182, "step": 418 }, { "epoch": 2.7933333333333334, "grad_norm": 0.758552074432373, "learning_rate": 9.740167774751308e-06, "loss": 0.2463, "step": 419 }, { "epoch": 2.8, "grad_norm": 1.0425121784210205, "learning_rate": 9.701670787138541e-06, "loss": 0.3408, "step": 420 }, { "epoch": 2.8066666666666666, "grad_norm": 1.4029688835144043, "learning_rate": 9.663198044128764e-06, "loss": 0.4963, "step": 421 }, { "epoch": 2.8133333333333335, "grad_norm": 1.0565751791000366, "learning_rate": 9.624750264150218e-06, "loss": 0.464, "step": 422 }, { "epoch": 2.82, "grad_norm": 1.4994906187057495, "learning_rate": 9.586328165165006e-06, "loss": 0.4685, "step": 423 }, { "epoch": 2.8266666666666667, "grad_norm": 1.6354223489761353, "learning_rate": 9.547932464655656e-06, "loss": 0.6198, "step": 424 }, { "epoch": 2.8333333333333335, "grad_norm": 0.9175460934638977, "learning_rate": 9.509563879611754e-06, "loss": 0.2814, "step": 425 }, { "epoch": 2.84, "grad_norm": 1.322573184967041, "learning_rate": 9.471223126516529e-06, "loss": 0.6169, "step": 426 }, { "epoch": 2.8466666666666667, "grad_norm": 1.3356101512908936, "learning_rate": 9.432910921333485e-06, "loss": 0.4999, "step": 427 }, { "epoch": 2.8533333333333335, "grad_norm": 1.3007878065109253, "learning_rate": 9.394627979493042e-06, "loss": 0.6857, "step": 428 }, { "epoch": 2.86, "grad_norm": 1.3256639242172241, "learning_rate": 9.356375015879156e-06, "loss": 0.7061, "step": 429 }, { "epoch": 2.8666666666666667, "grad_norm": 1.3235509395599365, "learning_rate": 9.318152744815971e-06, "loss": 0.508, "step": 430 }, { "epoch": 2.873333333333333, "grad_norm": 1.214378833770752, "learning_rate": 9.279961880054509e-06, "loss": 0.4439, "step": 431 }, { "epoch": 2.88, "grad_norm": 1.6435545682907104, "learning_rate": 9.241803134759301e-06, "loss": 0.4739, "step": 432 }, { "epoch": 2.8866666666666667, "grad_norm": 1.198081612586975, "learning_rate": 9.203677221495104e-06, "loss": 0.482, "step": 433 }, { "epoch": 2.8933333333333335, "grad_norm": 1.0145066976547241, "learning_rate": 9.165584852213567e-06, "loss": 0.291, "step": 434 }, { "epoch": 2.9, "grad_norm": 1.1571218967437744, "learning_rate": 9.127526738239954e-06, "loss": 0.3399, "step": 435 }, { "epoch": 2.9066666666666667, "grad_norm": 1.5985193252563477, "learning_rate": 9.089503590259856e-06, "loss": 0.4166, "step": 436 }, { "epoch": 2.913333333333333, "grad_norm": 1.3233163356781006, "learning_rate": 9.05151611830592e-06, "loss": 0.3521, "step": 437 }, { "epoch": 2.92, "grad_norm": 1.175849199295044, "learning_rate": 9.013565031744591e-06, "loss": 0.2808, "step": 438 }, { "epoch": 2.9266666666666667, "grad_norm": 1.094506859779358, "learning_rate": 8.97565103926286e-06, "loss": 0.3877, "step": 439 }, { "epoch": 2.9333333333333336, "grad_norm": 1.6014549732208252, "learning_rate": 8.937774848855039e-06, "loss": 0.8784, "step": 440 }, { "epoch": 2.94, "grad_norm": 1.521243929862976, "learning_rate": 8.899937167809531e-06, "loss": 0.3261, "step": 441 }, { "epoch": 2.9466666666666668, "grad_norm": 0.7121770977973938, "learning_rate": 8.862138702695638e-06, "loss": 0.198, "step": 442 }, { "epoch": 2.953333333333333, "grad_norm": 1.736828327178955, "learning_rate": 8.824380159350331e-06, "loss": 0.3529, "step": 443 }, { "epoch": 2.96, "grad_norm": 0.8017225861549377, "learning_rate": 8.78666224286513e-06, "loss": 0.2061, "step": 444 }, { "epoch": 2.966666666666667, "grad_norm": 0.7904080152511597, "learning_rate": 8.74898565757287e-06, "loss": 0.233, "step": 445 }, { "epoch": 2.9733333333333336, "grad_norm": 1.1955089569091797, "learning_rate": 8.711351107034592e-06, "loss": 0.4218, "step": 446 }, { "epoch": 2.98, "grad_norm": 1.5457146167755127, "learning_rate": 8.673759294026398e-06, "loss": 0.6544, "step": 447 }, { "epoch": 2.986666666666667, "grad_norm": 1.797101616859436, "learning_rate": 8.636210920526316e-06, "loss": 0.608, "step": 448 }, { "epoch": 2.993333333333333, "grad_norm": 1.7683017253875732, "learning_rate": 8.598706687701192e-06, "loss": 0.3743, "step": 449 }, { "epoch": 3.0, "grad_norm": 1.03306245803833, "learning_rate": 8.561247295893619e-06, "loss": 0.4658, "step": 450 }, { "epoch": 3.006666666666667, "grad_norm": 1.5889688730239868, "learning_rate": 8.523833444608829e-06, "loss": 0.4378, "step": 451 }, { "epoch": 3.013333333333333, "grad_norm": 1.2329561710357666, "learning_rate": 8.486465832501646e-06, "loss": 0.5694, "step": 452 }, { "epoch": 3.02, "grad_norm": 0.9243837594985962, "learning_rate": 8.449145157363446e-06, "loss": 0.2193, "step": 453 }, { "epoch": 3.026666666666667, "grad_norm": 1.3126856088638306, "learning_rate": 8.411872116109103e-06, "loss": 0.3749, "step": 454 }, { "epoch": 3.033333333333333, "grad_norm": 4.9260172843933105, "learning_rate": 8.374647404764011e-06, "loss": 0.799, "step": 455 }, { "epoch": 3.04, "grad_norm": 1.811789631843567, "learning_rate": 8.337471718451047e-06, "loss": 0.5854, "step": 456 }, { "epoch": 3.046666666666667, "grad_norm": 1.3995670080184937, "learning_rate": 8.300345751377619e-06, "loss": 0.5222, "step": 457 }, { "epoch": 3.0533333333333332, "grad_norm": 1.1551918983459473, "learning_rate": 8.263270196822695e-06, "loss": 0.5921, "step": 458 }, { "epoch": 3.06, "grad_norm": 2.39064884185791, "learning_rate": 8.226245747123848e-06, "loss": 0.7184, "step": 459 }, { "epoch": 3.066666666666667, "grad_norm": 1.081977128982544, "learning_rate": 8.189273093664337e-06, "loss": 0.3812, "step": 460 }, { "epoch": 3.0733333333333333, "grad_norm": 1.8248965740203857, "learning_rate": 8.152352926860196e-06, "loss": 0.821, "step": 461 }, { "epoch": 3.08, "grad_norm": 1.4115440845489502, "learning_rate": 8.115485936147343e-06, "loss": 0.5272, "step": 462 }, { "epoch": 3.086666666666667, "grad_norm": 1.4327605962753296, "learning_rate": 8.078672809968689e-06, "loss": 0.3913, "step": 463 }, { "epoch": 3.0933333333333333, "grad_norm": 1.493831753730774, "learning_rate": 8.04191423576131e-06, "loss": 0.2475, "step": 464 }, { "epoch": 3.1, "grad_norm": 1.761871099472046, "learning_rate": 8.005210899943584e-06, "loss": 0.7439, "step": 465 }, { "epoch": 3.1066666666666665, "grad_norm": 1.76626455783844, "learning_rate": 7.96856348790239e-06, "loss": 0.2467, "step": 466 }, { "epoch": 3.1133333333333333, "grad_norm": 1.0549607276916504, "learning_rate": 7.931972683980302e-06, "loss": 0.2511, "step": 467 }, { "epoch": 3.12, "grad_norm": 1.141783356666565, "learning_rate": 7.895439171462813e-06, "loss": 0.2277, "step": 468 }, { "epoch": 3.1266666666666665, "grad_norm": 1.5863436460494995, "learning_rate": 7.85896363256557e-06, "loss": 0.6327, "step": 469 }, { "epoch": 3.1333333333333333, "grad_norm": 1.0976667404174805, "learning_rate": 7.822546748421642e-06, "loss": 0.234, "step": 470 }, { "epoch": 3.14, "grad_norm": 1.4860919713974, "learning_rate": 7.786189199068792e-06, "loss": 0.6891, "step": 471 }, { "epoch": 3.1466666666666665, "grad_norm": 0.7435470223426819, "learning_rate": 7.749891663436793e-06, "loss": 0.2411, "step": 472 }, { "epoch": 3.1533333333333333, "grad_norm": 4.428133010864258, "learning_rate": 7.713654819334729e-06, "loss": 0.4466, "step": 473 }, { "epoch": 3.16, "grad_norm": 1.174668550491333, "learning_rate": 7.677479343438351e-06, "loss": 0.5557, "step": 474 }, { "epoch": 3.1666666666666665, "grad_norm": 0.9828451871871948, "learning_rate": 7.641365911277452e-06, "loss": 0.2084, "step": 475 }, { "epoch": 3.1733333333333333, "grad_norm": 1.3933385610580444, "learning_rate": 7.6053151972232176e-06, "loss": 0.4478, "step": 476 }, { "epoch": 3.18, "grad_norm": 0.8962238430976868, "learning_rate": 7.569327874475676e-06, "loss": 0.227, "step": 477 }, { "epoch": 3.1866666666666665, "grad_norm": 1.3221912384033203, "learning_rate": 7.533404615051087e-06, "loss": 0.6136, "step": 478 }, { "epoch": 3.1933333333333334, "grad_norm": 1.0276908874511719, "learning_rate": 7.497546089769425e-06, "loss": 0.503, "step": 479 }, { "epoch": 3.2, "grad_norm": 2.4918477535247803, "learning_rate": 7.461752968241833e-06, "loss": 0.5958, "step": 480 }, { "epoch": 3.2066666666666666, "grad_norm": 1.168184757232666, "learning_rate": 7.426025918858124e-06, "loss": 0.3046, "step": 481 }, { "epoch": 3.2133333333333334, "grad_norm": 1.3157926797866821, "learning_rate": 7.390365608774302e-06, "loss": 0.3903, "step": 482 }, { "epoch": 3.22, "grad_norm": 1.9632258415222168, "learning_rate": 7.354772703900101e-06, "loss": 0.6696, "step": 483 }, { "epoch": 3.2266666666666666, "grad_norm": 1.479067087173462, "learning_rate": 7.319247868886548e-06, "loss": 0.4173, "step": 484 }, { "epoch": 3.2333333333333334, "grad_norm": 1.6428669691085815, "learning_rate": 7.283791767113557e-06, "loss": 0.4193, "step": 485 }, { "epoch": 3.24, "grad_norm": 1.5472806692123413, "learning_rate": 7.248405060677543e-06, "loss": 0.3571, "step": 486 }, { "epoch": 3.2466666666666666, "grad_norm": 1.653496503829956, "learning_rate": 7.2130884103790436e-06, "loss": 0.5062, "step": 487 }, { "epoch": 3.2533333333333334, "grad_norm": 1.4190384149551392, "learning_rate": 7.177842475710395e-06, "loss": 0.4817, "step": 488 }, { "epoch": 3.26, "grad_norm": 1.7448099851608276, "learning_rate": 7.142667914843413e-06, "loss": 0.6035, "step": 489 }, { "epoch": 3.2666666666666666, "grad_norm": 3.215625524520874, "learning_rate": 7.107565384617097e-06, "loss": 0.5041, "step": 490 }, { "epoch": 3.2733333333333334, "grad_norm": 1.41063392162323, "learning_rate": 7.072535540525374e-06, "loss": 0.5266, "step": 491 }, { "epoch": 3.2800000000000002, "grad_norm": 1.3160585165023804, "learning_rate": 7.0375790367048466e-06, "loss": 0.266, "step": 492 }, { "epoch": 3.2866666666666666, "grad_norm": 1.9032337665557861, "learning_rate": 7.002696525922579e-06, "loss": 0.7686, "step": 493 }, { "epoch": 3.2933333333333334, "grad_norm": 1.593665361404419, "learning_rate": 6.96788865956393e-06, "loss": 0.3888, "step": 494 }, { "epoch": 3.3, "grad_norm": 2.1388587951660156, "learning_rate": 6.933156087620352e-06, "loss": 0.9322, "step": 495 }, { "epoch": 3.3066666666666666, "grad_norm": 1.3527288436889648, "learning_rate": 6.898499458677281e-06, "loss": 0.3768, "step": 496 }, { "epoch": 3.3133333333333335, "grad_norm": 2.0020318031311035, "learning_rate": 6.863919419902019e-06, "loss": 0.6772, "step": 497 }, { "epoch": 3.32, "grad_norm": 1.247876763343811, "learning_rate": 6.829416617031642e-06, "loss": 0.5892, "step": 498 }, { "epoch": 3.3266666666666667, "grad_norm": 1.814934253692627, "learning_rate": 6.794991694360942e-06, "loss": 0.5612, "step": 499 }, { "epoch": 3.3333333333333335, "grad_norm": 0.9168113470077515, "learning_rate": 6.760645294730414e-06, "loss": 0.2612, "step": 500 }, { "epoch": 3.34, "grad_norm": 1.3208444118499756, "learning_rate": 6.726378059514227e-06, "loss": 0.414, "step": 501 }, { "epoch": 3.3466666666666667, "grad_norm": 1.4437954425811768, "learning_rate": 6.692190628608255e-06, "loss": 0.5539, "step": 502 }, { "epoch": 3.3533333333333335, "grad_norm": 0.7737306952476501, "learning_rate": 6.658083640418145e-06, "loss": 0.2847, "step": 503 }, { "epoch": 3.36, "grad_norm": 1.5918776988983154, "learning_rate": 6.624057731847367e-06, "loss": 0.3756, "step": 504 }, { "epoch": 3.3666666666666667, "grad_norm": 1.719836711883545, "learning_rate": 6.590113538285341e-06, "loss": 0.5776, "step": 505 }, { "epoch": 3.3733333333333335, "grad_norm": 1.6654049158096313, "learning_rate": 6.556251693595565e-06, "loss": 0.4842, "step": 506 }, { "epoch": 3.38, "grad_norm": 1.5979913473129272, "learning_rate": 6.522472830103777e-06, "loss": 0.6191, "step": 507 }, { "epoch": 3.3866666666666667, "grad_norm": 1.221519112586975, "learning_rate": 6.488777578586158e-06, "loss": 0.2814, "step": 508 }, { "epoch": 3.3933333333333335, "grad_norm": 1.6397613286972046, "learning_rate": 6.455166568257536e-06, "loss": 0.5886, "step": 509 }, { "epoch": 3.4, "grad_norm": 3.443509340286255, "learning_rate": 6.421640426759643e-06, "loss": 0.2309, "step": 510 }, { "epoch": 3.4066666666666667, "grad_norm": 1.7111133337020874, "learning_rate": 6.388199780149407e-06, "loss": 0.5086, "step": 511 }, { "epoch": 3.413333333333333, "grad_norm": 2.0990231037139893, "learning_rate": 6.354845252887237e-06, "loss": 0.5625, "step": 512 }, { "epoch": 3.42, "grad_norm": 1.8440994024276733, "learning_rate": 6.321577467825392e-06, "loss": 0.6003, "step": 513 }, { "epoch": 3.4266666666666667, "grad_norm": 1.2410833835601807, "learning_rate": 6.2883970461963205e-06, "loss": 0.2431, "step": 514 }, { "epoch": 3.4333333333333336, "grad_norm": 1.1713411808013916, "learning_rate": 6.255304607601074e-06, "loss": 0.3112, "step": 515 }, { "epoch": 3.44, "grad_norm": 1.2038061618804932, "learning_rate": 6.222300769997742e-06, "loss": 0.2356, "step": 516 }, { "epoch": 3.4466666666666668, "grad_norm": 1.1006757020950317, "learning_rate": 6.189386149689904e-06, "loss": 0.522, "step": 517 }, { "epoch": 3.453333333333333, "grad_norm": 1.234704852104187, "learning_rate": 6.156561361315116e-06, "loss": 0.2775, "step": 518 }, { "epoch": 3.46, "grad_norm": 0.9400473833084106, "learning_rate": 6.123827017833454e-06, "loss": 0.2752, "step": 519 }, { "epoch": 3.466666666666667, "grad_norm": 1.6344656944274902, "learning_rate": 6.091183730516041e-06, "loss": 0.8672, "step": 520 }, { "epoch": 3.473333333333333, "grad_norm": 1.0745573043823242, "learning_rate": 6.058632108933646e-06, "loss": 0.255, "step": 521 }, { "epoch": 3.48, "grad_norm": 0.8348417282104492, "learning_rate": 6.02617276094531e-06, "loss": 0.2658, "step": 522 }, { "epoch": 3.486666666666667, "grad_norm": 1.0123889446258545, "learning_rate": 5.993806292686975e-06, "loss": 0.3018, "step": 523 }, { "epoch": 3.493333333333333, "grad_norm": 1.6308914422988892, "learning_rate": 5.9615333085601816e-06, "loss": 0.5474, "step": 524 }, { "epoch": 3.5, "grad_norm": 1.3122121095657349, "learning_rate": 5.929354411220771e-06, "loss": 0.5754, "step": 525 }, { "epoch": 3.506666666666667, "grad_norm": 1.2715647220611572, "learning_rate": 5.897270201567638e-06, "loss": 0.296, "step": 526 }, { "epoch": 3.513333333333333, "grad_norm": 1.1369949579238892, "learning_rate": 5.865281278731516e-06, "loss": 0.1938, "step": 527 }, { "epoch": 3.52, "grad_norm": 1.461135745048523, "learning_rate": 5.833388240063771e-06, "loss": 0.5822, "step": 528 }, { "epoch": 3.5266666666666664, "grad_norm": 1.6529327630996704, "learning_rate": 5.801591681125258e-06, "loss": 0.3641, "step": 529 }, { "epoch": 3.533333333333333, "grad_norm": 1.39845871925354, "learning_rate": 5.769892195675208e-06, "loss": 0.6383, "step": 530 }, { "epoch": 3.54, "grad_norm": 1.0760791301727295, "learning_rate": 5.738290375660125e-06, "loss": 0.1791, "step": 531 }, { "epoch": 3.546666666666667, "grad_norm": 1.692541241645813, "learning_rate": 5.706786811202738e-06, "loss": 0.3221, "step": 532 }, { "epoch": 3.5533333333333332, "grad_norm": 1.1036595106124878, "learning_rate": 5.675382090590981e-06, "loss": 0.2823, "step": 533 }, { "epoch": 3.56, "grad_norm": 2.0926828384399414, "learning_rate": 5.644076800267014e-06, "loss": 0.3489, "step": 534 }, { "epoch": 3.5666666666666664, "grad_norm": 0.9293984770774841, "learning_rate": 5.612871524816262e-06, "loss": 0.319, "step": 535 }, { "epoch": 3.5733333333333333, "grad_norm": 1.2874233722686768, "learning_rate": 5.5817668469565025e-06, "loss": 0.3866, "step": 536 }, { "epoch": 3.58, "grad_norm": 1.6778782606124878, "learning_rate": 5.550763347526982e-06, "loss": 0.477, "step": 537 }, { "epoch": 3.586666666666667, "grad_norm": 0.9787458777427673, "learning_rate": 5.519861605477581e-06, "loss": 0.2394, "step": 538 }, { "epoch": 3.5933333333333333, "grad_norm": 1.3014516830444336, "learning_rate": 5.489062197857984e-06, "loss": 0.3652, "step": 539 }, { "epoch": 3.6, "grad_norm": 1.2679635286331177, "learning_rate": 5.458365699806917e-06, "loss": 0.4789, "step": 540 }, { "epoch": 3.6066666666666665, "grad_norm": 1.213794231414795, "learning_rate": 5.427772684541408e-06, "loss": 0.4622, "step": 541 }, { "epoch": 3.6133333333333333, "grad_norm": 1.1161813735961914, "learning_rate": 5.397283723346074e-06, "loss": 0.2626, "step": 542 }, { "epoch": 3.62, "grad_norm": 1.1844446659088135, "learning_rate": 5.366899385562456e-06, "loss": 0.2604, "step": 543 }, { "epoch": 3.626666666666667, "grad_norm": 0.8947194814682007, "learning_rate": 5.3366202385784005e-06, "loss": 0.1885, "step": 544 }, { "epoch": 3.6333333333333333, "grad_norm": 1.2822984457015991, "learning_rate": 5.30644684781744e-06, "loss": 0.4128, "step": 545 }, { "epoch": 3.64, "grad_norm": 1.170116901397705, "learning_rate": 5.276379776728257e-06, "loss": 0.2597, "step": 546 }, { "epoch": 3.6466666666666665, "grad_norm": 1.3510268926620483, "learning_rate": 5.24641958677415e-06, "loss": 0.7202, "step": 547 }, { "epoch": 3.6533333333333333, "grad_norm": 1.2227978706359863, "learning_rate": 5.216566837422544e-06, "loss": 0.2967, "step": 548 }, { "epoch": 3.66, "grad_norm": 1.0847147703170776, "learning_rate": 5.186822086134566e-06, "loss": 0.3016, "step": 549 }, { "epoch": 3.6666666666666665, "grad_norm": 1.683333396911621, "learning_rate": 5.157185888354612e-06, "loss": 0.7797, "step": 550 }, { "epoch": 3.6733333333333333, "grad_norm": 1.3969520330429077, "learning_rate": 5.127658797499977e-06, "loss": 0.686, "step": 551 }, { "epoch": 3.68, "grad_norm": 1.5366076231002808, "learning_rate": 5.098241364950538e-06, "loss": 0.4191, "step": 552 }, { "epoch": 3.6866666666666665, "grad_norm": 0.7615384459495544, "learning_rate": 5.068934140038444e-06, "loss": 0.1628, "step": 553 }, { "epoch": 3.6933333333333334, "grad_norm": 0.9901170134544373, "learning_rate": 5.0397376700378495e-06, "loss": 0.1854, "step": 554 }, { "epoch": 3.7, "grad_norm": 1.3659517765045166, "learning_rate": 5.01065250015472e-06, "loss": 0.6739, "step": 555 }, { "epoch": 3.7066666666666666, "grad_norm": 1.0953928232192993, "learning_rate": 4.981679173516627e-06, "loss": 0.2997, "step": 556 }, { "epoch": 3.7133333333333334, "grad_norm": 1.2342252731323242, "learning_rate": 4.952818231162622e-06, "loss": 0.3711, "step": 557 }, { "epoch": 3.7199999999999998, "grad_norm": 1.350342869758606, "learning_rate": 4.924070212033122e-06, "loss": 0.4404, "step": 558 }, { "epoch": 3.7266666666666666, "grad_norm": 2.475033760070801, "learning_rate": 4.895435652959852e-06, "loss": 0.4877, "step": 559 }, { "epoch": 3.7333333333333334, "grad_norm": 1.4326213598251343, "learning_rate": 4.866915088655814e-06, "loss": 0.3355, "step": 560 }, { "epoch": 3.74, "grad_norm": 1.1125874519348145, "learning_rate": 4.838509051705317e-06, "loss": 0.3048, "step": 561 }, { "epoch": 3.7466666666666666, "grad_norm": 1.303355097770691, "learning_rate": 4.810218072554012e-06, "loss": 0.5403, "step": 562 }, { "epoch": 3.7533333333333334, "grad_norm": 3.008938789367676, "learning_rate": 4.7820426794989994e-06, "loss": 0.4871, "step": 563 }, { "epoch": 3.76, "grad_norm": 0.9627671241760254, "learning_rate": 4.7539833986789594e-06, "loss": 0.3037, "step": 564 }, { "epoch": 3.7666666666666666, "grad_norm": 0.6086631417274475, "learning_rate": 4.726040754064324e-06, "loss": 0.1383, "step": 565 }, { "epoch": 3.7733333333333334, "grad_norm": 1.2451680898666382, "learning_rate": 4.698215267447506e-06, "loss": 0.3843, "step": 566 }, { "epoch": 3.7800000000000002, "grad_norm": 1.0320932865142822, "learning_rate": 4.6705074584331355e-06, "loss": 0.325, "step": 567 }, { "epoch": 3.7866666666666666, "grad_norm": 1.2940720319747925, "learning_rate": 4.642917844428376e-06, "loss": 0.4929, "step": 568 }, { "epoch": 3.7933333333333334, "grad_norm": 0.6670101881027222, "learning_rate": 4.615446940633247e-06, "loss": 0.1388, "step": 569 }, { "epoch": 3.8, "grad_norm": 1.3660937547683716, "learning_rate": 4.588095260031007e-06, "loss": 0.3894, "step": 570 }, { "epoch": 3.8066666666666666, "grad_norm": 0.9112516045570374, "learning_rate": 4.560863313378588e-06, "loss": 0.4541, "step": 571 }, { "epoch": 3.8133333333333335, "grad_norm": 1.1540873050689697, "learning_rate": 4.53375160919704e-06, "loss": 0.4801, "step": 572 }, { "epoch": 3.82, "grad_norm": 1.5096888542175293, "learning_rate": 4.506760653762036e-06, "loss": 0.3607, "step": 573 }, { "epoch": 3.8266666666666667, "grad_norm": 1.3884817361831665, "learning_rate": 4.4798909510944365e-06, "loss": 0.6647, "step": 574 }, { "epoch": 3.8333333333333335, "grad_norm": 1.4854823350906372, "learning_rate": 4.4531430029508585e-06, "loss": 0.3727, "step": 575 }, { "epoch": 3.84, "grad_norm": 1.3827471733093262, "learning_rate": 4.4265173088143065e-06, "loss": 0.4973, "step": 576 }, { "epoch": 3.8466666666666667, "grad_norm": 1.3074723482131958, "learning_rate": 4.400014365884863e-06, "loss": 0.2892, "step": 577 }, { "epoch": 3.8533333333333335, "grad_norm": 1.4479936361312866, "learning_rate": 4.37363466907038e-06, "loss": 0.3476, "step": 578 }, { "epoch": 3.86, "grad_norm": 1.3634988069534302, "learning_rate": 4.347378710977261e-06, "loss": 0.5382, "step": 579 }, { "epoch": 3.8666666666666667, "grad_norm": 1.4852162599563599, "learning_rate": 4.3212469819012425e-06, "loss": 0.5617, "step": 580 }, { "epoch": 3.873333333333333, "grad_norm": 1.0422636270523071, "learning_rate": 4.295239969818244e-06, "loss": 0.1996, "step": 581 }, { "epoch": 3.88, "grad_norm": 0.9663172960281372, "learning_rate": 4.269358160375268e-06, "loss": 0.3191, "step": 582 }, { "epoch": 3.8866666666666667, "grad_norm": 1.2019636631011963, "learning_rate": 4.243602036881312e-06, "loss": 0.378, "step": 583 }, { "epoch": 3.8933333333333335, "grad_norm": 1.286968469619751, "learning_rate": 4.2179720802983534e-06, "loss": 0.4823, "step": 584 }, { "epoch": 3.9, "grad_norm": 1.5564239025115967, "learning_rate": 4.192468769232375e-06, "loss": 0.5717, "step": 585 }, { "epoch": 3.9066666666666667, "grad_norm": 0.8727124333381653, "learning_rate": 4.167092579924414e-06, "loss": 0.3884, "step": 586 }, { "epoch": 3.913333333333333, "grad_norm": 1.3296633958816528, "learning_rate": 4.1418439862416695e-06, "loss": 0.2578, "step": 587 }, { "epoch": 3.92, "grad_norm": 0.9148731827735901, "learning_rate": 4.116723459668671e-06, "loss": 0.3557, "step": 588 }, { "epoch": 3.9266666666666667, "grad_norm": 1.3181500434875488, "learning_rate": 4.091731469298454e-06, "loss": 0.3736, "step": 589 }, { "epoch": 3.9333333333333336, "grad_norm": 1.6612805128097534, "learning_rate": 4.066868481823808e-06, "loss": 0.5731, "step": 590 }, { "epoch": 3.94, "grad_norm": 0.894189715385437, "learning_rate": 4.042134961528563e-06, "loss": 0.3085, "step": 591 }, { "epoch": 3.9466666666666668, "grad_norm": 1.26560378074646, "learning_rate": 4.017531370278922e-06, "loss": 0.3202, "step": 592 }, { "epoch": 3.953333333333333, "grad_norm": 1.175733208656311, "learning_rate": 3.99305816751483e-06, "loss": 0.3671, "step": 593 }, { "epoch": 3.96, "grad_norm": 1.1619269847869873, "learning_rate": 3.968715810241396e-06, "loss": 0.4029, "step": 594 }, { "epoch": 3.966666666666667, "grad_norm": 1.7974544763565063, "learning_rate": 3.9445047530203575e-06, "loss": 0.5174, "step": 595 }, { "epoch": 3.9733333333333336, "grad_norm": 1.4101741313934326, "learning_rate": 3.920425447961606e-06, "loss": 0.2974, "step": 596 }, { "epoch": 3.98, "grad_norm": 1.0057168006896973, "learning_rate": 3.896478344714722e-06, "loss": 0.2508, "step": 597 }, { "epoch": 3.986666666666667, "grad_norm": 1.7521125078201294, "learning_rate": 3.872663890460593e-06, "loss": 0.7125, "step": 598 }, { "epoch": 3.993333333333333, "grad_norm": 1.1852591037750244, "learning_rate": 3.848982529903065e-06, "loss": 0.2022, "step": 599 }, { "epoch": 4.0, "grad_norm": 0.8429129123687744, "learning_rate": 3.825434705260623e-06, "loss": 0.2263, "step": 600 }, { "epoch": 4.006666666666667, "grad_norm": 1.2853399515151978, "learning_rate": 3.802020856258155e-06, "loss": 0.3568, "step": 601 }, { "epoch": 4.013333333333334, "grad_norm": 1.284716010093689, "learning_rate": 3.778741420118719e-06, "loss": 0.3047, "step": 602 }, { "epoch": 4.02, "grad_norm": 1.6293946504592896, "learning_rate": 3.7555968315553916e-06, "loss": 0.6352, "step": 603 }, { "epoch": 4.026666666666666, "grad_norm": 1.3592982292175293, "learning_rate": 3.732587522763148e-06, "loss": 0.4972, "step": 604 }, { "epoch": 4.033333333333333, "grad_norm": 0.7168772220611572, "learning_rate": 3.709713923410793e-06, "loss": 0.1539, "step": 605 }, { "epoch": 4.04, "grad_norm": 0.8747243881225586, "learning_rate": 3.686976460632924e-06, "loss": 0.2995, "step": 606 }, { "epoch": 4.046666666666667, "grad_norm": 1.47053861618042, "learning_rate": 3.6643755590219796e-06, "loss": 0.3373, "step": 607 }, { "epoch": 4.053333333333334, "grad_norm": 1.6070635318756104, "learning_rate": 3.6419116406202883e-06, "loss": 0.7124, "step": 608 }, { "epoch": 4.06, "grad_norm": 1.4459311962127686, "learning_rate": 3.619585124912195e-06, "loss": 0.8205, "step": 609 }, { "epoch": 4.066666666666666, "grad_norm": 1.3801395893096924, "learning_rate": 3.597396428816236e-06, "loss": 0.4101, "step": 610 }, { "epoch": 4.073333333333333, "grad_norm": 1.5872927904129028, "learning_rate": 3.575345966677339e-06, "loss": 0.54, "step": 611 }, { "epoch": 4.08, "grad_norm": 1.1149475574493408, "learning_rate": 3.5534341502590995e-06, "loss": 0.2603, "step": 612 }, { "epoch": 4.086666666666667, "grad_norm": 1.1735680103302002, "learning_rate": 3.5316613887360794e-06, "loss": 0.3277, "step": 613 }, { "epoch": 4.093333333333334, "grad_norm": 1.1807669401168823, "learning_rate": 3.5100280886861713e-06, "loss": 0.349, "step": 614 }, { "epoch": 4.1, "grad_norm": 1.2858244180679321, "learning_rate": 3.4885346540830154e-06, "loss": 0.4824, "step": 615 }, { "epoch": 4.1066666666666665, "grad_norm": 1.3448548316955566, "learning_rate": 3.46718148628844e-06, "loss": 0.6582, "step": 616 }, { "epoch": 4.113333333333333, "grad_norm": 2.794578790664673, "learning_rate": 3.445968984044972e-06, "loss": 0.7599, "step": 617 }, { "epoch": 4.12, "grad_norm": 1.1659574508666992, "learning_rate": 3.4248975434684004e-06, "loss": 0.2854, "step": 618 }, { "epoch": 4.126666666666667, "grad_norm": 0.9521848559379578, "learning_rate": 3.403967558040367e-06, "loss": 0.4499, "step": 619 }, { "epoch": 4.133333333333334, "grad_norm": 0.8292222619056702, "learning_rate": 3.383179418601024e-06, "loss": 0.2096, "step": 620 }, { "epoch": 4.14, "grad_norm": 1.1031184196472168, "learning_rate": 3.3625335133417337e-06, "loss": 0.332, "step": 621 }, { "epoch": 4.1466666666666665, "grad_norm": 1.7812882661819458, "learning_rate": 3.34203022779782e-06, "loss": 0.3759, "step": 622 }, { "epoch": 4.153333333333333, "grad_norm": 1.1715418100357056, "learning_rate": 3.321669944841377e-06, "loss": 0.2522, "step": 623 }, { "epoch": 4.16, "grad_norm": 1.2465636730194092, "learning_rate": 3.301453044674106e-06, "loss": 0.2774, "step": 624 }, { "epoch": 4.166666666666667, "grad_norm": 1.8948891162872314, "learning_rate": 3.281379904820219e-06, "loss": 0.7832, "step": 625 }, { "epoch": 4.173333333333334, "grad_norm": 1.8957587480545044, "learning_rate": 3.261450900119401e-06, "loss": 0.7166, "step": 626 }, { "epoch": 4.18, "grad_norm": 1.3086090087890625, "learning_rate": 3.2416664027197935e-06, "loss": 0.4382, "step": 627 }, { "epoch": 4.1866666666666665, "grad_norm": 1.1486830711364746, "learning_rate": 3.2220267820710544e-06, "loss": 0.3108, "step": 628 }, { "epoch": 4.193333333333333, "grad_norm": 1.371157169342041, "learning_rate": 3.2025324049174613e-06, "loss": 0.4944, "step": 629 }, { "epoch": 4.2, "grad_norm": 1.1694400310516357, "learning_rate": 3.183183635291054e-06, "loss": 0.2286, "step": 630 }, { "epoch": 4.206666666666667, "grad_norm": 1.0180890560150146, "learning_rate": 3.1639808345048425e-06, "loss": 0.3435, "step": 631 }, { "epoch": 4.213333333333333, "grad_norm": 1.867078423500061, "learning_rate": 3.1449243611460657e-06, "loss": 0.7808, "step": 632 }, { "epoch": 4.22, "grad_norm": 1.7380026578903198, "learning_rate": 3.126014571069479e-06, "loss": 0.844, "step": 633 }, { "epoch": 4.226666666666667, "grad_norm": 1.4347327947616577, "learning_rate": 3.1072518173907277e-06, "loss": 0.6694, "step": 634 }, { "epoch": 4.233333333333333, "grad_norm": 1.4206736087799072, "learning_rate": 3.0886364504797407e-06, "loss": 0.387, "step": 635 }, { "epoch": 4.24, "grad_norm": 0.792955756187439, "learning_rate": 3.0701688179541857e-06, "loss": 0.1755, "step": 636 }, { "epoch": 4.246666666666667, "grad_norm": 1.453861117362976, "learning_rate": 3.051849264672996e-06, "loss": 0.5212, "step": 637 }, { "epoch": 4.253333333333333, "grad_norm": 1.0745089054107666, "learning_rate": 3.0336781327299105e-06, "loss": 0.2214, "step": 638 }, { "epoch": 4.26, "grad_norm": 1.3397624492645264, "learning_rate": 3.0156557614470912e-06, "loss": 0.3879, "step": 639 }, { "epoch": 4.266666666666667, "grad_norm": 1.5081578493118286, "learning_rate": 2.9977824873687943e-06, "loss": 0.5862, "step": 640 }, { "epoch": 4.273333333333333, "grad_norm": 1.453550100326538, "learning_rate": 2.98005864425508e-06, "loss": 0.4981, "step": 641 }, { "epoch": 4.28, "grad_norm": 1.5029710531234741, "learning_rate": 2.9624845630755744e-06, "loss": 0.5053, "step": 642 }, { "epoch": 4.286666666666667, "grad_norm": 1.6604195833206177, "learning_rate": 2.945060572003303e-06, "loss": 0.4623, "step": 643 }, { "epoch": 4.293333333333333, "grad_norm": 1.6119710206985474, "learning_rate": 2.92778699640855e-06, "loss": 0.6292, "step": 644 }, { "epoch": 4.3, "grad_norm": 1.020081639289856, "learning_rate": 2.9106641588527874e-06, "loss": 0.2664, "step": 645 }, { "epoch": 4.306666666666667, "grad_norm": 1.4827642440795898, "learning_rate": 2.8936923790826517e-06, "loss": 0.5484, "step": 646 }, { "epoch": 4.3133333333333335, "grad_norm": 1.4749743938446045, "learning_rate": 2.8768719740239724e-06, "loss": 0.6281, "step": 647 }, { "epoch": 4.32, "grad_norm": 1.336064338684082, "learning_rate": 2.8602032577758542e-06, "loss": 0.2808, "step": 648 } ], "logging_steps": 1.0, "max_steps": 750, "num_input_tokens_seen": 0, "num_train_epochs": 5, "save_steps": 108, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 3.505549915772158e+18, "train_batch_size": 4, "trial_name": null, "trial_params": null }