{ "best_global_step": 1050, "best_metric": 0.11913716793060303, "best_model_checkpoint": "./biobert_finetuned/checkpoint-1050", "epoch": 7.0, "eval_steps": 500, "global_step": 1050, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.06666666666666667, "grad_norm": 13.463831901550293, "learning_rate": 9e-07, "loss": 2.6521, "step": 10 }, { "epoch": 0.13333333333333333, "grad_norm": 17.904417037963867, "learning_rate": 1.9e-06, "loss": 2.5695, "step": 20 }, { "epoch": 0.2, "grad_norm": 13.382059097290039, "learning_rate": 2.9e-06, "loss": 2.3655, "step": 30 }, { "epoch": 0.26666666666666666, "grad_norm": 15.177352905273438, "learning_rate": 3.9e-06, "loss": 2.0405, "step": 40 }, { "epoch": 0.3333333333333333, "grad_norm": 10.71672248840332, "learning_rate": 4.9000000000000005e-06, "loss": 1.8705, "step": 50 }, { "epoch": 0.4, "grad_norm": 13.403343200683594, "learning_rate": 5.9e-06, "loss": 1.7288, "step": 60 }, { "epoch": 0.4666666666666667, "grad_norm": 7.059112071990967, "learning_rate": 6.900000000000001e-06, "loss": 1.5103, "step": 70 }, { "epoch": 0.5333333333333333, "grad_norm": 6.9864501953125, "learning_rate": 7.9e-06, "loss": 1.3627, "step": 80 }, { "epoch": 0.6, "grad_norm": 7.044577121734619, "learning_rate": 8.9e-06, "loss": 1.3518, "step": 90 }, { "epoch": 0.6666666666666666, "grad_norm": 4.0402679443359375, "learning_rate": 9.900000000000002e-06, "loss": 1.0437, "step": 100 }, { "epoch": 0.7333333333333333, "grad_norm": 5.4136810302734375, "learning_rate": 1.09e-05, "loss": 1.0047, "step": 110 }, { "epoch": 0.8, "grad_norm": 9.039102554321289, "learning_rate": 1.19e-05, "loss": 0.9365, "step": 120 }, { "epoch": 0.8666666666666667, "grad_norm": 13.516952514648438, "learning_rate": 1.29e-05, "loss": 0.9795, "step": 130 }, { "epoch": 0.9333333333333333, "grad_norm": 5.31602668762207, "learning_rate": 1.3900000000000002e-05, "loss": 0.6499, "step": 140 }, { "epoch": 1.0, "grad_norm": 7.213238716125488, "learning_rate": 1.49e-05, "loss": 0.6547, "step": 150 }, { "epoch": 1.0, "eval_loss": 0.604148268699646, "eval_runtime": 2.0247, "eval_samples_per_second": 148.173, "eval_steps_per_second": 18.769, "step": 150 }, { "epoch": 1.0666666666666667, "grad_norm": 4.625416278839111, "learning_rate": 1.59e-05, "loss": 0.6431, "step": 160 }, { "epoch": 1.1333333333333333, "grad_norm": 3.3032636642456055, "learning_rate": 1.69e-05, "loss": 0.8007, "step": 170 }, { "epoch": 1.2, "grad_norm": 6.570312976837158, "learning_rate": 1.79e-05, "loss": 0.9804, "step": 180 }, { "epoch": 1.2666666666666666, "grad_norm": 17.777545928955078, "learning_rate": 1.8900000000000002e-05, "loss": 0.4783, "step": 190 }, { "epoch": 1.3333333333333333, "grad_norm": 2.971701145172119, "learning_rate": 1.9900000000000003e-05, "loss": 0.419, "step": 200 }, { "epoch": 1.4, "grad_norm": 5.428223133087158, "learning_rate": 2.09e-05, "loss": 0.5315, "step": 210 }, { "epoch": 1.4666666666666668, "grad_norm": 5.2568359375, "learning_rate": 2.19e-05, "loss": 0.6614, "step": 220 }, { "epoch": 1.5333333333333332, "grad_norm": 5.559769153594971, "learning_rate": 2.29e-05, "loss": 0.8553, "step": 230 }, { "epoch": 1.6, "grad_norm": 4.518465518951416, "learning_rate": 2.39e-05, "loss": 0.5968, "step": 240 }, { "epoch": 1.6666666666666665, "grad_norm": 2.7281060218811035, "learning_rate": 2.4900000000000002e-05, "loss": 0.4135, "step": 250 }, { "epoch": 1.7333333333333334, "grad_norm": 5.358660697937012, "learning_rate": 2.5900000000000003e-05, "loss": 0.4336, "step": 260 }, { "epoch": 1.8, "grad_norm": 1.3668735027313232, "learning_rate": 2.6900000000000003e-05, "loss": 0.4635, "step": 270 }, { "epoch": 1.8666666666666667, "grad_norm": 9.1996488571167, "learning_rate": 2.7900000000000004e-05, "loss": 0.5306, "step": 280 }, { "epoch": 1.9333333333333333, "grad_norm": 15.104496002197266, "learning_rate": 2.8899999999999998e-05, "loss": 0.3743, "step": 290 }, { "epoch": 2.0, "grad_norm": 6.097069263458252, "learning_rate": 2.9900000000000002e-05, "loss": 0.3114, "step": 300 }, { "epoch": 2.0, "eval_loss": 0.3359587788581848, "eval_runtime": 2.0247, "eval_samples_per_second": 148.168, "eval_steps_per_second": 18.768, "step": 300 }, { "epoch": 2.066666666666667, "grad_norm": 0.6158464550971985, "learning_rate": 3.09e-05, "loss": 0.2553, "step": 310 }, { "epoch": 2.1333333333333333, "grad_norm": 0.18333937227725983, "learning_rate": 3.19e-05, "loss": 0.3261, "step": 320 }, { "epoch": 2.2, "grad_norm": 1.7771573066711426, "learning_rate": 3.29e-05, "loss": 0.3781, "step": 330 }, { "epoch": 2.2666666666666666, "grad_norm": 3.543750286102295, "learning_rate": 3.3900000000000004e-05, "loss": 0.3054, "step": 340 }, { "epoch": 2.3333333333333335, "grad_norm": 5.752226829528809, "learning_rate": 3.49e-05, "loss": 0.4268, "step": 350 }, { "epoch": 2.4, "grad_norm": 3.296557903289795, "learning_rate": 3.59e-05, "loss": 0.1385, "step": 360 }, { "epoch": 2.466666666666667, "grad_norm": 6.171315670013428, "learning_rate": 3.69e-05, "loss": 0.3425, "step": 370 }, { "epoch": 2.533333333333333, "grad_norm": 3.2850117683410645, "learning_rate": 3.79e-05, "loss": 0.3024, "step": 380 }, { "epoch": 2.6, "grad_norm": 1.3974509239196777, "learning_rate": 3.8900000000000004e-05, "loss": 0.2247, "step": 390 }, { "epoch": 2.6666666666666665, "grad_norm": 5.502342224121094, "learning_rate": 3.99e-05, "loss": 0.2708, "step": 400 }, { "epoch": 2.7333333333333334, "grad_norm": 14.935027122497559, "learning_rate": 4.09e-05, "loss": 0.3136, "step": 410 }, { "epoch": 2.8, "grad_norm": 0.21501508355140686, "learning_rate": 4.19e-05, "loss": 0.1375, "step": 420 }, { "epoch": 2.8666666666666667, "grad_norm": 1.9687143564224243, "learning_rate": 4.29e-05, "loss": 0.156, "step": 430 }, { "epoch": 2.9333333333333336, "grad_norm": 6.146747589111328, "learning_rate": 4.39e-05, "loss": 0.2321, "step": 440 }, { "epoch": 3.0, "grad_norm": 6.3471221923828125, "learning_rate": 4.49e-05, "loss": 0.2233, "step": 450 }, { "epoch": 3.0, "eval_loss": 0.20637968182563782, "eval_runtime": 2.0248, "eval_samples_per_second": 148.163, "eval_steps_per_second": 18.767, "step": 450 }, { "epoch": 3.066666666666667, "grad_norm": 1.3382216691970825, "learning_rate": 4.5900000000000004e-05, "loss": 0.0986, "step": 460 }, { "epoch": 3.1333333333333333, "grad_norm": 0.2070283740758896, "learning_rate": 4.69e-05, "loss": 0.096, "step": 470 }, { "epoch": 3.2, "grad_norm": 2.9396660327911377, "learning_rate": 4.79e-05, "loss": 0.0934, "step": 480 }, { "epoch": 3.2666666666666666, "grad_norm": 3.6007699966430664, "learning_rate": 4.89e-05, "loss": 0.1047, "step": 490 }, { "epoch": 3.3333333333333335, "grad_norm": 0.26711905002593994, "learning_rate": 4.99e-05, "loss": 0.1923, "step": 500 }, { "epoch": 3.4, "grad_norm": 5.035065174102783, "learning_rate": 4.9887500000000006e-05, "loss": 0.119, "step": 510 }, { "epoch": 3.466666666666667, "grad_norm": 0.1776144653558731, "learning_rate": 4.9762500000000003e-05, "loss": 0.0943, "step": 520 }, { "epoch": 3.533333333333333, "grad_norm": 0.02885596826672554, "learning_rate": 4.96375e-05, "loss": 0.0461, "step": 530 }, { "epoch": 3.6, "grad_norm": 0.3528282642364502, "learning_rate": 4.95125e-05, "loss": 0.1185, "step": 540 }, { "epoch": 3.6666666666666665, "grad_norm": 0.38493919372558594, "learning_rate": 4.93875e-05, "loss": 0.1644, "step": 550 }, { "epoch": 3.7333333333333334, "grad_norm": 5.259444236755371, "learning_rate": 4.92625e-05, "loss": 0.1912, "step": 560 }, { "epoch": 3.8, "grad_norm": 0.2288435697555542, "learning_rate": 4.91375e-05, "loss": 0.0489, "step": 570 }, { "epoch": 3.8666666666666667, "grad_norm": 0.5442637205123901, "learning_rate": 4.90125e-05, "loss": 0.0817, "step": 580 }, { "epoch": 3.9333333333333336, "grad_norm": 0.15792164206504822, "learning_rate": 4.88875e-05, "loss": 0.0996, "step": 590 }, { "epoch": 4.0, "grad_norm": 0.10254433006048203, "learning_rate": 4.87625e-05, "loss": 0.1274, "step": 600 }, { "epoch": 4.0, "eval_loss": 0.13498492538928986, "eval_runtime": 2.0251, "eval_samples_per_second": 148.143, "eval_steps_per_second": 18.765, "step": 600 }, { "epoch": 4.066666666666666, "grad_norm": 0.7803947925567627, "learning_rate": 4.86375e-05, "loss": 0.0249, "step": 610 }, { "epoch": 4.133333333333334, "grad_norm": 0.36452987790107727, "learning_rate": 4.85125e-05, "loss": 0.1274, "step": 620 }, { "epoch": 4.2, "grad_norm": 4.308764457702637, "learning_rate": 4.8387500000000004e-05, "loss": 0.0802, "step": 630 }, { "epoch": 4.266666666666667, "grad_norm": 0.09774160385131836, "learning_rate": 4.826250000000001e-05, "loss": 0.1802, "step": 640 }, { "epoch": 4.333333333333333, "grad_norm": 0.35747790336608887, "learning_rate": 4.8137500000000005e-05, "loss": 0.1336, "step": 650 }, { "epoch": 4.4, "grad_norm": 4.263286113739014, "learning_rate": 4.80125e-05, "loss": 0.0855, "step": 660 }, { "epoch": 4.466666666666667, "grad_norm": 0.03946325555443764, "learning_rate": 4.78875e-05, "loss": 0.0079, "step": 670 }, { "epoch": 4.533333333333333, "grad_norm": 0.020330730825662613, "learning_rate": 4.77625e-05, "loss": 0.0733, "step": 680 }, { "epoch": 4.6, "grad_norm": 0.13235849142074585, "learning_rate": 4.76375e-05, "loss": 0.0067, "step": 690 }, { "epoch": 4.666666666666667, "grad_norm": 0.24126243591308594, "learning_rate": 4.75125e-05, "loss": 0.0817, "step": 700 }, { "epoch": 4.733333333333333, "grad_norm": 7.457833766937256, "learning_rate": 4.73875e-05, "loss": 0.1199, "step": 710 }, { "epoch": 4.8, "grad_norm": 0.27026623487472534, "learning_rate": 4.7262500000000004e-05, "loss": 0.0469, "step": 720 }, { "epoch": 4.866666666666667, "grad_norm": 0.059509869664907455, "learning_rate": 4.71375e-05, "loss": 0.0854, "step": 730 }, { "epoch": 4.933333333333334, "grad_norm": 0.06994075328111649, "learning_rate": 4.7012500000000004e-05, "loss": 0.029, "step": 740 }, { "epoch": 5.0, "grad_norm": 0.018521888181567192, "learning_rate": 4.68875e-05, "loss": 0.0992, "step": 750 }, { "epoch": 5.0, "eval_loss": 0.1332983374595642, "eval_runtime": 2.0249, "eval_samples_per_second": 148.153, "eval_steps_per_second": 18.766, "step": 750 }, { "epoch": 5.066666666666666, "grad_norm": 0.12378793209791183, "learning_rate": 4.6762500000000005e-05, "loss": 0.1196, "step": 760 }, { "epoch": 5.133333333333334, "grad_norm": 0.10968955606222153, "learning_rate": 4.66375e-05, "loss": 0.0799, "step": 770 }, { "epoch": 5.2, "grad_norm": 0.01367497444152832, "learning_rate": 4.6512500000000006e-05, "loss": 0.0142, "step": 780 }, { "epoch": 5.266666666666667, "grad_norm": 0.8894422650337219, "learning_rate": 4.63875e-05, "loss": 0.0083, "step": 790 }, { "epoch": 5.333333333333333, "grad_norm": 0.13817550241947174, "learning_rate": 4.6262500000000006e-05, "loss": 0.0201, "step": 800 }, { "epoch": 5.4, "grad_norm": 0.1904774010181427, "learning_rate": 4.61375e-05, "loss": 0.107, "step": 810 }, { "epoch": 5.466666666666667, "grad_norm": 0.08374916762113571, "learning_rate": 4.60125e-05, "loss": 0.0116, "step": 820 }, { "epoch": 5.533333333333333, "grad_norm": 0.019752444699406624, "learning_rate": 4.58875e-05, "loss": 0.0018, "step": 830 }, { "epoch": 5.6, "grad_norm": 0.03318554162979126, "learning_rate": 4.57625e-05, "loss": 0.1093, "step": 840 }, { "epoch": 5.666666666666667, "grad_norm": 0.2833520174026489, "learning_rate": 4.56375e-05, "loss": 0.0075, "step": 850 }, { "epoch": 5.733333333333333, "grad_norm": 0.023464033380150795, "learning_rate": 4.55125e-05, "loss": 0.0033, "step": 860 }, { "epoch": 5.8, "grad_norm": 0.037742841988801956, "learning_rate": 4.53875e-05, "loss": 0.0021, "step": 870 }, { "epoch": 5.866666666666667, "grad_norm": 11.474201202392578, "learning_rate": 4.52625e-05, "loss": 0.032, "step": 880 }, { "epoch": 5.933333333333334, "grad_norm": 0.05570446699857712, "learning_rate": 4.5137500000000006e-05, "loss": 0.0032, "step": 890 }, { "epoch": 6.0, "grad_norm": 0.049245789647102356, "learning_rate": 4.50125e-05, "loss": 0.0138, "step": 900 }, { "epoch": 6.0, "eval_loss": 0.1287696212530136, "eval_runtime": 2.0244, "eval_samples_per_second": 148.194, "eval_steps_per_second": 18.771, "step": 900 }, { "epoch": 6.066666666666666, "grad_norm": 1.1790558099746704, "learning_rate": 4.488750000000001e-05, "loss": 0.0084, "step": 910 }, { "epoch": 6.133333333333334, "grad_norm": 0.08334579318761826, "learning_rate": 4.4762500000000004e-05, "loss": 0.0027, "step": 920 }, { "epoch": 6.2, "grad_norm": 0.01578553207218647, "learning_rate": 4.463750000000001e-05, "loss": 0.0023, "step": 930 }, { "epoch": 6.266666666666667, "grad_norm": 0.016995681449770927, "learning_rate": 4.4512500000000005e-05, "loss": 0.002, "step": 940 }, { "epoch": 6.333333333333333, "grad_norm": 0.0547955147922039, "learning_rate": 4.43875e-05, "loss": 0.1065, "step": 950 }, { "epoch": 6.4, "grad_norm": 0.5331246852874756, "learning_rate": 4.42625e-05, "loss": 0.0568, "step": 960 }, { "epoch": 6.466666666666667, "grad_norm": 0.021979335695505142, "learning_rate": 4.41375e-05, "loss": 0.0022, "step": 970 }, { "epoch": 6.533333333333333, "grad_norm": 0.029780471697449684, "learning_rate": 4.40125e-05, "loss": 0.0068, "step": 980 }, { "epoch": 6.6, "grad_norm": 0.032823920249938965, "learning_rate": 4.38875e-05, "loss": 0.0032, "step": 990 }, { "epoch": 6.666666666666667, "grad_norm": 0.008314649574458599, "learning_rate": 4.37625e-05, "loss": 0.0781, "step": 1000 }, { "epoch": 6.733333333333333, "grad_norm": 0.05079174414277077, "learning_rate": 4.3637500000000004e-05, "loss": 0.0038, "step": 1010 }, { "epoch": 6.8, "grad_norm": 0.31804975867271423, "learning_rate": 4.35125e-05, "loss": 0.0032, "step": 1020 }, { "epoch": 6.866666666666667, "grad_norm": 0.02879503183066845, "learning_rate": 4.3387500000000004e-05, "loss": 0.0272, "step": 1030 }, { "epoch": 6.933333333333334, "grad_norm": 0.12305553257465363, "learning_rate": 4.32625e-05, "loss": 0.0053, "step": 1040 }, { "epoch": 7.0, "grad_norm": 0.0078430799767375, "learning_rate": 4.3137500000000005e-05, "loss": 0.0013, "step": 1050 }, { "epoch": 7.0, "eval_loss": 0.11913716793060303, "eval_runtime": 2.0238, "eval_samples_per_second": 148.233, "eval_steps_per_second": 18.776, "step": 1050 } ], "logging_steps": 10, "max_steps": 4500, "num_input_tokens_seen": 0, "num_train_epochs": 30, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 2206726661701632.0, "train_batch_size": 8, "trial_name": null, "trial_params": null }