{
  "best_global_step": 1050,
  "best_metric": 0.11913716793060303,
  "best_model_checkpoint": "./biobert_finetuned/checkpoint-1050",
  "epoch": 7.0,
  "eval_steps": 500,
  "global_step": 1050,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.06666666666666667,
      "grad_norm": 13.463831901550293,
      "learning_rate": 9e-07,
      "loss": 2.6521,
      "step": 10
    },
    {
      "epoch": 0.13333333333333333,
      "grad_norm": 17.904417037963867,
      "learning_rate": 1.9e-06,
      "loss": 2.5695,
      "step": 20
    },
    {
      "epoch": 0.2,
      "grad_norm": 13.382059097290039,
      "learning_rate": 2.9e-06,
      "loss": 2.3655,
      "step": 30
    },
    {
      "epoch": 0.26666666666666666,
      "grad_norm": 15.177352905273438,
      "learning_rate": 3.9e-06,
      "loss": 2.0405,
      "step": 40
    },
    {
      "epoch": 0.3333333333333333,
      "grad_norm": 10.71672248840332,
      "learning_rate": 4.9000000000000005e-06,
      "loss": 1.8705,
      "step": 50
    },
    {
      "epoch": 0.4,
      "grad_norm": 13.403343200683594,
      "learning_rate": 5.9e-06,
      "loss": 1.7288,
      "step": 60
    },
    {
      "epoch": 0.4666666666666667,
      "grad_norm": 7.059112071990967,
      "learning_rate": 6.900000000000001e-06,
      "loss": 1.5103,
      "step": 70
    },
    {
      "epoch": 0.5333333333333333,
      "grad_norm": 6.9864501953125,
      "learning_rate": 7.9e-06,
      "loss": 1.3627,
      "step": 80
    },
    {
      "epoch": 0.6,
      "grad_norm": 7.044577121734619,
      "learning_rate": 8.9e-06,
      "loss": 1.3518,
      "step": 90
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 4.0402679443359375,
      "learning_rate": 9.900000000000002e-06,
      "loss": 1.0437,
      "step": 100
    },
    {
      "epoch": 0.7333333333333333,
      "grad_norm": 5.4136810302734375,
      "learning_rate": 1.09e-05,
      "loss": 1.0047,
      "step": 110
    },
    {
      "epoch": 0.8,
      "grad_norm": 9.039102554321289,
      "learning_rate": 1.19e-05,
      "loss": 0.9365,
      "step": 120
    },
    {
      "epoch": 0.8666666666666667,
      "grad_norm": 13.516952514648438,
      "learning_rate": 1.29e-05,
      "loss": 0.9795,
      "step": 130
    },
    {
      "epoch": 0.9333333333333333,
      "grad_norm": 5.31602668762207,
      "learning_rate": 1.3900000000000002e-05,
      "loss": 0.6499,
      "step": 140
    },
    {
      "epoch": 1.0,
      "grad_norm": 7.213238716125488,
      "learning_rate": 1.49e-05,
      "loss": 0.6547,
      "step": 150
    },
    {
      "epoch": 1.0,
      "eval_loss": 0.604148268699646,
      "eval_runtime": 2.0247,
      "eval_samples_per_second": 148.173,
      "eval_steps_per_second": 18.769,
      "step": 150
    },
    {
      "epoch": 1.0666666666666667,
      "grad_norm": 4.625416278839111,
      "learning_rate": 1.59e-05,
      "loss": 0.6431,
      "step": 160
    },
    {
      "epoch": 1.1333333333333333,
      "grad_norm": 3.3032636642456055,
      "learning_rate": 1.69e-05,
      "loss": 0.8007,
      "step": 170
    },
    {
      "epoch": 1.2,
      "grad_norm": 6.570312976837158,
      "learning_rate": 1.79e-05,
      "loss": 0.9804,
      "step": 180
    },
    {
      "epoch": 1.2666666666666666,
      "grad_norm": 17.777545928955078,
      "learning_rate": 1.8900000000000002e-05,
      "loss": 0.4783,
      "step": 190
    },
    {
      "epoch": 1.3333333333333333,
      "grad_norm": 2.971701145172119,
      "learning_rate": 1.9900000000000003e-05,
      "loss": 0.419,
      "step": 200
    },
    {
      "epoch": 1.4,
      "grad_norm": 5.428223133087158,
      "learning_rate": 2.09e-05,
      "loss": 0.5315,
      "step": 210
    },
    {
      "epoch": 1.4666666666666668,
      "grad_norm": 5.2568359375,
      "learning_rate": 2.19e-05,
      "loss": 0.6614,
      "step": 220
    },
    {
      "epoch": 1.5333333333333332,
      "grad_norm": 5.559769153594971,
      "learning_rate": 2.29e-05,
      "loss": 0.8553,
      "step": 230
    },
    {
      "epoch": 1.6,
      "grad_norm": 4.518465518951416,
      "learning_rate": 2.39e-05,
      "loss": 0.5968,
      "step": 240
    },
    {
      "epoch": 1.6666666666666665,
      "grad_norm": 2.7281060218811035,
      "learning_rate": 2.4900000000000002e-05,
      "loss": 0.4135,
      "step": 250
    },
    {
      "epoch": 1.7333333333333334,
      "grad_norm": 5.358660697937012,
      "learning_rate": 2.5900000000000003e-05,
      "loss": 0.4336,
      "step": 260
    },
    {
      "epoch": 1.8,
      "grad_norm": 1.3668735027313232,
      "learning_rate": 2.6900000000000003e-05,
      "loss": 0.4635,
      "step": 270
    },
    {
      "epoch": 1.8666666666666667,
      "grad_norm": 9.1996488571167,
      "learning_rate": 2.7900000000000004e-05,
      "loss": 0.5306,
      "step": 280
    },
    {
      "epoch": 1.9333333333333333,
      "grad_norm": 15.104496002197266,
      "learning_rate": 2.8899999999999998e-05,
      "loss": 0.3743,
      "step": 290
    },
    {
      "epoch": 2.0,
      "grad_norm": 6.097069263458252,
      "learning_rate": 2.9900000000000002e-05,
      "loss": 0.3114,
      "step": 300
    },
    {
      "epoch": 2.0,
      "eval_loss": 0.3359587788581848,
      "eval_runtime": 2.0247,
      "eval_samples_per_second": 148.168,
      "eval_steps_per_second": 18.768,
      "step": 300
    },
    {
      "epoch": 2.066666666666667,
      "grad_norm": 0.6158464550971985,
      "learning_rate": 3.09e-05,
      "loss": 0.2553,
      "step": 310
    },
    {
      "epoch": 2.1333333333333333,
      "grad_norm": 0.18333937227725983,
      "learning_rate": 3.19e-05,
      "loss": 0.3261,
      "step": 320
    },
    {
      "epoch": 2.2,
      "grad_norm": 1.7771573066711426,
      "learning_rate": 3.29e-05,
      "loss": 0.3781,
      "step": 330
    },
    {
      "epoch": 2.2666666666666666,
      "grad_norm": 3.543750286102295,
      "learning_rate": 3.3900000000000004e-05,
      "loss": 0.3054,
      "step": 340
    },
    {
      "epoch": 2.3333333333333335,
      "grad_norm": 5.752226829528809,
      "learning_rate": 3.49e-05,
      "loss": 0.4268,
      "step": 350
    },
    {
      "epoch": 2.4,
      "grad_norm": 3.296557903289795,
      "learning_rate": 3.59e-05,
      "loss": 0.1385,
      "step": 360
    },
    {
      "epoch": 2.466666666666667,
      "grad_norm": 6.171315670013428,
      "learning_rate": 3.69e-05,
      "loss": 0.3425,
      "step": 370
    },
    {
      "epoch": 2.533333333333333,
      "grad_norm": 3.2850117683410645,
      "learning_rate": 3.79e-05,
      "loss": 0.3024,
      "step": 380
    },
    {
      "epoch": 2.6,
      "grad_norm": 1.3974509239196777,
      "learning_rate": 3.8900000000000004e-05,
      "loss": 0.2247,
      "step": 390
    },
    {
      "epoch": 2.6666666666666665,
      "grad_norm": 5.502342224121094,
      "learning_rate": 3.99e-05,
      "loss": 0.2708,
      "step": 400
    },
    {
      "epoch": 2.7333333333333334,
      "grad_norm": 14.935027122497559,
      "learning_rate": 4.09e-05,
      "loss": 0.3136,
      "step": 410
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.21501508355140686,
      "learning_rate": 4.19e-05,
      "loss": 0.1375,
      "step": 420
    },
    {
      "epoch": 2.8666666666666667,
      "grad_norm": 1.9687143564224243,
      "learning_rate": 4.29e-05,
      "loss": 0.156,
      "step": 430
    },
    {
      "epoch": 2.9333333333333336,
      "grad_norm": 6.146747589111328,
      "learning_rate": 4.39e-05,
      "loss": 0.2321,
      "step": 440
    },
    {
      "epoch": 3.0,
      "grad_norm": 6.3471221923828125,
      "learning_rate": 4.49e-05,
      "loss": 0.2233,
      "step": 450
    },
    {
      "epoch": 3.0,
      "eval_loss": 0.20637968182563782,
      "eval_runtime": 2.0248,
      "eval_samples_per_second": 148.163,
      "eval_steps_per_second": 18.767,
      "step": 450
    },
    {
      "epoch": 3.066666666666667,
      "grad_norm": 1.3382216691970825,
      "learning_rate": 4.5900000000000004e-05,
      "loss": 0.0986,
      "step": 460
    },
    {
      "epoch": 3.1333333333333333,
      "grad_norm": 0.2070283740758896,
      "learning_rate": 4.69e-05,
      "loss": 0.096,
      "step": 470
    },
    {
      "epoch": 3.2,
      "grad_norm": 2.9396660327911377,
      "learning_rate": 4.79e-05,
      "loss": 0.0934,
      "step": 480
    },
    {
      "epoch": 3.2666666666666666,
      "grad_norm": 3.6007699966430664,
      "learning_rate": 4.89e-05,
      "loss": 0.1047,
      "step": 490
    },
    {
      "epoch": 3.3333333333333335,
      "grad_norm": 0.26711905002593994,
      "learning_rate": 4.99e-05,
      "loss": 0.1923,
      "step": 500
    },
    {
      "epoch": 3.4,
      "grad_norm": 5.035065174102783,
      "learning_rate": 4.9887500000000006e-05,
      "loss": 0.119,
      "step": 510
    },
    {
      "epoch": 3.466666666666667,
      "grad_norm": 0.1776144653558731,
      "learning_rate": 4.9762500000000003e-05,
      "loss": 0.0943,
      "step": 520
    },
    {
      "epoch": 3.533333333333333,
      "grad_norm": 0.02885596826672554,
      "learning_rate": 4.96375e-05,
      "loss": 0.0461,
      "step": 530
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.3528282642364502,
      "learning_rate": 4.95125e-05,
      "loss": 0.1185,
      "step": 540
    },
    {
      "epoch": 3.6666666666666665,
      "grad_norm": 0.38493919372558594,
      "learning_rate": 4.93875e-05,
      "loss": 0.1644,
      "step": 550
    },
    {
      "epoch": 3.7333333333333334,
      "grad_norm": 5.259444236755371,
      "learning_rate": 4.92625e-05,
      "loss": 0.1912,
      "step": 560
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.2288435697555542,
      "learning_rate": 4.91375e-05,
      "loss": 0.0489,
      "step": 570
    },
    {
      "epoch": 3.8666666666666667,
      "grad_norm": 0.5442637205123901,
      "learning_rate": 4.90125e-05,
      "loss": 0.0817,
      "step": 580
    },
    {
      "epoch": 3.9333333333333336,
      "grad_norm": 0.15792164206504822,
      "learning_rate": 4.88875e-05,
      "loss": 0.0996,
      "step": 590
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.10254433006048203,
      "learning_rate": 4.87625e-05,
      "loss": 0.1274,
      "step": 600
    },
    {
      "epoch": 4.0,
      "eval_loss": 0.13498492538928986,
      "eval_runtime": 2.0251,
      "eval_samples_per_second": 148.143,
      "eval_steps_per_second": 18.765,
      "step": 600
    },
    {
      "epoch": 4.066666666666666,
      "grad_norm": 0.7803947925567627,
      "learning_rate": 4.86375e-05,
      "loss": 0.0249,
      "step": 610
    },
    {
      "epoch": 4.133333333333334,
      "grad_norm": 0.36452987790107727,
      "learning_rate": 4.85125e-05,
      "loss": 0.1274,
      "step": 620
    },
    {
      "epoch": 4.2,
      "grad_norm": 4.308764457702637,
      "learning_rate": 4.8387500000000004e-05,
      "loss": 0.0802,
      "step": 630
    },
    {
      "epoch": 4.266666666666667,
      "grad_norm": 0.09774160385131836,
      "learning_rate": 4.826250000000001e-05,
      "loss": 0.1802,
      "step": 640
    },
    {
      "epoch": 4.333333333333333,
      "grad_norm": 0.35747790336608887,
      "learning_rate": 4.8137500000000005e-05,
      "loss": 0.1336,
      "step": 650
    },
    {
      "epoch": 4.4,
      "grad_norm": 4.263286113739014,
      "learning_rate": 4.80125e-05,
      "loss": 0.0855,
      "step": 660
    },
    {
      "epoch": 4.466666666666667,
      "grad_norm": 0.03946325555443764,
      "learning_rate": 4.78875e-05,
      "loss": 0.0079,
      "step": 670
    },
    {
      "epoch": 4.533333333333333,
      "grad_norm": 0.020330730825662613,
      "learning_rate": 4.77625e-05,
      "loss": 0.0733,
      "step": 680
    },
    {
      "epoch": 4.6,
      "grad_norm": 0.13235849142074585,
      "learning_rate": 4.76375e-05,
      "loss": 0.0067,
      "step": 690
    },
    {
      "epoch": 4.666666666666667,
      "grad_norm": 0.24126243591308594,
      "learning_rate": 4.75125e-05,
      "loss": 0.0817,
      "step": 700
    },
    {
      "epoch": 4.733333333333333,
      "grad_norm": 7.457833766937256,
      "learning_rate": 4.73875e-05,
      "loss": 0.1199,
      "step": 710
    },
    {
      "epoch": 4.8,
      "grad_norm": 0.27026623487472534,
      "learning_rate": 4.7262500000000004e-05,
      "loss": 0.0469,
      "step": 720
    },
    {
      "epoch": 4.866666666666667,
      "grad_norm": 0.059509869664907455,
      "learning_rate": 4.71375e-05,
      "loss": 0.0854,
      "step": 730
    },
    {
      "epoch": 4.933333333333334,
      "grad_norm": 0.06994075328111649,
      "learning_rate": 4.7012500000000004e-05,
      "loss": 0.029,
      "step": 740
    },
    {
      "epoch": 5.0,
      "grad_norm": 0.018521888181567192,
      "learning_rate": 4.68875e-05,
      "loss": 0.0992,
      "step": 750
    },
    {
      "epoch": 5.0,
      "eval_loss": 0.1332983374595642,
      "eval_runtime": 2.0249,
      "eval_samples_per_second": 148.153,
      "eval_steps_per_second": 18.766,
      "step": 750
    },
    {
      "epoch": 5.066666666666666,
      "grad_norm": 0.12378793209791183,
      "learning_rate": 4.6762500000000005e-05,
      "loss": 0.1196,
      "step": 760
    },
    {
      "epoch": 5.133333333333334,
      "grad_norm": 0.10968955606222153,
      "learning_rate": 4.66375e-05,
      "loss": 0.0799,
      "step": 770
    },
    {
      "epoch": 5.2,
      "grad_norm": 0.01367497444152832,
      "learning_rate": 4.6512500000000006e-05,
      "loss": 0.0142,
      "step": 780
    },
    {
      "epoch": 5.266666666666667,
      "grad_norm": 0.8894422650337219,
      "learning_rate": 4.63875e-05,
      "loss": 0.0083,
      "step": 790
    },
    {
      "epoch": 5.333333333333333,
      "grad_norm": 0.13817550241947174,
      "learning_rate": 4.6262500000000006e-05,
      "loss": 0.0201,
      "step": 800
    },
    {
      "epoch": 5.4,
      "grad_norm": 0.1904774010181427,
      "learning_rate": 4.61375e-05,
      "loss": 0.107,
      "step": 810
    },
    {
      "epoch": 5.466666666666667,
      "grad_norm": 0.08374916762113571,
      "learning_rate": 4.60125e-05,
      "loss": 0.0116,
      "step": 820
    },
    {
      "epoch": 5.533333333333333,
      "grad_norm": 0.019752444699406624,
      "learning_rate": 4.58875e-05,
      "loss": 0.0018,
      "step": 830
    },
    {
      "epoch": 5.6,
      "grad_norm": 0.03318554162979126,
      "learning_rate": 4.57625e-05,
      "loss": 0.1093,
      "step": 840
    },
    {
      "epoch": 5.666666666666667,
      "grad_norm": 0.2833520174026489,
      "learning_rate": 4.56375e-05,
      "loss": 0.0075,
      "step": 850
    },
    {
      "epoch": 5.733333333333333,
      "grad_norm": 0.023464033380150795,
      "learning_rate": 4.55125e-05,
      "loss": 0.0033,
      "step": 860
    },
    {
      "epoch": 5.8,
      "grad_norm": 0.037742841988801956,
      "learning_rate": 4.53875e-05,
      "loss": 0.0021,
      "step": 870
    },
    {
      "epoch": 5.866666666666667,
      "grad_norm": 11.474201202392578,
      "learning_rate": 4.52625e-05,
      "loss": 0.032,
      "step": 880
    },
    {
      "epoch": 5.933333333333334,
      "grad_norm": 0.05570446699857712,
      "learning_rate": 4.5137500000000006e-05,
      "loss": 0.0032,
      "step": 890
    },
    {
      "epoch": 6.0,
      "grad_norm": 0.049245789647102356,
      "learning_rate": 4.50125e-05,
      "loss": 0.0138,
      "step": 900
    },
    {
      "epoch": 6.0,
      "eval_loss": 0.1287696212530136,
      "eval_runtime": 2.0244,
      "eval_samples_per_second": 148.194,
      "eval_steps_per_second": 18.771,
      "step": 900
    },
    {
      "epoch": 6.066666666666666,
      "grad_norm": 1.1790558099746704,
      "learning_rate": 4.488750000000001e-05,
      "loss": 0.0084,
      "step": 910
    },
    {
      "epoch": 6.133333333333334,
      "grad_norm": 0.08334579318761826,
      "learning_rate": 4.4762500000000004e-05,
      "loss": 0.0027,
      "step": 920
    },
    {
      "epoch": 6.2,
      "grad_norm": 0.01578553207218647,
      "learning_rate": 4.463750000000001e-05,
      "loss": 0.0023,
      "step": 930
    },
    {
      "epoch": 6.266666666666667,
      "grad_norm": 0.016995681449770927,
      "learning_rate": 4.4512500000000005e-05,
      "loss": 0.002,
      "step": 940
    },
    {
      "epoch": 6.333333333333333,
      "grad_norm": 0.0547955147922039,
      "learning_rate": 4.43875e-05,
      "loss": 0.1065,
      "step": 950
    },
    {
      "epoch": 6.4,
      "grad_norm": 0.5331246852874756,
      "learning_rate": 4.42625e-05,
      "loss": 0.0568,
      "step": 960
    },
    {
      "epoch": 6.466666666666667,
      "grad_norm": 0.021979335695505142,
      "learning_rate": 4.41375e-05,
      "loss": 0.0022,
      "step": 970
    },
    {
      "epoch": 6.533333333333333,
      "grad_norm": 0.029780471697449684,
      "learning_rate": 4.40125e-05,
      "loss": 0.0068,
      "step": 980
    },
    {
      "epoch": 6.6,
      "grad_norm": 0.032823920249938965,
      "learning_rate": 4.38875e-05,
      "loss": 0.0032,
      "step": 990
    },
    {
      "epoch": 6.666666666666667,
      "grad_norm": 0.008314649574458599,
      "learning_rate": 4.37625e-05,
      "loss": 0.0781,
      "step": 1000
    },
    {
      "epoch": 6.733333333333333,
      "grad_norm": 0.05079174414277077,
      "learning_rate": 4.3637500000000004e-05,
      "loss": 0.0038,
      "step": 1010
    },
    {
      "epoch": 6.8,
      "grad_norm": 0.31804975867271423,
      "learning_rate": 4.35125e-05,
      "loss": 0.0032,
      "step": 1020
    },
    {
      "epoch": 6.866666666666667,
      "grad_norm": 0.02879503183066845,
      "learning_rate": 4.3387500000000004e-05,
      "loss": 0.0272,
      "step": 1030
    },
    {
      "epoch": 6.933333333333334,
      "grad_norm": 0.12305553257465363,
      "learning_rate": 4.32625e-05,
      "loss": 0.0053,
      "step": 1040
    },
    {
      "epoch": 7.0,
      "grad_norm": 0.0078430799767375,
      "learning_rate": 4.3137500000000005e-05,
      "loss": 0.0013,
      "step": 1050
    },
    {
      "epoch": 7.0,
      "eval_loss": 0.11913716793060303,
      "eval_runtime": 2.0238,
      "eval_samples_per_second": 148.233,
      "eval_steps_per_second": 18.776,
      "step": 1050
    }
  ],
  "logging_steps": 10,
  "max_steps": 4500,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 30,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 2206726661701632.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}