Upload folder using huggingface_hub

Browse files

Files changed (8) hide show

config.json +1 -1
generation_config.json +1 -1
model.safetensors +1 -1
optimizer.pt +2 -2
rng_state.pth +2 -2
scheduler.pt +1 -1
trainer_state.json +227 -387
training_args.bin +2 -2

config.json CHANGED Viewed

@@ -45,7 +45,7 @@
   "scale_embedding": false,
   "suppress_tokens": [],
   "torch_dtype": "float32",
-  "transformers_version": "4.39.3",
   "use_cache": true,
   "use_weighted_layer_sum": false,
   "vocab_size": 51865

   "scale_embedding": false,
   "suppress_tokens": [],
   "torch_dtype": "float32",
+  "transformers_version": "4.40.1",
   "use_cache": true,
   "use_weighted_layer_sum": false,
   "vocab_size": 51865

generation_config.json CHANGED Viewed

@@ -261,5 +261,5 @@
     "transcribe": 50359,
     "translate": 50358
   },
-  "transformers_version": "4.39.3"
 }

     "transcribe": 50359,
     "translate": 50358
   },
+  "transformers_version": "4.40.1"
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8db9e3410c0d181cbca233c2ef3a144140b3cc9f461300e2644223e31ce627ab
 size 966995080

 version https://git-lfs.github.com/spec/v1
+oid sha256:94c05576879734f8c7b8e89ca55acd5837783f70d88bc075bab3e5d5716e3782
 size 966995080

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f5af96f34075315a8d145370c7ec1e9c2af1a07fc7c618f9842ab4b9f7b699e7
-size 1925050668

 version https://git-lfs.github.com/spec/v1
+oid sha256:e4c56cd3dff9876f616561350d28eafa2796e84ff54dea04dd73bca06bcf1e6c
+size 1925064044

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:effb5f8ebfbf9b741e28f68a88bc81e631e8f69f509b47b422996451a4d48cad
-size 13990

 version https://git-lfs.github.com/spec/v1
+oid sha256:1c8c1ab21c342191c9c81110adcd7b6b9a742ee285eb232c27345529e5541c1f
+size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:51e3c4509f91cdbfa101ed1c8c1a68c474ae85392f457afeb413ff74d7331cc6
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:43eda48fd705f454e2d83b6fd6364eb3c4bc6f8ca22fff1070942ef66fa65a40
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,652 +1,492 @@
 {
-  "best_metric": 67.89809578166347,
-  "best_model_checkpoint": "./whisper-small-dialect_maghrebi_seed168/checkpoint-1250",
-  "epoch": 1.1983223487118035,
   "eval_steps": 250,
-  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.01,
-      "grad_norm": 19.585220336914062,
       "learning_rate": 5.000000000000001e-07,
-      "loss": 0.9335,
       "step": 25
     },
     {
-      "epoch": 0.03,
-      "grad_norm": 13.835809707641602,
       "learning_rate": 1.0000000000000002e-06,
-      "loss": 0.8126,
       "step": 50
     },
     {
-      "epoch": 0.04,
-      "grad_norm": 17.269922256469727,
       "learning_rate": 1.5e-06,
-      "loss": 0.7521,
       "step": 75
     },
     {
-      "epoch": 0.06,
-      "grad_norm": 15.5454683303833,
       "learning_rate": 2.0000000000000003e-06,
-      "loss": 0.7946,
       "step": 100
     },
     {
-      "epoch": 0.07,
-      "grad_norm": 23.1411190032959,
       "learning_rate": 2.5e-06,
-      "loss": 0.8514,
       "step": 125
     },
     {
-      "epoch": 0.09,
-      "grad_norm": 15.324691772460938,
       "learning_rate": 3e-06,
-      "loss": 0.8826,
       "step": 150
     },
     {
-      "epoch": 0.1,
-      "grad_norm": 20.527490615844727,
       "learning_rate": 3.5e-06,
-      "loss": 0.8558,
       "step": 175
     },
     {
-      "epoch": 0.12,
-      "grad_norm": 20.18839454650879,
       "learning_rate": 4.000000000000001e-06,
-      "loss": 0.7788,
       "step": 200
     },
     {
-      "epoch": 0.13,
-      "grad_norm": 21.231355667114258,
       "learning_rate": 4.5e-06,
-      "loss": 0.8753,
       "step": 225
     },
     {
-      "epoch": 0.15,
-      "grad_norm": 15.271389961242676,
       "learning_rate": 5e-06,
-      "loss": 0.8565,
       "step": 250
     },
     {
-      "epoch": 0.15,
-      "eval_cer": 55.99867996039881,
-      "eval_loss": 0.8528127670288086,
-      "eval_runtime": 1766.4518,
-      "eval_samples_per_second": 1.89,
-      "eval_steps_per_second": 0.237,
-      "eval_wer": 77.37249001193379,
       "step": 250
     },
     {
-      "epoch": 0.16,
-      "grad_norm": 25.388628005981445,
       "learning_rate": 5.500000000000001e-06,
-      "loss": 0.8373,
       "step": 275
     },
     {
-      "epoch": 0.18,
-      "grad_norm": 23.94950294494629,
       "learning_rate": 6e-06,
-      "loss": 0.8126,
       "step": 300
     },
     {
-      "epoch": 0.19,
-      "grad_norm": 17.08974838256836,
       "learning_rate": 6.5000000000000004e-06,
-      "loss": 0.8618,
       "step": 325
     },
     {
-      "epoch": 0.21,
-      "grad_norm": 22.02919578552246,
       "learning_rate": 7e-06,
-      "loss": 0.7687,
       "step": 350
     },
     {
-      "epoch": 0.22,
-      "grad_norm": 24.780494689941406,
       "learning_rate": 7.500000000000001e-06,
-      "loss": 0.7859,
       "step": 375
     },
     {
-      "epoch": 0.24,
-      "grad_norm": 19.000207901000977,
       "learning_rate": 8.000000000000001e-06,
-      "loss": 0.8823,
       "step": 400
     },
     {
-      "epoch": 0.25,
-      "grad_norm": 21.721498489379883,
       "learning_rate": 8.5e-06,
-      "loss": 0.7591,
       "step": 425
     },
     {
-      "epoch": 0.27,
-      "grad_norm": 17.463626861572266,
       "learning_rate": 9e-06,
-      "loss": 0.7987,
       "step": 450
     },
     {
-      "epoch": 0.28,
-      "grad_norm": 16.86531639099121,
       "learning_rate": 9.5e-06,
-      "loss": 0.8929,
       "step": 475
     },
     {
-      "epoch": 0.3,
-      "grad_norm": 20.8975830078125,
       "learning_rate": 1e-05,
-      "loss": 0.906,
       "step": 500
     },
     {
-      "epoch": 0.3,
-      "eval_cer": 57.98973969219077,
-      "eval_loss": 0.8842513561248779,
-      "eval_runtime": 1715.4755,
-      "eval_samples_per_second": 1.946,
-      "eval_steps_per_second": 0.244,
-      "eval_wer": 83.06957920406786,
       "step": 500
     },
     {
-      "epoch": 0.31,
-      "grad_norm": 18.66194725036621,
       "learning_rate": 9.944444444444445e-06,
-      "loss": 0.9078,
       "step": 525
     },
     {
-      "epoch": 0.33,
-      "grad_norm": 21.260807037353516,
       "learning_rate": 9.88888888888889e-06,
-      "loss": 0.9685,
       "step": 550
     },
     {
-      "epoch": 0.34,
-      "grad_norm": 23.54132080078125,
       "learning_rate": 9.833333333333333e-06,
-      "loss": 0.9875,
       "step": 575
     },
     {
-      "epoch": 0.36,
-      "grad_norm": 17.314271926879883,
       "learning_rate": 9.777777777777779e-06,
-      "loss": 0.8779,
       "step": 600
     },
     {
-      "epoch": 0.37,
-      "grad_norm": 14.517264366149902,
       "learning_rate": 9.722222222222223e-06,
-      "loss": 0.8386,
       "step": 625
     },
     {
-      "epoch": 0.39,
-      "grad_norm": 22.82421112060547,
       "learning_rate": 9.666666666666667e-06,
-      "loss": 0.8628,
       "step": 650
     },
     {
-      "epoch": 0.4,
-      "grad_norm": 19.775588989257812,
       "learning_rate": 9.611111111111112e-06,
-      "loss": 0.8895,
       "step": 675
     },
     {
-      "epoch": 0.42,
-      "grad_norm": 24.209157943725586,
       "learning_rate": 9.555555555555556e-06,
-      "loss": 0.8814,
       "step": 700
     },
     {
-      "epoch": 0.43,
-      "grad_norm": 14.87100887298584,
       "learning_rate": 9.5e-06,
-      "loss": 0.7837,
       "step": 725
     },
     {
-      "epoch": 0.45,
-      "grad_norm": 21.66838264465332,
       "learning_rate": 9.444444444444445e-06,
-      "loss": 0.8671,
       "step": 750
     },
     {
-      "epoch": 0.45,
-      "eval_cer": 46.89840695220857,
-      "eval_loss": 0.901644229888916,
-      "eval_runtime": 1635.6088,
-      "eval_samples_per_second": 2.041,
-      "eval_steps_per_second": 0.256,
-      "eval_wer": 68.61931199086804,
       "step": 750
     },
     {
-      "epoch": 0.46,
-      "grad_norm": 24.317537307739258,
       "learning_rate": 9.38888888888889e-06,
-      "loss": 0.8958,
       "step": 775
     },
     {
-      "epoch": 0.48,
-      "grad_norm": 17.147018432617188,
       "learning_rate": 9.333333333333334e-06,
-      "loss": 0.7864,
       "step": 800
     },
     {
-      "epoch": 0.49,
-      "grad_norm": 16.60604476928711,
       "learning_rate": 9.277777777777778e-06,
-      "loss": 0.9282,
       "step": 825
     },
     {
-      "epoch": 0.51,
-      "grad_norm": 16.8157901763916,
       "learning_rate": 9.222222222222224e-06,
-      "loss": 0.9055,
       "step": 850
     },
     {
-      "epoch": 0.52,
-      "grad_norm": 23.045429229736328,
       "learning_rate": 9.166666666666666e-06,
-      "loss": 0.762,
       "step": 875
     },
     {
-      "epoch": 0.54,
-      "grad_norm": 20.419845581054688,
       "learning_rate": 9.111111111111112e-06,
-      "loss": 0.9957,
       "step": 900
     },
     {
-      "epoch": 0.55,
-      "grad_norm": 12.999320030212402,
       "learning_rate": 9.055555555555556e-06,
-      "loss": 0.8029,
       "step": 925
     },
     {
-      "epoch": 0.57,
-      "grad_norm": 19.02703094482422,
       "learning_rate": 9e-06,
-      "loss": 0.844,
       "step": 950
     },
     {
-      "epoch": 0.58,
-      "grad_norm": 16.586179733276367,
       "learning_rate": 8.944444444444446e-06,
-      "loss": 0.9192,
       "step": 975
     },
     {
-      "epoch": 0.6,
-      "grad_norm": 19.809429168701172,
       "learning_rate": 8.888888888888888e-06,
-      "loss": 0.8423,
       "step": 1000
     },
     {
-      "epoch": 0.6,
-      "eval_cer": 56.56169685090553,
-      "eval_loss": 0.8899121284484863,
-      "eval_runtime": 1767.7691,
-      "eval_samples_per_second": 1.888,
-      "eval_steps_per_second": 0.236,
-      "eval_wer": 72.81689410055519,
       "step": 1000
     },
     {
-      "epoch": 0.61,
-      "grad_norm": 18.651063919067383,
       "learning_rate": 8.833333333333334e-06,
-      "loss": 0.885,
       "step": 1025
     },
     {
-      "epoch": 0.63,
-      "grad_norm": 16.94672203063965,
       "learning_rate": 8.777777777777778e-06,
-      "loss": 0.9861,
       "step": 1050
     },
     {
-      "epoch": 0.64,
-      "grad_norm": 18.808040618896484,
       "learning_rate": 8.722222222222224e-06,
-      "loss": 0.882,
       "step": 1075
     },
     {
-      "epoch": 0.66,
-      "grad_norm": 18.73299789428711,
       "learning_rate": 8.666666666666668e-06,
-      "loss": 0.8396,
       "step": 1100
     },
     {
-      "epoch": 0.67,
-      "grad_norm": 15.416051864624023,
       "learning_rate": 8.611111111111112e-06,
-      "loss": 0.8821,
       "step": 1125
     },
     {
-      "epoch": 0.69,
-      "grad_norm": 16.22429847717285,
       "learning_rate": 8.555555555555556e-06,
-      "loss": 0.834,
       "step": 1150
     },
     {
-      "epoch": 0.7,
-      "grad_norm": 19.464521408081055,
       "learning_rate": 8.5e-06,
-      "loss": 0.7611,
       "step": 1175
     },
     {
-      "epoch": 0.72,
-      "grad_norm": 19.693363189697266,
       "learning_rate": 8.444444444444446e-06,
-      "loss": 0.8356,
       "step": 1200
     },
     {
-      "epoch": 0.73,
-      "grad_norm": 19.970016479492188,
       "learning_rate": 8.38888888888889e-06,
-      "loss": 0.8501,
       "step": 1225
     },
     {
-      "epoch": 0.75,
-      "grad_norm": 17.509977340698242,
       "learning_rate": 8.333333333333334e-06,
-      "loss": 0.8217,
       "step": 1250
     },
     {
-      "epoch": 0.75,
-      "eval_cer": 53.066591997759936,
-      "eval_loss": 0.8848564624786377,
-      "eval_runtime": 1728.777,
-      "eval_samples_per_second": 1.931,
-      "eval_steps_per_second": 0.242,
-      "eval_wer": 67.89809578166347,
       "step": 1250
     },
     {
-      "epoch": 0.76,
-      "grad_norm": 19.724687576293945,
       "learning_rate": 8.277777777777778e-06,
-      "loss": 0.8353,
       "step": 1275
     },
     {
-      "epoch": 0.78,
-      "grad_norm": 23.104583740234375,
       "learning_rate": 8.222222222222222e-06,
-      "loss": 0.788,
       "step": 1300
     },
     {
-      "epoch": 0.79,
-      "grad_norm": 18.423364639282227,
       "learning_rate": 8.166666666666668e-06,
-      "loss": 0.8572,
       "step": 1325
     },
     {
-      "epoch": 0.81,
-      "grad_norm": 20.901500701904297,
       "learning_rate": 8.111111111111112e-06,
-      "loss": 0.8129,
       "step": 1350
     },
     {
-      "epoch": 0.82,
-      "grad_norm": 14.155868530273438,
       "learning_rate": 8.055555555555557e-06,
-      "loss": 0.8769,
       "step": 1375
     },
     {
-      "epoch": 0.84,
-      "grad_norm": 15.407185554504395,
       "learning_rate": 8.000000000000001e-06,
-      "loss": 0.742,
       "step": 1400
     },
     {
-      "epoch": 0.85,
-      "grad_norm": 27.230249404907227,
       "learning_rate": 7.944444444444445e-06,
-      "loss": 0.8353,
       "step": 1425
     },
     {
-      "epoch": 0.87,
-      "grad_norm": 12.835943222045898,
       "learning_rate": 7.88888888888889e-06,
-      "loss": 0.8611,
       "step": 1450
     },
     {
-      "epoch": 0.88,
-      "grad_norm": 22.758798599243164,
       "learning_rate": 7.833333333333333e-06,
-      "loss": 0.864,
       "step": 1475
     },
     {
-      "epoch": 0.9,
-      "grad_norm": 15.53707218170166,
       "learning_rate": 7.77777777777778e-06,
-      "loss": 0.8133,
       "step": 1500
     },
     {
-      "epoch": 0.9,
-      "eval_cer": 57.49372481174435,
-      "eval_loss": 0.8766074776649475,
-      "eval_runtime": 1775.9327,
-      "eval_samples_per_second": 1.88,
-      "eval_steps_per_second": 0.235,
-      "eval_wer": 73.74046593680278,
       "step": 1500
-    },
-    {
-      "epoch": 0.91,
-      "grad_norm": 17.66630744934082,
-      "learning_rate": 7.722222222222223e-06,
-      "loss": 0.8151,
-      "step": 1525
-    },
-    {
-      "epoch": 0.93,
-      "grad_norm": 11.854238510131836,
-      "learning_rate": 7.666666666666667e-06,
-      "loss": 0.8589,
-      "step": 1550
-    },
-    {
-      "epoch": 0.94,
-      "grad_norm": 20.530500411987305,
-      "learning_rate": 7.611111111111111e-06,
-      "loss": 0.857,
-      "step": 1575
-    },
-    {
-      "epoch": 0.96,
-      "grad_norm": 15.698258399963379,
-      "learning_rate": 7.555555555555556e-06,
-      "loss": 0.9099,
-      "step": 1600
-    },
-    {
-      "epoch": 0.97,
-      "grad_norm": 19.62598419189453,
-      "learning_rate": 7.500000000000001e-06,
-      "loss": 0.876,
-      "step": 1625
-    },
-    {
-      "epoch": 0.99,
-      "grad_norm": 21.638870239257812,
-      "learning_rate": 7.444444444444445e-06,
-      "loss": 0.8588,
-      "step": 1650
-    },
-    {
-      "epoch": 1.0,
-      "grad_norm": 14.121610641479492,
-      "learning_rate": 7.38888888888889e-06,
-      "loss": 0.7806,
-      "step": 1675
-    },
-    {
-      "epoch": 1.02,
-      "grad_norm": 13.002812385559082,
-      "learning_rate": 7.333333333333333e-06,
-      "loss": 0.5343,
-      "step": 1700
-    },
-    {
-      "epoch": 1.03,
-      "grad_norm": 15.227038383483887,
-      "learning_rate": 7.277777777777778e-06,
-      "loss": 0.5724,
-      "step": 1725
-    },
-    {
-      "epoch": 1.05,
-      "grad_norm": 14.572872161865234,
-      "learning_rate": 7.222222222222223e-06,
-      "loss": 0.5831,
-      "step": 1750
-    },
-    {
-      "epoch": 1.05,
-      "eval_cer": 67.86403592107763,
-      "eval_loss": 0.8728525042533875,
-      "eval_runtime": 1895.6388,
-      "eval_samples_per_second": 1.761,
-      "eval_steps_per_second": 0.221,
-      "eval_wer": 83.52617651637006,
-      "step": 1750
-    },
-    {
-      "epoch": 1.06,
-      "grad_norm": 10.929813385009766,
-      "learning_rate": 7.166666666666667e-06,
-      "loss": 0.5448,
-      "step": 1775
-    },
-    {
-      "epoch": 1.08,
-      "grad_norm": 14.270151138305664,
-      "learning_rate": 7.111111111111112e-06,
-      "loss": 0.5362,
-      "step": 1800
-    },
-    {
-      "epoch": 1.09,
-      "grad_norm": 12.08752727508545,
-      "learning_rate": 7.055555555555557e-06,
-      "loss": 0.5602,
-      "step": 1825
-    },
-    {
-      "epoch": 1.11,
-      "grad_norm": 13.561049461364746,
-      "learning_rate": 7e-06,
-      "loss": 0.5308,
-      "step": 1850
-    },
-    {
-      "epoch": 1.12,
-      "grad_norm": 15.52322006225586,
-      "learning_rate": 6.944444444444445e-06,
-      "loss": 0.5554,
-      "step": 1875
-    },
-    {
-      "epoch": 1.14,
-      "grad_norm": 12.2987699508667,
-      "learning_rate": 6.88888888888889e-06,
-      "loss": 0.5622,
-      "step": 1900
-    },
-    {
-      "epoch": 1.15,
-      "grad_norm": 14.216822624206543,
-      "learning_rate": 6.833333333333334e-06,
-      "loss": 0.5674,
-      "step": 1925
-    },
-    {
-      "epoch": 1.17,
-      "grad_norm": 12.9888916015625,
-      "learning_rate": 6.777777777777779e-06,
-      "loss": 0.5361,
-      "step": 1950
-    },
-    {
-      "epoch": 1.18,
-      "grad_norm": 16.80472183227539,
-      "learning_rate": 6.7222222222222235e-06,
-      "loss": 0.5632,
-      "step": 1975
-    },
-    {
-      "epoch": 1.2,
-      "grad_norm": 14.355997085571289,
-      "learning_rate": 6.666666666666667e-06,
-      "loss": 0.5589,
-      "step": 2000
-    },
-    {
-      "epoch": 1.2,
-      "eval_cer": 66.10498314949449,
-      "eval_loss": 0.8783968091011047,
-      "eval_runtime": 1843.2079,
-      "eval_samples_per_second": 1.811,
-      "eval_steps_per_second": 0.227,
-      "eval_wer": 86.54075649872878,
-      "step": 2000
     }
   ],
   "logging_steps": 25,
@@ -654,7 +494,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 250,
-  "total_flos": 4.61736640512e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 82.81533751880869,
+  "best_model_checkpoint": "/scratch/p310333/whisper-small-dialect_maghrebi_seed168/checkpoint-750",
+  "epoch": 0.8987417615338527,
   "eval_steps": 250,
+  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.014979029358897543,
+      "grad_norm": 25.04779052734375,
       "learning_rate": 5.000000000000001e-07,
+      "loss": 1.4944,
       "step": 25
     },
     {
+      "epoch": 0.029958058717795086,
+      "grad_norm": 19.618623733520508,
       "learning_rate": 1.0000000000000002e-06,
+      "loss": 1.3038,
       "step": 50
     },
     {
+      "epoch": 0.04493708807669263,
+      "grad_norm": 23.487409591674805,
       "learning_rate": 1.5e-06,
+      "loss": 1.1837,
       "step": 75
     },
     {
+      "epoch": 0.05991611743559017,
+      "grad_norm": 23.077299118041992,
       "learning_rate": 2.0000000000000003e-06,
+      "loss": 1.1554,
       "step": 100
     },
     {
+      "epoch": 0.07489514679448772,
+      "grad_norm": 26.876270294189453,
       "learning_rate": 2.5e-06,
+      "loss": 1.1074,
       "step": 125
     },
     {
+      "epoch": 0.08987417615338526,
+      "grad_norm": 19.345041275024414,
       "learning_rate": 3e-06,
+      "loss": 1.0981,
       "step": 150
     },
     {
+      "epoch": 0.1048532055122828,
+      "grad_norm": 24.393747329711914,
       "learning_rate": 3.5e-06,
+      "loss": 1.0891,
       "step": 175
     },
     {
+      "epoch": 0.11983223487118035,
+      "grad_norm": 21.781496047973633,
       "learning_rate": 4.000000000000001e-06,
+      "loss": 0.9027,
       "step": 200
     },
     {
+      "epoch": 0.1348112642300779,
+      "grad_norm": 25.396799087524414,
       "learning_rate": 4.5e-06,
+      "loss": 0.9823,
       "step": 225
     },
     {
+      "epoch": 0.14979029358897544,
+      "grad_norm": 13.59937858581543,
       "learning_rate": 5e-06,
+      "loss": 0.8868,
       "step": 250
     },
     {
+      "epoch": 0.14979029358897544,
+      "eval_cer": 69.79109373281199,
+      "eval_loss": 1.4167897701263428,
+      "eval_runtime": 797.0114,
+      "eval_samples_per_second": 4.188,
+      "eval_steps_per_second": 0.524,
+      "eval_wer": 92.91236444767291,
       "step": 250
     },
     {
+      "epoch": 0.16476932294787297,
+      "grad_norm": 23.348133087158203,
       "learning_rate": 5.500000000000001e-06,
+      "loss": 0.778,
       "step": 275
     },
     {
+      "epoch": 0.17974835230677053,
+      "grad_norm": 24.561851501464844,
       "learning_rate": 6e-06,
+      "loss": 0.7693,
       "step": 300
     },
     {
+      "epoch": 0.19472738166566805,
+      "grad_norm": 16.083293914794922,
       "learning_rate": 6.5000000000000004e-06,
+      "loss": 0.7149,
       "step": 325
     },
     {
+      "epoch": 0.2097064110245656,
+      "grad_norm": 20.850666046142578,
       "learning_rate": 7e-06,
+      "loss": 0.6737,
       "step": 350
     },
     {
+      "epoch": 0.22468544038346316,
+      "grad_norm": 20.03885269165039,
       "learning_rate": 7.500000000000001e-06,
+      "loss": 0.5618,
       "step": 375
     },
     {
+      "epoch": 0.2396644697423607,
+      "grad_norm": 16.334306716918945,
       "learning_rate": 8.000000000000001e-06,
+      "loss": 0.7037,
       "step": 400
     },
     {
+      "epoch": 0.2546434991012582,
+      "grad_norm": 14.770045280456543,
       "learning_rate": 8.5e-06,
+      "loss": 0.5352,
       "step": 425
     },
     {
+      "epoch": 0.2696225284601558,
+      "grad_norm": 15.933141708374023,
       "learning_rate": 9e-06,
+      "loss": 0.5398,
       "step": 450
     },
     {
+      "epoch": 0.28460155781905333,
+      "grad_norm": 11.69640827178955,
       "learning_rate": 9.5e-06,
+      "loss": 0.6248,
       "step": 475
     },
     {
+      "epoch": 0.2995805871779509,
+      "grad_norm": 26.167146682739258,
       "learning_rate": 1e-05,
+      "loss": 0.6822,
       "step": 500
     },
     {
+      "epoch": 0.2995805871779509,
+      "eval_cer": 81.20443613308399,
+      "eval_loss": 1.5288528203964233,
+      "eval_runtime": 844.5862,
+      "eval_samples_per_second": 3.952,
+      "eval_steps_per_second": 0.495,
+      "eval_wer": 98.19955377989935,
       "step": 500
     },
     {
+      "epoch": 0.3145596165368484,
+      "grad_norm": 26.101837158203125,
       "learning_rate": 9.944444444444445e-06,
+      "loss": 0.9889,
       "step": 525
     },
     {
+      "epoch": 0.32953864589574594,
+      "grad_norm": 21.356121063232422,
       "learning_rate": 9.88888888888889e-06,
+      "loss": 1.1228,
       "step": 550
     },
     {
+      "epoch": 0.3445176752546435,
+      "grad_norm": 25.74348258972168,
       "learning_rate": 9.833333333333333e-06,
+      "loss": 1.0572,
       "step": 575
     },
     {
+      "epoch": 0.35949670461354105,
+      "grad_norm": 19.001972198486328,
       "learning_rate": 9.777777777777779e-06,
+      "loss": 0.9565,
       "step": 600
     },
     {
+      "epoch": 0.3744757339724386,
+      "grad_norm": 17.986818313598633,
       "learning_rate": 9.722222222222223e-06,
+      "loss": 0.9291,
       "step": 625
     },
     {
+      "epoch": 0.3894547633313361,
+      "grad_norm": 21.8798770904541,
       "learning_rate": 9.666666666666667e-06,
+      "loss": 0.9225,
       "step": 650
     },
     {
+      "epoch": 0.40443379269023366,
+      "grad_norm": 20.887165069580078,
       "learning_rate": 9.611111111111112e-06,
+      "loss": 0.9619,
       "step": 675
     },
     {
+      "epoch": 0.4194128220491312,
+      "grad_norm": 26.817380905151367,
       "learning_rate": 9.555555555555556e-06,
+      "loss": 0.9518,
       "step": 700
     },
     {
+      "epoch": 0.4343918514080288,
+      "grad_norm": 15.77753734588623,
       "learning_rate": 9.5e-06,
+      "loss": 0.8798,
       "step": 725
     },
     {
+      "epoch": 0.44937088076692633,
+      "grad_norm": 29.78970718383789,
       "learning_rate": 9.444444444444445e-06,
+      "loss": 1.1209,
       "step": 750
     },
     {
+      "epoch": 0.44937088076692633,
+      "eval_cer": 56.33469004070122,
+      "eval_loss": 1.4300882816314697,
+      "eval_runtime": 707.5486,
+      "eval_samples_per_second": 4.718,
+      "eval_steps_per_second": 0.591,
+      "eval_wer": 82.81533751880869,
       "step": 750
     },
     {
+      "epoch": 0.46434991012582383,
+      "grad_norm": 28.685291290283203,
       "learning_rate": 9.38888888888889e-06,
+      "loss": 1.4197,
       "step": 775
     },
     {
+      "epoch": 0.4793289394847214,
+      "grad_norm": 21.239105224609375,
       "learning_rate": 9.333333333333334e-06,
+      "loss": 1.2822,
       "step": 800
     },
     {
+      "epoch": 0.49430796884361894,
+      "grad_norm": 23.61458396911621,
       "learning_rate": 9.277777777777778e-06,
+      "loss": 1.473,
       "step": 825
     },
     {
+      "epoch": 0.5092869982025164,
+      "grad_norm": 22.278364181518555,
       "learning_rate": 9.222222222222224e-06,
+      "loss": 1.3492,
       "step": 850
     },
     {
+      "epoch": 0.524266027561414,
+      "grad_norm": 27.96851921081543,
       "learning_rate": 9.166666666666666e-06,
+      "loss": 1.34,
       "step": 875
     },
     {
+      "epoch": 0.5392450569203115,
+      "grad_norm": 25.204416275024414,
       "learning_rate": 9.111111111111112e-06,
+      "loss": 1.5126,
       "step": 900
     },
     {
+      "epoch": 0.5542240862792092,
+      "grad_norm": 18.80275535583496,
       "learning_rate": 9.055555555555556e-06,
+      "loss": 1.2935,
       "step": 925
     },
     {
+      "epoch": 0.5692031156381067,
+      "grad_norm": 22.869731903076172,
       "learning_rate": 9e-06,
+      "loss": 1.3413,
       "step": 950
     },
     {
+      "epoch": 0.5841821449970042,
+      "grad_norm": 22.38252067565918,
       "learning_rate": 8.944444444444446e-06,
+      "loss": 1.4085,
       "step": 975
     },
     {
+      "epoch": 0.5991611743559018,
+      "grad_norm": 24.1107120513916,
       "learning_rate": 8.888888888888888e-06,
+      "loss": 1.3236,
       "step": 1000
     },
     {
+      "epoch": 0.5991611743559018,
+      "eval_cer": 66.34499034971049,
+      "eval_loss": 1.349813461303711,
+      "eval_runtime": 764.465,
+      "eval_samples_per_second": 4.366,
+      "eval_steps_per_second": 0.547,
+      "eval_wer": 88.46054065272662,
       "step": 1000
     },
     {
+      "epoch": 0.6141402037147993,
+      "grad_norm": 29.156917572021484,
       "learning_rate": 8.833333333333334e-06,
+      "loss": 1.3896,
       "step": 1025
     },
     {
+      "epoch": 0.6291192330736968,
+      "grad_norm": 22.938846588134766,
       "learning_rate": 8.777777777777778e-06,
+      "loss": 1.4654,
       "step": 1050
     },
     {
+      "epoch": 0.6440982624325944,
+      "grad_norm": 25.43636703491211,
       "learning_rate": 8.722222222222224e-06,
+      "loss": 1.3499,
       "step": 1075
     },
     {
+      "epoch": 0.6590772917914919,
+      "grad_norm": 25.42586326599121,
       "learning_rate": 8.666666666666668e-06,
+      "loss": 1.2745,
       "step": 1100
     },
     {
+      "epoch": 0.6740563211503895,
+      "grad_norm": 23.000181198120117,
       "learning_rate": 8.611111111111112e-06,
+      "loss": 1.3675,
       "step": 1125
     },
     {
+      "epoch": 0.689035350509287,
+      "grad_norm": 23.148645401000977,
       "learning_rate": 8.555555555555556e-06,
+      "loss": 1.2538,
       "step": 1150
     },
     {
+      "epoch": 0.7040143798681845,
+      "grad_norm": 22.15021514892578,
       "learning_rate": 8.5e-06,
+      "loss": 1.2017,
       "step": 1175
     },
     {
+      "epoch": 0.7189934092270821,
+      "grad_norm": 25.774471282958984,
       "learning_rate": 8.444444444444446e-06,
+      "loss": 1.2524,
       "step": 1200
     },
     {
+      "epoch": 0.7339724385859796,
+      "grad_norm": 22.58797836303711,
       "learning_rate": 8.38888888888889e-06,
+      "loss": 1.2871,
       "step": 1225
     },
     {
+      "epoch": 0.7489514679448772,
+      "grad_norm": 20.87167739868164,
       "learning_rate": 8.333333333333334e-06,
+      "loss": 1.2571,
       "step": 1250
     },
     {
+      "epoch": 0.7489514679448772,
+      "eval_cer": 75.80427412822385,
+      "eval_loss": 1.3092447519302368,
+      "eval_runtime": 785.5014,
+      "eval_samples_per_second": 4.25,
+      "eval_steps_per_second": 0.532,
+      "eval_wer": 94.10574378664452,
       "step": 1250
     },
     {
+      "epoch": 0.7639304973037747,
+      "grad_norm": 23.92608642578125,
       "learning_rate": 8.277777777777778e-06,
+      "loss": 1.2208,
       "step": 1275
     },
     {
+      "epoch": 0.7789095266626722,
+      "grad_norm": 27.465702056884766,
       "learning_rate": 8.222222222222222e-06,
+      "loss": 1.209,
       "step": 1300
     },
     {
+      "epoch": 0.7938885560215698,
+      "grad_norm": 19.662220001220703,
       "learning_rate": 8.166666666666668e-06,
+      "loss": 1.2772,
       "step": 1325
     },
     {
+      "epoch": 0.8088675853804673,
+      "grad_norm": 24.321632385253906,
       "learning_rate": 8.111111111111112e-06,
+      "loss": 1.1859,
       "step": 1350
     },
     {
+      "epoch": 0.8238466147393649,
+      "grad_norm": 22.470956802368164,
       "learning_rate": 8.055555555555557e-06,
+      "loss": 1.291,
       "step": 1375
     },
     {
+      "epoch": 0.8388256440982624,
+      "grad_norm": 20.14983558654785,
       "learning_rate": 8.000000000000001e-06,
+      "loss": 1.1293,
       "step": 1400
     },
     {
+      "epoch": 0.8538046734571599,
+      "grad_norm": 33.752967834472656,
       "learning_rate": 7.944444444444445e-06,
+      "loss": 1.1965,
       "step": 1425
     },
     {
+      "epoch": 0.8687837028160575,
+      "grad_norm": 20.359806060791016,
       "learning_rate": 7.88888888888889e-06,
+      "loss": 1.2509,
       "step": 1450
     },
     {
+      "epoch": 0.883762732174955,
+      "grad_norm": 25.176883697509766,
       "learning_rate": 7.833333333333333e-06,
+      "loss": 1.2518,
       "step": 1475
     },
     {
+      "epoch": 0.8987417615338527,
+      "grad_norm": 19.36232566833496,
       "learning_rate": 7.77777777777778e-06,
+      "loss": 1.1987,
       "step": 1500
     },
     {
+      "epoch": 0.8987417615338527,
+      "eval_cer": 66.07898236947108,
+      "eval_loss": 1.273741602897644,
+      "eval_runtime": 744.3637,
+      "eval_samples_per_second": 4.484,
+      "eval_steps_per_second": 0.562,
+      "eval_wer": 88.43978622944016,
       "step": 1500
     }
   ],
   "logging_steps": 25,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 250,
+  "total_flos": 3.46302480384e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1771d4d1fd9d29967100bf2ad3782b43296aace23affbca132bd14b0d7038c32
-size 5112

 version https://git-lfs.github.com/spec/v1
+oid sha256:a4799acc98dfb5251f5598d709ba726baeb0f588a532deb4aa6e7f0d068fcb5f
+size 5240