Training completed

Files changed (4) hide show

README.md CHANGED Viewed

@@ -37,11 +37,11 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 5e-05
-- train_batch_size: 16
-- eval_batch_size: 64
 - seed: 42
 - gradient_accumulation_steps: 10
-- total_train_batch_size: 160
 - optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.03

 The following hyperparameters were used during training:
 - learning_rate: 5e-05
+- train_batch_size: 2
+- eval_batch_size: 8
 - seed: 42
 - gradient_accumulation_steps: 10
+- total_train_batch_size: 20
 - optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.03

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 0.0182648401826484,
-    "total_flos": 5.5657843654656e+16,
-    "train_loss": 1.3686250686645507,
-    "train_runtime": 146.0605,
-    "train_samples_per_second": 10.954,
-    "train_steps_per_second": 0.068
 }

 {
+    "epoch": 0.00228310502283105,
+    "total_flos": 6957230456832000.0,
+    "train_loss": 10.657806396484375,
+    "train_runtime": 130.9955,
+    "train_samples_per_second": 1.527,
+    "train_steps_per_second": 0.076
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 0.0182648401826484,
-    "total_flos": 5.5657843654656e+16,
-    "train_loss": 1.3686250686645507,
-    "train_runtime": 146.0605,
-    "train_samples_per_second": 10.954,
-    "train_steps_per_second": 0.068
 }

 {
+    "epoch": 0.00228310502283105,
+    "total_flos": 6957230456832000.0,
+    "train_loss": 10.657806396484375,
+    "train_runtime": 130.9955,
+    "train_samples_per_second": 1.527,
+    "train_steps_per_second": 0.076
 }

trainer_state.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.0182648401826484,
   "eval_steps": 0,
   "global_step": 10,
   "is_hyper_param_search": false,
@@ -10,13 +10,13 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.0182648401826484,
       "step": 10,
-      "total_flos": 5.5657843654656e+16,
-      "train_loss": 1.3686250686645507,
-      "train_runtime": 146.0605,
-      "train_samples_per_second": 10.954,
-      "train_steps_per_second": 0.068
     }
   ],
   "logging_steps": 100,
@@ -36,8 +36,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.5657843654656e+16,
-  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null
 }

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.00228310502283105,
   "eval_steps": 0,
   "global_step": 10,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.00228310502283105,
       "step": 10,
+      "total_flos": 6957230456832000.0,
+      "train_loss": 10.657806396484375,
+      "train_runtime": 130.9955,
+      "train_samples_per_second": 1.527,
+      "train_steps_per_second": 0.076
     }
   ],
   "logging_steps": 100,
       "attributes": {}
     }
   },
+  "total_flos": 6957230456832000.0,
+  "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null
 }