End of training

Browse files

Files changed (9) hide show

README.md +27 -27
all_results.json +7 -7
eval_results.json +3 -3
model.safetensors +1 -1
runs/Dec02_11-01-24_DESKTOP-SKBE9FB/events.out.tfevents.1733158885.DESKTOP-SKBE9FB.18420.0 +3 -0
runs/Dec02_11-01-24_DESKTOP-SKBE9FB/events.out.tfevents.1733159077.DESKTOP-SKBE9FB.18420.1 +3 -0
train_results.json +4 -4
trainer_state.json +151 -151
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -74,33 +74,33 @@ The following hyperparameters were used during training:
 | 7.6529        | 6.0   | 21   | 7.4189          | 0.1087   |
 | 7.6529        | 6.86  | 24   | 7.2678          | 0.1087   |
 | 7.6529        | 8.0   | 28   | 7.0489          | 0.1087   |
-| 7.1056        | 8.86  | 31   | 6.8860          | 0.1087   |
-| 7.1056        | 10.0  | 35   | 6.6867          | 0.1087   |
-| 7.1056        | 10.86 | 38   | 6.5549          | 0.1087   |
-| 6.8482        | 12.0  | 42   | 6.3655          | 0.1087   |
-| 6.8482        | 12.86 | 45   | 6.2153          | 0.1087   |
-| 6.8482        | 14.0  | 49   | 6.0311          | 0.1087   |
-| 6.223         | 14.86 | 52   | 5.9038          | 0.1087   |
-| 6.223         | 16.0  | 56   | 5.7400          | 0.1087   |
-| 6.223         | 16.86 | 59   | 5.6276          | 0.1087   |
-| 5.8233        | 18.0  | 63   | 5.4884          | 0.1087   |
-| 5.8233        | 18.86 | 66   | 5.3910          | 0.1087   |
-| 5.5432        | 20.0  | 70   | 5.2690          | 0.1087   |
-| 5.5432        | 20.86 | 73   | 5.1828          | 0.1087   |
-| 5.5432        | 22.0  | 77   | 5.0761          | 0.1087   |
-| 5.2554        | 22.86 | 80   | 5.0026          | 0.1087   |
-| 5.2554        | 24.0  | 84   | 4.9136          | 0.1087   |
-| 5.2554        | 24.86 | 87   | 4.8525          | 0.1087   |
-| 5.0175        | 26.0  | 91   | 4.7792          | 0.1087   |
-| 5.0175        | 26.86 | 94   | 4.7304          | 0.1087   |
-| 5.0175        | 28.0  | 98   | 4.6736          | 0.1087   |
-| 4.7765        | 28.86 | 101  | 4.6371          | 0.1087   |
-| 4.7765        | 30.0  | 105  | 4.5968          | 0.1087   |
-| 4.7765        | 30.86 | 108  | 4.5726          | 0.1087   |
-| 4.7339        | 32.0  | 112  | 4.5483          | 0.1087   |
-| 4.7339        | 32.86 | 115  | 4.5361          | 0.1087   |
-| 4.7339        | 34.0  | 119  | 4.5280          | 0.1087   |
-| 4.6747        | 34.29 | 120  | 4.5274          | 0.1087   |
 ### Framework versions

 | 7.6529        | 6.0   | 21   | 7.4189          | 0.1087   |
 | 7.6529        | 6.86  | 24   | 7.2678          | 0.1087   |
 | 7.6529        | 8.0   | 28   | 7.0489          | 0.1087   |
+| 7.1057        | 8.86  | 31   | 6.8846          | 0.1087   |
+| 7.1057        | 10.0  | 35   | 6.6868          | 0.1087   |
+| 7.1057        | 10.86 | 38   | 6.5595          | 0.1087   |
+| 6.8483        | 12.0  | 42   | 6.3826          | 0.1087   |
+| 6.8483        | 12.86 | 45   | 6.2276          | 0.1087   |
+| 6.8483        | 14.0  | 49   | 6.0366          | 0.1087   |
+| 6.224         | 14.86 | 52   | 5.9044          | 0.1087   |
+| 6.224         | 16.0  | 56   | 5.7383          | 0.1087   |
+| 6.224         | 16.86 | 59   | 5.6266          | 0.1087   |
+| 5.8234        | 18.0  | 63   | 5.4871          | 0.1087   |
+| 5.8234        | 18.86 | 66   | 5.3891          | 0.1087   |
+| 5.5423        | 20.0  | 70   | 5.2672          | 0.1087   |
+| 5.5423        | 20.86 | 73   | 5.1809          | 0.1087   |
+| 5.5423        | 22.0  | 77   | 5.0741          | 0.1087   |
+| 5.2547        | 22.86 | 80   | 5.0007          | 0.1087   |
+| 5.2547        | 24.0  | 84   | 4.9116          | 0.1087   |
+| 5.2547        | 24.86 | 87   | 4.8505          | 0.1087   |
+| 5.0166        | 26.0  | 91   | 4.7770          | 0.1087   |
+| 5.0166        | 26.86 | 94   | 4.7281          | 0.1087   |
+| 5.0166        | 28.0  | 98   | 4.6712          | 0.1087   |
+| 4.7751        | 28.86 | 101  | 4.6348          | 0.1087   |
+| 4.7751        | 30.0  | 105  | 4.5943          | 0.1087   |
+| 4.7751        | 30.86 | 108  | 4.5701          | 0.1087   |
+| 4.7321        | 32.0  | 112  | 4.5458          | 0.1087   |
+| 4.7321        | 32.86 | 115  | 4.5336          | 0.1087   |
+| 4.7321        | 34.0  | 119  | 4.5255          | 0.1087   |
+| 4.6731        | 34.29 | 120  | 4.5249          | 0.1087   |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -2,11 +2,11 @@
     "epoch": 34.29,
     "eval_accuracy": 0.10869565217391304,
     "eval_loss": 7.923763275146484,
-    "eval_runtime": 0.9442,
-    "eval_samples_per_second": 48.718,
-    "eval_steps_per_second": 3.177,
-    "train_loss": 5.965131664276123,
-    "train_runtime": 192.4021,
-    "train_samples_per_second": 44.282,
-    "train_steps_per_second": 0.624
 }

     "epoch": 34.29,
     "eval_accuracy": 0.10869565217391304,
     "eval_loss": 7.923763275146484,
+    "eval_runtime": 0.7612,
+    "eval_samples_per_second": 60.433,
+    "eval_steps_per_second": 3.941,
+    "train_loss": 5.964630603790283,
+    "train_runtime": 190.6471,
+    "train_samples_per_second": 44.69,
+    "train_steps_per_second": 0.629
 }

eval_results.json CHANGED Viewed

@@ -2,7 +2,7 @@
     "epoch": 34.29,
     "eval_accuracy": 0.10869565217391304,
     "eval_loss": 7.923763275146484,
-    "eval_runtime": 0.9442,
-    "eval_samples_per_second": 48.718,
-    "eval_steps_per_second": 3.177
 }

     "epoch": 34.29,
     "eval_accuracy": 0.10869565217391304,
     "eval_loss": 7.923763275146484,
+    "eval_runtime": 0.7612,
+    "eval_samples_per_second": 60.433,
+    "eval_steps_per_second": 3.941
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:210c09ff57d6f6d1e95232c07f47902171a10512323b61a5d5359942f62d8d52
 size 110356296

 version https://git-lfs.github.com/spec/v1
+oid sha256:fe81af29b698b42444742e7393ba8242b4c95958e1a2f510ad96d8851537cc90
 size 110356296

runs/Dec02_11-01-24_DESKTOP-SKBE9FB/events.out.tfevents.1733158885.DESKTOP-SKBE9FB.18420.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7c8a8e9614016810c0af1175fe044d9cd513723ab01f5a8c2ec06fc51a18d901
+size 18095

runs/Dec02_11-01-24_DESKTOP-SKBE9FB/events.out.tfevents.1733159077.DESKTOP-SKBE9FB.18420.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:21b05c4ac0e2a77bd349b782a3d95901d7277c8cd4fc22f2318d58f7d6db4262
+size 405

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 34.29,
-    "train_loss": 5.965131664276123,
-    "train_runtime": 192.4021,
-    "train_samples_per_second": 44.282,
-    "train_steps_per_second": 0.624
 }

 {
     "epoch": 34.29,
+    "train_loss": 5.964630603790283,
+    "train_runtime": 190.6471,
+    "train_samples_per_second": 44.69,
+    "train_steps_per_second": 0.629
 }

trainer_state.json CHANGED Viewed

@@ -12,18 +12,18 @@
       "epoch": 0.86,
       "eval_accuracy": 0.10869565217391304,
       "eval_loss": 7.923763275146484,
-      "eval_runtime": 0.7392,
-      "eval_samples_per_second": 62.232,
-      "eval_steps_per_second": 4.059,
       "step": 3
     },
     {
       "epoch": 2.0,
       "eval_accuracy": 0.10869565217391304,
       "eval_loss": 7.874618053436279,
-      "eval_runtime": 0.7127,
-      "eval_samples_per_second": 64.546,
-      "eval_steps_per_second": 4.21,
       "step": 7
     },
     {
@@ -35,28 +35,28 @@
     {
       "epoch": 2.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 7.818479537963867,
-      "eval_runtime": 0.7227,
-      "eval_samples_per_second": 63.653,
-      "eval_steps_per_second": 4.151,
       "step": 10
     },
     {
       "epoch": 4.0,
       "eval_accuracy": 0.10869565217391304,
       "eval_loss": 7.699648857116699,
-      "eval_runtime": 0.7342,
-      "eval_samples_per_second": 62.655,
-      "eval_steps_per_second": 4.086,
       "step": 14
     },
     {
       "epoch": 4.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 7.587607383728027,
-      "eval_runtime": 0.7147,
-      "eval_samples_per_second": 64.365,
-      "eval_steps_per_second": 4.198,
       "step": 17
     },
     {
@@ -68,341 +68,341 @@
     {
       "epoch": 6.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 7.418882846832275,
-      "eval_runtime": 0.7092,
-      "eval_samples_per_second": 64.866,
-      "eval_steps_per_second": 4.23,
       "step": 21
     },
     {
       "epoch": 6.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 7.2678446769714355,
-      "eval_runtime": 0.7064,
-      "eval_samples_per_second": 65.116,
-      "eval_steps_per_second": 4.247,
       "step": 24
     },
     {
       "epoch": 8.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 7.0488600730896,
-      "eval_runtime": 0.8282,
-      "eval_samples_per_second": 55.543,
-      "eval_steps_per_second": 3.622,
       "step": 28
     },
     {
       "epoch": 8.57,
       "learning_rate": 1.125e-05,
-      "loss": 7.1056,
       "step": 30
     },
     {
       "epoch": 8.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 6.886016368865967,
-      "eval_runtime": 0.7082,
-      "eval_samples_per_second": 64.957,
-      "eval_steps_per_second": 4.236,
       "step": 31
     },
     {
       "epoch": 10.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 6.686739921569824,
-      "eval_runtime": 0.7412,
-      "eval_samples_per_second": 62.064,
-      "eval_steps_per_second": 4.048,
       "step": 35
     },
     {
       "epoch": 10.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 6.55491304397583,
-      "eval_runtime": 0.7112,
-      "eval_samples_per_second": 64.683,
-      "eval_steps_per_second": 4.218,
       "step": 38
     },
     {
       "epoch": 11.43,
       "learning_rate": 9.999999999999999e-06,
-      "loss": 6.8482,
       "step": 40
     },
     {
       "epoch": 12.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 6.365451335906982,
-      "eval_runtime": 0.7332,
-      "eval_samples_per_second": 62.742,
-      "eval_steps_per_second": 4.092,
       "step": 42
     },
     {
       "epoch": 12.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 6.215301990509033,
-      "eval_runtime": 0.7252,
-      "eval_samples_per_second": 63.433,
-      "eval_steps_per_second": 4.137,
       "step": 45
     },
     {
       "epoch": 14.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 6.0311198234558105,
-      "eval_runtime": 0.7212,
-      "eval_samples_per_second": 63.785,
-      "eval_steps_per_second": 4.16,
       "step": 49
     },
     {
       "epoch": 14.29,
       "learning_rate": 8.750000000000001e-06,
-      "loss": 6.223,
       "step": 50
     },
     {
       "epoch": 14.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 5.903781414031982,
-      "eval_runtime": 0.7222,
-      "eval_samples_per_second": 63.696,
-      "eval_steps_per_second": 4.154,
       "step": 52
     },
     {
       "epoch": 16.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 5.7399983406066895,
-      "eval_runtime": 0.7477,
-      "eval_samples_per_second": 61.524,
-      "eval_steps_per_second": 4.012,
       "step": 56
     },
     {
       "epoch": 16.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 5.627634525299072,
-      "eval_runtime": 0.7197,
-      "eval_samples_per_second": 63.918,
-      "eval_steps_per_second": 4.169,
       "step": 59
     },
     {
       "epoch": 17.14,
       "learning_rate": 7.5e-06,
-      "loss": 5.8233,
       "step": 60
     },
     {
       "epoch": 18.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 5.488417148590088,
-      "eval_runtime": 0.7112,
-      "eval_samples_per_second": 64.683,
-      "eval_steps_per_second": 4.218,
       "step": 63
     },
     {
       "epoch": 18.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 5.391030311584473,
-      "eval_runtime": 0.7452,
-      "eval_samples_per_second": 61.731,
-      "eval_steps_per_second": 4.026,
       "step": 66
     },
     {
       "epoch": 20.0,
       "learning_rate": 6.25e-06,
-      "loss": 5.5432,
       "step": 70
     },
     {
       "epoch": 20.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 5.2689528465271,
-      "eval_runtime": 0.7257,
-      "eval_samples_per_second": 63.39,
-      "eval_steps_per_second": 4.134,
       "step": 70
     },
     {
       "epoch": 20.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 5.182785511016846,
-      "eval_runtime": 0.7282,
-      "eval_samples_per_second": 63.173,
-      "eval_steps_per_second": 4.12,
       "step": 73
     },
     {
       "epoch": 22.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 5.076084136962891,
-      "eval_runtime": 0.7192,
-      "eval_samples_per_second": 63.963,
-      "eval_steps_per_second": 4.172,
       "step": 77
     },
     {
       "epoch": 22.86,
       "learning_rate": 4.9999999999999996e-06,
-      "loss": 5.2554,
       "step": 80
     },
     {
       "epoch": 22.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 5.0026044845581055,
-      "eval_runtime": 0.8007,
-      "eval_samples_per_second": 57.45,
-      "eval_steps_per_second": 3.747,
       "step": 80
     },
     {
       "epoch": 24.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 4.913613796234131,
-      "eval_runtime": 0.7312,
-      "eval_samples_per_second": 62.913,
-      "eval_steps_per_second": 4.103,
       "step": 84
     },
     {
       "epoch": 24.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 4.852543830871582,
-      "eval_runtime": 0.7112,
-      "eval_samples_per_second": 64.683,
-      "eval_steps_per_second": 4.218,
       "step": 87
     },
     {
       "epoch": 25.71,
       "learning_rate": 3.75e-06,
-      "loss": 5.0175,
       "step": 90
     },
     {
       "epoch": 26.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 4.7791571617126465,
-      "eval_runtime": 0.7142,
-      "eval_samples_per_second": 64.411,
-      "eval_steps_per_second": 4.201,
       "step": 91
     },
     {
       "epoch": 26.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 4.730408191680908,
-      "eval_runtime": 0.7222,
-      "eval_samples_per_second": 63.698,
-      "eval_steps_per_second": 4.154,
       "step": 94
     },
     {
       "epoch": 28.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 4.673551559448242,
-      "eval_runtime": 0.7282,
-      "eval_samples_per_second": 63.173,
-      "eval_steps_per_second": 4.12,
       "step": 98
     },
     {
       "epoch": 28.57,
       "learning_rate": 2.4999999999999998e-06,
-      "loss": 4.7765,
       "step": 100
     },
     {
       "epoch": 28.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 4.637141227722168,
-      "eval_runtime": 0.7492,
-      "eval_samples_per_second": 61.401,
-      "eval_steps_per_second": 4.004,
       "step": 101
     },
     {
       "epoch": 30.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 4.596778392791748,
-      "eval_runtime": 0.7372,
-      "eval_samples_per_second": 62.401,
-      "eval_steps_per_second": 4.07,
       "step": 105
     },
     {
       "epoch": 30.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 4.572619915008545,
-      "eval_runtime": 0.7372,
-      "eval_samples_per_second": 62.401,
-      "eval_steps_per_second": 4.07,
       "step": 108
     },
     {
       "epoch": 31.43,
       "learning_rate": 1.2499999999999999e-06,
-      "loss": 4.7339,
       "step": 110
     },
     {
       "epoch": 32.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 4.548309326171875,
-      "eval_runtime": 0.7537,
-      "eval_samples_per_second": 61.034,
-      "eval_steps_per_second": 3.98,
       "step": 112
     },
     {
       "epoch": 32.86,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 4.536120414733887,
-      "eval_runtime": 0.7227,
-      "eval_samples_per_second": 63.652,
-      "eval_steps_per_second": 4.151,
       "step": 115
     },
     {
       "epoch": 34.0,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 4.528027057647705,
-      "eval_runtime": 0.7282,
-      "eval_samples_per_second": 63.172,
-      "eval_steps_per_second": 4.12,
       "step": 119
     },
     {
       "epoch": 34.29,
       "learning_rate": 0.0,
-      "loss": 4.6747,
       "step": 120
     },
     {
       "epoch": 34.29,
       "eval_accuracy": 0.10869565217391304,
-      "eval_loss": 4.527446746826172,
-      "eval_runtime": 0.7392,
-      "eval_samples_per_second": 62.232,
-      "eval_steps_per_second": 4.059,
       "step": 120
     },
     {
       "epoch": 34.29,
       "step": 120,
       "total_flos": 2.3770905934823424e+17,
-      "train_loss": 5.965131664276123,
-      "train_runtime": 192.4021,
-      "train_samples_per_second": 44.282,
-      "train_steps_per_second": 0.624
     }
   ],
   "logging_steps": 10,

       "epoch": 0.86,
       "eval_accuracy": 0.10869565217391304,
       "eval_loss": 7.923763275146484,
+      "eval_runtime": 0.7307,
+      "eval_samples_per_second": 62.956,
+      "eval_steps_per_second": 4.106,
       "step": 3
     },
     {
       "epoch": 2.0,
       "eval_accuracy": 0.10869565217391304,
       "eval_loss": 7.874618053436279,
+      "eval_runtime": 0.7097,
+      "eval_samples_per_second": 64.819,
+      "eval_steps_per_second": 4.227,
       "step": 7
     },
     {
     {
       "epoch": 2.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 7.818480014801025,
+      "eval_runtime": 0.7207,
+      "eval_samples_per_second": 63.83,
+      "eval_steps_per_second": 4.163,
       "step": 10
     },
     {
       "epoch": 4.0,
       "eval_accuracy": 0.10869565217391304,
       "eval_loss": 7.699648857116699,
+      "eval_runtime": 0.7117,
+      "eval_samples_per_second": 64.637,
+      "eval_steps_per_second": 4.215,
       "step": 14
     },
     {
       "epoch": 4.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 7.5876078605651855,
+      "eval_runtime": 0.7162,
+      "eval_samples_per_second": 64.231,
+      "eval_steps_per_second": 4.189,
       "step": 17
     },
     {
     {
       "epoch": 6.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 7.418884754180908,
+      "eval_runtime": 0.7127,
+      "eval_samples_per_second": 64.546,
+      "eval_steps_per_second": 4.21,
       "step": 21
     },
     {
       "epoch": 6.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 7.267844200134277,
+      "eval_runtime": 0.7112,
+      "eval_samples_per_second": 64.683,
+      "eval_steps_per_second": 4.218,
       "step": 24
     },
     {
       "epoch": 8.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 7.048880577087402,
+      "eval_runtime": 0.7262,
+      "eval_samples_per_second": 63.347,
+      "eval_steps_per_second": 4.131,
       "step": 28
     },
     {
       "epoch": 8.57,
       "learning_rate": 1.125e-05,
+      "loss": 7.1057,
       "step": 30
     },
     {
       "epoch": 8.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 6.884642124176025,
+      "eval_runtime": 0.7182,
+      "eval_samples_per_second": 64.052,
+      "eval_steps_per_second": 4.177,
       "step": 31
     },
     {
       "epoch": 10.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 6.686830043792725,
+      "eval_runtime": 0.7417,
+      "eval_samples_per_second": 62.022,
+      "eval_steps_per_second": 4.045,
       "step": 35
     },
     {
       "epoch": 10.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 6.559473991394043,
+      "eval_runtime": 0.7132,
+      "eval_samples_per_second": 64.5,
+      "eval_steps_per_second": 4.207,
       "step": 38
     },
     {
       "epoch": 11.43,
       "learning_rate": 9.999999999999999e-06,
+      "loss": 6.8483,
       "step": 40
     },
     {
       "epoch": 12.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 6.38260555267334,
+      "eval_runtime": 0.7272,
+      "eval_samples_per_second": 63.258,
+      "eval_steps_per_second": 4.126,
       "step": 42
     },
     {
       "epoch": 12.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 6.227572917938232,
+      "eval_runtime": 0.7182,
+      "eval_samples_per_second": 64.051,
+      "eval_steps_per_second": 4.177,
       "step": 45
     },
     {
       "epoch": 14.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 6.03657341003418,
+      "eval_runtime": 0.7132,
+      "eval_samples_per_second": 64.5,
+      "eval_steps_per_second": 4.207,
       "step": 49
     },
     {
       "epoch": 14.29,
       "learning_rate": 8.750000000000001e-06,
+      "loss": 6.224,
       "step": 50
     },
     {
       "epoch": 14.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 5.904354095458984,
+      "eval_runtime": 0.7787,
+      "eval_samples_per_second": 59.074,
+      "eval_steps_per_second": 3.853,
       "step": 52
     },
     {
       "epoch": 16.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 5.738274574279785,
+      "eval_runtime": 0.7132,
+      "eval_samples_per_second": 64.502,
+      "eval_steps_per_second": 4.207,
       "step": 56
     },
     {
       "epoch": 16.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 5.626614570617676,
+      "eval_runtime": 0.7317,
+      "eval_samples_per_second": 62.87,
+      "eval_steps_per_second": 4.1,
       "step": 59
     },
     {
       "epoch": 17.14,
       "learning_rate": 7.5e-06,
+      "loss": 5.8234,
       "step": 60
     },
     {
       "epoch": 18.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 5.487057209014893,
+      "eval_runtime": 0.7047,
+      "eval_samples_per_second": 65.279,
+      "eval_steps_per_second": 4.257,
       "step": 63
     },
     {
       "epoch": 18.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 5.389139652252197,
+      "eval_runtime": 0.7212,
+      "eval_samples_per_second": 63.786,
+      "eval_steps_per_second": 4.16,
       "step": 66
     },
     {
       "epoch": 20.0,
       "learning_rate": 6.25e-06,
+      "loss": 5.5423,
       "step": 70
     },
     {
       "epoch": 20.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 5.267205238342285,
+      "eval_runtime": 0.7192,
+      "eval_samples_per_second": 63.963,
+      "eval_steps_per_second": 4.172,
       "step": 70
     },
     {
       "epoch": 20.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 5.180857181549072,
+      "eval_runtime": 0.7337,
+      "eval_samples_per_second": 62.698,
+      "eval_steps_per_second": 4.089,
       "step": 73
     },
     {
       "epoch": 22.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 5.0741496086120605,
+      "eval_runtime": 0.7262,
+      "eval_samples_per_second": 63.347,
+      "eval_steps_per_second": 4.131,
       "step": 77
     },
     {
       "epoch": 22.86,
       "learning_rate": 4.9999999999999996e-06,
+      "loss": 5.2547,
       "step": 80
     },
     {
       "epoch": 22.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 5.000693321228027,
+      "eval_runtime": 0.6972,
+      "eval_samples_per_second": 65.982,
+      "eval_steps_per_second": 4.303,
       "step": 80
     },
     {
       "epoch": 24.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.911642551422119,
+      "eval_runtime": 0.7242,
+      "eval_samples_per_second": 63.522,
+      "eval_steps_per_second": 4.143,
       "step": 84
     },
     {
       "epoch": 24.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.850471019744873,
+      "eval_runtime": 0.7197,
+      "eval_samples_per_second": 63.918,
+      "eval_steps_per_second": 4.169,
       "step": 87
     },
     {
       "epoch": 25.71,
       "learning_rate": 3.75e-06,
+      "loss": 5.0166,
       "step": 90
     },
     {
       "epoch": 26.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.776952266693115,
+      "eval_runtime": 0.7807,
+      "eval_samples_per_second": 58.923,
+      "eval_steps_per_second": 3.843,
       "step": 91
     },
     {
       "epoch": 26.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.728125095367432,
+      "eval_runtime": 0.7177,
+      "eval_samples_per_second": 64.096,
+      "eval_steps_per_second": 4.18,
       "step": 94
     },
     {
       "epoch": 28.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.6712117195129395,
+      "eval_runtime": 0.7762,
+      "eval_samples_per_second": 59.264,
+      "eval_steps_per_second": 3.865,
       "step": 98
     },
     {
       "epoch": 28.57,
       "learning_rate": 2.4999999999999998e-06,
+      "loss": 4.7751,
       "step": 100
     },
     {
       "epoch": 28.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.634757041931152,
+      "eval_runtime": 0.7157,
+      "eval_samples_per_second": 64.275,
+      "eval_steps_per_second": 4.192,
       "step": 101
     },
     {
       "epoch": 30.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.594343185424805,
+      "eval_runtime": 0.7407,
+      "eval_samples_per_second": 62.106,
+      "eval_steps_per_second": 4.05,
       "step": 105
     },
     {
       "epoch": 30.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.570145130157471,
+      "eval_runtime": 0.7192,
+      "eval_samples_per_second": 63.963,
+      "eval_steps_per_second": 4.172,
       "step": 108
     },
     {
       "epoch": 31.43,
       "learning_rate": 1.2499999999999999e-06,
+      "loss": 4.7321,
       "step": 110
     },
     {
       "epoch": 32.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.545791149139404,
+      "eval_runtime": 0.7197,
+      "eval_samples_per_second": 63.918,
+      "eval_steps_per_second": 4.169,
       "step": 112
     },
     {
       "epoch": 32.86,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.533587455749512,
+      "eval_runtime": 0.7117,
+      "eval_samples_per_second": 64.637,
+      "eval_steps_per_second": 4.215,
       "step": 115
     },
     {
       "epoch": 34.0,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.525488376617432,
+      "eval_runtime": 0.7257,
+      "eval_samples_per_second": 63.39,
+      "eval_steps_per_second": 4.134,
       "step": 119
     },
     {
       "epoch": 34.29,
       "learning_rate": 0.0,
+      "loss": 4.6731,
       "step": 120
     },
     {
       "epoch": 34.29,
       "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 4.524907112121582,
+      "eval_runtime": 0.7682,
+      "eval_samples_per_second": 59.882,
+      "eval_steps_per_second": 3.905,
       "step": 120
     },
     {
       "epoch": 34.29,
       "step": 120,
       "total_flos": 2.3770905934823424e+17,
+      "train_loss": 5.964630603790283,
+      "train_runtime": 190.6471,
+      "train_samples_per_second": 44.69,
+      "train_steps_per_second": 0.629
     }
   ],
   "logging_steps": 10,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:42e6dd5fe2185c3541871e6a294f52ee5dc548ee7730132acdfe07944e894b8f
 size 4792

 version https://git-lfs.github.com/spec/v1
+oid sha256:76ed5746f1700e6d98774fcdfef20d22debc84c10727de3db3ef22a1113ee59f
 size 4792