Upload folder using huggingface_hub

Browse files

Files changed (10) hide show

adapter_config.json +3 -3
adapter_model.safetensors +1 -1
checkpoint-150/adapter_config.json +3 -3
checkpoint-150/adapter_model.safetensors +1 -1
checkpoint-150/optimizer.pt +1 -1
checkpoint-150/trainer_state.json +772 -772
checkpoint-164/adapter_config.json +3 -3
checkpoint-164/adapter_model.safetensors +1 -1
checkpoint-164/optimizer.pt +1 -1
checkpoint-164/trainer_state.json +842 -842

adapter_config.json CHANGED Viewed

@@ -30,11 +30,11 @@
   "revision": null,
   "target_modules": [
     "o_proj",
-    "q_proj",
-    "gate_proj",
-    "down_proj",
     "k_proj",
     "v_proj",
     "up_proj"
   ],
   "target_parameters": null,

   "revision": null,
   "target_modules": [
     "o_proj",
     "k_proj",
+    "down_proj",
+    "q_proj",
     "v_proj",
+    "gate_proj",
     "up_proj"
   ],
   "target_parameters": null,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:978fce5d23f8e65a5e89fd4fa0a502a5a505733bc5d548832ae8e85ecf1af748
 size 83946192

 version https://git-lfs.github.com/spec/v1
+oid sha256:3d7799ff7ae7f290e67eada9d323c6418a3a9db26bdb2158f039838076d95d1f
 size 83946192

checkpoint-150/adapter_config.json CHANGED Viewed

@@ -30,11 +30,11 @@
   "revision": null,
   "target_modules": [
     "o_proj",
-    "q_proj",
-    "gate_proj",
-    "down_proj",
     "k_proj",
     "v_proj",
     "up_proj"
   ],
   "target_parameters": null,

   "revision": null,
   "target_modules": [
     "o_proj",
     "k_proj",
+    "down_proj",
+    "q_proj",
     "v_proj",
+    "gate_proj",
     "up_proj"
   ],
   "target_parameters": null,

checkpoint-150/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a3def52f4b83524f4576484a0a550277910026b91b8717435dde9199c86a7895
 size 83946192

 version https://git-lfs.github.com/spec/v1
+oid sha256:762e73134d8cb3ce48b4da442522cb72cca6085e8d761c4956332ea9159b92c5
 size 83946192

checkpoint-150/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5aa061bf921d60836e9a149e021809302178d2ccf0e44570eb44a74679fa164e
 size 85728997

 version https://git-lfs.github.com/spec/v1
+oid sha256:ecadd10ced5ddfdc8d4f885fbd10e4abbd52e6bb17ae093c71dec91b5ed759e5
 size 85728997

checkpoint-150/trainer_state.json CHANGED Viewed

@@ -10,1536 +10,1536 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "entropy": 0.45975130423903465,
       "epoch": 0.01225114854517611,
-      "grad_norm": 0.00689697265625,
       "learning_rate": 0.0002,
-      "loss": 0.0005938471877016127,
-      "mean_token_accuracy": 0.9997171945869923,
-      "num_tokens": 6092.0,
       "step": 1
     },
     {
-      "entropy": 0.4158535748720169,
       "epoch": 0.02450229709035222,
-      "grad_norm": 0.00017833709716796875,
       "learning_rate": 0.00019878048780487805,
-      "loss": 3.472402386250906e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 11535.0,
       "step": 2
     },
     {
-      "entropy": 0.4280186090618372,
       "epoch": 0.036753445635528334,
-      "grad_norm": 8.20159912109375e-05,
       "learning_rate": 0.0001975609756097561,
-      "loss": 2.510893318685703e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 16432.0,
       "step": 3
     },
     {
-      "entropy": 0.41829014383256435,
       "epoch": 0.04900459418070444,
-      "grad_norm": 0.034912109375,
       "learning_rate": 0.00019634146341463416,
-      "loss": 0.0034790209028869867,
-      "mean_token_accuracy": 0.9971264377236366,
-      "num_tokens": 20507.0,
       "step": 4
     },
     {
-      "entropy": 0.3744635935872793,
       "epoch": 0.06125574272588055,
-      "grad_norm": 0.0001983642578125,
       "learning_rate": 0.0001951219512195122,
-      "loss": 1.627415622351691e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 26122.0,
       "step": 5
     },
     {
-      "entropy": 0.40895503386855125,
       "epoch": 0.07350689127105667,
-      "grad_norm": 3.457069396972656e-05,
       "learning_rate": 0.00019390243902439025,
-      "loss": 9.875144314719364e-06,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 30847.0,
       "step": 6
     },
     {
-      "entropy": 0.36759823746979237,
       "epoch": 0.08575803981623277,
-      "grad_norm": 8.869171142578125e-05,
       "learning_rate": 0.0001926829268292683,
-      "loss": 1.5701301890658215e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 36541.0,
       "step": 7
     },
     {
-      "entropy": 0.3891780599951744,
       "epoch": 0.09800918836140889,
-      "grad_norm": 5.078315734863281e-05,
       "learning_rate": 0.00019146341463414633,
-      "loss": 1.2823864381061867e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 41001.0,
       "step": 8
     },
     {
-      "entropy": 0.4104680269956589,
       "epoch": 0.11026033690658499,
-      "grad_norm": 0.02099609375,
       "learning_rate": 0.0001902439024390244,
-      "loss": 0.0011738959001377225,
-      "mean_token_accuracy": 0.9996279776096344,
-      "num_tokens": 45467.0,
       "step": 9
     },
     {
-      "entropy": 0.39176585152745247,
       "epoch": 0.1225114854517611,
-      "grad_norm": 0.0703125,
       "learning_rate": 0.00018902439024390244,
-      "loss": 0.0007126386626623571,
-      "mean_token_accuracy": 0.9997509978711605,
-      "num_tokens": 50478.0,
       "step": 10
     },
     {
-      "entropy": 0.3562493957579136,
       "epoch": 0.13476263399693722,
-      "grad_norm": 0.0004405975341796875,
       "learning_rate": 0.0001878048780487805,
-      "loss": 2.2854681446915492e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 56181.0,
       "step": 11
     },
     {
-      "entropy": 0.3858679383993149,
       "epoch": 0.14701378254211334,
-      "grad_norm": 0.00016307830810546875,
       "learning_rate": 0.00018658536585365856,
-      "loss": 1.8136681319447234e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 62946.0,
       "step": 12
     },
     {
-      "entropy": 0.37994169630110264,
       "epoch": 0.15926493108728942,
-      "grad_norm": 0.000640869140625,
       "learning_rate": 0.0001853658536585366,
-      "loss": 1.9365113985259086e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 68436.0,
       "step": 13
     },
     {
-      "entropy": 0.3682236662134528,
       "epoch": 0.17151607963246554,
-      "grad_norm": 4.267692565917969e-05,
       "learning_rate": 0.00018414634146341464,
-      "loss": 9.09720802155789e-06,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 73603.0,
       "step": 14
     },
     {
-      "entropy": 0.40290670469403267,
       "epoch": 0.18376722817764166,
-      "grad_norm": 9.441375732421875e-05,
       "learning_rate": 0.0001829268292682927,
-      "loss": 1.5181853086687624e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 77845.0,
       "step": 15
     },
     {
-      "entropy": 0.36544002406299114,
       "epoch": 0.19601837672281777,
-      "grad_norm": 0.001007080078125,
       "learning_rate": 0.00018170731707317075,
-      "loss": 1.5547768271062523e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 82744.0,
       "step": 16
     },
     {
-      "entropy": 0.38514361158013344,
       "epoch": 0.2082695252679939,
-      "grad_norm": 3.147125244140625e-05,
       "learning_rate": 0.0001804878048780488,
-      "loss": 9.32630973693449e-06,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 87453.0,
       "step": 17
     },
     {
-      "entropy": 0.38769579119980335,
       "epoch": 0.22052067381316998,
-      "grad_norm": 0.0001983642578125,
       "learning_rate": 0.00017926829268292684,
-      "loss": 1.4681676475447603e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 92321.0,
       "step": 18
     },
     {
-      "entropy": 0.3753592735156417,
       "epoch": 0.2327718223583461,
-      "grad_norm": 0.00019168853759765625,
       "learning_rate": 0.00017804878048780488,
-      "loss": 2.8633825422730297e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 97146.0,
       "step": 19
     },
     {
-      "entropy": 0.3909287117421627,
       "epoch": 0.2450229709035222,
-      "grad_norm": 0.0004482269287109375,
       "learning_rate": 0.00017682926829268295,
-      "loss": 1.8875809473684058e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 101943.0,
       "step": 20
     },
     {
-      "entropy": 0.4073780719190836,
       "epoch": 0.2572741194486983,
-      "grad_norm": 0.36328125,
       "learning_rate": 0.000175609756097561,
-      "loss": 0.005490713287144899,
-      "mean_token_accuracy": 0.9996448867022991,
-      "num_tokens": 106772.0,
       "step": 21
     },
     {
-      "entropy": 0.3673222251236439,
       "epoch": 0.26952526799387444,
-      "grad_norm": 5.1975250244140625e-05,
       "learning_rate": 0.00017439024390243903,
-      "loss": 1.0117664714925922e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 112558.0,
       "step": 22
     },
     {
-      "entropy": 0.39382114820182323,
       "epoch": 0.28177641653905056,
-      "grad_norm": 0.0003662109375,
       "learning_rate": 0.00017317073170731708,
-      "loss": 1.4868882317387033e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 117489.0,
       "step": 23
     },
     {
-      "entropy": 0.4107118733227253,
       "epoch": 0.29402756508422667,
-      "grad_norm": 0.0009918212890625,
       "learning_rate": 0.00017195121951219512,
-      "loss": 3.529411696945317e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 123010.0,
       "step": 24
     },
     {
-      "entropy": 0.3787885829806328,
       "epoch": 0.30627871362940273,
-      "grad_norm": 0.005859375,
       "learning_rate": 0.0001707317073170732,
-      "loss": 9.493537800153717e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 127716.0,
       "step": 25
     },
     {
-      "entropy": 0.37760412879288197,
       "epoch": 0.31852986217457885,
-      "grad_norm": 0.00029754638671875,
       "learning_rate": 0.00016951219512195123,
-      "loss": 1.7393856978742406e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 132372.0,
       "step": 26
     },
     {
-      "entropy": 0.38016335386782885,
       "epoch": 0.33078101071975496,
-      "grad_norm": 0.0198974609375,
       "learning_rate": 0.00016829268292682927,
-      "loss": 0.00031554378801956773,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 137028.0,
       "step": 27
     },
     {
-      "entropy": 0.3974682204425335,
       "epoch": 0.3430321592649311,
-      "grad_norm": 0.0546875,
       "learning_rate": 0.00016707317073170731,
-      "loss": 0.0025693816132843494,
-      "mean_token_accuracy": 0.9993556700646877,
-      "num_tokens": 142088.0,
       "step": 28
     },
     {
-      "entropy": 0.3819452077150345,
       "epoch": 0.3552833078101072,
-      "grad_norm": 0.0137939453125,
       "learning_rate": 0.00016585365853658536,
-      "loss": 0.0001885725650936365,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 147481.0,
       "step": 29
     },
     {
-      "entropy": 0.41766250506043434,
       "epoch": 0.3675344563552833,
-      "grad_norm": 0.000759124755859375,
       "learning_rate": 0.00016463414634146343,
-      "loss": 1.8762426407192834e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 152973.0,
       "step": 30
     },
     {
-      "entropy": 0.42338451743125916,
       "epoch": 0.37978560490045943,
-      "grad_norm": 0.00015735626220703125,
       "learning_rate": 0.00016341463414634147,
-      "loss": 1.797903678379953e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 156786.0,
       "step": 31
     },
     {
-      "entropy": 0.41780348122119904,
       "epoch": 0.39203675344563554,
-      "grad_norm": 0.00016117095947265625,
       "learning_rate": 0.00016219512195121954,
-      "loss": 2.4896233298932202e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 162859.0,
       "step": 32
     },
     {
-      "entropy": 0.3986742924898863,
       "epoch": 0.40428790199081166,
-      "grad_norm": 0.0003185272216796875,
       "learning_rate": 0.00016097560975609758,
-      "loss": 2.1766518329968676e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 167969.0,
       "step": 33
     },
     {
-      "entropy": 0.40497588738799095,
       "epoch": 0.4165390505359878,
-      "grad_norm": 0.00141143798828125,
       "learning_rate": 0.00015975609756097562,
-      "loss": 5.013354166294448e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 172518.0,
       "step": 34
     },
     {
-      "entropy": 0.44378601387143135,
       "epoch": 0.42879019908116384,
-      "grad_norm": 0.007415771484375,
       "learning_rate": 0.00015853658536585366,
-      "loss": 0.00011341742356307805,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 177085.0,
       "step": 35
     },
     {
-      "entropy": 0.44088135845959187,
       "epoch": 0.44104134762633995,
-      "grad_norm": 0.0224609375,
       "learning_rate": 0.00015731707317073173,
-      "loss": 0.0003354589862283319,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 181617.0,
       "step": 36
     },
     {
-      "entropy": 0.40403734613209963,
       "epoch": 0.45329249617151607,
-      "grad_norm": 0.09326171875,
       "learning_rate": 0.00015609756097560978,
-      "loss": 0.0009270600858144462,
-      "mean_token_accuracy": 0.9998405613005161,
-      "num_tokens": 186836.0,
       "step": 37
     },
     {
-      "entropy": 0.44129026494920254,
       "epoch": 0.4655436447166922,
-      "grad_norm": 0.0001068115234375,
       "learning_rate": 0.00015487804878048782,
-      "loss": 1.9685152437887155e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 191224.0,
       "step": 38
     },
     {
-      "entropy": 0.41146982461214066,
       "epoch": 0.4777947932618683,
-      "grad_norm": 6.437301635742188e-05,
       "learning_rate": 0.00015365853658536586,
-      "loss": 1.4887214092595968e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 195926.0,
       "step": 39
     },
     {
-      "entropy": 0.4401062335819006,
       "epoch": 0.4900459418070444,
-      "grad_norm": 0.0125732421875,
       "learning_rate": 0.0001524390243902439,
-      "loss": 0.0006239329231902957,
-      "mean_token_accuracy": 0.999550361186266,
-      "num_tokens": 200772.0,
       "step": 40
     },
     {
-      "entropy": 0.4169564712792635,
       "epoch": 0.5022970903522205,
-      "grad_norm": 0.000118255615234375,
       "learning_rate": 0.00015121951219512197,
-      "loss": 2.6680882001528516e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 204499.0,
       "step": 41
     },
     {
-      "entropy": 0.45378032699227333,
       "epoch": 0.5145482388973966,
-      "grad_norm": 0.00011491775512695312,
       "learning_rate": 0.00015000000000000001,
-      "loss": 2.471652624080889e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 208814.0,
       "step": 42
     },
     {
-      "entropy": 0.4465767778456211,
       "epoch": 0.5267993874425727,
-      "grad_norm": 0.000263214111328125,
       "learning_rate": 0.00014878048780487806,
-      "loss": 3.366273449501023e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 213907.0,
       "step": 43
     },
     {
-      "entropy": 0.4534517452120781,
       "epoch": 0.5390505359877489,
-      "grad_norm": 0.000728607177734375,
       "learning_rate": 0.0001475609756097561,
-      "loss": 2.826840864145197e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 218988.0,
       "step": 44
     },
     {
-      "entropy": 0.4201868511736393,
       "epoch": 0.5513016845329249,
-      "grad_norm": 0.0196533203125,
       "learning_rate": 0.00014634146341463414,
-      "loss": 0.000961265352088958,
-      "mean_token_accuracy": 0.9995967745780945,
-      "num_tokens": 223595.0,
       "step": 45
     },
     {
-      "entropy": 0.4538087658584118,
       "epoch": 0.5635528330781011,
-      "grad_norm": 0.000629425048828125,
       "learning_rate": 0.0001451219512195122,
-      "loss": 2.982705154863652e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 228244.0,
       "step": 46
     },
     {
-      "entropy": 0.43760119564831257,
       "epoch": 0.5758039816232772,
-      "grad_norm": 6.151199340820312e-05,
       "learning_rate": 0.00014390243902439025,
-      "loss": 1.6359297660528682e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 232606.0,
       "step": 47
     },
     {
-      "entropy": 0.44127281196415424,
       "epoch": 0.5880551301684533,
-      "grad_norm": 9.632110595703125e-05,
       "learning_rate": 0.0001426829268292683,
-      "loss": 2.9222681405371986e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 236563.0,
       "step": 48
     },
     {
-      "entropy": 0.4647264387458563,
       "epoch": 0.6003062787136294,
-      "grad_norm": 6.818771362304688e-05,
       "learning_rate": 0.00014146341463414634,
-      "loss": 1.6634010535199195e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 241214.0,
       "step": 49
     },
     {
-      "entropy": 0.43234376423060894,
       "epoch": 0.6125574272588055,
-      "grad_norm": 9.107589721679688e-05,
       "learning_rate": 0.00014024390243902438,
-      "loss": 2.512251739972271e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 245200.0,
       "step": 50
     },
     {
       "epoch": 0.6125574272588055,
-      "eval_entropy": 0.42710635541141895,
-      "eval_loss": 0.0009002267033793032,
-      "eval_mean_token_accuracy": 0.9997843339823295,
-      "eval_num_tokens": 245200.0,
-      "eval_runtime": 51.2948,
-      "eval_samples_per_second": 1.345,
-      "eval_steps_per_second": 1.345,
       "step": 50
     },
     {
-      "entropy": 0.436727499589324,
       "epoch": 0.6248085758039816,
-      "grad_norm": 6.079673767089844e-05,
       "learning_rate": 0.00013902439024390245,
-      "loss": 1.7863472749013454e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 249761.0,
       "step": 51
     },
     {
-      "entropy": 0.4489326383918524,
       "epoch": 0.6370597243491577,
-      "grad_norm": 0.010009765625,
       "learning_rate": 0.0001378048780487805,
-      "loss": 9.14962001843378e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 254787.0,
       "step": 52
     },
     {
-      "entropy": 0.4518893454223871,
       "epoch": 0.6493108728943339,
-      "grad_norm": 0.029052734375,
       "learning_rate": 0.00013658536585365856,
-      "loss": 0.002504949690774083,
-      "mean_token_accuracy": 0.9991238303482533,
-      "num_tokens": 260287.0,
       "step": 53
     },
     {
-      "entropy": 0.4276025863364339,
       "epoch": 0.6615620214395099,
-      "grad_norm": 0.00022411346435546875,
       "learning_rate": 0.0001353658536585366,
-      "loss": 1.9805909687420353e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 264810.0,
       "step": 54
     },
     {
-      "entropy": 0.4455657321959734,
       "epoch": 0.6738131699846861,
-      "grad_norm": 0.09912109375,
       "learning_rate": 0.00013414634146341464,
-      "loss": 0.005040395073592663,
-      "mean_token_accuracy": 0.9974489808082581,
-      "num_tokens": 270386.0,
       "step": 55
     },
     {
-      "entropy": 0.48375592939555645,
       "epoch": 0.6860643185298622,
-      "grad_norm": 0.00020694732666015625,
       "learning_rate": 0.0001329268292682927,
-      "loss": 3.307354199932888e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 274391.0,
       "step": 56
     },
     {
-      "entropy": 0.4558328855782747,
       "epoch": 0.6983154670750383,
-      "grad_norm": 0.00011205673217773438,
       "learning_rate": 0.00013170731707317076,
-      "loss": 2.9195363822509535e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 279716.0,
       "step": 57
     },
     {
-      "entropy": 0.4038175716996193,
       "epoch": 0.7105666156202144,
-      "grad_norm": 0.130859375,
       "learning_rate": 0.0001304878048780488,
-      "loss": 0.002872227458283305,
-      "mean_token_accuracy": 0.9989018365740776,
-      "num_tokens": 285404.0,
       "step": 58
     },
     {
-      "entropy": 0.4584309756755829,
       "epoch": 0.7228177641653905,
-      "grad_norm": 0.02294921875,
       "learning_rate": 0.00012926829268292684,
-      "loss": 0.0006162020144984126,
-      "mean_token_accuracy": 0.9997650384902954,
-      "num_tokens": 289992.0,
       "step": 59
     },
     {
-      "entropy": 0.47067076340317726,
       "epoch": 0.7350689127105666,
-      "grad_norm": 5.14984130859375e-05,
       "learning_rate": 0.00012804878048780488,
-      "loss": 1.8253980670124292e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 294861.0,
       "step": 60
     },
     {
-      "entropy": 0.4258435070514679,
       "epoch": 0.7473200612557427,
-      "grad_norm": 6.437301635742188e-05,
       "learning_rate": 0.00012682926829268293,
-      "loss": 2.3211847292259336e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 300355.0,
       "step": 61
     },
     {
-      "entropy": 0.4751600846648216,
       "epoch": 0.7595712098009189,
-      "grad_norm": 0.0001201629638671875,
       "learning_rate": 0.000125609756097561,
-      "loss": 2.862562905647792e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 305776.0,
       "step": 62
     },
     {
-      "entropy": 0.43714143335819244,
       "epoch": 0.7718223583460949,
-      "grad_norm": 8.153915405273438e-05,
       "learning_rate": 0.00012439024390243904,
-      "loss": 2.0440007574507035e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 310204.0,
       "step": 63
     },
     {
-      "entropy": 0.436653483659029,
       "epoch": 0.7840735068912711,
-      "grad_norm": 9.298324584960938e-05,
       "learning_rate": 0.00012317073170731708,
-      "loss": 2.5547835321049206e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 314205.0,
       "step": 64
     },
     {
-      "entropy": 0.4625023826956749,
       "epoch": 0.7963246554364471,
-      "grad_norm": 4.9591064453125e-05,
       "learning_rate": 0.00012195121951219512,
-      "loss": 1.6659454558975995e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 319157.0,
       "step": 65
     },
     {
-      "entropy": 0.45398022420704365,
       "epoch": 0.8085758039816233,
-      "grad_norm": 0.0004730224609375,
       "learning_rate": 0.00012073170731707318,
-      "loss": 2.831750134646427e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 324681.0,
       "step": 66
     },
     {
-      "entropy": 0.39901847764849663,
       "epoch": 0.8208269525267994,
-      "grad_norm": 0.0113525390625,
       "learning_rate": 0.00011951219512195122,
-      "loss": 0.0010163490660488605,
-      "mean_token_accuracy": 0.9993686862289906,
-      "num_tokens": 329929.0,
       "step": 67
     },
     {
-      "entropy": 0.43489386700093746,
       "epoch": 0.8330781010719756,
-      "grad_norm": 0.0002841949462890625,
       "learning_rate": 0.00011829268292682926,
-      "loss": 3.556731462595053e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 334474.0,
       "step": 68
     },
     {
-      "entropy": 0.43658433854579926,
       "epoch": 0.8453292496171516,
-      "grad_norm": 0.00021457672119140625,
       "learning_rate": 0.00011707317073170732,
-      "loss": 3.145977098029107e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 338171.0,
       "step": 69
     },
     {
-      "entropy": 0.47345293685793877,
       "epoch": 0.8575803981623277,
-      "grad_norm": 0.04052734375,
       "learning_rate": 0.00011585365853658536,
-      "loss": 0.006434774026274681,
-      "mean_token_accuracy": 0.9988360889256,
-      "num_tokens": 342581.0,
       "step": 70
     },
     {
-      "entropy": 0.47144644521176815,
       "epoch": 0.8698315467075038,
-      "grad_norm": 0.03857421875,
       "learning_rate": 0.00011463414634146342,
-      "loss": 0.0040056235156953335,
-      "mean_token_accuracy": 0.9997807033360004,
-      "num_tokens": 347785.0,
       "step": 71
     },
     {
-      "entropy": 0.44001554138958454,
       "epoch": 0.8820826952526799,
-      "grad_norm": 0.00081634521484375,
       "learning_rate": 0.00011341463414634146,
-      "loss": 3.297243165434338e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 352109.0,
       "step": 72
     },
     {
-      "entropy": 0.44880508445203304,
       "epoch": 0.8943338437978561,
-      "grad_norm": 0.0002689361572265625,
       "learning_rate": 0.00011219512195121953,
-      "loss": 2.6160523702856153e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 357931.0,
       "step": 73
     },
     {
-      "entropy": 0.41770973429083824,
       "epoch": 0.9065849923430321,
-      "grad_norm": 0.0002231597900390625,
       "learning_rate": 0.00011097560975609757,
-      "loss": 3.9217924495460466e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 363802.0,
       "step": 74
     },
     {
-      "entropy": 0.45532275550067425,
       "epoch": 0.9188361408882083,
-      "grad_norm": 6.389617919921875e-05,
       "learning_rate": 0.00010975609756097563,
-      "loss": 2.482662421243731e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 368858.0,
       "step": 75
     },
     {
-      "entropy": 0.4533053319901228,
       "epoch": 0.9310872894333844,
-      "grad_norm": 0.000492095947265625,
       "learning_rate": 0.00010853658536585367,
-      "loss": 3.297019793535583e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 373658.0,
       "step": 76
     },
     {
-      "entropy": 0.4135119281709194,
       "epoch": 0.9433384379785605,
-      "grad_norm": 0.000347137451171875,
       "learning_rate": 0.00010731707317073172,
-      "loss": 3.026250487891957e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 379025.0,
       "step": 77
     },
     {
-      "entropy": 0.44705197028815746,
       "epoch": 0.9555895865237366,
-      "grad_norm": 0.00067901611328125,
       "learning_rate": 0.00010609756097560977,
-      "loss": 4.355545388534665e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 384240.0,
       "step": 78
     },
     {
-      "entropy": 0.459016814827919,
       "epoch": 0.9678407350689127,
-      "grad_norm": 0.00098419189453125,
       "learning_rate": 0.00010487804878048781,
-      "loss": 4.3970921979052946e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 388335.0,
       "step": 79
     },
     {
-      "entropy": 0.4241188894957304,
       "epoch": 0.9800918836140888,
-      "grad_norm": 0.07275390625,
       "learning_rate": 0.00010365853658536586,
-      "loss": 0.009294007904827595,
-      "mean_token_accuracy": 0.9970472455024719,
-      "num_tokens": 394201.0,
       "step": 80
     },
     {
-      "entropy": 0.4442194551229477,
       "epoch": 0.9923430321592649,
-      "grad_norm": 0.000377655029296875,
       "learning_rate": 0.0001024390243902439,
-      "loss": 3.1872321414994076e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 399101.0,
       "step": 81
     },
     {
-      "entropy": 0.429327929019928,
       "epoch": 1.0,
-      "grad_norm": 0.00064849853515625,
       "learning_rate": 0.00010121951219512196,
-      "loss": 3.4027863875962794e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 402117.0,
       "step": 82
     },
     {
-      "entropy": 0.4472597725689411,
       "epoch": 1.0122511485451762,
-      "grad_norm": 0.08056640625,
       "learning_rate": 0.0001,
-      "loss": 0.005052679218351841,
-      "mean_token_accuracy": 0.9986319616436958,
-      "num_tokens": 406748.0,
       "step": 83
     },
     {
-      "entropy": 0.4647933579981327,
       "epoch": 1.0245022970903521,
-      "grad_norm": 0.0001888275146484375,
       "learning_rate": 9.878048780487805e-05,
-      "loss": 3.911805833922699e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 411354.0,
       "step": 84
     },
     {
-      "entropy": 0.49184724502265453,
       "epoch": 1.0367534456355283,
-      "grad_norm": 0.0009307861328125,
       "learning_rate": 9.75609756097561e-05,
-      "loss": 6.517933798022568e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 417755.0,
       "step": 85
     },
     {
-      "entropy": 0.45203530229628086,
       "epoch": 1.0490045941807045,
-      "grad_norm": 0.00017547607421875,
       "learning_rate": 9.634146341463415e-05,
-      "loss": 4.648843969334848e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 421725.0,
       "step": 86
     },
     {
-      "entropy": 0.44451451301574707,
       "epoch": 1.0612557427258806,
-      "grad_norm": 0.00012493133544921875,
       "learning_rate": 9.51219512195122e-05,
-      "loss": 3.813640068983659e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 426841.0,
       "step": 87
     },
     {
-      "entropy": 0.5532373636960983,
       "epoch": 1.0735068912710566,
-      "grad_norm": 0.0004425048828125,
       "learning_rate": 9.390243902439024e-05,
-      "loss": 8.416183845838532e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 431070.0,
       "step": 88
     },
     {
-      "entropy": 0.5114028844982386,
       "epoch": 1.0857580398162328,
-      "grad_norm": 0.021484375,
       "learning_rate": 9.26829268292683e-05,
-      "loss": 0.0013321326114237309,
-      "mean_token_accuracy": 0.9995535723865032,
-      "num_tokens": 435681.0,
       "step": 89
     },
     {
-      "entropy": 0.48618660122156143,
       "epoch": 1.098009188361409,
-      "grad_norm": 0.0002498626708984375,
       "learning_rate": 9.146341463414635e-05,
-      "loss": 6.904367910465226e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 440565.0,
       "step": 90
     },
     {
-      "entropy": 0.5016148556023836,
       "epoch": 1.110260336906585,
-      "grad_norm": 0.019287109375,
       "learning_rate": 9.02439024390244e-05,
-      "loss": 0.0020695198327302933,
-      "mean_token_accuracy": 0.9993686862289906,
-      "num_tokens": 445241.0,
       "step": 91
     },
     {
-      "entropy": 0.5162393897771835,
       "epoch": 1.122511485451761,
-      "grad_norm": 0.04638671875,
       "learning_rate": 8.902439024390244e-05,
-      "loss": 0.0038224293384701014,
-      "mean_token_accuracy": 0.9989322870969772,
-      "num_tokens": 449996.0,
       "step": 92
     },
     {
-      "entropy": 0.47938764840364456,
       "epoch": 1.1347626339969372,
-      "grad_norm": 0.0028533935546875,
       "learning_rate": 8.78048780487805e-05,
-      "loss": 0.00016397782019339502,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 454979.0,
       "step": 93
     },
     {
-      "entropy": 0.5016432590782642,
       "epoch": 1.1470137825421134,
-      "grad_norm": 0.000400543212890625,
       "learning_rate": 8.658536585365854e-05,
-      "loss": 0.00010612564074108377,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 459674.0,
       "step": 94
     },
     {
-      "entropy": 0.5095659829676151,
       "epoch": 1.1592649310872893,
-      "grad_norm": 0.0004520416259765625,
       "learning_rate": 8.53658536585366e-05,
-      "loss": 0.00011354458547430113,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 464313.0,
       "step": 95
     },
     {
-      "entropy": 0.4933694824576378,
       "epoch": 1.1715160796324655,
-      "grad_norm": 0.0556640625,
       "learning_rate": 8.414634146341464e-05,
-      "loss": 0.004786409437656403,
-      "mean_token_accuracy": 0.9988460540771484,
-      "num_tokens": 468858.0,
       "step": 96
     },
     {
-      "entropy": 0.5068543236702681,
       "epoch": 1.1837672281776417,
-      "grad_norm": 0.000492095947265625,
       "learning_rate": 8.292682926829268e-05,
-      "loss": 9.500309533905238e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 473732.0,
       "step": 97
     },
     {
-      "entropy": 0.502707714214921,
       "epoch": 1.1960183767228179,
-      "grad_norm": 0.026123046875,
       "learning_rate": 8.170731707317073e-05,
-      "loss": 0.002030049916356802,
-      "mean_token_accuracy": 0.9993131868541241,
-      "num_tokens": 479037.0,
       "step": 98
     },
     {
-      "entropy": 0.5147993545979261,
       "epoch": 1.2082695252679938,
-      "grad_norm": 0.000354766845703125,
       "learning_rate": 8.048780487804879e-05,
-      "loss": 6.365451554302126e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 484811.0,
       "step": 99
     },
     {
-      "entropy": 0.4471734017133713,
       "epoch": 1.22052067381317,
-      "grad_norm": 0.0047607421875,
       "learning_rate": 7.926829268292683e-05,
-      "loss": 0.0003211660368833691,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 489522.0,
       "step": 100
     },
     {
       "epoch": 1.22052067381317,
-      "eval_entropy": 0.4696715573469798,
-      "eval_loss": 0.0007750109070912004,
-      "eval_mean_token_accuracy": 0.9997843339823295,
-      "eval_num_tokens": 489522.0,
-      "eval_runtime": 51.321,
-      "eval_samples_per_second": 1.344,
-      "eval_steps_per_second": 1.344,
       "step": 100
     },
     {
-      "entropy": 0.4984112149104476,
       "epoch": 1.2327718223583461,
-      "grad_norm": 0.0001850128173828125,
       "learning_rate": 7.804878048780489e-05,
-      "loss": 5.6583492550998926e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 494757.0,
       "step": 101
     },
     {
-      "entropy": 0.46644425205886364,
       "epoch": 1.245022970903522,
-      "grad_norm": 0.0001506805419921875,
       "learning_rate": 7.682926829268293e-05,
-      "loss": 5.076146044302732e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 499837.0,
       "step": 102
     },
     {
-      "entropy": 0.4746809806674719,
       "epoch": 1.2572741194486983,
-      "grad_norm": 0.00015354156494140625,
       "learning_rate": 7.560975609756099e-05,
-      "loss": 5.508732647285797e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 505267.0,
       "step": 103
     },
     {
-      "entropy": 0.47748516872525215,
       "epoch": 1.2695252679938744,
-      "grad_norm": 0.0001277923583984375,
       "learning_rate": 7.439024390243903e-05,
-      "loss": 4.464950325200334e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 510260.0,
       "step": 104
     },
     {
-      "entropy": 0.49103316478431225,
       "epoch": 1.2817764165390506,
-      "grad_norm": 0.00689697265625,
       "learning_rate": 7.317073170731707e-05,
-      "loss": 0.000652994611300528,
-      "mean_token_accuracy": 0.9993556700646877,
-      "num_tokens": 514493.0,
       "step": 105
     },
     {
-      "entropy": 0.4787591751664877,
       "epoch": 1.2940275650842268,
-      "grad_norm": 0.0003795623779296875,
       "learning_rate": 7.195121951219513e-05,
-      "loss": 4.17455485148821e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 519511.0,
       "step": 106
     },
     {
-      "entropy": 0.46200828067958355,
       "epoch": 1.3062787136294027,
-      "grad_norm": 0.0001678466796875,
       "learning_rate": 7.073170731707317e-05,
-      "loss": 4.6432032831944525e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 524373.0,
       "step": 107
     },
     {
-      "entropy": 0.4632429350167513,
       "epoch": 1.318529862174579,
-      "grad_norm": 0.00019073486328125,
       "learning_rate": 6.951219512195122e-05,
-      "loss": 4.138273652642965e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 528973.0,
       "step": 108
     },
     {
-      "entropy": 0.4669873770326376,
       "epoch": 1.3307810107197549,
-      "grad_norm": 0.000301361083984375,
       "learning_rate": 6.829268292682928e-05,
-      "loss": 4.5484361180569977e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 533941.0,
       "step": 109
     },
     {
-      "entropy": 0.45179494842886925,
       "epoch": 1.343032159264931,
-      "grad_norm": 0.00010776519775390625,
       "learning_rate": 6.707317073170732e-05,
-      "loss": 3.3365573472110555e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 539363.0,
       "step": 110
     },
     {
-      "entropy": 0.438027735799551,
       "epoch": 1.3552833078101072,
-      "grad_norm": 0.00014972686767578125,
       "learning_rate": 6.585365853658538e-05,
-      "loss": 4.3530206312425435e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 543731.0,
       "step": 111
     },
     {
-      "entropy": 0.4696179609745741,
       "epoch": 1.3675344563552834,
-      "grad_norm": 0.028076171875,
       "learning_rate": 6.463414634146342e-05,
-      "loss": 0.00529400585219264,
-      "mean_token_accuracy": 0.9985632188618183,
-      "num_tokens": 548164.0,
       "step": 112
     },
     {
-      "entropy": 0.4698081314563751,
       "epoch": 1.3797856049004595,
-      "grad_norm": 0.00885009765625,
       "learning_rate": 6.341463414634146e-05,
-      "loss": 0.0005042221746407449,
-      "mean_token_accuracy": 0.9995039664208889,
-      "num_tokens": 553693.0,
       "step": 113
     },
     {
-      "entropy": 0.45541019923985004,
       "epoch": 1.3920367534456355,
-      "grad_norm": 9.393692016601562e-05,
       "learning_rate": 6.219512195121952e-05,
-      "loss": 3.189211565768346e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 558477.0,
       "step": 114
     },
     {
-      "entropy": 0.46046129800379276,
       "epoch": 1.4042879019908117,
-      "grad_norm": 0.0001392364501953125,
       "learning_rate": 6.097560975609756e-05,
-      "loss": 3.399374691070989e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 563965.0,
       "step": 115
     },
     {
-      "entropy": 0.49661404080688953,
       "epoch": 1.4165390505359878,
-      "grad_norm": 0.0004062652587890625,
       "learning_rate": 5.975609756097561e-05,
-      "loss": 5.0347538490314037e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 568303.0,
       "step": 116
     },
     {
-      "entropy": 0.4603871125727892,
       "epoch": 1.4287901990811638,
-      "grad_norm": 9.870529174804688e-05,
       "learning_rate": 5.853658536585366e-05,
-      "loss": 3.4569777199067175e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 572895.0,
       "step": 117
     },
     {
-      "entropy": 0.47774807177484035,
       "epoch": 1.44104134762634,
-      "grad_norm": 0.00012063980102539062,
       "learning_rate": 5.731707317073171e-05,
-      "loss": 4.4718148274114355e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 577892.0,
       "step": 118
     },
     {
-      "entropy": 0.4559262488037348,
       "epoch": 1.4532924961715161,
-      "grad_norm": 8.440017700195312e-05,
       "learning_rate": 5.6097560975609764e-05,
-      "loss": 2.7120513550471514e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 583128.0,
       "step": 119
     },
     {
-      "entropy": 0.4927012659609318,
       "epoch": 1.4655436447166923,
-      "grad_norm": 0.00011539459228515625,
       "learning_rate": 5.487804878048781e-05,
-      "loss": 3.757046943064779e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 587856.0,
       "step": 120
     },
     {
-      "entropy": 0.43140678480267525,
       "epoch": 1.4777947932618682,
-      "grad_norm": 0.000125885009765625,
       "learning_rate": 5.365853658536586e-05,
-      "loss": 3.988837852375582e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 592260.0,
       "step": 121
     },
     {
-      "entropy": 0.46533982269465923,
       "epoch": 1.4900459418070444,
-      "grad_norm": 9.822845458984375e-05,
       "learning_rate": 5.2439024390243904e-05,
-      "loss": 3.350730548845604e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 597022.0,
       "step": 122
     },
     {
-      "entropy": 0.4450340513139963,
       "epoch": 1.5022970903522204,
-      "grad_norm": 0.00018596649169921875,
       "learning_rate": 5.121951219512195e-05,
-      "loss": 4.867902316618711e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 601326.0,
       "step": 123
     },
     {
-      "entropy": 0.4453680943697691,
       "epoch": 1.5145482388973965,
-      "grad_norm": 0.000270843505859375,
       "learning_rate": 5e-05,
-      "loss": 4.58945614809636e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 606619.0,
       "step": 124
     },
     {
-      "entropy": 0.4738515168428421,
       "epoch": 1.5267993874425727,
-      "grad_norm": 6.866455078125e-05,
       "learning_rate": 4.878048780487805e-05,
-      "loss": 3.125666262349114e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 612381.0,
       "step": 125
     },
     {
-      "entropy": 0.4711528979241848,
       "epoch": 1.5390505359877489,
-      "grad_norm": 0.0003032684326171875,
       "learning_rate": 4.75609756097561e-05,
-      "loss": 4.3324482248863205e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 617203.0,
       "step": 126
     },
     {
-      "entropy": 0.4728289693593979,
       "epoch": 1.551301684532925,
-      "grad_norm": 0.01611328125,
       "learning_rate": 4.634146341463415e-05,
-      "loss": 0.00017536790983285755,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 622329.0,
       "step": 127
     },
     {
-      "entropy": 0.48075354285538197,
       "epoch": 1.5635528330781012,
-      "grad_norm": 0.000751495361328125,
       "learning_rate": 4.51219512195122e-05,
-      "loss": 5.28718919667881e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 627243.0,
       "step": 128
     },
     {
-      "entropy": 0.43419913947582245,
       "epoch": 1.5758039816232772,
-      "grad_norm": 0.0001850128173828125,
       "learning_rate": 4.390243902439025e-05,
-      "loss": 4.585986243910156e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 631428.0,
       "step": 129
     },
     {
-      "entropy": 0.4347258824855089,
       "epoch": 1.5880551301684533,
-      "grad_norm": 0.0003814697265625,
       "learning_rate": 4.26829268292683e-05,
-      "loss": 5.289731052471325e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 636476.0,
       "step": 130
     },
     {
-      "entropy": 0.44714186899363995,
       "epoch": 1.6003062787136293,
-      "grad_norm": 0.04541015625,
       "learning_rate": 4.146341463414634e-05,
-      "loss": 0.003742673434317112,
-      "mean_token_accuracy": 0.9986401423811913,
-      "num_tokens": 641238.0,
       "step": 131
     },
     {
-      "entropy": 0.4518321752548218,
       "epoch": 1.6125574272588055,
-      "grad_norm": 0.0751953125,
       "learning_rate": 4.0243902439024395e-05,
-      "loss": 0.006270918063819408,
-      "mean_token_accuracy": 0.999205507338047,
-      "num_tokens": 646351.0,
       "step": 132
     },
     {
-      "entropy": 0.40802894718945026,
       "epoch": 1.6248085758039816,
-      "grad_norm": 0.00011110305786132812,
       "learning_rate": 3.9024390243902444e-05,
-      "loss": 3.44005020451732e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 650741.0,
       "step": 133
     },
     {
-      "entropy": 0.42771636322140694,
       "epoch": 1.6370597243491578,
-      "grad_norm": 0.0001239776611328125,
       "learning_rate": 3.780487804878049e-05,
-      "loss": 4.249331323080696e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 655143.0,
       "step": 134
     },
     {
-      "entropy": 0.44244702346622944,
       "epoch": 1.649310872894334,
-      "grad_norm": 0.00011205673217773438,
       "learning_rate": 3.6585365853658535e-05,
-      "loss": 3.287765503046103e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 660264.0,
       "step": 135
     },
     {
-      "entropy": 0.48481825925409794,
       "epoch": 1.66156202143951,
-      "grad_norm": 0.000179290771484375,
       "learning_rate": 3.5365853658536584e-05,
-      "loss": 5.46249866602011e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 664447.0,
       "step": 136
     },
     {
-      "entropy": 0.46484761498868465,
       "epoch": 1.673813169984686,
-      "grad_norm": 0.0002498626708984375,
       "learning_rate": 3.414634146341464e-05,
-      "loss": 4.426595114637166e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 669330.0,
       "step": 137
     },
     {
-      "entropy": 0.4359226580709219,
       "epoch": 1.686064318529862,
-      "grad_norm": 0.049560546875,
       "learning_rate": 3.292682926829269e-05,
-      "loss": 0.004120181780308485,
-      "mean_token_accuracy": 0.9997727274894714,
-      "num_tokens": 674885.0,
       "step": 138
     },
     {
-      "entropy": 0.4564925115555525,
       "epoch": 1.6983154670750382,
-      "grad_norm": 0.0001544952392578125,
       "learning_rate": 3.170731707317073e-05,
-      "loss": 5.280967161525041e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 679666.0,
       "step": 139
     },
     {
-      "entropy": 0.45392039604485035,
       "epoch": 1.7105666156202144,
-      "grad_norm": 0.0001277923583984375,
       "learning_rate": 3.048780487804878e-05,
-      "loss": 4.428522152011283e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 685022.0,
       "step": 140
     },
     {
-      "entropy": 0.4568201173096895,
       "epoch": 1.7228177641653906,
-      "grad_norm": 0.000255584716796875,
       "learning_rate": 2.926829268292683e-05,
-      "loss": 5.5990531109273434e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 689370.0,
       "step": 141
     },
     {
-      "entropy": 0.46470937319099903,
       "epoch": 1.7350689127105667,
-      "grad_norm": 0.00020122528076171875,
       "learning_rate": 2.8048780487804882e-05,
-      "loss": 6.421299622161314e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 693163.0,
       "step": 142
     },
     {
-      "entropy": 0.47727371007204056,
       "epoch": 1.7473200612557427,
-      "grad_norm": 0.000385284423828125,
       "learning_rate": 2.682926829268293e-05,
-      "loss": 7.020766497589648e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 697577.0,
       "step": 143
     },
     {
-      "entropy": 0.46956145390868187,
       "epoch": 1.7595712098009189,
-      "grad_norm": 0.00017642974853515625,
       "learning_rate": 2.5609756097560977e-05,
-      "loss": 6.577485328307375e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 703024.0,
       "step": 144
     },
     {
-      "entropy": 0.4778987504541874,
       "epoch": 1.7718223583460948,
-      "grad_norm": 0.0272216796875,
       "learning_rate": 2.4390243902439026e-05,
-      "loss": 0.0015227628173306584,
-      "mean_token_accuracy": 0.999507874250412,
-      "num_tokens": 707836.0,
       "step": 145
     },
     {
-      "entropy": 0.4693255964666605,
       "epoch": 1.784073506891271,
-      "grad_norm": 0.0016632080078125,
       "learning_rate": 2.3170731707317075e-05,
-      "loss": 8.514844375895336e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 712795.0,
       "step": 146
     },
     {
-      "entropy": 0.44871947541832924,
       "epoch": 1.7963246554364471,
-      "grad_norm": 0.0001220703125,
       "learning_rate": 2.1951219512195124e-05,
-      "loss": 4.404923674883321e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 718427.0,
       "step": 147
     },
     {
-      "entropy": 0.46528770588338375,
       "epoch": 1.8085758039816233,
-      "grad_norm": 0.00011539459228515625,
       "learning_rate": 2.073170731707317e-05,
-      "loss": 4.299484135117382e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 723784.0,
       "step": 148
     },
     {
-      "entropy": 0.4871877897530794,
       "epoch": 1.8208269525267995,
-      "grad_norm": 0.00018215179443359375,
       "learning_rate": 1.9512195121951222e-05,
-      "loss": 6.490876694442704e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 728100.0,
       "step": 149
     },
     {
-      "entropy": 0.4858295116573572,
       "epoch": 1.8330781010719757,
-      "grad_norm": 0.004119873046875,
       "learning_rate": 1.8292682926829268e-05,
-      "loss": 0.0002347841509617865,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 733891.0,
       "step": 150
     },
     {
       "epoch": 1.8330781010719757,
-      "eval_entropy": 0.45632935347764386,
-      "eval_loss": 0.0005955203669145703,
-      "eval_mean_token_accuracy": 0.9997519842092542,
-      "eval_num_tokens": 733891.0,
-      "eval_runtime": 51.3196,
-      "eval_samples_per_second": 1.345,
-      "eval_steps_per_second": 1.345,
       "step": 150
     }
   ],
@@ -1560,7 +1560,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.323146975216435e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "is_world_process_zero": true,
   "log_history": [
     {
+      "entropy": 0.22490596678107977,
       "epoch": 0.01225114854517611,
+      "grad_norm": 8.875,
       "learning_rate": 0.0002,
+      "loss": 0.1875426322221756,
+      "mean_token_accuracy": 0.9461580626666546,
+      "num_tokens": 6770.0,
       "step": 1
     },
     {
+      "entropy": 0.24707041680812836,
       "epoch": 0.02450229709035222,
+      "grad_norm": 8.4375,
       "learning_rate": 0.00019878048780487805,
+      "loss": 0.16050274670124054,
+      "mean_token_accuracy": 0.9445944800972939,
+      "num_tokens": 14234.0,
       "step": 2
     },
     {
+      "entropy": 0.32129648607224226,
       "epoch": 0.036753445635528334,
+      "grad_norm": 2.75,
       "learning_rate": 0.0001975609756097561,
+      "loss": 0.09863867610692978,
+      "mean_token_accuracy": 0.9659304060041904,
+      "num_tokens": 20673.0,
       "step": 3
     },
     {
+      "entropy": 0.32960685156285763,
       "epoch": 0.04900459418070444,
+      "grad_norm": 1.671875,
       "learning_rate": 0.00019634146341463416,
+      "loss": 0.08542143553495407,
+      "mean_token_accuracy": 0.9690693095326424,
+      "num_tokens": 26890.0,
       "step": 4
     },
     {
+      "entropy": 0.2677983660250902,
       "epoch": 0.06125574272588055,
+      "grad_norm": 1.359375,
       "learning_rate": 0.0001951219512195122,
+      "loss": 0.08666501939296722,
+      "mean_token_accuracy": 0.968298003077507,
+      "num_tokens": 35017.0,
       "step": 5
     },
     {
+      "entropy": 0.3096502358093858,
       "epoch": 0.07350689127105667,
+      "grad_norm": 0.66015625,
       "learning_rate": 0.00019390243902439025,
+      "loss": 0.07875043898820877,
+      "mean_token_accuracy": 0.969221331179142,
+      "num_tokens": 41478.0,
       "step": 6
     },
     {
+      "entropy": 0.3156957607716322,
       "epoch": 0.08575803981623277,
+      "grad_norm": 2.0,
       "learning_rate": 0.0001926829268292683,
+      "loss": 0.07807251811027527,
+      "mean_token_accuracy": 0.9681689888238907,
+      "num_tokens": 48204.0,
       "step": 7
     },
     {
+      "entropy": 0.2759731076657772,
       "epoch": 0.09800918836140889,
+      "grad_norm": 1.1328125,
       "learning_rate": 0.00019146341463414633,
+      "loss": 0.07681904733181,
+      "mean_token_accuracy": 0.9719767943024635,
+      "num_tokens": 54668.0,
       "step": 8
     },
     {
+      "entropy": 0.24453612882643938,
       "epoch": 0.11026033690658499,
+      "grad_norm": 0.875,
       "learning_rate": 0.0001902439024390244,
+      "loss": 0.07310224324464798,
+      "mean_token_accuracy": 0.96934475004673,
+      "num_tokens": 61929.0,
       "step": 9
     },
     {
+      "entropy": 0.25852775294333696,
       "epoch": 0.1225114854517611,
+      "grad_norm": 1.4921875,
       "learning_rate": 0.00018902439024390244,
+      "loss": 0.07384984195232391,
+      "mean_token_accuracy": 0.9701811708509922,
+      "num_tokens": 69036.0,
       "step": 10
     },
     {
+      "entropy": 0.27396084927022457,
       "epoch": 0.13476263399693722,
+      "grad_norm": 0.94140625,
       "learning_rate": 0.0001878048780487805,
+      "loss": 0.10277765244245529,
+      "mean_token_accuracy": 0.9634475558996201,
+      "num_tokens": 76394.0,
       "step": 11
     },
     {
+      "entropy": 0.3001147015020251,
       "epoch": 0.14701378254211334,
+      "grad_norm": 0.84765625,
       "learning_rate": 0.00018658536585365856,
+      "loss": 0.08927591890096664,
+      "mean_token_accuracy": 0.9625685028731823,
+      "num_tokens": 84073.0,
       "step": 12
     },
     {
+      "entropy": 0.29679975286126137,
       "epoch": 0.15926493108728942,
+      "grad_norm": 0.8359375,
       "learning_rate": 0.0001853658536585366,
+      "loss": 0.10607243329286575,
+      "mean_token_accuracy": 0.9608454070985317,
+      "num_tokens": 91135.0,
       "step": 13
     },
     {
+      "entropy": 0.28288435423746705,
       "epoch": 0.17151607963246554,
+      "grad_norm": 0.69921875,
       "learning_rate": 0.00018414634146341464,
+      "loss": 0.07875586301088333,
+      "mean_token_accuracy": 0.9699672348797321,
+      "num_tokens": 97740.0,
       "step": 14
     },
     {
+      "entropy": 0.2927901232615113,
       "epoch": 0.18376722817764166,
+      "grad_norm": 0.8515625,
       "learning_rate": 0.0001829268292682927,
+      "loss": 0.08531365543603897,
+      "mean_token_accuracy": 0.9704407565295696,
+      "num_tokens": 104242.0,
       "step": 15
     },
     {
+      "entropy": 0.2802786426618695,
       "epoch": 0.19601837672281777,
+      "grad_norm": 2.609375,
       "learning_rate": 0.00018170731707317075,
+      "loss": 0.10073477029800415,
+      "mean_token_accuracy": 0.9676352478563786,
+      "num_tokens": 112245.0,
       "step": 16
     },
     {
+      "entropy": 0.30663597770035267,
       "epoch": 0.2082695252679939,
+      "grad_norm": 2.3125,
       "learning_rate": 0.0001804878048780488,
+      "loss": 0.11375448107719421,
+      "mean_token_accuracy": 0.9604234844446182,
+      "num_tokens": 119086.0,
       "step": 17
     },
     {
+      "entropy": 0.31370354909449816,
       "epoch": 0.22052067381316998,
+      "grad_norm": 2.3125,
       "learning_rate": 0.00017926829268292684,
+      "loss": 0.10826913267374039,
+      "mean_token_accuracy": 0.9599097929894924,
+      "num_tokens": 126539.0,
       "step": 18
     },
     {
+      "entropy": 0.3203959669917822,
       "epoch": 0.2327718223583461,
+      "grad_norm": 1.3203125,
       "learning_rate": 0.00017804878048780488,
+      "loss": 0.075275719165802,
+      "mean_token_accuracy": 0.9775180667638779,
+      "num_tokens": 133104.0,
       "step": 19
     },
     {
+      "entropy": 0.32591533567756414,
       "epoch": 0.2450229709035222,
+      "grad_norm": 0.921875,
       "learning_rate": 0.00017682926829268295,
+      "loss": 0.09778374433517456,
+      "mean_token_accuracy": 0.9647064991295338,
+      "num_tokens": 139853.0,
       "step": 20
     },
     {
+      "entropy": 0.3228916050866246,
       "epoch": 0.2572741194486983,
+      "grad_norm": 1.9453125,
       "learning_rate": 0.000175609756097561,
+      "loss": 0.11495943367481232,
+      "mean_token_accuracy": 0.9573761746287346,
+      "num_tokens": 146482.0,
       "step": 21
     },
     {
+      "entropy": 0.3363859634846449,
       "epoch": 0.26952526799387444,
+      "grad_norm": 1.5,
       "learning_rate": 0.00017439024390243903,
+      "loss": 0.10473912209272385,
+      "mean_token_accuracy": 0.9618786759674549,
+      "num_tokens": 153819.0,
       "step": 22
     },
     {
+      "entropy": 0.3069695383310318,
       "epoch": 0.28177641653905056,
+      "grad_norm": 1.3203125,
       "learning_rate": 0.00017317073170731708,
+      "loss": 0.09256276488304138,
+      "mean_token_accuracy": 0.9625396281480789,
+      "num_tokens": 160972.0,
       "step": 23
     },
     {
+      "entropy": 0.3574997428804636,
       "epoch": 0.29402756508422667,
+      "grad_norm": 0.62890625,
       "learning_rate": 0.00017195121951219512,
+      "loss": 0.09489140659570694,
+      "mean_token_accuracy": 0.9578843042254448,
+      "num_tokens": 167730.0,
       "step": 24
     },
     {
+      "entropy": 0.3444826593622565,
       "epoch": 0.30627871362940273,
+      "grad_norm": 0.56640625,
       "learning_rate": 0.0001707317073170732,
+      "loss": 0.09492132067680359,
+      "mean_token_accuracy": 0.9603794105350971,
+      "num_tokens": 174078.0,
       "step": 25
     },
     {
+      "entropy": 0.328093777410686,
       "epoch": 0.31852986217457885,
+      "grad_norm": 0.97265625,
       "learning_rate": 0.00016951219512195123,
+      "loss": 0.08727280050516129,
+      "mean_token_accuracy": 0.9661480598151684,
+      "num_tokens": 180867.0,
       "step": 26
     },
     {
+      "entropy": 0.3213672311976552,
       "epoch": 0.33078101071975496,
+      "grad_norm": 1.203125,
       "learning_rate": 0.00016829268292682927,
+      "loss": 0.07705243676900864,
+      "mean_token_accuracy": 0.9675347730517387,
+      "num_tokens": 187459.0,
       "step": 27
     },
     {
+      "entropy": 0.3209801884368062,
       "epoch": 0.3430321592649311,
+      "grad_norm": 0.49609375,
       "learning_rate": 0.00016707317073170731,
+      "loss": 0.08744930475950241,
+      "mean_token_accuracy": 0.9658873043954372,
+      "num_tokens": 194265.0,
       "step": 28
     },
     {
+      "entropy": 0.2975130006670952,
       "epoch": 0.3552833078101072,
+      "grad_norm": 0.578125,
       "learning_rate": 0.00016585365853658536,
+      "loss": 0.08422811329364777,
+      "mean_token_accuracy": 0.9715595282614231,
+      "num_tokens": 201332.0,
       "step": 29
     },
     {
+      "entropy": 0.29833013843744993,
       "epoch": 0.3675344563552833,
+      "grad_norm": 0.82421875,
       "learning_rate": 0.00016463414634146343,
+      "loss": 0.08079958707094193,
+      "mean_token_accuracy": 0.9676232784986496,
+      "num_tokens": 208902.0,
       "step": 30
     },
     {
+      "entropy": 0.31810148898512125,
       "epoch": 0.37978560490045943,
+      "grad_norm": 0.6796875,
       "learning_rate": 0.00016341463414634147,
+      "loss": 0.09296617656946182,
+      "mean_token_accuracy": 0.9628731682896614,
+      "num_tokens": 214635.0,
       "step": 31
     },
     {
+      "entropy": 0.2774961022660136,
       "epoch": 0.39203675344563554,
+      "grad_norm": 1.2109375,
       "learning_rate": 0.00016219512195121954,
+      "loss": 0.08057809621095657,
+      "mean_token_accuracy": 0.9683544635772705,
+      "num_tokens": 222703.0,
       "step": 32
     },
     {
+      "entropy": 0.2500351797789335,
       "epoch": 0.40428790199081166,
+      "grad_norm": 0.6953125,
       "learning_rate": 0.00016097560975609758,
+      "loss": 0.07790188491344452,
+      "mean_token_accuracy": 0.9730625562369823,
+      "num_tokens": 230136.0,
       "step": 33
     },
     {
+      "entropy": 0.27261121198534966,
       "epoch": 0.4165390505359878,
+      "grad_norm": 1.21875,
       "learning_rate": 0.00015975609756097562,
+      "loss": 0.08459997177124023,
+      "mean_token_accuracy": 0.9683701656758785,
+      "num_tokens": 236711.0,
       "step": 34
     },
     {
+      "entropy": 0.25461648125201464,
       "epoch": 0.42879019908116384,
+      "grad_norm": 1.5078125,
       "learning_rate": 0.00015853658536585366,
+      "loss": 0.09788602590560913,
+      "mean_token_accuracy": 0.9601947516202927,
+      "num_tokens": 243492.0,
       "step": 35
     },
     {
+      "entropy": 0.250462488271296,
       "epoch": 0.44104134762633995,
+      "grad_norm": 0.62109375,
       "learning_rate": 0.00015731707317073173,
+      "loss": 0.09664106369018555,
+      "mean_token_accuracy": 0.9635641165077686,
+      "num_tokens": 250330.0,
       "step": 36
     },
     {
+      "entropy": 0.26719998102635145,
       "epoch": 0.45329249617151607,
+      "grad_norm": 0.609375,
       "learning_rate": 0.00015609756097560978,
+      "loss": 0.08978135138750076,
+      "mean_token_accuracy": 0.9730992764234543,
+      "num_tokens": 257503.0,
       "step": 37
     },
     {
+      "entropy": 0.25437645614147186,
       "epoch": 0.4655436447166922,
+      "grad_norm": 1.0859375,
       "learning_rate": 0.00015487804878048782,
+      "loss": 0.08938639611005783,
+      "mean_token_accuracy": 0.9675878100097179,
+      "num_tokens": 264436.0,
       "step": 38
     },
     {
+      "entropy": 0.2722023595124483,
       "epoch": 0.4777947932618683,
+      "grad_norm": 1.375,
       "learning_rate": 0.00015365853658536586,
+      "loss": 0.07785381376743317,
+      "mean_token_accuracy": 0.9736072942614555,
+      "num_tokens": 270483.0,
       "step": 39
     },
     {
+      "entropy": 0.3116175327450037,
       "epoch": 0.4900459418070444,
+      "grad_norm": 0.65625,
       "learning_rate": 0.0001524390243902439,
+      "loss": 0.09019558876752853,
+      "mean_token_accuracy": 0.9605641178786755,
+      "num_tokens": 276329.0,
       "step": 40
     },
     {
+      "entropy": 0.28687036503106356,
       "epoch": 0.5022970903522205,
+      "grad_norm": 0.62890625,
       "learning_rate": 0.00015121951219512197,
+      "loss": 0.0810370221734047,
+      "mean_token_accuracy": 0.9663555175065994,
+      "num_tokens": 281636.0,
       "step": 41
     },
     {
+      "entropy": 0.2999298516660929,
       "epoch": 0.5145482388973966,
+      "grad_norm": 1.1484375,
       "learning_rate": 0.00015000000000000001,
+      "loss": 0.06981078535318375,
+      "mean_token_accuracy": 0.9718391671776772,
+      "num_tokens": 287849.0,
       "step": 42
     },
     {
+      "entropy": 0.3097079414874315,
       "epoch": 0.5267993874425727,
+      "grad_norm": 1.5546875,
       "learning_rate": 0.00014878048780487806,
+      "loss": 0.09350281953811646,
+      "mean_token_accuracy": 0.9683773033320904,
+      "num_tokens": 294425.0,
       "step": 43
     },
     {
+      "entropy": 0.2796417009085417,
       "epoch": 0.5390505359877489,
+      "grad_norm": 1.25,
       "learning_rate": 0.0001475609756097561,
+      "loss": 0.09558023512363434,
+      "mean_token_accuracy": 0.9602576456964016,
+      "num_tokens": 301451.0,
       "step": 44
     },
     {
+      "entropy": 0.265599487349391,
       "epoch": 0.5513016845329249,
+      "grad_norm": 0.59375,
       "learning_rate": 0.00014634146341463414,
+      "loss": 0.07772304862737656,
+      "mean_token_accuracy": 0.9693298228085041,
+      "num_tokens": 308208.0,
       "step": 45
     },
     {
+      "entropy": 0.29693579114973545,
       "epoch": 0.5635528330781011,
+      "grad_norm": 1.2109375,
       "learning_rate": 0.0001451219512195122,
+      "loss": 0.09863201528787613,
+      "mean_token_accuracy": 0.963471919298172,
+      "num_tokens": 314427.0,
       "step": 46
     },
     {
+      "entropy": 0.2665130514651537,
       "epoch": 0.5758039816232772,
+      "grad_norm": 0.80078125,
       "learning_rate": 0.00014390243902439025,
+      "loss": 0.08794506639242172,
+      "mean_token_accuracy": 0.9714972339570522,
+      "num_tokens": 321146.0,
       "step": 47
     },
     {
+      "entropy": 0.2665897011756897,
       "epoch": 0.5880551301684533,
+      "grad_norm": 0.765625,
       "learning_rate": 0.0001426829268292683,
+      "loss": 0.07602453231811523,
+      "mean_token_accuracy": 0.9719848223030567,
+      "num_tokens": 326952.0,
       "step": 48
     },
     {
+      "entropy": 0.2814077762886882,
       "epoch": 0.6003062787136294,
+      "grad_norm": 0.74609375,
       "learning_rate": 0.00014146341463414634,
+      "loss": 0.08512163907289505,
+      "mean_token_accuracy": 0.9680779539048672,
+      "num_tokens": 333716.0,
       "step": 49
     },
     {
+      "entropy": 0.311913987621665,
       "epoch": 0.6125574272588055,
+      "grad_norm": 0.52734375,
       "learning_rate": 0.00014024390243902438,
+      "loss": 0.0735088661313057,
+      "mean_token_accuracy": 0.9693484716117382,
+      "num_tokens": 339075.0,
       "step": 50
     },
     {
       "epoch": 0.6125574272588055,
+      "eval_entropy": 0.2772115924652072,
+      "eval_loss": 0.08680303394794464,
+      "eval_mean_token_accuracy": 0.9665399781171826,
+      "eval_num_tokens": 339075.0,
+      "eval_runtime": 64.122,
+      "eval_samples_per_second": 1.076,
+      "eval_steps_per_second": 1.076,
       "step": 50
     },
     {
+      "entropy": 0.2713254941627383,
       "epoch": 0.6248085758039816,
+      "grad_norm": 0.76953125,
       "learning_rate": 0.00013902439024390245,
+      "loss": 0.07364857941865921,
+      "mean_token_accuracy": 0.9685694649815559,
+      "num_tokens": 346211.0,
       "step": 51
     },
     {
+      "entropy": 0.27622572146356106,
       "epoch": 0.6370597243491577,
+      "grad_norm": 1.953125,
       "learning_rate": 0.0001378048780487805,
+      "loss": 0.08796638250350952,
+      "mean_token_accuracy": 0.9678671807050705,
+      "num_tokens": 353743.0,
       "step": 52
     },
     {
+      "entropy": 0.3153565675020218,
       "epoch": 0.6493108728943339,
+      "grad_norm": 1.8125,
       "learning_rate": 0.00013658536585365856,
+      "loss": 0.09189874678850174,
+      "mean_token_accuracy": 0.9696005284786224,
+      "num_tokens": 360765.0,
       "step": 53
     },
     {
+      "entropy": 0.2793878586962819,
       "epoch": 0.6615620214395099,
+      "grad_norm": 0.94140625,
       "learning_rate": 0.0001353658536585366,
+      "loss": 0.0844489261507988,
+      "mean_token_accuracy": 0.9678577370941639,
+      "num_tokens": 366800.0,
       "step": 54
     },
     {
+      "entropy": 0.31044898089021444,
       "epoch": 0.6738131699846861,
+      "grad_norm": 0.9375,
       "learning_rate": 0.00013414634146341464,
+      "loss": 0.07886157184839249,
+      "mean_token_accuracy": 0.9673981033265591,
+      "num_tokens": 373439.0,
       "step": 55
     },
     {
+      "entropy": 0.27184910606592894,
       "epoch": 0.6860643185298622,
+      "grad_norm": 1.3359375,
       "learning_rate": 0.0001329268292682927,
+      "loss": 0.0787871852517128,
+      "mean_token_accuracy": 0.9677317887544632,
+      "num_tokens": 380492.0,
       "step": 56
     },
     {
+      "entropy": 0.31349051371216774,
       "epoch": 0.6983154670750383,
+      "grad_norm": 1.59375,
       "learning_rate": 0.00013170731707317076,
+      "loss": 0.08862332254648209,
+      "mean_token_accuracy": 0.9652546346187592,
+      "num_tokens": 386711.0,
       "step": 57
     },
     {
+      "entropy": 0.2799685625359416,
       "epoch": 0.7105666156202144,
+      "grad_norm": 1.5078125,
       "learning_rate": 0.0001304878048780488,
+      "loss": 0.10028493404388428,
+      "mean_token_accuracy": 0.9606899172067642,
+      "num_tokens": 394124.0,
       "step": 58
     },
     {
+      "entropy": 0.2792940763756633,
       "epoch": 0.7228177641653905,
+      "grad_norm": 1.5859375,
       "learning_rate": 0.00012926829268292684,
+      "loss": 0.07462260127067566,
+      "mean_token_accuracy": 0.9740471467375755,
+      "num_tokens": 401499.0,
       "step": 59
     },
     {
+      "entropy": 0.29724057391285896,
       "epoch": 0.7350689127105666,
+      "grad_norm": 0.95703125,
       "learning_rate": 0.00012804878048780488,
+      "loss": 0.06339482963085175,
+      "mean_token_accuracy": 0.9754546955227852,
+      "num_tokens": 407443.0,
       "step": 60
     },
     {
+      "entropy": 0.2698040744289756,
       "epoch": 0.7473200612557427,
+      "grad_norm": 0.60546875,
       "learning_rate": 0.00012682926829268293,
+      "loss": 0.10221480578184128,
+      "mean_token_accuracy": 0.9670109152793884,
+      "num_tokens": 415471.0,
       "step": 61
     },
     {
+      "entropy": 0.2995635373517871,
       "epoch": 0.7595712098009189,
+      "grad_norm": 1.75,
       "learning_rate": 0.000125609756097561,
+      "loss": 0.08588436245918274,
+      "mean_token_accuracy": 0.9686382673680782,
+      "num_tokens": 422504.0,
       "step": 62
     },
     {
+      "entropy": 0.2458120621740818,
       "epoch": 0.7718223583460949,
+      "grad_norm": 2.1875,
       "learning_rate": 0.00012439024390243904,
+      "loss": 0.08629653602838516,
+      "mean_token_accuracy": 0.966422975063324,
+      "num_tokens": 430143.0,
       "step": 63
     },
     {
+      "entropy": 0.2900782600045204,
       "epoch": 0.7840735068912711,
+      "grad_norm": 0.9296875,
       "learning_rate": 0.00012317073170731708,
+      "loss": 0.08716308325529099,
+      "mean_token_accuracy": 0.965714868158102,
+      "num_tokens": 435664.0,
       "step": 64
     },
     {
+      "entropy": 0.29250922333449125,
       "epoch": 0.7963246554364471,
+      "grad_norm": 0.59375,
       "learning_rate": 0.00012195121951219512,
+      "loss": 0.08158774673938751,
+      "mean_token_accuracy": 0.9694335348904133,
+      "num_tokens": 442457.0,
       "step": 65
     },
     {
+      "entropy": 0.3083174014464021,
       "epoch": 0.8085758039816233,
+      "grad_norm": 0.82421875,
       "learning_rate": 0.00012073170731707318,
+      "loss": 0.0988016203045845,
+      "mean_token_accuracy": 0.9648039489984512,
+      "num_tokens": 449983.0,
       "step": 66
     },
     {
+      "entropy": 0.25693165976554155,
       "epoch": 0.8208269525267994,
+      "grad_norm": 0.74609375,
       "learning_rate": 0.00011951219512195122,
+      "loss": 0.07928164303302765,
+      "mean_token_accuracy": 0.9698546566069126,
+      "num_tokens": 457640.0,
       "step": 67
     },
     {
+      "entropy": 0.2752681290730834,
       "epoch": 0.8330781010719756,
+      "grad_norm": 0.97265625,
       "learning_rate": 0.00011829268292682926,
+      "loss": 0.07464170455932617,
+      "mean_token_accuracy": 0.9697864800691605,
+      "num_tokens": 464050.0,
       "step": 68
     },
     {
+      "entropy": 0.27110164798796177,
       "epoch": 0.8453292496171516,
+      "grad_norm": 0.71875,
       "learning_rate": 0.00011707317073170732,
+      "loss": 0.0718315988779068,
+      "mean_token_accuracy": 0.9709942191839218,
+      "num_tokens": 469546.0,
       "step": 69
     },
     {
+      "entropy": 0.3264527218416333,
       "epoch": 0.8575803981623277,
+      "grad_norm": 0.62109375,
       "learning_rate": 0.00011585365853658536,
+      "loss": 0.0866687223315239,
+      "mean_token_accuracy": 0.9700192771852016,
+      "num_tokens": 475365.0,
       "step": 70
     },
     {
+      "entropy": 0.3122966531664133,
       "epoch": 0.8698315467075038,
+      "grad_norm": 0.67578125,
       "learning_rate": 0.00011463414634146342,
+      "loss": 0.06088244915008545,
+      "mean_token_accuracy": 0.9754119366407394,
+      "num_tokens": 481830.0,
       "step": 71
     },
     {
+      "entropy": 0.3018254106864333,
       "epoch": 0.8820826952526799,
+      "grad_norm": 0.56640625,
       "learning_rate": 0.00011341463414634146,
+      "loss": 0.08657931536436081,
+      "mean_token_accuracy": 0.9676030017435551,
+      "num_tokens": 487767.0,
       "step": 72
     },
     {
+      "entropy": 0.3276115320622921,
       "epoch": 0.8943338437978561,
+      "grad_norm": 0.5078125,
       "learning_rate": 0.00011219512195121953,
+      "loss": 0.08024603128433228,
+      "mean_token_accuracy": 0.9690204374492168,
+      "num_tokens": 494428.0,
       "step": 73
     },
     {
+      "entropy": 0.32397411670535803,
       "epoch": 0.9065849923430321,
+      "grad_norm": 1.1015625,
       "learning_rate": 0.00011097560975609757,
+      "loss": 0.07867392897605896,
+      "mean_token_accuracy": 0.9685576297342777,
+      "num_tokens": 500828.0,
       "step": 74
     },
     {
+      "entropy": 0.319146528840065,
       "epoch": 0.9188361408882083,
+      "grad_norm": 0.97265625,
       "learning_rate": 0.00010975609756097563,
+      "loss": 0.08432602882385254,
+      "mean_token_accuracy": 0.9689616709947586,
+      "num_tokens": 507523.0,
       "step": 75
     },
     {
+      "entropy": 0.3080446803942323,
       "epoch": 0.9310872894333844,
+      "grad_norm": 1.265625,
       "learning_rate": 0.00010853658536585367,
+      "loss": 0.0796058252453804,
+      "mean_token_accuracy": 0.9683922417461872,
+      "num_tokens": 513607.0,
       "step": 76
     },
     {
+      "entropy": 0.2667541950941086,
       "epoch": 0.9433384379785605,
+      "grad_norm": 0.59375,
       "learning_rate": 0.00010731707317073172,
+      "loss": 0.06495777517557144,
+      "mean_token_accuracy": 0.977863471955061,
+      "num_tokens": 521376.0,
       "step": 77
     },
     {
+      "entropy": 0.27901614736765623,
       "epoch": 0.9555895865237366,
+      "grad_norm": 1.0859375,
       "learning_rate": 0.00010609756097560977,
+      "loss": 0.08389777690172195,
+      "mean_token_accuracy": 0.967527512460947,
+      "num_tokens": 528624.0,
       "step": 78
     },
     {
+      "entropy": 0.2754220822826028,
       "epoch": 0.9678407350689127,
+      "grad_norm": 1.3515625,
       "learning_rate": 0.00010487804878048781,
+      "loss": 0.0762331560254097,
+      "mean_token_accuracy": 0.9713698588311672,
+      "num_tokens": 534817.0,
       "step": 79
     },
     {
+      "entropy": 0.2981132147833705,
       "epoch": 0.9800918836140888,
+      "grad_norm": 1.4375,
       "learning_rate": 0.00010365853658536586,
+      "loss": 0.07953717559576035,
+      "mean_token_accuracy": 0.967929158359766,
+      "num_tokens": 541716.0,
       "step": 80
     },
     {
+      "entropy": 0.30576920323073864,
       "epoch": 0.9923430321592649,
+      "grad_norm": 1.0234375,
       "learning_rate": 0.0001024390243902439,
+      "loss": 0.07800528407096863,
+      "mean_token_accuracy": 0.971219640225172,
+      "num_tokens": 548000.0,
       "step": 81
     },
     {
+      "entropy": 0.24986045509576799,
       "epoch": 1.0,
+      "grad_norm": 0.58203125,
       "learning_rate": 0.00010121951219512196,
+      "loss": 0.05879032611846924,
+      "mean_token_accuracy": 0.9748349964618683,
+      "num_tokens": 552608.0,
       "step": 82
     },
     {
+      "entropy": 0.2518839007243514,
       "epoch": 1.0122511485451762,
+      "grad_norm": 0.49609375,
       "learning_rate": 0.0001,
+      "loss": 0.047237373888492584,
+      "mean_token_accuracy": 0.9874232485890388,
+      "num_tokens": 559523.0,
       "step": 83
     },
     {
+      "entropy": 0.2561075631529093,
       "epoch": 1.0245022970903521,
+      "grad_norm": 0.65234375,
       "learning_rate": 9.878048780487805e-05,
+      "loss": 0.04376941919326782,
+      "mean_token_accuracy": 0.9896520264446735,
+      "num_tokens": 566232.0,
       "step": 84
     },
     {
+      "entropy": 0.2935391655191779,
       "epoch": 1.0367534456355283,
+      "grad_norm": 0.486328125,
       "learning_rate": 9.75609756097561e-05,
+      "loss": 0.052017997950315475,
+      "mean_token_accuracy": 0.9823879115283489,
+      "num_tokens": 573965.0,
       "step": 85
     },
     {
+      "entropy": 0.21971730748191476,
       "epoch": 1.0490045941807045,
+      "grad_norm": 0.330078125,
       "learning_rate": 9.634146341463415e-05,
+      "loss": 0.04022914543747902,
+      "mean_token_accuracy": 0.9874378368258476,
+      "num_tokens": 580768.0,
       "step": 86
     },
     {
+      "entropy": 0.23719595093280077,
       "epoch": 1.0612557427258806,
+      "grad_norm": 0.68359375,
       "learning_rate": 9.51219512195122e-05,
+      "loss": 0.04782414808869362,
+      "mean_token_accuracy": 0.9846052750945091,
+      "num_tokens": 588097.0,
       "step": 87
     },
     {
+      "entropy": 0.25634779036045074,
       "epoch": 1.0735068912710566,
+      "grad_norm": 0.291015625,
       "learning_rate": 9.390243902439024e-05,
+      "loss": 0.03357430174946785,
+      "mean_token_accuracy": 0.9895204566419125,
+      "num_tokens": 594215.0,
       "step": 88
     },
     {
+      "entropy": 0.26507470663636923,
       "epoch": 1.0857580398162328,
+      "grad_norm": 0.89453125,
       "learning_rate": 9.26829268292683e-05,
+      "loss": 0.0427095852792263,
+      "mean_token_accuracy": 0.984734483063221,
+      "num_tokens": 600018.0,
       "step": 89
     },
     {
+      "entropy": 0.25531507655978203,
       "epoch": 1.098009188361409,
+      "grad_norm": 0.357421875,
       "learning_rate": 9.146341463414635e-05,
+      "loss": 0.04051242396235466,
+      "mean_token_accuracy": 0.9878104776144028,
+      "num_tokens": 606254.0,
       "step": 90
     },
     {
+      "entropy": 0.26176126673817635,
       "epoch": 1.110260336906585,
+      "grad_norm": 0.55078125,
       "learning_rate": 9.02439024390244e-05,
+      "loss": 0.03882109373807907,
+      "mean_token_accuracy": 0.9838540144264698,
+      "num_tokens": 612316.0,
       "step": 91
     },
     {
+      "entropy": 0.2165100760757923,
       "epoch": 1.122511485451761,
+      "grad_norm": 0.3671875,
       "learning_rate": 8.902439024390244e-05,
+      "loss": 0.03010629303753376,
+      "mean_token_accuracy": 0.9918084405362606,
+      "num_tokens": 619629.0,
       "step": 92
     },
     {
+      "entropy": 0.24866555724292994,
       "epoch": 1.1347626339969372,
+      "grad_norm": 0.7578125,
       "learning_rate": 8.78048780487805e-05,
+      "loss": 0.03892926499247551,
+      "mean_token_accuracy": 0.984953761100769,
+      "num_tokens": 625947.0,
       "step": 93
     },
     {
+      "entropy": 0.21699398616328835,
       "epoch": 1.1470137825421134,
+      "grad_norm": 0.53125,
       "learning_rate": 8.658536585365854e-05,
+      "loss": 0.040178049355745316,
+      "mean_token_accuracy": 0.986099898815155,
+      "num_tokens": 632906.0,
       "step": 94
     },
     {
+      "entropy": 0.2104594809934497,
       "epoch": 1.1592649310872893,
+      "grad_norm": 1.4375,
       "learning_rate": 8.53658536585366e-05,
+      "loss": 0.05103502795100212,
+      "mean_token_accuracy": 0.9873828142881393,
+      "num_tokens": 639769.0,
       "step": 95
     },
     {
+      "entropy": 0.21941981185227633,
       "epoch": 1.1715160796324655,
+      "grad_norm": 0.984375,
       "learning_rate": 8.414634146341464e-05,
+      "loss": 0.03593335300683975,
+      "mean_token_accuracy": 0.9901031330227852,
+      "num_tokens": 646347.0,
       "step": 96
     },
     {
+      "entropy": 0.23086606059223413,
       "epoch": 1.1837672281776417,
+      "grad_norm": 0.65625,
       "learning_rate": 8.292682926829268e-05,
+      "loss": 0.034123439341783524,
+      "mean_token_accuracy": 0.9874096475541592,
+      "num_tokens": 652247.0,
       "step": 97
     },
     {
+      "entropy": 0.21858725044876337,
       "epoch": 1.1960183767228179,
+      "grad_norm": 0.3515625,
       "learning_rate": 8.170731707317073e-05,
+      "loss": 0.03983831778168678,
+      "mean_token_accuracy": 0.9883633032441139,
+      "num_tokens": 659620.0,
       "step": 98
     },
     {
+      "entropy": 0.2186456574127078,
       "epoch": 1.2082695252679938,
+      "grad_norm": 0.50390625,
       "learning_rate": 8.048780487804879e-05,
+      "loss": 0.03659169375896454,
+      "mean_token_accuracy": 0.9874354675412178,
+      "num_tokens": 667017.0,
       "step": 99
     },
     {
+      "entropy": 0.21289387485012412,
       "epoch": 1.22052067381317,
+      "grad_norm": 1.2890625,
       "learning_rate": 7.926829268292683e-05,
+      "loss": 0.09039004892110825,
+      "mean_token_accuracy": 0.9841732494533062,
+      "num_tokens": 673866.0,
       "step": 100
     },
     {
       "epoch": 1.22052067381317,
+      "eval_entropy": 0.22615607968275098,
+      "eval_loss": 0.0748714804649353,
+      "eval_mean_token_accuracy": 0.9701917439267256,
+      "eval_num_tokens": 673866.0,
+      "eval_runtime": 64.1728,
+      "eval_samples_per_second": 1.075,
+      "eval_steps_per_second": 1.075,
       "step": 100
     },
     {
+      "entropy": 0.20847708079963923,
       "epoch": 1.2327718223583461,
+      "grad_norm": 0.9453125,
       "learning_rate": 7.804878048780489e-05,
+      "loss": 0.032662514597177505,
+      "mean_token_accuracy": 0.9919092357158661,
+      "num_tokens": 681308.0,
       "step": 101
     },
     {
+      "entropy": 0.23787071648985147,
       "epoch": 1.245022970903522,
+      "grad_norm": 0.859375,
       "learning_rate": 7.682926829268293e-05,
+      "loss": 0.044949762523174286,
+      "mean_token_accuracy": 0.987742405384779,
+      "num_tokens": 687496.0,
       "step": 102
     },
     {
+      "entropy": 0.21969830617308617,
       "epoch": 1.2572741194486983,
+      "grad_norm": 0.8671875,
       "learning_rate": 7.560975609756099e-05,
+      "loss": 0.036048222333192825,
+      "mean_token_accuracy": 0.98578891903162,
+      "num_tokens": 694818.0,
       "step": 103
     },
     {
+      "entropy": 0.228535583242774,
       "epoch": 1.2695252679938744,
+      "grad_norm": 1.7109375,
       "learning_rate": 7.439024390243903e-05,
+      "loss": 0.050321951508522034,
+      "mean_token_accuracy": 0.9846261814236641,
+      "num_tokens": 701351.0,
       "step": 104
     },
     {
+      "entropy": 0.21918219700455666,
       "epoch": 1.2817764165390506,
+      "grad_norm": 0.57421875,
       "learning_rate": 7.317073170731707e-05,
+      "loss": 0.03220512717962265,
+      "mean_token_accuracy": 0.9897662363946438,
+      "num_tokens": 707212.0,
       "step": 105
     },
     {
+      "entropy": 0.21648676693439484,
       "epoch": 1.2940275650842268,
+      "grad_norm": 0.921875,
       "learning_rate": 7.195121951219513e-05,
+      "loss": 0.031827542930841446,
+      "mean_token_accuracy": 0.9904872179031372,
+      "num_tokens": 714524.0,
       "step": 106
     },
     {
+      "entropy": 0.20004846714437008,
       "epoch": 1.3062787136294027,
+      "grad_norm": 1.0234375,
       "learning_rate": 7.073170731707317e-05,
+      "loss": 0.03981270268559456,
+      "mean_token_accuracy": 0.9861926138401031,
+      "num_tokens": 722033.0,
       "step": 107
     },
     {
+      "entropy": 0.21497153211385012,
       "epoch": 1.318529862174579,
+      "grad_norm": 0.53515625,
       "learning_rate": 6.951219512195122e-05,
+      "loss": 0.03612194582819939,
+      "mean_token_accuracy": 0.9883794784545898,
+      "num_tokens": 728835.0,
       "step": 108
     },
     {
+      "entropy": 0.22441515233367682,
       "epoch": 1.3307810107197549,
+      "grad_norm": 0.66796875,
       "learning_rate": 6.829268292682928e-05,
+      "loss": 0.037204962223768234,
+      "mean_token_accuracy": 0.9865190424025059,
+      "num_tokens": 735463.0,
       "step": 109
     },
     {
+      "entropy": 0.21172351390123367,
       "epoch": 1.343032159264931,
+      "grad_norm": 0.314453125,
       "learning_rate": 6.707317073170732e-05,
+      "loss": 0.03260833024978638,
+      "mean_token_accuracy": 0.9877017810940742,
+      "num_tokens": 742536.0,
       "step": 110
     },
     {
+      "entropy": 0.19597876677289605,
       "epoch": 1.3552833078101072,
+      "grad_norm": 0.419921875,
       "learning_rate": 6.585365853658538e-05,
+      "loss": 0.0339697040617466,
+      "mean_token_accuracy": 0.990579642355442,
+      "num_tokens": 749606.0,
       "step": 111
     },
     {
+      "entropy": 0.21933963894844055,
       "epoch": 1.3675344563552834,
+      "grad_norm": 0.53515625,
       "learning_rate": 6.463414634146342e-05,
+      "loss": 0.028515402227640152,
+      "mean_token_accuracy": 0.9883383698761463,
+      "num_tokens": 755287.0,
       "step": 112
     },
     {
+      "entropy": 0.21494697034358978,
       "epoch": 1.3797856049004595,
+      "grad_norm": 0.37890625,
       "learning_rate": 6.341463414634146e-05,
+      "loss": 0.03924579173326492,
+      "mean_token_accuracy": 0.9876385144889355,
+      "num_tokens": 763515.0,
       "step": 113
     },
     {
+      "entropy": 0.22842750838026404,
       "epoch": 1.3920367534456355,
+      "grad_norm": 1.1484375,
       "learning_rate": 6.219512195121952e-05,
+      "loss": 0.0367334708571434,
+      "mean_token_accuracy": 0.9872251562774181,
+      "num_tokens": 769660.0,
       "step": 114
     },
     {
+      "entropy": 0.2147415135987103,
       "epoch": 1.4042879019908117,
+      "grad_norm": 0.921875,
       "learning_rate": 6.097560975609756e-05,
+      "loss": 0.030023006722331047,
+      "mean_token_accuracy": 0.9890519753098488,
+      "num_tokens": 777068.0,
       "step": 115
     },
     {
+      "entropy": 0.2247378919273615,
       "epoch": 1.4165390505359878,
+      "grad_norm": 0.9375,
       "learning_rate": 5.975609756097561e-05,
+      "loss": 0.03915408253669739,
+      "mean_token_accuracy": 0.9883266240358353,
+      "num_tokens": 783422.0,
       "step": 116
     },
     {
+      "entropy": 0.19090860895812511,
       "epoch": 1.4287901990811638,
+      "grad_norm": 0.765625,
       "learning_rate": 5.853658536585366e-05,
+      "loss": 0.037202730774879456,
+      "mean_token_accuracy": 0.9874398410320282,
+      "num_tokens": 790851.0,
       "step": 117
     },
     {
+      "entropy": 0.2285028137266636,
       "epoch": 1.44104134762634,
+      "grad_norm": 1.9140625,
       "learning_rate": 5.731707317073171e-05,
+      "loss": 0.043229859322309494,
+      "mean_token_accuracy": 0.9905107729136944,
+      "num_tokens": 797801.0,
       "step": 118
     },
     {
+      "entropy": 0.2443255502730608,
       "epoch": 1.4532924961715161,
+      "grad_norm": 0.365234375,
       "learning_rate": 5.6097560975609764e-05,
+      "loss": 0.04100143164396286,
+      "mean_token_accuracy": 0.9880562499165535,
+      "num_tokens": 804371.0,
       "step": 119
     },
     {
+      "entropy": 0.19626039918512106,
       "epoch": 1.4655436447166923,
+      "grad_norm": 0.83984375,
       "learning_rate": 5.487804878048781e-05,
+      "loss": 0.038516998291015625,
+      "mean_token_accuracy": 0.988171175122261,
+      "num_tokens": 812335.0,
       "step": 120
     },
     {
+      "entropy": 0.2181866616010666,
       "epoch": 1.4777947932618682,
+      "grad_norm": 0.53515625,
       "learning_rate": 5.365853658536586e-05,
+      "loss": 0.02816646918654442,
+      "mean_token_accuracy": 0.9916124008595943,
+      "num_tokens": 818577.0,
       "step": 121
     },
     {
+      "entropy": 0.20635052677243948,
       "epoch": 1.4900459418070444,
+      "grad_norm": 0.74609375,
       "learning_rate": 5.2439024390243904e-05,
+      "loss": 0.04106622561812401,
+      "mean_token_accuracy": 0.9839451834559441,
+      "num_tokens": 825535.0,
       "step": 122
     },
     {
+      "entropy": 0.21835408825427294,
       "epoch": 1.5022970903522204,
+      "grad_norm": 0.427734375,
       "learning_rate": 5.121951219512195e-05,
+      "loss": 0.026341412216424942,
+      "mean_token_accuracy": 0.9940293915569782,
+      "num_tokens": 831505.0,
       "step": 123
     },
     {
+      "entropy": 0.21729151718318462,
       "epoch": 1.5145482388973965,
+      "grad_norm": 0.455078125,
       "learning_rate": 5e-05,
+      "loss": 0.028432821854948997,
+      "mean_token_accuracy": 0.9925089627504349,
+      "num_tokens": 838385.0,
       "step": 124
     },
     {
+      "entropy": 0.23625962156802416,
       "epoch": 1.5267993874425727,
+      "grad_norm": 0.72265625,
       "learning_rate": 4.878048780487805e-05,
+      "loss": 0.03885198384523392,
+      "mean_token_accuracy": 0.9883155077695847,
+      "num_tokens": 845433.0,
       "step": 125
     },
     {
+      "entropy": 0.21153692342340946,
       "epoch": 1.5390505359877489,
+      "grad_norm": 0.66796875,
       "learning_rate": 4.75609756097561e-05,
+      "loss": 0.03570759296417236,
+      "mean_token_accuracy": 0.9910184219479561,
+      "num_tokens": 852471.0,
       "step": 126
     },
     {
+      "entropy": 0.23752436228096485,
       "epoch": 1.551301684532925,
+      "grad_norm": 0.640625,
       "learning_rate": 4.634146341463415e-05,
+      "loss": 0.028638798743486404,
+      "mean_token_accuracy": 0.9928638078272343,
+      "num_tokens": 858702.0,
       "step": 127
     },
     {
+      "entropy": 0.2128417994827032,
       "epoch": 1.5635528330781012,
+      "grad_norm": 0.8828125,
       "learning_rate": 4.51219512195122e-05,
+      "loss": 0.029636576771736145,
+      "mean_token_accuracy": 0.9910452663898468,
+      "num_tokens": 865325.0,
       "step": 128
     },
     {
+      "entropy": 0.216589767485857,
       "epoch": 1.5758039816232772,
+      "grad_norm": 0.453125,
       "learning_rate": 4.390243902439025e-05,
+      "loss": 0.03238631784915924,
+      "mean_token_accuracy": 0.9904623441398144,
+      "num_tokens": 871341.0,
       "step": 129
     },
     {
+      "entropy": 0.19242106284946203,
       "epoch": 1.5880551301684533,
+      "grad_norm": 0.392578125,
       "learning_rate": 4.26829268292683e-05,
+      "loss": 0.0261989776045084,
+      "mean_token_accuracy": 0.9925210140645504,
+      "num_tokens": 878973.0,
       "step": 130
     },
     {
+      "entropy": 0.22208478767424822,
       "epoch": 1.6003062787136293,
+      "grad_norm": 0.328125,
       "learning_rate": 4.146341463414634e-05,
+      "loss": 0.029643766582012177,
+      "mean_token_accuracy": 0.9926025420427322,
+      "num_tokens": 885517.0,
       "step": 131
     },
     {
+      "entropy": 0.19283092580735683,
       "epoch": 1.6125574272588055,
+      "grad_norm": 0.423828125,
       "learning_rate": 4.0243902439024395e-05,
+      "loss": 0.03948017954826355,
+      "mean_token_accuracy": 0.9875317811965942,
+      "num_tokens": 893273.0,
       "step": 132
     },
     {
+      "entropy": 0.18790056556463242,
       "epoch": 1.6248085758039816,
+      "grad_norm": 0.625,
       "learning_rate": 3.9024390243902444e-05,
+      "loss": 0.025747017934918404,
+      "mean_token_accuracy": 0.9934940375387669,
+      "num_tokens": 900019.0,
       "step": 133
     },
     {
+      "entropy": 0.20814241049811244,
       "epoch": 1.6370597243491578,
+      "grad_norm": 0.376953125,
       "learning_rate": 3.780487804878049e-05,
+      "loss": 0.03998865559697151,
+      "mean_token_accuracy": 0.9876968078315258,
+      "num_tokens": 906633.0,
       "step": 134
     },
     {
+      "entropy": 0.1975369704887271,
       "epoch": 1.649310872894334,
+      "grad_norm": 0.3203125,
       "learning_rate": 3.6585365853658535e-05,
+      "loss": 0.031131668016314507,
+      "mean_token_accuracy": 0.9915927015244961,
+      "num_tokens": 913990.0,
       "step": 135
     },
     {
+      "entropy": 0.23459685500711203,
       "epoch": 1.66156202143951,
+      "grad_norm": 0.76171875,
       "learning_rate": 3.5365853658536584e-05,
+      "loss": 0.03373259678483009,
+      "mean_token_accuracy": 0.9898596629500389,
+      "num_tokens": 919248.0,
       "step": 136
     },
     {
+      "entropy": 0.1909911371767521,
       "epoch": 1.673813169984686,
+      "grad_norm": 0.60546875,
       "learning_rate": 3.414634146341464e-05,
+      "loss": 0.037791188806295395,
+      "mean_token_accuracy": 0.9897548258304596,
+      "num_tokens": 926248.0,
       "step": 137
     },
     {
+      "entropy": 0.2332595670595765,
       "epoch": 1.686064318529862,
+      "grad_norm": 0.89453125,
       "learning_rate": 3.292682926829269e-05,
+      "loss": 0.03799242898821831,
+      "mean_token_accuracy": 0.9867184162139893,
+      "num_tokens": 932490.0,
       "step": 138
     },
     {
+      "entropy": 0.22243124432861805,
       "epoch": 1.6983154670750382,
+      "grad_norm": 0.61328125,
       "learning_rate": 3.170731707317073e-05,
+      "loss": 0.04291514679789543,
+      "mean_token_accuracy": 0.9877815246582031,
+      "num_tokens": 938756.0,
       "step": 139
     },
     {
+      "entropy": 0.20778016652911901,
       "epoch": 1.7105666156202144,
+      "grad_norm": 0.41796875,
       "learning_rate": 3.048780487804878e-05,
+      "loss": 0.023588458076119423,
+      "mean_token_accuracy": 0.9942950084805489,
+      "num_tokens": 945866.0,
       "step": 140
     },
     {
+      "entropy": 0.18776059616357088,
       "epoch": 1.7228177641653906,
+      "grad_norm": 0.41796875,
       "learning_rate": 2.926829268292683e-05,
+      "loss": 0.03229852020740509,
+      "mean_token_accuracy": 0.9909596405923367,
+      "num_tokens": 952865.0,
       "step": 141
     },
     {
+      "entropy": 0.18707702960819006,
       "epoch": 1.7350689127105667,
+      "grad_norm": 0.609375,
       "learning_rate": 2.8048780487804882e-05,
+      "loss": 0.03691868111491203,
+      "mean_token_accuracy": 0.9900590926408768,
+      "num_tokens": 959190.0,
       "step": 142
     },
     {
+      "entropy": 0.1914756903424859,
       "epoch": 1.7473200612557427,
+      "grad_norm": 0.408203125,
       "learning_rate": 2.682926829268293e-05,
+      "loss": 0.03487441688776016,
+      "mean_token_accuracy": 0.9909356310963631,
+      "num_tokens": 966059.0,
       "step": 143
     },
     {
+      "entropy": 0.20852853963151574,
       "epoch": 1.7595712098009189,
+      "grad_norm": 0.380859375,
       "learning_rate": 2.5609756097560977e-05,
+      "loss": 0.03023841790854931,
+      "mean_token_accuracy": 0.9922478385269642,
+      "num_tokens": 973553.0,
       "step": 144
     },
     {
+      "entropy": 0.18278094567358494,
       "epoch": 1.7718223583460948,
+      "grad_norm": 0.65625,
       "learning_rate": 2.4390243902439026e-05,
+      "loss": 0.03335383161902428,
+      "mean_token_accuracy": 0.9902437664568424,
+      "num_tokens": 980748.0,
       "step": 145
     },
     {
+      "entropy": 0.2156418706290424,
       "epoch": 1.784073506891271,
+      "grad_norm": 0.58984375,
       "learning_rate": 2.3170731707317075e-05,
+      "loss": 0.026211977005004883,
+      "mean_token_accuracy": 0.9913386814296246,
+      "num_tokens": 987018.0,
       "step": 146
     },
     {
+      "entropy": 0.2084086169488728,
       "epoch": 1.7963246554364471,
+      "grad_norm": 0.37890625,
       "learning_rate": 2.1951219512195124e-05,
+      "loss": 0.029074503108859062,
+      "mean_token_accuracy": 0.9920879267156124,
+      "num_tokens": 993841.0,
       "step": 147
     },
     {
+      "entropy": 0.2162067350000143,
       "epoch": 1.8085758039816233,
+      "grad_norm": 0.38671875,
       "learning_rate": 2.073170731707317e-05,
+      "loss": 0.027591165155172348,
+      "mean_token_accuracy": 0.9916894063353539,
+      "num_tokens": 1000318.0,
       "step": 148
     },
     {
+      "entropy": 0.22895692195743322,
       "epoch": 1.8208269525267995,
+      "grad_norm": 1.421875,
       "learning_rate": 1.9512195121951222e-05,
+      "loss": 0.034101299941539764,
+      "mean_token_accuracy": 0.9889856353402138,
+      "num_tokens": 1005747.0,
       "step": 149
     },
     {
+      "entropy": 0.21029841899871826,
       "epoch": 1.8330781010719757,
+      "grad_norm": 0.59375,
       "learning_rate": 1.8292682926829268e-05,
+      "loss": 0.04408642649650574,
+      "mean_token_accuracy": 0.988445583730936,
+      "num_tokens": 1013365.0,
       "step": 150
     },
     {
       "epoch": 1.8330781010719757,
+      "eval_entropy": 0.21028992522885834,
+      "eval_loss": 0.06481878459453583,
+      "eval_mean_token_accuracy": 0.9753203677094501,
+      "eval_num_tokens": 1013365.0,
+      "eval_runtime": 64.1224,
+      "eval_samples_per_second": 1.076,
+      "eval_steps_per_second": 1.076,
       "step": 150
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 4.588638959382528e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

checkpoint-164/adapter_config.json CHANGED Viewed

@@ -30,11 +30,11 @@
   "revision": null,
   "target_modules": [
     "o_proj",
-    "q_proj",
-    "gate_proj",
-    "down_proj",
     "k_proj",
     "v_proj",
     "up_proj"
   ],
   "target_parameters": null,

   "revision": null,
   "target_modules": [
     "o_proj",
     "k_proj",
+    "down_proj",
+    "q_proj",
     "v_proj",
+    "gate_proj",
     "up_proj"
   ],
   "target_parameters": null,

checkpoint-164/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:978fce5d23f8e65a5e89fd4fa0a502a5a505733bc5d548832ae8e85ecf1af748
 size 83946192

 version https://git-lfs.github.com/spec/v1
+oid sha256:3d7799ff7ae7f290e67eada9d323c6418a3a9db26bdb2158f039838076d95d1f
 size 83946192

checkpoint-164/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9b61551443a68aa89ddbd1fc5688ce7159ec4929f007d4514b1ed43fd6e0b19
 size 85728997

 version https://git-lfs.github.com/spec/v1
+oid sha256:2d6acb58aa21bd3fa4437c7d5eee173fd6389daa33a68a747aec69733fea274a
 size 85728997

checkpoint-164/trainer_state.json CHANGED Viewed

@@ -10,1676 +10,1676 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "entropy": 0.45975130423903465,
       "epoch": 0.01225114854517611,
-      "grad_norm": 0.00689697265625,
       "learning_rate": 0.0002,
-      "loss": 0.0005938471877016127,
-      "mean_token_accuracy": 0.9997171945869923,
-      "num_tokens": 6092.0,
       "step": 1
     },
     {
-      "entropy": 0.4158535748720169,
       "epoch": 0.02450229709035222,
-      "grad_norm": 0.00017833709716796875,
       "learning_rate": 0.00019878048780487805,
-      "loss": 3.472402386250906e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 11535.0,
       "step": 2
     },
     {
-      "entropy": 0.4280186090618372,
       "epoch": 0.036753445635528334,
-      "grad_norm": 8.20159912109375e-05,
       "learning_rate": 0.0001975609756097561,
-      "loss": 2.510893318685703e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 16432.0,
       "step": 3
     },
     {
-      "entropy": 0.41829014383256435,
       "epoch": 0.04900459418070444,
-      "grad_norm": 0.034912109375,
       "learning_rate": 0.00019634146341463416,
-      "loss": 0.0034790209028869867,
-      "mean_token_accuracy": 0.9971264377236366,
-      "num_tokens": 20507.0,
       "step": 4
     },
     {
-      "entropy": 0.3744635935872793,
       "epoch": 0.06125574272588055,
-      "grad_norm": 0.0001983642578125,
       "learning_rate": 0.0001951219512195122,
-      "loss": 1.627415622351691e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 26122.0,
       "step": 5
     },
     {
-      "entropy": 0.40895503386855125,
       "epoch": 0.07350689127105667,
-      "grad_norm": 3.457069396972656e-05,
       "learning_rate": 0.00019390243902439025,
-      "loss": 9.875144314719364e-06,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 30847.0,
       "step": 6
     },
     {
-      "entropy": 0.36759823746979237,
       "epoch": 0.08575803981623277,
-      "grad_norm": 8.869171142578125e-05,
       "learning_rate": 0.0001926829268292683,
-      "loss": 1.5701301890658215e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 36541.0,
       "step": 7
     },
     {
-      "entropy": 0.3891780599951744,
       "epoch": 0.09800918836140889,
-      "grad_norm": 5.078315734863281e-05,
       "learning_rate": 0.00019146341463414633,
-      "loss": 1.2823864381061867e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 41001.0,
       "step": 8
     },
     {
-      "entropy": 0.4104680269956589,
       "epoch": 0.11026033690658499,
-      "grad_norm": 0.02099609375,
       "learning_rate": 0.0001902439024390244,
-      "loss": 0.0011738959001377225,
-      "mean_token_accuracy": 0.9996279776096344,
-      "num_tokens": 45467.0,
       "step": 9
     },
     {
-      "entropy": 0.39176585152745247,
       "epoch": 0.1225114854517611,
-      "grad_norm": 0.0703125,
       "learning_rate": 0.00018902439024390244,
-      "loss": 0.0007126386626623571,
-      "mean_token_accuracy": 0.9997509978711605,
-      "num_tokens": 50478.0,
       "step": 10
     },
     {
-      "entropy": 0.3562493957579136,
       "epoch": 0.13476263399693722,
-      "grad_norm": 0.0004405975341796875,
       "learning_rate": 0.0001878048780487805,
-      "loss": 2.2854681446915492e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 56181.0,
       "step": 11
     },
     {
-      "entropy": 0.3858679383993149,
       "epoch": 0.14701378254211334,
-      "grad_norm": 0.00016307830810546875,
       "learning_rate": 0.00018658536585365856,
-      "loss": 1.8136681319447234e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 62946.0,
       "step": 12
     },
     {
-      "entropy": 0.37994169630110264,
       "epoch": 0.15926493108728942,
-      "grad_norm": 0.000640869140625,
       "learning_rate": 0.0001853658536585366,
-      "loss": 1.9365113985259086e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 68436.0,
       "step": 13
     },
     {
-      "entropy": 0.3682236662134528,
       "epoch": 0.17151607963246554,
-      "grad_norm": 4.267692565917969e-05,
       "learning_rate": 0.00018414634146341464,
-      "loss": 9.09720802155789e-06,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 73603.0,
       "step": 14
     },
     {
-      "entropy": 0.40290670469403267,
       "epoch": 0.18376722817764166,
-      "grad_norm": 9.441375732421875e-05,
       "learning_rate": 0.0001829268292682927,
-      "loss": 1.5181853086687624e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 77845.0,
       "step": 15
     },
     {
-      "entropy": 0.36544002406299114,
       "epoch": 0.19601837672281777,
-      "grad_norm": 0.001007080078125,
       "learning_rate": 0.00018170731707317075,
-      "loss": 1.5547768271062523e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 82744.0,
       "step": 16
     },
     {
-      "entropy": 0.38514361158013344,
       "epoch": 0.2082695252679939,
-      "grad_norm": 3.147125244140625e-05,
       "learning_rate": 0.0001804878048780488,
-      "loss": 9.32630973693449e-06,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 87453.0,
       "step": 17
     },
     {
-      "entropy": 0.38769579119980335,
       "epoch": 0.22052067381316998,
-      "grad_norm": 0.0001983642578125,
       "learning_rate": 0.00017926829268292684,
-      "loss": 1.4681676475447603e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 92321.0,
       "step": 18
     },
     {
-      "entropy": 0.3753592735156417,
       "epoch": 0.2327718223583461,
-      "grad_norm": 0.00019168853759765625,
       "learning_rate": 0.00017804878048780488,
-      "loss": 2.8633825422730297e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 97146.0,
       "step": 19
     },
     {
-      "entropy": 0.3909287117421627,
       "epoch": 0.2450229709035222,
-      "grad_norm": 0.0004482269287109375,
       "learning_rate": 0.00017682926829268295,
-      "loss": 1.8875809473684058e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 101943.0,
       "step": 20
     },
     {
-      "entropy": 0.4073780719190836,
       "epoch": 0.2572741194486983,
-      "grad_norm": 0.36328125,
       "learning_rate": 0.000175609756097561,
-      "loss": 0.005490713287144899,
-      "mean_token_accuracy": 0.9996448867022991,
-      "num_tokens": 106772.0,
       "step": 21
     },
     {
-      "entropy": 0.3673222251236439,
       "epoch": 0.26952526799387444,
-      "grad_norm": 5.1975250244140625e-05,
       "learning_rate": 0.00017439024390243903,
-      "loss": 1.0117664714925922e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 112558.0,
       "step": 22
     },
     {
-      "entropy": 0.39382114820182323,
       "epoch": 0.28177641653905056,
-      "grad_norm": 0.0003662109375,
       "learning_rate": 0.00017317073170731708,
-      "loss": 1.4868882317387033e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 117489.0,
       "step": 23
     },
     {
-      "entropy": 0.4107118733227253,
       "epoch": 0.29402756508422667,
-      "grad_norm": 0.0009918212890625,
       "learning_rate": 0.00017195121951219512,
-      "loss": 3.529411696945317e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 123010.0,
       "step": 24
     },
     {
-      "entropy": 0.3787885829806328,
       "epoch": 0.30627871362940273,
-      "grad_norm": 0.005859375,
       "learning_rate": 0.0001707317073170732,
-      "loss": 9.493537800153717e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 127716.0,
       "step": 25
     },
     {
-      "entropy": 0.37760412879288197,
       "epoch": 0.31852986217457885,
-      "grad_norm": 0.00029754638671875,
       "learning_rate": 0.00016951219512195123,
-      "loss": 1.7393856978742406e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 132372.0,
       "step": 26
     },
     {
-      "entropy": 0.38016335386782885,
       "epoch": 0.33078101071975496,
-      "grad_norm": 0.0198974609375,
       "learning_rate": 0.00016829268292682927,
-      "loss": 0.00031554378801956773,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 137028.0,
       "step": 27
     },
     {
-      "entropy": 0.3974682204425335,
       "epoch": 0.3430321592649311,
-      "grad_norm": 0.0546875,
       "learning_rate": 0.00016707317073170731,
-      "loss": 0.0025693816132843494,
-      "mean_token_accuracy": 0.9993556700646877,
-      "num_tokens": 142088.0,
       "step": 28
     },
     {
-      "entropy": 0.3819452077150345,
       "epoch": 0.3552833078101072,
-      "grad_norm": 0.0137939453125,
       "learning_rate": 0.00016585365853658536,
-      "loss": 0.0001885725650936365,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 147481.0,
       "step": 29
     },
     {
-      "entropy": 0.41766250506043434,
       "epoch": 0.3675344563552833,
-      "grad_norm": 0.000759124755859375,
       "learning_rate": 0.00016463414634146343,
-      "loss": 1.8762426407192834e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 152973.0,
       "step": 30
     },
     {
-      "entropy": 0.42338451743125916,
       "epoch": 0.37978560490045943,
-      "grad_norm": 0.00015735626220703125,
       "learning_rate": 0.00016341463414634147,
-      "loss": 1.797903678379953e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 156786.0,
       "step": 31
     },
     {
-      "entropy": 0.41780348122119904,
       "epoch": 0.39203675344563554,
-      "grad_norm": 0.00016117095947265625,
       "learning_rate": 0.00016219512195121954,
-      "loss": 2.4896233298932202e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 162859.0,
       "step": 32
     },
     {
-      "entropy": 0.3986742924898863,
       "epoch": 0.40428790199081166,
-      "grad_norm": 0.0003185272216796875,
       "learning_rate": 0.00016097560975609758,
-      "loss": 2.1766518329968676e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 167969.0,
       "step": 33
     },
     {
-      "entropy": 0.40497588738799095,
       "epoch": 0.4165390505359878,
-      "grad_norm": 0.00141143798828125,
       "learning_rate": 0.00015975609756097562,
-      "loss": 5.013354166294448e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 172518.0,
       "step": 34
     },
     {
-      "entropy": 0.44378601387143135,
       "epoch": 0.42879019908116384,
-      "grad_norm": 0.007415771484375,
       "learning_rate": 0.00015853658536585366,
-      "loss": 0.00011341742356307805,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 177085.0,
       "step": 35
     },
     {
-      "entropy": 0.44088135845959187,
       "epoch": 0.44104134762633995,
-      "grad_norm": 0.0224609375,
       "learning_rate": 0.00015731707317073173,
-      "loss": 0.0003354589862283319,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 181617.0,
       "step": 36
     },
     {
-      "entropy": 0.40403734613209963,
       "epoch": 0.45329249617151607,
-      "grad_norm": 0.09326171875,
       "learning_rate": 0.00015609756097560978,
-      "loss": 0.0009270600858144462,
-      "mean_token_accuracy": 0.9998405613005161,
-      "num_tokens": 186836.0,
       "step": 37
     },
     {
-      "entropy": 0.44129026494920254,
       "epoch": 0.4655436447166922,
-      "grad_norm": 0.0001068115234375,
       "learning_rate": 0.00015487804878048782,
-      "loss": 1.9685152437887155e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 191224.0,
       "step": 38
     },
     {
-      "entropy": 0.41146982461214066,
       "epoch": 0.4777947932618683,
-      "grad_norm": 6.437301635742188e-05,
       "learning_rate": 0.00015365853658536586,
-      "loss": 1.4887214092595968e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 195926.0,
       "step": 39
     },
     {
-      "entropy": 0.4401062335819006,
       "epoch": 0.4900459418070444,
-      "grad_norm": 0.0125732421875,
       "learning_rate": 0.0001524390243902439,
-      "loss": 0.0006239329231902957,
-      "mean_token_accuracy": 0.999550361186266,
-      "num_tokens": 200772.0,
       "step": 40
     },
     {
-      "entropy": 0.4169564712792635,
       "epoch": 0.5022970903522205,
-      "grad_norm": 0.000118255615234375,
       "learning_rate": 0.00015121951219512197,
-      "loss": 2.6680882001528516e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 204499.0,
       "step": 41
     },
     {
-      "entropy": 0.45378032699227333,
       "epoch": 0.5145482388973966,
-      "grad_norm": 0.00011491775512695312,
       "learning_rate": 0.00015000000000000001,
-      "loss": 2.471652624080889e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 208814.0,
       "step": 42
     },
     {
-      "entropy": 0.4465767778456211,
       "epoch": 0.5267993874425727,
-      "grad_norm": 0.000263214111328125,
       "learning_rate": 0.00014878048780487806,
-      "loss": 3.366273449501023e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 213907.0,
       "step": 43
     },
     {
-      "entropy": 0.4534517452120781,
       "epoch": 0.5390505359877489,
-      "grad_norm": 0.000728607177734375,
       "learning_rate": 0.0001475609756097561,
-      "loss": 2.826840864145197e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 218988.0,
       "step": 44
     },
     {
-      "entropy": 0.4201868511736393,
       "epoch": 0.5513016845329249,
-      "grad_norm": 0.0196533203125,
       "learning_rate": 0.00014634146341463414,
-      "loss": 0.000961265352088958,
-      "mean_token_accuracy": 0.9995967745780945,
-      "num_tokens": 223595.0,
       "step": 45
     },
     {
-      "entropy": 0.4538087658584118,
       "epoch": 0.5635528330781011,
-      "grad_norm": 0.000629425048828125,
       "learning_rate": 0.0001451219512195122,
-      "loss": 2.982705154863652e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 228244.0,
       "step": 46
     },
     {
-      "entropy": 0.43760119564831257,
       "epoch": 0.5758039816232772,
-      "grad_norm": 6.151199340820312e-05,
       "learning_rate": 0.00014390243902439025,
-      "loss": 1.6359297660528682e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 232606.0,
       "step": 47
     },
     {
-      "entropy": 0.44127281196415424,
       "epoch": 0.5880551301684533,
-      "grad_norm": 9.632110595703125e-05,
       "learning_rate": 0.0001426829268292683,
-      "loss": 2.9222681405371986e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 236563.0,
       "step": 48
     },
     {
-      "entropy": 0.4647264387458563,
       "epoch": 0.6003062787136294,
-      "grad_norm": 6.818771362304688e-05,
       "learning_rate": 0.00014146341463414634,
-      "loss": 1.6634010535199195e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 241214.0,
       "step": 49
     },
     {
-      "entropy": 0.43234376423060894,
       "epoch": 0.6125574272588055,
-      "grad_norm": 9.107589721679688e-05,
       "learning_rate": 0.00014024390243902438,
-      "loss": 2.512251739972271e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 245200.0,
       "step": 50
     },
     {
       "epoch": 0.6125574272588055,
-      "eval_entropy": 0.42710635541141895,
-      "eval_loss": 0.0009002267033793032,
-      "eval_mean_token_accuracy": 0.9997843339823295,
-      "eval_num_tokens": 245200.0,
-      "eval_runtime": 51.2948,
-      "eval_samples_per_second": 1.345,
-      "eval_steps_per_second": 1.345,
       "step": 50
     },
     {
-      "entropy": 0.436727499589324,
       "epoch": 0.6248085758039816,
-      "grad_norm": 6.079673767089844e-05,
       "learning_rate": 0.00013902439024390245,
-      "loss": 1.7863472749013454e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 249761.0,
       "step": 51
     },
     {
-      "entropy": 0.4489326383918524,
       "epoch": 0.6370597243491577,
-      "grad_norm": 0.010009765625,
       "learning_rate": 0.0001378048780487805,
-      "loss": 9.14962001843378e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 254787.0,
       "step": 52
     },
     {
-      "entropy": 0.4518893454223871,
       "epoch": 0.6493108728943339,
-      "grad_norm": 0.029052734375,
       "learning_rate": 0.00013658536585365856,
-      "loss": 0.002504949690774083,
-      "mean_token_accuracy": 0.9991238303482533,
-      "num_tokens": 260287.0,
       "step": 53
     },
     {
-      "entropy": 0.4276025863364339,
       "epoch": 0.6615620214395099,
-      "grad_norm": 0.00022411346435546875,
       "learning_rate": 0.0001353658536585366,
-      "loss": 1.9805909687420353e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 264810.0,
       "step": 54
     },
     {
-      "entropy": 0.4455657321959734,
       "epoch": 0.6738131699846861,
-      "grad_norm": 0.09912109375,
       "learning_rate": 0.00013414634146341464,
-      "loss": 0.005040395073592663,
-      "mean_token_accuracy": 0.9974489808082581,
-      "num_tokens": 270386.0,
       "step": 55
     },
     {
-      "entropy": 0.48375592939555645,
       "epoch": 0.6860643185298622,
-      "grad_norm": 0.00020694732666015625,
       "learning_rate": 0.0001329268292682927,
-      "loss": 3.307354199932888e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 274391.0,
       "step": 56
     },
     {
-      "entropy": 0.4558328855782747,
       "epoch": 0.6983154670750383,
-      "grad_norm": 0.00011205673217773438,
       "learning_rate": 0.00013170731707317076,
-      "loss": 2.9195363822509535e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 279716.0,
       "step": 57
     },
     {
-      "entropy": 0.4038175716996193,
       "epoch": 0.7105666156202144,
-      "grad_norm": 0.130859375,
       "learning_rate": 0.0001304878048780488,
-      "loss": 0.002872227458283305,
-      "mean_token_accuracy": 0.9989018365740776,
-      "num_tokens": 285404.0,
       "step": 58
     },
     {
-      "entropy": 0.4584309756755829,
       "epoch": 0.7228177641653905,
-      "grad_norm": 0.02294921875,
       "learning_rate": 0.00012926829268292684,
-      "loss": 0.0006162020144984126,
-      "mean_token_accuracy": 0.9997650384902954,
-      "num_tokens": 289992.0,
       "step": 59
     },
     {
-      "entropy": 0.47067076340317726,
       "epoch": 0.7350689127105666,
-      "grad_norm": 5.14984130859375e-05,
       "learning_rate": 0.00012804878048780488,
-      "loss": 1.8253980670124292e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 294861.0,
       "step": 60
     },
     {
-      "entropy": 0.4258435070514679,
       "epoch": 0.7473200612557427,
-      "grad_norm": 6.437301635742188e-05,
       "learning_rate": 0.00012682926829268293,
-      "loss": 2.3211847292259336e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 300355.0,
       "step": 61
     },
     {
-      "entropy": 0.4751600846648216,
       "epoch": 0.7595712098009189,
-      "grad_norm": 0.0001201629638671875,
       "learning_rate": 0.000125609756097561,
-      "loss": 2.862562905647792e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 305776.0,
       "step": 62
     },
     {
-      "entropy": 0.43714143335819244,
       "epoch": 0.7718223583460949,
-      "grad_norm": 8.153915405273438e-05,
       "learning_rate": 0.00012439024390243904,
-      "loss": 2.0440007574507035e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 310204.0,
       "step": 63
     },
     {
-      "entropy": 0.436653483659029,
       "epoch": 0.7840735068912711,
-      "grad_norm": 9.298324584960938e-05,
       "learning_rate": 0.00012317073170731708,
-      "loss": 2.5547835321049206e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 314205.0,
       "step": 64
     },
     {
-      "entropy": 0.4625023826956749,
       "epoch": 0.7963246554364471,
-      "grad_norm": 4.9591064453125e-05,
       "learning_rate": 0.00012195121951219512,
-      "loss": 1.6659454558975995e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 319157.0,
       "step": 65
     },
     {
-      "entropy": 0.45398022420704365,
       "epoch": 0.8085758039816233,
-      "grad_norm": 0.0004730224609375,
       "learning_rate": 0.00012073170731707318,
-      "loss": 2.831750134646427e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 324681.0,
       "step": 66
     },
     {
-      "entropy": 0.39901847764849663,
       "epoch": 0.8208269525267994,
-      "grad_norm": 0.0113525390625,
       "learning_rate": 0.00011951219512195122,
-      "loss": 0.0010163490660488605,
-      "mean_token_accuracy": 0.9993686862289906,
-      "num_tokens": 329929.0,
       "step": 67
     },
     {
-      "entropy": 0.43489386700093746,
       "epoch": 0.8330781010719756,
-      "grad_norm": 0.0002841949462890625,
       "learning_rate": 0.00011829268292682926,
-      "loss": 3.556731462595053e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 334474.0,
       "step": 68
     },
     {
-      "entropy": 0.43658433854579926,
       "epoch": 0.8453292496171516,
-      "grad_norm": 0.00021457672119140625,
       "learning_rate": 0.00011707317073170732,
-      "loss": 3.145977098029107e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 338171.0,
       "step": 69
     },
     {
-      "entropy": 0.47345293685793877,
       "epoch": 0.8575803981623277,
-      "grad_norm": 0.04052734375,
       "learning_rate": 0.00011585365853658536,
-      "loss": 0.006434774026274681,
-      "mean_token_accuracy": 0.9988360889256,
-      "num_tokens": 342581.0,
       "step": 70
     },
     {
-      "entropy": 0.47144644521176815,
       "epoch": 0.8698315467075038,
-      "grad_norm": 0.03857421875,
       "learning_rate": 0.00011463414634146342,
-      "loss": 0.0040056235156953335,
-      "mean_token_accuracy": 0.9997807033360004,
-      "num_tokens": 347785.0,
       "step": 71
     },
     {
-      "entropy": 0.44001554138958454,
       "epoch": 0.8820826952526799,
-      "grad_norm": 0.00081634521484375,
       "learning_rate": 0.00011341463414634146,
-      "loss": 3.297243165434338e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 352109.0,
       "step": 72
     },
     {
-      "entropy": 0.44880508445203304,
       "epoch": 0.8943338437978561,
-      "grad_norm": 0.0002689361572265625,
       "learning_rate": 0.00011219512195121953,
-      "loss": 2.6160523702856153e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 357931.0,
       "step": 73
     },
     {
-      "entropy": 0.41770973429083824,
       "epoch": 0.9065849923430321,
-      "grad_norm": 0.0002231597900390625,
       "learning_rate": 0.00011097560975609757,
-      "loss": 3.9217924495460466e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 363802.0,
       "step": 74
     },
     {
-      "entropy": 0.45532275550067425,
       "epoch": 0.9188361408882083,
-      "grad_norm": 6.389617919921875e-05,
       "learning_rate": 0.00010975609756097563,
-      "loss": 2.482662421243731e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 368858.0,
       "step": 75
     },
     {
-      "entropy": 0.4533053319901228,
       "epoch": 0.9310872894333844,
-      "grad_norm": 0.000492095947265625,
       "learning_rate": 0.00010853658536585367,
-      "loss": 3.297019793535583e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 373658.0,
       "step": 76
     },
     {
-      "entropy": 0.4135119281709194,
       "epoch": 0.9433384379785605,
-      "grad_norm": 0.000347137451171875,
       "learning_rate": 0.00010731707317073172,
-      "loss": 3.026250487891957e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 379025.0,
       "step": 77
     },
     {
-      "entropy": 0.44705197028815746,
       "epoch": 0.9555895865237366,
-      "grad_norm": 0.00067901611328125,
       "learning_rate": 0.00010609756097560977,
-      "loss": 4.355545388534665e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 384240.0,
       "step": 78
     },
     {
-      "entropy": 0.459016814827919,
       "epoch": 0.9678407350689127,
-      "grad_norm": 0.00098419189453125,
       "learning_rate": 0.00010487804878048781,
-      "loss": 4.3970921979052946e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 388335.0,
       "step": 79
     },
     {
-      "entropy": 0.4241188894957304,
       "epoch": 0.9800918836140888,
-      "grad_norm": 0.07275390625,
       "learning_rate": 0.00010365853658536586,
-      "loss": 0.009294007904827595,
-      "mean_token_accuracy": 0.9970472455024719,
-      "num_tokens": 394201.0,
       "step": 80
     },
     {
-      "entropy": 0.4442194551229477,
       "epoch": 0.9923430321592649,
-      "grad_norm": 0.000377655029296875,
       "learning_rate": 0.0001024390243902439,
-      "loss": 3.1872321414994076e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 399101.0,
       "step": 81
     },
     {
-      "entropy": 0.429327929019928,
       "epoch": 1.0,
-      "grad_norm": 0.00064849853515625,
       "learning_rate": 0.00010121951219512196,
-      "loss": 3.4027863875962794e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 402117.0,
       "step": 82
     },
     {
-      "entropy": 0.4472597725689411,
       "epoch": 1.0122511485451762,
-      "grad_norm": 0.08056640625,
       "learning_rate": 0.0001,
-      "loss": 0.005052679218351841,
-      "mean_token_accuracy": 0.9986319616436958,
-      "num_tokens": 406748.0,
       "step": 83
     },
     {
-      "entropy": 0.4647933579981327,
       "epoch": 1.0245022970903521,
-      "grad_norm": 0.0001888275146484375,
       "learning_rate": 9.878048780487805e-05,
-      "loss": 3.911805833922699e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 411354.0,
       "step": 84
     },
     {
-      "entropy": 0.49184724502265453,
       "epoch": 1.0367534456355283,
-      "grad_norm": 0.0009307861328125,
       "learning_rate": 9.75609756097561e-05,
-      "loss": 6.517933798022568e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 417755.0,
       "step": 85
     },
     {
-      "entropy": 0.45203530229628086,
       "epoch": 1.0490045941807045,
-      "grad_norm": 0.00017547607421875,
       "learning_rate": 9.634146341463415e-05,
-      "loss": 4.648843969334848e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 421725.0,
       "step": 86
     },
     {
-      "entropy": 0.44451451301574707,
       "epoch": 1.0612557427258806,
-      "grad_norm": 0.00012493133544921875,
       "learning_rate": 9.51219512195122e-05,
-      "loss": 3.813640068983659e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 426841.0,
       "step": 87
     },
     {
-      "entropy": 0.5532373636960983,
       "epoch": 1.0735068912710566,
-      "grad_norm": 0.0004425048828125,
       "learning_rate": 9.390243902439024e-05,
-      "loss": 8.416183845838532e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 431070.0,
       "step": 88
     },
     {
-      "entropy": 0.5114028844982386,
       "epoch": 1.0857580398162328,
-      "grad_norm": 0.021484375,
       "learning_rate": 9.26829268292683e-05,
-      "loss": 0.0013321326114237309,
-      "mean_token_accuracy": 0.9995535723865032,
-      "num_tokens": 435681.0,
       "step": 89
     },
     {
-      "entropy": 0.48618660122156143,
       "epoch": 1.098009188361409,
-      "grad_norm": 0.0002498626708984375,
       "learning_rate": 9.146341463414635e-05,
-      "loss": 6.904367910465226e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 440565.0,
       "step": 90
     },
     {
-      "entropy": 0.5016148556023836,
       "epoch": 1.110260336906585,
-      "grad_norm": 0.019287109375,
       "learning_rate": 9.02439024390244e-05,
-      "loss": 0.0020695198327302933,
-      "mean_token_accuracy": 0.9993686862289906,
-      "num_tokens": 445241.0,
       "step": 91
     },
     {
-      "entropy": 0.5162393897771835,
       "epoch": 1.122511485451761,
-      "grad_norm": 0.04638671875,
       "learning_rate": 8.902439024390244e-05,
-      "loss": 0.0038224293384701014,
-      "mean_token_accuracy": 0.9989322870969772,
-      "num_tokens": 449996.0,
       "step": 92
     },
     {
-      "entropy": 0.47938764840364456,
       "epoch": 1.1347626339969372,
-      "grad_norm": 0.0028533935546875,
       "learning_rate": 8.78048780487805e-05,
-      "loss": 0.00016397782019339502,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 454979.0,
       "step": 93
     },
     {
-      "entropy": 0.5016432590782642,
       "epoch": 1.1470137825421134,
-      "grad_norm": 0.000400543212890625,
       "learning_rate": 8.658536585365854e-05,
-      "loss": 0.00010612564074108377,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 459674.0,
       "step": 94
     },
     {
-      "entropy": 0.5095659829676151,
       "epoch": 1.1592649310872893,
-      "grad_norm": 0.0004520416259765625,
       "learning_rate": 8.53658536585366e-05,
-      "loss": 0.00011354458547430113,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 464313.0,
       "step": 95
     },
     {
-      "entropy": 0.4933694824576378,
       "epoch": 1.1715160796324655,
-      "grad_norm": 0.0556640625,
       "learning_rate": 8.414634146341464e-05,
-      "loss": 0.004786409437656403,
-      "mean_token_accuracy": 0.9988460540771484,
-      "num_tokens": 468858.0,
       "step": 96
     },
     {
-      "entropy": 0.5068543236702681,
       "epoch": 1.1837672281776417,
-      "grad_norm": 0.000492095947265625,
       "learning_rate": 8.292682926829268e-05,
-      "loss": 9.500309533905238e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 473732.0,
       "step": 97
     },
     {
-      "entropy": 0.502707714214921,
       "epoch": 1.1960183767228179,
-      "grad_norm": 0.026123046875,
       "learning_rate": 8.170731707317073e-05,
-      "loss": 0.002030049916356802,
-      "mean_token_accuracy": 0.9993131868541241,
-      "num_tokens": 479037.0,
       "step": 98
     },
     {
-      "entropy": 0.5147993545979261,
       "epoch": 1.2082695252679938,
-      "grad_norm": 0.000354766845703125,
       "learning_rate": 8.048780487804879e-05,
-      "loss": 6.365451554302126e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 484811.0,
       "step": 99
     },
     {
-      "entropy": 0.4471734017133713,
       "epoch": 1.22052067381317,
-      "grad_norm": 0.0047607421875,
       "learning_rate": 7.926829268292683e-05,
-      "loss": 0.0003211660368833691,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 489522.0,
       "step": 100
     },
     {
       "epoch": 1.22052067381317,
-      "eval_entropy": 0.4696715573469798,
-      "eval_loss": 0.0007750109070912004,
-      "eval_mean_token_accuracy": 0.9997843339823295,
-      "eval_num_tokens": 489522.0,
-      "eval_runtime": 51.321,
-      "eval_samples_per_second": 1.344,
-      "eval_steps_per_second": 1.344,
       "step": 100
     },
     {
-      "entropy": 0.4984112149104476,
       "epoch": 1.2327718223583461,
-      "grad_norm": 0.0001850128173828125,
       "learning_rate": 7.804878048780489e-05,
-      "loss": 5.6583492550998926e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 494757.0,
       "step": 101
     },
     {
-      "entropy": 0.46644425205886364,
       "epoch": 1.245022970903522,
-      "grad_norm": 0.0001506805419921875,
       "learning_rate": 7.682926829268293e-05,
-      "loss": 5.076146044302732e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 499837.0,
       "step": 102
     },
     {
-      "entropy": 0.4746809806674719,
       "epoch": 1.2572741194486983,
-      "grad_norm": 0.00015354156494140625,
       "learning_rate": 7.560975609756099e-05,
-      "loss": 5.508732647285797e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 505267.0,
       "step": 103
     },
     {
-      "entropy": 0.47748516872525215,
       "epoch": 1.2695252679938744,
-      "grad_norm": 0.0001277923583984375,
       "learning_rate": 7.439024390243903e-05,
-      "loss": 4.464950325200334e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 510260.0,
       "step": 104
     },
     {
-      "entropy": 0.49103316478431225,
       "epoch": 1.2817764165390506,
-      "grad_norm": 0.00689697265625,
       "learning_rate": 7.317073170731707e-05,
-      "loss": 0.000652994611300528,
-      "mean_token_accuracy": 0.9993556700646877,
-      "num_tokens": 514493.0,
       "step": 105
     },
     {
-      "entropy": 0.4787591751664877,
       "epoch": 1.2940275650842268,
-      "grad_norm": 0.0003795623779296875,
       "learning_rate": 7.195121951219513e-05,
-      "loss": 4.17455485148821e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 519511.0,
       "step": 106
     },
     {
-      "entropy": 0.46200828067958355,
       "epoch": 1.3062787136294027,
-      "grad_norm": 0.0001678466796875,
       "learning_rate": 7.073170731707317e-05,
-      "loss": 4.6432032831944525e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 524373.0,
       "step": 107
     },
     {
-      "entropy": 0.4632429350167513,
       "epoch": 1.318529862174579,
-      "grad_norm": 0.00019073486328125,
       "learning_rate": 6.951219512195122e-05,
-      "loss": 4.138273652642965e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 528973.0,
       "step": 108
     },
     {
-      "entropy": 0.4669873770326376,
       "epoch": 1.3307810107197549,
-      "grad_norm": 0.000301361083984375,
       "learning_rate": 6.829268292682928e-05,
-      "loss": 4.5484361180569977e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 533941.0,
       "step": 109
     },
     {
-      "entropy": 0.45179494842886925,
       "epoch": 1.343032159264931,
-      "grad_norm": 0.00010776519775390625,
       "learning_rate": 6.707317073170732e-05,
-      "loss": 3.3365573472110555e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 539363.0,
       "step": 110
     },
     {
-      "entropy": 0.438027735799551,
       "epoch": 1.3552833078101072,
-      "grad_norm": 0.00014972686767578125,
       "learning_rate": 6.585365853658538e-05,
-      "loss": 4.3530206312425435e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 543731.0,
       "step": 111
     },
     {
-      "entropy": 0.4696179609745741,
       "epoch": 1.3675344563552834,
-      "grad_norm": 0.028076171875,
       "learning_rate": 6.463414634146342e-05,
-      "loss": 0.00529400585219264,
-      "mean_token_accuracy": 0.9985632188618183,
-      "num_tokens": 548164.0,
       "step": 112
     },
     {
-      "entropy": 0.4698081314563751,
       "epoch": 1.3797856049004595,
-      "grad_norm": 0.00885009765625,
       "learning_rate": 6.341463414634146e-05,
-      "loss": 0.0005042221746407449,
-      "mean_token_accuracy": 0.9995039664208889,
-      "num_tokens": 553693.0,
       "step": 113
     },
     {
-      "entropy": 0.45541019923985004,
       "epoch": 1.3920367534456355,
-      "grad_norm": 9.393692016601562e-05,
       "learning_rate": 6.219512195121952e-05,
-      "loss": 3.189211565768346e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 558477.0,
       "step": 114
     },
     {
-      "entropy": 0.46046129800379276,
       "epoch": 1.4042879019908117,
-      "grad_norm": 0.0001392364501953125,
       "learning_rate": 6.097560975609756e-05,
-      "loss": 3.399374691070989e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 563965.0,
       "step": 115
     },
     {
-      "entropy": 0.49661404080688953,
       "epoch": 1.4165390505359878,
-      "grad_norm": 0.0004062652587890625,
       "learning_rate": 5.975609756097561e-05,
-      "loss": 5.0347538490314037e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 568303.0,
       "step": 116
     },
     {
-      "entropy": 0.4603871125727892,
       "epoch": 1.4287901990811638,
-      "grad_norm": 9.870529174804688e-05,
       "learning_rate": 5.853658536585366e-05,
-      "loss": 3.4569777199067175e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 572895.0,
       "step": 117
     },
     {
-      "entropy": 0.47774807177484035,
       "epoch": 1.44104134762634,
-      "grad_norm": 0.00012063980102539062,
       "learning_rate": 5.731707317073171e-05,
-      "loss": 4.4718148274114355e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 577892.0,
       "step": 118
     },
     {
-      "entropy": 0.4559262488037348,
       "epoch": 1.4532924961715161,
-      "grad_norm": 8.440017700195312e-05,
       "learning_rate": 5.6097560975609764e-05,
-      "loss": 2.7120513550471514e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 583128.0,
       "step": 119
     },
     {
-      "entropy": 0.4927012659609318,
       "epoch": 1.4655436447166923,
-      "grad_norm": 0.00011539459228515625,
       "learning_rate": 5.487804878048781e-05,
-      "loss": 3.757046943064779e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 587856.0,
       "step": 120
     },
     {
-      "entropy": 0.43140678480267525,
       "epoch": 1.4777947932618682,
-      "grad_norm": 0.000125885009765625,
       "learning_rate": 5.365853658536586e-05,
-      "loss": 3.988837852375582e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 592260.0,
       "step": 121
     },
     {
-      "entropy": 0.46533982269465923,
       "epoch": 1.4900459418070444,
-      "grad_norm": 9.822845458984375e-05,
       "learning_rate": 5.2439024390243904e-05,
-      "loss": 3.350730548845604e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 597022.0,
       "step": 122
     },
     {
-      "entropy": 0.4450340513139963,
       "epoch": 1.5022970903522204,
-      "grad_norm": 0.00018596649169921875,
       "learning_rate": 5.121951219512195e-05,
-      "loss": 4.867902316618711e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 601326.0,
       "step": 123
     },
     {
-      "entropy": 0.4453680943697691,
       "epoch": 1.5145482388973965,
-      "grad_norm": 0.000270843505859375,
       "learning_rate": 5e-05,
-      "loss": 4.58945614809636e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 606619.0,
       "step": 124
     },
     {
-      "entropy": 0.4738515168428421,
       "epoch": 1.5267993874425727,
-      "grad_norm": 6.866455078125e-05,
       "learning_rate": 4.878048780487805e-05,
-      "loss": 3.125666262349114e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 612381.0,
       "step": 125
     },
     {
-      "entropy": 0.4711528979241848,
       "epoch": 1.5390505359877489,
-      "grad_norm": 0.0003032684326171875,
       "learning_rate": 4.75609756097561e-05,
-      "loss": 4.3324482248863205e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 617203.0,
       "step": 126
     },
     {
-      "entropy": 0.4728289693593979,
       "epoch": 1.551301684532925,
-      "grad_norm": 0.01611328125,
       "learning_rate": 4.634146341463415e-05,
-      "loss": 0.00017536790983285755,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 622329.0,
       "step": 127
     },
     {
-      "entropy": 0.48075354285538197,
       "epoch": 1.5635528330781012,
-      "grad_norm": 0.000751495361328125,
       "learning_rate": 4.51219512195122e-05,
-      "loss": 5.28718919667881e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 627243.0,
       "step": 128
     },
     {
-      "entropy": 0.43419913947582245,
       "epoch": 1.5758039816232772,
-      "grad_norm": 0.0001850128173828125,
       "learning_rate": 4.390243902439025e-05,
-      "loss": 4.585986243910156e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 631428.0,
       "step": 129
     },
     {
-      "entropy": 0.4347258824855089,
       "epoch": 1.5880551301684533,
-      "grad_norm": 0.0003814697265625,
       "learning_rate": 4.26829268292683e-05,
-      "loss": 5.289731052471325e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 636476.0,
       "step": 130
     },
     {
-      "entropy": 0.44714186899363995,
       "epoch": 1.6003062787136293,
-      "grad_norm": 0.04541015625,
       "learning_rate": 4.146341463414634e-05,
-      "loss": 0.003742673434317112,
-      "mean_token_accuracy": 0.9986401423811913,
-      "num_tokens": 641238.0,
       "step": 131
     },
     {
-      "entropy": 0.4518321752548218,
       "epoch": 1.6125574272588055,
-      "grad_norm": 0.0751953125,
       "learning_rate": 4.0243902439024395e-05,
-      "loss": 0.006270918063819408,
-      "mean_token_accuracy": 0.999205507338047,
-      "num_tokens": 646351.0,
       "step": 132
     },
     {
-      "entropy": 0.40802894718945026,
       "epoch": 1.6248085758039816,
-      "grad_norm": 0.00011110305786132812,
       "learning_rate": 3.9024390243902444e-05,
-      "loss": 3.44005020451732e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 650741.0,
       "step": 133
     },
     {
-      "entropy": 0.42771636322140694,
       "epoch": 1.6370597243491578,
-      "grad_norm": 0.0001239776611328125,
       "learning_rate": 3.780487804878049e-05,
-      "loss": 4.249331323080696e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 655143.0,
       "step": 134
     },
     {
-      "entropy": 0.44244702346622944,
       "epoch": 1.649310872894334,
-      "grad_norm": 0.00011205673217773438,
       "learning_rate": 3.6585365853658535e-05,
-      "loss": 3.287765503046103e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 660264.0,
       "step": 135
     },
     {
-      "entropy": 0.48481825925409794,
       "epoch": 1.66156202143951,
-      "grad_norm": 0.000179290771484375,
       "learning_rate": 3.5365853658536584e-05,
-      "loss": 5.46249866602011e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 664447.0,
       "step": 136
     },
     {
-      "entropy": 0.46484761498868465,
       "epoch": 1.673813169984686,
-      "grad_norm": 0.0002498626708984375,
       "learning_rate": 3.414634146341464e-05,
-      "loss": 4.426595114637166e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 669330.0,
       "step": 137
     },
     {
-      "entropy": 0.4359226580709219,
       "epoch": 1.686064318529862,
-      "grad_norm": 0.049560546875,
       "learning_rate": 3.292682926829269e-05,
-      "loss": 0.004120181780308485,
-      "mean_token_accuracy": 0.9997727274894714,
-      "num_tokens": 674885.0,
       "step": 138
     },
     {
-      "entropy": 0.4564925115555525,
       "epoch": 1.6983154670750382,
-      "grad_norm": 0.0001544952392578125,
       "learning_rate": 3.170731707317073e-05,
-      "loss": 5.280967161525041e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 679666.0,
       "step": 139
     },
     {
-      "entropy": 0.45392039604485035,
       "epoch": 1.7105666156202144,
-      "grad_norm": 0.0001277923583984375,
       "learning_rate": 3.048780487804878e-05,
-      "loss": 4.428522152011283e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 685022.0,
       "step": 140
     },
     {
-      "entropy": 0.4568201173096895,
       "epoch": 1.7228177641653906,
-      "grad_norm": 0.000255584716796875,
       "learning_rate": 2.926829268292683e-05,
-      "loss": 5.5990531109273434e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 689370.0,
       "step": 141
     },
     {
-      "entropy": 0.46470937319099903,
       "epoch": 1.7350689127105667,
-      "grad_norm": 0.00020122528076171875,
       "learning_rate": 2.8048780487804882e-05,
-      "loss": 6.421299622161314e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 693163.0,
       "step": 142
     },
     {
-      "entropy": 0.47727371007204056,
       "epoch": 1.7473200612557427,
-      "grad_norm": 0.000385284423828125,
       "learning_rate": 2.682926829268293e-05,
-      "loss": 7.020766497589648e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 697577.0,
       "step": 143
     },
     {
-      "entropy": 0.46956145390868187,
       "epoch": 1.7595712098009189,
-      "grad_norm": 0.00017642974853515625,
       "learning_rate": 2.5609756097560977e-05,
-      "loss": 6.577485328307375e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 703024.0,
       "step": 144
     },
     {
-      "entropy": 0.4778987504541874,
       "epoch": 1.7718223583460948,
-      "grad_norm": 0.0272216796875,
       "learning_rate": 2.4390243902439026e-05,
-      "loss": 0.0015227628173306584,
-      "mean_token_accuracy": 0.999507874250412,
-      "num_tokens": 707836.0,
       "step": 145
     },
     {
-      "entropy": 0.4693255964666605,
       "epoch": 1.784073506891271,
-      "grad_norm": 0.0016632080078125,
       "learning_rate": 2.3170731707317075e-05,
-      "loss": 8.514844375895336e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 712795.0,
       "step": 146
     },
     {
-      "entropy": 0.44871947541832924,
       "epoch": 1.7963246554364471,
-      "grad_norm": 0.0001220703125,
       "learning_rate": 2.1951219512195124e-05,
-      "loss": 4.404923674883321e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 718427.0,
       "step": 147
     },
     {
-      "entropy": 0.46528770588338375,
       "epoch": 1.8085758039816233,
-      "grad_norm": 0.00011539459228515625,
       "learning_rate": 2.073170731707317e-05,
-      "loss": 4.299484135117382e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 723784.0,
       "step": 148
     },
     {
-      "entropy": 0.4871877897530794,
       "epoch": 1.8208269525267995,
-      "grad_norm": 0.00018215179443359375,
       "learning_rate": 1.9512195121951222e-05,
-      "loss": 6.490876694442704e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 728100.0,
       "step": 149
     },
     {
-      "entropy": 0.4858295116573572,
       "epoch": 1.8330781010719757,
-      "grad_norm": 0.004119873046875,
       "learning_rate": 1.8292682926829268e-05,
-      "loss": 0.0002347841509617865,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 733891.0,
       "step": 150
     },
     {
       "epoch": 1.8330781010719757,
-      "eval_entropy": 0.45632935347764386,
-      "eval_loss": 0.0005955203669145703,
-      "eval_mean_token_accuracy": 0.9997519842092542,
-      "eval_num_tokens": 733891.0,
-      "eval_runtime": 51.3196,
-      "eval_samples_per_second": 1.345,
-      "eval_steps_per_second": 1.345,
       "step": 150
     },
     {
-      "entropy": 0.4611043408513069,
       "epoch": 1.8453292496171516,
-      "grad_norm": 0.00018310546875,
       "learning_rate": 1.707317073170732e-05,
-      "loss": 6.215952453203499e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 738134.0,
       "step": 151
     },
     {
-      "entropy": 0.4878769665956497,
       "epoch": 1.8575803981623276,
-      "grad_norm": 0.000263214111328125,
       "learning_rate": 1.5853658536585366e-05,
-      "loss": 4.827458178624511e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 743890.0,
       "step": 152
     },
     {
-      "entropy": 0.4312817621976137,
       "epoch": 1.8698315467075037,
-      "grad_norm": 0.0001659393310546875,
       "learning_rate": 1.4634146341463415e-05,
-      "loss": 4.2587878851918504e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 749531.0,
       "step": 153
     },
     {
-      "entropy": 0.4696353208273649,
       "epoch": 1.88208269525268,
-      "grad_norm": 0.0001277923583984375,
       "learning_rate": 1.3414634146341466e-05,
-      "loss": 4.060078936163336e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 755323.0,
       "step": 154
     },
     {
-      "entropy": 0.5023391880095005,
       "epoch": 1.894333843797856,
-      "grad_norm": 0.05615234375,
       "learning_rate": 1.2195121951219513e-05,
-      "loss": 0.0006454848335124552,
-      "mean_token_accuracy": 0.9996448867022991,
-      "num_tokens": 760481.0,
       "step": 155
     },
     {
-      "entropy": 0.4852756280452013,
       "epoch": 1.9065849923430322,
-      "grad_norm": 0.091796875,
       "learning_rate": 1.0975609756097562e-05,
-      "loss": 0.0015374489594250917,
-      "mean_token_accuracy": 0.9998405613005161,
-      "num_tokens": 765389.0,
       "step": 156
     },
     {
-      "entropy": 0.4805344957858324,
       "epoch": 1.9188361408882084,
-      "grad_norm": 0.0003719329833984375,
       "learning_rate": 9.756097560975611e-06,
-      "loss": 6.884219328640029e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 770626.0,
       "step": 157
     },
     {
-      "entropy": 0.4682777728885412,
       "epoch": 1.9310872894333844,
-      "grad_norm": 0.00015163421630859375,
       "learning_rate": 8.53658536585366e-06,
-      "loss": 5.355028042686172e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 775626.0,
       "step": 158
     },
     {
-      "entropy": 0.46833183616399765,
       "epoch": 1.9433384379785605,
-      "grad_norm": 0.000244140625,
       "learning_rate": 7.317073170731707e-06,
-      "loss": 6.813944492023438e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 779824.0,
       "step": 159
     },
     {
-      "entropy": 0.48119914904236794,
       "epoch": 1.9555895865237365,
-      "grad_norm": 0.0005035400390625,
       "learning_rate": 6.0975609756097564e-06,
-      "loss": 7.686868048040196e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 784498.0,
       "step": 160
     },
     {
-      "entropy": 0.49330189637839794,
       "epoch": 1.9678407350689127,
-      "grad_norm": 0.00014972686767578125,
       "learning_rate": 4.8780487804878055e-06,
-      "loss": 4.916799662169069e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 790193.0,
       "step": 161
     },
     {
-      "entropy": 0.4804691858589649,
       "epoch": 1.9800918836140888,
-      "grad_norm": 0.000278472900390625,
       "learning_rate": 3.6585365853658537e-06,
-      "loss": 5.59901563974563e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 794958.0,
       "step": 162
     },
     {
-      "entropy": 0.4819574113935232,
       "epoch": 1.992343032159265,
-      "grad_norm": 0.0001239776611328125,
       "learning_rate": 2.4390243902439027e-06,
-      "loss": 4.5460070396075025e-05,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 800578.0,
       "step": 163
     },
     {
-      "entropy": 0.48914736807346343,
       "epoch": 2.0,
-      "grad_norm": 0.000965118408203125,
       "learning_rate": 1.2195121951219514e-06,
-      "loss": 0.00011097195238107815,
-      "mean_token_accuracy": 1.0,
-      "num_tokens": 804234.0,
       "step": 164
     }
   ],
@@ -1700,7 +1700,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.641668564495565e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "is_world_process_zero": true,
   "log_history": [
     {
+      "entropy": 0.22490596678107977,
       "epoch": 0.01225114854517611,
+      "grad_norm": 8.875,
       "learning_rate": 0.0002,
+      "loss": 0.1875426322221756,
+      "mean_token_accuracy": 0.9461580626666546,
+      "num_tokens": 6770.0,
       "step": 1
     },
     {
+      "entropy": 0.24707041680812836,
       "epoch": 0.02450229709035222,
+      "grad_norm": 8.4375,
       "learning_rate": 0.00019878048780487805,
+      "loss": 0.16050274670124054,
+      "mean_token_accuracy": 0.9445944800972939,
+      "num_tokens": 14234.0,
       "step": 2
     },
     {
+      "entropy": 0.32129648607224226,
       "epoch": 0.036753445635528334,
+      "grad_norm": 2.75,
       "learning_rate": 0.0001975609756097561,
+      "loss": 0.09863867610692978,
+      "mean_token_accuracy": 0.9659304060041904,
+      "num_tokens": 20673.0,
       "step": 3
     },
     {
+      "entropy": 0.32960685156285763,
       "epoch": 0.04900459418070444,
+      "grad_norm": 1.671875,
       "learning_rate": 0.00019634146341463416,
+      "loss": 0.08542143553495407,
+      "mean_token_accuracy": 0.9690693095326424,
+      "num_tokens": 26890.0,
       "step": 4
     },
     {
+      "entropy": 0.2677983660250902,
       "epoch": 0.06125574272588055,
+      "grad_norm": 1.359375,
       "learning_rate": 0.0001951219512195122,
+      "loss": 0.08666501939296722,
+      "mean_token_accuracy": 0.968298003077507,
+      "num_tokens": 35017.0,
       "step": 5
     },
     {
+      "entropy": 0.3096502358093858,
       "epoch": 0.07350689127105667,
+      "grad_norm": 0.66015625,
       "learning_rate": 0.00019390243902439025,
+      "loss": 0.07875043898820877,
+      "mean_token_accuracy": 0.969221331179142,
+      "num_tokens": 41478.0,
       "step": 6
     },
     {
+      "entropy": 0.3156957607716322,
       "epoch": 0.08575803981623277,
+      "grad_norm": 2.0,
       "learning_rate": 0.0001926829268292683,
+      "loss": 0.07807251811027527,
+      "mean_token_accuracy": 0.9681689888238907,
+      "num_tokens": 48204.0,
       "step": 7
     },
     {
+      "entropy": 0.2759731076657772,
       "epoch": 0.09800918836140889,
+      "grad_norm": 1.1328125,
       "learning_rate": 0.00019146341463414633,
+      "loss": 0.07681904733181,
+      "mean_token_accuracy": 0.9719767943024635,
+      "num_tokens": 54668.0,
       "step": 8
     },
     {
+      "entropy": 0.24453612882643938,
       "epoch": 0.11026033690658499,
+      "grad_norm": 0.875,
       "learning_rate": 0.0001902439024390244,
+      "loss": 0.07310224324464798,
+      "mean_token_accuracy": 0.96934475004673,
+      "num_tokens": 61929.0,
       "step": 9
     },
     {
+      "entropy": 0.25852775294333696,
       "epoch": 0.1225114854517611,
+      "grad_norm": 1.4921875,
       "learning_rate": 0.00018902439024390244,
+      "loss": 0.07384984195232391,
+      "mean_token_accuracy": 0.9701811708509922,
+      "num_tokens": 69036.0,
       "step": 10
     },
     {
+      "entropy": 0.27396084927022457,
       "epoch": 0.13476263399693722,
+      "grad_norm": 0.94140625,
       "learning_rate": 0.0001878048780487805,
+      "loss": 0.10277765244245529,
+      "mean_token_accuracy": 0.9634475558996201,
+      "num_tokens": 76394.0,
       "step": 11
     },
     {
+      "entropy": 0.3001147015020251,
       "epoch": 0.14701378254211334,
+      "grad_norm": 0.84765625,
       "learning_rate": 0.00018658536585365856,
+      "loss": 0.08927591890096664,
+      "mean_token_accuracy": 0.9625685028731823,
+      "num_tokens": 84073.0,
       "step": 12
     },
     {
+      "entropy": 0.29679975286126137,
       "epoch": 0.15926493108728942,
+      "grad_norm": 0.8359375,
       "learning_rate": 0.0001853658536585366,
+      "loss": 0.10607243329286575,
+      "mean_token_accuracy": 0.9608454070985317,
+      "num_tokens": 91135.0,
       "step": 13
     },
     {
+      "entropy": 0.28288435423746705,
       "epoch": 0.17151607963246554,
+      "grad_norm": 0.69921875,
       "learning_rate": 0.00018414634146341464,
+      "loss": 0.07875586301088333,
+      "mean_token_accuracy": 0.9699672348797321,
+      "num_tokens": 97740.0,
       "step": 14
     },
     {
+      "entropy": 0.2927901232615113,
       "epoch": 0.18376722817764166,
+      "grad_norm": 0.8515625,
       "learning_rate": 0.0001829268292682927,
+      "loss": 0.08531365543603897,
+      "mean_token_accuracy": 0.9704407565295696,
+      "num_tokens": 104242.0,
       "step": 15
     },
     {
+      "entropy": 0.2802786426618695,
       "epoch": 0.19601837672281777,
+      "grad_norm": 2.609375,
       "learning_rate": 0.00018170731707317075,
+      "loss": 0.10073477029800415,
+      "mean_token_accuracy": 0.9676352478563786,
+      "num_tokens": 112245.0,
       "step": 16
     },
     {
+      "entropy": 0.30663597770035267,
       "epoch": 0.2082695252679939,
+      "grad_norm": 2.3125,
       "learning_rate": 0.0001804878048780488,
+      "loss": 0.11375448107719421,
+      "mean_token_accuracy": 0.9604234844446182,
+      "num_tokens": 119086.0,
       "step": 17
     },
     {
+      "entropy": 0.31370354909449816,
       "epoch": 0.22052067381316998,
+      "grad_norm": 2.3125,
       "learning_rate": 0.00017926829268292684,
+      "loss": 0.10826913267374039,
+      "mean_token_accuracy": 0.9599097929894924,
+      "num_tokens": 126539.0,
       "step": 18
     },
     {
+      "entropy": 0.3203959669917822,
       "epoch": 0.2327718223583461,
+      "grad_norm": 1.3203125,
       "learning_rate": 0.00017804878048780488,
+      "loss": 0.075275719165802,
+      "mean_token_accuracy": 0.9775180667638779,
+      "num_tokens": 133104.0,
       "step": 19
     },
     {
+      "entropy": 0.32591533567756414,
       "epoch": 0.2450229709035222,
+      "grad_norm": 0.921875,
       "learning_rate": 0.00017682926829268295,
+      "loss": 0.09778374433517456,
+      "mean_token_accuracy": 0.9647064991295338,
+      "num_tokens": 139853.0,
       "step": 20
     },
     {
+      "entropy": 0.3228916050866246,
       "epoch": 0.2572741194486983,
+      "grad_norm": 1.9453125,
       "learning_rate": 0.000175609756097561,
+      "loss": 0.11495943367481232,
+      "mean_token_accuracy": 0.9573761746287346,
+      "num_tokens": 146482.0,
       "step": 21
     },
     {
+      "entropy": 0.3363859634846449,
       "epoch": 0.26952526799387444,
+      "grad_norm": 1.5,
       "learning_rate": 0.00017439024390243903,
+      "loss": 0.10473912209272385,
+      "mean_token_accuracy": 0.9618786759674549,
+      "num_tokens": 153819.0,
       "step": 22
     },
     {
+      "entropy": 0.3069695383310318,
       "epoch": 0.28177641653905056,
+      "grad_norm": 1.3203125,
       "learning_rate": 0.00017317073170731708,
+      "loss": 0.09256276488304138,
+      "mean_token_accuracy": 0.9625396281480789,
+      "num_tokens": 160972.0,
       "step": 23
     },
     {
+      "entropy": 0.3574997428804636,
       "epoch": 0.29402756508422667,
+      "grad_norm": 0.62890625,
       "learning_rate": 0.00017195121951219512,
+      "loss": 0.09489140659570694,
+      "mean_token_accuracy": 0.9578843042254448,
+      "num_tokens": 167730.0,
       "step": 24
     },
     {
+      "entropy": 0.3444826593622565,
       "epoch": 0.30627871362940273,
+      "grad_norm": 0.56640625,
       "learning_rate": 0.0001707317073170732,
+      "loss": 0.09492132067680359,
+      "mean_token_accuracy": 0.9603794105350971,
+      "num_tokens": 174078.0,
       "step": 25
     },
     {
+      "entropy": 0.328093777410686,
       "epoch": 0.31852986217457885,
+      "grad_norm": 0.97265625,
       "learning_rate": 0.00016951219512195123,
+      "loss": 0.08727280050516129,
+      "mean_token_accuracy": 0.9661480598151684,
+      "num_tokens": 180867.0,
       "step": 26
     },
     {
+      "entropy": 0.3213672311976552,
       "epoch": 0.33078101071975496,
+      "grad_norm": 1.203125,
       "learning_rate": 0.00016829268292682927,
+      "loss": 0.07705243676900864,
+      "mean_token_accuracy": 0.9675347730517387,
+      "num_tokens": 187459.0,
       "step": 27
     },
     {
+      "entropy": 0.3209801884368062,
       "epoch": 0.3430321592649311,
+      "grad_norm": 0.49609375,
       "learning_rate": 0.00016707317073170731,
+      "loss": 0.08744930475950241,
+      "mean_token_accuracy": 0.9658873043954372,
+      "num_tokens": 194265.0,
       "step": 28
     },
     {
+      "entropy": 0.2975130006670952,
       "epoch": 0.3552833078101072,
+      "grad_norm": 0.578125,
       "learning_rate": 0.00016585365853658536,
+      "loss": 0.08422811329364777,
+      "mean_token_accuracy": 0.9715595282614231,
+      "num_tokens": 201332.0,
       "step": 29
     },
     {
+      "entropy": 0.29833013843744993,
       "epoch": 0.3675344563552833,
+      "grad_norm": 0.82421875,
       "learning_rate": 0.00016463414634146343,
+      "loss": 0.08079958707094193,
+      "mean_token_accuracy": 0.9676232784986496,
+      "num_tokens": 208902.0,
       "step": 30
     },
     {
+      "entropy": 0.31810148898512125,
       "epoch": 0.37978560490045943,
+      "grad_norm": 0.6796875,
       "learning_rate": 0.00016341463414634147,
+      "loss": 0.09296617656946182,
+      "mean_token_accuracy": 0.9628731682896614,
+      "num_tokens": 214635.0,
       "step": 31
     },
     {
+      "entropy": 0.2774961022660136,
       "epoch": 0.39203675344563554,
+      "grad_norm": 1.2109375,
       "learning_rate": 0.00016219512195121954,
+      "loss": 0.08057809621095657,
+      "mean_token_accuracy": 0.9683544635772705,
+      "num_tokens": 222703.0,
       "step": 32
     },
     {
+      "entropy": 0.2500351797789335,
       "epoch": 0.40428790199081166,
+      "grad_norm": 0.6953125,
       "learning_rate": 0.00016097560975609758,
+      "loss": 0.07790188491344452,
+      "mean_token_accuracy": 0.9730625562369823,
+      "num_tokens": 230136.0,
       "step": 33
     },
     {
+      "entropy": 0.27261121198534966,
       "epoch": 0.4165390505359878,
+      "grad_norm": 1.21875,
       "learning_rate": 0.00015975609756097562,
+      "loss": 0.08459997177124023,
+      "mean_token_accuracy": 0.9683701656758785,
+      "num_tokens": 236711.0,
       "step": 34
     },
     {
+      "entropy": 0.25461648125201464,
       "epoch": 0.42879019908116384,
+      "grad_norm": 1.5078125,
       "learning_rate": 0.00015853658536585366,
+      "loss": 0.09788602590560913,
+      "mean_token_accuracy": 0.9601947516202927,
+      "num_tokens": 243492.0,
       "step": 35
     },
     {
+      "entropy": 0.250462488271296,
       "epoch": 0.44104134762633995,
+      "grad_norm": 0.62109375,
       "learning_rate": 0.00015731707317073173,
+      "loss": 0.09664106369018555,
+      "mean_token_accuracy": 0.9635641165077686,
+      "num_tokens": 250330.0,
       "step": 36
     },
     {
+      "entropy": 0.26719998102635145,
       "epoch": 0.45329249617151607,
+      "grad_norm": 0.609375,
       "learning_rate": 0.00015609756097560978,
+      "loss": 0.08978135138750076,
+      "mean_token_accuracy": 0.9730992764234543,
+      "num_tokens": 257503.0,
       "step": 37
     },
     {
+      "entropy": 0.25437645614147186,
       "epoch": 0.4655436447166922,
+      "grad_norm": 1.0859375,
       "learning_rate": 0.00015487804878048782,
+      "loss": 0.08938639611005783,
+      "mean_token_accuracy": 0.9675878100097179,
+      "num_tokens": 264436.0,
       "step": 38
     },
     {
+      "entropy": 0.2722023595124483,
       "epoch": 0.4777947932618683,
+      "grad_norm": 1.375,
       "learning_rate": 0.00015365853658536586,
+      "loss": 0.07785381376743317,
+      "mean_token_accuracy": 0.9736072942614555,
+      "num_tokens": 270483.0,
       "step": 39
     },
     {
+      "entropy": 0.3116175327450037,
       "epoch": 0.4900459418070444,
+      "grad_norm": 0.65625,
       "learning_rate": 0.0001524390243902439,
+      "loss": 0.09019558876752853,
+      "mean_token_accuracy": 0.9605641178786755,
+      "num_tokens": 276329.0,
       "step": 40
     },
     {
+      "entropy": 0.28687036503106356,
       "epoch": 0.5022970903522205,
+      "grad_norm": 0.62890625,
       "learning_rate": 0.00015121951219512197,
+      "loss": 0.0810370221734047,
+      "mean_token_accuracy": 0.9663555175065994,
+      "num_tokens": 281636.0,
       "step": 41
     },
     {
+      "entropy": 0.2999298516660929,
       "epoch": 0.5145482388973966,
+      "grad_norm": 1.1484375,
       "learning_rate": 0.00015000000000000001,
+      "loss": 0.06981078535318375,
+      "mean_token_accuracy": 0.9718391671776772,
+      "num_tokens": 287849.0,
       "step": 42
     },
     {
+      "entropy": 0.3097079414874315,
       "epoch": 0.5267993874425727,
+      "grad_norm": 1.5546875,
       "learning_rate": 0.00014878048780487806,
+      "loss": 0.09350281953811646,
+      "mean_token_accuracy": 0.9683773033320904,
+      "num_tokens": 294425.0,
       "step": 43
     },
     {
+      "entropy": 0.2796417009085417,
       "epoch": 0.5390505359877489,
+      "grad_norm": 1.25,
       "learning_rate": 0.0001475609756097561,
+      "loss": 0.09558023512363434,
+      "mean_token_accuracy": 0.9602576456964016,
+      "num_tokens": 301451.0,
       "step": 44
     },
     {
+      "entropy": 0.265599487349391,
       "epoch": 0.5513016845329249,
+      "grad_norm": 0.59375,
       "learning_rate": 0.00014634146341463414,
+      "loss": 0.07772304862737656,
+      "mean_token_accuracy": 0.9693298228085041,
+      "num_tokens": 308208.0,
       "step": 45
     },
     {
+      "entropy": 0.29693579114973545,
       "epoch": 0.5635528330781011,
+      "grad_norm": 1.2109375,
       "learning_rate": 0.0001451219512195122,
+      "loss": 0.09863201528787613,
+      "mean_token_accuracy": 0.963471919298172,
+      "num_tokens": 314427.0,
       "step": 46
     },
     {
+      "entropy": 0.2665130514651537,
       "epoch": 0.5758039816232772,
+      "grad_norm": 0.80078125,
       "learning_rate": 0.00014390243902439025,
+      "loss": 0.08794506639242172,
+      "mean_token_accuracy": 0.9714972339570522,
+      "num_tokens": 321146.0,
       "step": 47
     },
     {
+      "entropy": 0.2665897011756897,
       "epoch": 0.5880551301684533,
+      "grad_norm": 0.765625,
       "learning_rate": 0.0001426829268292683,
+      "loss": 0.07602453231811523,
+      "mean_token_accuracy": 0.9719848223030567,
+      "num_tokens": 326952.0,
       "step": 48
     },
     {
+      "entropy": 0.2814077762886882,
       "epoch": 0.6003062787136294,
+      "grad_norm": 0.74609375,
       "learning_rate": 0.00014146341463414634,
+      "loss": 0.08512163907289505,
+      "mean_token_accuracy": 0.9680779539048672,
+      "num_tokens": 333716.0,
       "step": 49
     },
     {
+      "entropy": 0.311913987621665,
       "epoch": 0.6125574272588055,
+      "grad_norm": 0.52734375,
       "learning_rate": 0.00014024390243902438,
+      "loss": 0.0735088661313057,
+      "mean_token_accuracy": 0.9693484716117382,
+      "num_tokens": 339075.0,
       "step": 50
     },
     {
       "epoch": 0.6125574272588055,
+      "eval_entropy": 0.2772115924652072,
+      "eval_loss": 0.08680303394794464,
+      "eval_mean_token_accuracy": 0.9665399781171826,
+      "eval_num_tokens": 339075.0,
+      "eval_runtime": 64.122,
+      "eval_samples_per_second": 1.076,
+      "eval_steps_per_second": 1.076,
       "step": 50
     },
     {
+      "entropy": 0.2713254941627383,
       "epoch": 0.6248085758039816,
+      "grad_norm": 0.76953125,
       "learning_rate": 0.00013902439024390245,
+      "loss": 0.07364857941865921,
+      "mean_token_accuracy": 0.9685694649815559,
+      "num_tokens": 346211.0,
       "step": 51
     },
     {
+      "entropy": 0.27622572146356106,
       "epoch": 0.6370597243491577,
+      "grad_norm": 1.953125,
       "learning_rate": 0.0001378048780487805,
+      "loss": 0.08796638250350952,
+      "mean_token_accuracy": 0.9678671807050705,
+      "num_tokens": 353743.0,
       "step": 52
     },
     {
+      "entropy": 0.3153565675020218,
       "epoch": 0.6493108728943339,
+      "grad_norm": 1.8125,
       "learning_rate": 0.00013658536585365856,
+      "loss": 0.09189874678850174,
+      "mean_token_accuracy": 0.9696005284786224,
+      "num_tokens": 360765.0,
       "step": 53
     },
     {
+      "entropy": 0.2793878586962819,
       "epoch": 0.6615620214395099,
+      "grad_norm": 0.94140625,
       "learning_rate": 0.0001353658536585366,
+      "loss": 0.0844489261507988,
+      "mean_token_accuracy": 0.9678577370941639,
+      "num_tokens": 366800.0,
       "step": 54
     },
     {
+      "entropy": 0.31044898089021444,
       "epoch": 0.6738131699846861,
+      "grad_norm": 0.9375,
       "learning_rate": 0.00013414634146341464,
+      "loss": 0.07886157184839249,
+      "mean_token_accuracy": 0.9673981033265591,
+      "num_tokens": 373439.0,
       "step": 55
     },
     {
+      "entropy": 0.27184910606592894,
       "epoch": 0.6860643185298622,
+      "grad_norm": 1.3359375,
       "learning_rate": 0.0001329268292682927,
+      "loss": 0.0787871852517128,
+      "mean_token_accuracy": 0.9677317887544632,
+      "num_tokens": 380492.0,
       "step": 56
     },
     {
+      "entropy": 0.31349051371216774,
       "epoch": 0.6983154670750383,
+      "grad_norm": 1.59375,
       "learning_rate": 0.00013170731707317076,
+      "loss": 0.08862332254648209,
+      "mean_token_accuracy": 0.9652546346187592,
+      "num_tokens": 386711.0,
       "step": 57
     },
     {
+      "entropy": 0.2799685625359416,
       "epoch": 0.7105666156202144,
+      "grad_norm": 1.5078125,
       "learning_rate": 0.0001304878048780488,
+      "loss": 0.10028493404388428,
+      "mean_token_accuracy": 0.9606899172067642,
+      "num_tokens": 394124.0,
       "step": 58
     },
     {
+      "entropy": 0.2792940763756633,
       "epoch": 0.7228177641653905,
+      "grad_norm": 1.5859375,
       "learning_rate": 0.00012926829268292684,
+      "loss": 0.07462260127067566,
+      "mean_token_accuracy": 0.9740471467375755,
+      "num_tokens": 401499.0,
       "step": 59
     },
     {
+      "entropy": 0.29724057391285896,
       "epoch": 0.7350689127105666,
+      "grad_norm": 0.95703125,
       "learning_rate": 0.00012804878048780488,
+      "loss": 0.06339482963085175,
+      "mean_token_accuracy": 0.9754546955227852,
+      "num_tokens": 407443.0,
       "step": 60
     },
     {
+      "entropy": 0.2698040744289756,
       "epoch": 0.7473200612557427,
+      "grad_norm": 0.60546875,
       "learning_rate": 0.00012682926829268293,
+      "loss": 0.10221480578184128,
+      "mean_token_accuracy": 0.9670109152793884,
+      "num_tokens": 415471.0,
       "step": 61
     },
     {
+      "entropy": 0.2995635373517871,
       "epoch": 0.7595712098009189,
+      "grad_norm": 1.75,
       "learning_rate": 0.000125609756097561,
+      "loss": 0.08588436245918274,
+      "mean_token_accuracy": 0.9686382673680782,
+      "num_tokens": 422504.0,
       "step": 62
     },
     {
+      "entropy": 0.2458120621740818,
       "epoch": 0.7718223583460949,
+      "grad_norm": 2.1875,
       "learning_rate": 0.00012439024390243904,
+      "loss": 0.08629653602838516,
+      "mean_token_accuracy": 0.966422975063324,
+      "num_tokens": 430143.0,
       "step": 63
     },
     {
+      "entropy": 0.2900782600045204,
       "epoch": 0.7840735068912711,
+      "grad_norm": 0.9296875,
       "learning_rate": 0.00012317073170731708,
+      "loss": 0.08716308325529099,
+      "mean_token_accuracy": 0.965714868158102,
+      "num_tokens": 435664.0,
       "step": 64
     },
     {
+      "entropy": 0.29250922333449125,
       "epoch": 0.7963246554364471,
+      "grad_norm": 0.59375,
       "learning_rate": 0.00012195121951219512,
+      "loss": 0.08158774673938751,
+      "mean_token_accuracy": 0.9694335348904133,
+      "num_tokens": 442457.0,
       "step": 65
     },
     {
+      "entropy": 0.3083174014464021,
       "epoch": 0.8085758039816233,
+      "grad_norm": 0.82421875,
       "learning_rate": 0.00012073170731707318,
+      "loss": 0.0988016203045845,
+      "mean_token_accuracy": 0.9648039489984512,
+      "num_tokens": 449983.0,
       "step": 66
     },
     {
+      "entropy": 0.25693165976554155,
       "epoch": 0.8208269525267994,
+      "grad_norm": 0.74609375,
       "learning_rate": 0.00011951219512195122,
+      "loss": 0.07928164303302765,
+      "mean_token_accuracy": 0.9698546566069126,
+      "num_tokens": 457640.0,
       "step": 67
     },
     {
+      "entropy": 0.2752681290730834,
       "epoch": 0.8330781010719756,
+      "grad_norm": 0.97265625,
       "learning_rate": 0.00011829268292682926,
+      "loss": 0.07464170455932617,
+      "mean_token_accuracy": 0.9697864800691605,
+      "num_tokens": 464050.0,
       "step": 68
     },
     {
+      "entropy": 0.27110164798796177,
       "epoch": 0.8453292496171516,
+      "grad_norm": 0.71875,
       "learning_rate": 0.00011707317073170732,
+      "loss": 0.0718315988779068,
+      "mean_token_accuracy": 0.9709942191839218,
+      "num_tokens": 469546.0,
       "step": 69
     },
     {
+      "entropy": 0.3264527218416333,
       "epoch": 0.8575803981623277,
+      "grad_norm": 0.62109375,
       "learning_rate": 0.00011585365853658536,
+      "loss": 0.0866687223315239,
+      "mean_token_accuracy": 0.9700192771852016,
+      "num_tokens": 475365.0,
       "step": 70
     },
     {
+      "entropy": 0.3122966531664133,
       "epoch": 0.8698315467075038,
+      "grad_norm": 0.67578125,
       "learning_rate": 0.00011463414634146342,
+      "loss": 0.06088244915008545,
+      "mean_token_accuracy": 0.9754119366407394,
+      "num_tokens": 481830.0,
       "step": 71
     },
     {
+      "entropy": 0.3018254106864333,
       "epoch": 0.8820826952526799,
+      "grad_norm": 0.56640625,
       "learning_rate": 0.00011341463414634146,
+      "loss": 0.08657931536436081,
+      "mean_token_accuracy": 0.9676030017435551,
+      "num_tokens": 487767.0,
       "step": 72
     },
     {
+      "entropy": 0.3276115320622921,
       "epoch": 0.8943338437978561,
+      "grad_norm": 0.5078125,
       "learning_rate": 0.00011219512195121953,
+      "loss": 0.08024603128433228,
+      "mean_token_accuracy": 0.9690204374492168,
+      "num_tokens": 494428.0,
       "step": 73
     },
     {
+      "entropy": 0.32397411670535803,
       "epoch": 0.9065849923430321,
+      "grad_norm": 1.1015625,
       "learning_rate": 0.00011097560975609757,
+      "loss": 0.07867392897605896,
+      "mean_token_accuracy": 0.9685576297342777,
+      "num_tokens": 500828.0,
       "step": 74
     },
     {
+      "entropy": 0.319146528840065,
       "epoch": 0.9188361408882083,
+      "grad_norm": 0.97265625,
       "learning_rate": 0.00010975609756097563,
+      "loss": 0.08432602882385254,
+      "mean_token_accuracy": 0.9689616709947586,
+      "num_tokens": 507523.0,
       "step": 75
     },
     {
+      "entropy": 0.3080446803942323,
       "epoch": 0.9310872894333844,
+      "grad_norm": 1.265625,
       "learning_rate": 0.00010853658536585367,
+      "loss": 0.0796058252453804,
+      "mean_token_accuracy": 0.9683922417461872,
+      "num_tokens": 513607.0,
       "step": 76
     },
     {
+      "entropy": 0.2667541950941086,
       "epoch": 0.9433384379785605,
+      "grad_norm": 0.59375,
       "learning_rate": 0.00010731707317073172,
+      "loss": 0.06495777517557144,
+      "mean_token_accuracy": 0.977863471955061,
+      "num_tokens": 521376.0,
       "step": 77
     },
     {
+      "entropy": 0.27901614736765623,
       "epoch": 0.9555895865237366,
+      "grad_norm": 1.0859375,
       "learning_rate": 0.00010609756097560977,
+      "loss": 0.08389777690172195,
+      "mean_token_accuracy": 0.967527512460947,
+      "num_tokens": 528624.0,
       "step": 78
     },
     {
+      "entropy": 0.2754220822826028,
       "epoch": 0.9678407350689127,
+      "grad_norm": 1.3515625,
       "learning_rate": 0.00010487804878048781,
+      "loss": 0.0762331560254097,
+      "mean_token_accuracy": 0.9713698588311672,
+      "num_tokens": 534817.0,
       "step": 79
     },
     {
+      "entropy": 0.2981132147833705,
       "epoch": 0.9800918836140888,
+      "grad_norm": 1.4375,
       "learning_rate": 0.00010365853658536586,
+      "loss": 0.07953717559576035,
+      "mean_token_accuracy": 0.967929158359766,
+      "num_tokens": 541716.0,
       "step": 80
     },
     {
+      "entropy": 0.30576920323073864,
       "epoch": 0.9923430321592649,
+      "grad_norm": 1.0234375,
       "learning_rate": 0.0001024390243902439,
+      "loss": 0.07800528407096863,
+      "mean_token_accuracy": 0.971219640225172,
+      "num_tokens": 548000.0,
       "step": 81
     },
     {
+      "entropy": 0.24986045509576799,
       "epoch": 1.0,
+      "grad_norm": 0.58203125,
       "learning_rate": 0.00010121951219512196,
+      "loss": 0.05879032611846924,
+      "mean_token_accuracy": 0.9748349964618683,
+      "num_tokens": 552608.0,
       "step": 82
     },
     {
+      "entropy": 0.2518839007243514,
       "epoch": 1.0122511485451762,
+      "grad_norm": 0.49609375,
       "learning_rate": 0.0001,
+      "loss": 0.047237373888492584,
+      "mean_token_accuracy": 0.9874232485890388,
+      "num_tokens": 559523.0,
       "step": 83
     },
     {
+      "entropy": 0.2561075631529093,
       "epoch": 1.0245022970903521,
+      "grad_norm": 0.65234375,
       "learning_rate": 9.878048780487805e-05,
+      "loss": 0.04376941919326782,
+      "mean_token_accuracy": 0.9896520264446735,
+      "num_tokens": 566232.0,
       "step": 84
     },
     {
+      "entropy": 0.2935391655191779,
       "epoch": 1.0367534456355283,
+      "grad_norm": 0.486328125,
       "learning_rate": 9.75609756097561e-05,
+      "loss": 0.052017997950315475,
+      "mean_token_accuracy": 0.9823879115283489,
+      "num_tokens": 573965.0,
       "step": 85
     },
     {
+      "entropy": 0.21971730748191476,
       "epoch": 1.0490045941807045,
+      "grad_norm": 0.330078125,
       "learning_rate": 9.634146341463415e-05,
+      "loss": 0.04022914543747902,
+      "mean_token_accuracy": 0.9874378368258476,
+      "num_tokens": 580768.0,
       "step": 86
     },
     {
+      "entropy": 0.23719595093280077,
       "epoch": 1.0612557427258806,
+      "grad_norm": 0.68359375,
       "learning_rate": 9.51219512195122e-05,
+      "loss": 0.04782414808869362,
+      "mean_token_accuracy": 0.9846052750945091,
+      "num_tokens": 588097.0,
       "step": 87
     },
     {
+      "entropy": 0.25634779036045074,
       "epoch": 1.0735068912710566,
+      "grad_norm": 0.291015625,
       "learning_rate": 9.390243902439024e-05,
+      "loss": 0.03357430174946785,
+      "mean_token_accuracy": 0.9895204566419125,
+      "num_tokens": 594215.0,
       "step": 88
     },
     {
+      "entropy": 0.26507470663636923,
       "epoch": 1.0857580398162328,
+      "grad_norm": 0.89453125,
       "learning_rate": 9.26829268292683e-05,
+      "loss": 0.0427095852792263,
+      "mean_token_accuracy": 0.984734483063221,
+      "num_tokens": 600018.0,
       "step": 89
     },
     {
+      "entropy": 0.25531507655978203,
       "epoch": 1.098009188361409,
+      "grad_norm": 0.357421875,
       "learning_rate": 9.146341463414635e-05,
+      "loss": 0.04051242396235466,
+      "mean_token_accuracy": 0.9878104776144028,
+      "num_tokens": 606254.0,
       "step": 90
     },
     {
+      "entropy": 0.26176126673817635,
       "epoch": 1.110260336906585,
+      "grad_norm": 0.55078125,
       "learning_rate": 9.02439024390244e-05,
+      "loss": 0.03882109373807907,
+      "mean_token_accuracy": 0.9838540144264698,
+      "num_tokens": 612316.0,
       "step": 91
     },
     {
+      "entropy": 0.2165100760757923,
       "epoch": 1.122511485451761,
+      "grad_norm": 0.3671875,
       "learning_rate": 8.902439024390244e-05,
+      "loss": 0.03010629303753376,
+      "mean_token_accuracy": 0.9918084405362606,
+      "num_tokens": 619629.0,
       "step": 92
     },
     {
+      "entropy": 0.24866555724292994,
       "epoch": 1.1347626339969372,
+      "grad_norm": 0.7578125,
       "learning_rate": 8.78048780487805e-05,
+      "loss": 0.03892926499247551,
+      "mean_token_accuracy": 0.984953761100769,
+      "num_tokens": 625947.0,
       "step": 93
     },
     {
+      "entropy": 0.21699398616328835,
       "epoch": 1.1470137825421134,
+      "grad_norm": 0.53125,
       "learning_rate": 8.658536585365854e-05,
+      "loss": 0.040178049355745316,
+      "mean_token_accuracy": 0.986099898815155,
+      "num_tokens": 632906.0,
       "step": 94
     },
     {
+      "entropy": 0.2104594809934497,
       "epoch": 1.1592649310872893,
+      "grad_norm": 1.4375,
       "learning_rate": 8.53658536585366e-05,
+      "loss": 0.05103502795100212,
+      "mean_token_accuracy": 0.9873828142881393,
+      "num_tokens": 639769.0,
       "step": 95
     },
     {
+      "entropy": 0.21941981185227633,
       "epoch": 1.1715160796324655,
+      "grad_norm": 0.984375,
       "learning_rate": 8.414634146341464e-05,
+      "loss": 0.03593335300683975,
+      "mean_token_accuracy": 0.9901031330227852,
+      "num_tokens": 646347.0,
       "step": 96
     },
     {
+      "entropy": 0.23086606059223413,
       "epoch": 1.1837672281776417,
+      "grad_norm": 0.65625,
       "learning_rate": 8.292682926829268e-05,
+      "loss": 0.034123439341783524,
+      "mean_token_accuracy": 0.9874096475541592,
+      "num_tokens": 652247.0,
       "step": 97
     },
     {
+      "entropy": 0.21858725044876337,
       "epoch": 1.1960183767228179,
+      "grad_norm": 0.3515625,
       "learning_rate": 8.170731707317073e-05,
+      "loss": 0.03983831778168678,
+      "mean_token_accuracy": 0.9883633032441139,
+      "num_tokens": 659620.0,
       "step": 98
     },
     {
+      "entropy": 0.2186456574127078,
       "epoch": 1.2082695252679938,
+      "grad_norm": 0.50390625,
       "learning_rate": 8.048780487804879e-05,
+      "loss": 0.03659169375896454,
+      "mean_token_accuracy": 0.9874354675412178,
+      "num_tokens": 667017.0,
       "step": 99
     },
     {
+      "entropy": 0.21289387485012412,
       "epoch": 1.22052067381317,
+      "grad_norm": 1.2890625,
       "learning_rate": 7.926829268292683e-05,
+      "loss": 0.09039004892110825,
+      "mean_token_accuracy": 0.9841732494533062,
+      "num_tokens": 673866.0,
       "step": 100
     },
     {
       "epoch": 1.22052067381317,
+      "eval_entropy": 0.22615607968275098,
+      "eval_loss": 0.0748714804649353,
+      "eval_mean_token_accuracy": 0.9701917439267256,
+      "eval_num_tokens": 673866.0,
+      "eval_runtime": 64.1728,
+      "eval_samples_per_second": 1.075,
+      "eval_steps_per_second": 1.075,
       "step": 100
     },
     {
+      "entropy": 0.20847708079963923,
       "epoch": 1.2327718223583461,
+      "grad_norm": 0.9453125,
       "learning_rate": 7.804878048780489e-05,
+      "loss": 0.032662514597177505,
+      "mean_token_accuracy": 0.9919092357158661,
+      "num_tokens": 681308.0,
       "step": 101
     },
     {
+      "entropy": 0.23787071648985147,
       "epoch": 1.245022970903522,
+      "grad_norm": 0.859375,
       "learning_rate": 7.682926829268293e-05,
+      "loss": 0.044949762523174286,
+      "mean_token_accuracy": 0.987742405384779,
+      "num_tokens": 687496.0,
       "step": 102
     },
     {
+      "entropy": 0.21969830617308617,
       "epoch": 1.2572741194486983,
+      "grad_norm": 0.8671875,
       "learning_rate": 7.560975609756099e-05,
+      "loss": 0.036048222333192825,
+      "mean_token_accuracy": 0.98578891903162,
+      "num_tokens": 694818.0,
       "step": 103
     },
     {
+      "entropy": 0.228535583242774,
       "epoch": 1.2695252679938744,
+      "grad_norm": 1.7109375,
       "learning_rate": 7.439024390243903e-05,
+      "loss": 0.050321951508522034,
+      "mean_token_accuracy": 0.9846261814236641,
+      "num_tokens": 701351.0,
       "step": 104
     },
     {
+      "entropy": 0.21918219700455666,
       "epoch": 1.2817764165390506,
+      "grad_norm": 0.57421875,
       "learning_rate": 7.317073170731707e-05,
+      "loss": 0.03220512717962265,
+      "mean_token_accuracy": 0.9897662363946438,
+      "num_tokens": 707212.0,
       "step": 105
     },
     {
+      "entropy": 0.21648676693439484,
       "epoch": 1.2940275650842268,
+      "grad_norm": 0.921875,
       "learning_rate": 7.195121951219513e-05,
+      "loss": 0.031827542930841446,
+      "mean_token_accuracy": 0.9904872179031372,
+      "num_tokens": 714524.0,
       "step": 106
     },
     {
+      "entropy": 0.20004846714437008,
       "epoch": 1.3062787136294027,
+      "grad_norm": 1.0234375,
       "learning_rate": 7.073170731707317e-05,
+      "loss": 0.03981270268559456,
+      "mean_token_accuracy": 0.9861926138401031,
+      "num_tokens": 722033.0,
       "step": 107
     },
     {
+      "entropy": 0.21497153211385012,
       "epoch": 1.318529862174579,
+      "grad_norm": 0.53515625,
       "learning_rate": 6.951219512195122e-05,
+      "loss": 0.03612194582819939,
+      "mean_token_accuracy": 0.9883794784545898,
+      "num_tokens": 728835.0,
       "step": 108
     },
     {
+      "entropy": 0.22441515233367682,
       "epoch": 1.3307810107197549,
+      "grad_norm": 0.66796875,
       "learning_rate": 6.829268292682928e-05,
+      "loss": 0.037204962223768234,
+      "mean_token_accuracy": 0.9865190424025059,
+      "num_tokens": 735463.0,
       "step": 109
     },
     {
+      "entropy": 0.21172351390123367,
       "epoch": 1.343032159264931,
+      "grad_norm": 0.314453125,
       "learning_rate": 6.707317073170732e-05,
+      "loss": 0.03260833024978638,
+      "mean_token_accuracy": 0.9877017810940742,
+      "num_tokens": 742536.0,
       "step": 110
     },
     {
+      "entropy": 0.19597876677289605,
       "epoch": 1.3552833078101072,
+      "grad_norm": 0.419921875,
       "learning_rate": 6.585365853658538e-05,
+      "loss": 0.0339697040617466,
+      "mean_token_accuracy": 0.990579642355442,
+      "num_tokens": 749606.0,
       "step": 111
     },
     {
+      "entropy": 0.21933963894844055,
       "epoch": 1.3675344563552834,
+      "grad_norm": 0.53515625,
       "learning_rate": 6.463414634146342e-05,
+      "loss": 0.028515402227640152,
+      "mean_token_accuracy": 0.9883383698761463,
+      "num_tokens": 755287.0,
       "step": 112
     },
     {
+      "entropy": 0.21494697034358978,
       "epoch": 1.3797856049004595,
+      "grad_norm": 0.37890625,
       "learning_rate": 6.341463414634146e-05,
+      "loss": 0.03924579173326492,
+      "mean_token_accuracy": 0.9876385144889355,
+      "num_tokens": 763515.0,
       "step": 113
     },
     {
+      "entropy": 0.22842750838026404,
       "epoch": 1.3920367534456355,
+      "grad_norm": 1.1484375,
       "learning_rate": 6.219512195121952e-05,
+      "loss": 0.0367334708571434,
+      "mean_token_accuracy": 0.9872251562774181,
+      "num_tokens": 769660.0,
       "step": 114
     },
     {
+      "entropy": 0.2147415135987103,
       "epoch": 1.4042879019908117,
+      "grad_norm": 0.921875,
       "learning_rate": 6.097560975609756e-05,
+      "loss": 0.030023006722331047,
+      "mean_token_accuracy": 0.9890519753098488,
+      "num_tokens": 777068.0,
       "step": 115
     },
     {
+      "entropy": 0.2247378919273615,
       "epoch": 1.4165390505359878,
+      "grad_norm": 0.9375,
       "learning_rate": 5.975609756097561e-05,
+      "loss": 0.03915408253669739,
+      "mean_token_accuracy": 0.9883266240358353,
+      "num_tokens": 783422.0,
       "step": 116
     },
     {
+      "entropy": 0.19090860895812511,
       "epoch": 1.4287901990811638,
+      "grad_norm": 0.765625,
       "learning_rate": 5.853658536585366e-05,
+      "loss": 0.037202730774879456,
+      "mean_token_accuracy": 0.9874398410320282,
+      "num_tokens": 790851.0,
       "step": 117
     },
     {
+      "entropy": 0.2285028137266636,
       "epoch": 1.44104134762634,
+      "grad_norm": 1.9140625,
       "learning_rate": 5.731707317073171e-05,
+      "loss": 0.043229859322309494,
+      "mean_token_accuracy": 0.9905107729136944,
+      "num_tokens": 797801.0,
       "step": 118
     },
     {
+      "entropy": 0.2443255502730608,
       "epoch": 1.4532924961715161,
+      "grad_norm": 0.365234375,
       "learning_rate": 5.6097560975609764e-05,
+      "loss": 0.04100143164396286,
+      "mean_token_accuracy": 0.9880562499165535,
+      "num_tokens": 804371.0,
       "step": 119
     },
     {
+      "entropy": 0.19626039918512106,
       "epoch": 1.4655436447166923,
+      "grad_norm": 0.83984375,
       "learning_rate": 5.487804878048781e-05,
+      "loss": 0.038516998291015625,
+      "mean_token_accuracy": 0.988171175122261,
+      "num_tokens": 812335.0,
       "step": 120
     },
     {
+      "entropy": 0.2181866616010666,
       "epoch": 1.4777947932618682,
+      "grad_norm": 0.53515625,
       "learning_rate": 5.365853658536586e-05,
+      "loss": 0.02816646918654442,
+      "mean_token_accuracy": 0.9916124008595943,
+      "num_tokens": 818577.0,
       "step": 121
     },
     {
+      "entropy": 0.20635052677243948,
       "epoch": 1.4900459418070444,
+      "grad_norm": 0.74609375,
       "learning_rate": 5.2439024390243904e-05,
+      "loss": 0.04106622561812401,
+      "mean_token_accuracy": 0.9839451834559441,
+      "num_tokens": 825535.0,
       "step": 122
     },
     {
+      "entropy": 0.21835408825427294,
       "epoch": 1.5022970903522204,
+      "grad_norm": 0.427734375,
       "learning_rate": 5.121951219512195e-05,
+      "loss": 0.026341412216424942,
+      "mean_token_accuracy": 0.9940293915569782,
+      "num_tokens": 831505.0,
       "step": 123
     },
     {
+      "entropy": 0.21729151718318462,
       "epoch": 1.5145482388973965,
+      "grad_norm": 0.455078125,
       "learning_rate": 5e-05,
+      "loss": 0.028432821854948997,
+      "mean_token_accuracy": 0.9925089627504349,
+      "num_tokens": 838385.0,
       "step": 124
     },
     {
+      "entropy": 0.23625962156802416,
       "epoch": 1.5267993874425727,
+      "grad_norm": 0.72265625,
       "learning_rate": 4.878048780487805e-05,
+      "loss": 0.03885198384523392,
+      "mean_token_accuracy": 0.9883155077695847,
+      "num_tokens": 845433.0,
       "step": 125
     },
     {
+      "entropy": 0.21153692342340946,
       "epoch": 1.5390505359877489,
+      "grad_norm": 0.66796875,
       "learning_rate": 4.75609756097561e-05,
+      "loss": 0.03570759296417236,
+      "mean_token_accuracy": 0.9910184219479561,
+      "num_tokens": 852471.0,
       "step": 126
     },
     {
+      "entropy": 0.23752436228096485,
       "epoch": 1.551301684532925,
+      "grad_norm": 0.640625,
       "learning_rate": 4.634146341463415e-05,
+      "loss": 0.028638798743486404,
+      "mean_token_accuracy": 0.9928638078272343,
+      "num_tokens": 858702.0,
       "step": 127
     },
     {
+      "entropy": 0.2128417994827032,
       "epoch": 1.5635528330781012,
+      "grad_norm": 0.8828125,
       "learning_rate": 4.51219512195122e-05,
+      "loss": 0.029636576771736145,
+      "mean_token_accuracy": 0.9910452663898468,
+      "num_tokens": 865325.0,
       "step": 128
     },
     {
+      "entropy": 0.216589767485857,
       "epoch": 1.5758039816232772,
+      "grad_norm": 0.453125,
       "learning_rate": 4.390243902439025e-05,
+      "loss": 0.03238631784915924,
+      "mean_token_accuracy": 0.9904623441398144,
+      "num_tokens": 871341.0,
       "step": 129
     },
     {
+      "entropy": 0.19242106284946203,
       "epoch": 1.5880551301684533,
+      "grad_norm": 0.392578125,
       "learning_rate": 4.26829268292683e-05,
+      "loss": 0.0261989776045084,
+      "mean_token_accuracy": 0.9925210140645504,
+      "num_tokens": 878973.0,
       "step": 130
     },
     {
+      "entropy": 0.22208478767424822,
       "epoch": 1.6003062787136293,
+      "grad_norm": 0.328125,
       "learning_rate": 4.146341463414634e-05,
+      "loss": 0.029643766582012177,
+      "mean_token_accuracy": 0.9926025420427322,
+      "num_tokens": 885517.0,
       "step": 131
     },
     {
+      "entropy": 0.19283092580735683,
       "epoch": 1.6125574272588055,
+      "grad_norm": 0.423828125,
       "learning_rate": 4.0243902439024395e-05,
+      "loss": 0.03948017954826355,
+      "mean_token_accuracy": 0.9875317811965942,
+      "num_tokens": 893273.0,
       "step": 132
     },
     {
+      "entropy": 0.18790056556463242,
       "epoch": 1.6248085758039816,
+      "grad_norm": 0.625,
       "learning_rate": 3.9024390243902444e-05,
+      "loss": 0.025747017934918404,
+      "mean_token_accuracy": 0.9934940375387669,
+      "num_tokens": 900019.0,
       "step": 133
     },
     {
+      "entropy": 0.20814241049811244,
       "epoch": 1.6370597243491578,
+      "grad_norm": 0.376953125,
       "learning_rate": 3.780487804878049e-05,
+      "loss": 0.03998865559697151,
+      "mean_token_accuracy": 0.9876968078315258,
+      "num_tokens": 906633.0,
       "step": 134
     },
     {
+      "entropy": 0.1975369704887271,
       "epoch": 1.649310872894334,
+      "grad_norm": 0.3203125,
       "learning_rate": 3.6585365853658535e-05,
+      "loss": 0.031131668016314507,
+      "mean_token_accuracy": 0.9915927015244961,
+      "num_tokens": 913990.0,
       "step": 135
     },
     {
+      "entropy": 0.23459685500711203,
       "epoch": 1.66156202143951,
+      "grad_norm": 0.76171875,
       "learning_rate": 3.5365853658536584e-05,
+      "loss": 0.03373259678483009,
+      "mean_token_accuracy": 0.9898596629500389,
+      "num_tokens": 919248.0,
       "step": 136
     },
     {
+      "entropy": 0.1909911371767521,
       "epoch": 1.673813169984686,
+      "grad_norm": 0.60546875,
       "learning_rate": 3.414634146341464e-05,
+      "loss": 0.037791188806295395,
+      "mean_token_accuracy": 0.9897548258304596,
+      "num_tokens": 926248.0,
       "step": 137
     },
     {
+      "entropy": 0.2332595670595765,
       "epoch": 1.686064318529862,
+      "grad_norm": 0.89453125,
       "learning_rate": 3.292682926829269e-05,
+      "loss": 0.03799242898821831,
+      "mean_token_accuracy": 0.9867184162139893,
+      "num_tokens": 932490.0,
       "step": 138
     },
     {
+      "entropy": 0.22243124432861805,
       "epoch": 1.6983154670750382,
+      "grad_norm": 0.61328125,
       "learning_rate": 3.170731707317073e-05,
+      "loss": 0.04291514679789543,
+      "mean_token_accuracy": 0.9877815246582031,
+      "num_tokens": 938756.0,
       "step": 139
     },
     {
+      "entropy": 0.20778016652911901,
       "epoch": 1.7105666156202144,
+      "grad_norm": 0.41796875,
       "learning_rate": 3.048780487804878e-05,
+      "loss": 0.023588458076119423,
+      "mean_token_accuracy": 0.9942950084805489,
+      "num_tokens": 945866.0,
       "step": 140
     },
     {
+      "entropy": 0.18776059616357088,
       "epoch": 1.7228177641653906,
+      "grad_norm": 0.41796875,
       "learning_rate": 2.926829268292683e-05,
+      "loss": 0.03229852020740509,
+      "mean_token_accuracy": 0.9909596405923367,
+      "num_tokens": 952865.0,
       "step": 141
     },
     {
+      "entropy": 0.18707702960819006,
       "epoch": 1.7350689127105667,
+      "grad_norm": 0.609375,
       "learning_rate": 2.8048780487804882e-05,
+      "loss": 0.03691868111491203,
+      "mean_token_accuracy": 0.9900590926408768,
+      "num_tokens": 959190.0,
       "step": 142
     },
     {
+      "entropy": 0.1914756903424859,
       "epoch": 1.7473200612557427,
+      "grad_norm": 0.408203125,
       "learning_rate": 2.682926829268293e-05,
+      "loss": 0.03487441688776016,
+      "mean_token_accuracy": 0.9909356310963631,
+      "num_tokens": 966059.0,
       "step": 143
     },
     {
+      "entropy": 0.20852853963151574,
       "epoch": 1.7595712098009189,
+      "grad_norm": 0.380859375,
       "learning_rate": 2.5609756097560977e-05,
+      "loss": 0.03023841790854931,
+      "mean_token_accuracy": 0.9922478385269642,
+      "num_tokens": 973553.0,
       "step": 144
     },
     {
+      "entropy": 0.18278094567358494,
       "epoch": 1.7718223583460948,
+      "grad_norm": 0.65625,
       "learning_rate": 2.4390243902439026e-05,
+      "loss": 0.03335383161902428,
+      "mean_token_accuracy": 0.9902437664568424,
+      "num_tokens": 980748.0,
       "step": 145
     },
     {
+      "entropy": 0.2156418706290424,
       "epoch": 1.784073506891271,
+      "grad_norm": 0.58984375,
       "learning_rate": 2.3170731707317075e-05,
+      "loss": 0.026211977005004883,
+      "mean_token_accuracy": 0.9913386814296246,
+      "num_tokens": 987018.0,
       "step": 146
     },
     {
+      "entropy": 0.2084086169488728,
       "epoch": 1.7963246554364471,
+      "grad_norm": 0.37890625,
       "learning_rate": 2.1951219512195124e-05,
+      "loss": 0.029074503108859062,
+      "mean_token_accuracy": 0.9920879267156124,
+      "num_tokens": 993841.0,
       "step": 147
     },
     {
+      "entropy": 0.2162067350000143,
       "epoch": 1.8085758039816233,
+      "grad_norm": 0.38671875,
       "learning_rate": 2.073170731707317e-05,
+      "loss": 0.027591165155172348,
+      "mean_token_accuracy": 0.9916894063353539,
+      "num_tokens": 1000318.0,
       "step": 148
     },
     {
+      "entropy": 0.22895692195743322,
       "epoch": 1.8208269525267995,
+      "grad_norm": 1.421875,
       "learning_rate": 1.9512195121951222e-05,
+      "loss": 0.034101299941539764,
+      "mean_token_accuracy": 0.9889856353402138,
+      "num_tokens": 1005747.0,
       "step": 149
     },
     {
+      "entropy": 0.21029841899871826,
       "epoch": 1.8330781010719757,
+      "grad_norm": 0.59375,
       "learning_rate": 1.8292682926829268e-05,
+      "loss": 0.04408642649650574,
+      "mean_token_accuracy": 0.988445583730936,
+      "num_tokens": 1013365.0,
       "step": 150
     },
     {
       "epoch": 1.8330781010719757,
+      "eval_entropy": 0.21028992522885834,
+      "eval_loss": 0.06481878459453583,
+      "eval_mean_token_accuracy": 0.9753203677094501,
+      "eval_num_tokens": 1013365.0,
+      "eval_runtime": 64.1224,
+      "eval_samples_per_second": 1.076,
+      "eval_steps_per_second": 1.076,
       "step": 150
     },
     {
+      "entropy": 0.23085341975092888,
       "epoch": 1.8453292496171516,
+      "grad_norm": 0.375,
       "learning_rate": 1.707317073170732e-05,
+      "loss": 0.03518415987491608,
+      "mean_token_accuracy": 0.9906566366553307,
+      "num_tokens": 1018758.0,
       "step": 151
     },
     {
+      "entropy": 0.21574621414765716,
       "epoch": 1.8575803981623276,
+      "grad_norm": 0.51953125,
       "learning_rate": 1.5853658536585366e-05,
+      "loss": 0.028541577979922295,
+      "mean_token_accuracy": 0.9907862320542336,
+      "num_tokens": 1026224.0,
       "step": 152
     },
     {
+      "entropy": 0.18795023765414953,
       "epoch": 1.8698315467075037,
+      "grad_norm": 0.5234375,
       "learning_rate": 1.4634146341463415e-05,
+      "loss": 0.02955229952931404,
+      "mean_token_accuracy": 0.9923531115055084,
+      "num_tokens": 1033949.0,
       "step": 153
     },
     {
+      "entropy": 0.21928654983639717,
       "epoch": 1.88208269525268,
+      "grad_norm": 0.2421875,
       "learning_rate": 1.3414634146341466e-05,
+      "loss": 0.02629980631172657,
+      "mean_token_accuracy": 0.9936561770737171,
+      "num_tokens": 1041050.0,
       "step": 154
     },
     {
+      "entropy": 0.22051549516618252,
       "epoch": 1.894333843797856,
+      "grad_norm": 0.419921875,
       "learning_rate": 1.2195121951219513e-05,
+      "loss": 0.03377772495150566,
+      "mean_token_accuracy": 0.9897954650223255,
+      "num_tokens": 1047621.0,
       "step": 155
     },
     {
+      "entropy": 0.220434432849288,
       "epoch": 1.9065849923430322,
+      "grad_norm": 0.640625,
       "learning_rate": 1.0975609756097562e-05,
+      "loss": 0.03985638543963432,
+      "mean_token_accuracy": 0.9877757839858532,
+      "num_tokens": 1053963.0,
       "step": 156
     },
     {
+      "entropy": 0.20754134468734264,
       "epoch": 1.9188361408882084,
+      "grad_norm": 0.34765625,
       "learning_rate": 9.756097560975611e-06,
+      "loss": 0.03090263158082962,
+      "mean_token_accuracy": 0.9914594441652298,
+      "num_tokens": 1061378.0,
       "step": 157
     },
     {
+      "entropy": 0.21179267205297947,
       "epoch": 1.9310872894333844,
+      "grad_norm": 0.5625,
       "learning_rate": 8.53658536585366e-06,
+      "loss": 0.028556756675243378,
+      "mean_token_accuracy": 0.9921947717666626,
+      "num_tokens": 1067649.0,
       "step": 158
     },
     {
+      "entropy": 0.20413818582892418,
       "epoch": 1.9433384379785605,
+      "grad_norm": 0.54296875,
       "learning_rate": 7.317073170731707e-06,
+      "loss": 0.029063822701573372,
+      "mean_token_accuracy": 0.9915811195969582,
+      "num_tokens": 1073729.0,
       "step": 159
     },
     {
+      "entropy": 0.19627654599025846,
       "epoch": 1.9555895865237365,
+      "grad_norm": 0.3125,
       "learning_rate": 6.0975609756097564e-06,
+      "loss": 0.03230921924114227,
+      "mean_token_accuracy": 0.9897297285497189,
+      "num_tokens": 1080422.0,
       "step": 160
     },
     {
+      "entropy": 0.20519507862627506,
       "epoch": 1.9678407350689127,
+      "grad_norm": 0.306640625,
       "learning_rate": 4.8780487804878055e-06,
+      "loss": 0.026061467826366425,
+      "mean_token_accuracy": 0.9930403046309948,
+      "num_tokens": 1087517.0,
       "step": 161
     },
     {
+      "entropy": 0.21147159207612276,
       "epoch": 1.9800918836140888,
+      "grad_norm": 0.458984375,
       "learning_rate": 3.6585365853658537e-06,
+      "loss": 0.03128533065319061,
+      "mean_token_accuracy": 0.9902758039534092,
+      "num_tokens": 1093989.0,
       "step": 162
     },
     {
+      "entropy": 0.2088263975456357,
       "epoch": 1.992343032159265,
+      "grad_norm": 0.5390625,
       "learning_rate": 2.4390243902439027e-06,
+      "loss": 0.047114044427871704,
+      "mean_token_accuracy": 0.9882928691804409,
+      "num_tokens": 1101351.0,
       "step": 163
     },
     {
+      "entropy": 0.2400845021009445,
       "epoch": 2.0,
+      "grad_norm": 0.61328125,
       "learning_rate": 1.2195121951219514e-06,
+      "loss": 0.024358952417969704,
+      "mean_token_accuracy": 0.9906890511512756,
+      "num_tokens": 1105216.0,
       "step": 164
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 5.004551367111475e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null