Training in progress, step 950, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.bin +1 -1
last-checkpoint/pytorch_model_fsdp.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +361 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fe1759b3d2196474b0141a45e5c0301b7acd7577de2d7644e9d83466c35af359
 size 456206152

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1089357c04ec4a0de85e536d52bb4c8df60d290b4d9d5b00a873e9fd046dbbc
 size 456206152

last-checkpoint/optimizer.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:57f11133f287c5e1c7ae9bafc3d509f901f222b2daec844eff5e923db9d2f85f
 size 912763251

 version https://git-lfs.github.com/spec/v1
+oid sha256:341005da48ef83ba8e839e0b70ed4e82e9000785e704bde8bfccb97361384f99
 size 912763251

last-checkpoint/pytorch_model_fsdp.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d7dc69d550f0a0b90b9d608408e8a52c879c7e99e7dfa034d49bba4421ae3c9b
 size 456340209

 version https://git-lfs.github.com/spec/v1
+oid sha256:26402a2eca103da6a9d310b909392899395babe69e239568a171a2b21830103e
 size 456340209

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:81b739c0c0556fdc3942ec7039cdb0b52555902e1f2e420f6d965e6994495570
 size 14917

 version https://git-lfs.github.com/spec/v1
+oid sha256:2cdab9c82a05ed01f13b244c083ffefdc46b875ecbe29601f180ef3e698088da
 size 14917

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c1e8a7c325d4cacdc3150876f7ea6ce044d4707d2b0af2681e0076f1407efb3f
 size 14917

 version https://git-lfs.github.com/spec/v1
+oid sha256:53d0d0d70f1e731a3047262bd6862bc5a552fb1c97f56fe3ab8a8bfb39f818e9
 size 14917

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:69fe57146c6b7b3275771cf1c2db2d6495806161adaf6948e7c8319d2b5bbffc
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:92949f20b07ea4400476cbbf4d64075409dbdf1f6201cbb60ef6c1f93ae34bd6
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.8292682926829267,
   "eval_steps": 50,
-  "global_step": 900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6460,6 +6460,364 @@
       "eval_samples_per_second": 0.257,
       "eval_steps_per_second": 0.134,
       "step": 900
     }
   ],
   "logging_steps": 1,
@@ -6479,7 +6837,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.712127254458532e+18,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.9308943089430894,
   "eval_steps": 50,
+  "global_step": 950,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 0.257,
       "eval_steps_per_second": 0.134,
       "step": 900
+    },
+    {
+      "epoch": 1.83130081300813,
+      "grad_norm": 0.3286548852920532,
+      "learning_rate": 9.484105088313405e-08,
+      "loss": 2.4378,
+      "step": 901
+    },
+    {
+      "epoch": 1.8333333333333335,
+      "grad_norm": 0.3614640533924103,
+      "learning_rate": 9.261033555538562e-08,
+      "loss": 2.5291,
+      "step": 902
+    },
+    {
+      "epoch": 1.8353658536585367,
+      "grad_norm": 0.4283101558685303,
+      "learning_rate": 9.040567210362756e-08,
+      "loss": 2.7602,
+      "step": 903
+    },
+    {
+      "epoch": 1.8373983739837398,
+      "grad_norm": 0.4066496789455414,
+      "learning_rate": 8.822708438590871e-08,
+      "loss": 2.4093,
+      "step": 904
+    },
+    {
+      "epoch": 1.839430894308943,
+      "grad_norm": 0.29669034481048584,
+      "learning_rate": 8.607459597809565e-08,
+      "loss": 2.4789,
+      "step": 905
+    },
+    {
+      "epoch": 1.8414634146341462,
+      "grad_norm": 0.38676008582115173,
+      "learning_rate": 8.394823017361747e-08,
+      "loss": 2.7217,
+      "step": 906
+    },
+    {
+      "epoch": 1.8434959349593496,
+      "grad_norm": 0.3684881627559662,
+      "learning_rate": 8.184800998321418e-08,
+      "loss": 2.5145,
+      "step": 907
+    },
+    {
+      "epoch": 1.845528455284553,
+      "grad_norm": 0.37486544251441956,
+      "learning_rate": 7.977395813468792e-08,
+      "loss": 2.3948,
+      "step": 908
+    },
+    {
+      "epoch": 1.8475609756097562,
+      "grad_norm": 0.38173386454582214,
+      "learning_rate": 7.772609707265732e-08,
+      "loss": 2.4007,
+      "step": 909
+    },
+    {
+      "epoch": 1.8495934959349594,
+      "grad_norm": 0.3323315680027008,
+      "learning_rate": 7.57044489583128e-08,
+      "loss": 2.3632,
+      "step": 910
+    },
+    {
+      "epoch": 1.8516260162601625,
+      "grad_norm": 0.34292104840278625,
+      "learning_rate": 7.370903566917915e-08,
+      "loss": 2.6982,
+      "step": 911
+    },
+    {
+      "epoch": 1.8536585365853657,
+      "grad_norm": 0.36134734749794006,
+      "learning_rate": 7.173987879887683e-08,
+      "loss": 2.5694,
+      "step": 912
+    },
+    {
+      "epoch": 1.8556910569105691,
+      "grad_norm": 0.4461964964866638,
+      "learning_rate": 6.97969996568898e-08,
+      "loss": 2.4623,
+      "step": 913
+    },
+    {
+      "epoch": 1.8577235772357723,
+      "grad_norm": 0.36540645360946655,
+      "learning_rate": 6.788041926833382e-08,
+      "loss": 2.5548,
+      "step": 914
+    },
+    {
+      "epoch": 1.8597560975609757,
+      "grad_norm": 0.3682396113872528,
+      "learning_rate": 6.599015837372907e-08,
+      "loss": 2.5853,
+      "step": 915
+    },
+    {
+      "epoch": 1.8617886178861789,
+      "grad_norm": 0.35821810364723206,
+      "learning_rate": 6.412623742877655e-08,
+      "loss": 2.5411,
+      "step": 916
+    },
+    {
+      "epoch": 1.863821138211382,
+      "grad_norm": 0.44045495986938477,
+      "learning_rate": 6.228867660413557e-08,
+      "loss": 2.2603,
+      "step": 917
+    },
+    {
+      "epoch": 1.8658536585365852,
+      "grad_norm": 0.38515955209732056,
+      "learning_rate": 6.04774957852064e-08,
+      "loss": 2.9653,
+      "step": 918
+    },
+    {
+      "epoch": 1.8678861788617886,
+      "grad_norm": 0.36234351992607117,
+      "learning_rate": 5.869271457191433e-08,
+      "loss": 2.4239,
+      "step": 919
+    },
+    {
+      "epoch": 1.8699186991869918,
+      "grad_norm": 0.3159945011138916,
+      "learning_rate": 5.693435227849875e-08,
+      "loss": 2.4183,
+      "step": 920
+    },
+    {
+      "epoch": 1.8719512195121952,
+      "grad_norm": 0.37130528688430786,
+      "learning_rate": 5.520242793330216e-08,
+      "loss": 2.52,
+      "step": 921
+    },
+    {
+      "epoch": 1.8739837398373984,
+      "grad_norm": 0.4329441487789154,
+      "learning_rate": 5.3496960278565935e-08,
+      "loss": 2.4319,
+      "step": 922
+    },
+    {
+      "epoch": 1.8760162601626016,
+      "grad_norm": 0.32947462797164917,
+      "learning_rate": 5.181796777022713e-08,
+      "loss": 2.4703,
+      "step": 923
+    },
+    {
+      "epoch": 1.8780487804878048,
+      "grad_norm": 0.41265442967414856,
+      "learning_rate": 5.0165468577718924e-08,
+      "loss": 2.8564,
+      "step": 924
+    },
+    {
+      "epoch": 1.8800813008130082,
+      "grad_norm": 0.43159809708595276,
+      "learning_rate": 4.853948058377245e-08,
+      "loss": 2.6758,
+      "step": 925
+    },
+    {
+      "epoch": 1.8821138211382114,
+      "grad_norm": 0.3749174475669861,
+      "learning_rate": 4.6940021384226095e-08,
+      "loss": 2.5812,
+      "step": 926
+    },
+    {
+      "epoch": 1.8841463414634148,
+      "grad_norm": 0.2780403792858124,
+      "learning_rate": 4.5367108287832085e-08,
+      "loss": 2.5903,
+      "step": 927
+    },
+    {
+      "epoch": 1.886178861788618,
+      "grad_norm": 0.4100690484046936,
+      "learning_rate": 4.3820758316071854e-08,
+      "loss": 2.4091,
+      "step": 928
+    },
+    {
+      "epoch": 1.8882113821138211,
+      "grad_norm": 0.4257347583770752,
+      "learning_rate": 4.2300988202969296e-08,
+      "loss": 2.4165,
+      "step": 929
+    },
+    {
+      "epoch": 1.8902439024390243,
+      "grad_norm": 0.3895331621170044,
+      "learning_rate": 4.0807814394911996e-08,
+      "loss": 2.2612,
+      "step": 930
+    },
+    {
+      "epoch": 1.8922764227642277,
+      "grad_norm": 0.41140511631965637,
+      "learning_rate": 3.934125305047165e-08,
+      "loss": 2.6891,
+      "step": 931
+    },
+    {
+      "epoch": 1.8943089430894309,
+      "grad_norm": 0.3074701428413391,
+      "learning_rate": 3.790132004022978e-08,
+      "loss": 2.4966,
+      "step": 932
+    },
+    {
+      "epoch": 1.8963414634146343,
+      "grad_norm": 0.3473949432373047,
+      "learning_rate": 3.6488030946606744e-08,
+      "loss": 2.4893,
+      "step": 933
+    },
+    {
+      "epoch": 1.8983739837398375,
+      "grad_norm": 0.38969168066978455,
+      "learning_rate": 3.510140106369103e-08,
+      "loss": 2.561,
+      "step": 934
+    },
+    {
+      "epoch": 1.9004065040650406,
+      "grad_norm": 0.3749343156814575,
+      "learning_rate": 3.37414453970758e-08,
+      "loss": 2.6589,
+      "step": 935
+    },
+    {
+      "epoch": 1.9024390243902438,
+      "grad_norm": 0.33751150965690613,
+      "learning_rate": 3.2408178663696225e-08,
+      "loss": 2.2882,
+      "step": 936
+    },
+    {
+      "epoch": 1.904471544715447,
+      "grad_norm": 0.40897300839424133,
+      "learning_rate": 3.110161529166878e-08,
+      "loss": 2.456,
+      "step": 937
+    },
+    {
+      "epoch": 1.9065040650406504,
+      "grad_norm": 0.3012900948524475,
+      "learning_rate": 2.982176942013665e-08,
+      "loss": 2.626,
+      "step": 938
+    },
+    {
+      "epoch": 1.9085365853658538,
+      "grad_norm": 0.3892320692539215,
+      "learning_rate": 2.8568654899116254e-08,
+      "loss": 2.8018,
+      "step": 939
+    },
+    {
+      "epoch": 1.910569105691057,
+      "grad_norm": 0.349513441324234,
+      "learning_rate": 2.734228528934679e-08,
+      "loss": 2.2679,
+      "step": 940
+    },
+    {
+      "epoch": 1.9126016260162602,
+      "grad_norm": 0.3486090898513794,
+      "learning_rate": 2.614267386214453e-08,
+      "loss": 2.1905,
+      "step": 941
+    },
+    {
+      "epoch": 1.9146341463414633,
+      "grad_norm": 0.3776640295982361,
+      "learning_rate": 2.49698335992582e-08,
+      "loss": 2.4652,
+      "step": 942
+    },
+    {
+      "epoch": 1.9166666666666665,
+      "grad_norm": 0.3477821350097656,
+      "learning_rate": 2.382377719272938e-08,
+      "loss": 2.6303,
+      "step": 943
+    },
+    {
+      "epoch": 1.91869918699187,
+      "grad_norm": 0.4629431366920471,
+      "learning_rate": 2.2704517044754017e-08,
+      "loss": 2.9256,
+      "step": 944
+    },
+    {
+      "epoch": 1.9207317073170733,
+      "grad_norm": 0.3135490119457245,
+      "learning_rate": 2.161206526754972e-08,
+      "loss": 2.454,
+      "step": 945
+    },
+    {
+      "epoch": 1.9227642276422765,
+      "grad_norm": 0.38131558895111084,
+      "learning_rate": 2.05464336832234e-08,
+      "loss": 2.4313,
+      "step": 946
+    },
+    {
+      "epoch": 1.9247967479674797,
+      "grad_norm": 0.28232431411743164,
+      "learning_rate": 1.9507633823643847e-08,
+      "loss": 2.4393,
+      "step": 947
+    },
+    {
+      "epoch": 1.9268292682926829,
+      "grad_norm": 0.44581282138824463,
+      "learning_rate": 1.849567693031684e-08,
+      "loss": 2.3199,
+      "step": 948
+    },
+    {
+      "epoch": 1.928861788617886,
+      "grad_norm": 0.44541609287261963,
+      "learning_rate": 1.7510573954263864e-08,
+      "loss": 2.1009,
+      "step": 949
+    },
+    {
+      "epoch": 1.9308943089430894,
+      "grad_norm": 0.4000997245311737,
+      "learning_rate": 1.65523355559033e-08,
+      "loss": 2.8416,
+      "step": 950
+    },
+    {
+      "epoch": 1.9308943089430894,
+      "eval_loss": 2.523684024810791,
+      "eval_runtime": 89.4612,
+      "eval_samples_per_second": 0.257,
+      "eval_steps_per_second": 0.134,
+      "step": 950
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 9.195368100613063e+18,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null