diff --git "a/trainer_state.json" "b/trainer_state.json"
new file mode 100644--- /dev/null
+++ "b/trainer_state.json"
@@ -0,0 +1,129623 @@
+{
+  "best_metric": 1.60741866,
+  "best_model_checkpoint": "/home/ubuntu/s2/swift/output_qwen0_5B_2epochs/qwen2_5-0_5b/v0-20241211-015110/checkpoint-62000",
+  "epoch": 1.5728056823947236,
+  "eval_steps": 100,
+  "global_step": 62000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "acc": 0.61795592,
+      "epoch": 2.536783358701167e-05,
+      "grad_norm": 6.84375,
+      "learning_rate": 2.536783358701167e-09,
+      "loss": 1.89075112,
+      "memory(GiB)": 14.88,
+      "step": 1,
+      "train_speed(iter/s)": 0.054125
+    },
+    {
+      "acc": 0.57646704,
+      "epoch": 0.00012683916793505834,
+      "grad_norm": 7.09375,
+      "learning_rate": 1.2683916793505834e-08,
+      "loss": 2.04062319,
+      "memory(GiB)": 18.73,
+      "step": 5,
+      "train_speed(iter/s)": 0.220218
+    },
+    {
+      "acc": 0.56165848,
+      "epoch": 0.0002536783358701167,
+      "grad_norm": 6.15625,
+      "learning_rate": 2.536783358701167e-08,
+      "loss": 2.15522804,
+      "memory(GiB)": 18.73,
+      "step": 10,
+      "train_speed(iter/s)": 0.3585
+    },
+    {
+      "acc": 0.55539145,
+      "epoch": 0.000380517503805175,
+      "grad_norm": 6.78125,
+      "learning_rate": 3.80517503805175e-08,
+      "loss": 2.24601555,
+      "memory(GiB)": 29.37,
+      "step": 15,
+      "train_speed(iter/s)": 0.453561
+    },
+    {
+      "acc": 0.564114,
+      "epoch": 0.0005073566717402334,
+      "grad_norm": 8.125,
+      "learning_rate": 5.073566717402334e-08,
+      "loss": 2.15130463,
+      "memory(GiB)": 45.31,
+      "step": 20,
+      "train_speed(iter/s)": 0.522365
+    },
+    {
+      "acc": 0.55909257,
+      "epoch": 0.0006341958396752917,
+      "grad_norm": 6.78125,
+      "learning_rate": 6.341958396752917e-08,
+      "loss": 2.18794022,
+      "memory(GiB)": 45.31,
+      "step": 25,
+      "train_speed(iter/s)": 0.575347
+    },
+    {
+      "acc": 0.57406425,
+      "epoch": 0.00076103500761035,
+      "grad_norm": 9.625,
+      "learning_rate": 7.6103500761035e-08,
+      "loss": 2.13946915,
+      "memory(GiB)": 45.31,
+      "step": 30,
+      "train_speed(iter/s)": 0.616678
+    },
+    {
+      "acc": 0.56211061,
+      "epoch": 0.0008878741755454084,
+      "grad_norm": 6.9375,
+      "learning_rate": 8.878741755454084e-08,
+      "loss": 2.19021778,
+      "memory(GiB)": 45.31,
+      "step": 35,
+      "train_speed(iter/s)": 0.650402
+    },
+    {
+      "acc": 0.58360443,
+      "epoch": 0.0010147133434804667,
+      "grad_norm": 7.28125,
+      "learning_rate": 1.0147133434804667e-07,
+      "loss": 2.13348656,
+      "memory(GiB)": 45.31,
+      "step": 40,
+      "train_speed(iter/s)": 0.677568
+    },
+    {
+      "acc": 0.58169861,
+      "epoch": 0.001141552511415525,
+      "grad_norm": 7.78125,
+      "learning_rate": 1.1415525114155251e-07,
+      "loss": 2.12300892,
+      "memory(GiB)": 45.31,
+      "step": 45,
+      "train_speed(iter/s)": 0.700417
+    },
+    {
+      "acc": 0.582936,
+      "epoch": 0.0012683916793505834,
+      "grad_norm": 7.21875,
+      "learning_rate": 1.2683916793505834e-07,
+      "loss": 2.10119209,
+      "memory(GiB)": 45.31,
+      "step": 50,
+      "train_speed(iter/s)": 0.720064
+    },
+    {
+      "acc": 0.57512264,
+      "epoch": 0.0013952308472856417,
+      "grad_norm": 7.375,
+      "learning_rate": 1.3952308472856418e-07,
+      "loss": 2.25024033,
+      "memory(GiB)": 45.31,
+      "step": 55,
+      "train_speed(iter/s)": 0.737398
+    },
+    {
+      "acc": 0.5534358,
+      "epoch": 0.0015220700152207,
+      "grad_norm": 7.6875,
+      "learning_rate": 1.5220700152207e-07,
+      "loss": 2.18388481,
+      "memory(GiB)": 45.31,
+      "step": 60,
+      "train_speed(iter/s)": 0.752232
+    },
+    {
+      "acc": 0.57148142,
+      "epoch": 0.0016489091831557584,
+      "grad_norm": 7.5,
+      "learning_rate": 1.6489091831557585e-07,
+      "loss": 2.14568672,
+      "memory(GiB)": 45.31,
+      "step": 65,
+      "train_speed(iter/s)": 0.765564
+    },
+    {
+      "acc": 0.57567549,
+      "epoch": 0.0017757483510908167,
+      "grad_norm": 6.5625,
+      "learning_rate": 1.7757483510908168e-07,
+      "loss": 2.14711494,
+      "memory(GiB)": 45.31,
+      "step": 70,
+      "train_speed(iter/s)": 0.778158
+    },
+    {
+      "acc": 0.5580235,
+      "epoch": 0.001902587519025875,
+      "grad_norm": 7.84375,
+      "learning_rate": 1.9025875190258752e-07,
+      "loss": 2.1960022,
+      "memory(GiB)": 45.31,
+      "step": 75,
+      "train_speed(iter/s)": 0.788237
+    },
+    {
+      "acc": 0.58497405,
+      "epoch": 0.0020294266869609334,
+      "grad_norm": 6.84375,
+      "learning_rate": 2.0294266869609335e-07,
+      "loss": 2.0636013,
+      "memory(GiB)": 45.31,
+      "step": 80,
+      "train_speed(iter/s)": 0.79697
+    },
+    {
+      "acc": 0.55256033,
+      "epoch": 0.0021562658548959918,
+      "grad_norm": 7.28125,
+      "learning_rate": 2.1562658548959918e-07,
+      "loss": 2.26351585,
+      "memory(GiB)": 45.31,
+      "step": 85,
+      "train_speed(iter/s)": 0.805073
+    },
+    {
+      "acc": 0.57233224,
+      "epoch": 0.00228310502283105,
+      "grad_norm": 7.0625,
+      "learning_rate": 2.2831050228310502e-07,
+      "loss": 2.12445126,
+      "memory(GiB)": 45.31,
+      "step": 90,
+      "train_speed(iter/s)": 0.812156
+    },
+    {
+      "acc": 0.55544052,
+      "epoch": 0.0024099441907661084,
+      "grad_norm": 6.96875,
+      "learning_rate": 2.409944190766109e-07,
+      "loss": 2.25526085,
+      "memory(GiB)": 45.31,
+      "step": 95,
+      "train_speed(iter/s)": 0.818579
+    },
+    {
+      "acc": 0.57460895,
+      "epoch": 0.0025367833587011668,
+      "grad_norm": 7.0,
+      "learning_rate": 2.536783358701167e-07,
+      "loss": 2.11610985,
+      "memory(GiB)": 45.31,
+      "step": 100,
+      "train_speed(iter/s)": 0.824498
+    },
+    {
+      "epoch": 0.0025367833587011668,
+      "eval_acc": 0.5655295179759007,
+      "eval_loss": 2.1939127445220947,
+      "eval_runtime": 112.5369,
+      "eval_samples_per_second": 56.604,
+      "eval_steps_per_second": 28.302,
+      "step": 100
+    },
+    {
+      "acc": 0.55362706,
+      "epoch": 0.002663622526636225,
+      "grad_norm": 8.1875,
+      "learning_rate": 2.6636225266362255e-07,
+      "loss": 2.19062538,
+      "memory(GiB)": 58.09,
+      "step": 105,
+      "train_speed(iter/s)": 0.43182
+    },
+    {
+      "acc": 0.58142099,
+      "epoch": 0.0027904616945712835,
+      "grad_norm": 6.25,
+      "learning_rate": 2.7904616945712836e-07,
+      "loss": 2.09046326,
+      "memory(GiB)": 58.09,
+      "step": 110,
+      "train_speed(iter/s)": 0.442608
+    },
+    {
+      "acc": 0.57731471,
+      "epoch": 0.002917300862506342,
+      "grad_norm": 6.90625,
+      "learning_rate": 2.917300862506342e-07,
+      "loss": 2.19999924,
+      "memory(GiB)": 58.09,
+      "step": 115,
+      "train_speed(iter/s)": 0.452974
+    },
+    {
+      "acc": 0.5735929,
+      "epoch": 0.0030441400304414,
+      "grad_norm": 6.40625,
+      "learning_rate": 3.0441400304414e-07,
+      "loss": 2.14763947,
+      "memory(GiB)": 58.09,
+      "step": 120,
+      "train_speed(iter/s)": 0.462852
+    },
+    {
+      "acc": 0.57480755,
+      "epoch": 0.0031709791983764585,
+      "grad_norm": 7.0625,
+      "learning_rate": 3.170979198376459e-07,
+      "loss": 2.04066162,
+      "memory(GiB)": 58.09,
+      "step": 125,
+      "train_speed(iter/s)": 0.472398
+    },
+    {
+      "acc": 0.5666563,
+      "epoch": 0.003297818366311517,
+      "grad_norm": 7.25,
+      "learning_rate": 3.297818366311517e-07,
+      "loss": 2.14853497,
+      "memory(GiB)": 58.09,
+      "step": 130,
+      "train_speed(iter/s)": 0.481577
+    },
+    {
+      "acc": 0.58718462,
+      "epoch": 0.003424657534246575,
+      "grad_norm": 7.3125,
+      "learning_rate": 3.4246575342465755e-07,
+      "loss": 2.08722267,
+      "memory(GiB)": 58.09,
+      "step": 135,
+      "train_speed(iter/s)": 0.490346
+    },
+    {
+      "acc": 0.57080498,
+      "epoch": 0.0035514967021816335,
+      "grad_norm": 7.71875,
+      "learning_rate": 3.5514967021816336e-07,
+      "loss": 2.11941071,
+      "memory(GiB)": 58.09,
+      "step": 140,
+      "train_speed(iter/s)": 0.49891
+    },
+    {
+      "acc": 0.57152734,
+      "epoch": 0.003678335870116692,
+      "grad_norm": 8.4375,
+      "learning_rate": 3.678335870116692e-07,
+      "loss": 2.13112221,
+      "memory(GiB)": 58.09,
+      "step": 145,
+      "train_speed(iter/s)": 0.507157
+    },
+    {
+      "acc": 0.57918911,
+      "epoch": 0.00380517503805175,
+      "grad_norm": 7.9375,
+      "learning_rate": 3.8051750380517503e-07,
+      "loss": 2.08793926,
+      "memory(GiB)": 58.09,
+      "step": 150,
+      "train_speed(iter/s)": 0.515128
+    },
+    {
+      "acc": 0.57022357,
+      "epoch": 0.0039320142059868085,
+      "grad_norm": 9.0,
+      "learning_rate": 3.932014205986809e-07,
+      "loss": 2.11384754,
+      "memory(GiB)": 58.09,
+      "step": 155,
+      "train_speed(iter/s)": 0.522904
+    },
+    {
+      "acc": 0.5806479,
+      "epoch": 0.004058853373921867,
+      "grad_norm": 7.125,
+      "learning_rate": 4.058853373921867e-07,
+      "loss": 2.15086823,
+      "memory(GiB)": 58.09,
+      "step": 160,
+      "train_speed(iter/s)": 0.530302
+    },
+    {
+      "acc": 0.55636721,
+      "epoch": 0.004185692541856925,
+      "grad_norm": 8.9375,
+      "learning_rate": 4.1856925418569256e-07,
+      "loss": 2.20608959,
+      "memory(GiB)": 58.09,
+      "step": 165,
+      "train_speed(iter/s)": 0.537458
+    },
+    {
+      "acc": 0.55536098,
+      "epoch": 0.0043125317097919835,
+      "grad_norm": 7.25,
+      "learning_rate": 4.3125317097919837e-07,
+      "loss": 2.19889297,
+      "memory(GiB)": 58.09,
+      "step": 170,
+      "train_speed(iter/s)": 0.544371
+    },
+    {
+      "acc": 0.5666749,
+      "epoch": 0.004439370877727042,
+      "grad_norm": 8.375,
+      "learning_rate": 4.4393708777270423e-07,
+      "loss": 2.21741619,
+      "memory(GiB)": 58.09,
+      "step": 175,
+      "train_speed(iter/s)": 0.551026
+    },
+    {
+      "acc": 0.56853361,
+      "epoch": 0.0045662100456621,
+      "grad_norm": 7.5625,
+      "learning_rate": 4.5662100456621004e-07,
+      "loss": 2.23747597,
+      "memory(GiB)": 58.09,
+      "step": 180,
+      "train_speed(iter/s)": 0.557568
+    },
+    {
+      "acc": 0.58063903,
+      "epoch": 0.0046930492135971585,
+      "grad_norm": 8.1875,
+      "learning_rate": 4.693049213597159e-07,
+      "loss": 2.13855095,
+      "memory(GiB)": 58.09,
+      "step": 185,
+      "train_speed(iter/s)": 0.563928
+    },
+    {
+      "acc": 0.55975227,
+      "epoch": 0.004819888381532217,
+      "grad_norm": 6.09375,
+      "learning_rate": 4.819888381532218e-07,
+      "loss": 2.14818268,
+      "memory(GiB)": 58.09,
+      "step": 190,
+      "train_speed(iter/s)": 0.569907
+    },
+    {
+      "acc": 0.57561865,
+      "epoch": 0.004946727549467275,
+      "grad_norm": 6.78125,
+      "learning_rate": 4.946727549467275e-07,
+      "loss": 2.18602638,
+      "memory(GiB)": 58.09,
+      "step": 195,
+      "train_speed(iter/s)": 0.575746
+    },
+    {
+      "acc": 0.56912994,
+      "epoch": 0.0050735667174023336,
+      "grad_norm": 7.0,
+      "learning_rate": 5.073566717402334e-07,
+      "loss": 2.13915958,
+      "memory(GiB)": 58.09,
+      "step": 200,
+      "train_speed(iter/s)": 0.581414
+    },
+    {
+      "epoch": 0.0050735667174023336,
+      "eval_acc": 0.5658240439290682,
+      "eval_loss": 2.1915087699890137,
+      "eval_runtime": 113.8731,
+      "eval_samples_per_second": 55.939,
+      "eval_steps_per_second": 27.97,
+      "step": 200
+    },
+    {
+      "acc": 0.56568356,
+      "epoch": 0.005200405885337392,
+      "grad_norm": 7.53125,
+      "learning_rate": 5.200405885337392e-07,
+      "loss": 2.18363876,
+      "memory(GiB)": 58.09,
+      "step": 205,
+      "train_speed(iter/s)": 0.438877
+    },
+    {
+      "acc": 0.57015295,
+      "epoch": 0.00532724505327245,
+      "grad_norm": 6.90625,
+      "learning_rate": 5.327245053272451e-07,
+      "loss": 2.17856483,
+      "memory(GiB)": 58.09,
+      "step": 210,
+      "train_speed(iter/s)": 0.444622
+    },
+    {
+      "acc": 0.55709519,
+      "epoch": 0.005454084221207509,
+      "grad_norm": 6.75,
+      "learning_rate": 5.454084221207509e-07,
+      "loss": 2.1720253,
+      "memory(GiB)": 58.09,
+      "step": 215,
+      "train_speed(iter/s)": 0.450229
+    },
+    {
+      "acc": 0.58103299,
+      "epoch": 0.005580923389142567,
+      "grad_norm": 6.40625,
+      "learning_rate": 5.580923389142567e-07,
+      "loss": 2.08644981,
+      "memory(GiB)": 58.09,
+      "step": 220,
+      "train_speed(iter/s)": 0.455712
+    },
+    {
+      "acc": 0.57829776,
+      "epoch": 0.005707762557077625,
+      "grad_norm": 6.0625,
+      "learning_rate": 5.707762557077626e-07,
+      "loss": 2.05979195,
+      "memory(GiB)": 58.09,
+      "step": 225,
+      "train_speed(iter/s)": 0.461088
+    },
+    {
+      "acc": 0.56890464,
+      "epoch": 0.005834601725012684,
+      "grad_norm": 6.15625,
+      "learning_rate": 5.834601725012684e-07,
+      "loss": 2.18327713,
+      "memory(GiB)": 58.09,
+      "step": 230,
+      "train_speed(iter/s)": 0.466375
+    },
+    {
+      "acc": 0.58338404,
+      "epoch": 0.005961440892947742,
+      "grad_norm": 6.09375,
+      "learning_rate": 5.961440892947743e-07,
+      "loss": 2.05939064,
+      "memory(GiB)": 58.09,
+      "step": 235,
+      "train_speed(iter/s)": 0.471526
+    },
+    {
+      "acc": 0.55905323,
+      "epoch": 0.0060882800608828,
+      "grad_norm": 6.0625,
+      "learning_rate": 6.0882800608828e-07,
+      "loss": 2.21649303,
+      "memory(GiB)": 58.09,
+      "step": 240,
+      "train_speed(iter/s)": 0.476553
+    },
+    {
+      "acc": 0.57836189,
+      "epoch": 0.006215119228817859,
+      "grad_norm": 7.40625,
+      "learning_rate": 6.215119228817859e-07,
+      "loss": 2.10696831,
+      "memory(GiB)": 58.09,
+      "step": 245,
+      "train_speed(iter/s)": 0.481501
+    },
+    {
+      "acc": 0.56371498,
+      "epoch": 0.006341958396752917,
+      "grad_norm": 7.21875,
+      "learning_rate": 6.341958396752918e-07,
+      "loss": 2.2602911,
+      "memory(GiB)": 58.09,
+      "step": 250,
+      "train_speed(iter/s)": 0.486384
+    },
+    {
+      "acc": 0.55713639,
+      "epoch": 0.006468797564687975,
+      "grad_norm": 6.9375,
+      "learning_rate": 6.468797564687976e-07,
+      "loss": 2.21758518,
+      "memory(GiB)": 58.09,
+      "step": 255,
+      "train_speed(iter/s)": 0.491167
+    },
+    {
+      "acc": 0.56888924,
+      "epoch": 0.006595636732623034,
+      "grad_norm": 7.78125,
+      "learning_rate": 6.595636732623034e-07,
+      "loss": 2.1437027,
+      "memory(GiB)": 58.09,
+      "step": 260,
+      "train_speed(iter/s)": 0.495839
+    },
+    {
+      "acc": 0.574404,
+      "epoch": 0.006722475900558092,
+      "grad_norm": 6.40625,
+      "learning_rate": 6.722475900558092e-07,
+      "loss": 2.1231205,
+      "memory(GiB)": 58.09,
+      "step": 265,
+      "train_speed(iter/s)": 0.500459
+    },
+    {
+      "acc": 0.59161148,
+      "epoch": 0.00684931506849315,
+      "grad_norm": 8.1875,
+      "learning_rate": 6.849315068493151e-07,
+      "loss": 2.10280876,
+      "memory(GiB)": 58.09,
+      "step": 270,
+      "train_speed(iter/s)": 0.505001
+    },
+    {
+      "acc": 0.56359673,
+      "epoch": 0.006976154236428209,
+      "grad_norm": 7.09375,
+      "learning_rate": 6.97615423642821e-07,
+      "loss": 2.14115467,
+      "memory(GiB)": 58.09,
+      "step": 275,
+      "train_speed(iter/s)": 0.509406
+    },
+    {
+      "acc": 0.56990967,
+      "epoch": 0.007102993404363267,
+      "grad_norm": 7.4375,
+      "learning_rate": 7.102993404363267e-07,
+      "loss": 2.17339745,
+      "memory(GiB)": 58.09,
+      "step": 280,
+      "train_speed(iter/s)": 0.513734
+    },
+    {
+      "acc": 0.58299518,
+      "epoch": 0.007229832572298325,
+      "grad_norm": 7.03125,
+      "learning_rate": 7.229832572298326e-07,
+      "loss": 2.07805138,
+      "memory(GiB)": 58.09,
+      "step": 285,
+      "train_speed(iter/s)": 0.517985
+    },
+    {
+      "acc": 0.59587684,
+      "epoch": 0.007356671740233384,
+      "grad_norm": 7.1875,
+      "learning_rate": 7.356671740233384e-07,
+      "loss": 2.08956184,
+      "memory(GiB)": 58.09,
+      "step": 290,
+      "train_speed(iter/s)": 0.522149
+    },
+    {
+      "acc": 0.58444786,
+      "epoch": 0.007483510908168442,
+      "grad_norm": 7.46875,
+      "learning_rate": 7.483510908168443e-07,
+      "loss": 2.1169714,
+      "memory(GiB)": 58.09,
+      "step": 295,
+      "train_speed(iter/s)": 0.526238
+    },
+    {
+      "acc": 0.58079667,
+      "epoch": 0.0076103500761035,
+      "grad_norm": 6.625,
+      "learning_rate": 7.610350076103501e-07,
+      "loss": 2.07222099,
+      "memory(GiB)": 58.09,
+      "step": 300,
+      "train_speed(iter/s)": 0.530201
+    },
+    {
+      "epoch": 0.0076103500761035,
+      "eval_acc": 0.5665927357784697,
+      "eval_loss": 2.185087203979492,
+      "eval_runtime": 114.331,
+      "eval_samples_per_second": 55.715,
+      "eval_steps_per_second": 27.858,
+      "step": 300
+    },
+    {
+      "acc": 0.57507534,
+      "epoch": 0.007737189244038559,
+      "grad_norm": 8.1875,
+      "learning_rate": 7.737189244038559e-07,
+      "loss": 2.17152939,
+      "memory(GiB)": 58.09,
+      "step": 305,
+      "train_speed(iter/s)": 0.442107
+    },
+    {
+      "acc": 0.57872977,
+      "epoch": 0.007864028411973617,
+      "grad_norm": 6.125,
+      "learning_rate": 7.864028411973618e-07,
+      "loss": 2.04192314,
+      "memory(GiB)": 58.09,
+      "step": 310,
+      "train_speed(iter/s)": 0.445958
+    },
+    {
+      "acc": 0.57205267,
+      "epoch": 0.007990867579908675,
+      "grad_norm": 6.6875,
+      "learning_rate": 7.990867579908676e-07,
+      "loss": 2.21588326,
+      "memory(GiB)": 58.09,
+      "step": 315,
+      "train_speed(iter/s)": 0.449772
+    },
+    {
+      "acc": 0.58382926,
+      "epoch": 0.008117706747843734,
+      "grad_norm": 6.5,
+      "learning_rate": 8.117706747843734e-07,
+      "loss": 2.1064106,
+      "memory(GiB)": 58.09,
+      "step": 320,
+      "train_speed(iter/s)": 0.453521
+    },
+    {
+      "acc": 0.54901762,
+      "epoch": 0.008244545915778792,
+      "grad_norm": 6.6875,
+      "learning_rate": 8.244545915778793e-07,
+      "loss": 2.19961834,
+      "memory(GiB)": 58.09,
+      "step": 325,
+      "train_speed(iter/s)": 0.457234
+    },
+    {
+      "acc": 0.55888462,
+      "epoch": 0.00837138508371385,
+      "grad_norm": 7.40625,
+      "learning_rate": 8.371385083713851e-07,
+      "loss": 2.21889915,
+      "memory(GiB)": 58.09,
+      "step": 330,
+      "train_speed(iter/s)": 0.460883
+    },
+    {
+      "acc": 0.5599515,
+      "epoch": 0.008498224251648909,
+      "grad_norm": 7.84375,
+      "learning_rate": 8.49822425164891e-07,
+      "loss": 2.18161201,
+      "memory(GiB)": 58.09,
+      "step": 335,
+      "train_speed(iter/s)": 0.464513
+    },
+    {
+      "acc": 0.57747803,
+      "epoch": 0.008625063419583967,
+      "grad_norm": 7.0,
+      "learning_rate": 8.625063419583967e-07,
+      "loss": 2.13993759,
+      "memory(GiB)": 58.09,
+      "step": 340,
+      "train_speed(iter/s)": 0.468058
+    },
+    {
+      "acc": 0.57594738,
+      "epoch": 0.008751902587519025,
+      "grad_norm": 6.125,
+      "learning_rate": 8.751902587519026e-07,
+      "loss": 2.12446156,
+      "memory(GiB)": 58.09,
+      "step": 345,
+      "train_speed(iter/s)": 0.471557
+    },
+    {
+      "acc": 0.56923542,
+      "epoch": 0.008878741755454084,
+      "grad_norm": 7.09375,
+      "learning_rate": 8.878741755454085e-07,
+      "loss": 2.11939297,
+      "memory(GiB)": 58.09,
+      "step": 350,
+      "train_speed(iter/s)": 0.475001
+    },
+    {
+      "acc": 0.57172971,
+      "epoch": 0.009005580923389142,
+      "grad_norm": 7.09375,
+      "learning_rate": 9.005580923389143e-07,
+      "loss": 2.16535454,
+      "memory(GiB)": 58.09,
+      "step": 355,
+      "train_speed(iter/s)": 0.478405
+    },
+    {
+      "acc": 0.5720365,
+      "epoch": 0.0091324200913242,
+      "grad_norm": 7.53125,
+      "learning_rate": 9.132420091324201e-07,
+      "loss": 2.02883244,
+      "memory(GiB)": 58.09,
+      "step": 360,
+      "train_speed(iter/s)": 0.481751
+    },
+    {
+      "acc": 0.58192215,
+      "epoch": 0.009259259259259259,
+      "grad_norm": 7.9375,
+      "learning_rate": 9.259259259259259e-07,
+      "loss": 2.11514702,
+      "memory(GiB)": 58.09,
+      "step": 365,
+      "train_speed(iter/s)": 0.485059
+    },
+    {
+      "acc": 0.56529708,
+      "epoch": 0.009386098427194317,
+      "grad_norm": 7.71875,
+      "learning_rate": 9.386098427194318e-07,
+      "loss": 2.17183685,
+      "memory(GiB)": 58.09,
+      "step": 370,
+      "train_speed(iter/s)": 0.48834
+    },
+    {
+      "acc": 0.56914883,
+      "epoch": 0.009512937595129375,
+      "grad_norm": 6.5625,
+      "learning_rate": 9.512937595129377e-07,
+      "loss": 2.23746357,
+      "memory(GiB)": 58.09,
+      "step": 375,
+      "train_speed(iter/s)": 0.491552
+    },
+    {
+      "acc": 0.58338146,
+      "epoch": 0.009639776763064434,
+      "grad_norm": 7.9375,
+      "learning_rate": 9.639776763064435e-07,
+      "loss": 2.08708191,
+      "memory(GiB)": 58.09,
+      "step": 380,
+      "train_speed(iter/s)": 0.494699
+    },
+    {
+      "acc": 0.56976299,
+      "epoch": 0.009766615930999492,
+      "grad_norm": 8.3125,
+      "learning_rate": 9.766615930999493e-07,
+      "loss": 2.1305254,
+      "memory(GiB)": 58.09,
+      "step": 385,
+      "train_speed(iter/s)": 0.497826
+    },
+    {
+      "acc": 0.56847897,
+      "epoch": 0.00989345509893455,
+      "grad_norm": 6.75,
+      "learning_rate": 9.89345509893455e-07,
+      "loss": 2.1421936,
+      "memory(GiB)": 58.09,
+      "step": 390,
+      "train_speed(iter/s)": 0.500925
+    },
+    {
+      "acc": 0.57755151,
+      "epoch": 0.010020294266869609,
+      "grad_norm": 6.65625,
+      "learning_rate": 1.002029426686961e-06,
+      "loss": 2.1770319,
+      "memory(GiB)": 58.09,
+      "step": 395,
+      "train_speed(iter/s)": 0.503969
+    },
+    {
+      "acc": 0.55601387,
+      "epoch": 0.010147133434804667,
+      "grad_norm": 7.5,
+      "learning_rate": 1.0147133434804667e-06,
+      "loss": 2.20693245,
+      "memory(GiB)": 58.09,
+      "step": 400,
+      "train_speed(iter/s)": 0.506988
+    },
+    {
+      "epoch": 0.010147133434804667,
+      "eval_acc": 0.5676501048387063,
+      "eval_loss": 2.175985813140869,
+      "eval_runtime": 113.1084,
+      "eval_samples_per_second": 56.318,
+      "eval_steps_per_second": 28.159,
+      "step": 400
+    },
+    {
+      "acc": 0.57561436,
+      "epoch": 0.010273972602739725,
+      "grad_norm": 6.65625,
+      "learning_rate": 1.0273972602739727e-06,
+      "loss": 2.14138947,
+      "memory(GiB)": 58.09,
+      "step": 405,
+      "train_speed(iter/s)": 0.44419
+    },
+    {
+      "acc": 0.56715174,
+      "epoch": 0.010400811770674784,
+      "grad_norm": 7.28125,
+      "learning_rate": 1.0400811770674785e-06,
+      "loss": 2.16634846,
+      "memory(GiB)": 58.09,
+      "step": 410,
+      "train_speed(iter/s)": 0.447112
+    },
+    {
+      "acc": 0.58196907,
+      "epoch": 0.010527650938609842,
+      "grad_norm": 6.875,
+      "learning_rate": 1.0527650938609842e-06,
+      "loss": 2.06305351,
+      "memory(GiB)": 58.09,
+      "step": 415,
+      "train_speed(iter/s)": 0.450008
+    },
+    {
+      "acc": 0.57910528,
+      "epoch": 0.0106544901065449,
+      "grad_norm": 7.75,
+      "learning_rate": 1.0654490106544902e-06,
+      "loss": 2.12572136,
+      "memory(GiB)": 58.09,
+      "step": 420,
+      "train_speed(iter/s)": 0.452859
+    },
+    {
+      "acc": 0.56836276,
+      "epoch": 0.010781329274479959,
+      "grad_norm": 6.625,
+      "learning_rate": 1.078132927447996e-06,
+      "loss": 2.12446976,
+      "memory(GiB)": 58.09,
+      "step": 425,
+      "train_speed(iter/s)": 0.455683
+    },
+    {
+      "acc": 0.5694973,
+      "epoch": 0.010908168442415017,
+      "grad_norm": 7.03125,
+      "learning_rate": 1.0908168442415017e-06,
+      "loss": 2.12779865,
+      "memory(GiB)": 58.09,
+      "step": 430,
+      "train_speed(iter/s)": 0.458499
+    },
+    {
+      "acc": 0.56835136,
+      "epoch": 0.011035007610350075,
+      "grad_norm": 6.6875,
+      "learning_rate": 1.1035007610350077e-06,
+      "loss": 2.16080875,
+      "memory(GiB)": 58.09,
+      "step": 435,
+      "train_speed(iter/s)": 0.461239
+    },
+    {
+      "acc": 0.57685852,
+      "epoch": 0.011161846778285134,
+      "grad_norm": 6.625,
+      "learning_rate": 1.1161846778285134e-06,
+      "loss": 2.09854145,
+      "memory(GiB)": 58.09,
+      "step": 440,
+      "train_speed(iter/s)": 0.463976
+    },
+    {
+      "acc": 0.58293648,
+      "epoch": 0.011288685946220192,
+      "grad_norm": 6.125,
+      "learning_rate": 1.1288685946220194e-06,
+      "loss": 2.09977322,
+      "memory(GiB)": 58.09,
+      "step": 445,
+      "train_speed(iter/s)": 0.466706
+    },
+    {
+      "acc": 0.57144241,
+      "epoch": 0.01141552511415525,
+      "grad_norm": 6.65625,
+      "learning_rate": 1.1415525114155251e-06,
+      "loss": 2.14928741,
+      "memory(GiB)": 58.09,
+      "step": 450,
+      "train_speed(iter/s)": 0.469369
+    },
+    {
+      "acc": 0.57457638,
+      "epoch": 0.011542364282090309,
+      "grad_norm": 6.75,
+      "learning_rate": 1.154236428209031e-06,
+      "loss": 2.15114937,
+      "memory(GiB)": 58.09,
+      "step": 455,
+      "train_speed(iter/s)": 0.472007
+    },
+    {
+      "acc": 0.57902718,
+      "epoch": 0.011669203450025367,
+      "grad_norm": 5.8125,
+      "learning_rate": 1.1669203450025369e-06,
+      "loss": 2.09303741,
+      "memory(GiB)": 58.09,
+      "step": 460,
+      "train_speed(iter/s)": 0.474606
+    },
+    {
+      "acc": 0.57912216,
+      "epoch": 0.011796042617960426,
+      "grad_norm": 7.03125,
+      "learning_rate": 1.1796042617960426e-06,
+      "loss": 2.16181335,
+      "memory(GiB)": 58.09,
+      "step": 465,
+      "train_speed(iter/s)": 0.47717
+    },
+    {
+      "acc": 0.560989,
+      "epoch": 0.011922881785895484,
+      "grad_norm": 6.84375,
+      "learning_rate": 1.1922881785895486e-06,
+      "loss": 2.25429764,
+      "memory(GiB)": 58.09,
+      "step": 470,
+      "train_speed(iter/s)": 0.479735
+    },
+    {
+      "acc": 0.59846892,
+      "epoch": 0.012049720953830542,
+      "grad_norm": 5.8125,
+      "learning_rate": 1.2049720953830543e-06,
+      "loss": 2.02553291,
+      "memory(GiB)": 58.09,
+      "step": 475,
+      "train_speed(iter/s)": 0.482266
+    },
+    {
+      "acc": 0.57369366,
+      "epoch": 0.0121765601217656,
+      "grad_norm": 6.96875,
+      "learning_rate": 1.21765601217656e-06,
+      "loss": 2.15166779,
+      "memory(GiB)": 58.09,
+      "step": 480,
+      "train_speed(iter/s)": 0.484751
+    },
+    {
+      "acc": 0.57437801,
+      "epoch": 0.012303399289700659,
+      "grad_norm": 5.0625,
+      "learning_rate": 1.230339928970066e-06,
+      "loss": 2.12149315,
+      "memory(GiB)": 58.09,
+      "step": 485,
+      "train_speed(iter/s)": 0.487242
+    },
+    {
+      "acc": 0.58520784,
+      "epoch": 0.012430238457635717,
+      "grad_norm": 6.0625,
+      "learning_rate": 1.2430238457635718e-06,
+      "loss": 2.08534393,
+      "memory(GiB)": 58.09,
+      "step": 490,
+      "train_speed(iter/s)": 0.48969
+    },
+    {
+      "acc": 0.5787189,
+      "epoch": 0.012557077625570776,
+      "grad_norm": 8.0,
+      "learning_rate": 1.2557077625570776e-06,
+      "loss": 2.17281342,
+      "memory(GiB)": 58.09,
+      "step": 495,
+      "train_speed(iter/s)": 0.492143
+    },
+    {
+      "acc": 0.57244587,
+      "epoch": 0.012683916793505834,
+      "grad_norm": 7.34375,
+      "learning_rate": 1.2683916793505835e-06,
+      "loss": 2.08293724,
+      "memory(GiB)": 58.09,
+      "step": 500,
+      "train_speed(iter/s)": 0.49456
+    },
+    {
+      "epoch": 0.012683916793505834,
+      "eval_acc": 0.5691482184104204,
+      "eval_loss": 2.162841796875,
+      "eval_runtime": 112.8026,
+      "eval_samples_per_second": 56.47,
+      "eval_steps_per_second": 28.235,
+      "step": 500
+    },
+    {
+      "acc": 0.55795674,
+      "epoch": 0.012810755961440892,
+      "grad_norm": 7.1875,
+      "learning_rate": 1.2810755961440893e-06,
+      "loss": 2.15731926,
+      "memory(GiB)": 58.09,
+      "step": 505,
+      "train_speed(iter/s)": 0.445536
+    },
+    {
+      "acc": 0.57902861,
+      "epoch": 0.01293759512937595,
+      "grad_norm": 6.46875,
+      "learning_rate": 1.2937595129375953e-06,
+      "loss": 2.15045204,
+      "memory(GiB)": 58.09,
+      "step": 510,
+      "train_speed(iter/s)": 0.447874
+    },
+    {
+      "acc": 0.57203355,
+      "epoch": 0.013064434297311009,
+      "grad_norm": 6.78125,
+      "learning_rate": 1.306443429731101e-06,
+      "loss": 2.19813042,
+      "memory(GiB)": 58.09,
+      "step": 515,
+      "train_speed(iter/s)": 0.450192
+    },
+    {
+      "acc": 0.5899065,
+      "epoch": 0.013191273465246067,
+      "grad_norm": 5.40625,
+      "learning_rate": 1.3191273465246068e-06,
+      "loss": 2.06854572,
+      "memory(GiB)": 58.09,
+      "step": 520,
+      "train_speed(iter/s)": 0.452477
+    },
+    {
+      "acc": 0.57648339,
+      "epoch": 0.013318112633181126,
+      "grad_norm": 6.84375,
+      "learning_rate": 1.3318112633181127e-06,
+      "loss": 2.07820473,
+      "memory(GiB)": 58.09,
+      "step": 525,
+      "train_speed(iter/s)": 0.454756
+    },
+    {
+      "acc": 0.59465828,
+      "epoch": 0.013444951801116184,
+      "grad_norm": 6.71875,
+      "learning_rate": 1.3444951801116185e-06,
+      "loss": 2.03313255,
+      "memory(GiB)": 58.09,
+      "step": 530,
+      "train_speed(iter/s)": 0.457003
+    },
+    {
+      "acc": 0.58114901,
+      "epoch": 0.013571790969051242,
+      "grad_norm": 6.5625,
+      "learning_rate": 1.3571790969051243e-06,
+      "loss": 2.05926666,
+      "memory(GiB)": 58.09,
+      "step": 535,
+      "train_speed(iter/s)": 0.459243
+    },
+    {
+      "acc": 0.58064313,
+      "epoch": 0.0136986301369863,
+      "grad_norm": 6.625,
+      "learning_rate": 1.3698630136986302e-06,
+      "loss": 2.15930367,
+      "memory(GiB)": 58.09,
+      "step": 540,
+      "train_speed(iter/s)": 0.46145
+    },
+    {
+      "acc": 0.56529388,
+      "epoch": 0.013825469304921359,
+      "grad_norm": 6.5,
+      "learning_rate": 1.382546930492136e-06,
+      "loss": 2.17727165,
+      "memory(GiB)": 58.09,
+      "step": 545,
+      "train_speed(iter/s)": 0.463659
+    },
+    {
+      "acc": 0.56990838,
+      "epoch": 0.013952308472856417,
+      "grad_norm": 7.0625,
+      "learning_rate": 1.395230847285642e-06,
+      "loss": 2.1872509,
+      "memory(GiB)": 58.09,
+      "step": 550,
+      "train_speed(iter/s)": 0.465837
+    },
+    {
+      "acc": 0.57715831,
+      "epoch": 0.014079147640791476,
+      "grad_norm": 6.4375,
+      "learning_rate": 1.4079147640791477e-06,
+      "loss": 2.12239723,
+      "memory(GiB)": 58.09,
+      "step": 555,
+      "train_speed(iter/s)": 0.467989
+    },
+    {
+      "acc": 0.58138347,
+      "epoch": 0.014205986808726534,
+      "grad_norm": 6.53125,
+      "learning_rate": 1.4205986808726534e-06,
+      "loss": 2.06029472,
+      "memory(GiB)": 58.09,
+      "step": 560,
+      "train_speed(iter/s)": 0.470119
+    },
+    {
+      "acc": 0.57148027,
+      "epoch": 0.014332825976661592,
+      "grad_norm": 7.875,
+      "learning_rate": 1.4332825976661594e-06,
+      "loss": 2.17127838,
+      "memory(GiB)": 58.09,
+      "step": 565,
+      "train_speed(iter/s)": 0.472268
+    },
+    {
+      "acc": 0.5769032,
+      "epoch": 0.01445966514459665,
+      "grad_norm": 8.6875,
+      "learning_rate": 1.4459665144596652e-06,
+      "loss": 2.07768211,
+      "memory(GiB)": 58.09,
+      "step": 570,
+      "train_speed(iter/s)": 0.474374
+    },
+    {
+      "acc": 0.59854722,
+      "epoch": 0.014586504312531709,
+      "grad_norm": 6.28125,
+      "learning_rate": 1.458650431253171e-06,
+      "loss": 2.02412167,
+      "memory(GiB)": 58.09,
+      "step": 575,
+      "train_speed(iter/s)": 0.476438
+    },
+    {
+      "acc": 0.57099662,
+      "epoch": 0.014713343480466767,
+      "grad_norm": 6.90625,
+      "learning_rate": 1.4713343480466769e-06,
+      "loss": 2.21544037,
+      "memory(GiB)": 58.09,
+      "step": 580,
+      "train_speed(iter/s)": 0.478514
+    },
+    {
+      "acc": 0.57785525,
+      "epoch": 0.014840182648401826,
+      "grad_norm": 7.125,
+      "learning_rate": 1.4840182648401826e-06,
+      "loss": 2.17163811,
+      "memory(GiB)": 58.09,
+      "step": 585,
+      "train_speed(iter/s)": 0.480592
+    },
+    {
+      "acc": 0.55674849,
+      "epoch": 0.014967021816336884,
+      "grad_norm": 5.59375,
+      "learning_rate": 1.4967021816336886e-06,
+      "loss": 2.1069252,
+      "memory(GiB)": 58.09,
+      "step": 590,
+      "train_speed(iter/s)": 0.482607
+    },
+    {
+      "acc": 0.56835804,
+      "epoch": 0.015093860984271942,
+      "grad_norm": 5.75,
+      "learning_rate": 1.5093860984271944e-06,
+      "loss": 2.12497196,
+      "memory(GiB)": 58.09,
+      "step": 595,
+      "train_speed(iter/s)": 0.484623
+    },
+    {
+      "acc": 0.59031286,
+      "epoch": 0.015220700152207,
+      "grad_norm": 5.6875,
+      "learning_rate": 1.5220700152207001e-06,
+      "loss": 2.06097107,
+      "memory(GiB)": 58.09,
+      "step": 600,
+      "train_speed(iter/s)": 0.486626
+    },
+    {
+      "epoch": 0.015220700152207,
+      "eval_acc": 0.5708752684677172,
+      "eval_loss": 2.146491527557373,
+      "eval_runtime": 113.4805,
+      "eval_samples_per_second": 56.133,
+      "eval_steps_per_second": 28.066,
+      "step": 600
+    },
+    {
+      "acc": 0.5907094,
+      "epoch": 0.015347539320142059,
+      "grad_norm": 6.09375,
+      "learning_rate": 1.534753932014206e-06,
+      "loss": 2.03423805,
+      "memory(GiB)": 58.09,
+      "step": 605,
+      "train_speed(iter/s)": 0.446108
+    },
+    {
+      "acc": 0.57663136,
+      "epoch": 0.015474378488077117,
+      "grad_norm": 5.875,
+      "learning_rate": 1.5474378488077118e-06,
+      "loss": 2.08584633,
+      "memory(GiB)": 58.09,
+      "step": 610,
+      "train_speed(iter/s)": 0.448062
+    },
+    {
+      "acc": 0.57774086,
+      "epoch": 0.015601217656012176,
+      "grad_norm": 6.21875,
+      "learning_rate": 1.5601217656012176e-06,
+      "loss": 2.09043198,
+      "memory(GiB)": 58.09,
+      "step": 615,
+      "train_speed(iter/s)": 0.449998
+    },
+    {
+      "acc": 0.58956842,
+      "epoch": 0.015728056823947234,
+      "grad_norm": 5.96875,
+      "learning_rate": 1.5728056823947236e-06,
+      "loss": 2.00049877,
+      "memory(GiB)": 58.09,
+      "step": 620,
+      "train_speed(iter/s)": 0.451934
+    },
+    {
+      "acc": 0.57578068,
+      "epoch": 0.015854895991882292,
+      "grad_norm": 5.6875,
+      "learning_rate": 1.5854895991882293e-06,
+      "loss": 2.10935745,
+      "memory(GiB)": 58.09,
+      "step": 625,
+      "train_speed(iter/s)": 0.453847
+    },
+    {
+      "acc": 0.58070493,
+      "epoch": 0.01598173515981735,
+      "grad_norm": 6.1875,
+      "learning_rate": 1.5981735159817353e-06,
+      "loss": 2.12280045,
+      "memory(GiB)": 58.09,
+      "step": 630,
+      "train_speed(iter/s)": 0.455742
+    },
+    {
+      "acc": 0.58392453,
+      "epoch": 0.01610857432775241,
+      "grad_norm": 6.78125,
+      "learning_rate": 1.610857432775241e-06,
+      "loss": 2.10500374,
+      "memory(GiB)": 58.09,
+      "step": 635,
+      "train_speed(iter/s)": 0.457624
+    },
+    {
+      "acc": 0.56682339,
+      "epoch": 0.016235413495687467,
+      "grad_norm": 6.6875,
+      "learning_rate": 1.6235413495687468e-06,
+      "loss": 2.12986374,
+      "memory(GiB)": 58.09,
+      "step": 640,
+      "train_speed(iter/s)": 0.459504
+    },
+    {
+      "acc": 0.58058124,
+      "epoch": 0.016362252663622526,
+      "grad_norm": 5.9375,
+      "learning_rate": 1.6362252663622528e-06,
+      "loss": 2.14026375,
+      "memory(GiB)": 58.09,
+      "step": 645,
+      "train_speed(iter/s)": 0.461349
+    },
+    {
+      "acc": 0.56498117,
+      "epoch": 0.016489091831557584,
+      "grad_norm": 5.71875,
+      "learning_rate": 1.6489091831557585e-06,
+      "loss": 2.10380497,
+      "memory(GiB)": 58.09,
+      "step": 650,
+      "train_speed(iter/s)": 0.463194
+    },
+    {
+      "acc": 0.57264342,
+      "epoch": 0.016615930999492642,
+      "grad_norm": 5.4375,
+      "learning_rate": 1.6615930999492643e-06,
+      "loss": 2.15320625,
+      "memory(GiB)": 58.09,
+      "step": 655,
+      "train_speed(iter/s)": 0.465021
+    },
+    {
+      "acc": 0.57095966,
+      "epoch": 0.0167427701674277,
+      "grad_norm": 6.0,
+      "learning_rate": 1.6742770167427702e-06,
+      "loss": 2.06447887,
+      "memory(GiB)": 58.09,
+      "step": 660,
+      "train_speed(iter/s)": 0.466831
+    },
+    {
+      "acc": 0.58545179,
+      "epoch": 0.01686960933536276,
+      "grad_norm": 5.46875,
+      "learning_rate": 1.686960933536276e-06,
+      "loss": 2.01951256,
+      "memory(GiB)": 58.09,
+      "step": 665,
+      "train_speed(iter/s)": 0.468608
+    },
+    {
+      "acc": 0.58088417,
+      "epoch": 0.016996448503297817,
+      "grad_norm": 5.84375,
+      "learning_rate": 1.699644850329782e-06,
+      "loss": 2.08067741,
+      "memory(GiB)": 58.1,
+      "step": 670,
+      "train_speed(iter/s)": 0.470386
+    },
+    {
+      "acc": 0.58742523,
+      "epoch": 0.017123287671232876,
+      "grad_norm": 6.65625,
+      "learning_rate": 1.7123287671232877e-06,
+      "loss": 2.06641312,
+      "memory(GiB)": 58.1,
+      "step": 675,
+      "train_speed(iter/s)": 0.47215
+    },
+    {
+      "acc": 0.5650301,
+      "epoch": 0.017250126839167934,
+      "grad_norm": 5.96875,
+      "learning_rate": 1.7250126839167935e-06,
+      "loss": 2.19955997,
+      "memory(GiB)": 58.1,
+      "step": 680,
+      "train_speed(iter/s)": 0.47392
+    },
+    {
+      "acc": 0.58013334,
+      "epoch": 0.017376966007102992,
+      "grad_norm": 5.84375,
+      "learning_rate": 1.7376966007102994e-06,
+      "loss": 2.05740891,
+      "memory(GiB)": 58.1,
+      "step": 685,
+      "train_speed(iter/s)": 0.475649
+    },
+    {
+      "acc": 0.58957648,
+      "epoch": 0.01750380517503805,
+      "grad_norm": 5.9375,
+      "learning_rate": 1.7503805175038052e-06,
+      "loss": 2.12545013,
+      "memory(GiB)": 58.1,
+      "step": 690,
+      "train_speed(iter/s)": 0.477391
+    },
+    {
+      "acc": 0.57258396,
+      "epoch": 0.01763064434297311,
+      "grad_norm": 7.0625,
+      "learning_rate": 1.7630644342973112e-06,
+      "loss": 2.08827343,
+      "memory(GiB)": 58.1,
+      "step": 695,
+      "train_speed(iter/s)": 0.479123
+    },
+    {
+      "acc": 0.57630472,
+      "epoch": 0.017757483510908167,
+      "grad_norm": 5.46875,
+      "learning_rate": 1.775748351090817e-06,
+      "loss": 2.08242302,
+      "memory(GiB)": 58.1,
+      "step": 700,
+      "train_speed(iter/s)": 0.480823
+    },
+    {
+      "epoch": 0.017757483510908167,
+      "eval_acc": 0.572730990856327,
+      "eval_loss": 2.130608320236206,
+      "eval_runtime": 114.9834,
+      "eval_samples_per_second": 55.399,
+      "eval_steps_per_second": 27.7,
+      "step": 700
+    },
+    {
+      "acc": 0.56871805,
+      "epoch": 0.017884322678843226,
+      "grad_norm": 5.8125,
+      "learning_rate": 1.7884322678843227e-06,
+      "loss": 2.08843346,
+      "memory(GiB)": 58.1,
+      "step": 705,
+      "train_speed(iter/s)": 0.446048
+    },
+    {
+      "acc": 0.56865363,
+      "epoch": 0.018011161846778284,
+      "grad_norm": 5.6875,
+      "learning_rate": 1.8011161846778286e-06,
+      "loss": 2.12287178,
+      "memory(GiB)": 58.1,
+      "step": 710,
+      "train_speed(iter/s)": 0.447716
+    },
+    {
+      "acc": 0.5653419,
+      "epoch": 0.018138001014713342,
+      "grad_norm": 5.375,
+      "learning_rate": 1.8138001014713344e-06,
+      "loss": 2.1662447,
+      "memory(GiB)": 58.1,
+      "step": 715,
+      "train_speed(iter/s)": 0.44938
+    },
+    {
+      "acc": 0.58151999,
+      "epoch": 0.0182648401826484,
+      "grad_norm": 6.4375,
+      "learning_rate": 1.8264840182648401e-06,
+      "loss": 2.08704548,
+      "memory(GiB)": 58.1,
+      "step": 720,
+      "train_speed(iter/s)": 0.451045
+    },
+    {
+      "acc": 0.565307,
+      "epoch": 0.01839167935058346,
+      "grad_norm": 6.0,
+      "learning_rate": 1.8391679350583461e-06,
+      "loss": 2.13599167,
+      "memory(GiB)": 58.1,
+      "step": 725,
+      "train_speed(iter/s)": 0.452697
+    },
+    {
+      "acc": 0.578827,
+      "epoch": 0.018518518518518517,
+      "grad_norm": 6.125,
+      "learning_rate": 1.8518518518518519e-06,
+      "loss": 2.00157909,
+      "memory(GiB)": 58.1,
+      "step": 730,
+      "train_speed(iter/s)": 0.454335
+    },
+    {
+      "acc": 0.56656232,
+      "epoch": 0.018645357686453576,
+      "grad_norm": 6.1875,
+      "learning_rate": 1.8645357686453578e-06,
+      "loss": 2.1325592,
+      "memory(GiB)": 58.1,
+      "step": 735,
+      "train_speed(iter/s)": 0.455969
+    },
+    {
+      "acc": 0.57751007,
+      "epoch": 0.018772196854388634,
+      "grad_norm": 7.09375,
+      "learning_rate": 1.8772196854388636e-06,
+      "loss": 2.12488174,
+      "memory(GiB)": 58.1,
+      "step": 740,
+      "train_speed(iter/s)": 0.45759
+    },
+    {
+      "acc": 0.584062,
+      "epoch": 0.018899036022323693,
+      "grad_norm": 5.4375,
+      "learning_rate": 1.8899036022323693e-06,
+      "loss": 2.02887325,
+      "memory(GiB)": 58.1,
+      "step": 745,
+      "train_speed(iter/s)": 0.459196
+    },
+    {
+      "acc": 0.57995129,
+      "epoch": 0.01902587519025875,
+      "grad_norm": 5.78125,
+      "learning_rate": 1.9025875190258753e-06,
+      "loss": 2.07564201,
+      "memory(GiB)": 58.1,
+      "step": 750,
+      "train_speed(iter/s)": 0.460792
+    },
+    {
+      "acc": 0.59045911,
+      "epoch": 0.01915271435819381,
+      "grad_norm": 5.75,
+      "learning_rate": 1.915271435819381e-06,
+      "loss": 2.05422363,
+      "memory(GiB)": 58.1,
+      "step": 755,
+      "train_speed(iter/s)": 0.462376
+    },
+    {
+      "acc": 0.56149321,
+      "epoch": 0.019279553526128868,
+      "grad_norm": 5.3125,
+      "learning_rate": 1.927955352612887e-06,
+      "loss": 2.08703136,
+      "memory(GiB)": 58.1,
+      "step": 760,
+      "train_speed(iter/s)": 0.463931
+    },
+    {
+      "acc": 0.59644594,
+      "epoch": 0.019406392694063926,
+      "grad_norm": 6.25,
+      "learning_rate": 1.9406392694063926e-06,
+      "loss": 2.12244968,
+      "memory(GiB)": 58.1,
+      "step": 765,
+      "train_speed(iter/s)": 0.465481
+    },
+    {
+      "acc": 0.57373838,
+      "epoch": 0.019533231861998984,
+      "grad_norm": 6.4375,
+      "learning_rate": 1.9533231861998985e-06,
+      "loss": 2.09988823,
+      "memory(GiB)": 58.1,
+      "step": 770,
+      "train_speed(iter/s)": 0.467046
+    },
+    {
+      "acc": 0.58926535,
+      "epoch": 0.019660071029934043,
+      "grad_norm": 5.65625,
+      "learning_rate": 1.9660071029934045e-06,
+      "loss": 2.0737978,
+      "memory(GiB)": 58.1,
+      "step": 775,
+      "train_speed(iter/s)": 0.468568
+    },
+    {
+      "acc": 0.55917034,
+      "epoch": 0.0197869101978691,
+      "grad_norm": 6.15625,
+      "learning_rate": 1.97869101978691e-06,
+      "loss": 2.16007786,
+      "memory(GiB)": 58.1,
+      "step": 780,
+      "train_speed(iter/s)": 0.470109
+    },
+    {
+      "acc": 0.59510069,
+      "epoch": 0.01991374936580416,
+      "grad_norm": 6.125,
+      "learning_rate": 1.991374936580416e-06,
+      "loss": 1.95591621,
+      "memory(GiB)": 58.1,
+      "step": 785,
+      "train_speed(iter/s)": 0.471617
+    },
+    {
+      "acc": 0.58288422,
+      "epoch": 0.020040588533739218,
+      "grad_norm": 6.40625,
+      "learning_rate": 2.004058853373922e-06,
+      "loss": 2.06537952,
+      "memory(GiB)": 58.1,
+      "step": 790,
+      "train_speed(iter/s)": 0.473123
+    },
+    {
+      "acc": 0.58917351,
+      "epoch": 0.020167427701674276,
+      "grad_norm": 7.40625,
+      "learning_rate": 2.016742770167428e-06,
+      "loss": 2.00254402,
+      "memory(GiB)": 58.1,
+      "step": 795,
+      "train_speed(iter/s)": 0.474627
+    },
+    {
+      "acc": 0.59073582,
+      "epoch": 0.020294266869609334,
+      "grad_norm": 5.84375,
+      "learning_rate": 2.0294266869609335e-06,
+      "loss": 1.95720024,
+      "memory(GiB)": 58.1,
+      "step": 800,
+      "train_speed(iter/s)": 0.476108
+    },
+    {
+      "epoch": 0.020294266869609334,
+      "eval_acc": 0.5743732341498038,
+      "eval_loss": 2.1150147914886475,
+      "eval_runtime": 111.9223,
+      "eval_samples_per_second": 56.914,
+      "eval_steps_per_second": 28.457,
+      "step": 800
+    },
+    {
+      "acc": 0.57163839,
+      "epoch": 0.020421106037544393,
+      "grad_norm": 6.34375,
+      "learning_rate": 2.0421106037544395e-06,
+      "loss": 2.08774834,
+      "memory(GiB)": 58.1,
+      "step": 805,
+      "train_speed(iter/s)": 0.446744
+    },
+    {
+      "acc": 0.58671284,
+      "epoch": 0.02054794520547945,
+      "grad_norm": 6.46875,
+      "learning_rate": 2.0547945205479454e-06,
+      "loss": 2.00996399,
+      "memory(GiB)": 58.1,
+      "step": 810,
+      "train_speed(iter/s)": 0.448222
+    },
+    {
+      "acc": 0.59209747,
+      "epoch": 0.02067478437341451,
+      "grad_norm": 6.625,
+      "learning_rate": 2.067478437341451e-06,
+      "loss": 2.11006374,
+      "memory(GiB)": 58.1,
+      "step": 815,
+      "train_speed(iter/s)": 0.449683
+    },
+    {
+      "acc": 0.58112731,
+      "epoch": 0.020801623541349568,
+      "grad_norm": 6.53125,
+      "learning_rate": 2.080162354134957e-06,
+      "loss": 2.04138203,
+      "memory(GiB)": 58.1,
+      "step": 820,
+      "train_speed(iter/s)": 0.451127
+    },
+    {
+      "acc": 0.56349602,
+      "epoch": 0.020928462709284626,
+      "grad_norm": 5.4375,
+      "learning_rate": 2.092846270928463e-06,
+      "loss": 2.10374203,
+      "memory(GiB)": 58.1,
+      "step": 825,
+      "train_speed(iter/s)": 0.452565
+    },
+    {
+      "acc": 0.55964966,
+      "epoch": 0.021055301877219684,
+      "grad_norm": 6.28125,
+      "learning_rate": 2.1055301877219685e-06,
+      "loss": 2.1757328,
+      "memory(GiB)": 58.1,
+      "step": 830,
+      "train_speed(iter/s)": 0.454006
+    },
+    {
+      "acc": 0.58940411,
+      "epoch": 0.021182141045154743,
+      "grad_norm": 4.78125,
+      "learning_rate": 2.1182141045154744e-06,
+      "loss": 1.98896866,
+      "memory(GiB)": 58.1,
+      "step": 835,
+      "train_speed(iter/s)": 0.455428
+    },
+    {
+      "acc": 0.58555031,
+      "epoch": 0.0213089802130898,
+      "grad_norm": 7.0625,
+      "learning_rate": 2.1308980213089804e-06,
+      "loss": 2.03969383,
+      "memory(GiB)": 58.1,
+      "step": 840,
+      "train_speed(iter/s)": 0.456852
+    },
+    {
+      "acc": 0.57818289,
+      "epoch": 0.02143581938102486,
+      "grad_norm": 5.84375,
+      "learning_rate": 2.143581938102486e-06,
+      "loss": 2.02093258,
+      "memory(GiB)": 58.1,
+      "step": 845,
+      "train_speed(iter/s)": 0.458259
+    },
+    {
+      "acc": 0.60250626,
+      "epoch": 0.021562658548959918,
+      "grad_norm": 5.8125,
+      "learning_rate": 2.156265854895992e-06,
+      "loss": 2.05443401,
+      "memory(GiB)": 58.1,
+      "step": 850,
+      "train_speed(iter/s)": 0.459671
+    },
+    {
+      "acc": 0.56007051,
+      "epoch": 0.021689497716894976,
+      "grad_norm": 6.09375,
+      "learning_rate": 2.168949771689498e-06,
+      "loss": 2.12000847,
+      "memory(GiB)": 58.1,
+      "step": 855,
+      "train_speed(iter/s)": 0.461072
+    },
+    {
+      "acc": 0.58610115,
+      "epoch": 0.021816336884830034,
+      "grad_norm": 5.8125,
+      "learning_rate": 2.1816336884830034e-06,
+      "loss": 2.08215179,
+      "memory(GiB)": 58.1,
+      "step": 860,
+      "train_speed(iter/s)": 0.462449
+    },
+    {
+      "acc": 0.55657902,
+      "epoch": 0.021943176052765093,
+      "grad_norm": 7.34375,
+      "learning_rate": 2.1943176052765094e-06,
+      "loss": 2.07644501,
+      "memory(GiB)": 58.1,
+      "step": 865,
+      "train_speed(iter/s)": 0.463819
+    },
+    {
+      "acc": 0.58080263,
+      "epoch": 0.02207001522070015,
+      "grad_norm": 6.71875,
+      "learning_rate": 2.2070015220700153e-06,
+      "loss": 2.1232357,
+      "memory(GiB)": 58.1,
+      "step": 870,
+      "train_speed(iter/s)": 0.465168
+    },
+    {
+      "acc": 0.57364683,
+      "epoch": 0.02219685438863521,
+      "grad_norm": 6.53125,
+      "learning_rate": 2.2196854388635213e-06,
+      "loss": 2.08617592,
+      "memory(GiB)": 58.1,
+      "step": 875,
+      "train_speed(iter/s)": 0.466524
+    },
+    {
+      "acc": 0.59218321,
+      "epoch": 0.022323693556570268,
+      "grad_norm": 7.15625,
+      "learning_rate": 2.232369355657027e-06,
+      "loss": 2.02167473,
+      "memory(GiB)": 58.1,
+      "step": 880,
+      "train_speed(iter/s)": 0.467857
+    },
+    {
+      "acc": 0.57566214,
+      "epoch": 0.022450532724505326,
+      "grad_norm": 6.78125,
+      "learning_rate": 2.245053272450533e-06,
+      "loss": 2.10848694,
+      "memory(GiB)": 58.1,
+      "step": 885,
+      "train_speed(iter/s)": 0.4692
+    },
+    {
+      "acc": 0.57690935,
+      "epoch": 0.022577371892440384,
+      "grad_norm": 6.34375,
+      "learning_rate": 2.2577371892440388e-06,
+      "loss": 2.10077057,
+      "memory(GiB)": 58.1,
+      "step": 890,
+      "train_speed(iter/s)": 0.470556
+    },
+    {
+      "acc": 0.59474163,
+      "epoch": 0.022704211060375443,
+      "grad_norm": 4.875,
+      "learning_rate": 2.2704211060375443e-06,
+      "loss": 2.05679932,
+      "memory(GiB)": 58.1,
+      "step": 895,
+      "train_speed(iter/s)": 0.471877
+    },
+    {
+      "acc": 0.59358177,
+      "epoch": 0.0228310502283105,
+      "grad_norm": 6.375,
+      "learning_rate": 2.2831050228310503e-06,
+      "loss": 2.07524223,
+      "memory(GiB)": 58.1,
+      "step": 900,
+      "train_speed(iter/s)": 0.473181
+    },
+    {
+      "epoch": 0.0228310502283105,
+      "eval_acc": 0.5761036263455763,
+      "eval_loss": 2.0988223552703857,
+      "eval_runtime": 113.9568,
+      "eval_samples_per_second": 55.898,
+      "eval_steps_per_second": 27.949,
+      "step": 900
+    },
+    {
+      "acc": 0.57166119,
+      "epoch": 0.02295788939624556,
+      "grad_norm": 5.625,
+      "learning_rate": 2.2957889396245563e-06,
+      "loss": 2.08735542,
+      "memory(GiB)": 58.1,
+      "step": 905,
+      "train_speed(iter/s)": 0.446743
+    },
+    {
+      "acc": 0.57747388,
+      "epoch": 0.023084728564180618,
+      "grad_norm": 6.03125,
+      "learning_rate": 2.308472856418062e-06,
+      "loss": 2.07981911,
+      "memory(GiB)": 58.1,
+      "step": 910,
+      "train_speed(iter/s)": 0.448036
+    },
+    {
+      "acc": 0.58042278,
+      "epoch": 0.023211567732115676,
+      "grad_norm": 5.0625,
+      "learning_rate": 2.3211567732115678e-06,
+      "loss": 2.02468204,
+      "memory(GiB)": 58.1,
+      "step": 915,
+      "train_speed(iter/s)": 0.449314
+    },
+    {
+      "acc": 0.61442428,
+      "epoch": 0.023338406900050734,
+      "grad_norm": 4.875,
+      "learning_rate": 2.3338406900050737e-06,
+      "loss": 1.94776154,
+      "memory(GiB)": 58.1,
+      "step": 920,
+      "train_speed(iter/s)": 0.450587
+    },
+    {
+      "acc": 0.57519131,
+      "epoch": 0.023465246067985793,
+      "grad_norm": 5.21875,
+      "learning_rate": 2.3465246067985793e-06,
+      "loss": 2.1024704,
+      "memory(GiB)": 58.1,
+      "step": 925,
+      "train_speed(iter/s)": 0.451863
+    },
+    {
+      "acc": 0.58424702,
+      "epoch": 0.02359208523592085,
+      "grad_norm": 8.25,
+      "learning_rate": 2.3592085235920852e-06,
+      "loss": 2.06277103,
+      "memory(GiB)": 58.1,
+      "step": 930,
+      "train_speed(iter/s)": 0.453137
+    },
+    {
+      "acc": 0.58619661,
+      "epoch": 0.02371892440385591,
+      "grad_norm": 6.71875,
+      "learning_rate": 2.371892440385591e-06,
+      "loss": 2.02461262,
+      "memory(GiB)": 58.1,
+      "step": 935,
+      "train_speed(iter/s)": 0.454405
+    },
+    {
+      "acc": 0.59015274,
+      "epoch": 0.023845763571790968,
+      "grad_norm": 5.9375,
+      "learning_rate": 2.384576357179097e-06,
+      "loss": 2.0354763,
+      "memory(GiB)": 58.1,
+      "step": 940,
+      "train_speed(iter/s)": 0.455673
+    },
+    {
+      "acc": 0.58388462,
+      "epoch": 0.023972602739726026,
+      "grad_norm": 6.625,
+      "learning_rate": 2.3972602739726027e-06,
+      "loss": 2.02807159,
+      "memory(GiB)": 58.1,
+      "step": 945,
+      "train_speed(iter/s)": 0.456935
+    },
+    {
+      "acc": 0.57431579,
+      "epoch": 0.024099441907661084,
+      "grad_norm": 7.125,
+      "learning_rate": 2.4099441907661087e-06,
+      "loss": 2.1198658,
+      "memory(GiB)": 58.1,
+      "step": 950,
+      "train_speed(iter/s)": 0.458186
+    },
+    {
+      "acc": 0.60085821,
+      "epoch": 0.024226281075596143,
+      "grad_norm": 7.03125,
+      "learning_rate": 2.4226281075596147e-06,
+      "loss": 2.03528137,
+      "memory(GiB)": 58.1,
+      "step": 955,
+      "train_speed(iter/s)": 0.459424
+    },
+    {
+      "acc": 0.5809402,
+      "epoch": 0.0243531202435312,
+      "grad_norm": 6.96875,
+      "learning_rate": 2.43531202435312e-06,
+      "loss": 2.10258236,
+      "memory(GiB)": 58.1,
+      "step": 960,
+      "train_speed(iter/s)": 0.460649
+    },
+    {
+      "acc": 0.57716618,
+      "epoch": 0.02447995941146626,
+      "grad_norm": 5.84375,
+      "learning_rate": 2.447995941146626e-06,
+      "loss": 2.13247681,
+      "memory(GiB)": 58.1,
+      "step": 965,
+      "train_speed(iter/s)": 0.461872
+    },
+    {
+      "acc": 0.58431964,
+      "epoch": 0.024606798579401318,
+      "grad_norm": 5.46875,
+      "learning_rate": 2.460679857940132e-06,
+      "loss": 2.08380051,
+      "memory(GiB)": 58.1,
+      "step": 970,
+      "train_speed(iter/s)": 0.463086
+    },
+    {
+      "acc": 0.57374287,
+      "epoch": 0.024733637747336376,
+      "grad_norm": 5.84375,
+      "learning_rate": 2.4733637747336377e-06,
+      "loss": 2.13242855,
+      "memory(GiB)": 58.1,
+      "step": 975,
+      "train_speed(iter/s)": 0.464288
+    },
+    {
+      "acc": 0.60974894,
+      "epoch": 0.024860476915271434,
+      "grad_norm": 5.625,
+      "learning_rate": 2.4860476915271436e-06,
+      "loss": 2.00461884,
+      "memory(GiB)": 58.1,
+      "step": 980,
+      "train_speed(iter/s)": 0.465491
+    },
+    {
+      "acc": 0.5824585,
+      "epoch": 0.024987316083206493,
+      "grad_norm": 5.78125,
+      "learning_rate": 2.4987316083206496e-06,
+      "loss": 2.07370567,
+      "memory(GiB)": 58.1,
+      "step": 985,
+      "train_speed(iter/s)": 0.466688
+    },
+    {
+      "acc": 0.57614508,
+      "epoch": 0.02511415525114155,
+      "grad_norm": 5.84375,
+      "learning_rate": 2.511415525114155e-06,
+      "loss": 2.12399292,
+      "memory(GiB)": 58.1,
+      "step": 990,
+      "train_speed(iter/s)": 0.467883
+    },
+    {
+      "acc": 0.57358203,
+      "epoch": 0.02524099441907661,
+      "grad_norm": 5.53125,
+      "learning_rate": 2.5240994419076615e-06,
+      "loss": 2.0714653,
+      "memory(GiB)": 58.1,
+      "step": 995,
+      "train_speed(iter/s)": 0.469076
+    },
+    {
+      "acc": 0.59364719,
+      "epoch": 0.025367833587011668,
+      "grad_norm": 7.4375,
+      "learning_rate": 2.536783358701167e-06,
+      "loss": 1.98752384,
+      "memory(GiB)": 58.1,
+      "step": 1000,
+      "train_speed(iter/s)": 0.470267
+    },
+    {
+      "epoch": 0.025367833587011668,
+      "eval_acc": 0.5777345899216979,
+      "eval_loss": 2.080941915512085,
+      "eval_runtime": 113.5409,
+      "eval_samples_per_second": 56.103,
+      "eval_steps_per_second": 28.052,
+      "step": 1000
+    },
+    {
+      "acc": 0.57457829,
+      "epoch": 0.025494672754946726,
+      "grad_norm": 6.28125,
+      "learning_rate": 2.549467275494673e-06,
+      "loss": 2.09337349,
+      "memory(GiB)": 58.1,
+      "step": 1005,
+      "train_speed(iter/s)": 0.446718
+    },
+    {
+      "acc": 0.5866128,
+      "epoch": 0.025621511922881784,
+      "grad_norm": 6.15625,
+      "learning_rate": 2.5621511922881786e-06,
+      "loss": 2.13685551,
+      "memory(GiB)": 58.1,
+      "step": 1010,
+      "train_speed(iter/s)": 0.447886
+    },
+    {
+      "acc": 0.57901697,
+      "epoch": 0.025748351090816843,
+      "grad_norm": 6.34375,
+      "learning_rate": 2.5748351090816846e-06,
+      "loss": 2.09885941,
+      "memory(GiB)": 58.1,
+      "step": 1015,
+      "train_speed(iter/s)": 0.449043
+    },
+    {
+      "acc": 0.58588743,
+      "epoch": 0.0258751902587519,
+      "grad_norm": 6.90625,
+      "learning_rate": 2.5875190258751905e-06,
+      "loss": 2.06828918,
+      "memory(GiB)": 58.1,
+      "step": 1020,
+      "train_speed(iter/s)": 0.450205
+    },
+    {
+      "acc": 0.59164329,
+      "epoch": 0.02600202942668696,
+      "grad_norm": 5.71875,
+      "learning_rate": 2.6002029426686965e-06,
+      "loss": 2.04384689,
+      "memory(GiB)": 58.1,
+      "step": 1025,
+      "train_speed(iter/s)": 0.451354
+    },
+    {
+      "acc": 0.58611956,
+      "epoch": 0.026128868594622018,
+      "grad_norm": 5.03125,
+      "learning_rate": 2.612886859462202e-06,
+      "loss": 2.01312637,
+      "memory(GiB)": 58.1,
+      "step": 1030,
+      "train_speed(iter/s)": 0.452493
+    },
+    {
+      "acc": 0.59721603,
+      "epoch": 0.026255707762557076,
+      "grad_norm": 5.5625,
+      "learning_rate": 2.625570776255708e-06,
+      "loss": 2.07603264,
+      "memory(GiB)": 58.1,
+      "step": 1035,
+      "train_speed(iter/s)": 0.453636
+    },
+    {
+      "acc": 0.58024497,
+      "epoch": 0.026382546930492135,
+      "grad_norm": 7.65625,
+      "learning_rate": 2.6382546930492135e-06,
+      "loss": 2.05065346,
+      "memory(GiB)": 58.1,
+      "step": 1040,
+      "train_speed(iter/s)": 0.454773
+    },
+    {
+      "acc": 0.59431887,
+      "epoch": 0.026509386098427193,
+      "grad_norm": 5.6875,
+      "learning_rate": 2.65093860984272e-06,
+      "loss": 2.10402222,
+      "memory(GiB)": 58.1,
+      "step": 1045,
+      "train_speed(iter/s)": 0.455887
+    },
+    {
+      "acc": 0.58888636,
+      "epoch": 0.02663622526636225,
+      "grad_norm": 6.34375,
+      "learning_rate": 2.6636225266362255e-06,
+      "loss": 2.07406387,
+      "memory(GiB)": 58.1,
+      "step": 1050,
+      "train_speed(iter/s)": 0.457006
+    },
+    {
+      "acc": 0.58189731,
+      "epoch": 0.02676306443429731,
+      "grad_norm": 6.375,
+      "learning_rate": 2.6763064434297314e-06,
+      "loss": 2.02127075,
+      "memory(GiB)": 58.1,
+      "step": 1055,
+      "train_speed(iter/s)": 0.45812
+    },
+    {
+      "acc": 0.58191009,
+      "epoch": 0.026889903602232368,
+      "grad_norm": 5.125,
+      "learning_rate": 2.688990360223237e-06,
+      "loss": 2.05131874,
+      "memory(GiB)": 58.1,
+      "step": 1060,
+      "train_speed(iter/s)": 0.459224
+    },
+    {
+      "acc": 0.59165268,
+      "epoch": 0.027016742770167426,
+      "grad_norm": 5.21875,
+      "learning_rate": 2.701674277016743e-06,
+      "loss": 2.0028265,
+      "memory(GiB)": 58.1,
+      "step": 1065,
+      "train_speed(iter/s)": 0.460323
+    },
+    {
+      "acc": 0.58109169,
+      "epoch": 0.027143581938102485,
+      "grad_norm": 6.375,
+      "learning_rate": 2.7143581938102485e-06,
+      "loss": 2.07121277,
+      "memory(GiB)": 58.1,
+      "step": 1070,
+      "train_speed(iter/s)": 0.461418
+    },
+    {
+      "acc": 0.58962994,
+      "epoch": 0.027270421106037543,
+      "grad_norm": 5.78125,
+      "learning_rate": 2.727042110603755e-06,
+      "loss": 2.03678818,
+      "memory(GiB)": 58.1,
+      "step": 1075,
+      "train_speed(iter/s)": 0.462512
+    },
+    {
+      "acc": 0.56551304,
+      "epoch": 0.0273972602739726,
+      "grad_norm": 5.5,
+      "learning_rate": 2.7397260273972604e-06,
+      "loss": 2.16976528,
+      "memory(GiB)": 58.1,
+      "step": 1080,
+      "train_speed(iter/s)": 0.463596
+    },
+    {
+      "acc": 0.60050197,
+      "epoch": 0.02752409944190766,
+      "grad_norm": 5.8125,
+      "learning_rate": 2.7524099441907664e-06,
+      "loss": 2.01963692,
+      "memory(GiB)": 58.1,
+      "step": 1085,
+      "train_speed(iter/s)": 0.464681
+    },
+    {
+      "acc": 0.60033646,
+      "epoch": 0.027650938609842718,
+      "grad_norm": 5.15625,
+      "learning_rate": 2.765093860984272e-06,
+      "loss": 1.98261986,
+      "memory(GiB)": 58.1,
+      "step": 1090,
+      "train_speed(iter/s)": 0.465758
+    },
+    {
+      "acc": 0.57258253,
+      "epoch": 0.027777777777777776,
+      "grad_norm": 6.15625,
+      "learning_rate": 2.7777777777777783e-06,
+      "loss": 2.06698036,
+      "memory(GiB)": 58.1,
+      "step": 1095,
+      "train_speed(iter/s)": 0.466842
+    },
+    {
+      "acc": 0.58307362,
+      "epoch": 0.027904616945712835,
+      "grad_norm": 6.5625,
+      "learning_rate": 2.790461694571284e-06,
+      "loss": 2.00427818,
+      "memory(GiB)": 58.1,
+      "step": 1100,
+      "train_speed(iter/s)": 0.467911
+    },
+    {
+      "epoch": 0.027904616945712835,
+      "eval_acc": 0.579531407119674,
+      "eval_loss": 2.0623281002044678,
+      "eval_runtime": 112.269,
+      "eval_samples_per_second": 56.739,
+      "eval_steps_per_second": 28.369,
+      "step": 1100
+    },
+    {
+      "acc": 0.58611879,
+      "epoch": 0.028031456113647893,
+      "grad_norm": 6.0625,
+      "learning_rate": 2.80314561136479e-06,
+      "loss": 2.02119904,
+      "memory(GiB)": 58.1,
+      "step": 1105,
+      "train_speed(iter/s)": 0.44684
+    },
+    {
+      "acc": 0.59812632,
+      "epoch": 0.02815829528158295,
+      "grad_norm": 6.5,
+      "learning_rate": 2.8158295281582954e-06,
+      "loss": 2.00622635,
+      "memory(GiB)": 58.1,
+      "step": 1110,
+      "train_speed(iter/s)": 0.447909
+    },
+    {
+      "acc": 0.5802361,
+      "epoch": 0.02828513444951801,
+      "grad_norm": 5.78125,
+      "learning_rate": 2.8285134449518014e-06,
+      "loss": 2.09116268,
+      "memory(GiB)": 58.1,
+      "step": 1115,
+      "train_speed(iter/s)": 0.448971
+    },
+    {
+      "acc": 0.57350545,
+      "epoch": 0.028411973617453068,
+      "grad_norm": 5.6875,
+      "learning_rate": 2.841197361745307e-06,
+      "loss": 2.09282684,
+      "memory(GiB)": 58.1,
+      "step": 1120,
+      "train_speed(iter/s)": 0.450021
+    },
+    {
+      "acc": 0.57460332,
+      "epoch": 0.028538812785388126,
+      "grad_norm": 5.5,
+      "learning_rate": 2.8538812785388133e-06,
+      "loss": 2.04692535,
+      "memory(GiB)": 58.1,
+      "step": 1125,
+      "train_speed(iter/s)": 0.45108
+    },
+    {
+      "acc": 0.58731594,
+      "epoch": 0.028665651953323185,
+      "grad_norm": 6.3125,
+      "learning_rate": 2.866565195332319e-06,
+      "loss": 2.01711597,
+      "memory(GiB)": 58.1,
+      "step": 1130,
+      "train_speed(iter/s)": 0.452136
+    },
+    {
+      "acc": 0.59110603,
+      "epoch": 0.028792491121258243,
+      "grad_norm": 5.03125,
+      "learning_rate": 2.879249112125825e-06,
+      "loss": 2.01370506,
+      "memory(GiB)": 58.1,
+      "step": 1135,
+      "train_speed(iter/s)": 0.453184
+    },
+    {
+      "acc": 0.58467035,
+      "epoch": 0.0289193302891933,
+      "grad_norm": 5.78125,
+      "learning_rate": 2.8919330289193303e-06,
+      "loss": 2.07677879,
+      "memory(GiB)": 58.1,
+      "step": 1140,
+      "train_speed(iter/s)": 0.454223
+    },
+    {
+      "acc": 0.58224087,
+      "epoch": 0.02904616945712836,
+      "grad_norm": 5.09375,
+      "learning_rate": 2.9046169457128363e-06,
+      "loss": 2.03106861,
+      "memory(GiB)": 58.1,
+      "step": 1145,
+      "train_speed(iter/s)": 0.455258
+    },
+    {
+      "acc": 0.58103757,
+      "epoch": 0.029173008625063418,
+      "grad_norm": 5.90625,
+      "learning_rate": 2.917300862506342e-06,
+      "loss": 2.06879482,
+      "memory(GiB)": 58.1,
+      "step": 1150,
+      "train_speed(iter/s)": 0.456296
+    },
+    {
+      "acc": 0.57492504,
+      "epoch": 0.029299847792998476,
+      "grad_norm": 5.84375,
+      "learning_rate": 2.9299847792998482e-06,
+      "loss": 2.07535973,
+      "memory(GiB)": 58.1,
+      "step": 1155,
+      "train_speed(iter/s)": 0.457343
+    },
+    {
+      "acc": 0.60014844,
+      "epoch": 0.029426686960933535,
+      "grad_norm": 6.25,
+      "learning_rate": 2.9426686960933538e-06,
+      "loss": 2.0338295,
+      "memory(GiB)": 58.1,
+      "step": 1160,
+      "train_speed(iter/s)": 0.458369
+    },
+    {
+      "acc": 0.58941851,
+      "epoch": 0.029553526128868593,
+      "grad_norm": 6.4375,
+      "learning_rate": 2.9553526128868598e-06,
+      "loss": 2.01237602,
+      "memory(GiB)": 58.1,
+      "step": 1165,
+      "train_speed(iter/s)": 0.459381
+    },
+    {
+      "acc": 0.57980275,
+      "epoch": 0.02968036529680365,
+      "grad_norm": 5.625,
+      "learning_rate": 2.9680365296803653e-06,
+      "loss": 2.09141636,
+      "memory(GiB)": 58.1,
+      "step": 1170,
+      "train_speed(iter/s)": 0.460407
+    },
+    {
+      "acc": 0.59483747,
+      "epoch": 0.02980720446473871,
+      "grad_norm": 5.6875,
+      "learning_rate": 2.9807204464738717e-06,
+      "loss": 2.02767811,
+      "memory(GiB)": 58.1,
+      "step": 1175,
+      "train_speed(iter/s)": 0.461425
+    },
+    {
+      "acc": 0.60195074,
+      "epoch": 0.029934043632673768,
+      "grad_norm": 5.4375,
+      "learning_rate": 2.9934043632673772e-06,
+      "loss": 1.94009094,
+      "memory(GiB)": 58.1,
+      "step": 1180,
+      "train_speed(iter/s)": 0.462439
+    },
+    {
+      "acc": 0.57435117,
+      "epoch": 0.030060882800608826,
+      "grad_norm": 5.375,
+      "learning_rate": 3.006088280060883e-06,
+      "loss": 2.04282379,
+      "memory(GiB)": 58.1,
+      "step": 1185,
+      "train_speed(iter/s)": 0.463452
+    },
+    {
+      "acc": 0.577742,
+      "epoch": 0.030187721968543885,
+      "grad_norm": 6.15625,
+      "learning_rate": 3.0187721968543887e-06,
+      "loss": 2.03994942,
+      "memory(GiB)": 58.1,
+      "step": 1190,
+      "train_speed(iter/s)": 0.464464
+    },
+    {
+      "acc": 0.57857523,
+      "epoch": 0.030314561136478943,
+      "grad_norm": 5.9375,
+      "learning_rate": 3.0314561136478947e-06,
+      "loss": 2.04877777,
+      "memory(GiB)": 58.1,
+      "step": 1195,
+      "train_speed(iter/s)": 0.465455
+    },
+    {
+      "acc": 0.61877623,
+      "epoch": 0.030441400304414,
+      "grad_norm": 6.25,
+      "learning_rate": 3.0441400304414002e-06,
+      "loss": 1.97868118,
+      "memory(GiB)": 58.1,
+      "step": 1200,
+      "train_speed(iter/s)": 0.466454
+    },
+    {
+      "epoch": 0.030441400304414,
+      "eval_acc": 0.5814076001064471,
+      "eval_loss": 2.042628765106201,
+      "eval_runtime": 112.1687,
+      "eval_samples_per_second": 56.789,
+      "eval_steps_per_second": 28.395,
+      "step": 1200
+    },
+    {
+      "acc": 0.5757021,
+      "epoch": 0.03056823947234906,
+      "grad_norm": 6.46875,
+      "learning_rate": 3.0568239472349066e-06,
+      "loss": 2.13078766,
+      "memory(GiB)": 58.1,
+      "step": 1205,
+      "train_speed(iter/s)": 0.447212
+    },
+    {
+      "acc": 0.57486238,
+      "epoch": 0.030695078640284118,
+      "grad_norm": 6.59375,
+      "learning_rate": 3.069507864028412e-06,
+      "loss": 1.99296398,
+      "memory(GiB)": 58.1,
+      "step": 1210,
+      "train_speed(iter/s)": 0.448188
+    },
+    {
+      "acc": 0.5830471,
+      "epoch": 0.030821917808219176,
+      "grad_norm": 5.34375,
+      "learning_rate": 3.082191780821918e-06,
+      "loss": 2.03044128,
+      "memory(GiB)": 58.1,
+      "step": 1215,
+      "train_speed(iter/s)": 0.449164
+    },
+    {
+      "acc": 0.58052006,
+      "epoch": 0.030948756976154235,
+      "grad_norm": 6.15625,
+      "learning_rate": 3.0948756976154237e-06,
+      "loss": 2.0468399,
+      "memory(GiB)": 58.14,
+      "step": 1220,
+      "train_speed(iter/s)": 0.450147
+    },
+    {
+      "acc": 0.59650674,
+      "epoch": 0.031075596144089293,
+      "grad_norm": 5.53125,
+      "learning_rate": 3.1075596144089297e-06,
+      "loss": 2.04331741,
+      "memory(GiB)": 58.14,
+      "step": 1225,
+      "train_speed(iter/s)": 0.451123
+    },
+    {
+      "acc": 0.59364333,
+      "epoch": 0.03120243531202435,
+      "grad_norm": 5.8125,
+      "learning_rate": 3.120243531202435e-06,
+      "loss": 2.03374901,
+      "memory(GiB)": 58.14,
+      "step": 1230,
+      "train_speed(iter/s)": 0.45209
+    },
+    {
+      "acc": 0.58367114,
+      "epoch": 0.03132927447995941,
+      "grad_norm": 5.78125,
+      "learning_rate": 3.1329274479959416e-06,
+      "loss": 2.0957283,
+      "memory(GiB)": 58.14,
+      "step": 1235,
+      "train_speed(iter/s)": 0.453056
+    },
+    {
+      "acc": 0.5884491,
+      "epoch": 0.03145611364789447,
+      "grad_norm": 5.875,
+      "learning_rate": 3.145611364789447e-06,
+      "loss": 2.0294363,
+      "memory(GiB)": 58.14,
+      "step": 1240,
+      "train_speed(iter/s)": 0.454021
+    },
+    {
+      "acc": 0.58413467,
+      "epoch": 0.031582952815829526,
+      "grad_norm": 5.34375,
+      "learning_rate": 3.158295281582953e-06,
+      "loss": 2.0904974,
+      "memory(GiB)": 58.14,
+      "step": 1245,
+      "train_speed(iter/s)": 0.45498
+    },
+    {
+      "acc": 0.58544159,
+      "epoch": 0.031709791983764585,
+      "grad_norm": 6.5625,
+      "learning_rate": 3.1709791983764586e-06,
+      "loss": 2.03991356,
+      "memory(GiB)": 58.14,
+      "step": 1250,
+      "train_speed(iter/s)": 0.455933
+    },
+    {
+      "acc": 0.58787956,
+      "epoch": 0.03183663115169964,
+      "grad_norm": 5.1875,
+      "learning_rate": 3.183663115169965e-06,
+      "loss": 2.05537472,
+      "memory(GiB)": 58.14,
+      "step": 1255,
+      "train_speed(iter/s)": 0.456889
+    },
+    {
+      "acc": 0.59399815,
+      "epoch": 0.0319634703196347,
+      "grad_norm": 4.71875,
+      "learning_rate": 3.1963470319634706e-06,
+      "loss": 2.06450615,
+      "memory(GiB)": 58.14,
+      "step": 1260,
+      "train_speed(iter/s)": 0.457837
+    },
+    {
+      "acc": 0.58911357,
+      "epoch": 0.03209030948756976,
+      "grad_norm": 5.28125,
+      "learning_rate": 3.2090309487569765e-06,
+      "loss": 1.98663044,
+      "memory(GiB)": 58.14,
+      "step": 1265,
+      "train_speed(iter/s)": 0.458785
+    },
+    {
+      "acc": 0.58299508,
+      "epoch": 0.03221714865550482,
+      "grad_norm": 5.96875,
+      "learning_rate": 3.221714865550482e-06,
+      "loss": 2.05958347,
+      "memory(GiB)": 58.14,
+      "step": 1270,
+      "train_speed(iter/s)": 0.45973
+    },
+    {
+      "acc": 0.59095502,
+      "epoch": 0.032343987823439876,
+      "grad_norm": 5.3125,
+      "learning_rate": 3.234398782343988e-06,
+      "loss": 2.08648758,
+      "memory(GiB)": 58.14,
+      "step": 1275,
+      "train_speed(iter/s)": 0.460652
+    },
+    {
+      "acc": 0.58892069,
+      "epoch": 0.032470826991374935,
+      "grad_norm": 4.96875,
+      "learning_rate": 3.2470826991374936e-06,
+      "loss": 2.01748333,
+      "memory(GiB)": 58.14,
+      "step": 1280,
+      "train_speed(iter/s)": 0.461593
+    },
+    {
+      "acc": 0.58466053,
+      "epoch": 0.03259766615930999,
+      "grad_norm": 5.5,
+      "learning_rate": 3.259766615931e-06,
+      "loss": 2.04656467,
+      "memory(GiB)": 58.14,
+      "step": 1285,
+      "train_speed(iter/s)": 0.462518
+    },
+    {
+      "acc": 0.604704,
+      "epoch": 0.03272450532724505,
+      "grad_norm": 5.84375,
+      "learning_rate": 3.2724505327245055e-06,
+      "loss": 1.99920521,
+      "memory(GiB)": 58.14,
+      "step": 1290,
+      "train_speed(iter/s)": 0.463446
+    },
+    {
+      "acc": 0.58460693,
+      "epoch": 0.03285134449518011,
+      "grad_norm": 5.78125,
+      "learning_rate": 3.2851344495180115e-06,
+      "loss": 2.04618454,
+      "memory(GiB)": 58.14,
+      "step": 1295,
+      "train_speed(iter/s)": 0.46436
+    },
+    {
+      "acc": 0.58162394,
+      "epoch": 0.03297818366311517,
+      "grad_norm": 5.5,
+      "learning_rate": 3.297818366311517e-06,
+      "loss": 2.08075142,
+      "memory(GiB)": 58.14,
+      "step": 1300,
+      "train_speed(iter/s)": 0.465273
+    },
+    {
+      "epoch": 0.03297818366311517,
+      "eval_acc": 0.5832720956085554,
+      "eval_loss": 2.023688316345215,
+      "eval_runtime": 112.6353,
+      "eval_samples_per_second": 56.554,
+      "eval_steps_per_second": 28.277,
+      "step": 1300
+    },
+    {
+      "acc": 0.6012743,
+      "epoch": 0.033105022831050226,
+      "grad_norm": 7.9375,
+      "learning_rate": 3.310502283105023e-06,
+      "loss": 1.98675652,
+      "memory(GiB)": 58.14,
+      "step": 1305,
+      "train_speed(iter/s)": 0.447454
+    },
+    {
+      "acc": 0.59395251,
+      "epoch": 0.033231861998985285,
+      "grad_norm": 5.46875,
+      "learning_rate": 3.3231861998985286e-06,
+      "loss": 2.00059795,
+      "memory(GiB)": 58.14,
+      "step": 1310,
+      "train_speed(iter/s)": 0.448358
+    },
+    {
+      "acc": 0.61236,
+      "epoch": 0.03335870116692034,
+      "grad_norm": 5.5,
+      "learning_rate": 3.335870116692035e-06,
+      "loss": 1.90900192,
+      "memory(GiB)": 58.14,
+      "step": 1315,
+      "train_speed(iter/s)": 0.449254
+    },
+    {
+      "acc": 0.57951021,
+      "epoch": 0.0334855403348554,
+      "grad_norm": 5.875,
+      "learning_rate": 3.3485540334855405e-06,
+      "loss": 2.04443588,
+      "memory(GiB)": 58.14,
+      "step": 1320,
+      "train_speed(iter/s)": 0.450154
+    },
+    {
+      "acc": 0.59460707,
+      "epoch": 0.03361237950279046,
+      "grad_norm": 6.4375,
+      "learning_rate": 3.3612379502790465e-06,
+      "loss": 1.96191101,
+      "memory(GiB)": 58.14,
+      "step": 1325,
+      "train_speed(iter/s)": 0.451041
+    },
+    {
+      "acc": 0.60482206,
+      "epoch": 0.03373921867072552,
+      "grad_norm": 7.0,
+      "learning_rate": 3.373921867072552e-06,
+      "loss": 2.02402935,
+      "memory(GiB)": 58.14,
+      "step": 1330,
+      "train_speed(iter/s)": 0.451932
+    },
+    {
+      "acc": 0.59342928,
+      "epoch": 0.033866057838660577,
+      "grad_norm": 5.53125,
+      "learning_rate": 3.3866057838660584e-06,
+      "loss": 2.0785635,
+      "memory(GiB)": 58.14,
+      "step": 1335,
+      "train_speed(iter/s)": 0.452815
+    },
+    {
+      "acc": 0.60314054,
+      "epoch": 0.033992897006595635,
+      "grad_norm": 5.46875,
+      "learning_rate": 3.399289700659564e-06,
+      "loss": 1.97551765,
+      "memory(GiB)": 58.14,
+      "step": 1340,
+      "train_speed(iter/s)": 0.453698
+    },
+    {
+      "acc": 0.60864201,
+      "epoch": 0.03411973617453069,
+      "grad_norm": 5.125,
+      "learning_rate": 3.41197361745307e-06,
+      "loss": 2.00481873,
+      "memory(GiB)": 58.14,
+      "step": 1345,
+      "train_speed(iter/s)": 0.454573
+    },
+    {
+      "acc": 0.58488483,
+      "epoch": 0.03424657534246575,
+      "grad_norm": 5.15625,
+      "learning_rate": 3.4246575342465754e-06,
+      "loss": 2.00058441,
+      "memory(GiB)": 58.14,
+      "step": 1350,
+      "train_speed(iter/s)": 0.455438
+    },
+    {
+      "acc": 0.60826778,
+      "epoch": 0.03437341451040081,
+      "grad_norm": 6.40625,
+      "learning_rate": 3.4373414510400814e-06,
+      "loss": 1.93858299,
+      "memory(GiB)": 58.14,
+      "step": 1355,
+      "train_speed(iter/s)": 0.456308
+    },
+    {
+      "acc": 0.59984961,
+      "epoch": 0.03450025367833587,
+      "grad_norm": 6.3125,
+      "learning_rate": 3.450025367833587e-06,
+      "loss": 1.98000469,
+      "memory(GiB)": 58.14,
+      "step": 1360,
+      "train_speed(iter/s)": 0.457168
+    },
+    {
+      "acc": 0.59185562,
+      "epoch": 0.03462709284627093,
+      "grad_norm": 5.6875,
+      "learning_rate": 3.4627092846270933e-06,
+      "loss": 1.99953384,
+      "memory(GiB)": 58.14,
+      "step": 1365,
+      "train_speed(iter/s)": 0.458033
+    },
+    {
+      "acc": 0.58549786,
+      "epoch": 0.034753932014205985,
+      "grad_norm": 5.5625,
+      "learning_rate": 3.475393201420599e-06,
+      "loss": 2.00680447,
+      "memory(GiB)": 58.14,
+      "step": 1370,
+      "train_speed(iter/s)": 0.458898
+    },
+    {
+      "acc": 0.59121161,
+      "epoch": 0.03488077118214104,
+      "grad_norm": 5.96875,
+      "learning_rate": 3.488077118214105e-06,
+      "loss": 2.00466576,
+      "memory(GiB)": 58.14,
+      "step": 1375,
+      "train_speed(iter/s)": 0.45975
+    },
+    {
+      "acc": 0.60226107,
+      "epoch": 0.0350076103500761,
+      "grad_norm": 5.53125,
+      "learning_rate": 3.5007610350076104e-06,
+      "loss": 2.01248531,
+      "memory(GiB)": 58.14,
+      "step": 1380,
+      "train_speed(iter/s)": 0.460599
+    },
+    {
+      "acc": 0.60449491,
+      "epoch": 0.03513444951801116,
+      "grad_norm": 5.6875,
+      "learning_rate": 3.5134449518011164e-06,
+      "loss": 1.97046242,
+      "memory(GiB)": 58.14,
+      "step": 1385,
+      "train_speed(iter/s)": 0.461452
+    },
+    {
+      "acc": 0.58740883,
+      "epoch": 0.03526128868594622,
+      "grad_norm": 5.6875,
+      "learning_rate": 3.5261288685946223e-06,
+      "loss": 2.056567,
+      "memory(GiB)": 58.14,
+      "step": 1390,
+      "train_speed(iter/s)": 0.4623
+    },
+    {
+      "acc": 0.57723293,
+      "epoch": 0.03538812785388128,
+      "grad_norm": 5.59375,
+      "learning_rate": 3.5388127853881283e-06,
+      "loss": 2.11377258,
+      "memory(GiB)": 58.14,
+      "step": 1395,
+      "train_speed(iter/s)": 0.463138
+    },
+    {
+      "acc": 0.57502775,
+      "epoch": 0.035514967021816335,
+      "grad_norm": 5.53125,
+      "learning_rate": 3.551496702181634e-06,
+      "loss": 1.97540092,
+      "memory(GiB)": 58.14,
+      "step": 1400,
+      "train_speed(iter/s)": 0.463979
+    },
+    {
+      "epoch": 0.035514967021816335,
+      "eval_acc": 0.5851236403240705,
+      "eval_loss": 2.00679874420166,
+      "eval_runtime": 113.8968,
+      "eval_samples_per_second": 55.928,
+      "eval_steps_per_second": 27.964,
+      "step": 1400
+    },
+    {
+      "acc": 0.57469149,
+      "epoch": 0.03564180618975139,
+      "grad_norm": 6.375,
+      "learning_rate": 3.56418061897514e-06,
+      "loss": 2.07700272,
+      "memory(GiB)": 58.14,
+      "step": 1405,
+      "train_speed(iter/s)": 0.447302
+    },
+    {
+      "acc": 0.57950678,
+      "epoch": 0.03576864535768645,
+      "grad_norm": 5.84375,
+      "learning_rate": 3.5768645357686453e-06,
+      "loss": 2.08248138,
+      "memory(GiB)": 58.14,
+      "step": 1410,
+      "train_speed(iter/s)": 0.448139
+    },
+    {
+      "acc": 0.59639082,
+      "epoch": 0.03589548452562151,
+      "grad_norm": 5.125,
+      "learning_rate": 3.5895484525621517e-06,
+      "loss": 2.01292553,
+      "memory(GiB)": 58.14,
+      "step": 1415,
+      "train_speed(iter/s)": 0.448971
+    },
+    {
+      "acc": 0.60409479,
+      "epoch": 0.03602232369355657,
+      "grad_norm": 6.0,
+      "learning_rate": 3.6022323693556573e-06,
+      "loss": 1.96956444,
+      "memory(GiB)": 58.14,
+      "step": 1420,
+      "train_speed(iter/s)": 0.4498
+    },
+    {
+      "acc": 0.59116673,
+      "epoch": 0.03614916286149163,
+      "grad_norm": 6.15625,
+      "learning_rate": 3.6149162861491632e-06,
+      "loss": 2.03165779,
+      "memory(GiB)": 58.14,
+      "step": 1425,
+      "train_speed(iter/s)": 0.450624
+    },
+    {
+      "acc": 0.60644951,
+      "epoch": 0.036276002029426685,
+      "grad_norm": 5.34375,
+      "learning_rate": 3.6276002029426688e-06,
+      "loss": 1.94401093,
+      "memory(GiB)": 58.14,
+      "step": 1430,
+      "train_speed(iter/s)": 0.451444
+    },
+    {
+      "acc": 0.57770939,
+      "epoch": 0.03640284119736174,
+      "grad_norm": 5.84375,
+      "learning_rate": 3.6402841197361748e-06,
+      "loss": 2.02814827,
+      "memory(GiB)": 58.14,
+      "step": 1435,
+      "train_speed(iter/s)": 0.452262
+    },
+    {
+      "acc": 0.59192715,
+      "epoch": 0.0365296803652968,
+      "grad_norm": 7.4375,
+      "learning_rate": 3.6529680365296803e-06,
+      "loss": 2.05361481,
+      "memory(GiB)": 58.14,
+      "step": 1440,
+      "train_speed(iter/s)": 0.453091
+    },
+    {
+      "acc": 0.61672406,
+      "epoch": 0.03665651953323186,
+      "grad_norm": 5.21875,
+      "learning_rate": 3.6656519533231867e-06,
+      "loss": 1.98095169,
+      "memory(GiB)": 58.14,
+      "step": 1445,
+      "train_speed(iter/s)": 0.453905
+    },
+    {
+      "acc": 0.58148623,
+      "epoch": 0.03678335870116692,
+      "grad_norm": 5.21875,
+      "learning_rate": 3.6783358701166922e-06,
+      "loss": 2.10712395,
+      "memory(GiB)": 58.14,
+      "step": 1450,
+      "train_speed(iter/s)": 0.454719
+    },
+    {
+      "acc": 0.60510659,
+      "epoch": 0.03691019786910198,
+      "grad_norm": 5.4375,
+      "learning_rate": 3.691019786910198e-06,
+      "loss": 2.03598137,
+      "memory(GiB)": 58.14,
+      "step": 1455,
+      "train_speed(iter/s)": 0.455537
+    },
+    {
+      "acc": 0.59899988,
+      "epoch": 0.037037037037037035,
+      "grad_norm": 6.15625,
+      "learning_rate": 3.7037037037037037e-06,
+      "loss": 1.91426125,
+      "memory(GiB)": 58.14,
+      "step": 1460,
+      "train_speed(iter/s)": 0.456358
+    },
+    {
+      "acc": 0.59026952,
+      "epoch": 0.03716387620497209,
+      "grad_norm": 5.75,
+      "learning_rate": 3.7163876204972097e-06,
+      "loss": 2.01717033,
+      "memory(GiB)": 58.14,
+      "step": 1465,
+      "train_speed(iter/s)": 0.457166
+    },
+    {
+      "acc": 0.5948554,
+      "epoch": 0.03729071537290715,
+      "grad_norm": 5.15625,
+      "learning_rate": 3.7290715372907157e-06,
+      "loss": 1.99462662,
+      "memory(GiB)": 58.14,
+      "step": 1470,
+      "train_speed(iter/s)": 0.457973
+    },
+    {
+      "acc": 0.5895648,
+      "epoch": 0.03741755454084221,
+      "grad_norm": 6.21875,
+      "learning_rate": 3.7417554540842216e-06,
+      "loss": 1.99374218,
+      "memory(GiB)": 58.14,
+      "step": 1475,
+      "train_speed(iter/s)": 0.458784
+    },
+    {
+      "acc": 0.61564498,
+      "epoch": 0.03754439370877727,
+      "grad_norm": 5.34375,
+      "learning_rate": 3.754439370877727e-06,
+      "loss": 1.95908012,
+      "memory(GiB)": 58.14,
+      "step": 1480,
+      "train_speed(iter/s)": 0.459587
+    },
+    {
+      "acc": 0.58806829,
+      "epoch": 0.03767123287671233,
+      "grad_norm": 5.875,
+      "learning_rate": 3.767123287671233e-06,
+      "loss": 1.93563194,
+      "memory(GiB)": 58.14,
+      "step": 1485,
+      "train_speed(iter/s)": 0.460381
+    },
+    {
+      "acc": 0.58792725,
+      "epoch": 0.037798072044647385,
+      "grad_norm": 6.375,
+      "learning_rate": 3.7798072044647387e-06,
+      "loss": 2.0438406,
+      "memory(GiB)": 58.14,
+      "step": 1490,
+      "train_speed(iter/s)": 0.461175
+    },
+    {
+      "acc": 0.57838364,
+      "epoch": 0.03792491121258244,
+      "grad_norm": 6.40625,
+      "learning_rate": 3.792491121258245e-06,
+      "loss": 2.11203232,
+      "memory(GiB)": 58.14,
+      "step": 1495,
+      "train_speed(iter/s)": 0.461973
+    },
+    {
+      "acc": 0.58842378,
+      "epoch": 0.0380517503805175,
+      "grad_norm": 5.6875,
+      "learning_rate": 3.8051750380517506e-06,
+      "loss": 2.02233601,
+      "memory(GiB)": 58.14,
+      "step": 1500,
+      "train_speed(iter/s)": 0.462758
+    },
+    {
+      "epoch": 0.0380517503805175,
+      "eval_acc": 0.5869334083086398,
+      "eval_loss": 1.9907699823379517,
+      "eval_runtime": 112.6647,
+      "eval_samples_per_second": 56.539,
+      "eval_steps_per_second": 28.27,
+      "step": 1500
+    },
+    {
+      "acc": 0.59982653,
+      "epoch": 0.03817858954845256,
+      "grad_norm": 5.21875,
+      "learning_rate": 3.817858954845256e-06,
+      "loss": 1.98179169,
+      "memory(GiB)": 58.14,
+      "step": 1505,
+      "train_speed(iter/s)": 0.447405
+    },
+    {
+      "acc": 0.58439264,
+      "epoch": 0.03830542871638762,
+      "grad_norm": 5.96875,
+      "learning_rate": 3.830542871638762e-06,
+      "loss": 2.00547409,
+      "memory(GiB)": 58.14,
+      "step": 1510,
+      "train_speed(iter/s)": 0.448185
+    },
+    {
+      "acc": 0.59878612,
+      "epoch": 0.03843226788432268,
+      "grad_norm": 5.53125,
+      "learning_rate": 3.843226788432268e-06,
+      "loss": 1.97039299,
+      "memory(GiB)": 58.14,
+      "step": 1515,
+      "train_speed(iter/s)": 0.448958
+    },
+    {
+      "acc": 0.58891411,
+      "epoch": 0.038559107052257735,
+      "grad_norm": 6.375,
+      "learning_rate": 3.855910705225774e-06,
+      "loss": 1.98719673,
+      "memory(GiB)": 58.14,
+      "step": 1520,
+      "train_speed(iter/s)": 0.449735
+    },
+    {
+      "acc": 0.58927441,
+      "epoch": 0.03868594622019279,
+      "grad_norm": 5.34375,
+      "learning_rate": 3.86859462201928e-06,
+      "loss": 1.9856411,
+      "memory(GiB)": 58.14,
+      "step": 1525,
+      "train_speed(iter/s)": 0.450511
+    },
+    {
+      "acc": 0.58314414,
+      "epoch": 0.03881278538812785,
+      "grad_norm": 6.25,
+      "learning_rate": 3.881278538812785e-06,
+      "loss": 2.02250271,
+      "memory(GiB)": 58.14,
+      "step": 1530,
+      "train_speed(iter/s)": 0.451284
+    },
+    {
+      "acc": 0.60146899,
+      "epoch": 0.03893962455606291,
+      "grad_norm": 5.84375,
+      "learning_rate": 3.893962455606292e-06,
+      "loss": 1.99159927,
+      "memory(GiB)": 58.14,
+      "step": 1535,
+      "train_speed(iter/s)": 0.452057
+    },
+    {
+      "acc": 0.60928993,
+      "epoch": 0.03906646372399797,
+      "grad_norm": 6.40625,
+      "learning_rate": 3.906646372399797e-06,
+      "loss": 1.91212196,
+      "memory(GiB)": 58.14,
+      "step": 1540,
+      "train_speed(iter/s)": 0.452824
+    },
+    {
+      "acc": 0.56870441,
+      "epoch": 0.03919330289193303,
+      "grad_norm": 5.71875,
+      "learning_rate": 3.919330289193303e-06,
+      "loss": 2.03145256,
+      "memory(GiB)": 58.14,
+      "step": 1545,
+      "train_speed(iter/s)": 0.453589
+    },
+    {
+      "acc": 0.57842994,
+      "epoch": 0.039320142059868085,
+      "grad_norm": 6.21875,
+      "learning_rate": 3.932014205986809e-06,
+      "loss": 2.00378914,
+      "memory(GiB)": 58.14,
+      "step": 1550,
+      "train_speed(iter/s)": 0.454362
+    },
+    {
+      "acc": 0.61088352,
+      "epoch": 0.03944698122780314,
+      "grad_norm": 6.3125,
+      "learning_rate": 3.944698122780315e-06,
+      "loss": 1.96507072,
+      "memory(GiB)": 58.14,
+      "step": 1555,
+      "train_speed(iter/s)": 0.45513
+    },
+    {
+      "acc": 0.5916419,
+      "epoch": 0.0395738203957382,
+      "grad_norm": 8.8125,
+      "learning_rate": 3.95738203957382e-06,
+      "loss": 2.03187447,
+      "memory(GiB)": 58.14,
+      "step": 1560,
+      "train_speed(iter/s)": 0.455892
+    },
+    {
+      "acc": 0.59330702,
+      "epoch": 0.03970065956367326,
+      "grad_norm": 6.15625,
+      "learning_rate": 3.970065956367327e-06,
+      "loss": 1.97511959,
+      "memory(GiB)": 58.14,
+      "step": 1565,
+      "train_speed(iter/s)": 0.456649
+    },
+    {
+      "acc": 0.59780612,
+      "epoch": 0.03982749873160832,
+      "grad_norm": 5.5625,
+      "learning_rate": 3.982749873160832e-06,
+      "loss": 2.00135841,
+      "memory(GiB)": 58.14,
+      "step": 1570,
+      "train_speed(iter/s)": 0.457411
+    },
+    {
+      "acc": 0.57598472,
+      "epoch": 0.03995433789954338,
+      "grad_norm": 7.5,
+      "learning_rate": 3.995433789954338e-06,
+      "loss": 2.070998,
+      "memory(GiB)": 58.14,
+      "step": 1575,
+      "train_speed(iter/s)": 0.458166
+    },
+    {
+      "acc": 0.60508847,
+      "epoch": 0.040081177067478435,
+      "grad_norm": 4.78125,
+      "learning_rate": 4.008117706747844e-06,
+      "loss": 2.01071415,
+      "memory(GiB)": 58.14,
+      "step": 1580,
+      "train_speed(iter/s)": 0.458913
+    },
+    {
+      "acc": 0.59113226,
+      "epoch": 0.04020801623541349,
+      "grad_norm": 7.0,
+      "learning_rate": 4.02080162354135e-06,
+      "loss": 1.9657011,
+      "memory(GiB)": 58.14,
+      "step": 1585,
+      "train_speed(iter/s)": 0.45967
+    },
+    {
+      "acc": 0.59855337,
+      "epoch": 0.04033485540334855,
+      "grad_norm": 6.0625,
+      "learning_rate": 4.033485540334856e-06,
+      "loss": 1.9439846,
+      "memory(GiB)": 58.14,
+      "step": 1590,
+      "train_speed(iter/s)": 0.460421
+    },
+    {
+      "acc": 0.59298334,
+      "epoch": 0.04046169457128361,
+      "grad_norm": 5.25,
+      "learning_rate": 4.046169457128362e-06,
+      "loss": 2.02098694,
+      "memory(GiB)": 58.14,
+      "step": 1595,
+      "train_speed(iter/s)": 0.46116
+    },
+    {
+      "acc": 0.57667694,
+      "epoch": 0.04058853373921867,
+      "grad_norm": 5.9375,
+      "learning_rate": 4.058853373921867e-06,
+      "loss": 2.0582428,
+      "memory(GiB)": 58.14,
+      "step": 1600,
+      "train_speed(iter/s)": 0.461905
+    },
+    {
+      "epoch": 0.04058853373921867,
+      "eval_acc": 0.5886140861945868,
+      "eval_loss": 1.9762248992919922,
+      "eval_runtime": 112.9974,
+      "eval_samples_per_second": 56.373,
+      "eval_steps_per_second": 28.186,
+      "step": 1600
+    },
+    {
+      "acc": 0.60419512,
+      "epoch": 0.04071537290715373,
+      "grad_norm": 5.46875,
+      "learning_rate": 4.071537290715373e-06,
+      "loss": 1.88787327,
+      "memory(GiB)": 58.14,
+      "step": 1605,
+      "train_speed(iter/s)": 0.447492
+    },
+    {
+      "acc": 0.59176865,
+      "epoch": 0.040842212075088785,
+      "grad_norm": 6.875,
+      "learning_rate": 4.084221207508879e-06,
+      "loss": 2.00019836,
+      "memory(GiB)": 58.14,
+      "step": 1610,
+      "train_speed(iter/s)": 0.448232
+    },
+    {
+      "acc": 0.58779345,
+      "epoch": 0.040969051243023843,
+      "grad_norm": 5.96875,
+      "learning_rate": 4.096905124302385e-06,
+      "loss": 2.00668335,
+      "memory(GiB)": 58.14,
+      "step": 1615,
+      "train_speed(iter/s)": 0.448964
+    },
+    {
+      "acc": 0.59657793,
+      "epoch": 0.0410958904109589,
+      "grad_norm": 5.28125,
+      "learning_rate": 4.109589041095891e-06,
+      "loss": 1.95897408,
+      "memory(GiB)": 58.14,
+      "step": 1620,
+      "train_speed(iter/s)": 0.449693
+    },
+    {
+      "acc": 0.58437681,
+      "epoch": 0.04122272957889396,
+      "grad_norm": 6.28125,
+      "learning_rate": 4.122272957889397e-06,
+      "loss": 2.11465492,
+      "memory(GiB)": 58.14,
+      "step": 1625,
+      "train_speed(iter/s)": 0.450418
+    },
+    {
+      "acc": 0.58726759,
+      "epoch": 0.04134956874682902,
+      "grad_norm": 7.21875,
+      "learning_rate": 4.134956874682902e-06,
+      "loss": 1.99460888,
+      "memory(GiB)": 58.14,
+      "step": 1630,
+      "train_speed(iter/s)": 0.451146
+    },
+    {
+      "acc": 0.62223482,
+      "epoch": 0.04147640791476408,
+      "grad_norm": 5.15625,
+      "learning_rate": 4.147640791476408e-06,
+      "loss": 1.88918247,
+      "memory(GiB)": 58.14,
+      "step": 1635,
+      "train_speed(iter/s)": 0.451864
+    },
+    {
+      "acc": 0.59386044,
+      "epoch": 0.041603247082699135,
+      "grad_norm": 5.375,
+      "learning_rate": 4.160324708269914e-06,
+      "loss": 2.0271759,
+      "memory(GiB)": 58.14,
+      "step": 1640,
+      "train_speed(iter/s)": 0.452587
+    },
+    {
+      "acc": 0.60839391,
+      "epoch": 0.041730086250634194,
+      "grad_norm": 4.8125,
+      "learning_rate": 4.17300862506342e-06,
+      "loss": 1.88440781,
+      "memory(GiB)": 58.14,
+      "step": 1645,
+      "train_speed(iter/s)": 0.453311
+    },
+    {
+      "acc": 0.59974365,
+      "epoch": 0.04185692541856925,
+      "grad_norm": 6.125,
+      "learning_rate": 4.185692541856926e-06,
+      "loss": 1.87821274,
+      "memory(GiB)": 58.14,
+      "step": 1650,
+      "train_speed(iter/s)": 0.454027
+    },
+    {
+      "acc": 0.59998851,
+      "epoch": 0.04198376458650431,
+      "grad_norm": 5.875,
+      "learning_rate": 4.198376458650432e-06,
+      "loss": 1.93571701,
+      "memory(GiB)": 58.14,
+      "step": 1655,
+      "train_speed(iter/s)": 0.454745
+    },
+    {
+      "acc": 0.60226812,
+      "epoch": 0.04211060375443937,
+      "grad_norm": 6.75,
+      "learning_rate": 4.211060375443937e-06,
+      "loss": 1.89863091,
+      "memory(GiB)": 58.14,
+      "step": 1660,
+      "train_speed(iter/s)": 0.455459
+    },
+    {
+      "acc": 0.58071132,
+      "epoch": 0.04223744292237443,
+      "grad_norm": 5.78125,
+      "learning_rate": 4.223744292237444e-06,
+      "loss": 2.11747818,
+      "memory(GiB)": 58.14,
+      "step": 1665,
+      "train_speed(iter/s)": 0.456169
+    },
+    {
+      "acc": 0.59682236,
+      "epoch": 0.042364282090309485,
+      "grad_norm": 5.6875,
+      "learning_rate": 4.236428209030949e-06,
+      "loss": 1.9822731,
+      "memory(GiB)": 58.14,
+      "step": 1670,
+      "train_speed(iter/s)": 0.456876
+    },
+    {
+      "acc": 0.5858675,
+      "epoch": 0.042491121258244544,
+      "grad_norm": 6.21875,
+      "learning_rate": 4.249112125824455e-06,
+      "loss": 2.00417633,
+      "memory(GiB)": 58.14,
+      "step": 1675,
+      "train_speed(iter/s)": 0.457586
+    },
+    {
+      "acc": 0.59361582,
+      "epoch": 0.0426179604261796,
+      "grad_norm": 6.90625,
+      "learning_rate": 4.261796042617961e-06,
+      "loss": 1.97185211,
+      "memory(GiB)": 58.14,
+      "step": 1680,
+      "train_speed(iter/s)": 0.458285
+    },
+    {
+      "acc": 0.62019005,
+      "epoch": 0.04274479959411466,
+      "grad_norm": 6.34375,
+      "learning_rate": 4.274479959411467e-06,
+      "loss": 1.87001457,
+      "memory(GiB)": 58.14,
+      "step": 1685,
+      "train_speed(iter/s)": 0.458983
+    },
+    {
+      "acc": 0.59541726,
+      "epoch": 0.04287163876204972,
+      "grad_norm": 5.28125,
+      "learning_rate": 4.287163876204972e-06,
+      "loss": 1.90830975,
+      "memory(GiB)": 58.14,
+      "step": 1690,
+      "train_speed(iter/s)": 0.459687
+    },
+    {
+      "acc": 0.59603844,
+      "epoch": 0.04299847792998478,
+      "grad_norm": 5.53125,
+      "learning_rate": 4.299847792998479e-06,
+      "loss": 1.91053753,
+      "memory(GiB)": 58.14,
+      "step": 1695,
+      "train_speed(iter/s)": 0.460386
+    },
+    {
+      "acc": 0.60193319,
+      "epoch": 0.043125317097919835,
+      "grad_norm": 7.375,
+      "learning_rate": 4.312531709791984e-06,
+      "loss": 1.97927856,
+      "memory(GiB)": 58.14,
+      "step": 1700,
+      "train_speed(iter/s)": 0.461086
+    },
+    {
+      "epoch": 0.043125317097919835,
+      "eval_acc": 0.5902596716265395,
+      "eval_loss": 1.9628418684005737,
+      "eval_runtime": 114.517,
+      "eval_samples_per_second": 55.625,
+      "eval_steps_per_second": 27.812,
+      "step": 1700
+    },
+    {
+      "acc": 0.57796144,
+      "epoch": 0.043252156265854894,
+      "grad_norm": 6.96875,
+      "learning_rate": 4.32521562658549e-06,
+      "loss": 2.00307999,
+      "memory(GiB)": 58.14,
+      "step": 1705,
+      "train_speed(iter/s)": 0.447367
+    },
+    {
+      "acc": 0.59091091,
+      "epoch": 0.04337899543378995,
+      "grad_norm": 6.0,
+      "learning_rate": 4.337899543378996e-06,
+      "loss": 2.01779633,
+      "memory(GiB)": 58.14,
+      "step": 1710,
+      "train_speed(iter/s)": 0.44806
+    },
+    {
+      "acc": 0.57111516,
+      "epoch": 0.04350583460172501,
+      "grad_norm": 5.0,
+      "learning_rate": 4.350583460172502e-06,
+      "loss": 2.06058617,
+      "memory(GiB)": 58.14,
+      "step": 1715,
+      "train_speed(iter/s)": 0.448753
+    },
+    {
+      "acc": 0.61192236,
+      "epoch": 0.04363267376966007,
+      "grad_norm": 6.25,
+      "learning_rate": 4.363267376966007e-06,
+      "loss": 1.92471466,
+      "memory(GiB)": 58.14,
+      "step": 1720,
+      "train_speed(iter/s)": 0.449443
+    },
+    {
+      "acc": 0.59001474,
+      "epoch": 0.04375951293759513,
+      "grad_norm": 5.59375,
+      "learning_rate": 4.375951293759514e-06,
+      "loss": 2.00295353,
+      "memory(GiB)": 58.14,
+      "step": 1725,
+      "train_speed(iter/s)": 0.450137
+    },
+    {
+      "acc": 0.59872637,
+      "epoch": 0.043886352105530185,
+      "grad_norm": 6.15625,
+      "learning_rate": 4.388635210553019e-06,
+      "loss": 1.95385628,
+      "memory(GiB)": 58.14,
+      "step": 1730,
+      "train_speed(iter/s)": 0.45083
+    },
+    {
+      "acc": 0.6004015,
+      "epoch": 0.044013191273465244,
+      "grad_norm": 5.375,
+      "learning_rate": 4.401319127346525e-06,
+      "loss": 1.95184097,
+      "memory(GiB)": 58.14,
+      "step": 1735,
+      "train_speed(iter/s)": 0.451519
+    },
+    {
+      "acc": 0.60364981,
+      "epoch": 0.0441400304414003,
+      "grad_norm": 7.625,
+      "learning_rate": 4.414003044140031e-06,
+      "loss": 1.95455666,
+      "memory(GiB)": 58.14,
+      "step": 1740,
+      "train_speed(iter/s)": 0.452202
+    },
+    {
+      "acc": 0.60542698,
+      "epoch": 0.04426686960933536,
+      "grad_norm": 5.90625,
+      "learning_rate": 4.426686960933537e-06,
+      "loss": 1.9811676,
+      "memory(GiB)": 58.14,
+      "step": 1745,
+      "train_speed(iter/s)": 0.45288
+    },
+    {
+      "acc": 0.5867034,
+      "epoch": 0.04439370877727042,
+      "grad_norm": 5.59375,
+      "learning_rate": 4.439370877727043e-06,
+      "loss": 2.04107285,
+      "memory(GiB)": 58.14,
+      "step": 1750,
+      "train_speed(iter/s)": 0.453562
+    },
+    {
+      "acc": 0.58724022,
+      "epoch": 0.04452054794520548,
+      "grad_norm": 6.71875,
+      "learning_rate": 4.4520547945205486e-06,
+      "loss": 1.96066132,
+      "memory(GiB)": 58.14,
+      "step": 1755,
+      "train_speed(iter/s)": 0.454236
+    },
+    {
+      "acc": 0.61269112,
+      "epoch": 0.044647387113140535,
+      "grad_norm": 6.03125,
+      "learning_rate": 4.464738711314054e-06,
+      "loss": 1.87263718,
+      "memory(GiB)": 58.14,
+      "step": 1760,
+      "train_speed(iter/s)": 0.454911
+    },
+    {
+      "acc": 0.59345675,
+      "epoch": 0.044774226281075594,
+      "grad_norm": 5.5625,
+      "learning_rate": 4.47742262810756e-06,
+      "loss": 2.01479778,
+      "memory(GiB)": 58.14,
+      "step": 1765,
+      "train_speed(iter/s)": 0.455588
+    },
+    {
+      "acc": 0.60399456,
+      "epoch": 0.04490106544901065,
+      "grad_norm": 4.9375,
+      "learning_rate": 4.490106544901066e-06,
+      "loss": 1.89943275,
+      "memory(GiB)": 58.14,
+      "step": 1770,
+      "train_speed(iter/s)": 0.45626
+    },
+    {
+      "acc": 0.60044622,
+      "epoch": 0.04502790461694571,
+      "grad_norm": 6.9375,
+      "learning_rate": 4.502790461694572e-06,
+      "loss": 2.01143799,
+      "memory(GiB)": 58.14,
+      "step": 1775,
+      "train_speed(iter/s)": 0.456924
+    },
+    {
+      "acc": 0.59995494,
+      "epoch": 0.04515474378488077,
+      "grad_norm": 5.78125,
+      "learning_rate": 4.5154743784880776e-06,
+      "loss": 2.03026352,
+      "memory(GiB)": 58.14,
+      "step": 1780,
+      "train_speed(iter/s)": 0.457601
+    },
+    {
+      "acc": 0.60096474,
+      "epoch": 0.04528158295281583,
+      "grad_norm": 5.09375,
+      "learning_rate": 4.5281582952815835e-06,
+      "loss": 1.95925446,
+      "memory(GiB)": 58.14,
+      "step": 1785,
+      "train_speed(iter/s)": 0.458262
+    },
+    {
+      "acc": 0.60372648,
+      "epoch": 0.045408422120750885,
+      "grad_norm": 5.53125,
+      "learning_rate": 4.540842212075089e-06,
+      "loss": 1.92858753,
+      "memory(GiB)": 58.14,
+      "step": 1790,
+      "train_speed(iter/s)": 0.458921
+    },
+    {
+      "acc": 0.59696364,
+      "epoch": 0.045535261288685944,
+      "grad_norm": 5.875,
+      "learning_rate": 4.553526128868595e-06,
+      "loss": 1.98838577,
+      "memory(GiB)": 58.14,
+      "step": 1795,
+      "train_speed(iter/s)": 0.459586
+    },
+    {
+      "acc": 0.59612103,
+      "epoch": 0.045662100456621,
+      "grad_norm": 4.65625,
+      "learning_rate": 4.566210045662101e-06,
+      "loss": 1.98218117,
+      "memory(GiB)": 58.14,
+      "step": 1800,
+      "train_speed(iter/s)": 0.460246
+    },
+    {
+      "epoch": 0.045662100456621,
+      "eval_acc": 0.5918338188485748,
+      "eval_loss": 1.950043797492981,
+      "eval_runtime": 112.4711,
+      "eval_samples_per_second": 56.637,
+      "eval_steps_per_second": 28.318,
+      "step": 1800
+    },
+    {
+      "acc": 0.62371159,
+      "epoch": 0.04578893962455606,
+      "grad_norm": 5.875,
+      "learning_rate": 4.5788939624556065e-06,
+      "loss": 1.82332497,
+      "memory(GiB)": 58.14,
+      "step": 1805,
+      "train_speed(iter/s)": 0.447535
+    },
+    {
+      "acc": 0.59204745,
+      "epoch": 0.04591577879249112,
+      "grad_norm": 5.0,
+      "learning_rate": 4.5915778792491125e-06,
+      "loss": 1.9619072,
+      "memory(GiB)": 58.14,
+      "step": 1810,
+      "train_speed(iter/s)": 0.448181
+    },
+    {
+      "acc": 0.57713361,
+      "epoch": 0.04604261796042618,
+      "grad_norm": 7.53125,
+      "learning_rate": 4.6042617960426185e-06,
+      "loss": 2.09043503,
+      "memory(GiB)": 58.14,
+      "step": 1815,
+      "train_speed(iter/s)": 0.448828
+    },
+    {
+      "acc": 0.59929843,
+      "epoch": 0.046169457128361235,
+      "grad_norm": 5.90625,
+      "learning_rate": 4.616945712836124e-06,
+      "loss": 1.95694923,
+      "memory(GiB)": 58.14,
+      "step": 1820,
+      "train_speed(iter/s)": 0.449477
+    },
+    {
+      "acc": 0.60815802,
+      "epoch": 0.046296296296296294,
+      "grad_norm": 6.21875,
+      "learning_rate": 4.62962962962963e-06,
+      "loss": 1.95484276,
+      "memory(GiB)": 58.14,
+      "step": 1825,
+      "train_speed(iter/s)": 0.450129
+    },
+    {
+      "acc": 0.60430002,
+      "epoch": 0.04642313546423135,
+      "grad_norm": 6.78125,
+      "learning_rate": 4.6423135464231355e-06,
+      "loss": 1.99801254,
+      "memory(GiB)": 58.14,
+      "step": 1830,
+      "train_speed(iter/s)": 0.450773
+    },
+    {
+      "acc": 0.6199368,
+      "epoch": 0.04654997463216641,
+      "grad_norm": 7.21875,
+      "learning_rate": 4.6549974632166415e-06,
+      "loss": 1.89275017,
+      "memory(GiB)": 58.14,
+      "step": 1835,
+      "train_speed(iter/s)": 0.451421
+    },
+    {
+      "acc": 0.62170529,
+      "epoch": 0.04667681380010147,
+      "grad_norm": 5.4375,
+      "learning_rate": 4.6676813800101475e-06,
+      "loss": 1.88402481,
+      "memory(GiB)": 58.14,
+      "step": 1840,
+      "train_speed(iter/s)": 0.452058
+    },
+    {
+      "acc": 0.59287224,
+      "epoch": 0.04680365296803653,
+      "grad_norm": 5.96875,
+      "learning_rate": 4.6803652968036534e-06,
+      "loss": 1.98575096,
+      "memory(GiB)": 58.14,
+      "step": 1845,
+      "train_speed(iter/s)": 0.452699
+    },
+    {
+      "acc": 0.61426272,
+      "epoch": 0.046930492135971585,
+      "grad_norm": 5.28125,
+      "learning_rate": 4.6930492135971586e-06,
+      "loss": 1.92058563,
+      "memory(GiB)": 58.14,
+      "step": 1850,
+      "train_speed(iter/s)": 0.453329
+    },
+    {
+      "acc": 0.59839396,
+      "epoch": 0.047057331303906644,
+      "grad_norm": 5.875,
+      "learning_rate": 4.705733130390665e-06,
+      "loss": 1.89336357,
+      "memory(GiB)": 58.14,
+      "step": 1855,
+      "train_speed(iter/s)": 0.453971
+    },
+    {
+      "acc": 0.58242912,
+      "epoch": 0.0471841704718417,
+      "grad_norm": 4.4375,
+      "learning_rate": 4.7184170471841705e-06,
+      "loss": 1.99090919,
+      "memory(GiB)": 58.14,
+      "step": 1860,
+      "train_speed(iter/s)": 0.454607
+    },
+    {
+      "acc": 0.59446974,
+      "epoch": 0.04731100963977676,
+      "grad_norm": 5.625,
+      "learning_rate": 4.7311009639776765e-06,
+      "loss": 1.98187103,
+      "memory(GiB)": 58.14,
+      "step": 1865,
+      "train_speed(iter/s)": 0.455234
+    },
+    {
+      "acc": 0.5853014,
+      "epoch": 0.04743784880771182,
+      "grad_norm": 5.84375,
+      "learning_rate": 4.743784880771182e-06,
+      "loss": 1.9931736,
+      "memory(GiB)": 58.14,
+      "step": 1870,
+      "train_speed(iter/s)": 0.455868
+    },
+    {
+      "acc": 0.58511429,
+      "epoch": 0.04756468797564688,
+      "grad_norm": 5.75,
+      "learning_rate": 4.756468797564688e-06,
+      "loss": 1.96111069,
+      "memory(GiB)": 58.14,
+      "step": 1875,
+      "train_speed(iter/s)": 0.456498
+    },
+    {
+      "acc": 0.61168108,
+      "epoch": 0.047691527143581935,
+      "grad_norm": 5.53125,
+      "learning_rate": 4.769152714358194e-06,
+      "loss": 2.00027313,
+      "memory(GiB)": 58.14,
+      "step": 1880,
+      "train_speed(iter/s)": 0.457124
+    },
+    {
+      "acc": 0.61667805,
+      "epoch": 0.047818366311516994,
+      "grad_norm": 4.6875,
+      "learning_rate": 4.7818366311517e-06,
+      "loss": 1.93731632,
+      "memory(GiB)": 58.14,
+      "step": 1885,
+      "train_speed(iter/s)": 0.457748
+    },
+    {
+      "acc": 0.59898443,
+      "epoch": 0.04794520547945205,
+      "grad_norm": 5.25,
+      "learning_rate": 4.7945205479452054e-06,
+      "loss": 1.96002235,
+      "memory(GiB)": 58.14,
+      "step": 1890,
+      "train_speed(iter/s)": 0.458381
+    },
+    {
+      "acc": 0.60575113,
+      "epoch": 0.04807204464738711,
+      "grad_norm": 6.0,
+      "learning_rate": 4.807204464738711e-06,
+      "loss": 1.91183472,
+      "memory(GiB)": 58.14,
+      "step": 1895,
+      "train_speed(iter/s)": 0.459008
+    },
+    {
+      "acc": 0.60391388,
+      "epoch": 0.04819888381532217,
+      "grad_norm": 9.25,
+      "learning_rate": 4.819888381532217e-06,
+      "loss": 1.93079605,
+      "memory(GiB)": 58.14,
+      "step": 1900,
+      "train_speed(iter/s)": 0.459633
+    },
+    {
+      "epoch": 0.04819888381532217,
+      "eval_acc": 0.5934915195325017,
+      "eval_loss": 1.9372066259384155,
+      "eval_runtime": 113.4783,
+      "eval_samples_per_second": 56.134,
+      "eval_steps_per_second": 28.067,
+      "step": 1900
+    },
+    {
+      "acc": 0.61051693,
+      "epoch": 0.04832572298325723,
+      "grad_norm": 7.21875,
+      "learning_rate": 4.832572298325723e-06,
+      "loss": 1.88222332,
+      "memory(GiB)": 58.14,
+      "step": 1905,
+      "train_speed(iter/s)": 0.447497
+    },
+    {
+      "acc": 0.60433345,
+      "epoch": 0.048452562151192285,
+      "grad_norm": 6.46875,
+      "learning_rate": 4.845256215119229e-06,
+      "loss": 1.91181335,
+      "memory(GiB)": 58.14,
+      "step": 1910,
+      "train_speed(iter/s)": 0.448113
+    },
+    {
+      "acc": 0.60619183,
+      "epoch": 0.048579401319127344,
+      "grad_norm": 5.0625,
+      "learning_rate": 4.857940131912735e-06,
+      "loss": 1.91536102,
+      "memory(GiB)": 58.14,
+      "step": 1915,
+      "train_speed(iter/s)": 0.448733
+    },
+    {
+      "acc": 0.61726627,
+      "epoch": 0.0487062404870624,
+      "grad_norm": 5.6875,
+      "learning_rate": 4.87062404870624e-06,
+      "loss": 1.82464237,
+      "memory(GiB)": 58.14,
+      "step": 1920,
+      "train_speed(iter/s)": 0.44935
+    },
+    {
+      "acc": 0.59062819,
+      "epoch": 0.04883307965499746,
+      "grad_norm": 5.34375,
+      "learning_rate": 4.883307965499746e-06,
+      "loss": 1.96244125,
+      "memory(GiB)": 58.14,
+      "step": 1925,
+      "train_speed(iter/s)": 0.44997
+    },
+    {
+      "acc": 0.58106537,
+      "epoch": 0.04895991882293252,
+      "grad_norm": 5.4375,
+      "learning_rate": 4.895991882293252e-06,
+      "loss": 2.04310741,
+      "memory(GiB)": 58.14,
+      "step": 1930,
+      "train_speed(iter/s)": 0.450593
+    },
+    {
+      "acc": 0.60148048,
+      "epoch": 0.04908675799086758,
+      "grad_norm": 5.6875,
+      "learning_rate": 4.908675799086758e-06,
+      "loss": 1.90917358,
+      "memory(GiB)": 58.14,
+      "step": 1935,
+      "train_speed(iter/s)": 0.451201
+    },
+    {
+      "acc": 0.60195508,
+      "epoch": 0.049213597158802636,
+      "grad_norm": 5.5,
+      "learning_rate": 4.921359715880264e-06,
+      "loss": 1.97665138,
+      "memory(GiB)": 58.14,
+      "step": 1940,
+      "train_speed(iter/s)": 0.451816
+    },
+    {
+      "acc": 0.60252924,
+      "epoch": 0.049340436326737694,
+      "grad_norm": 5.625,
+      "learning_rate": 4.93404363267377e-06,
+      "loss": 1.93755741,
+      "memory(GiB)": 58.14,
+      "step": 1945,
+      "train_speed(iter/s)": 0.452425
+    },
+    {
+      "acc": 0.62167377,
+      "epoch": 0.04946727549467275,
+      "grad_norm": 4.78125,
+      "learning_rate": 4.946727549467275e-06,
+      "loss": 1.8892662,
+      "memory(GiB)": 58.14,
+      "step": 1950,
+      "train_speed(iter/s)": 0.453039
+    },
+    {
+      "acc": 0.60844717,
+      "epoch": 0.04959411466260781,
+      "grad_norm": 5.375,
+      "learning_rate": 4.959411466260781e-06,
+      "loss": 1.85567608,
+      "memory(GiB)": 58.14,
+      "step": 1955,
+      "train_speed(iter/s)": 0.453652
+    },
+    {
+      "acc": 0.60361886,
+      "epoch": 0.04972095383054287,
+      "grad_norm": 5.90625,
+      "learning_rate": 4.972095383054287e-06,
+      "loss": 1.98617973,
+      "memory(GiB)": 58.14,
+      "step": 1960,
+      "train_speed(iter/s)": 0.45427
+    },
+    {
+      "acc": 0.59965658,
+      "epoch": 0.04984779299847793,
+      "grad_norm": 5.625,
+      "learning_rate": 4.984779299847793e-06,
+      "loss": 1.91477356,
+      "memory(GiB)": 58.14,
+      "step": 1965,
+      "train_speed(iter/s)": 0.454882
+    },
+    {
+      "acc": 0.60240784,
+      "epoch": 0.049974632166412986,
+      "grad_norm": 7.5,
+      "learning_rate": 4.997463216641299e-06,
+      "loss": 1.9810585,
+      "memory(GiB)": 58.14,
+      "step": 1970,
+      "train_speed(iter/s)": 0.45549
+    },
+    {
+      "acc": 0.61513596,
+      "epoch": 0.050101471334348044,
+      "grad_norm": 6.125,
+      "learning_rate": 5.010147133434805e-06,
+      "loss": 1.89760685,
+      "memory(GiB)": 58.14,
+      "step": 1975,
+      "train_speed(iter/s)": 0.456093
+    },
+    {
+      "acc": 0.61477098,
+      "epoch": 0.0502283105022831,
+      "grad_norm": 7.3125,
+      "learning_rate": 5.02283105022831e-06,
+      "loss": 1.87652206,
+      "memory(GiB)": 58.14,
+      "step": 1980,
+      "train_speed(iter/s)": 0.456694
+    },
+    {
+      "acc": 0.5905941,
+      "epoch": 0.05035514967021816,
+      "grad_norm": 6.875,
+      "learning_rate": 5.035514967021817e-06,
+      "loss": 2.02313042,
+      "memory(GiB)": 58.14,
+      "step": 1985,
+      "train_speed(iter/s)": 0.457293
+    },
+    {
+      "acc": 0.60349789,
+      "epoch": 0.05048198883815322,
+      "grad_norm": 4.96875,
+      "learning_rate": 5.048198883815323e-06,
+      "loss": 1.91415157,
+      "memory(GiB)": 58.14,
+      "step": 1990,
+      "train_speed(iter/s)": 0.457895
+    },
+    {
+      "acc": 0.58522735,
+      "epoch": 0.05060882800608828,
+      "grad_norm": 6.3125,
+      "learning_rate": 5.060882800608828e-06,
+      "loss": 1.99870968,
+      "memory(GiB)": 58.14,
+      "step": 1995,
+      "train_speed(iter/s)": 0.458498
+    },
+    {
+      "acc": 0.60471926,
+      "epoch": 0.050735667174023336,
+      "grad_norm": 5.78125,
+      "learning_rate": 5.073566717402334e-06,
+      "loss": 1.91932545,
+      "memory(GiB)": 58.14,
+      "step": 2000,
+      "train_speed(iter/s)": 0.459101
+    },
+    {
+      "epoch": 0.050735667174023336,
+      "eval_acc": 0.5950685911257032,
+      "eval_loss": 1.9254412651062012,
+      "eval_runtime": 111.8276,
+      "eval_samples_per_second": 56.963,
+      "eval_steps_per_second": 28.481,
+      "step": 2000
+    },
+    {
+      "acc": 0.59650655,
+      "epoch": 0.050862506341958394,
+      "grad_norm": 7.03125,
+      "learning_rate": 5.086250634195841e-06,
+      "loss": 1.93570957,
+      "memory(GiB)": 58.14,
+      "step": 2005,
+      "train_speed(iter/s)": 0.447765
+    },
+    {
+      "acc": 0.5935904,
+      "epoch": 0.05098934550989345,
+      "grad_norm": 5.28125,
+      "learning_rate": 5.098934550989346e-06,
+      "loss": 1.91012802,
+      "memory(GiB)": 58.14,
+      "step": 2010,
+      "train_speed(iter/s)": 0.448364
+    },
+    {
+      "acc": 0.61528053,
+      "epoch": 0.05111618467782851,
+      "grad_norm": 7.03125,
+      "learning_rate": 5.111618467782852e-06,
+      "loss": 1.90204659,
+      "memory(GiB)": 58.14,
+      "step": 2015,
+      "train_speed(iter/s)": 0.448956
+    },
+    {
+      "acc": 0.61206756,
+      "epoch": 0.05124302384576357,
+      "grad_norm": 5.0625,
+      "learning_rate": 5.124302384576357e-06,
+      "loss": 1.87378044,
+      "memory(GiB)": 58.14,
+      "step": 2020,
+      "train_speed(iter/s)": 0.449552
+    },
+    {
+      "acc": 0.60812511,
+      "epoch": 0.05136986301369863,
+      "grad_norm": 5.625,
+      "learning_rate": 5.136986301369864e-06,
+      "loss": 1.90723839,
+      "memory(GiB)": 58.14,
+      "step": 2025,
+      "train_speed(iter/s)": 0.450141
+    },
+    {
+      "acc": 0.61099358,
+      "epoch": 0.051496702181633686,
+      "grad_norm": 5.9375,
+      "learning_rate": 5.149670218163369e-06,
+      "loss": 1.87865791,
+      "memory(GiB)": 58.14,
+      "step": 2030,
+      "train_speed(iter/s)": 0.450735
+    },
+    {
+      "acc": 0.6056509,
+      "epoch": 0.051623541349568744,
+      "grad_norm": 6.78125,
+      "learning_rate": 5.162354134956875e-06,
+      "loss": 1.97122879,
+      "memory(GiB)": 58.14,
+      "step": 2035,
+      "train_speed(iter/s)": 0.451324
+    },
+    {
+      "acc": 0.61655397,
+      "epoch": 0.0517503805175038,
+      "grad_norm": 5.96875,
+      "learning_rate": 5.175038051750381e-06,
+      "loss": 1.89492035,
+      "memory(GiB)": 58.14,
+      "step": 2040,
+      "train_speed(iter/s)": 0.451912
+    },
+    {
+      "acc": 0.6011075,
+      "epoch": 0.05187721968543886,
+      "grad_norm": 8.25,
+      "learning_rate": 5.187721968543887e-06,
+      "loss": 1.96894283,
+      "memory(GiB)": 58.14,
+      "step": 2045,
+      "train_speed(iter/s)": 0.452504
+    },
+    {
+      "acc": 0.60051799,
+      "epoch": 0.05200405885337392,
+      "grad_norm": 5.6875,
+      "learning_rate": 5.200405885337393e-06,
+      "loss": 1.87004318,
+      "memory(GiB)": 58.14,
+      "step": 2050,
+      "train_speed(iter/s)": 0.45309
+    },
+    {
+      "acc": 0.60961027,
+      "epoch": 0.05213089802130898,
+      "grad_norm": 5.875,
+      "learning_rate": 5.213089802130898e-06,
+      "loss": 1.87247982,
+      "memory(GiB)": 58.14,
+      "step": 2055,
+      "train_speed(iter/s)": 0.453675
+    },
+    {
+      "acc": 0.611905,
+      "epoch": 0.052257737189244036,
+      "grad_norm": 4.8125,
+      "learning_rate": 5.225773718924404e-06,
+      "loss": 1.88813839,
+      "memory(GiB)": 58.14,
+      "step": 2060,
+      "train_speed(iter/s)": 0.454255
+    },
+    {
+      "acc": 0.57968302,
+      "epoch": 0.052384576357179094,
+      "grad_norm": 6.4375,
+      "learning_rate": 5.238457635717911e-06,
+      "loss": 2.07924652,
+      "memory(GiB)": 58.14,
+      "step": 2065,
+      "train_speed(iter/s)": 0.454835
+    },
+    {
+      "acc": 0.60606308,
+      "epoch": 0.05251141552511415,
+      "grad_norm": 6.03125,
+      "learning_rate": 5.251141552511416e-06,
+      "loss": 1.96282997,
+      "memory(GiB)": 58.14,
+      "step": 2070,
+      "train_speed(iter/s)": 0.455412
+    },
+    {
+      "acc": 0.58872027,
+      "epoch": 0.05263825469304921,
+      "grad_norm": 4.9375,
+      "learning_rate": 5.263825469304922e-06,
+      "loss": 2.00989532,
+      "memory(GiB)": 58.14,
+      "step": 2075,
+      "train_speed(iter/s)": 0.455987
+    },
+    {
+      "acc": 0.59235725,
+      "epoch": 0.05276509386098427,
+      "grad_norm": 5.53125,
+      "learning_rate": 5.276509386098427e-06,
+      "loss": 1.98008156,
+      "memory(GiB)": 58.14,
+      "step": 2080,
+      "train_speed(iter/s)": 0.456567
+    },
+    {
+      "acc": 0.60046291,
+      "epoch": 0.05289193302891933,
+      "grad_norm": 6.09375,
+      "learning_rate": 5.289193302891934e-06,
+      "loss": 1.91245632,
+      "memory(GiB)": 58.14,
+      "step": 2085,
+      "train_speed(iter/s)": 0.457137
+    },
+    {
+      "acc": 0.60955739,
+      "epoch": 0.053018772196854386,
+      "grad_norm": 4.96875,
+      "learning_rate": 5.30187721968544e-06,
+      "loss": 1.88564758,
+      "memory(GiB)": 58.14,
+      "step": 2090,
+      "train_speed(iter/s)": 0.457711
+    },
+    {
+      "acc": 0.59646101,
+      "epoch": 0.053145611364789444,
+      "grad_norm": 5.0625,
+      "learning_rate": 5.314561136478945e-06,
+      "loss": 1.95583382,
+      "memory(GiB)": 58.14,
+      "step": 2095,
+      "train_speed(iter/s)": 0.458281
+    },
+    {
+      "acc": 0.60126219,
+      "epoch": 0.0532724505327245,
+      "grad_norm": 5.5625,
+      "learning_rate": 5.327245053272451e-06,
+      "loss": 1.92181625,
+      "memory(GiB)": 58.14,
+      "step": 2100,
+      "train_speed(iter/s)": 0.458853
+    },
+    {
+      "epoch": 0.0532724505327245,
+      "eval_acc": 0.5962700899077027,
+      "eval_loss": 1.9146267175674438,
+      "eval_runtime": 112.2936,
+      "eval_samples_per_second": 56.726,
+      "eval_steps_per_second": 28.363,
+      "step": 2100
+    },
+    {
+      "acc": 0.62901831,
+      "epoch": 0.05339928970065956,
+      "grad_norm": 5.78125,
+      "learning_rate": 5.339928970065957e-06,
+      "loss": 1.81416721,
+      "memory(GiB)": 58.14,
+      "step": 2105,
+      "train_speed(iter/s)": 0.448005
+    },
+    {
+      "acc": 0.60744023,
+      "epoch": 0.05352612886859462,
+      "grad_norm": 6.96875,
+      "learning_rate": 5.352612886859463e-06,
+      "loss": 1.95803032,
+      "memory(GiB)": 58.14,
+      "step": 2110,
+      "train_speed(iter/s)": 0.448573
+    },
+    {
+      "acc": 0.60780368,
+      "epoch": 0.05365296803652968,
+      "grad_norm": 7.0,
+      "learning_rate": 5.365296803652969e-06,
+      "loss": 1.90680275,
+      "memory(GiB)": 58.14,
+      "step": 2115,
+      "train_speed(iter/s)": 0.44914
+    },
+    {
+      "acc": 0.60624113,
+      "epoch": 0.053779807204464736,
+      "grad_norm": 5.78125,
+      "learning_rate": 5.377980720446474e-06,
+      "loss": 1.84182854,
+      "memory(GiB)": 58.14,
+      "step": 2120,
+      "train_speed(iter/s)": 0.449702
+    },
+    {
+      "acc": 0.58699579,
+      "epoch": 0.053906646372399794,
+      "grad_norm": 7.6875,
+      "learning_rate": 5.390664637239981e-06,
+      "loss": 1.93875313,
+      "memory(GiB)": 58.14,
+      "step": 2125,
+      "train_speed(iter/s)": 0.450266
+    },
+    {
+      "acc": 0.60300746,
+      "epoch": 0.05403348554033485,
+      "grad_norm": 5.71875,
+      "learning_rate": 5.403348554033486e-06,
+      "loss": 1.94216881,
+      "memory(GiB)": 58.14,
+      "step": 2130,
+      "train_speed(iter/s)": 0.450828
+    },
+    {
+      "acc": 0.61000161,
+      "epoch": 0.05416032470826991,
+      "grad_norm": 5.28125,
+      "learning_rate": 5.416032470826992e-06,
+      "loss": 1.86070023,
+      "memory(GiB)": 58.14,
+      "step": 2135,
+      "train_speed(iter/s)": 0.451388
+    },
+    {
+      "acc": 0.61669793,
+      "epoch": 0.05428716387620497,
+      "grad_norm": 5.71875,
+      "learning_rate": 5.428716387620497e-06,
+      "loss": 1.87709007,
+      "memory(GiB)": 58.14,
+      "step": 2140,
+      "train_speed(iter/s)": 0.451949
+    },
+    {
+      "acc": 0.6074769,
+      "epoch": 0.05441400304414003,
+      "grad_norm": 5.84375,
+      "learning_rate": 5.441400304414004e-06,
+      "loss": 1.92715111,
+      "memory(GiB)": 58.14,
+      "step": 2145,
+      "train_speed(iter/s)": 0.45251
+    },
+    {
+      "acc": 0.60644889,
+      "epoch": 0.054540842212075086,
+      "grad_norm": 5.0625,
+      "learning_rate": 5.45408422120751e-06,
+      "loss": 1.91768532,
+      "memory(GiB)": 58.14,
+      "step": 2150,
+      "train_speed(iter/s)": 0.453062
+    },
+    {
+      "acc": 0.60205259,
+      "epoch": 0.054667681380010144,
+      "grad_norm": 5.21875,
+      "learning_rate": 5.466768138001015e-06,
+      "loss": 2.00214577,
+      "memory(GiB)": 58.14,
+      "step": 2155,
+      "train_speed(iter/s)": 0.45362
+    },
+    {
+      "acc": 0.61421919,
+      "epoch": 0.0547945205479452,
+      "grad_norm": 4.84375,
+      "learning_rate": 5.479452054794521e-06,
+      "loss": 1.96235409,
+      "memory(GiB)": 58.14,
+      "step": 2160,
+      "train_speed(iter/s)": 0.454171
+    },
+    {
+      "acc": 0.59525928,
+      "epoch": 0.05492135971588026,
+      "grad_norm": 7.75,
+      "learning_rate": 5.492135971588028e-06,
+      "loss": 1.90372467,
+      "memory(GiB)": 58.14,
+      "step": 2165,
+      "train_speed(iter/s)": 0.454724
+    },
+    {
+      "acc": 0.58474002,
+      "epoch": 0.05504819888381532,
+      "grad_norm": 4.875,
+      "learning_rate": 5.504819888381533e-06,
+      "loss": 2.01237469,
+      "memory(GiB)": 58.14,
+      "step": 2170,
+      "train_speed(iter/s)": 0.455278
+    },
+    {
+      "acc": 0.61578698,
+      "epoch": 0.05517503805175038,
+      "grad_norm": 5.34375,
+      "learning_rate": 5.517503805175039e-06,
+      "loss": 1.89675865,
+      "memory(GiB)": 58.14,
+      "step": 2175,
+      "train_speed(iter/s)": 0.455823
+    },
+    {
+      "acc": 0.59921474,
+      "epoch": 0.055301877219685436,
+      "grad_norm": 5.75,
+      "learning_rate": 5.530187721968544e-06,
+      "loss": 1.91646137,
+      "memory(GiB)": 58.14,
+      "step": 2180,
+      "train_speed(iter/s)": 0.456365
+    },
+    {
+      "acc": 0.60379057,
+      "epoch": 0.055428716387620494,
+      "grad_norm": 6.46875,
+      "learning_rate": 5.542871638762051e-06,
+      "loss": 1.95771179,
+      "memory(GiB)": 58.14,
+      "step": 2185,
+      "train_speed(iter/s)": 0.456916
+    },
+    {
+      "acc": 0.60007744,
+      "epoch": 0.05555555555555555,
+      "grad_norm": 5.46875,
+      "learning_rate": 5.555555555555557e-06,
+      "loss": 1.96841164,
+      "memory(GiB)": 58.14,
+      "step": 2190,
+      "train_speed(iter/s)": 0.457461
+    },
+    {
+      "acc": 0.61251578,
+      "epoch": 0.05568239472349061,
+      "grad_norm": 4.28125,
+      "learning_rate": 5.568239472349062e-06,
+      "loss": 1.8744194,
+      "memory(GiB)": 58.14,
+      "step": 2195,
+      "train_speed(iter/s)": 0.458006
+    },
+    {
+      "acc": 0.60381517,
+      "epoch": 0.05580923389142567,
+      "grad_norm": 7.25,
+      "learning_rate": 5.580923389142568e-06,
+      "loss": 1.94256439,
+      "memory(GiB)": 58.14,
+      "step": 2200,
+      "train_speed(iter/s)": 0.458549
+    },
+    {
+      "epoch": 0.05580923389142567,
+      "eval_acc": 0.5976173894807028,
+      "eval_loss": 1.904833436012268,
+      "eval_runtime": 112.2781,
+      "eval_samples_per_second": 56.734,
+      "eval_steps_per_second": 28.367,
+      "step": 2200
+    },
+    {
+      "acc": 0.60379534,
+      "epoch": 0.05593607305936073,
+      "grad_norm": 5.9375,
+      "learning_rate": 5.593607305936074e-06,
+      "loss": 1.91352329,
+      "memory(GiB)": 58.14,
+      "step": 2205,
+      "train_speed(iter/s)": 0.448179
+    },
+    {
+      "acc": 0.60819073,
+      "epoch": 0.056062912227295786,
+      "grad_norm": 4.90625,
+      "learning_rate": 5.60629122272958e-06,
+      "loss": 1.88056679,
+      "memory(GiB)": 58.14,
+      "step": 2210,
+      "train_speed(iter/s)": 0.44871
+    },
+    {
+      "acc": 0.60504451,
+      "epoch": 0.056189751395230844,
+      "grad_norm": 6.09375,
+      "learning_rate": 5.618975139523085e-06,
+      "loss": 1.96973114,
+      "memory(GiB)": 58.14,
+      "step": 2215,
+      "train_speed(iter/s)": 0.449243
+    },
+    {
+      "acc": 0.61302967,
+      "epoch": 0.0563165905631659,
+      "grad_norm": 5.3125,
+      "learning_rate": 5.631659056316591e-06,
+      "loss": 1.85189438,
+      "memory(GiB)": 58.14,
+      "step": 2220,
+      "train_speed(iter/s)": 0.449775
+    },
+    {
+      "acc": 0.60943823,
+      "epoch": 0.05644342973110096,
+      "grad_norm": 6.25,
+      "learning_rate": 5.644342973110098e-06,
+      "loss": 1.88922539,
+      "memory(GiB)": 58.14,
+      "step": 2225,
+      "train_speed(iter/s)": 0.450303
+    },
+    {
+      "acc": 0.60862675,
+      "epoch": 0.05657026889903602,
+      "grad_norm": 6.15625,
+      "learning_rate": 5.657026889903603e-06,
+      "loss": 1.90148239,
+      "memory(GiB)": 58.14,
+      "step": 2230,
+      "train_speed(iter/s)": 0.450825
+    },
+    {
+      "acc": 0.60232863,
+      "epoch": 0.05669710806697108,
+      "grad_norm": 4.8125,
+      "learning_rate": 5.669710806697109e-06,
+      "loss": 1.97099495,
+      "memory(GiB)": 58.14,
+      "step": 2235,
+      "train_speed(iter/s)": 0.451352
+    },
+    {
+      "acc": 0.6039731,
+      "epoch": 0.056823947234906136,
+      "grad_norm": 5.0625,
+      "learning_rate": 5.682394723490614e-06,
+      "loss": 1.91322823,
+      "memory(GiB)": 58.14,
+      "step": 2240,
+      "train_speed(iter/s)": 0.451878
+    },
+    {
+      "acc": 0.59522576,
+      "epoch": 0.056950786402841194,
+      "grad_norm": 5.40625,
+      "learning_rate": 5.695078640284121e-06,
+      "loss": 1.94261074,
+      "memory(GiB)": 58.14,
+      "step": 2245,
+      "train_speed(iter/s)": 0.452405
+    },
+    {
+      "acc": 0.59672103,
+      "epoch": 0.05707762557077625,
+      "grad_norm": 5.4375,
+      "learning_rate": 5.7077625570776266e-06,
+      "loss": 1.87163544,
+      "memory(GiB)": 58.14,
+      "step": 2250,
+      "train_speed(iter/s)": 0.452937
+    },
+    {
+      "acc": 0.60106378,
+      "epoch": 0.05720446473871131,
+      "grad_norm": 5.125,
+      "learning_rate": 5.720446473871132e-06,
+      "loss": 1.95121593,
+      "memory(GiB)": 58.14,
+      "step": 2255,
+      "train_speed(iter/s)": 0.453462
+    },
+    {
+      "acc": 0.61815538,
+      "epoch": 0.05733130390664637,
+      "grad_norm": 6.21875,
+      "learning_rate": 5.733130390664638e-06,
+      "loss": 1.80842323,
+      "memory(GiB)": 58.14,
+      "step": 2260,
+      "train_speed(iter/s)": 0.453988
+    },
+    {
+      "acc": 0.59947915,
+      "epoch": 0.05745814307458143,
+      "grad_norm": 6.15625,
+      "learning_rate": 5.7458143074581445e-06,
+      "loss": 1.91878815,
+      "memory(GiB)": 58.14,
+      "step": 2265,
+      "train_speed(iter/s)": 0.45451
+    },
+    {
+      "acc": 0.58676567,
+      "epoch": 0.057584982242516486,
+      "grad_norm": 5.5,
+      "learning_rate": 5.75849822425165e-06,
+      "loss": 1.9787714,
+      "memory(GiB)": 58.14,
+      "step": 2270,
+      "train_speed(iter/s)": 0.455032
+    },
+    {
+      "acc": 0.59482555,
+      "epoch": 0.057711821410451544,
+      "grad_norm": 6.125,
+      "learning_rate": 5.7711821410451556e-06,
+      "loss": 1.97928467,
+      "memory(GiB)": 58.14,
+      "step": 2275,
+      "train_speed(iter/s)": 0.455551
+    },
+    {
+      "acc": 0.60976601,
+      "epoch": 0.0578386605783866,
+      "grad_norm": 5.46875,
+      "learning_rate": 5.783866057838661e-06,
+      "loss": 1.87940559,
+      "memory(GiB)": 58.14,
+      "step": 2280,
+      "train_speed(iter/s)": 0.456071
+    },
+    {
+      "acc": 0.58562603,
+      "epoch": 0.05796549974632166,
+      "grad_norm": 5.78125,
+      "learning_rate": 5.7965499746321675e-06,
+      "loss": 2.00219612,
+      "memory(GiB)": 58.14,
+      "step": 2285,
+      "train_speed(iter/s)": 0.456593
+    },
+    {
+      "acc": 0.61238904,
+      "epoch": 0.05809233891425672,
+      "grad_norm": 6.03125,
+      "learning_rate": 5.809233891425673e-06,
+      "loss": 1.95115395,
+      "memory(GiB)": 58.14,
+      "step": 2290,
+      "train_speed(iter/s)": 0.457111
+    },
+    {
+      "acc": 0.60475931,
+      "epoch": 0.05821917808219178,
+      "grad_norm": 5.5625,
+      "learning_rate": 5.821917808219179e-06,
+      "loss": 1.91742439,
+      "memory(GiB)": 58.14,
+      "step": 2295,
+      "train_speed(iter/s)": 0.457632
+    },
+    {
+      "acc": 0.60946064,
+      "epoch": 0.058346017250126836,
+      "grad_norm": 5.28125,
+      "learning_rate": 5.834601725012684e-06,
+      "loss": 1.85216446,
+      "memory(GiB)": 58.14,
+      "step": 2300,
+      "train_speed(iter/s)": 0.458151
+    },
+    {
+      "epoch": 0.058346017250126836,
+      "eval_acc": 0.5988907442399288,
+      "eval_loss": 1.895876169204712,
+      "eval_runtime": 112.8747,
+      "eval_samples_per_second": 56.434,
+      "eval_steps_per_second": 28.217,
+      "step": 2300
+    },
+    {
+      "acc": 0.59721847,
+      "epoch": 0.058472856418061894,
+      "grad_norm": 6.8125,
+      "learning_rate": 5.8472856418061905e-06,
+      "loss": 1.93088341,
+      "memory(GiB)": 58.14,
+      "step": 2305,
+      "train_speed(iter/s)": 0.448201
+    },
+    {
+      "acc": 0.60022249,
+      "epoch": 0.05859969558599695,
+      "grad_norm": 5.9375,
+      "learning_rate": 5.8599695585996965e-06,
+      "loss": 1.91122932,
+      "memory(GiB)": 58.14,
+      "step": 2310,
+      "train_speed(iter/s)": 0.448712
+    },
+    {
+      "acc": 0.60493164,
+      "epoch": 0.05872653475393201,
+      "grad_norm": 4.875,
+      "learning_rate": 5.872653475393202e-06,
+      "loss": 1.86035271,
+      "memory(GiB)": 58.14,
+      "step": 2315,
+      "train_speed(iter/s)": 0.449222
+    },
+    {
+      "acc": 0.61038189,
+      "epoch": 0.05885337392186707,
+      "grad_norm": 5.5,
+      "learning_rate": 5.8853373921867076e-06,
+      "loss": 1.96235199,
+      "memory(GiB)": 58.14,
+      "step": 2320,
+      "train_speed(iter/s)": 0.449733
+    },
+    {
+      "acc": 0.61910405,
+      "epoch": 0.05898021308980213,
+      "grad_norm": 6.03125,
+      "learning_rate": 5.898021308980214e-06,
+      "loss": 1.84855499,
+      "memory(GiB)": 58.14,
+      "step": 2325,
+      "train_speed(iter/s)": 0.450243
+    },
+    {
+      "acc": 0.59141207,
+      "epoch": 0.059107052257737186,
+      "grad_norm": 5.96875,
+      "learning_rate": 5.9107052257737195e-06,
+      "loss": 2.02407112,
+      "memory(GiB)": 58.14,
+      "step": 2330,
+      "train_speed(iter/s)": 0.450747
+    },
+    {
+      "acc": 0.5989542,
+      "epoch": 0.059233891425672244,
+      "grad_norm": 5.09375,
+      "learning_rate": 5.9233891425672255e-06,
+      "loss": 1.97891426,
+      "memory(GiB)": 58.14,
+      "step": 2335,
+      "train_speed(iter/s)": 0.451251
+    },
+    {
+      "acc": 0.60870714,
+      "epoch": 0.0593607305936073,
+      "grad_norm": 5.34375,
+      "learning_rate": 5.936073059360731e-06,
+      "loss": 1.88683434,
+      "memory(GiB)": 58.14,
+      "step": 2340,
+      "train_speed(iter/s)": 0.451761
+    },
+    {
+      "acc": 0.60967364,
+      "epoch": 0.05948756976154236,
+      "grad_norm": 5.46875,
+      "learning_rate": 5.948756976154237e-06,
+      "loss": 1.92153244,
+      "memory(GiB)": 58.14,
+      "step": 2345,
+      "train_speed(iter/s)": 0.452268
+    },
+    {
+      "acc": 0.6127944,
+      "epoch": 0.05961440892947742,
+      "grad_norm": 5.46875,
+      "learning_rate": 5.961440892947743e-06,
+      "loss": 1.90284595,
+      "memory(GiB)": 58.14,
+      "step": 2350,
+      "train_speed(iter/s)": 0.45277
+    },
+    {
+      "acc": 0.62133894,
+      "epoch": 0.05974124809741248,
+      "grad_norm": 5.65625,
+      "learning_rate": 5.9741248097412485e-06,
+      "loss": 1.8314642,
+      "memory(GiB)": 58.14,
+      "step": 2355,
+      "train_speed(iter/s)": 0.45327
+    },
+    {
+      "acc": 0.60800447,
+      "epoch": 0.059868087265347536,
+      "grad_norm": 5.09375,
+      "learning_rate": 5.9868087265347545e-06,
+      "loss": 1.87077923,
+      "memory(GiB)": 58.14,
+      "step": 2360,
+      "train_speed(iter/s)": 0.453773
+    },
+    {
+      "acc": 0.61515021,
+      "epoch": 0.059994926433282594,
+      "grad_norm": 5.625,
+      "learning_rate": 5.99949264332826e-06,
+      "loss": 1.84514027,
+      "memory(GiB)": 58.14,
+      "step": 2365,
+      "train_speed(iter/s)": 0.454271
+    },
+    {
+      "acc": 0.60447173,
+      "epoch": 0.06012176560121765,
+      "grad_norm": 4.75,
+      "learning_rate": 6.012176560121766e-06,
+      "loss": 1.89534531,
+      "memory(GiB)": 58.14,
+      "step": 2370,
+      "train_speed(iter/s)": 0.454769
+    },
+    {
+      "acc": 0.61261654,
+      "epoch": 0.06024860476915271,
+      "grad_norm": 6.375,
+      "learning_rate": 6.0248604769152715e-06,
+      "loss": 1.88374252,
+      "memory(GiB)": 58.14,
+      "step": 2375,
+      "train_speed(iter/s)": 0.455266
+    },
+    {
+      "acc": 0.62044411,
+      "epoch": 0.06037544393708777,
+      "grad_norm": 6.34375,
+      "learning_rate": 6.0375443937087775e-06,
+      "loss": 1.80461407,
+      "memory(GiB)": 58.14,
+      "step": 2380,
+      "train_speed(iter/s)": 0.455765
+    },
+    {
+      "acc": 0.60993481,
+      "epoch": 0.06050228310502283,
+      "grad_norm": 5.125,
+      "learning_rate": 6.050228310502284e-06,
+      "loss": 1.96366043,
+      "memory(GiB)": 58.14,
+      "step": 2385,
+      "train_speed(iter/s)": 0.456265
+    },
+    {
+      "acc": 0.61328502,
+      "epoch": 0.060629122272957886,
+      "grad_norm": 5.125,
+      "learning_rate": 6.062912227295789e-06,
+      "loss": 1.8827301,
+      "memory(GiB)": 58.14,
+      "step": 2390,
+      "train_speed(iter/s)": 0.45676
+    },
+    {
+      "acc": 0.61052256,
+      "epoch": 0.060755961440892944,
+      "grad_norm": 5.3125,
+      "learning_rate": 6.075596144089295e-06,
+      "loss": 1.82140503,
+      "memory(GiB)": 58.14,
+      "step": 2395,
+      "train_speed(iter/s)": 0.457258
+    },
+    {
+      "acc": 0.60249681,
+      "epoch": 0.060882800608828,
+      "grad_norm": 6.125,
+      "learning_rate": 6.0882800608828005e-06,
+      "loss": 1.98190269,
+      "memory(GiB)": 58.14,
+      "step": 2400,
+      "train_speed(iter/s)": 0.457756
+    },
+    {
+      "epoch": 0.060882800608828,
+      "eval_acc": 0.6000379332716987,
+      "eval_loss": 1.8866535425186157,
+      "eval_runtime": 112.4845,
+      "eval_samples_per_second": 56.63,
+      "eval_steps_per_second": 28.315,
+      "step": 2400
+    },
+    {
+      "acc": 0.59910173,
+      "epoch": 0.06100963977676306,
+      "grad_norm": 5.03125,
+      "learning_rate": 6.100963977676307e-06,
+      "loss": 1.95506439,
+      "memory(GiB)": 58.14,
+      "step": 2405,
+      "train_speed(iter/s)": 0.448254
+    },
+    {
+      "acc": 0.59968038,
+      "epoch": 0.06113647894469812,
+      "grad_norm": 5.25,
+      "learning_rate": 6.113647894469813e-06,
+      "loss": 1.93774776,
+      "memory(GiB)": 58.14,
+      "step": 2410,
+      "train_speed(iter/s)": 0.448743
+    },
+    {
+      "acc": 0.61921587,
+      "epoch": 0.06126331811263318,
+      "grad_norm": 5.75,
+      "learning_rate": 6.126331811263318e-06,
+      "loss": 1.8587225,
+      "memory(GiB)": 58.14,
+      "step": 2415,
+      "train_speed(iter/s)": 0.449227
+    },
+    {
+      "acc": 0.63117027,
+      "epoch": 0.061390157280568236,
+      "grad_norm": 5.34375,
+      "learning_rate": 6.139015728056824e-06,
+      "loss": 1.8523159,
+      "memory(GiB)": 58.14,
+      "step": 2420,
+      "train_speed(iter/s)": 0.449711
+    },
+    {
+      "acc": 0.60653915,
+      "epoch": 0.061516996448503294,
+      "grad_norm": 5.625,
+      "learning_rate": 6.151699644850331e-06,
+      "loss": 1.89694252,
+      "memory(GiB)": 58.14,
+      "step": 2425,
+      "train_speed(iter/s)": 0.450196
+    },
+    {
+      "acc": 0.62044978,
+      "epoch": 0.06164383561643835,
+      "grad_norm": 4.6875,
+      "learning_rate": 6.164383561643836e-06,
+      "loss": 1.83068085,
+      "memory(GiB)": 58.14,
+      "step": 2430,
+      "train_speed(iter/s)": 0.45068
+    },
+    {
+      "acc": 0.59551821,
+      "epoch": 0.06177067478437341,
+      "grad_norm": 5.3125,
+      "learning_rate": 6.177067478437342e-06,
+      "loss": 1.92752857,
+      "memory(GiB)": 58.14,
+      "step": 2435,
+      "train_speed(iter/s)": 0.451163
+    },
+    {
+      "acc": 0.60254188,
+      "epoch": 0.06189751395230847,
+      "grad_norm": 5.4375,
+      "learning_rate": 6.189751395230847e-06,
+      "loss": 1.91536694,
+      "memory(GiB)": 58.14,
+      "step": 2440,
+      "train_speed(iter/s)": 0.451641
+    },
+    {
+      "acc": 0.60145302,
+      "epoch": 0.06202435312024353,
+      "grad_norm": 7.375,
+      "learning_rate": 6.202435312024354e-06,
+      "loss": 1.97209625,
+      "memory(GiB)": 58.14,
+      "step": 2445,
+      "train_speed(iter/s)": 0.452119
+    },
+    {
+      "acc": 0.62152462,
+      "epoch": 0.062151192288178586,
+      "grad_norm": 6.3125,
+      "learning_rate": 6.215119228817859e-06,
+      "loss": 1.79224625,
+      "memory(GiB)": 58.14,
+      "step": 2450,
+      "train_speed(iter/s)": 0.452598
+    },
+    {
+      "acc": 0.59656768,
+      "epoch": 0.062278031456113644,
+      "grad_norm": 5.21875,
+      "learning_rate": 6.227803145611365e-06,
+      "loss": 1.92446404,
+      "memory(GiB)": 58.14,
+      "step": 2455,
+      "train_speed(iter/s)": 0.453077
+    },
+    {
+      "acc": 0.60080857,
+      "epoch": 0.0624048706240487,
+      "grad_norm": 5.78125,
+      "learning_rate": 6.24048706240487e-06,
+      "loss": 1.92613869,
+      "memory(GiB)": 58.14,
+      "step": 2460,
+      "train_speed(iter/s)": 0.453559
+    },
+    {
+      "acc": 0.62344441,
+      "epoch": 0.06253170979198376,
+      "grad_norm": 6.71875,
+      "learning_rate": 6.253170979198377e-06,
+      "loss": 1.87104588,
+      "memory(GiB)": 58.14,
+      "step": 2465,
+      "train_speed(iter/s)": 0.45403
+    },
+    {
+      "acc": 0.59803681,
+      "epoch": 0.06265854895991882,
+      "grad_norm": 5.09375,
+      "learning_rate": 6.265854895991883e-06,
+      "loss": 1.9206789,
+      "memory(GiB)": 58.14,
+      "step": 2470,
+      "train_speed(iter/s)": 0.454501
+    },
+    {
+      "acc": 0.61187105,
+      "epoch": 0.06278538812785388,
+      "grad_norm": 5.875,
+      "learning_rate": 6.278538812785388e-06,
+      "loss": 1.92976303,
+      "memory(GiB)": 58.14,
+      "step": 2475,
+      "train_speed(iter/s)": 0.454975
+    },
+    {
+      "acc": 0.61190963,
+      "epoch": 0.06291222729578894,
+      "grad_norm": 5.34375,
+      "learning_rate": 6.291222729578894e-06,
+      "loss": 1.86850891,
+      "memory(GiB)": 58.14,
+      "step": 2480,
+      "train_speed(iter/s)": 0.455445
+    },
+    {
+      "acc": 0.61170764,
+      "epoch": 0.063039066463724,
+      "grad_norm": 5.1875,
+      "learning_rate": 6.303906646372401e-06,
+      "loss": 1.94937782,
+      "memory(GiB)": 58.14,
+      "step": 2485,
+      "train_speed(iter/s)": 0.455915
+    },
+    {
+      "acc": 0.6186388,
+      "epoch": 0.06316590563165905,
+      "grad_norm": 5.5625,
+      "learning_rate": 6.316590563165906e-06,
+      "loss": 1.83750896,
+      "memory(GiB)": 58.14,
+      "step": 2490,
+      "train_speed(iter/s)": 0.456387
+    },
+    {
+      "acc": 0.6037365,
+      "epoch": 0.06329274479959411,
+      "grad_norm": 6.0,
+      "learning_rate": 6.329274479959412e-06,
+      "loss": 1.88511868,
+      "memory(GiB)": 58.14,
+      "step": 2495,
+      "train_speed(iter/s)": 0.456861
+    },
+    {
+      "acc": 0.59893236,
+      "epoch": 0.06341958396752917,
+      "grad_norm": 5.125,
+      "learning_rate": 6.341958396752917e-06,
+      "loss": 1.95585556,
+      "memory(GiB)": 58.14,
+      "step": 2500,
+      "train_speed(iter/s)": 0.457332
+    },
+    {
+      "epoch": 0.06341958396752917,
+      "eval_acc": 0.6012294056382712,
+      "eval_loss": 1.8778204917907715,
+      "eval_runtime": 113.2563,
+      "eval_samples_per_second": 56.244,
+      "eval_steps_per_second": 28.122,
+      "step": 2500
+    },
+    {
+      "acc": 0.61564579,
+      "epoch": 0.06354642313546423,
+      "grad_norm": 7.46875,
+      "learning_rate": 6.354642313546424e-06,
+      "loss": 1.92390862,
+      "memory(GiB)": 58.14,
+      "step": 2505,
+      "train_speed(iter/s)": 0.448167
+    },
+    {
+      "acc": 0.59960327,
+      "epoch": 0.06367326230339929,
+      "grad_norm": 4.8125,
+      "learning_rate": 6.36732623033993e-06,
+      "loss": 1.93815136,
+      "memory(GiB)": 58.14,
+      "step": 2510,
+      "train_speed(iter/s)": 0.448632
+    },
+    {
+      "acc": 0.61533532,
+      "epoch": 0.06380010147133434,
+      "grad_norm": 5.75,
+      "learning_rate": 6.380010147133435e-06,
+      "loss": 1.80193939,
+      "memory(GiB)": 58.14,
+      "step": 2515,
+      "train_speed(iter/s)": 0.4491
+    },
+    {
+      "acc": 0.61330819,
+      "epoch": 0.0639269406392694,
+      "grad_norm": 5.125,
+      "learning_rate": 6.392694063926941e-06,
+      "loss": 1.90321312,
+      "memory(GiB)": 58.14,
+      "step": 2520,
+      "train_speed(iter/s)": 0.449566
+    },
+    {
+      "acc": 0.59923172,
+      "epoch": 0.06405377980720446,
+      "grad_norm": 5.3125,
+      "learning_rate": 6.405377980720447e-06,
+      "loss": 1.9303793,
+      "memory(GiB)": 58.14,
+      "step": 2525,
+      "train_speed(iter/s)": 0.450034
+    },
+    {
+      "acc": 0.62410908,
+      "epoch": 0.06418061897513952,
+      "grad_norm": 6.4375,
+      "learning_rate": 6.418061897513953e-06,
+      "loss": 1.76170559,
+      "memory(GiB)": 58.14,
+      "step": 2530,
+      "train_speed(iter/s)": 0.450506
+    },
+    {
+      "acc": 0.60147963,
+      "epoch": 0.06430745814307458,
+      "grad_norm": 6.6875,
+      "learning_rate": 6.430745814307458e-06,
+      "loss": 1.850107,
+      "memory(GiB)": 58.14,
+      "step": 2535,
+      "train_speed(iter/s)": 0.450976
+    },
+    {
+      "acc": 0.60691957,
+      "epoch": 0.06443429731100964,
+      "grad_norm": 5.21875,
+      "learning_rate": 6.443429731100964e-06,
+      "loss": 1.90494766,
+      "memory(GiB)": 58.14,
+      "step": 2540,
+      "train_speed(iter/s)": 0.451446
+    },
+    {
+      "acc": 0.63060875,
+      "epoch": 0.0645611364789447,
+      "grad_norm": 5.84375,
+      "learning_rate": 6.456113647894471e-06,
+      "loss": 1.83058548,
+      "memory(GiB)": 58.14,
+      "step": 2545,
+      "train_speed(iter/s)": 0.451916
+    },
+    {
+      "acc": 0.61419878,
+      "epoch": 0.06468797564687975,
+      "grad_norm": 4.34375,
+      "learning_rate": 6.468797564687976e-06,
+      "loss": 1.8514328,
+      "memory(GiB)": 58.14,
+      "step": 2550,
+      "train_speed(iter/s)": 0.452382
+    },
+    {
+      "acc": 0.62784376,
+      "epoch": 0.06481481481481481,
+      "grad_norm": 6.5,
+      "learning_rate": 6.481481481481482e-06,
+      "loss": 1.78377953,
+      "memory(GiB)": 58.14,
+      "step": 2555,
+      "train_speed(iter/s)": 0.452853
+    },
+    {
+      "acc": 0.6120739,
+      "epoch": 0.06494165398274987,
+      "grad_norm": 5.21875,
+      "learning_rate": 6.494165398274987e-06,
+      "loss": 1.87635803,
+      "memory(GiB)": 58.14,
+      "step": 2560,
+      "train_speed(iter/s)": 0.453324
+    },
+    {
+      "acc": 0.59721899,
+      "epoch": 0.06506849315068493,
+      "grad_norm": 5.5625,
+      "learning_rate": 6.506849315068494e-06,
+      "loss": 1.90338287,
+      "memory(GiB)": 58.14,
+      "step": 2565,
+      "train_speed(iter/s)": 0.453793
+    },
+    {
+      "acc": 0.60396547,
+      "epoch": 0.06519533231861999,
+      "grad_norm": 5.46875,
+      "learning_rate": 6.519533231862e-06,
+      "loss": 1.90700645,
+      "memory(GiB)": 58.14,
+      "step": 2570,
+      "train_speed(iter/s)": 0.454265
+    },
+    {
+      "acc": 0.62037644,
+      "epoch": 0.06532217148655504,
+      "grad_norm": 5.125,
+      "learning_rate": 6.532217148655505e-06,
+      "loss": 1.80530777,
+      "memory(GiB)": 58.14,
+      "step": 2575,
+      "train_speed(iter/s)": 0.454731
+    },
+    {
+      "acc": 0.60401158,
+      "epoch": 0.0654490106544901,
+      "grad_norm": 4.84375,
+      "learning_rate": 6.544901065449011e-06,
+      "loss": 2.01804085,
+      "memory(GiB)": 58.14,
+      "step": 2580,
+      "train_speed(iter/s)": 0.455199
+    },
+    {
+      "acc": 0.59663267,
+      "epoch": 0.06557584982242516,
+      "grad_norm": 7.4375,
+      "learning_rate": 6.557584982242518e-06,
+      "loss": 1.97994652,
+      "memory(GiB)": 58.14,
+      "step": 2585,
+      "train_speed(iter/s)": 0.455666
+    },
+    {
+      "acc": 0.60921412,
+      "epoch": 0.06570268899036022,
+      "grad_norm": 5.46875,
+      "learning_rate": 6.570268899036023e-06,
+      "loss": 1.87197304,
+      "memory(GiB)": 58.14,
+      "step": 2590,
+      "train_speed(iter/s)": 0.456131
+    },
+    {
+      "acc": 0.61398516,
+      "epoch": 0.06582952815829528,
+      "grad_norm": 5.3125,
+      "learning_rate": 6.582952815829529e-06,
+      "loss": 1.9007225,
+      "memory(GiB)": 58.14,
+      "step": 2595,
+      "train_speed(iter/s)": 0.456598
+    },
+    {
+      "acc": 0.61256599,
+      "epoch": 0.06595636732623034,
+      "grad_norm": 5.90625,
+      "learning_rate": 6.595636732623034e-06,
+      "loss": 1.96448936,
+      "memory(GiB)": 58.14,
+      "step": 2600,
+      "train_speed(iter/s)": 0.45706
+    },
+    {
+      "epoch": 0.06595636732623034,
+      "eval_acc": 0.6025194710898756,
+      "eval_loss": 1.8688422441482544,
+      "eval_runtime": 113.5003,
+      "eval_samples_per_second": 56.123,
+      "eval_steps_per_second": 28.062,
+      "step": 2600
+    },
+    {
+      "acc": 0.61291656,
+      "epoch": 0.0660832064941654,
+      "grad_norm": 6.84375,
+      "learning_rate": 6.608320649416541e-06,
+      "loss": 1.83021393,
+      "memory(GiB)": 58.14,
+      "step": 2605,
+      "train_speed(iter/s)": 0.448228
+    },
+    {
+      "acc": 0.60811567,
+      "epoch": 0.06621004566210045,
+      "grad_norm": 6.59375,
+      "learning_rate": 6.621004566210046e-06,
+      "loss": 1.9022419,
+      "memory(GiB)": 58.14,
+      "step": 2610,
+      "train_speed(iter/s)": 0.448683
+    },
+    {
+      "acc": 0.61229768,
+      "epoch": 0.06633688483003551,
+      "grad_norm": 6.0625,
+      "learning_rate": 6.633688483003552e-06,
+      "loss": 1.83395748,
+      "memory(GiB)": 58.14,
+      "step": 2615,
+      "train_speed(iter/s)": 0.449138
+    },
+    {
+      "acc": 0.60656805,
+      "epoch": 0.06646372399797057,
+      "grad_norm": 5.75,
+      "learning_rate": 6.646372399797057e-06,
+      "loss": 1.85824127,
+      "memory(GiB)": 58.14,
+      "step": 2620,
+      "train_speed(iter/s)": 0.449595
+    },
+    {
+      "acc": 0.60877857,
+      "epoch": 0.06659056316590563,
+      "grad_norm": 6.65625,
+      "learning_rate": 6.659056316590564e-06,
+      "loss": 1.88488064,
+      "memory(GiB)": 58.14,
+      "step": 2625,
+      "train_speed(iter/s)": 0.450046
+    },
+    {
+      "acc": 0.61313748,
+      "epoch": 0.06671740233384069,
+      "grad_norm": 6.46875,
+      "learning_rate": 6.67174023338407e-06,
+      "loss": 1.90876999,
+      "memory(GiB)": 58.14,
+      "step": 2630,
+      "train_speed(iter/s)": 0.450502
+    },
+    {
+      "acc": 0.61640196,
+      "epoch": 0.06684424150177574,
+      "grad_norm": 7.0625,
+      "learning_rate": 6.684424150177575e-06,
+      "loss": 1.88373146,
+      "memory(GiB)": 58.14,
+      "step": 2635,
+      "train_speed(iter/s)": 0.450952
+    },
+    {
+      "acc": 0.6129179,
+      "epoch": 0.0669710806697108,
+      "grad_norm": 6.21875,
+      "learning_rate": 6.697108066971081e-06,
+      "loss": 1.94215336,
+      "memory(GiB)": 58.14,
+      "step": 2640,
+      "train_speed(iter/s)": 0.451405
+    },
+    {
+      "acc": 0.61619987,
+      "epoch": 0.06709791983764586,
+      "grad_norm": 5.40625,
+      "learning_rate": 6.709791983764588e-06,
+      "loss": 1.83145981,
+      "memory(GiB)": 58.14,
+      "step": 2645,
+      "train_speed(iter/s)": 0.451855
+    },
+    {
+      "acc": 0.61294098,
+      "epoch": 0.06722475900558092,
+      "grad_norm": 6.59375,
+      "learning_rate": 6.722475900558093e-06,
+      "loss": 1.88779945,
+      "memory(GiB)": 58.14,
+      "step": 2650,
+      "train_speed(iter/s)": 0.452301
+    },
+    {
+      "acc": 0.6304718,
+      "epoch": 0.06735159817351598,
+      "grad_norm": 6.65625,
+      "learning_rate": 6.735159817351599e-06,
+      "loss": 1.83628044,
+      "memory(GiB)": 58.14,
+      "step": 2655,
+      "train_speed(iter/s)": 0.452744
+    },
+    {
+      "acc": 0.61725063,
+      "epoch": 0.06747843734145104,
+      "grad_norm": 6.625,
+      "learning_rate": 6.747843734145104e-06,
+      "loss": 1.85713902,
+      "memory(GiB)": 58.14,
+      "step": 2660,
+      "train_speed(iter/s)": 0.45319
+    },
+    {
+      "acc": 0.60948086,
+      "epoch": 0.0676052765093861,
+      "grad_norm": 4.96875,
+      "learning_rate": 6.760527650938611e-06,
+      "loss": 1.84074936,
+      "memory(GiB)": 58.14,
+      "step": 2665,
+      "train_speed(iter/s)": 0.453631
+    },
+    {
+      "acc": 0.60286841,
+      "epoch": 0.06773211567732115,
+      "grad_norm": 5.15625,
+      "learning_rate": 6.773211567732117e-06,
+      "loss": 1.91347103,
+      "memory(GiB)": 58.14,
+      "step": 2670,
+      "train_speed(iter/s)": 0.454071
+    },
+    {
+      "acc": 0.61806631,
+      "epoch": 0.06785895484525621,
+      "grad_norm": 5.0,
+      "learning_rate": 6.785895484525622e-06,
+      "loss": 1.9417408,
+      "memory(GiB)": 58.14,
+      "step": 2675,
+      "train_speed(iter/s)": 0.454506
+    },
+    {
+      "acc": 0.62566824,
+      "epoch": 0.06798579401319127,
+      "grad_norm": 5.625,
+      "learning_rate": 6.798579401319128e-06,
+      "loss": 1.82996368,
+      "memory(GiB)": 58.14,
+      "step": 2680,
+      "train_speed(iter/s)": 0.454948
+    },
+    {
+      "acc": 0.61032419,
+      "epoch": 0.06811263318112633,
+      "grad_norm": 5.15625,
+      "learning_rate": 6.811263318112634e-06,
+      "loss": 1.92929764,
+      "memory(GiB)": 58.14,
+      "step": 2685,
+      "train_speed(iter/s)": 0.45539
+    },
+    {
+      "acc": 0.60257921,
+      "epoch": 0.06823947234906139,
+      "grad_norm": 5.53125,
+      "learning_rate": 6.82394723490614e-06,
+      "loss": 1.8732523,
+      "memory(GiB)": 58.14,
+      "step": 2690,
+      "train_speed(iter/s)": 0.455831
+    },
+    {
+      "acc": 0.60895119,
+      "epoch": 0.06836631151699644,
+      "grad_norm": 5.09375,
+      "learning_rate": 6.836631151699645e-06,
+      "loss": 1.89161205,
+      "memory(GiB)": 58.14,
+      "step": 2695,
+      "train_speed(iter/s)": 0.456268
+    },
+    {
+      "acc": 0.5987586,
+      "epoch": 0.0684931506849315,
+      "grad_norm": 5.375,
+      "learning_rate": 6.849315068493151e-06,
+      "loss": 1.94489403,
+      "memory(GiB)": 58.14,
+      "step": 2700,
+      "train_speed(iter/s)": 0.456705
+    },
+    {
+      "epoch": 0.0684931506849315,
+      "eval_acc": 0.6035881198674675,
+      "eval_loss": 1.860156536102295,
+      "eval_runtime": 111.9733,
+      "eval_samples_per_second": 56.889,
+      "eval_steps_per_second": 28.444,
+      "step": 2700
+    },
+    {
+      "acc": 0.60492058,
+      "epoch": 0.06861998985286656,
+      "grad_norm": 5.4375,
+      "learning_rate": 6.861998985286658e-06,
+      "loss": 1.90669708,
+      "memory(GiB)": 58.14,
+      "step": 2705,
+      "train_speed(iter/s)": 0.448321
+    },
+    {
+      "acc": 0.60875154,
+      "epoch": 0.06874682902080162,
+      "grad_norm": 6.125,
+      "learning_rate": 6.874682902080163e-06,
+      "loss": 1.98989906,
+      "memory(GiB)": 58.14,
+      "step": 2710,
+      "train_speed(iter/s)": 0.448757
+    },
+    {
+      "acc": 0.61828809,
+      "epoch": 0.06887366818873668,
+      "grad_norm": 5.625,
+      "learning_rate": 6.887366818873669e-06,
+      "loss": 1.82437973,
+      "memory(GiB)": 58.14,
+      "step": 2715,
+      "train_speed(iter/s)": 0.449187
+    },
+    {
+      "acc": 0.61650009,
+      "epoch": 0.06900050735667174,
+      "grad_norm": 5.90625,
+      "learning_rate": 6.900050735667174e-06,
+      "loss": 1.8771843,
+      "memory(GiB)": 58.14,
+      "step": 2720,
+      "train_speed(iter/s)": 0.449621
+    },
+    {
+      "acc": 0.6184906,
+      "epoch": 0.0691273465246068,
+      "grad_norm": 4.71875,
+      "learning_rate": 6.912734652460681e-06,
+      "loss": 1.87500553,
+      "memory(GiB)": 58.14,
+      "step": 2725,
+      "train_speed(iter/s)": 0.450054
+    },
+    {
+      "acc": 0.60677981,
+      "epoch": 0.06925418569254185,
+      "grad_norm": 7.71875,
+      "learning_rate": 6.925418569254187e-06,
+      "loss": 1.84384727,
+      "memory(GiB)": 58.14,
+      "step": 2730,
+      "train_speed(iter/s)": 0.450484
+    },
+    {
+      "acc": 0.60466657,
+      "epoch": 0.06938102486047691,
+      "grad_norm": 5.28125,
+      "learning_rate": 6.938102486047692e-06,
+      "loss": 1.83755951,
+      "memory(GiB)": 58.14,
+      "step": 2735,
+      "train_speed(iter/s)": 0.450913
+    },
+    {
+      "acc": 0.60684156,
+      "epoch": 0.06950786402841197,
+      "grad_norm": 5.3125,
+      "learning_rate": 6.950786402841198e-06,
+      "loss": 1.8586935,
+      "memory(GiB)": 58.14,
+      "step": 2740,
+      "train_speed(iter/s)": 0.451341
+    },
+    {
+      "acc": 0.62611828,
+      "epoch": 0.06963470319634703,
+      "grad_norm": 5.59375,
+      "learning_rate": 6.9634703196347046e-06,
+      "loss": 1.82037735,
+      "memory(GiB)": 58.14,
+      "step": 2745,
+      "train_speed(iter/s)": 0.451772
+    },
+    {
+      "acc": 0.61206102,
+      "epoch": 0.06976154236428209,
+      "grad_norm": 5.3125,
+      "learning_rate": 6.97615423642821e-06,
+      "loss": 1.90325394,
+      "memory(GiB)": 58.14,
+      "step": 2750,
+      "train_speed(iter/s)": 0.452204
+    },
+    {
+      "acc": 0.60792751,
+      "epoch": 0.06988838153221714,
+      "grad_norm": 5.75,
+      "learning_rate": 6.988838153221716e-06,
+      "loss": 1.9160717,
+      "memory(GiB)": 58.14,
+      "step": 2755,
+      "train_speed(iter/s)": 0.452632
+    },
+    {
+      "acc": 0.6066947,
+      "epoch": 0.0700152207001522,
+      "grad_norm": 4.84375,
+      "learning_rate": 7.001522070015221e-06,
+      "loss": 1.88898773,
+      "memory(GiB)": 58.14,
+      "step": 2760,
+      "train_speed(iter/s)": 0.453052
+    },
+    {
+      "acc": 0.61785488,
+      "epoch": 0.07014205986808726,
+      "grad_norm": 6.09375,
+      "learning_rate": 7.014205986808728e-06,
+      "loss": 1.93794117,
+      "memory(GiB)": 58.14,
+      "step": 2765,
+      "train_speed(iter/s)": 0.453475
+    },
+    {
+      "acc": 0.61566505,
+      "epoch": 0.07026889903602232,
+      "grad_norm": 5.34375,
+      "learning_rate": 7.026889903602233e-06,
+      "loss": 1.86988449,
+      "memory(GiB)": 58.14,
+      "step": 2770,
+      "train_speed(iter/s)": 0.453899
+    },
+    {
+      "acc": 0.61492205,
+      "epoch": 0.07039573820395738,
+      "grad_norm": 7.53125,
+      "learning_rate": 7.039573820395739e-06,
+      "loss": 1.90968246,
+      "memory(GiB)": 58.14,
+      "step": 2775,
+      "train_speed(iter/s)": 0.454324
+    },
+    {
+      "acc": 0.59384127,
+      "epoch": 0.07052257737189244,
+      "grad_norm": 5.53125,
+      "learning_rate": 7.052257737189245e-06,
+      "loss": 1.92777691,
+      "memory(GiB)": 58.14,
+      "step": 2780,
+      "train_speed(iter/s)": 0.454749
+    },
+    {
+      "acc": 0.62231426,
+      "epoch": 0.0706494165398275,
+      "grad_norm": 6.0625,
+      "learning_rate": 7.064941653982751e-06,
+      "loss": 1.89345779,
+      "memory(GiB)": 58.14,
+      "step": 2785,
+      "train_speed(iter/s)": 0.455167
+    },
+    {
+      "acc": 0.6072772,
+      "epoch": 0.07077625570776255,
+      "grad_norm": 5.40625,
+      "learning_rate": 7.077625570776257e-06,
+      "loss": 1.89978943,
+      "memory(GiB)": 58.14,
+      "step": 2790,
+      "train_speed(iter/s)": 0.455588
+    },
+    {
+      "acc": 0.61941037,
+      "epoch": 0.07090309487569761,
+      "grad_norm": 6.5625,
+      "learning_rate": 7.090309487569762e-06,
+      "loss": 1.80426388,
+      "memory(GiB)": 58.14,
+      "step": 2795,
+      "train_speed(iter/s)": 0.456008
+    },
+    {
+      "acc": 0.63117952,
+      "epoch": 0.07102993404363267,
+      "grad_norm": 6.125,
+      "learning_rate": 7.102993404363268e-06,
+      "loss": 1.86595287,
+      "memory(GiB)": 58.14,
+      "step": 2800,
+      "train_speed(iter/s)": 0.456427
+    },
+    {
+      "epoch": 0.07102993404363267,
+      "eval_acc": 0.6048084181783925,
+      "eval_loss": 1.8509750366210938,
+      "eval_runtime": 112.5821,
+      "eval_samples_per_second": 56.581,
+      "eval_steps_per_second": 28.29,
+      "step": 2800
+    },
+    {
+      "acc": 0.6240252,
+      "epoch": 0.07115677321156773,
+      "grad_norm": 5.90625,
+      "learning_rate": 7.1156773211567745e-06,
+      "loss": 1.84464493,
+      "memory(GiB)": 58.14,
+      "step": 2805,
+      "train_speed(iter/s)": 0.4483
+    },
+    {
+      "acc": 0.62661514,
+      "epoch": 0.07128361237950279,
+      "grad_norm": 5.75,
+      "learning_rate": 7.12836123795028e-06,
+      "loss": 1.89510536,
+      "memory(GiB)": 58.14,
+      "step": 2810,
+      "train_speed(iter/s)": 0.448716
+    },
+    {
+      "acc": 0.59872684,
+      "epoch": 0.07141045154743784,
+      "grad_norm": 5.0625,
+      "learning_rate": 7.1410451547437856e-06,
+      "loss": 1.89223671,
+      "memory(GiB)": 58.14,
+      "step": 2815,
+      "train_speed(iter/s)": 0.449133
+    },
+    {
+      "acc": 0.60908093,
+      "epoch": 0.0715372907153729,
+      "grad_norm": 5.46875,
+      "learning_rate": 7.153729071537291e-06,
+      "loss": 1.81616497,
+      "memory(GiB)": 58.14,
+      "step": 2820,
+      "train_speed(iter/s)": 0.449549
+    },
+    {
+      "acc": 0.62107067,
+      "epoch": 0.07166412988330796,
+      "grad_norm": 5.03125,
+      "learning_rate": 7.1664129883307975e-06,
+      "loss": 1.83826218,
+      "memory(GiB)": 58.14,
+      "step": 2825,
+      "train_speed(iter/s)": 0.449966
+    },
+    {
+      "acc": 0.63013668,
+      "epoch": 0.07179096905124302,
+      "grad_norm": 5.34375,
+      "learning_rate": 7.1790969051243035e-06,
+      "loss": 1.81878738,
+      "memory(GiB)": 58.14,
+      "step": 2830,
+      "train_speed(iter/s)": 0.450382
+    },
+    {
+      "acc": 0.59435673,
+      "epoch": 0.07191780821917808,
+      "grad_norm": 6.90625,
+      "learning_rate": 7.191780821917809e-06,
+      "loss": 1.97414513,
+      "memory(GiB)": 58.14,
+      "step": 2835,
+      "train_speed(iter/s)": 0.450797
+    },
+    {
+      "acc": 0.60926948,
+      "epoch": 0.07204464738711314,
+      "grad_norm": 5.9375,
+      "learning_rate": 7.2044647387113146e-06,
+      "loss": 1.91032143,
+      "memory(GiB)": 58.14,
+      "step": 2840,
+      "train_speed(iter/s)": 0.451211
+    },
+    {
+      "acc": 0.62160091,
+      "epoch": 0.0721714865550482,
+      "grad_norm": 4.8125,
+      "learning_rate": 7.2171486555048205e-06,
+      "loss": 1.81906433,
+      "memory(GiB)": 58.14,
+      "step": 2845,
+      "train_speed(iter/s)": 0.451621
+    },
+    {
+      "acc": 0.60461559,
+      "epoch": 0.07229832572298325,
+      "grad_norm": 5.21875,
+      "learning_rate": 7.2298325722983265e-06,
+      "loss": 1.88771286,
+      "memory(GiB)": 58.14,
+      "step": 2850,
+      "train_speed(iter/s)": 0.452034
+    },
+    {
+      "acc": 0.63199983,
+      "epoch": 0.07242516489091831,
+      "grad_norm": 5.90625,
+      "learning_rate": 7.242516489091832e-06,
+      "loss": 1.86336899,
+      "memory(GiB)": 58.14,
+      "step": 2855,
+      "train_speed(iter/s)": 0.452444
+    },
+    {
+      "acc": 0.62258148,
+      "epoch": 0.07255200405885337,
+      "grad_norm": 6.21875,
+      "learning_rate": 7.2552004058853376e-06,
+      "loss": 1.79663887,
+      "memory(GiB)": 58.14,
+      "step": 2860,
+      "train_speed(iter/s)": 0.452852
+    },
+    {
+      "acc": 0.62211504,
+      "epoch": 0.07267884322678843,
+      "grad_norm": 5.625,
+      "learning_rate": 7.267884322678844e-06,
+      "loss": 1.92335587,
+      "memory(GiB)": 58.14,
+      "step": 2865,
+      "train_speed(iter/s)": 0.45326
+    },
+    {
+      "acc": 0.6139039,
+      "epoch": 0.07280568239472349,
+      "grad_norm": 5.9375,
+      "learning_rate": 7.2805682394723495e-06,
+      "loss": 1.90454826,
+      "memory(GiB)": 58.14,
+      "step": 2870,
+      "train_speed(iter/s)": 0.453666
+    },
+    {
+      "acc": 0.60160236,
+      "epoch": 0.07293252156265854,
+      "grad_norm": 5.59375,
+      "learning_rate": 7.2932521562658555e-06,
+      "loss": 1.87880173,
+      "memory(GiB)": 58.14,
+      "step": 2875,
+      "train_speed(iter/s)": 0.454079
+    },
+    {
+      "acc": 0.60643549,
+      "epoch": 0.0730593607305936,
+      "grad_norm": 4.1875,
+      "learning_rate": 7.305936073059361e-06,
+      "loss": 1.90190887,
+      "memory(GiB)": 58.14,
+      "step": 2880,
+      "train_speed(iter/s)": 0.454485
+    },
+    {
+      "acc": 0.62963877,
+      "epoch": 0.07318619989852866,
+      "grad_norm": 4.96875,
+      "learning_rate": 7.318619989852867e-06,
+      "loss": 1.89132309,
+      "memory(GiB)": 58.14,
+      "step": 2885,
+      "train_speed(iter/s)": 0.454893
+    },
+    {
+      "acc": 0.60651903,
+      "epoch": 0.07331303906646372,
+      "grad_norm": 6.5,
+      "learning_rate": 7.331303906646373e-06,
+      "loss": 1.88069534,
+      "memory(GiB)": 58.14,
+      "step": 2890,
+      "train_speed(iter/s)": 0.455302
+    },
+    {
+      "acc": 0.62535725,
+      "epoch": 0.07343987823439878,
+      "grad_norm": 5.4375,
+      "learning_rate": 7.3439878234398785e-06,
+      "loss": 1.84180565,
+      "memory(GiB)": 58.14,
+      "step": 2895,
+      "train_speed(iter/s)": 0.455707
+    },
+    {
+      "acc": 0.60730028,
+      "epoch": 0.07356671740233384,
+      "grad_norm": 5.75,
+      "learning_rate": 7.3566717402333845e-06,
+      "loss": 1.98328476,
+      "memory(GiB)": 58.14,
+      "step": 2900,
+      "train_speed(iter/s)": 0.45611
+    },
+    {
+      "epoch": 0.07356671740233384,
+      "eval_acc": 0.6059835976198961,
+      "eval_loss": 1.8424972295761108,
+      "eval_runtime": 113.2782,
+      "eval_samples_per_second": 56.233,
+      "eval_steps_per_second": 28.117,
+      "step": 2900
+    },
+    {
+      "acc": 0.61364303,
+      "epoch": 0.0736935565702689,
+      "grad_norm": 5.96875,
+      "learning_rate": 7.369355657026891e-06,
+      "loss": 1.87470016,
+      "memory(GiB)": 58.14,
+      "step": 2905,
+      "train_speed(iter/s)": 0.448226
+    },
+    {
+      "acc": 0.60001698,
+      "epoch": 0.07382039573820395,
+      "grad_norm": 4.5,
+      "learning_rate": 7.382039573820396e-06,
+      "loss": 1.96950932,
+      "memory(GiB)": 58.14,
+      "step": 2910,
+      "train_speed(iter/s)": 0.448632
+    },
+    {
+      "acc": 0.61663094,
+      "epoch": 0.07394723490613901,
+      "grad_norm": 6.75,
+      "learning_rate": 7.394723490613902e-06,
+      "loss": 1.90482388,
+      "memory(GiB)": 58.14,
+      "step": 2915,
+      "train_speed(iter/s)": 0.449038
+    },
+    {
+      "acc": 0.60103149,
+      "epoch": 0.07407407407407407,
+      "grad_norm": 5.09375,
+      "learning_rate": 7.4074074074074075e-06,
+      "loss": 1.92143154,
+      "memory(GiB)": 58.14,
+      "step": 2920,
+      "train_speed(iter/s)": 0.449441
+    },
+    {
+      "acc": 0.60360765,
+      "epoch": 0.07420091324200913,
+      "grad_norm": 5.59375,
+      "learning_rate": 7.420091324200914e-06,
+      "loss": 1.89524937,
+      "memory(GiB)": 58.14,
+      "step": 2925,
+      "train_speed(iter/s)": 0.449843
+    },
+    {
+      "acc": 0.60471892,
+      "epoch": 0.07432775240994419,
+      "grad_norm": 6.75,
+      "learning_rate": 7.432775240994419e-06,
+      "loss": 1.90937576,
+      "memory(GiB)": 58.14,
+      "step": 2930,
+      "train_speed(iter/s)": 0.450246
+    },
+    {
+      "acc": 0.62133865,
+      "epoch": 0.07445459157787924,
+      "grad_norm": 6.0,
+      "learning_rate": 7.445459157787925e-06,
+      "loss": 1.789254,
+      "memory(GiB)": 58.14,
+      "step": 2935,
+      "train_speed(iter/s)": 0.450648
+    },
+    {
+      "acc": 0.62306175,
+      "epoch": 0.0745814307458143,
+      "grad_norm": 5.5,
+      "learning_rate": 7.458143074581431e-06,
+      "loss": 1.8388485,
+      "memory(GiB)": 58.14,
+      "step": 2940,
+      "train_speed(iter/s)": 0.451049
+    },
+    {
+      "acc": 0.64608455,
+      "epoch": 0.07470826991374936,
+      "grad_norm": 5.90625,
+      "learning_rate": 7.470826991374937e-06,
+      "loss": 1.72617111,
+      "memory(GiB)": 58.14,
+      "step": 2945,
+      "train_speed(iter/s)": 0.451444
+    },
+    {
+      "acc": 0.59843822,
+      "epoch": 0.07483510908168442,
+      "grad_norm": 6.53125,
+      "learning_rate": 7.483510908168443e-06,
+      "loss": 1.95106297,
+      "memory(GiB)": 58.14,
+      "step": 2950,
+      "train_speed(iter/s)": 0.451842
+    },
+    {
+      "acc": 0.62830148,
+      "epoch": 0.07496194824961948,
+      "grad_norm": 4.8125,
+      "learning_rate": 7.496194824961948e-06,
+      "loss": 1.75840912,
+      "memory(GiB)": 58.14,
+      "step": 2955,
+      "train_speed(iter/s)": 0.452236
+    },
+    {
+      "acc": 0.62830124,
+      "epoch": 0.07508878741755454,
+      "grad_norm": 5.03125,
+      "learning_rate": 7.508878741755454e-06,
+      "loss": 1.7966526,
+      "memory(GiB)": 58.14,
+      "step": 2960,
+      "train_speed(iter/s)": 0.452634
+    },
+    {
+      "acc": 0.61973314,
+      "epoch": 0.0752156265854896,
+      "grad_norm": 5.71875,
+      "learning_rate": 7.521562658548961e-06,
+      "loss": 1.82047462,
+      "memory(GiB)": 58.14,
+      "step": 2965,
+      "train_speed(iter/s)": 0.453035
+    },
+    {
+      "acc": 0.61963325,
+      "epoch": 0.07534246575342465,
+      "grad_norm": 5.71875,
+      "learning_rate": 7.534246575342466e-06,
+      "loss": 1.82842522,
+      "memory(GiB)": 58.14,
+      "step": 2970,
+      "train_speed(iter/s)": 0.453435
+    },
+    {
+      "acc": 0.62633748,
+      "epoch": 0.07546930492135971,
+      "grad_norm": 4.625,
+      "learning_rate": 7.546930492135972e-06,
+      "loss": 1.80132027,
+      "memory(GiB)": 58.14,
+      "step": 2975,
+      "train_speed(iter/s)": 0.453833
+    },
+    {
+      "acc": 0.61981435,
+      "epoch": 0.07559614408929477,
+      "grad_norm": 6.53125,
+      "learning_rate": 7.559614408929477e-06,
+      "loss": 1.78781509,
+      "memory(GiB)": 58.14,
+      "step": 2980,
+      "train_speed(iter/s)": 0.454228
+    },
+    {
+      "acc": 0.60884252,
+      "epoch": 0.07572298325722983,
+      "grad_norm": 5.78125,
+      "learning_rate": 7.572298325722984e-06,
+      "loss": 1.86665077,
+      "memory(GiB)": 58.14,
+      "step": 2985,
+      "train_speed(iter/s)": 0.454628
+    },
+    {
+      "acc": 0.62612743,
+      "epoch": 0.07584982242516489,
+      "grad_norm": 5.28125,
+      "learning_rate": 7.58498224251649e-06,
+      "loss": 1.82060127,
+      "memory(GiB)": 58.14,
+      "step": 2990,
+      "train_speed(iter/s)": 0.455021
+    },
+    {
+      "acc": 0.61098433,
+      "epoch": 0.07597666159309995,
+      "grad_norm": 5.0625,
+      "learning_rate": 7.597666159309995e-06,
+      "loss": 1.89073334,
+      "memory(GiB)": 58.14,
+      "step": 2995,
+      "train_speed(iter/s)": 0.455416
+    },
+    {
+      "acc": 0.6229835,
+      "epoch": 0.076103500761035,
+      "grad_norm": 5.5625,
+      "learning_rate": 7.610350076103501e-06,
+      "loss": 1.83051796,
+      "memory(GiB)": 58.14,
+      "step": 3000,
+      "train_speed(iter/s)": 0.455811
+    },
+    {
+      "epoch": 0.076103500761035,
+      "eval_acc": 0.6071863497038239,
+      "eval_loss": 1.834290623664856,
+      "eval_runtime": 112.1211,
+      "eval_samples_per_second": 56.814,
+      "eval_steps_per_second": 28.407,
+      "step": 3000
+    },
+    {
+      "acc": 0.62700224,
+      "epoch": 0.07623033992897006,
+      "grad_norm": 4.65625,
+      "learning_rate": 7.623033992897007e-06,
+      "loss": 1.77658653,
+      "memory(GiB)": 58.14,
+      "step": 3005,
+      "train_speed(iter/s)": 0.448269
+    },
+    {
+      "acc": 0.60678177,
+      "epoch": 0.07635717909690512,
+      "grad_norm": 5.71875,
+      "learning_rate": 7.635717909690512e-06,
+      "loss": 1.87845783,
+      "memory(GiB)": 58.14,
+      "step": 3010,
+      "train_speed(iter/s)": 0.448662
+    },
+    {
+      "acc": 0.61887217,
+      "epoch": 0.07648401826484018,
+      "grad_norm": 5.9375,
+      "learning_rate": 7.648401826484018e-06,
+      "loss": 1.86014633,
+      "memory(GiB)": 58.14,
+      "step": 3015,
+      "train_speed(iter/s)": 0.449054
+    },
+    {
+      "acc": 0.63407774,
+      "epoch": 0.07661085743277524,
+      "grad_norm": 5.375,
+      "learning_rate": 7.661085743277524e-06,
+      "loss": 1.78521271,
+      "memory(GiB)": 58.14,
+      "step": 3020,
+      "train_speed(iter/s)": 0.449444
+    },
+    {
+      "acc": 0.6252676,
+      "epoch": 0.0767376966007103,
+      "grad_norm": 4.71875,
+      "learning_rate": 7.67376966007103e-06,
+      "loss": 1.81846733,
+      "memory(GiB)": 58.14,
+      "step": 3025,
+      "train_speed(iter/s)": 0.449833
+    },
+    {
+      "acc": 0.62281542,
+      "epoch": 0.07686453576864535,
+      "grad_norm": 5.375,
+      "learning_rate": 7.686453576864536e-06,
+      "loss": 1.79361,
+      "memory(GiB)": 58.14,
+      "step": 3030,
+      "train_speed(iter/s)": 0.450219
+    },
+    {
+      "acc": 0.60511341,
+      "epoch": 0.07699137493658041,
+      "grad_norm": 5.65625,
+      "learning_rate": 7.699137493658042e-06,
+      "loss": 1.8661087,
+      "memory(GiB)": 58.14,
+      "step": 3035,
+      "train_speed(iter/s)": 0.450606
+    },
+    {
+      "acc": 0.62472086,
+      "epoch": 0.07711821410451547,
+      "grad_norm": 4.9375,
+      "learning_rate": 7.711821410451548e-06,
+      "loss": 1.74990273,
+      "memory(GiB)": 58.14,
+      "step": 3040,
+      "train_speed(iter/s)": 0.45099
+    },
+    {
+      "acc": 0.61164966,
+      "epoch": 0.07724505327245053,
+      "grad_norm": 5.75,
+      "learning_rate": 7.724505327245054e-06,
+      "loss": 1.82849693,
+      "memory(GiB)": 58.14,
+      "step": 3045,
+      "train_speed(iter/s)": 0.451382
+    },
+    {
+      "acc": 0.61925054,
+      "epoch": 0.07737189244038559,
+      "grad_norm": 6.125,
+      "learning_rate": 7.73718924403856e-06,
+      "loss": 1.82250595,
+      "memory(GiB)": 58.14,
+      "step": 3050,
+      "train_speed(iter/s)": 0.451769
+    },
+    {
+      "acc": 0.62500401,
+      "epoch": 0.07749873160832065,
+      "grad_norm": 4.90625,
+      "learning_rate": 7.749873160832066e-06,
+      "loss": 1.84241638,
+      "memory(GiB)": 58.14,
+      "step": 3055,
+      "train_speed(iter/s)": 0.452156
+    },
+    {
+      "acc": 0.61435013,
+      "epoch": 0.0776255707762557,
+      "grad_norm": 4.6875,
+      "learning_rate": 7.76255707762557e-06,
+      "loss": 1.81692009,
+      "memory(GiB)": 58.14,
+      "step": 3060,
+      "train_speed(iter/s)": 0.452543
+    },
+    {
+      "acc": 0.63202238,
+      "epoch": 0.07775240994419076,
+      "grad_norm": 5.75,
+      "learning_rate": 7.775240994419078e-06,
+      "loss": 1.8022438,
+      "memory(GiB)": 58.14,
+      "step": 3065,
+      "train_speed(iter/s)": 0.452925
+    },
+    {
+      "acc": 0.61397858,
+      "epoch": 0.07787924911212582,
+      "grad_norm": 5.75,
+      "learning_rate": 7.787924911212584e-06,
+      "loss": 1.85419598,
+      "memory(GiB)": 58.14,
+      "step": 3070,
+      "train_speed(iter/s)": 0.453306
+    },
+    {
+      "acc": 0.61774077,
+      "epoch": 0.07800608828006088,
+      "grad_norm": 5.625,
+      "learning_rate": 7.800608828006088e-06,
+      "loss": 1.84221916,
+      "memory(GiB)": 58.14,
+      "step": 3075,
+      "train_speed(iter/s)": 0.453691
+    },
+    {
+      "acc": 0.6142952,
+      "epoch": 0.07813292744799594,
+      "grad_norm": 4.875,
+      "learning_rate": 7.813292744799594e-06,
+      "loss": 1.82860069,
+      "memory(GiB)": 58.14,
+      "step": 3080,
+      "train_speed(iter/s)": 0.454075
+    },
+    {
+      "acc": 0.60901523,
+      "epoch": 0.078259766615931,
+      "grad_norm": 5.46875,
+      "learning_rate": 7.8259766615931e-06,
+      "loss": 1.81847115,
+      "memory(GiB)": 58.14,
+      "step": 3085,
+      "train_speed(iter/s)": 0.454457
+    },
+    {
+      "acc": 0.60886526,
+      "epoch": 0.07838660578386605,
+      "grad_norm": 5.84375,
+      "learning_rate": 7.838660578386606e-06,
+      "loss": 1.89605694,
+      "memory(GiB)": 58.14,
+      "step": 3090,
+      "train_speed(iter/s)": 0.454838
+    },
+    {
+      "acc": 0.61970091,
+      "epoch": 0.07851344495180111,
+      "grad_norm": 4.625,
+      "learning_rate": 7.851344495180112e-06,
+      "loss": 1.84955826,
+      "memory(GiB)": 58.14,
+      "step": 3095,
+      "train_speed(iter/s)": 0.45522
+    },
+    {
+      "acc": 0.6121417,
+      "epoch": 0.07864028411973617,
+      "grad_norm": 4.9375,
+      "learning_rate": 7.864028411973618e-06,
+      "loss": 1.86377239,
+      "memory(GiB)": 58.14,
+      "step": 3100,
+      "train_speed(iter/s)": 0.455601
+    },
+    {
+      "epoch": 0.07864028411973617,
+      "eval_acc": 0.608449678047623,
+      "eval_loss": 1.8263449668884277,
+      "eval_runtime": 112.6212,
+      "eval_samples_per_second": 56.561,
+      "eval_steps_per_second": 28.281,
+      "step": 3100
+    },
+    {
+      "acc": 0.61682882,
+      "epoch": 0.07876712328767123,
+      "grad_norm": 5.4375,
+      "learning_rate": 7.876712328767124e-06,
+      "loss": 1.84462891,
+      "memory(GiB)": 58.14,
+      "step": 3105,
+      "train_speed(iter/s)": 0.448279
+    },
+    {
+      "acc": 0.61170282,
+      "epoch": 0.07889396245560629,
+      "grad_norm": 5.375,
+      "learning_rate": 7.88939624556063e-06,
+      "loss": 1.87310658,
+      "memory(GiB)": 58.14,
+      "step": 3110,
+      "train_speed(iter/s)": 0.448661
+    },
+    {
+      "acc": 0.6301981,
+      "epoch": 0.07902080162354135,
+      "grad_norm": 5.4375,
+      "learning_rate": 7.902080162354136e-06,
+      "loss": 1.75871811,
+      "memory(GiB)": 58.14,
+      "step": 3115,
+      "train_speed(iter/s)": 0.449049
+    },
+    {
+      "acc": 0.64542499,
+      "epoch": 0.0791476407914764,
+      "grad_norm": 5.9375,
+      "learning_rate": 7.91476407914764e-06,
+      "loss": 1.74482307,
+      "memory(GiB)": 58.14,
+      "step": 3120,
+      "train_speed(iter/s)": 0.449435
+    },
+    {
+      "acc": 0.62039104,
+      "epoch": 0.07927447995941146,
+      "grad_norm": 5.46875,
+      "learning_rate": 7.927447995941148e-06,
+      "loss": 1.81275291,
+      "memory(GiB)": 58.14,
+      "step": 3125,
+      "train_speed(iter/s)": 0.44982
+    },
+    {
+      "acc": 0.61505303,
+      "epoch": 0.07940131912734652,
+      "grad_norm": 5.4375,
+      "learning_rate": 7.940131912734654e-06,
+      "loss": 1.82998772,
+      "memory(GiB)": 58.14,
+      "step": 3130,
+      "train_speed(iter/s)": 0.450205
+    },
+    {
+      "acc": 0.63439422,
+      "epoch": 0.07952815829528158,
+      "grad_norm": 5.0,
+      "learning_rate": 7.952815829528158e-06,
+      "loss": 1.77613087,
+      "memory(GiB)": 58.14,
+      "step": 3135,
+      "train_speed(iter/s)": 0.450591
+    },
+    {
+      "acc": 0.62651486,
+      "epoch": 0.07965499746321664,
+      "grad_norm": 5.71875,
+      "learning_rate": 7.965499746321664e-06,
+      "loss": 1.82649231,
+      "memory(GiB)": 58.14,
+      "step": 3140,
+      "train_speed(iter/s)": 0.450972
+    },
+    {
+      "acc": 0.61029425,
+      "epoch": 0.0797818366311517,
+      "grad_norm": 5.1875,
+      "learning_rate": 7.978183663115172e-06,
+      "loss": 1.94225922,
+      "memory(GiB)": 58.14,
+      "step": 3145,
+      "train_speed(iter/s)": 0.451357
+    },
+    {
+      "acc": 0.6186645,
+      "epoch": 0.07990867579908675,
+      "grad_norm": 4.125,
+      "learning_rate": 7.990867579908676e-06,
+      "loss": 1.84380264,
+      "memory(GiB)": 58.14,
+      "step": 3150,
+      "train_speed(iter/s)": 0.451738
+    },
+    {
+      "acc": 0.60702405,
+      "epoch": 0.08003551496702181,
+      "grad_norm": 4.9375,
+      "learning_rate": 8.003551496702182e-06,
+      "loss": 1.88564758,
+      "memory(GiB)": 58.14,
+      "step": 3155,
+      "train_speed(iter/s)": 0.452119
+    },
+    {
+      "acc": 0.61457863,
+      "epoch": 0.08016235413495687,
+      "grad_norm": 5.15625,
+      "learning_rate": 8.016235413495688e-06,
+      "loss": 1.81395073,
+      "memory(GiB)": 58.14,
+      "step": 3160,
+      "train_speed(iter/s)": 0.452501
+    },
+    {
+      "acc": 0.60833502,
+      "epoch": 0.08028919330289193,
+      "grad_norm": 6.84375,
+      "learning_rate": 8.028919330289194e-06,
+      "loss": 1.92483559,
+      "memory(GiB)": 58.14,
+      "step": 3165,
+      "train_speed(iter/s)": 0.45288
+    },
+    {
+      "acc": 0.62526989,
+      "epoch": 0.08041603247082699,
+      "grad_norm": 4.6875,
+      "learning_rate": 8.0416032470827e-06,
+      "loss": 1.80583191,
+      "memory(GiB)": 58.14,
+      "step": 3170,
+      "train_speed(iter/s)": 0.453261
+    },
+    {
+      "acc": 0.61353626,
+      "epoch": 0.08054287163876205,
+      "grad_norm": 5.25,
+      "learning_rate": 8.054287163876206e-06,
+      "loss": 1.82396183,
+      "memory(GiB)": 58.14,
+      "step": 3175,
+      "train_speed(iter/s)": 0.453641
+    },
+    {
+      "acc": 0.61734285,
+      "epoch": 0.0806697108066971,
+      "grad_norm": 5.25,
+      "learning_rate": 8.066971080669712e-06,
+      "loss": 1.83472328,
+      "memory(GiB)": 58.14,
+      "step": 3180,
+      "train_speed(iter/s)": 0.45402
+    },
+    {
+      "acc": 0.60642791,
+      "epoch": 0.08079654997463216,
+      "grad_norm": 5.90625,
+      "learning_rate": 8.079654997463218e-06,
+      "loss": 1.91571655,
+      "memory(GiB)": 58.14,
+      "step": 3185,
+      "train_speed(iter/s)": 0.454401
+    },
+    {
+      "acc": 0.61522112,
+      "epoch": 0.08092338914256722,
+      "grad_norm": 5.75,
+      "learning_rate": 8.092338914256724e-06,
+      "loss": 1.8248661,
+      "memory(GiB)": 58.14,
+      "step": 3190,
+      "train_speed(iter/s)": 0.454778
+    },
+    {
+      "acc": 0.60942669,
+      "epoch": 0.08105022831050228,
+      "grad_norm": 6.15625,
+      "learning_rate": 8.105022831050228e-06,
+      "loss": 1.79037781,
+      "memory(GiB)": 58.14,
+      "step": 3195,
+      "train_speed(iter/s)": 0.455156
+    },
+    {
+      "acc": 0.62582579,
+      "epoch": 0.08117706747843734,
+      "grad_norm": 5.125,
+      "learning_rate": 8.117706747843734e-06,
+      "loss": 1.77895699,
+      "memory(GiB)": 58.14,
+      "step": 3200,
+      "train_speed(iter/s)": 0.45553
+    },
+    {
+      "epoch": 0.08117706747843734,
+      "eval_acc": 0.6095091359444069,
+      "eval_loss": 1.8175314664840698,
+      "eval_runtime": 112.5563,
+      "eval_samples_per_second": 56.594,
+      "eval_steps_per_second": 28.297,
+      "step": 3200
+    },
+    {
+      "acc": 0.61690254,
+      "epoch": 0.0813039066463724,
+      "grad_norm": 5.3125,
+      "learning_rate": 8.130390664637242e-06,
+      "loss": 1.8259449,
+      "memory(GiB)": 58.14,
+      "step": 3205,
+      "train_speed(iter/s)": 0.448439
+    },
+    {
+      "acc": 0.62860312,
+      "epoch": 0.08143074581430745,
+      "grad_norm": 5.28125,
+      "learning_rate": 8.143074581430746e-06,
+      "loss": 1.78546467,
+      "memory(GiB)": 58.14,
+      "step": 3210,
+      "train_speed(iter/s)": 0.448811
+    },
+    {
+      "acc": 0.6273778,
+      "epoch": 0.08155758498224251,
+      "grad_norm": 5.3125,
+      "learning_rate": 8.155758498224252e-06,
+      "loss": 1.82557812,
+      "memory(GiB)": 58.14,
+      "step": 3215,
+      "train_speed(iter/s)": 0.449186
+    },
+    {
+      "acc": 0.62210217,
+      "epoch": 0.08168442415017757,
+      "grad_norm": 6.15625,
+      "learning_rate": 8.168442415017758e-06,
+      "loss": 1.81140614,
+      "memory(GiB)": 58.14,
+      "step": 3220,
+      "train_speed(iter/s)": 0.449559
+    },
+    {
+      "acc": 0.60306826,
+      "epoch": 0.08181126331811263,
+      "grad_norm": 6.3125,
+      "learning_rate": 8.181126331811264e-06,
+      "loss": 1.9109745,
+      "memory(GiB)": 58.14,
+      "step": 3225,
+      "train_speed(iter/s)": 0.449934
+    },
+    {
+      "acc": 0.61548305,
+      "epoch": 0.08193810248604769,
+      "grad_norm": 4.75,
+      "learning_rate": 8.19381024860477e-06,
+      "loss": 1.80882435,
+      "memory(GiB)": 58.14,
+      "step": 3230,
+      "train_speed(iter/s)": 0.45031
+    },
+    {
+      "acc": 0.62371755,
+      "epoch": 0.08206494165398275,
+      "grad_norm": 5.15625,
+      "learning_rate": 8.206494165398276e-06,
+      "loss": 1.77641735,
+      "memory(GiB)": 58.14,
+      "step": 3235,
+      "train_speed(iter/s)": 0.450685
+    },
+    {
+      "acc": 0.61926298,
+      "epoch": 0.0821917808219178,
+      "grad_norm": 6.09375,
+      "learning_rate": 8.219178082191782e-06,
+      "loss": 1.84104881,
+      "memory(GiB)": 58.14,
+      "step": 3240,
+      "train_speed(iter/s)": 0.451057
+    },
+    {
+      "acc": 0.61810226,
+      "epoch": 0.08231861998985286,
+      "grad_norm": 5.125,
+      "learning_rate": 8.231861998985288e-06,
+      "loss": 1.79076538,
+      "memory(GiB)": 58.14,
+      "step": 3245,
+      "train_speed(iter/s)": 0.451426
+    },
+    {
+      "acc": 0.63153791,
+      "epoch": 0.08244545915778792,
+      "grad_norm": 5.09375,
+      "learning_rate": 8.244545915778794e-06,
+      "loss": 1.74150486,
+      "memory(GiB)": 58.14,
+      "step": 3250,
+      "train_speed(iter/s)": 0.451798
+    },
+    {
+      "acc": 0.61119537,
+      "epoch": 0.08257229832572298,
+      "grad_norm": 4.625,
+      "learning_rate": 8.2572298325723e-06,
+      "loss": 1.85210724,
+      "memory(GiB)": 58.14,
+      "step": 3255,
+      "train_speed(iter/s)": 0.452167
+    },
+    {
+      "acc": 0.62431269,
+      "epoch": 0.08269913749365804,
+      "grad_norm": 5.1875,
+      "learning_rate": 8.269913749365804e-06,
+      "loss": 1.76628704,
+      "memory(GiB)": 58.14,
+      "step": 3260,
+      "train_speed(iter/s)": 0.452535
+    },
+    {
+      "acc": 0.61237116,
+      "epoch": 0.0828259766615931,
+      "grad_norm": 5.625,
+      "learning_rate": 8.282597666159312e-06,
+      "loss": 1.79230824,
+      "memory(GiB)": 58.14,
+      "step": 3265,
+      "train_speed(iter/s)": 0.452907
+    },
+    {
+      "acc": 0.61545811,
+      "epoch": 0.08295281582952815,
+      "grad_norm": 5.71875,
+      "learning_rate": 8.295281582952816e-06,
+      "loss": 1.85704842,
+      "memory(GiB)": 58.14,
+      "step": 3270,
+      "train_speed(iter/s)": 0.453274
+    },
+    {
+      "acc": 0.61269817,
+      "epoch": 0.08307965499746321,
+      "grad_norm": 5.96875,
+      "learning_rate": 8.307965499746322e-06,
+      "loss": 1.81740627,
+      "memory(GiB)": 58.14,
+      "step": 3275,
+      "train_speed(iter/s)": 0.453639
+    },
+    {
+      "acc": 0.60666189,
+      "epoch": 0.08320649416539827,
+      "grad_norm": 4.78125,
+      "learning_rate": 8.320649416539828e-06,
+      "loss": 1.91259232,
+      "memory(GiB)": 58.14,
+      "step": 3280,
+      "train_speed(iter/s)": 0.454009
+    },
+    {
+      "acc": 0.62171803,
+      "epoch": 0.08333333333333333,
+      "grad_norm": 5.3125,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 1.76733837,
+      "memory(GiB)": 58.14,
+      "step": 3285,
+      "train_speed(iter/s)": 0.454377
+    },
+    {
+      "acc": 0.62376614,
+      "epoch": 0.08346017250126839,
+      "grad_norm": 6.03125,
+      "learning_rate": 8.34601725012684e-06,
+      "loss": 1.73643665,
+      "memory(GiB)": 58.14,
+      "step": 3290,
+      "train_speed(iter/s)": 0.454746
+    },
+    {
+      "acc": 0.61811113,
+      "epoch": 0.08358701166920345,
+      "grad_norm": 7.78125,
+      "learning_rate": 8.358701166920346e-06,
+      "loss": 1.86945801,
+      "memory(GiB)": 58.14,
+      "step": 3295,
+      "train_speed(iter/s)": 0.455114
+    },
+    {
+      "acc": 0.60208273,
+      "epoch": 0.0837138508371385,
+      "grad_norm": 4.96875,
+      "learning_rate": 8.371385083713852e-06,
+      "loss": 1.93450298,
+      "memory(GiB)": 58.14,
+      "step": 3300,
+      "train_speed(iter/s)": 0.45548
+    },
+    {
+      "epoch": 0.0837138508371385,
+      "eval_acc": 0.6107256743495467,
+      "eval_loss": 1.810210108757019,
+      "eval_runtime": 113.0769,
+      "eval_samples_per_second": 56.333,
+      "eval_steps_per_second": 28.167,
+      "step": 3300
+    },
+    {
+      "acc": 0.60897026,
+      "epoch": 0.08384069000507356,
+      "grad_norm": 5.84375,
+      "learning_rate": 8.384069000507358e-06,
+      "loss": 1.88332233,
+      "memory(GiB)": 58.14,
+      "step": 3305,
+      "train_speed(iter/s)": 0.448568
+    },
+    {
+      "acc": 0.6155386,
+      "epoch": 0.08396752917300862,
+      "grad_norm": 4.625,
+      "learning_rate": 8.396752917300864e-06,
+      "loss": 1.83776817,
+      "memory(GiB)": 58.14,
+      "step": 3310,
+      "train_speed(iter/s)": 0.448927
+    },
+    {
+      "acc": 0.60938406,
+      "epoch": 0.08409436834094368,
+      "grad_norm": 5.15625,
+      "learning_rate": 8.40943683409437e-06,
+      "loss": 1.83270493,
+      "memory(GiB)": 58.14,
+      "step": 3315,
+      "train_speed(iter/s)": 0.449285
+    },
+    {
+      "acc": 0.61576252,
+      "epoch": 0.08422120750887874,
+      "grad_norm": 5.375,
+      "learning_rate": 8.422120750887874e-06,
+      "loss": 1.86774483,
+      "memory(GiB)": 58.14,
+      "step": 3320,
+      "train_speed(iter/s)": 0.449638
+    },
+    {
+      "acc": 0.61662235,
+      "epoch": 0.0843480466768138,
+      "grad_norm": 4.96875,
+      "learning_rate": 8.434804667681381e-06,
+      "loss": 1.75339928,
+      "memory(GiB)": 58.14,
+      "step": 3325,
+      "train_speed(iter/s)": 0.449996
+    },
+    {
+      "acc": 0.62029095,
+      "epoch": 0.08447488584474885,
+      "grad_norm": 5.375,
+      "learning_rate": 8.447488584474887e-06,
+      "loss": 1.83997078,
+      "memory(GiB)": 58.14,
+      "step": 3330,
+      "train_speed(iter/s)": 0.450348
+    },
+    {
+      "acc": 0.61939445,
+      "epoch": 0.08460172501268391,
+      "grad_norm": 6.03125,
+      "learning_rate": 8.460172501268392e-06,
+      "loss": 1.85392971,
+      "memory(GiB)": 58.14,
+      "step": 3335,
+      "train_speed(iter/s)": 0.450698
+    },
+    {
+      "acc": 0.61963158,
+      "epoch": 0.08472856418061897,
+      "grad_norm": 4.75,
+      "learning_rate": 8.472856418061898e-06,
+      "loss": 1.80520058,
+      "memory(GiB)": 58.14,
+      "step": 3340,
+      "train_speed(iter/s)": 0.451046
+    },
+    {
+      "acc": 0.6401906,
+      "epoch": 0.08485540334855403,
+      "grad_norm": 5.25,
+      "learning_rate": 8.485540334855404e-06,
+      "loss": 1.76707306,
+      "memory(GiB)": 58.14,
+      "step": 3345,
+      "train_speed(iter/s)": 0.451396
+    },
+    {
+      "acc": 0.64308271,
+      "epoch": 0.08498224251648909,
+      "grad_norm": 4.21875,
+      "learning_rate": 8.49822425164891e-06,
+      "loss": 1.74596481,
+      "memory(GiB)": 58.14,
+      "step": 3350,
+      "train_speed(iter/s)": 0.451744
+    },
+    {
+      "acc": 0.61765594,
+      "epoch": 0.08510908168442415,
+      "grad_norm": 4.875,
+      "learning_rate": 8.510908168442416e-06,
+      "loss": 1.84585762,
+      "memory(GiB)": 58.14,
+      "step": 3355,
+      "train_speed(iter/s)": 0.452094
+    },
+    {
+      "acc": 0.60037155,
+      "epoch": 0.0852359208523592,
+      "grad_norm": 5.71875,
+      "learning_rate": 8.523592085235922e-06,
+      "loss": 1.88099785,
+      "memory(GiB)": 58.14,
+      "step": 3360,
+      "train_speed(iter/s)": 0.452447
+    },
+    {
+      "acc": 0.61336927,
+      "epoch": 0.08536276002029426,
+      "grad_norm": 5.3125,
+      "learning_rate": 8.536276002029428e-06,
+      "loss": 1.80283871,
+      "memory(GiB)": 58.14,
+      "step": 3365,
+      "train_speed(iter/s)": 0.452798
+    },
+    {
+      "acc": 0.61765428,
+      "epoch": 0.08548959918822932,
+      "grad_norm": 6.25,
+      "learning_rate": 8.548959918822933e-06,
+      "loss": 1.89463348,
+      "memory(GiB)": 58.14,
+      "step": 3370,
+      "train_speed(iter/s)": 0.453148
+    },
+    {
+      "acc": 0.61489816,
+      "epoch": 0.08561643835616438,
+      "grad_norm": 5.375,
+      "learning_rate": 8.56164383561644e-06,
+      "loss": 1.84810829,
+      "memory(GiB)": 58.14,
+      "step": 3375,
+      "train_speed(iter/s)": 0.4535
+    },
+    {
+      "acc": 0.63380384,
+      "epoch": 0.08574327752409944,
+      "grad_norm": 6.25,
+      "learning_rate": 8.574327752409944e-06,
+      "loss": 1.76909733,
+      "memory(GiB)": 58.14,
+      "step": 3380,
+      "train_speed(iter/s)": 0.453845
+    },
+    {
+      "acc": 0.61153407,
+      "epoch": 0.0858701166920345,
+      "grad_norm": 5.53125,
+      "learning_rate": 8.587011669203451e-06,
+      "loss": 1.83102589,
+      "memory(GiB)": 58.14,
+      "step": 3385,
+      "train_speed(iter/s)": 0.454192
+    },
+    {
+      "acc": 0.63582916,
+      "epoch": 0.08599695585996955,
+      "grad_norm": 6.15625,
+      "learning_rate": 8.599695585996957e-06,
+      "loss": 1.78380661,
+      "memory(GiB)": 58.14,
+      "step": 3390,
+      "train_speed(iter/s)": 0.454542
+    },
+    {
+      "acc": 0.61066709,
+      "epoch": 0.08612379502790461,
+      "grad_norm": 5.84375,
+      "learning_rate": 8.612379502790462e-06,
+      "loss": 1.89545879,
+      "memory(GiB)": 58.14,
+      "step": 3395,
+      "train_speed(iter/s)": 0.454887
+    },
+    {
+      "acc": 0.61927481,
+      "epoch": 0.08625063419583967,
+      "grad_norm": 5.5,
+      "learning_rate": 8.625063419583968e-06,
+      "loss": 1.82426186,
+      "memory(GiB)": 58.14,
+      "step": 3400,
+      "train_speed(iter/s)": 0.455232
+    },
+    {
+      "epoch": 0.08625063419583967,
+      "eval_acc": 0.6118954228160274,
+      "eval_loss": 1.8020211458206177,
+      "eval_runtime": 112.001,
+      "eval_samples_per_second": 56.875,
+      "eval_steps_per_second": 28.437,
+      "step": 3400
+    },
+    {
+      "acc": 0.62710462,
+      "epoch": 0.08637747336377473,
+      "grad_norm": 5.59375,
+      "learning_rate": 8.637747336377475e-06,
+      "loss": 1.81724014,
+      "memory(GiB)": 58.14,
+      "step": 3405,
+      "train_speed(iter/s)": 0.448591
+    },
+    {
+      "acc": 0.6170856,
+      "epoch": 0.08650431253170979,
+      "grad_norm": 6.03125,
+      "learning_rate": 8.65043125317098e-06,
+      "loss": 1.88748283,
+      "memory(GiB)": 58.14,
+      "step": 3410,
+      "train_speed(iter/s)": 0.448942
+    },
+    {
+      "acc": 0.60297766,
+      "epoch": 0.08663115169964485,
+      "grad_norm": 5.78125,
+      "learning_rate": 8.663115169964485e-06,
+      "loss": 1.81512585,
+      "memory(GiB)": 58.14,
+      "step": 3415,
+      "train_speed(iter/s)": 0.449292
+    },
+    {
+      "acc": 0.5959734,
+      "epoch": 0.0867579908675799,
+      "grad_norm": 6.34375,
+      "learning_rate": 8.675799086757991e-06,
+      "loss": 1.89495277,
+      "memory(GiB)": 58.14,
+      "step": 3420,
+      "train_speed(iter/s)": 0.449639
+    },
+    {
+      "acc": 0.62047443,
+      "epoch": 0.08688483003551496,
+      "grad_norm": 6.1875,
+      "learning_rate": 8.688483003551497e-06,
+      "loss": 1.8824234,
+      "memory(GiB)": 58.14,
+      "step": 3425,
+      "train_speed(iter/s)": 0.449985
+    },
+    {
+      "acc": 0.63176394,
+      "epoch": 0.08701166920345002,
+      "grad_norm": 5.15625,
+      "learning_rate": 8.701166920345003e-06,
+      "loss": 1.79829102,
+      "memory(GiB)": 58.14,
+      "step": 3430,
+      "train_speed(iter/s)": 0.450328
+    },
+    {
+      "acc": 0.61930971,
+      "epoch": 0.08713850837138508,
+      "grad_norm": 5.40625,
+      "learning_rate": 8.71385083713851e-06,
+      "loss": 1.84827385,
+      "memory(GiB)": 58.14,
+      "step": 3435,
+      "train_speed(iter/s)": 0.450677
+    },
+    {
+      "acc": 0.60883965,
+      "epoch": 0.08726534753932014,
+      "grad_norm": 5.8125,
+      "learning_rate": 8.726534753932014e-06,
+      "loss": 1.94455986,
+      "memory(GiB)": 58.14,
+      "step": 3440,
+      "train_speed(iter/s)": 0.451024
+    },
+    {
+      "acc": 0.61605301,
+      "epoch": 0.0873921867072552,
+      "grad_norm": 6.125,
+      "learning_rate": 8.739218670725521e-06,
+      "loss": 1.79549141,
+      "memory(GiB)": 58.14,
+      "step": 3445,
+      "train_speed(iter/s)": 0.451369
+    },
+    {
+      "acc": 0.61880531,
+      "epoch": 0.08751902587519025,
+      "grad_norm": 5.15625,
+      "learning_rate": 8.751902587519027e-06,
+      "loss": 1.80067139,
+      "memory(GiB)": 58.14,
+      "step": 3450,
+      "train_speed(iter/s)": 0.451715
+    },
+    {
+      "acc": 0.61545162,
+      "epoch": 0.08764586504312531,
+      "grad_norm": 5.875,
+      "learning_rate": 8.764586504312532e-06,
+      "loss": 1.89304962,
+      "memory(GiB)": 58.14,
+      "step": 3455,
+      "train_speed(iter/s)": 0.452057
+    },
+    {
+      "acc": 0.6373147,
+      "epoch": 0.08777270421106037,
+      "grad_norm": 5.0,
+      "learning_rate": 8.777270421106037e-06,
+      "loss": 1.84837685,
+      "memory(GiB)": 58.14,
+      "step": 3460,
+      "train_speed(iter/s)": 0.452396
+    },
+    {
+      "acc": 0.63052659,
+      "epoch": 0.08789954337899543,
+      "grad_norm": 5.15625,
+      "learning_rate": 8.789954337899545e-06,
+      "loss": 1.8142704,
+      "memory(GiB)": 58.14,
+      "step": 3465,
+      "train_speed(iter/s)": 0.452739
+    },
+    {
+      "acc": 0.61962991,
+      "epoch": 0.08802638254693049,
+      "grad_norm": 5.75,
+      "learning_rate": 8.80263825469305e-06,
+      "loss": 1.83392391,
+      "memory(GiB)": 58.14,
+      "step": 3470,
+      "train_speed(iter/s)": 0.453084
+    },
+    {
+      "acc": 0.63001647,
+      "epoch": 0.08815322171486555,
+      "grad_norm": 4.84375,
+      "learning_rate": 8.815322171486555e-06,
+      "loss": 1.74116135,
+      "memory(GiB)": 58.14,
+      "step": 3475,
+      "train_speed(iter/s)": 0.453425
+    },
+    {
+      "acc": 0.62627082,
+      "epoch": 0.0882800608828006,
+      "grad_norm": 5.9375,
+      "learning_rate": 8.828006088280061e-06,
+      "loss": 1.83807144,
+      "memory(GiB)": 58.14,
+      "step": 3480,
+      "train_speed(iter/s)": 0.453769
+    },
+    {
+      "acc": 0.624786,
+      "epoch": 0.08840690005073566,
+      "grad_norm": 5.90625,
+      "learning_rate": 8.840690005073567e-06,
+      "loss": 1.79691505,
+      "memory(GiB)": 58.14,
+      "step": 3485,
+      "train_speed(iter/s)": 0.45411
+    },
+    {
+      "acc": 0.61368771,
+      "epoch": 0.08853373921867072,
+      "grad_norm": 5.53125,
+      "learning_rate": 8.853373921867073e-06,
+      "loss": 1.81415997,
+      "memory(GiB)": 58.14,
+      "step": 3490,
+      "train_speed(iter/s)": 0.454451
+    },
+    {
+      "acc": 0.62553358,
+      "epoch": 0.08866057838660578,
+      "grad_norm": 5.0,
+      "learning_rate": 8.86605783866058e-06,
+      "loss": 1.83932266,
+      "memory(GiB)": 58.14,
+      "step": 3495,
+      "train_speed(iter/s)": 0.454793
+    },
+    {
+      "acc": 0.62242126,
+      "epoch": 0.08878741755454084,
+      "grad_norm": 4.4375,
+      "learning_rate": 8.878741755454085e-06,
+      "loss": 1.75874329,
+      "memory(GiB)": 58.14,
+      "step": 3500,
+      "train_speed(iter/s)": 0.455133
+    },
+    {
+      "epoch": 0.08878741755454084,
+      "eval_acc": 0.6133417332413689,
+      "eval_loss": 1.7945423126220703,
+      "eval_runtime": 112.4994,
+      "eval_samples_per_second": 56.623,
+      "eval_steps_per_second": 28.311,
+      "step": 3500
+    },
+    {
+      "acc": 0.61936059,
+      "epoch": 0.0889142567224759,
+      "grad_norm": 4.625,
+      "learning_rate": 8.891425672247591e-06,
+      "loss": 1.76236572,
+      "memory(GiB)": 58.14,
+      "step": 3505,
+      "train_speed(iter/s)": 0.448653
+    },
+    {
+      "acc": 0.62370062,
+      "epoch": 0.08904109589041095,
+      "grad_norm": 4.78125,
+      "learning_rate": 8.904109589041097e-06,
+      "loss": 1.82231445,
+      "memory(GiB)": 58.14,
+      "step": 3510,
+      "train_speed(iter/s)": 0.448988
+    },
+    {
+      "acc": 0.61198301,
+      "epoch": 0.08916793505834601,
+      "grad_norm": 6.9375,
+      "learning_rate": 8.916793505834601e-06,
+      "loss": 1.85827618,
+      "memory(GiB)": 58.14,
+      "step": 3515,
+      "train_speed(iter/s)": 0.449327
+    },
+    {
+      "acc": 0.62784176,
+      "epoch": 0.08929477422628107,
+      "grad_norm": 4.96875,
+      "learning_rate": 8.929477422628107e-06,
+      "loss": 1.83762989,
+      "memory(GiB)": 58.14,
+      "step": 3520,
+      "train_speed(iter/s)": 0.449666
+    },
+    {
+      "acc": 0.62667394,
+      "epoch": 0.08942161339421613,
+      "grad_norm": 6.28125,
+      "learning_rate": 8.942161339421615e-06,
+      "loss": 1.81751804,
+      "memory(GiB)": 58.14,
+      "step": 3525,
+      "train_speed(iter/s)": 0.450001
+    },
+    {
+      "acc": 0.62553697,
+      "epoch": 0.08954845256215119,
+      "grad_norm": 6.90625,
+      "learning_rate": 8.95484525621512e-06,
+      "loss": 1.82806931,
+      "memory(GiB)": 58.14,
+      "step": 3530,
+      "train_speed(iter/s)": 0.450336
+    },
+    {
+      "acc": 0.61312857,
+      "epoch": 0.08967529173008625,
+      "grad_norm": 5.21875,
+      "learning_rate": 8.967529173008625e-06,
+      "loss": 1.8523407,
+      "memory(GiB)": 58.14,
+      "step": 3535,
+      "train_speed(iter/s)": 0.450671
+    },
+    {
+      "acc": 0.62588091,
+      "epoch": 0.0898021308980213,
+      "grad_norm": 4.59375,
+      "learning_rate": 8.980213089802131e-06,
+      "loss": 1.75777435,
+      "memory(GiB)": 58.14,
+      "step": 3540,
+      "train_speed(iter/s)": 0.451008
+    },
+    {
+      "acc": 0.62678781,
+      "epoch": 0.08992897006595636,
+      "grad_norm": 5.28125,
+      "learning_rate": 8.992897006595637e-06,
+      "loss": 1.73664169,
+      "memory(GiB)": 58.14,
+      "step": 3545,
+      "train_speed(iter/s)": 0.451343
+    },
+    {
+      "acc": 0.62679572,
+      "epoch": 0.09005580923389142,
+      "grad_norm": 5.0,
+      "learning_rate": 9.005580923389143e-06,
+      "loss": 1.77318115,
+      "memory(GiB)": 58.14,
+      "step": 3550,
+      "train_speed(iter/s)": 0.451676
+    },
+    {
+      "acc": 0.60809536,
+      "epoch": 0.09018264840182648,
+      "grad_norm": 4.625,
+      "learning_rate": 9.01826484018265e-06,
+      "loss": 1.81697884,
+      "memory(GiB)": 58.14,
+      "step": 3555,
+      "train_speed(iter/s)": 0.452009
+    },
+    {
+      "acc": 0.61045055,
+      "epoch": 0.09030948756976154,
+      "grad_norm": 6.40625,
+      "learning_rate": 9.030948756976155e-06,
+      "loss": 1.90286446,
+      "memory(GiB)": 58.14,
+      "step": 3560,
+      "train_speed(iter/s)": 0.452341
+    },
+    {
+      "acc": 0.62537527,
+      "epoch": 0.0904363267376966,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.043632673769661e-06,
+      "loss": 1.82007408,
+      "memory(GiB)": 58.14,
+      "step": 3565,
+      "train_speed(iter/s)": 0.452674
+    },
+    {
+      "acc": 0.62571921,
+      "epoch": 0.09056316590563165,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.056316590563167e-06,
+      "loss": 1.77356339,
+      "memory(GiB)": 58.14,
+      "step": 3570,
+      "train_speed(iter/s)": 0.453005
+    },
+    {
+      "acc": 0.62236099,
+      "epoch": 0.09069000507356671,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.069000507356673e-06,
+      "loss": 1.77000313,
+      "memory(GiB)": 58.14,
+      "step": 3575,
+      "train_speed(iter/s)": 0.453336
+    },
+    {
+      "acc": 0.62174726,
+      "epoch": 0.09081684424150177,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.081684424150177e-06,
+      "loss": 1.79823151,
+      "memory(GiB)": 58.14,
+      "step": 3580,
+      "train_speed(iter/s)": 0.45367
+    },
+    {
+      "acc": 0.61999578,
+      "epoch": 0.09094368340943683,
+      "grad_norm": 5.0,
+      "learning_rate": 9.094368340943685e-06,
+      "loss": 1.76183739,
+      "memory(GiB)": 58.14,
+      "step": 3585,
+      "train_speed(iter/s)": 0.454002
+    },
+    {
+      "acc": 0.62854447,
+      "epoch": 0.09107052257737189,
+      "grad_norm": 6.0,
+      "learning_rate": 9.10705225773719e-06,
+      "loss": 1.72111435,
+      "memory(GiB)": 58.14,
+      "step": 3590,
+      "train_speed(iter/s)": 0.454334
+    },
+    {
+      "acc": 0.62514219,
+      "epoch": 0.09119736174530695,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.119736174530695e-06,
+      "loss": 1.85423927,
+      "memory(GiB)": 58.14,
+      "step": 3595,
+      "train_speed(iter/s)": 0.454667
+    },
+    {
+      "acc": 0.630972,
+      "epoch": 0.091324200913242,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.132420091324201e-06,
+      "loss": 1.78647766,
+      "memory(GiB)": 58.14,
+      "step": 3600,
+      "train_speed(iter/s)": 0.454995
+    },
+    {
+      "epoch": 0.091324200913242,
+      "eval_acc": 0.6143890758861784,
+      "eval_loss": 1.7867289781570435,
+      "eval_runtime": 112.9582,
+      "eval_samples_per_second": 56.393,
+      "eval_steps_per_second": 28.196,
+      "step": 3600
+    },
+    {
+      "acc": 0.63963957,
+      "epoch": 0.09145104008117706,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.145104008117707e-06,
+      "loss": 1.71173744,
+      "memory(GiB)": 58.14,
+      "step": 3605,
+      "train_speed(iter/s)": 0.448666
+    },
+    {
+      "acc": 0.6186388,
+      "epoch": 0.09157787924911212,
+      "grad_norm": 4.34375,
+      "learning_rate": 9.157787924911213e-06,
+      "loss": 1.83856735,
+      "memory(GiB)": 58.14,
+      "step": 3610,
+      "train_speed(iter/s)": 0.448993
+    },
+    {
+      "acc": 0.6158443,
+      "epoch": 0.09170471841704718,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.170471841704719e-06,
+      "loss": 1.84079876,
+      "memory(GiB)": 58.14,
+      "step": 3615,
+      "train_speed(iter/s)": 0.449316
+    },
+    {
+      "acc": 0.60763006,
+      "epoch": 0.09183155758498224,
+      "grad_norm": 6.40625,
+      "learning_rate": 9.183155758498225e-06,
+      "loss": 1.85199814,
+      "memory(GiB)": 58.14,
+      "step": 3620,
+      "train_speed(iter/s)": 0.449642
+    },
+    {
+      "acc": 0.61157689,
+      "epoch": 0.0919583967529173,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.195839675291731e-06,
+      "loss": 1.84833813,
+      "memory(GiB)": 58.14,
+      "step": 3625,
+      "train_speed(iter/s)": 0.449965
+    },
+    {
+      "acc": 0.62855687,
+      "epoch": 0.09208523592085235,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.208523592085237e-06,
+      "loss": 1.79317932,
+      "memory(GiB)": 58.14,
+      "step": 3630,
+      "train_speed(iter/s)": 0.45029
+    },
+    {
+      "acc": 0.63908348,
+      "epoch": 0.09221207508878741,
+      "grad_norm": 5.9375,
+      "learning_rate": 9.221207508878743e-06,
+      "loss": 1.76104279,
+      "memory(GiB)": 58.14,
+      "step": 3635,
+      "train_speed(iter/s)": 0.450614
+    },
+    {
+      "acc": 0.6186429,
+      "epoch": 0.09233891425672247,
+      "grad_norm": 5.71875,
+      "learning_rate": 9.233891425672247e-06,
+      "loss": 1.82644615,
+      "memory(GiB)": 58.14,
+      "step": 3640,
+      "train_speed(iter/s)": 0.450938
+    },
+    {
+      "acc": 0.62932568,
+      "epoch": 0.09246575342465753,
+      "grad_norm": 6.0,
+      "learning_rate": 9.246575342465755e-06,
+      "loss": 1.80244827,
+      "memory(GiB)": 58.14,
+      "step": 3645,
+      "train_speed(iter/s)": 0.45126
+    },
+    {
+      "acc": 0.6201941,
+      "epoch": 0.09259259259259259,
+      "grad_norm": 5.75,
+      "learning_rate": 9.25925925925926e-06,
+      "loss": 1.85186386,
+      "memory(GiB)": 58.14,
+      "step": 3650,
+      "train_speed(iter/s)": 0.451579
+    },
+    {
+      "acc": 0.62032866,
+      "epoch": 0.09271943176052765,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.271943176052765e-06,
+      "loss": 1.78758621,
+      "memory(GiB)": 58.14,
+      "step": 3655,
+      "train_speed(iter/s)": 0.4519
+    },
+    {
+      "acc": 0.64322929,
+      "epoch": 0.0928462709284627,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.284627092846271e-06,
+      "loss": 1.77593269,
+      "memory(GiB)": 58.14,
+      "step": 3660,
+      "train_speed(iter/s)": 0.452226
+    },
+    {
+      "acc": 0.63530312,
+      "epoch": 0.09297311009639776,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.297311009639777e-06,
+      "loss": 1.83622093,
+      "memory(GiB)": 58.14,
+      "step": 3665,
+      "train_speed(iter/s)": 0.45255
+    },
+    {
+      "acc": 0.61935596,
+      "epoch": 0.09309994926433282,
+      "grad_norm": 5.625,
+      "learning_rate": 9.309994926433283e-06,
+      "loss": 1.88022728,
+      "memory(GiB)": 58.14,
+      "step": 3670,
+      "train_speed(iter/s)": 0.452872
+    },
+    {
+      "acc": 0.60928097,
+      "epoch": 0.09322678843226788,
+      "grad_norm": 6.0625,
+      "learning_rate": 9.322678843226789e-06,
+      "loss": 1.8983181,
+      "memory(GiB)": 58.14,
+      "step": 3675,
+      "train_speed(iter/s)": 0.453194
+    },
+    {
+      "acc": 0.61711197,
+      "epoch": 0.09335362760020294,
+      "grad_norm": 7.65625,
+      "learning_rate": 9.335362760020295e-06,
+      "loss": 1.86148987,
+      "memory(GiB)": 58.14,
+      "step": 3680,
+      "train_speed(iter/s)": 0.453516
+    },
+    {
+      "acc": 0.62589025,
+      "epoch": 0.093480466768138,
+      "grad_norm": 5.625,
+      "learning_rate": 9.348046676813801e-06,
+      "loss": 1.75282478,
+      "memory(GiB)": 58.14,
+      "step": 3685,
+      "train_speed(iter/s)": 0.453835
+    },
+    {
+      "acc": 0.61987696,
+      "epoch": 0.09360730593607305,
+      "grad_norm": 4.28125,
+      "learning_rate": 9.360730593607307e-06,
+      "loss": 1.81348324,
+      "memory(GiB)": 58.14,
+      "step": 3690,
+      "train_speed(iter/s)": 0.454153
+    },
+    {
+      "acc": 0.6352385,
+      "epoch": 0.09373414510400811,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.373414510400813e-06,
+      "loss": 1.74209366,
+      "memory(GiB)": 58.14,
+      "step": 3695,
+      "train_speed(iter/s)": 0.45447
+    },
+    {
+      "acc": 0.60674095,
+      "epoch": 0.09386098427194317,
+      "grad_norm": 7.28125,
+      "learning_rate": 9.386098427194317e-06,
+      "loss": 1.90820541,
+      "memory(GiB)": 58.14,
+      "step": 3700,
+      "train_speed(iter/s)": 0.454791
+    },
+    {
+      "epoch": 0.09386098427194317,
+      "eval_acc": 0.6154209611405381,
+      "eval_loss": 1.7795366048812866,
+      "eval_runtime": 113.7704,
+      "eval_samples_per_second": 55.99,
+      "eval_steps_per_second": 27.995,
+      "step": 3700
+    },
+    {
+      "acc": 0.61215563,
+      "epoch": 0.09398782343987823,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.398782343987825e-06,
+      "loss": 1.88767815,
+      "memory(GiB)": 58.14,
+      "step": 3705,
+      "train_speed(iter/s)": 0.448589
+    },
+    {
+      "acc": 0.61937075,
+      "epoch": 0.09411466260781329,
+      "grad_norm": 5.71875,
+      "learning_rate": 9.41146626078133e-06,
+      "loss": 1.75435829,
+      "memory(GiB)": 58.14,
+      "step": 3710,
+      "train_speed(iter/s)": 0.448905
+    },
+    {
+      "acc": 0.63805113,
+      "epoch": 0.09424150177574835,
+      "grad_norm": 6.5,
+      "learning_rate": 9.424150177574835e-06,
+      "loss": 1.80361481,
+      "memory(GiB)": 58.14,
+      "step": 3715,
+      "train_speed(iter/s)": 0.449224
+    },
+    {
+      "acc": 0.61011209,
+      "epoch": 0.0943683409436834,
+      "grad_norm": 6.875,
+      "learning_rate": 9.436834094368341e-06,
+      "loss": 1.84064255,
+      "memory(GiB)": 58.14,
+      "step": 3720,
+      "train_speed(iter/s)": 0.449537
+    },
+    {
+      "acc": 0.63848524,
+      "epoch": 0.09449518011161846,
+      "grad_norm": 6.28125,
+      "learning_rate": 9.449518011161849e-06,
+      "loss": 1.72705383,
+      "memory(GiB)": 58.14,
+      "step": 3725,
+      "train_speed(iter/s)": 0.449849
+    },
+    {
+      "acc": 0.63795338,
+      "epoch": 0.09462201927955352,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.462201927955353e-06,
+      "loss": 1.72041512,
+      "memory(GiB)": 58.14,
+      "step": 3730,
+      "train_speed(iter/s)": 0.450166
+    },
+    {
+      "acc": 0.61618023,
+      "epoch": 0.09474885844748858,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.474885844748859e-06,
+      "loss": 1.80995827,
+      "memory(GiB)": 58.14,
+      "step": 3735,
+      "train_speed(iter/s)": 0.450481
+    },
+    {
+      "acc": 0.61782494,
+      "epoch": 0.09487569761542364,
+      "grad_norm": 4.875,
+      "learning_rate": 9.487569761542365e-06,
+      "loss": 1.78222961,
+      "memory(GiB)": 58.14,
+      "step": 3740,
+      "train_speed(iter/s)": 0.450794
+    },
+    {
+      "acc": 0.63476105,
+      "epoch": 0.0950025367833587,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.50025367833587e-06,
+      "loss": 1.77090759,
+      "memory(GiB)": 58.14,
+      "step": 3745,
+      "train_speed(iter/s)": 0.451104
+    },
+    {
+      "acc": 0.61616001,
+      "epoch": 0.09512937595129375,
+      "grad_norm": 4.875,
+      "learning_rate": 9.512937595129377e-06,
+      "loss": 1.83497086,
+      "memory(GiB)": 58.14,
+      "step": 3750,
+      "train_speed(iter/s)": 0.451417
+    },
+    {
+      "acc": 0.62591643,
+      "epoch": 0.09525621511922881,
+      "grad_norm": 6.9375,
+      "learning_rate": 9.525621511922883e-06,
+      "loss": 1.85297222,
+      "memory(GiB)": 58.14,
+      "step": 3755,
+      "train_speed(iter/s)": 0.451727
+    },
+    {
+      "acc": 0.61138306,
+      "epoch": 0.09538305428716387,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.538305428716389e-06,
+      "loss": 1.83282948,
+      "memory(GiB)": 58.14,
+      "step": 3760,
+      "train_speed(iter/s)": 0.45204
+    },
+    {
+      "acc": 0.62786837,
+      "epoch": 0.09550989345509893,
+      "grad_norm": 5.71875,
+      "learning_rate": 9.550989345509895e-06,
+      "loss": 1.83867035,
+      "memory(GiB)": 58.14,
+      "step": 3765,
+      "train_speed(iter/s)": 0.452352
+    },
+    {
+      "acc": 0.61680865,
+      "epoch": 0.09563673262303399,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.5636732623034e-06,
+      "loss": 1.82690926,
+      "memory(GiB)": 58.14,
+      "step": 3770,
+      "train_speed(iter/s)": 0.452663
+    },
+    {
+      "acc": 0.62666397,
+      "epoch": 0.09576357179096905,
+      "grad_norm": 5.375,
+      "learning_rate": 9.576357179096905e-06,
+      "loss": 1.76569366,
+      "memory(GiB)": 58.14,
+      "step": 3775,
+      "train_speed(iter/s)": 0.45297
+    },
+    {
+      "acc": 0.61075048,
+      "epoch": 0.0958904109589041,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.589041095890411e-06,
+      "loss": 1.83794975,
+      "memory(GiB)": 58.14,
+      "step": 3780,
+      "train_speed(iter/s)": 0.453277
+    },
+    {
+      "acc": 0.60944796,
+      "epoch": 0.09601725012683916,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.601725012683919e-06,
+      "loss": 1.8591301,
+      "memory(GiB)": 58.14,
+      "step": 3785,
+      "train_speed(iter/s)": 0.453588
+    },
+    {
+      "acc": 0.62628341,
+      "epoch": 0.09614408929477422,
+      "grad_norm": 5.125,
+      "learning_rate": 9.614408929477423e-06,
+      "loss": 1.82615585,
+      "memory(GiB)": 58.14,
+      "step": 3790,
+      "train_speed(iter/s)": 0.453897
+    },
+    {
+      "acc": 0.61339693,
+      "epoch": 0.09627092846270928,
+      "grad_norm": 4.3125,
+      "learning_rate": 9.627092846270929e-06,
+      "loss": 1.8399025,
+      "memory(GiB)": 58.14,
+      "step": 3795,
+      "train_speed(iter/s)": 0.454203
+    },
+    {
+      "acc": 0.60255346,
+      "epoch": 0.09639776763064434,
+      "grad_norm": 5.78125,
+      "learning_rate": 9.639776763064435e-06,
+      "loss": 1.85498562,
+      "memory(GiB)": 58.14,
+      "step": 3800,
+      "train_speed(iter/s)": 0.454516
+    },
+    {
+      "epoch": 0.09639776763064434,
+      "eval_acc": 0.6165802654242823,
+      "eval_loss": 1.772341251373291,
+      "eval_runtime": 112.1189,
+      "eval_samples_per_second": 56.815,
+      "eval_steps_per_second": 28.407,
+      "step": 3800
+    },
+    {
+      "acc": 0.62302971,
+      "epoch": 0.0965246067985794,
+      "grad_norm": 4.3125,
+      "learning_rate": 9.65246067985794e-06,
+      "loss": 1.82755051,
+      "memory(GiB)": 58.14,
+      "step": 3805,
+      "train_speed(iter/s)": 0.448577
+    },
+    {
+      "acc": 0.62357435,
+      "epoch": 0.09665144596651445,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.665144596651447e-06,
+      "loss": 1.77882996,
+      "memory(GiB)": 58.14,
+      "step": 3810,
+      "train_speed(iter/s)": 0.448886
+    },
+    {
+      "acc": 0.58213558,
+      "epoch": 0.09677828513444951,
+      "grad_norm": 7.25,
+      "learning_rate": 9.677828513444953e-06,
+      "loss": 1.87296791,
+      "memory(GiB)": 58.14,
+      "step": 3815,
+      "train_speed(iter/s)": 0.449197
+    },
+    {
+      "acc": 0.60783415,
+      "epoch": 0.09690512430238457,
+      "grad_norm": 6.1875,
+      "learning_rate": 9.690512430238459e-06,
+      "loss": 1.90851517,
+      "memory(GiB)": 58.14,
+      "step": 3820,
+      "train_speed(iter/s)": 0.449503
+    },
+    {
+      "acc": 0.64452748,
+      "epoch": 0.09703196347031963,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.703196347031965e-06,
+      "loss": 1.70827713,
+      "memory(GiB)": 58.14,
+      "step": 3825,
+      "train_speed(iter/s)": 0.449808
+    },
+    {
+      "acc": 0.63953352,
+      "epoch": 0.09715880263825469,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.71588026382547e-06,
+      "loss": 1.73099289,
+      "memory(GiB)": 58.14,
+      "step": 3830,
+      "train_speed(iter/s)": 0.450112
+    },
+    {
+      "acc": 0.60430994,
+      "epoch": 0.09728564180618975,
+      "grad_norm": 5.25,
+      "learning_rate": 9.728564180618977e-06,
+      "loss": 1.86597404,
+      "memory(GiB)": 58.14,
+      "step": 3835,
+      "train_speed(iter/s)": 0.45042
+    },
+    {
+      "acc": 0.61606503,
+      "epoch": 0.0974124809741248,
+      "grad_norm": 5.125,
+      "learning_rate": 9.74124809741248e-06,
+      "loss": 1.85424938,
+      "memory(GiB)": 58.14,
+      "step": 3840,
+      "train_speed(iter/s)": 0.450728
+    },
+    {
+      "acc": 0.61780777,
+      "epoch": 0.09753932014205986,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.753932014205988e-06,
+      "loss": 1.8107111,
+      "memory(GiB)": 58.14,
+      "step": 3845,
+      "train_speed(iter/s)": 0.451034
+    },
+    {
+      "acc": 0.63499184,
+      "epoch": 0.09766615930999492,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.766615930999493e-06,
+      "loss": 1.7432745,
+      "memory(GiB)": 58.14,
+      "step": 3850,
+      "train_speed(iter/s)": 0.45134
+    },
+    {
+      "acc": 0.63544383,
+      "epoch": 0.09779299847792998,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.779299847792999e-06,
+      "loss": 1.72224121,
+      "memory(GiB)": 58.14,
+      "step": 3855,
+      "train_speed(iter/s)": 0.451643
+    },
+    {
+      "acc": 0.62918215,
+      "epoch": 0.09791983764586504,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.791983764586505e-06,
+      "loss": 1.72505569,
+      "memory(GiB)": 58.14,
+      "step": 3860,
+      "train_speed(iter/s)": 0.451946
+    },
+    {
+      "acc": 0.62854624,
+      "epoch": 0.0980466768138001,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.80466768138001e-06,
+      "loss": 1.82730312,
+      "memory(GiB)": 58.14,
+      "step": 3865,
+      "train_speed(iter/s)": 0.452251
+    },
+    {
+      "acc": 0.61791906,
+      "epoch": 0.09817351598173515,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.817351598173517e-06,
+      "loss": 1.85250893,
+      "memory(GiB)": 58.14,
+      "step": 3870,
+      "train_speed(iter/s)": 0.452555
+    },
+    {
+      "acc": 0.62267046,
+      "epoch": 0.09830035514967021,
+      "grad_norm": 4.59375,
+      "learning_rate": 9.830035514967023e-06,
+      "loss": 1.83560543,
+      "memory(GiB)": 58.14,
+      "step": 3875,
+      "train_speed(iter/s)": 0.452858
+    },
+    {
+      "acc": 0.61110196,
+      "epoch": 0.09842719431760527,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.842719431760529e-06,
+      "loss": 1.89259396,
+      "memory(GiB)": 58.14,
+      "step": 3880,
+      "train_speed(iter/s)": 0.453162
+    },
+    {
+      "acc": 0.62783184,
+      "epoch": 0.09855403348554033,
+      "grad_norm": 6.59375,
+      "learning_rate": 9.855403348554034e-06,
+      "loss": 1.77797241,
+      "memory(GiB)": 58.14,
+      "step": 3885,
+      "train_speed(iter/s)": 0.453466
+    },
+    {
+      "acc": 0.59533892,
+      "epoch": 0.09868087265347539,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.86808726534754e-06,
+      "loss": 1.84901543,
+      "memory(GiB)": 58.14,
+      "step": 3890,
+      "train_speed(iter/s)": 0.453772
+    },
+    {
+      "acc": 0.62068543,
+      "epoch": 0.09880771182141045,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.880771182141046e-06,
+      "loss": 1.88023758,
+      "memory(GiB)": 58.14,
+      "step": 3895,
+      "train_speed(iter/s)": 0.454073
+    },
+    {
+      "acc": 0.63935137,
+      "epoch": 0.0989345509893455,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.89345509893455e-06,
+      "loss": 1.77827415,
+      "memory(GiB)": 58.14,
+      "step": 3900,
+      "train_speed(iter/s)": 0.454376
+    },
+    {
+      "epoch": 0.0989345509893455,
+      "eval_acc": 0.617520659637871,
+      "eval_loss": 1.765673041343689,
+      "eval_runtime": 113.4872,
+      "eval_samples_per_second": 56.13,
+      "eval_steps_per_second": 28.065,
+      "step": 3900
+    },
+    {
+      "acc": 0.63380542,
+      "epoch": 0.09906139015728056,
+      "grad_norm": 5.6875,
+      "learning_rate": 9.906139015728058e-06,
+      "loss": 1.78636627,
+      "memory(GiB)": 58.14,
+      "step": 3905,
+      "train_speed(iter/s)": 0.448521
+    },
+    {
+      "acc": 0.61196938,
+      "epoch": 0.09918822932521562,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.918822932521563e-06,
+      "loss": 1.84834785,
+      "memory(GiB)": 58.14,
+      "step": 3910,
+      "train_speed(iter/s)": 0.44882
+    },
+    {
+      "acc": 0.62668991,
+      "epoch": 0.09931506849315068,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.931506849315069e-06,
+      "loss": 1.82334385,
+      "memory(GiB)": 58.14,
+      "step": 3915,
+      "train_speed(iter/s)": 0.449121
+    },
+    {
+      "acc": 0.62209506,
+      "epoch": 0.09944190766108574,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.944190766108575e-06,
+      "loss": 1.8567482,
+      "memory(GiB)": 58.14,
+      "step": 3920,
+      "train_speed(iter/s)": 0.449421
+    },
+    {
+      "acc": 0.63411107,
+      "epoch": 0.0995687468290208,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.95687468290208e-06,
+      "loss": 1.70525742,
+      "memory(GiB)": 58.14,
+      "step": 3925,
+      "train_speed(iter/s)": 0.449723
+    },
+    {
+      "acc": 0.6268219,
+      "epoch": 0.09969558599695585,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.969558599695586e-06,
+      "loss": 1.79684181,
+      "memory(GiB)": 58.14,
+      "step": 3930,
+      "train_speed(iter/s)": 0.450022
+    },
+    {
+      "acc": 0.61677246,
+      "epoch": 0.09982242516489091,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.982242516489092e-06,
+      "loss": 1.82491226,
+      "memory(GiB)": 58.14,
+      "step": 3935,
+      "train_speed(iter/s)": 0.450321
+    },
+    {
+      "acc": 0.63249168,
+      "epoch": 0.09994926433282597,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.994926433282598e-06,
+      "loss": 1.74161472,
+      "memory(GiB)": 58.14,
+      "step": 3940,
+      "train_speed(iter/s)": 0.450622
+    },
+    {
+      "acc": 0.6476191,
+      "epoch": 0.10007610350076103,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.999999960413982e-06,
+      "loss": 1.72309265,
+      "memory(GiB)": 58.14,
+      "step": 3945,
+      "train_speed(iter/s)": 0.450921
+    },
+    {
+      "acc": 0.61407857,
+      "epoch": 0.10020294266869609,
+      "grad_norm": 9.1875,
+      "learning_rate": 9.99999971849943e-06,
+      "loss": 1.84395828,
+      "memory(GiB)": 58.14,
+      "step": 3950,
+      "train_speed(iter/s)": 0.451221
+    },
+    {
+      "acc": 0.62937422,
+      "epoch": 0.10032978183663115,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.999999256662563e-06,
+      "loss": 1.8419838,
+      "memory(GiB)": 58.14,
+      "step": 3955,
+      "train_speed(iter/s)": 0.45152
+    },
+    {
+      "acc": 0.64251051,
+      "epoch": 0.1004566210045662,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.999998574903408e-06,
+      "loss": 1.70181484,
+      "memory(GiB)": 58.14,
+      "step": 3960,
+      "train_speed(iter/s)": 0.451819
+    },
+    {
+      "acc": 0.62504053,
+      "epoch": 0.10058346017250126,
+      "grad_norm": 5.875,
+      "learning_rate": 9.99999767322199e-06,
+      "loss": 1.79243317,
+      "memory(GiB)": 58.14,
+      "step": 3965,
+      "train_speed(iter/s)": 0.452117
+    },
+    {
+      "acc": 0.62244406,
+      "epoch": 0.10071029934043632,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.999996551618353e-06,
+      "loss": 1.75773678,
+      "memory(GiB)": 58.14,
+      "step": 3970,
+      "train_speed(iter/s)": 0.452414
+    },
+    {
+      "acc": 0.60930867,
+      "epoch": 0.10083713850837138,
+      "grad_norm": 5.84375,
+      "learning_rate": 9.999995210092545e-06,
+      "loss": 1.82529449,
+      "memory(GiB)": 58.14,
+      "step": 3975,
+      "train_speed(iter/s)": 0.452709
+    },
+    {
+      "acc": 0.61774755,
+      "epoch": 0.10096397767630644,
+      "grad_norm": 6.625,
+      "learning_rate": 9.999993648644622e-06,
+      "loss": 1.78912544,
+      "memory(GiB)": 58.14,
+      "step": 3980,
+      "train_speed(iter/s)": 0.453007
+    },
+    {
+      "acc": 0.62640629,
+      "epoch": 0.1010908168442415,
+      "grad_norm": 6.0625,
+      "learning_rate": 9.999991867274656e-06,
+      "loss": 1.80796242,
+      "memory(GiB)": 58.14,
+      "step": 3985,
+      "train_speed(iter/s)": 0.453304
+    },
+    {
+      "acc": 0.62726254,
+      "epoch": 0.10121765601217655,
+      "grad_norm": 6.09375,
+      "learning_rate": 9.999989865982725e-06,
+      "loss": 1.75446987,
+      "memory(GiB)": 58.14,
+      "step": 3990,
+      "train_speed(iter/s)": 0.453602
+    },
+    {
+      "acc": 0.60661621,
+      "epoch": 0.10134449518011161,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.999987644768917e-06,
+      "loss": 1.75037861,
+      "memory(GiB)": 58.14,
+      "step": 3995,
+      "train_speed(iter/s)": 0.453895
+    },
+    {
+      "acc": 0.62552071,
+      "epoch": 0.10147133434804667,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.999985203633327e-06,
+      "loss": 1.80774097,
+      "memory(GiB)": 58.14,
+      "step": 4000,
+      "train_speed(iter/s)": 0.454188
+    },
+    {
+      "epoch": 0.10147133434804667,
+      "eval_acc": 0.6185696733519184,
+      "eval_loss": 1.7597835063934326,
+      "eval_runtime": 112.8153,
+      "eval_samples_per_second": 56.464,
+      "eval_steps_per_second": 28.232,
+      "step": 4000
+    },
+    {
+      "acc": 0.6291091,
+      "epoch": 0.10159817351598173,
+      "grad_norm": 6.84375,
+      "learning_rate": 9.999982542576065e-06,
+      "loss": 1.76779251,
+      "memory(GiB)": 58.14,
+      "step": 4005,
+      "train_speed(iter/s)": 0.448516
+    },
+    {
+      "acc": 0.6216218,
+      "epoch": 0.10172501268391679,
+      "grad_norm": 6.03125,
+      "learning_rate": 9.999979661597247e-06,
+      "loss": 1.82360649,
+      "memory(GiB)": 58.14,
+      "step": 4010,
+      "train_speed(iter/s)": 0.44881
+    },
+    {
+      "acc": 0.63545084,
+      "epoch": 0.10185185185185185,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.999976560697002e-06,
+      "loss": 1.74934006,
+      "memory(GiB)": 58.14,
+      "step": 4015,
+      "train_speed(iter/s)": 0.449103
+    },
+    {
+      "acc": 0.64277163,
+      "epoch": 0.1019786910197869,
+      "grad_norm": 5.84375,
+      "learning_rate": 9.999973239875462e-06,
+      "loss": 1.77237892,
+      "memory(GiB)": 58.14,
+      "step": 4020,
+      "train_speed(iter/s)": 0.449396
+    },
+    {
+      "acc": 0.63172255,
+      "epoch": 0.10210553018772196,
+      "grad_norm": 5.8125,
+      "learning_rate": 9.999969699132776e-06,
+      "loss": 1.76154366,
+      "memory(GiB)": 58.14,
+      "step": 4025,
+      "train_speed(iter/s)": 0.449691
+    },
+    {
+      "acc": 0.61161127,
+      "epoch": 0.10223236935565702,
+      "grad_norm": 4.625,
+      "learning_rate": 9.999965938469102e-06,
+      "loss": 1.8439537,
+      "memory(GiB)": 58.14,
+      "step": 4030,
+      "train_speed(iter/s)": 0.449985
+    },
+    {
+      "acc": 0.62062168,
+      "epoch": 0.10235920852359208,
+      "grad_norm": 5.75,
+      "learning_rate": 9.9999619578846e-06,
+      "loss": 1.81092777,
+      "memory(GiB)": 58.14,
+      "step": 4035,
+      "train_speed(iter/s)": 0.450279
+    },
+    {
+      "acc": 0.62890124,
+      "epoch": 0.10248604769152714,
+      "grad_norm": 6.4375,
+      "learning_rate": 9.999957757379451e-06,
+      "loss": 1.81078758,
+      "memory(GiB)": 58.14,
+      "step": 4040,
+      "train_speed(iter/s)": 0.450568
+    },
+    {
+      "acc": 0.63805218,
+      "epoch": 0.1026128868594622,
+      "grad_norm": 7.3125,
+      "learning_rate": 9.999953336953834e-06,
+      "loss": 1.71456261,
+      "memory(GiB)": 58.14,
+      "step": 4045,
+      "train_speed(iter/s)": 0.450857
+    },
+    {
+      "acc": 0.61768446,
+      "epoch": 0.10273972602739725,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.999948696607946e-06,
+      "loss": 1.78419456,
+      "memory(GiB)": 58.14,
+      "step": 4050,
+      "train_speed(iter/s)": 0.451146
+    },
+    {
+      "acc": 0.62755127,
+      "epoch": 0.10286656519533231,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.999943836341992e-06,
+      "loss": 1.80323219,
+      "memory(GiB)": 58.14,
+      "step": 4055,
+      "train_speed(iter/s)": 0.451438
+    },
+    {
+      "acc": 0.65122805,
+      "epoch": 0.10299340436326737,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.999938756156185e-06,
+      "loss": 1.69991837,
+      "memory(GiB)": 58.14,
+      "step": 4060,
+      "train_speed(iter/s)": 0.451729
+    },
+    {
+      "acc": 0.62248263,
+      "epoch": 0.10312024353120243,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.999933456050747e-06,
+      "loss": 1.81368866,
+      "memory(GiB)": 58.14,
+      "step": 4065,
+      "train_speed(iter/s)": 0.452019
+    },
+    {
+      "acc": 0.61825347,
+      "epoch": 0.10324708269913749,
+      "grad_norm": 5.0,
+      "learning_rate": 9.999927936025914e-06,
+      "loss": 1.84223785,
+      "memory(GiB)": 58.14,
+      "step": 4070,
+      "train_speed(iter/s)": 0.452312
+    },
+    {
+      "acc": 0.63171749,
+      "epoch": 0.10337392186707255,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.999922196081928e-06,
+      "loss": 1.73060284,
+      "memory(GiB)": 58.14,
+      "step": 4075,
+      "train_speed(iter/s)": 0.452605
+    },
+    {
+      "acc": 0.62899675,
+      "epoch": 0.1035007610350076,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.99991623621904e-06,
+      "loss": 1.74504051,
+      "memory(GiB)": 58.14,
+      "step": 4080,
+      "train_speed(iter/s)": 0.452894
+    },
+    {
+      "acc": 0.6265625,
+      "epoch": 0.10362760020294266,
+      "grad_norm": 5.625,
+      "learning_rate": 9.999910056437512e-06,
+      "loss": 1.79673958,
+      "memory(GiB)": 58.14,
+      "step": 4085,
+      "train_speed(iter/s)": 0.453187
+    },
+    {
+      "acc": 0.62976837,
+      "epoch": 0.10375443937087772,
+      "grad_norm": 4.4375,
+      "learning_rate": 9.999903656737618e-06,
+      "loss": 1.79148903,
+      "memory(GiB)": 58.14,
+      "step": 4090,
+      "train_speed(iter/s)": 0.453479
+    },
+    {
+      "acc": 0.62661695,
+      "epoch": 0.10388127853881278,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.999897037119637e-06,
+      "loss": 1.74700851,
+      "memory(GiB)": 58.14,
+      "step": 4095,
+      "train_speed(iter/s)": 0.45377
+    },
+    {
+      "acc": 0.62962437,
+      "epoch": 0.10400811770674784,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.999890197583862e-06,
+      "loss": 1.82050076,
+      "memory(GiB)": 58.14,
+      "step": 4100,
+      "train_speed(iter/s)": 0.45406
+    },
+    {
+      "epoch": 0.10400811770674784,
+      "eval_acc": 0.6191967420834139,
+      "eval_loss": 1.7540366649627686,
+      "eval_runtime": 112.4618,
+      "eval_samples_per_second": 56.641,
+      "eval_steps_per_second": 28.321,
+      "step": 4100
+    },
+    {
+      "acc": 0.61344967,
+      "epoch": 0.1041349568746829,
+      "grad_norm": 6.46875,
+      "learning_rate": 9.999883138130593e-06,
+      "loss": 1.83070374,
+      "memory(GiB)": 58.14,
+      "step": 4105,
+      "train_speed(iter/s)": 0.448541
+    },
+    {
+      "acc": 0.63450255,
+      "epoch": 0.10426179604261795,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.999875858760143e-06,
+      "loss": 1.77065277,
+      "memory(GiB)": 58.14,
+      "step": 4110,
+      "train_speed(iter/s)": 0.448827
+    },
+    {
+      "acc": 0.62327752,
+      "epoch": 0.10438863521055301,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.999868359472826e-06,
+      "loss": 1.86088276,
+      "memory(GiB)": 58.14,
+      "step": 4115,
+      "train_speed(iter/s)": 0.449113
+    },
+    {
+      "acc": 0.62800627,
+      "epoch": 0.10451547437848807,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.999860640268977e-06,
+      "loss": 1.79443016,
+      "memory(GiB)": 58.14,
+      "step": 4120,
+      "train_speed(iter/s)": 0.449397
+    },
+    {
+      "acc": 0.63783755,
+      "epoch": 0.10464231354642313,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.999852701148935e-06,
+      "loss": 1.77015991,
+      "memory(GiB)": 58.14,
+      "step": 4125,
+      "train_speed(iter/s)": 0.44968
+    },
+    {
+      "acc": 0.64586406,
+      "epoch": 0.10476915271435819,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.999844542113049e-06,
+      "loss": 1.78799438,
+      "memory(GiB)": 58.14,
+      "step": 4130,
+      "train_speed(iter/s)": 0.449967
+    },
+    {
+      "acc": 0.61216378,
+      "epoch": 0.10489599188229325,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.999836163161675e-06,
+      "loss": 1.85857239,
+      "memory(GiB)": 58.14,
+      "step": 4135,
+      "train_speed(iter/s)": 0.450253
+    },
+    {
+      "acc": 0.6562192,
+      "epoch": 0.1050228310502283,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.999827564295187e-06,
+      "loss": 1.67194862,
+      "memory(GiB)": 58.14,
+      "step": 4140,
+      "train_speed(iter/s)": 0.450539
+    },
+    {
+      "acc": 0.6264616,
+      "epoch": 0.10514967021816336,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.999818745513958e-06,
+      "loss": 1.75949821,
+      "memory(GiB)": 58.14,
+      "step": 4145,
+      "train_speed(iter/s)": 0.450822
+    },
+    {
+      "acc": 0.6279695,
+      "epoch": 0.10527650938609842,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.99980970681838e-06,
+      "loss": 1.7826004,
+      "memory(GiB)": 58.14,
+      "step": 4150,
+      "train_speed(iter/s)": 0.451106
+    },
+    {
+      "acc": 0.6429636,
+      "epoch": 0.10540334855403348,
+      "grad_norm": 6.03125,
+      "learning_rate": 9.999800448208846e-06,
+      "loss": 1.7293129,
+      "memory(GiB)": 58.14,
+      "step": 4155,
+      "train_speed(iter/s)": 0.451392
+    },
+    {
+      "acc": 0.62088828,
+      "epoch": 0.10553018772196854,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.999790969685767e-06,
+      "loss": 1.76002274,
+      "memory(GiB)": 58.14,
+      "step": 4160,
+      "train_speed(iter/s)": 0.451673
+    },
+    {
+      "acc": 0.61855145,
+      "epoch": 0.1056570268899036,
+      "grad_norm": 7.0625,
+      "learning_rate": 9.999781271249559e-06,
+      "loss": 1.78885899,
+      "memory(GiB)": 58.14,
+      "step": 4165,
+      "train_speed(iter/s)": 0.451956
+    },
+    {
+      "acc": 0.63343887,
+      "epoch": 0.10578386605783865,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.999771352900647e-06,
+      "loss": 1.74517441,
+      "memory(GiB)": 58.14,
+      "step": 4170,
+      "train_speed(iter/s)": 0.452238
+    },
+    {
+      "acc": 0.63536668,
+      "epoch": 0.10591070522577371,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.999761214639469e-06,
+      "loss": 1.61596909,
+      "memory(GiB)": 58.14,
+      "step": 4175,
+      "train_speed(iter/s)": 0.452519
+    },
+    {
+      "acc": 0.6453671,
+      "epoch": 0.10603754439370877,
+      "grad_norm": 4.4375,
+      "learning_rate": 9.999750856466472e-06,
+      "loss": 1.68646221,
+      "memory(GiB)": 58.14,
+      "step": 4180,
+      "train_speed(iter/s)": 0.4528
+    },
+    {
+      "acc": 0.63252106,
+      "epoch": 0.10616438356164383,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.99974027838211e-06,
+      "loss": 1.70660515,
+      "memory(GiB)": 58.14,
+      "step": 4185,
+      "train_speed(iter/s)": 0.453082
+    },
+    {
+      "acc": 0.63777542,
+      "epoch": 0.10629122272957889,
+      "grad_norm": 4.09375,
+      "learning_rate": 9.999729480386846e-06,
+      "loss": 1.72413597,
+      "memory(GiB)": 58.14,
+      "step": 4190,
+      "train_speed(iter/s)": 0.453364
+    },
+    {
+      "acc": 0.63738689,
+      "epoch": 0.10641806189751395,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.999718462481157e-06,
+      "loss": 1.72675591,
+      "memory(GiB)": 58.14,
+      "step": 4195,
+      "train_speed(iter/s)": 0.453644
+    },
+    {
+      "acc": 0.64150829,
+      "epoch": 0.106544901065449,
+      "grad_norm": 4.75,
+      "learning_rate": 9.99970722466553e-06,
+      "loss": 1.73381214,
+      "memory(GiB)": 58.14,
+      "step": 4200,
+      "train_speed(iter/s)": 0.453925
+    },
+    {
+      "epoch": 0.106544901065449,
+      "eval_acc": 0.6201346296931457,
+      "eval_loss": 1.7487373352050781,
+      "eval_runtime": 113.0521,
+      "eval_samples_per_second": 56.346,
+      "eval_steps_per_second": 28.173,
+      "step": 4200
+    },
+    {
+      "acc": 0.63454752,
+      "epoch": 0.10667174023338406,
+      "grad_norm": 6.09375,
+      "learning_rate": 9.999695766940458e-06,
+      "loss": 1.72905521,
+      "memory(GiB)": 58.14,
+      "step": 4205,
+      "train_speed(iter/s)": 0.448514
+    },
+    {
+      "acc": 0.6222558,
+      "epoch": 0.10679857940131912,
+      "grad_norm": 5.0,
+      "learning_rate": 9.999684089306442e-06,
+      "loss": 1.76112251,
+      "memory(GiB)": 58.14,
+      "step": 4210,
+      "train_speed(iter/s)": 0.448794
+    },
+    {
+      "acc": 0.63157911,
+      "epoch": 0.10692541856925418,
+      "grad_norm": 4.875,
+      "learning_rate": 9.999672191763999e-06,
+      "loss": 1.75762348,
+      "memory(GiB)": 58.14,
+      "step": 4215,
+      "train_speed(iter/s)": 0.449073
+    },
+    {
+      "acc": 0.64144144,
+      "epoch": 0.10705225773718924,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.99966007431365e-06,
+      "loss": 1.64606743,
+      "memory(GiB)": 58.14,
+      "step": 4220,
+      "train_speed(iter/s)": 0.449351
+    },
+    {
+      "acc": 0.63285217,
+      "epoch": 0.1071790969051243,
+      "grad_norm": 4.125,
+      "learning_rate": 9.99964773695593e-06,
+      "loss": 1.75802803,
+      "memory(GiB)": 58.14,
+      "step": 4225,
+      "train_speed(iter/s)": 0.44963
+    },
+    {
+      "acc": 0.6388093,
+      "epoch": 0.10730593607305935,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.999635179691381e-06,
+      "loss": 1.76360455,
+      "memory(GiB)": 58.14,
+      "step": 4230,
+      "train_speed(iter/s)": 0.44991
+    },
+    {
+      "acc": 0.62783031,
+      "epoch": 0.10743277524099441,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.999622402520553e-06,
+      "loss": 1.81153564,
+      "memory(GiB)": 58.14,
+      "step": 4235,
+      "train_speed(iter/s)": 0.450188
+    },
+    {
+      "acc": 0.61198092,
+      "epoch": 0.10755961440892947,
+      "grad_norm": 6.4375,
+      "learning_rate": 9.999609405444012e-06,
+      "loss": 1.80095291,
+      "memory(GiB)": 58.14,
+      "step": 4240,
+      "train_speed(iter/s)": 0.450463
+    },
+    {
+      "acc": 0.63580613,
+      "epoch": 0.10768645357686453,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.999596188462328e-06,
+      "loss": 1.69204712,
+      "memory(GiB)": 58.14,
+      "step": 4245,
+      "train_speed(iter/s)": 0.450746
+    },
+    {
+      "acc": 0.63853812,
+      "epoch": 0.10781329274479959,
+      "grad_norm": 4.34375,
+      "learning_rate": 9.99958275157608e-06,
+      "loss": 1.71433411,
+      "memory(GiB)": 58.14,
+      "step": 4250,
+      "train_speed(iter/s)": 0.451026
+    },
+    {
+      "acc": 0.63923063,
+      "epoch": 0.10794013191273465,
+      "grad_norm": 5.375,
+      "learning_rate": 9.999569094785862e-06,
+      "loss": 1.81869488,
+      "memory(GiB)": 58.14,
+      "step": 4255,
+      "train_speed(iter/s)": 0.45131
+    },
+    {
+      "acc": 0.6371985,
+      "epoch": 0.1080669710806697,
+      "grad_norm": 5.625,
+      "learning_rate": 9.999555218092273e-06,
+      "loss": 1.74946365,
+      "memory(GiB)": 58.14,
+      "step": 4260,
+      "train_speed(iter/s)": 0.451592
+    },
+    {
+      "acc": 0.63811803,
+      "epoch": 0.10819381024860476,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.999541121495926e-06,
+      "loss": 1.75966206,
+      "memory(GiB)": 58.14,
+      "step": 4265,
+      "train_speed(iter/s)": 0.451874
+    },
+    {
+      "acc": 0.62519026,
+      "epoch": 0.10832064941653982,
+      "grad_norm": 6.03125,
+      "learning_rate": 9.999526804997439e-06,
+      "loss": 1.81126308,
+      "memory(GiB)": 58.14,
+      "step": 4270,
+      "train_speed(iter/s)": 0.452156
+    },
+    {
+      "acc": 0.6206193,
+      "epoch": 0.10844748858447488,
+      "grad_norm": 5.0,
+      "learning_rate": 9.99951226859744e-06,
+      "loss": 1.8414917,
+      "memory(GiB)": 58.14,
+      "step": 4275,
+      "train_speed(iter/s)": 0.452435
+    },
+    {
+      "acc": 0.63537245,
+      "epoch": 0.10857432775240994,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.999497512296572e-06,
+      "loss": 1.76503983,
+      "memory(GiB)": 58.14,
+      "step": 4280,
+      "train_speed(iter/s)": 0.452716
+    },
+    {
+      "acc": 0.64053645,
+      "epoch": 0.108701166920345,
+      "grad_norm": 7.5,
+      "learning_rate": 9.999482536095483e-06,
+      "loss": 1.75181522,
+      "memory(GiB)": 58.14,
+      "step": 4285,
+      "train_speed(iter/s)": 0.452997
+    },
+    {
+      "acc": 0.62255592,
+      "epoch": 0.10882800608828005,
+      "grad_norm": 4.59375,
+      "learning_rate": 9.999467339994827e-06,
+      "loss": 1.74321728,
+      "memory(GiB)": 58.14,
+      "step": 4290,
+      "train_speed(iter/s)": 0.453276
+    },
+    {
+      "acc": 0.6438282,
+      "epoch": 0.10895484525621511,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.99945192399528e-06,
+      "loss": 1.74759979,
+      "memory(GiB)": 58.14,
+      "step": 4295,
+      "train_speed(iter/s)": 0.453557
+    },
+    {
+      "acc": 0.62297983,
+      "epoch": 0.10908168442415017,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.999436288097515e-06,
+      "loss": 1.76541634,
+      "memory(GiB)": 58.14,
+      "step": 4300,
+      "train_speed(iter/s)": 0.453833
+    },
+    {
+      "epoch": 0.10908168442415017,
+      "eval_acc": 0.6208949661963582,
+      "eval_loss": 1.7438240051269531,
+      "eval_runtime": 113.7389,
+      "eval_samples_per_second": 56.005,
+      "eval_steps_per_second": 28.003,
+      "step": 4300
+    },
+    {
+      "acc": 0.63015323,
+      "epoch": 0.10920852359208523,
+      "grad_norm": 6.1875,
+      "learning_rate": 9.99942043230222e-06,
+      "loss": 1.80679054,
+      "memory(GiB)": 58.14,
+      "step": 4305,
+      "train_speed(iter/s)": 0.448514
+    },
+    {
+      "acc": 0.63322983,
+      "epoch": 0.10933536276002029,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.999404356610095e-06,
+      "loss": 1.69326534,
+      "memory(GiB)": 58.14,
+      "step": 4310,
+      "train_speed(iter/s)": 0.448786
+    },
+    {
+      "acc": 0.64163394,
+      "epoch": 0.10946220192795535,
+      "grad_norm": 6.15625,
+      "learning_rate": 9.999388061021846e-06,
+      "loss": 1.79806824,
+      "memory(GiB)": 58.14,
+      "step": 4315,
+      "train_speed(iter/s)": 0.44906
+    },
+    {
+      "acc": 0.62432628,
+      "epoch": 0.1095890410958904,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.99937154553819e-06,
+      "loss": 1.79620895,
+      "memory(GiB)": 58.14,
+      "step": 4320,
+      "train_speed(iter/s)": 0.449332
+    },
+    {
+      "acc": 0.61566505,
+      "epoch": 0.10971588026382546,
+      "grad_norm": 5.6875,
+      "learning_rate": 9.999354810159852e-06,
+      "loss": 1.76232872,
+      "memory(GiB)": 58.14,
+      "step": 4325,
+      "train_speed(iter/s)": 0.449602
+    },
+    {
+      "acc": 0.62264271,
+      "epoch": 0.10984271943176052,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.999337854887567e-06,
+      "loss": 1.73234653,
+      "memory(GiB)": 58.14,
+      "step": 4330,
+      "train_speed(iter/s)": 0.449872
+    },
+    {
+      "acc": 0.63787823,
+      "epoch": 0.10996955859969558,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.999320679722086e-06,
+      "loss": 1.74618568,
+      "memory(GiB)": 58.14,
+      "step": 4335,
+      "train_speed(iter/s)": 0.450143
+    },
+    {
+      "acc": 0.62766075,
+      "epoch": 0.11009639776763064,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.999303284664159e-06,
+      "loss": 1.71300373,
+      "memory(GiB)": 58.14,
+      "step": 4340,
+      "train_speed(iter/s)": 0.450413
+    },
+    {
+      "acc": 0.64673505,
+      "epoch": 0.1102232369355657,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.999285669714555e-06,
+      "loss": 1.71865788,
+      "memory(GiB)": 58.14,
+      "step": 4345,
+      "train_speed(iter/s)": 0.450683
+    },
+    {
+      "acc": 0.64527864,
+      "epoch": 0.11035007610350075,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.999267834874044e-06,
+      "loss": 1.65094757,
+      "memory(GiB)": 58.14,
+      "step": 4350,
+      "train_speed(iter/s)": 0.450956
+    },
+    {
+      "acc": 0.63289995,
+      "epoch": 0.11047691527143581,
+      "grad_norm": 5.96875,
+      "learning_rate": 9.999249780143416e-06,
+      "loss": 1.72538681,
+      "memory(GiB)": 58.14,
+      "step": 4355,
+      "train_speed(iter/s)": 0.451225
+    },
+    {
+      "acc": 0.6310523,
+      "epoch": 0.11060375443937087,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.999231505523463e-06,
+      "loss": 1.7701992,
+      "memory(GiB)": 58.14,
+      "step": 4360,
+      "train_speed(iter/s)": 0.451497
+    },
+    {
+      "acc": 0.60786505,
+      "epoch": 0.11073059360730593,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.999213011014987e-06,
+      "loss": 1.81345711,
+      "memory(GiB)": 58.14,
+      "step": 4365,
+      "train_speed(iter/s)": 0.451769
+    },
+    {
+      "acc": 0.62757382,
+      "epoch": 0.11085743277524099,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.999194296618805e-06,
+      "loss": 1.76174946,
+      "memory(GiB)": 58.14,
+      "step": 4370,
+      "train_speed(iter/s)": 0.452036
+    },
+    {
+      "acc": 0.63591194,
+      "epoch": 0.11098427194317605,
+      "grad_norm": 6.8125,
+      "learning_rate": 9.999175362335735e-06,
+      "loss": 1.74051361,
+      "memory(GiB)": 58.14,
+      "step": 4375,
+      "train_speed(iter/s)": 0.452308
+    },
+    {
+      "acc": 0.63282638,
+      "epoch": 0.1111111111111111,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.999156208166614e-06,
+      "loss": 1.78131981,
+      "memory(GiB)": 58.14,
+      "step": 4380,
+      "train_speed(iter/s)": 0.452581
+    },
+    {
+      "acc": 0.62626019,
+      "epoch": 0.11123795027904616,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.999136834112284e-06,
+      "loss": 1.74566879,
+      "memory(GiB)": 58.14,
+      "step": 4385,
+      "train_speed(iter/s)": 0.45285
+    },
+    {
+      "acc": 0.63161502,
+      "epoch": 0.11136478944698122,
+      "grad_norm": 4.34375,
+      "learning_rate": 9.999117240173597e-06,
+      "loss": 1.79278793,
+      "memory(GiB)": 58.14,
+      "step": 4390,
+      "train_speed(iter/s)": 0.453119
+    },
+    {
+      "acc": 0.62327871,
+      "epoch": 0.11149162861491628,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.999097426351412e-06,
+      "loss": 1.84273453,
+      "memory(GiB)": 58.14,
+      "step": 4395,
+      "train_speed(iter/s)": 0.453391
+    },
+    {
+      "acc": 0.62689791,
+      "epoch": 0.11161846778285134,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.999077392646606e-06,
+      "loss": 1.75429306,
+      "memory(GiB)": 58.14,
+      "step": 4400,
+      "train_speed(iter/s)": 0.45366
+    },
+    {
+      "epoch": 0.11161846778285134,
+      "eval_acc": 0.6214852714046214,
+      "eval_loss": 1.739027500152588,
+      "eval_runtime": 114.3722,
+      "eval_samples_per_second": 55.695,
+      "eval_steps_per_second": 27.848,
+      "step": 4400
+    },
+    {
+      "acc": 0.63877306,
+      "epoch": 0.1117453069507864,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.999057139060055e-06,
+      "loss": 1.75726471,
+      "memory(GiB)": 58.14,
+      "step": 4405,
+      "train_speed(iter/s)": 0.448437
+    },
+    {
+      "acc": 0.6433804,
+      "epoch": 0.11187214611872145,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.999036665592653e-06,
+      "loss": 1.71312466,
+      "memory(GiB)": 58.14,
+      "step": 4410,
+      "train_speed(iter/s)": 0.448704
+    },
+    {
+      "acc": 0.64489183,
+      "epoch": 0.11199898528665651,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.999015972245298e-06,
+      "loss": 1.73755589,
+      "memory(GiB)": 58.14,
+      "step": 4415,
+      "train_speed(iter/s)": 0.448971
+    },
+    {
+      "acc": 0.63046446,
+      "epoch": 0.11212582445459157,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.998995059018901e-06,
+      "loss": 1.78997326,
+      "memory(GiB)": 58.14,
+      "step": 4420,
+      "train_speed(iter/s)": 0.449235
+    },
+    {
+      "acc": 0.62649784,
+      "epoch": 0.11225266362252663,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.998973925914384e-06,
+      "loss": 1.73370438,
+      "memory(GiB)": 58.14,
+      "step": 4425,
+      "train_speed(iter/s)": 0.449499
+    },
+    {
+      "acc": 0.62724686,
+      "epoch": 0.11237950279046169,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.998952572932675e-06,
+      "loss": 1.77701378,
+      "memory(GiB)": 58.14,
+      "step": 4430,
+      "train_speed(iter/s)": 0.449763
+    },
+    {
+      "acc": 0.61130695,
+      "epoch": 0.11250634195839675,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.998931000074712e-06,
+      "loss": 1.85735683,
+      "memory(GiB)": 58.14,
+      "step": 4435,
+      "train_speed(iter/s)": 0.450032
+    },
+    {
+      "acc": 0.62680559,
+      "epoch": 0.1126331811263318,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.998909207341446e-06,
+      "loss": 1.77192841,
+      "memory(GiB)": 58.14,
+      "step": 4440,
+      "train_speed(iter/s)": 0.450298
+    },
+    {
+      "acc": 0.61906872,
+      "epoch": 0.11276002029426686,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.998887194733833e-06,
+      "loss": 1.85887356,
+      "memory(GiB)": 58.14,
+      "step": 4445,
+      "train_speed(iter/s)": 0.450565
+    },
+    {
+      "acc": 0.64016647,
+      "epoch": 0.11288685946220192,
+      "grad_norm": 5.125,
+      "learning_rate": 9.998864962252843e-06,
+      "loss": 1.71196823,
+      "memory(GiB)": 58.14,
+      "step": 4450,
+      "train_speed(iter/s)": 0.450827
+    },
+    {
+      "acc": 0.62125816,
+      "epoch": 0.11301369863013698,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.998842509899456e-06,
+      "loss": 1.79626656,
+      "memory(GiB)": 58.14,
+      "step": 4455,
+      "train_speed(iter/s)": 0.451094
+    },
+    {
+      "acc": 0.63397903,
+      "epoch": 0.11314053779807204,
+      "grad_norm": 6.03125,
+      "learning_rate": 9.998819837674655e-06,
+      "loss": 1.77970695,
+      "memory(GiB)": 58.14,
+      "step": 4460,
+      "train_speed(iter/s)": 0.451358
+    },
+    {
+      "acc": 0.64185648,
+      "epoch": 0.1132673769660071,
+      "grad_norm": 7.5,
+      "learning_rate": 9.99879694557944e-06,
+      "loss": 1.74106216,
+      "memory(GiB)": 58.14,
+      "step": 4465,
+      "train_speed(iter/s)": 0.451621
+    },
+    {
+      "acc": 0.64832673,
+      "epoch": 0.11339421613394216,
+      "grad_norm": 5.25,
+      "learning_rate": 9.998773833614816e-06,
+      "loss": 1.72003975,
+      "memory(GiB)": 58.14,
+      "step": 4470,
+      "train_speed(iter/s)": 0.451885
+    },
+    {
+      "acc": 0.64814358,
+      "epoch": 0.11352105530187721,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.998750501781803e-06,
+      "loss": 1.65770454,
+      "memory(GiB)": 58.14,
+      "step": 4475,
+      "train_speed(iter/s)": 0.452148
+    },
+    {
+      "acc": 0.64199409,
+      "epoch": 0.11364789446981227,
+      "grad_norm": 5.71875,
+      "learning_rate": 9.998726950081425e-06,
+      "loss": 1.7796257,
+      "memory(GiB)": 58.14,
+      "step": 4480,
+      "train_speed(iter/s)": 0.45241
+    },
+    {
+      "acc": 0.63876882,
+      "epoch": 0.11377473363774733,
+      "grad_norm": 6.15625,
+      "learning_rate": 9.998703178514717e-06,
+      "loss": 1.81871719,
+      "memory(GiB)": 58.14,
+      "step": 4485,
+      "train_speed(iter/s)": 0.452677
+    },
+    {
+      "acc": 0.61971855,
+      "epoch": 0.11390157280568239,
+      "grad_norm": 6.3125,
+      "learning_rate": 9.998679187082724e-06,
+      "loss": 1.74147835,
+      "memory(GiB)": 58.14,
+      "step": 4490,
+      "train_speed(iter/s)": 0.45294
+    },
+    {
+      "acc": 0.62179823,
+      "epoch": 0.11402841197361745,
+      "grad_norm": 4.46875,
+      "learning_rate": 9.998654975786506e-06,
+      "loss": 1.76019974,
+      "memory(GiB)": 58.14,
+      "step": 4495,
+      "train_speed(iter/s)": 0.453205
+    },
+    {
+      "acc": 0.63448839,
+      "epoch": 0.1141552511415525,
+      "grad_norm": 5.78125,
+      "learning_rate": 9.998630544627123e-06,
+      "loss": 1.72916336,
+      "memory(GiB)": 58.14,
+      "step": 4500,
+      "train_speed(iter/s)": 0.453468
+    },
+    {
+      "epoch": 0.1141552511415525,
+      "eval_acc": 0.6224657712799179,
+      "eval_loss": 1.734817385673523,
+      "eval_runtime": 114.6258,
+      "eval_samples_per_second": 55.572,
+      "eval_steps_per_second": 27.786,
+      "step": 4500
+    },
+    {
+      "acc": 0.64289494,
+      "epoch": 0.11428209030948756,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.998605893605653e-06,
+      "loss": 1.70340538,
+      "memory(GiB)": 58.14,
+      "step": 4505,
+      "train_speed(iter/s)": 0.448352
+    },
+    {
+      "acc": 0.63723078,
+      "epoch": 0.11440892947742262,
+      "grad_norm": 5.125,
+      "learning_rate": 9.998581022723178e-06,
+      "loss": 1.73938599,
+      "memory(GiB)": 58.14,
+      "step": 4510,
+      "train_speed(iter/s)": 0.448613
+    },
+    {
+      "acc": 0.61551995,
+      "epoch": 0.11453576864535768,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.998555931980792e-06,
+      "loss": 1.81156197,
+      "memory(GiB)": 58.14,
+      "step": 4515,
+      "train_speed(iter/s)": 0.448875
+    },
+    {
+      "acc": 0.61945362,
+      "epoch": 0.11466260781329274,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.998530621379599e-06,
+      "loss": 1.75532379,
+      "memory(GiB)": 58.14,
+      "step": 4520,
+      "train_speed(iter/s)": 0.449139
+    },
+    {
+      "acc": 0.64460568,
+      "epoch": 0.1147894469812278,
+      "grad_norm": 4.375,
+      "learning_rate": 9.998505090920713e-06,
+      "loss": 1.72848473,
+      "memory(GiB)": 58.14,
+      "step": 4525,
+      "train_speed(iter/s)": 0.449405
+    },
+    {
+      "acc": 0.63762555,
+      "epoch": 0.11491628614916286,
+      "grad_norm": 5.375,
+      "learning_rate": 9.998479340605257e-06,
+      "loss": 1.73102989,
+      "memory(GiB)": 58.14,
+      "step": 4530,
+      "train_speed(iter/s)": 0.449667
+    },
+    {
+      "acc": 0.63705587,
+      "epoch": 0.11504312531709791,
+      "grad_norm": 4.5,
+      "learning_rate": 9.99845337043436e-06,
+      "loss": 1.7236248,
+      "memory(GiB)": 58.14,
+      "step": 4535,
+      "train_speed(iter/s)": 0.449931
+    },
+    {
+      "acc": 0.61686687,
+      "epoch": 0.11516996448503297,
+      "grad_norm": 6.375,
+      "learning_rate": 9.998427180409171e-06,
+      "loss": 1.83120613,
+      "memory(GiB)": 58.14,
+      "step": 4540,
+      "train_speed(iter/s)": 0.450192
+    },
+    {
+      "acc": 0.62705369,
+      "epoch": 0.11529680365296803,
+      "grad_norm": 6.8125,
+      "learning_rate": 9.998400770530836e-06,
+      "loss": 1.78143158,
+      "memory(GiB)": 58.14,
+      "step": 4545,
+      "train_speed(iter/s)": 0.450456
+    },
+    {
+      "acc": 0.62718897,
+      "epoch": 0.11542364282090309,
+      "grad_norm": 5.0,
+      "learning_rate": 9.99837414080052e-06,
+      "loss": 1.74348793,
+      "memory(GiB)": 58.14,
+      "step": 4550,
+      "train_speed(iter/s)": 0.45072
+    },
+    {
+      "acc": 0.62926569,
+      "epoch": 0.11555048198883815,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.998347291219393e-06,
+      "loss": 1.76136131,
+      "memory(GiB)": 58.14,
+      "step": 4555,
+      "train_speed(iter/s)": 0.450983
+    },
+    {
+      "acc": 0.63724442,
+      "epoch": 0.1156773211567732,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.998320221788635e-06,
+      "loss": 1.76352921,
+      "memory(GiB)": 58.14,
+      "step": 4560,
+      "train_speed(iter/s)": 0.451246
+    },
+    {
+      "acc": 0.60729675,
+      "epoch": 0.11580416032470826,
+      "grad_norm": 6.65625,
+      "learning_rate": 9.998292932509438e-06,
+      "loss": 1.9108429,
+      "memory(GiB)": 58.14,
+      "step": 4565,
+      "train_speed(iter/s)": 0.451507
+    },
+    {
+      "acc": 0.62277074,
+      "epoch": 0.11593099949264332,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.998265423383003e-06,
+      "loss": 1.80425949,
+      "memory(GiB)": 58.14,
+      "step": 4570,
+      "train_speed(iter/s)": 0.451768
+    },
+    {
+      "acc": 0.63655186,
+      "epoch": 0.11605783866057838,
+      "grad_norm": 6.28125,
+      "learning_rate": 9.998237694410537e-06,
+      "loss": 1.76361046,
+      "memory(GiB)": 58.14,
+      "step": 4575,
+      "train_speed(iter/s)": 0.452029
+    },
+    {
+      "acc": 0.64174104,
+      "epoch": 0.11618467782851344,
+      "grad_norm": 6.3125,
+      "learning_rate": 9.998209745593264e-06,
+      "loss": 1.7118351,
+      "memory(GiB)": 58.14,
+      "step": 4580,
+      "train_speed(iter/s)": 0.452292
+    },
+    {
+      "acc": 0.6311769,
+      "epoch": 0.1163115169964485,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.99818157693241e-06,
+      "loss": 1.77057285,
+      "memory(GiB)": 58.14,
+      "step": 4585,
+      "train_speed(iter/s)": 0.452551
+    },
+    {
+      "acc": 0.64642916,
+      "epoch": 0.11643835616438356,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.998153188429216e-06,
+      "loss": 1.62410469,
+      "memory(GiB)": 58.14,
+      "step": 4590,
+      "train_speed(iter/s)": 0.452813
+    },
+    {
+      "acc": 0.63776679,
+      "epoch": 0.11656519533231861,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.99812458008493e-06,
+      "loss": 1.70000572,
+      "memory(GiB)": 58.14,
+      "step": 4595,
+      "train_speed(iter/s)": 0.453073
+    },
+    {
+      "acc": 0.62350159,
+      "epoch": 0.11669203450025367,
+      "grad_norm": 4.25,
+      "learning_rate": 9.998095751900806e-06,
+      "loss": 1.77704659,
+      "memory(GiB)": 58.14,
+      "step": 4600,
+      "train_speed(iter/s)": 0.453334
+    },
+    {
+      "epoch": 0.11669203450025367,
+      "eval_acc": 0.6230740404824878,
+      "eval_loss": 1.7313827276229858,
+      "eval_runtime": 113.2999,
+      "eval_samples_per_second": 56.222,
+      "eval_steps_per_second": 28.111,
+      "step": 4600
+    },
+    {
+      "acc": 0.62139163,
+      "epoch": 0.11681887366818873,
+      "grad_norm": 4.21875,
+      "learning_rate": 9.99806670387812e-06,
+      "loss": 1.75947609,
+      "memory(GiB)": 58.14,
+      "step": 4605,
+      "train_speed(iter/s)": 0.44839
+    },
+    {
+      "acc": 0.62973518,
+      "epoch": 0.11694571283612379,
+      "grad_norm": 5.625,
+      "learning_rate": 9.998037436018144e-06,
+      "loss": 1.76128922,
+      "memory(GiB)": 58.14,
+      "step": 4610,
+      "train_speed(iter/s)": 0.44865
+    },
+    {
+      "acc": 0.63088779,
+      "epoch": 0.11707255200405885,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.998007948322168e-06,
+      "loss": 1.69484825,
+      "memory(GiB)": 58.14,
+      "step": 4615,
+      "train_speed(iter/s)": 0.448905
+    },
+    {
+      "acc": 0.62563944,
+      "epoch": 0.1171993911719939,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.997978240791487e-06,
+      "loss": 1.77591267,
+      "memory(GiB)": 58.14,
+      "step": 4620,
+      "train_speed(iter/s)": 0.449163
+    },
+    {
+      "acc": 0.63080463,
+      "epoch": 0.11732623033992896,
+      "grad_norm": 6.0625,
+      "learning_rate": 9.99794831342741e-06,
+      "loss": 1.77028713,
+      "memory(GiB)": 58.14,
+      "step": 4625,
+      "train_speed(iter/s)": 0.449417
+    },
+    {
+      "acc": 0.63224735,
+      "epoch": 0.11745306950786402,
+      "grad_norm": 5.25,
+      "learning_rate": 9.99791816623125e-06,
+      "loss": 1.78392754,
+      "memory(GiB)": 58.14,
+      "step": 4630,
+      "train_speed(iter/s)": 0.449675
+    },
+    {
+      "acc": 0.64080734,
+      "epoch": 0.11757990867579908,
+      "grad_norm": 4.625,
+      "learning_rate": 9.997887799204335e-06,
+      "loss": 1.69095192,
+      "memory(GiB)": 58.14,
+      "step": 4635,
+      "train_speed(iter/s)": 0.44993
+    },
+    {
+      "acc": 0.62064586,
+      "epoch": 0.11770674784373414,
+      "grad_norm": 4.625,
+      "learning_rate": 9.997857212348e-06,
+      "loss": 1.77523727,
+      "memory(GiB)": 58.14,
+      "step": 4640,
+      "train_speed(iter/s)": 0.450185
+    },
+    {
+      "acc": 0.63761692,
+      "epoch": 0.1178335870116692,
+      "grad_norm": 4.46875,
+      "learning_rate": 9.997826405663593e-06,
+      "loss": 1.74796543,
+      "memory(GiB)": 58.14,
+      "step": 4645,
+      "train_speed(iter/s)": 0.450441
+    },
+    {
+      "acc": 0.65436001,
+      "epoch": 0.11796042617960426,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.997795379152468e-06,
+      "loss": 1.58777275,
+      "memory(GiB)": 58.14,
+      "step": 4650,
+      "train_speed(iter/s)": 0.450695
+    },
+    {
+      "acc": 0.60329132,
+      "epoch": 0.11808726534753931,
+      "grad_norm": 5.375,
+      "learning_rate": 9.997764132815985e-06,
+      "loss": 1.84420433,
+      "memory(GiB)": 58.14,
+      "step": 4655,
+      "train_speed(iter/s)": 0.450951
+    },
+    {
+      "acc": 0.62300425,
+      "epoch": 0.11821410451547437,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.997732666655524e-06,
+      "loss": 1.81390247,
+      "memory(GiB)": 58.14,
+      "step": 4660,
+      "train_speed(iter/s)": 0.451207
+    },
+    {
+      "acc": 0.61180248,
+      "epoch": 0.11834094368340943,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.997700980672469e-06,
+      "loss": 1.80420074,
+      "memory(GiB)": 58.14,
+      "step": 4665,
+      "train_speed(iter/s)": 0.451463
+    },
+    {
+      "acc": 0.63818851,
+      "epoch": 0.11846778285134449,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.997669074868208e-06,
+      "loss": 1.68481178,
+      "memory(GiB)": 58.14,
+      "step": 4670,
+      "train_speed(iter/s)": 0.451718
+    },
+    {
+      "acc": 0.6398519,
+      "epoch": 0.11859462201927955,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.997636949244151e-06,
+      "loss": 1.74873466,
+      "memory(GiB)": 58.14,
+      "step": 4675,
+      "train_speed(iter/s)": 0.451972
+    },
+    {
+      "acc": 0.62650094,
+      "epoch": 0.1187214611872146,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.997604603801707e-06,
+      "loss": 1.78236198,
+      "memory(GiB)": 58.14,
+      "step": 4680,
+      "train_speed(iter/s)": 0.452228
+    },
+    {
+      "acc": 0.62283201,
+      "epoch": 0.11884830035514966,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.9975720385423e-06,
+      "loss": 1.84657478,
+      "memory(GiB)": 58.14,
+      "step": 4685,
+      "train_speed(iter/s)": 0.452481
+    },
+    {
+      "acc": 0.64016471,
+      "epoch": 0.11897513952308472,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.997539253467361e-06,
+      "loss": 1.76661339,
+      "memory(GiB)": 58.14,
+      "step": 4690,
+      "train_speed(iter/s)": 0.452735
+    },
+    {
+      "acc": 0.629918,
+      "epoch": 0.11910197869101978,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.997506248578334e-06,
+      "loss": 1.73544044,
+      "memory(GiB)": 58.14,
+      "step": 4695,
+      "train_speed(iter/s)": 0.452988
+    },
+    {
+      "acc": 0.64385133,
+      "epoch": 0.11922881785895484,
+      "grad_norm": 5.6875,
+      "learning_rate": 9.997473023876671e-06,
+      "loss": 1.78379498,
+      "memory(GiB)": 58.14,
+      "step": 4700,
+      "train_speed(iter/s)": 0.453241
+    },
+    {
+      "epoch": 0.11922881785895484,
+      "eval_acc": 0.6235164560632032,
+      "eval_loss": 1.727088212966919,
+      "eval_runtime": 112.7884,
+      "eval_samples_per_second": 56.477,
+      "eval_steps_per_second": 28.239,
+      "step": 4700
+    },
+    {
+      "acc": 0.63448782,
+      "epoch": 0.1193556570268899,
+      "grad_norm": 4.75,
+      "learning_rate": 9.997439579363831e-06,
+      "loss": 1.78977203,
+      "memory(GiB)": 58.14,
+      "step": 4705,
+      "train_speed(iter/s)": 0.448427
+    },
+    {
+      "acc": 0.62294664,
+      "epoch": 0.11948249619482496,
+      "grad_norm": 5.0,
+      "learning_rate": 9.997405915041288e-06,
+      "loss": 1.77439079,
+      "memory(GiB)": 58.14,
+      "step": 4710,
+      "train_speed(iter/s)": 0.448674
+    },
+    {
+      "acc": 0.64314108,
+      "epoch": 0.11960933536276001,
+      "grad_norm": 5.71875,
+      "learning_rate": 9.99737203091052e-06,
+      "loss": 1.70816956,
+      "memory(GiB)": 58.14,
+      "step": 4715,
+      "train_speed(iter/s)": 0.448921
+    },
+    {
+      "acc": 0.64581261,
+      "epoch": 0.11973617453069507,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.997337926973018e-06,
+      "loss": 1.71403198,
+      "memory(GiB)": 58.14,
+      "step": 4720,
+      "train_speed(iter/s)": 0.449169
+    },
+    {
+      "acc": 0.63275752,
+      "epoch": 0.11986301369863013,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.997303603230282e-06,
+      "loss": 1.7627388,
+      "memory(GiB)": 58.14,
+      "step": 4725,
+      "train_speed(iter/s)": 0.449415
+    },
+    {
+      "acc": 0.64267807,
+      "epoch": 0.11998985286656519,
+      "grad_norm": 5.25,
+      "learning_rate": 9.997269059683822e-06,
+      "loss": 1.70204964,
+      "memory(GiB)": 58.14,
+      "step": 4730,
+      "train_speed(iter/s)": 0.449662
+    },
+    {
+      "acc": 0.61263685,
+      "epoch": 0.12011669203450025,
+      "grad_norm": 5.875,
+      "learning_rate": 9.997234296335159e-06,
+      "loss": 1.78822365,
+      "memory(GiB)": 58.14,
+      "step": 4735,
+      "train_speed(iter/s)": 0.449912
+    },
+    {
+      "acc": 0.63470836,
+      "epoch": 0.1202435312024353,
+      "grad_norm": 4.875,
+      "learning_rate": 9.997199313185821e-06,
+      "loss": 1.74361115,
+      "memory(GiB)": 58.14,
+      "step": 4740,
+      "train_speed(iter/s)": 0.450159
+    },
+    {
+      "acc": 0.64303627,
+      "epoch": 0.12037037037037036,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.997164110237345e-06,
+      "loss": 1.64466343,
+      "memory(GiB)": 58.14,
+      "step": 4745,
+      "train_speed(iter/s)": 0.450407
+    },
+    {
+      "acc": 0.63831496,
+      "epoch": 0.12049720953830542,
+      "grad_norm": 6.28125,
+      "learning_rate": 9.99712868749128e-06,
+      "loss": 1.7146286,
+      "memory(GiB)": 58.14,
+      "step": 4750,
+      "train_speed(iter/s)": 0.450655
+    },
+    {
+      "acc": 0.65628538,
+      "epoch": 0.12062404870624048,
+      "grad_norm": 5.6875,
+      "learning_rate": 9.997093044949186e-06,
+      "loss": 1.72340527,
+      "memory(GiB)": 58.14,
+      "step": 4755,
+      "train_speed(iter/s)": 0.450903
+    },
+    {
+      "acc": 0.63663931,
+      "epoch": 0.12075088787417554,
+      "grad_norm": 5.8125,
+      "learning_rate": 9.997057182612631e-06,
+      "loss": 1.69316998,
+      "memory(GiB)": 58.14,
+      "step": 4760,
+      "train_speed(iter/s)": 0.451147
+    },
+    {
+      "acc": 0.62728376,
+      "epoch": 0.1208777270421106,
+      "grad_norm": 5.8125,
+      "learning_rate": 9.997021100483188e-06,
+      "loss": 1.73591309,
+      "memory(GiB)": 58.14,
+      "step": 4765,
+      "train_speed(iter/s)": 0.451394
+    },
+    {
+      "acc": 0.64358292,
+      "epoch": 0.12100456621004566,
+      "grad_norm": 6.125,
+      "learning_rate": 9.996984798562448e-06,
+      "loss": 1.66552658,
+      "memory(GiB)": 58.14,
+      "step": 4770,
+      "train_speed(iter/s)": 0.45164
+    },
+    {
+      "acc": 0.6273417,
+      "epoch": 0.12113140537798071,
+      "grad_norm": 5.84375,
+      "learning_rate": 9.996948276852008e-06,
+      "loss": 1.73432961,
+      "memory(GiB)": 58.14,
+      "step": 4775,
+      "train_speed(iter/s)": 0.451889
+    },
+    {
+      "acc": 0.63287511,
+      "epoch": 0.12125824454591577,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.99691153535347e-06,
+      "loss": 1.81104622,
+      "memory(GiB)": 58.14,
+      "step": 4780,
+      "train_speed(iter/s)": 0.452135
+    },
+    {
+      "acc": 0.64076881,
+      "epoch": 0.12138508371385083,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.996874574068457e-06,
+      "loss": 1.74649353,
+      "memory(GiB)": 58.14,
+      "step": 4785,
+      "train_speed(iter/s)": 0.452382
+    },
+    {
+      "acc": 0.63243017,
+      "epoch": 0.12151192288178589,
+      "grad_norm": 4.25,
+      "learning_rate": 9.996837392998586e-06,
+      "loss": 1.75946579,
+      "memory(GiB)": 58.14,
+      "step": 4790,
+      "train_speed(iter/s)": 0.45263
+    },
+    {
+      "acc": 0.63010359,
+      "epoch": 0.12163876204972095,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.996799992145501e-06,
+      "loss": 1.75592041,
+      "memory(GiB)": 58.14,
+      "step": 4795,
+      "train_speed(iter/s)": 0.452875
+    },
+    {
+      "acc": 0.62746639,
+      "epoch": 0.121765601217656,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.996762371510843e-06,
+      "loss": 1.77874947,
+      "memory(GiB)": 58.14,
+      "step": 4800,
+      "train_speed(iter/s)": 0.453123
+    },
+    {
+      "epoch": 0.121765601217656,
+      "eval_acc": 0.6240428428731195,
+      "eval_loss": 1.723838210105896,
+      "eval_runtime": 113.0662,
+      "eval_samples_per_second": 56.339,
+      "eval_steps_per_second": 28.169,
+      "step": 4800
+    },
+    {
+      "acc": 0.63768234,
+      "epoch": 0.12189244038559106,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.996724531096264e-06,
+      "loss": 1.74425735,
+      "memory(GiB)": 58.14,
+      "step": 4805,
+      "train_speed(iter/s)": 0.448399
+    },
+    {
+      "acc": 0.63574476,
+      "epoch": 0.12201927955352612,
+      "grad_norm": 5.71875,
+      "learning_rate": 9.996686470903434e-06,
+      "loss": 1.74980125,
+      "memory(GiB)": 58.14,
+      "step": 4810,
+      "train_speed(iter/s)": 0.448644
+    },
+    {
+      "acc": 0.631991,
+      "epoch": 0.12214611872146118,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.996648190934025e-06,
+      "loss": 1.70170517,
+      "memory(GiB)": 58.14,
+      "step": 4815,
+      "train_speed(iter/s)": 0.448889
+    },
+    {
+      "acc": 0.63558216,
+      "epoch": 0.12227295788939624,
+      "grad_norm": 5.875,
+      "learning_rate": 9.996609691189718e-06,
+      "loss": 1.73584061,
+      "memory(GiB)": 58.14,
+      "step": 4820,
+      "train_speed(iter/s)": 0.449134
+    },
+    {
+      "acc": 0.63971071,
+      "epoch": 0.1223997970573313,
+      "grad_norm": 5.0,
+      "learning_rate": 9.996570971672209e-06,
+      "loss": 1.72283211,
+      "memory(GiB)": 58.14,
+      "step": 4825,
+      "train_speed(iter/s)": 0.449376
+    },
+    {
+      "acc": 0.61943631,
+      "epoch": 0.12252663622526636,
+      "grad_norm": 5.9375,
+      "learning_rate": 9.996532032383202e-06,
+      "loss": 1.81644154,
+      "memory(GiB)": 58.14,
+      "step": 4830,
+      "train_speed(iter/s)": 0.449617
+    },
+    {
+      "acc": 0.63256316,
+      "epoch": 0.12265347539320141,
+      "grad_norm": 5.6875,
+      "learning_rate": 9.996492873324406e-06,
+      "loss": 1.80444565,
+      "memory(GiB)": 58.14,
+      "step": 4835,
+      "train_speed(iter/s)": 0.449864
+    },
+    {
+      "acc": 0.63840075,
+      "epoch": 0.12278031456113647,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.996453494497546e-06,
+      "loss": 1.75831375,
+      "memory(GiB)": 58.14,
+      "step": 4840,
+      "train_speed(iter/s)": 0.450107
+    },
+    {
+      "acc": 0.63326774,
+      "epoch": 0.12290715372907153,
+      "grad_norm": 6.46875,
+      "learning_rate": 9.996413895904355e-06,
+      "loss": 1.76342812,
+      "memory(GiB)": 58.14,
+      "step": 4845,
+      "train_speed(iter/s)": 0.450354
+    },
+    {
+      "acc": 0.63627186,
+      "epoch": 0.12303399289700659,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.996374077546573e-06,
+      "loss": 1.71198921,
+      "memory(GiB)": 58.14,
+      "step": 4850,
+      "train_speed(iter/s)": 0.450598
+    },
+    {
+      "acc": 0.63379359,
+      "epoch": 0.12316083206494165,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.996334039425952e-06,
+      "loss": 1.71940689,
+      "memory(GiB)": 58.14,
+      "step": 4855,
+      "train_speed(iter/s)": 0.450842
+    },
+    {
+      "acc": 0.63757434,
+      "epoch": 0.1232876712328767,
+      "grad_norm": 6.90625,
+      "learning_rate": 9.996293781544255e-06,
+      "loss": 1.69967937,
+      "memory(GiB)": 58.14,
+      "step": 4860,
+      "train_speed(iter/s)": 0.451087
+    },
+    {
+      "acc": 0.63274517,
+      "epoch": 0.12341451040081176,
+      "grad_norm": 5.0,
+      "learning_rate": 9.996253303903247e-06,
+      "loss": 1.7288847,
+      "memory(GiB)": 58.14,
+      "step": 4865,
+      "train_speed(iter/s)": 0.451332
+    },
+    {
+      "acc": 0.63049917,
+      "epoch": 0.12354134956874682,
+      "grad_norm": 4.5625,
+      "learning_rate": 9.996212606504713e-06,
+      "loss": 1.72965984,
+      "memory(GiB)": 58.14,
+      "step": 4870,
+      "train_speed(iter/s)": 0.451576
+    },
+    {
+      "acc": 0.65030603,
+      "epoch": 0.12366818873668188,
+      "grad_norm": 5.78125,
+      "learning_rate": 9.996171689350444e-06,
+      "loss": 1.75297108,
+      "memory(GiB)": 58.14,
+      "step": 4875,
+      "train_speed(iter/s)": 0.451819
+    },
+    {
+      "acc": 0.6482976,
+      "epoch": 0.12379502790461694,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.996130552442237e-06,
+      "loss": 1.67681484,
+      "memory(GiB)": 58.14,
+      "step": 4880,
+      "train_speed(iter/s)": 0.452064
+    },
+    {
+      "acc": 0.63315368,
+      "epoch": 0.123921867072552,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.996089195781902e-06,
+      "loss": 1.65789948,
+      "memory(GiB)": 58.14,
+      "step": 4885,
+      "train_speed(iter/s)": 0.452305
+    },
+    {
+      "acc": 0.63042555,
+      "epoch": 0.12404870624048706,
+      "grad_norm": 5.5,
+      "learning_rate": 9.996047619371256e-06,
+      "loss": 1.76520863,
+      "memory(GiB)": 58.14,
+      "step": 4890,
+      "train_speed(iter/s)": 0.452548
+    },
+    {
+      "acc": 0.64517727,
+      "epoch": 0.12417554540842211,
+      "grad_norm": 6.40625,
+      "learning_rate": 9.996005823212132e-06,
+      "loss": 1.73255177,
+      "memory(GiB)": 58.14,
+      "step": 4895,
+      "train_speed(iter/s)": 0.45279
+    },
+    {
+      "acc": 0.63175397,
+      "epoch": 0.12430238457635717,
+      "grad_norm": 6.75,
+      "learning_rate": 9.995963807306368e-06,
+      "loss": 1.74234314,
+      "memory(GiB)": 58.14,
+      "step": 4900,
+      "train_speed(iter/s)": 0.453034
+    },
+    {
+      "epoch": 0.12430238457635717,
+      "eval_acc": 0.6244764853403362,
+      "eval_loss": 1.720935583114624,
+      "eval_runtime": 113.2657,
+      "eval_samples_per_second": 56.239,
+      "eval_steps_per_second": 28.12,
+      "step": 4900
+    },
+    {
+      "acc": 0.63740139,
+      "epoch": 0.12442922374429223,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.995921571655808e-06,
+      "loss": 1.71653137,
+      "memory(GiB)": 58.14,
+      "step": 4905,
+      "train_speed(iter/s)": 0.448397
+    },
+    {
+      "acc": 0.62355433,
+      "epoch": 0.12455606291222729,
+      "grad_norm": 6.3125,
+      "learning_rate": 9.995879116262312e-06,
+      "loss": 1.77159882,
+      "memory(GiB)": 58.14,
+      "step": 4910,
+      "train_speed(iter/s)": 0.448638
+    },
+    {
+      "acc": 0.64844608,
+      "epoch": 0.12468290208016235,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.995836441127749e-06,
+      "loss": 1.65455017,
+      "memory(GiB)": 58.14,
+      "step": 4915,
+      "train_speed(iter/s)": 0.448877
+    },
+    {
+      "acc": 0.64269943,
+      "epoch": 0.1248097412480974,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.995793546253993e-06,
+      "loss": 1.63613682,
+      "memory(GiB)": 58.14,
+      "step": 4920,
+      "train_speed(iter/s)": 0.449117
+    },
+    {
+      "acc": 0.64152327,
+      "epoch": 0.12493658041603246,
+      "grad_norm": 5.75,
+      "learning_rate": 9.995750431642933e-06,
+      "loss": 1.74731522,
+      "memory(GiB)": 58.14,
+      "step": 4925,
+      "train_speed(iter/s)": 0.449357
+    },
+    {
+      "acc": 0.63020616,
+      "epoch": 0.12506341958396752,
+      "grad_norm": 6.0625,
+      "learning_rate": 9.995707097296465e-06,
+      "loss": 1.76956387,
+      "memory(GiB)": 58.14,
+      "step": 4930,
+      "train_speed(iter/s)": 0.449597
+    },
+    {
+      "acc": 0.6298851,
+      "epoch": 0.1251902587519026,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.995663543216493e-06,
+      "loss": 1.75992546,
+      "memory(GiB)": 58.14,
+      "step": 4935,
+      "train_speed(iter/s)": 0.449835
+    },
+    {
+      "acc": 0.64089832,
+      "epoch": 0.12531709791983764,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.995619769404936e-06,
+      "loss": 1.72555828,
+      "memory(GiB)": 58.14,
+      "step": 4940,
+      "train_speed(iter/s)": 0.450073
+    },
+    {
+      "acc": 0.61417646,
+      "epoch": 0.1254439370877727,
+      "grad_norm": 6.28125,
+      "learning_rate": 9.995575775863717e-06,
+      "loss": 1.82039833,
+      "memory(GiB)": 58.14,
+      "step": 4945,
+      "train_speed(iter/s)": 0.450309
+    },
+    {
+      "acc": 0.65074611,
+      "epoch": 0.12557077625570776,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.995531562594773e-06,
+      "loss": 1.72393265,
+      "memory(GiB)": 58.14,
+      "step": 4950,
+      "train_speed(iter/s)": 0.450546
+    },
+    {
+      "acc": 0.64919972,
+      "epoch": 0.12569761542364283,
+      "grad_norm": 5.8125,
+      "learning_rate": 9.995487129600046e-06,
+      "loss": 1.67064629,
+      "memory(GiB)": 58.14,
+      "step": 4955,
+      "train_speed(iter/s)": 0.450784
+    },
+    {
+      "acc": 0.6427999,
+      "epoch": 0.12582445459157787,
+      "grad_norm": 4.875,
+      "learning_rate": 9.995442476881491e-06,
+      "loss": 1.7232132,
+      "memory(GiB)": 58.14,
+      "step": 4960,
+      "train_speed(iter/s)": 0.451019
+    },
+    {
+      "acc": 0.63472452,
+      "epoch": 0.12595129375951294,
+      "grad_norm": 4.625,
+      "learning_rate": 9.995397604441076e-06,
+      "loss": 1.71817131,
+      "memory(GiB)": 58.14,
+      "step": 4965,
+      "train_speed(iter/s)": 0.45126
+    },
+    {
+      "acc": 0.64442329,
+      "epoch": 0.126078132927448,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.995352512280767e-06,
+      "loss": 1.75287018,
+      "memory(GiB)": 58.14,
+      "step": 4970,
+      "train_speed(iter/s)": 0.451498
+    },
+    {
+      "acc": 0.64105768,
+      "epoch": 0.12620497209538306,
+      "grad_norm": 6.1875,
+      "learning_rate": 9.995307200402555e-06,
+      "loss": 1.74288979,
+      "memory(GiB)": 58.14,
+      "step": 4975,
+      "train_speed(iter/s)": 0.45174
+    },
+    {
+      "acc": 0.63702526,
+      "epoch": 0.1263318112633181,
+      "grad_norm": 5.8125,
+      "learning_rate": 9.995261668808429e-06,
+      "loss": 1.6472868,
+      "memory(GiB)": 58.14,
+      "step": 4980,
+      "train_speed(iter/s)": 0.45198
+    },
+    {
+      "acc": 0.65537586,
+      "epoch": 0.12645865043125318,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.995215917500395e-06,
+      "loss": 1.65482178,
+      "memory(GiB)": 58.14,
+      "step": 4985,
+      "train_speed(iter/s)": 0.45222
+    },
+    {
+      "acc": 0.61985517,
+      "epoch": 0.12658548959918822,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.995169946480459e-06,
+      "loss": 1.72397575,
+      "memory(GiB)": 58.14,
+      "step": 4990,
+      "train_speed(iter/s)": 0.452459
+    },
+    {
+      "acc": 0.62642651,
+      "epoch": 0.1267123287671233,
+      "grad_norm": 5.875,
+      "learning_rate": 9.99512375575065e-06,
+      "loss": 1.73385048,
+      "memory(GiB)": 58.14,
+      "step": 4995,
+      "train_speed(iter/s)": 0.452697
+    },
+    {
+      "acc": 0.6396203,
+      "epoch": 0.12683916793505834,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.995077345312994e-06,
+      "loss": 1.75152912,
+      "memory(GiB)": 58.14,
+      "step": 5000,
+      "train_speed(iter/s)": 0.452936
+    },
+    {
+      "epoch": 0.12683916793505834,
+      "eval_acc": 0.6249945168040634,
+      "eval_loss": 1.71718168258667,
+      "eval_runtime": 112.8946,
+      "eval_samples_per_second": 56.424,
+      "eval_steps_per_second": 28.212,
+      "step": 5000
+    },
+    {
+      "acc": 0.62750554,
+      "epoch": 0.1269660071029934,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.995030715169535e-06,
+      "loss": 1.77503719,
+      "memory(GiB)": 58.14,
+      "step": 5005,
+      "train_speed(iter/s)": 0.44841
+    },
+    {
+      "acc": 0.62299132,
+      "epoch": 0.12709284627092846,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.994983865322327e-06,
+      "loss": 1.785462,
+      "memory(GiB)": 58.14,
+      "step": 5010,
+      "train_speed(iter/s)": 0.44865
+    },
+    {
+      "acc": 0.63477411,
+      "epoch": 0.12721968543886353,
+      "grad_norm": 6.5,
+      "learning_rate": 9.994936795773424e-06,
+      "loss": 1.72480125,
+      "memory(GiB)": 58.14,
+      "step": 5015,
+      "train_speed(iter/s)": 0.448886
+    },
+    {
+      "acc": 0.6355526,
+      "epoch": 0.12734652460679857,
+      "grad_norm": 4.5,
+      "learning_rate": 9.994889506524903e-06,
+      "loss": 1.7173584,
+      "memory(GiB)": 58.14,
+      "step": 5020,
+      "train_speed(iter/s)": 0.449124
+    },
+    {
+      "acc": 0.63450956,
+      "epoch": 0.12747336377473364,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.994841997578839e-06,
+      "loss": 1.77025185,
+      "memory(GiB)": 58.14,
+      "step": 5025,
+      "train_speed(iter/s)": 0.449362
+    },
+    {
+      "acc": 0.64327793,
+      "epoch": 0.1276002029426687,
+      "grad_norm": 4.28125,
+      "learning_rate": 9.994794268937325e-06,
+      "loss": 1.73540573,
+      "memory(GiB)": 58.14,
+      "step": 5030,
+      "train_speed(iter/s)": 0.4496
+    },
+    {
+      "acc": 0.62260504,
+      "epoch": 0.12772704211060376,
+      "grad_norm": 6.90625,
+      "learning_rate": 9.994746320602457e-06,
+      "loss": 1.80532665,
+      "memory(GiB)": 58.14,
+      "step": 5035,
+      "train_speed(iter/s)": 0.44984
+    },
+    {
+      "acc": 0.63432403,
+      "epoch": 0.1278538812785388,
+      "grad_norm": 4.59375,
+      "learning_rate": 9.994698152576347e-06,
+      "loss": 1.74718781,
+      "memory(GiB)": 58.14,
+      "step": 5040,
+      "train_speed(iter/s)": 0.450081
+    },
+    {
+      "acc": 0.63752632,
+      "epoch": 0.12798072044647388,
+      "grad_norm": 5.6875,
+      "learning_rate": 9.994649764861114e-06,
+      "loss": 1.72059212,
+      "memory(GiB)": 58.14,
+      "step": 5045,
+      "train_speed(iter/s)": 0.45032
+    },
+    {
+      "acc": 0.62703476,
+      "epoch": 0.12810755961440892,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.994601157458882e-06,
+      "loss": 1.74051857,
+      "memory(GiB)": 58.14,
+      "step": 5050,
+      "train_speed(iter/s)": 0.45056
+    },
+    {
+      "acc": 0.61078701,
+      "epoch": 0.128234398782344,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.994552330371792e-06,
+      "loss": 1.78131847,
+      "memory(GiB)": 58.14,
+      "step": 5055,
+      "train_speed(iter/s)": 0.450798
+    },
+    {
+      "acc": 0.62378693,
+      "epoch": 0.12836123795027904,
+      "grad_norm": 4.5,
+      "learning_rate": 9.994503283601993e-06,
+      "loss": 1.7459137,
+      "memory(GiB)": 58.14,
+      "step": 5060,
+      "train_speed(iter/s)": 0.451038
+    },
+    {
+      "acc": 0.62276478,
+      "epoch": 0.1284880771182141,
+      "grad_norm": 4.46875,
+      "learning_rate": 9.99445401715164e-06,
+      "loss": 1.80179634,
+      "memory(GiB)": 58.14,
+      "step": 5065,
+      "train_speed(iter/s)": 0.451277
+    },
+    {
+      "acc": 0.63484154,
+      "epoch": 0.12861491628614916,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.994404531022901e-06,
+      "loss": 1.68935127,
+      "memory(GiB)": 58.14,
+      "step": 5070,
+      "train_speed(iter/s)": 0.451512
+    },
+    {
+      "acc": 0.64244261,
+      "epoch": 0.12874175545408423,
+      "grad_norm": 6.75,
+      "learning_rate": 9.994354825217954e-06,
+      "loss": 1.68698025,
+      "memory(GiB)": 58.14,
+      "step": 5075,
+      "train_speed(iter/s)": 0.451749
+    },
+    {
+      "acc": 0.62662172,
+      "epoch": 0.12886859462201927,
+      "grad_norm": 5.625,
+      "learning_rate": 9.99430489973898e-06,
+      "loss": 1.75492172,
+      "memory(GiB)": 58.14,
+      "step": 5080,
+      "train_speed(iter/s)": 0.451985
+    },
+    {
+      "acc": 0.62019196,
+      "epoch": 0.12899543378995434,
+      "grad_norm": 7.71875,
+      "learning_rate": 9.994254754588182e-06,
+      "loss": 1.81921692,
+      "memory(GiB)": 58.14,
+      "step": 5085,
+      "train_speed(iter/s)": 0.452223
+    },
+    {
+      "acc": 0.63716955,
+      "epoch": 0.1291222729578894,
+      "grad_norm": 4.875,
+      "learning_rate": 9.99420438976776e-06,
+      "loss": 1.68088188,
+      "memory(GiB)": 58.14,
+      "step": 5090,
+      "train_speed(iter/s)": 0.45246
+    },
+    {
+      "acc": 0.62650213,
+      "epoch": 0.12924911212582446,
+      "grad_norm": 5.875,
+      "learning_rate": 9.994153805279932e-06,
+      "loss": 1.74250259,
+      "memory(GiB)": 58.14,
+      "step": 5095,
+      "train_speed(iter/s)": 0.452699
+    },
+    {
+      "acc": 0.63830347,
+      "epoch": 0.1293759512937595,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.994103001126923e-06,
+      "loss": 1.67629318,
+      "memory(GiB)": 58.14,
+      "step": 5100,
+      "train_speed(iter/s)": 0.452934
+    },
+    {
+      "epoch": 0.1293759512937595,
+      "eval_acc": 0.6254711893041542,
+      "eval_loss": 1.714188814163208,
+      "eval_runtime": 112.5712,
+      "eval_samples_per_second": 56.586,
+      "eval_steps_per_second": 28.293,
+      "step": 5100
+    },
+    {
+      "acc": 0.63393269,
+      "epoch": 0.12950279046169458,
+      "grad_norm": 5.96875,
+      "learning_rate": 9.994051977310966e-06,
+      "loss": 1.72539673,
+      "memory(GiB)": 58.14,
+      "step": 5105,
+      "train_speed(iter/s)": 0.448509
+    },
+    {
+      "acc": 0.61500268,
+      "epoch": 0.12962962962962962,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.994000733834307e-06,
+      "loss": 1.84072914,
+      "memory(GiB)": 58.14,
+      "step": 5110,
+      "train_speed(iter/s)": 0.448741
+    },
+    {
+      "acc": 0.64216518,
+      "epoch": 0.1297564687975647,
+      "grad_norm": 4.4375,
+      "learning_rate": 9.993949270699197e-06,
+      "loss": 1.71509991,
+      "memory(GiB)": 58.14,
+      "step": 5115,
+      "train_speed(iter/s)": 0.448973
+    },
+    {
+      "acc": 0.65311861,
+      "epoch": 0.12988330796549974,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.993897587907904e-06,
+      "loss": 1.65904999,
+      "memory(GiB)": 58.14,
+      "step": 5120,
+      "train_speed(iter/s)": 0.449206
+    },
+    {
+      "acc": 0.63206854,
+      "epoch": 0.1300101471334348,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.993845685462697e-06,
+      "loss": 1.72628212,
+      "memory(GiB)": 58.14,
+      "step": 5125,
+      "train_speed(iter/s)": 0.44944
+    },
+    {
+      "acc": 0.610113,
+      "epoch": 0.13013698630136986,
+      "grad_norm": 6.53125,
+      "learning_rate": 9.993793563365864e-06,
+      "loss": 1.78667793,
+      "memory(GiB)": 58.14,
+      "step": 5130,
+      "train_speed(iter/s)": 0.449673
+    },
+    {
+      "acc": 0.62896633,
+      "epoch": 0.13026382546930493,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.993741221619692e-06,
+      "loss": 1.71539001,
+      "memory(GiB)": 58.14,
+      "step": 5135,
+      "train_speed(iter/s)": 0.449906
+    },
+    {
+      "acc": 0.63802094,
+      "epoch": 0.13039066463723997,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.993688660226486e-06,
+      "loss": 1.72593117,
+      "memory(GiB)": 58.14,
+      "step": 5140,
+      "train_speed(iter/s)": 0.450138
+    },
+    {
+      "acc": 0.65150294,
+      "epoch": 0.13051750380517504,
+      "grad_norm": 6.9375,
+      "learning_rate": 9.993635879188557e-06,
+      "loss": 1.65838318,
+      "memory(GiB)": 58.14,
+      "step": 5145,
+      "train_speed(iter/s)": 0.45037
+    },
+    {
+      "acc": 0.63751578,
+      "epoch": 0.1306443429731101,
+      "grad_norm": 5.625,
+      "learning_rate": 9.993582878508229e-06,
+      "loss": 1.72323799,
+      "memory(GiB)": 58.14,
+      "step": 5150,
+      "train_speed(iter/s)": 0.450604
+    },
+    {
+      "acc": 0.62342672,
+      "epoch": 0.13077118214104516,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.993529658187829e-06,
+      "loss": 1.74900551,
+      "memory(GiB)": 58.14,
+      "step": 5155,
+      "train_speed(iter/s)": 0.450838
+    },
+    {
+      "acc": 0.64327831,
+      "epoch": 0.1308980213089802,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.9934762182297e-06,
+      "loss": 1.73193378,
+      "memory(GiB)": 58.14,
+      "step": 5160,
+      "train_speed(iter/s)": 0.451073
+    },
+    {
+      "acc": 0.64361877,
+      "epoch": 0.13102486047691528,
+      "grad_norm": 5.25,
+      "learning_rate": 9.993422558636194e-06,
+      "loss": 1.69143028,
+      "memory(GiB)": 58.14,
+      "step": 5165,
+      "train_speed(iter/s)": 0.451307
+    },
+    {
+      "acc": 0.63712921,
+      "epoch": 0.13115169964485032,
+      "grad_norm": 4.6875,
+      "learning_rate": 9.99336867940967e-06,
+      "loss": 1.70390816,
+      "memory(GiB)": 58.14,
+      "step": 5170,
+      "train_speed(iter/s)": 0.451539
+    },
+    {
+      "acc": 0.64330087,
+      "epoch": 0.1312785388127854,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.993314580552497e-06,
+      "loss": 1.66401463,
+      "memory(GiB)": 58.14,
+      "step": 5175,
+      "train_speed(iter/s)": 0.45177
+    },
+    {
+      "acc": 0.63401985,
+      "epoch": 0.13140537798072044,
+      "grad_norm": 6.875,
+      "learning_rate": 9.993260262067054e-06,
+      "loss": 1.69700222,
+      "memory(GiB)": 58.14,
+      "step": 5180,
+      "train_speed(iter/s)": 0.452001
+    },
+    {
+      "acc": 0.62357326,
+      "epoch": 0.1315322171486555,
+      "grad_norm": 6.1875,
+      "learning_rate": 9.993205723955734e-06,
+      "loss": 1.77450199,
+      "memory(GiB)": 58.14,
+      "step": 5185,
+      "train_speed(iter/s)": 0.452233
+    },
+    {
+      "acc": 0.63847804,
+      "epoch": 0.13165905631659056,
+      "grad_norm": 6.84375,
+      "learning_rate": 9.993150966220933e-06,
+      "loss": 1.70064011,
+      "memory(GiB)": 58.14,
+      "step": 5190,
+      "train_speed(iter/s)": 0.452466
+    },
+    {
+      "acc": 0.62693038,
+      "epoch": 0.13178589548452563,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.993095988865057e-06,
+      "loss": 1.74888954,
+      "memory(GiB)": 58.14,
+      "step": 5195,
+      "train_speed(iter/s)": 0.452697
+    },
+    {
+      "acc": 0.62766085,
+      "epoch": 0.13191273465246067,
+      "grad_norm": 4.625,
+      "learning_rate": 9.99304079189053e-06,
+      "loss": 1.76516953,
+      "memory(GiB)": 58.14,
+      "step": 5200,
+      "train_speed(iter/s)": 0.452929
+    },
+    {
+      "epoch": 0.13191273465246067,
+      "eval_acc": 0.6260268198257325,
+      "eval_loss": 1.7115122079849243,
+      "eval_runtime": 112.8977,
+      "eval_samples_per_second": 56.423,
+      "eval_steps_per_second": 28.211,
+      "step": 5200
+    },
+    {
+      "acc": 0.64038615,
+      "epoch": 0.13203957382039574,
+      "grad_norm": 6.96875,
+      "learning_rate": 9.992985375299775e-06,
+      "loss": 1.71148281,
+      "memory(GiB)": 58.14,
+      "step": 5205,
+      "train_speed(iter/s)": 0.448574
+    },
+    {
+      "acc": 0.61575127,
+      "epoch": 0.1321664129883308,
+      "grad_norm": 6.15625,
+      "learning_rate": 9.992929739095232e-06,
+      "loss": 1.74047546,
+      "memory(GiB)": 58.14,
+      "step": 5210,
+      "train_speed(iter/s)": 0.448801
+    },
+    {
+      "acc": 0.62180467,
+      "epoch": 0.13229325215626586,
+      "grad_norm": 5.78125,
+      "learning_rate": 9.992873883279345e-06,
+      "loss": 1.80330601,
+      "memory(GiB)": 58.14,
+      "step": 5215,
+      "train_speed(iter/s)": 0.449026
+    },
+    {
+      "acc": 0.6183321,
+      "epoch": 0.1324200913242009,
+      "grad_norm": 4.3125,
+      "learning_rate": 9.992817807854575e-06,
+      "loss": 1.72780037,
+      "memory(GiB)": 58.14,
+      "step": 5220,
+      "train_speed(iter/s)": 0.449252
+    },
+    {
+      "acc": 0.63860044,
+      "epoch": 0.13254693049213598,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.992761512823386e-06,
+      "loss": 1.74751244,
+      "memory(GiB)": 58.14,
+      "step": 5225,
+      "train_speed(iter/s)": 0.449478
+    },
+    {
+      "acc": 0.63357019,
+      "epoch": 0.13267376966007102,
+      "grad_norm": 6.34375,
+      "learning_rate": 9.992704998188255e-06,
+      "loss": 1.73373642,
+      "memory(GiB)": 58.14,
+      "step": 5230,
+      "train_speed(iter/s)": 0.449701
+    },
+    {
+      "acc": 0.61008377,
+      "epoch": 0.1328006088280061,
+      "grad_norm": 5.875,
+      "learning_rate": 9.992648263951668e-06,
+      "loss": 1.84115257,
+      "memory(GiB)": 58.14,
+      "step": 5235,
+      "train_speed(iter/s)": 0.449927
+    },
+    {
+      "acc": 0.6349618,
+      "epoch": 0.13292744799594114,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.992591310116118e-06,
+      "loss": 1.75060005,
+      "memory(GiB)": 58.14,
+      "step": 5240,
+      "train_speed(iter/s)": 0.450151
+    },
+    {
+      "acc": 0.63464537,
+      "epoch": 0.1330542871638762,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.992534136684112e-06,
+      "loss": 1.69572353,
+      "memory(GiB)": 58.14,
+      "step": 5245,
+      "train_speed(iter/s)": 0.450376
+    },
+    {
+      "acc": 0.63878732,
+      "epoch": 0.13318112633181126,
+      "grad_norm": 5.375,
+      "learning_rate": 9.992476743658165e-06,
+      "loss": 1.71288414,
+      "memory(GiB)": 58.14,
+      "step": 5250,
+      "train_speed(iter/s)": 0.4506
+    },
+    {
+      "acc": 0.6463376,
+      "epoch": 0.13330796549974633,
+      "grad_norm": 4.4375,
+      "learning_rate": 9.992419131040803e-06,
+      "loss": 1.65821724,
+      "memory(GiB)": 58.14,
+      "step": 5255,
+      "train_speed(iter/s)": 0.450822
+    },
+    {
+      "acc": 0.65013642,
+      "epoch": 0.13343480466768137,
+      "grad_norm": 5.375,
+      "learning_rate": 9.992361298834555e-06,
+      "loss": 1.63699226,
+      "memory(GiB)": 58.14,
+      "step": 5260,
+      "train_speed(iter/s)": 0.451048
+    },
+    {
+      "acc": 0.63408928,
+      "epoch": 0.13356164383561644,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.99230324704197e-06,
+      "loss": 1.77814865,
+      "memory(GiB)": 58.14,
+      "step": 5265,
+      "train_speed(iter/s)": 0.451274
+    },
+    {
+      "acc": 0.64577188,
+      "epoch": 0.1336884830035515,
+      "grad_norm": 5.625,
+      "learning_rate": 9.992244975665598e-06,
+      "loss": 1.73048325,
+      "memory(GiB)": 58.14,
+      "step": 5270,
+      "train_speed(iter/s)": 0.451499
+    },
+    {
+      "acc": 0.6382637,
+      "epoch": 0.13381532217148656,
+      "grad_norm": 4.75,
+      "learning_rate": 9.992186484708003e-06,
+      "loss": 1.73220997,
+      "memory(GiB)": 58.14,
+      "step": 5275,
+      "train_speed(iter/s)": 0.451725
+    },
+    {
+      "acc": 0.63703451,
+      "epoch": 0.1339421613394216,
+      "grad_norm": 5.75,
+      "learning_rate": 9.992127774171759e-06,
+      "loss": 1.67782555,
+      "memory(GiB)": 58.14,
+      "step": 5280,
+      "train_speed(iter/s)": 0.45195
+    },
+    {
+      "acc": 0.62347593,
+      "epoch": 0.13406900050735668,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.992068844059446e-06,
+      "loss": 1.86431198,
+      "memory(GiB)": 58.14,
+      "step": 5285,
+      "train_speed(iter/s)": 0.452172
+    },
+    {
+      "acc": 0.62769251,
+      "epoch": 0.13419583967529172,
+      "grad_norm": 6.78125,
+      "learning_rate": 9.992009694373658e-06,
+      "loss": 1.73803234,
+      "memory(GiB)": 58.14,
+      "step": 5290,
+      "train_speed(iter/s)": 0.452393
+    },
+    {
+      "acc": 0.63466682,
+      "epoch": 0.1343226788432268,
+      "grad_norm": 7.5,
+      "learning_rate": 9.991950325116995e-06,
+      "loss": 1.7753149,
+      "memory(GiB)": 58.14,
+      "step": 5295,
+      "train_speed(iter/s)": 0.452614
+    },
+    {
+      "acc": 0.62895641,
+      "epoch": 0.13444951801116184,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.99189073629207e-06,
+      "loss": 1.69495907,
+      "memory(GiB)": 58.14,
+      "step": 5300,
+      "train_speed(iter/s)": 0.452836
+    },
+    {
+      "epoch": 0.13444951801116184,
+      "eval_acc": 0.6264725775449236,
+      "eval_loss": 1.708350419998169,
+      "eval_runtime": 112.8832,
+      "eval_samples_per_second": 56.43,
+      "eval_steps_per_second": 28.215,
+      "step": 5300
+    },
+    {
+      "acc": 0.61796231,
+      "epoch": 0.1345763571790969,
+      "grad_norm": 6.125,
+      "learning_rate": 9.991830927901505e-06,
+      "loss": 1.83663063,
+      "memory(GiB)": 58.14,
+      "step": 5305,
+      "train_speed(iter/s)": 0.448562
+    },
+    {
+      "acc": 0.63969641,
+      "epoch": 0.13470319634703196,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.991770899947925e-06,
+      "loss": 1.66208706,
+      "memory(GiB)": 58.14,
+      "step": 5310,
+      "train_speed(iter/s)": 0.448778
+    },
+    {
+      "acc": 0.63490686,
+      "epoch": 0.13483003551496703,
+      "grad_norm": 6.90625,
+      "learning_rate": 9.991710652433977e-06,
+      "loss": 1.72326355,
+      "memory(GiB)": 58.14,
+      "step": 5315,
+      "train_speed(iter/s)": 0.449001
+    },
+    {
+      "acc": 0.6203721,
+      "epoch": 0.13495687468290207,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.991650185362308e-06,
+      "loss": 1.74798393,
+      "memory(GiB)": 58.14,
+      "step": 5320,
+      "train_speed(iter/s)": 0.449222
+    },
+    {
+      "acc": 0.63403864,
+      "epoch": 0.13508371385083714,
+      "grad_norm": 5.71875,
+      "learning_rate": 9.991589498735577e-06,
+      "loss": 1.68383026,
+      "memory(GiB)": 58.14,
+      "step": 5325,
+      "train_speed(iter/s)": 0.449443
+    },
+    {
+      "acc": 0.63904982,
+      "epoch": 0.1352105530187722,
+      "grad_norm": 6.28125,
+      "learning_rate": 9.991528592556454e-06,
+      "loss": 1.70016575,
+      "memory(GiB)": 58.14,
+      "step": 5330,
+      "train_speed(iter/s)": 0.449667
+    },
+    {
+      "acc": 0.61987438,
+      "epoch": 0.13533739218670726,
+      "grad_norm": 6.15625,
+      "learning_rate": 9.991467466827618e-06,
+      "loss": 1.79643078,
+      "memory(GiB)": 58.14,
+      "step": 5335,
+      "train_speed(iter/s)": 0.449889
+    },
+    {
+      "acc": 0.63877478,
+      "epoch": 0.1354642313546423,
+      "grad_norm": 6.125,
+      "learning_rate": 9.99140612155176e-06,
+      "loss": 1.75025101,
+      "memory(GiB)": 58.14,
+      "step": 5340,
+      "train_speed(iter/s)": 0.450109
+    },
+    {
+      "acc": 0.61600952,
+      "epoch": 0.13559107052257738,
+      "grad_norm": 5.78125,
+      "learning_rate": 9.991344556731572e-06,
+      "loss": 1.7739048,
+      "memory(GiB)": 58.14,
+      "step": 5345,
+      "train_speed(iter/s)": 0.45033
+    },
+    {
+      "acc": 0.64483056,
+      "epoch": 0.13571790969051242,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.991282772369766e-06,
+      "loss": 1.68408813,
+      "memory(GiB)": 58.14,
+      "step": 5350,
+      "train_speed(iter/s)": 0.450552
+    },
+    {
+      "acc": 0.63678727,
+      "epoch": 0.1358447488584475,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.99122076846906e-06,
+      "loss": 1.67467785,
+      "memory(GiB)": 58.14,
+      "step": 5355,
+      "train_speed(iter/s)": 0.450771
+    },
+    {
+      "acc": 0.64348612,
+      "epoch": 0.13597158802638254,
+      "grad_norm": 5.0,
+      "learning_rate": 9.991158545032181e-06,
+      "loss": 1.72426262,
+      "memory(GiB)": 58.14,
+      "step": 5360,
+      "train_speed(iter/s)": 0.450991
+    },
+    {
+      "acc": 0.65286303,
+      "epoch": 0.1360984271943176,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.991096102061865e-06,
+      "loss": 1.68236923,
+      "memory(GiB)": 58.14,
+      "step": 5365,
+      "train_speed(iter/s)": 0.451212
+    },
+    {
+      "acc": 0.63559065,
+      "epoch": 0.13622526636225266,
+      "grad_norm": 6.53125,
+      "learning_rate": 9.991033439560858e-06,
+      "loss": 1.71892796,
+      "memory(GiB)": 58.14,
+      "step": 5370,
+      "train_speed(iter/s)": 0.451433
+    },
+    {
+      "acc": 0.62383866,
+      "epoch": 0.13635210553018773,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.990970557531918e-06,
+      "loss": 1.79070187,
+      "memory(GiB)": 58.14,
+      "step": 5375,
+      "train_speed(iter/s)": 0.451653
+    },
+    {
+      "acc": 0.65104985,
+      "epoch": 0.13647894469812277,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.990907455977809e-06,
+      "loss": 1.69440556,
+      "memory(GiB)": 58.14,
+      "step": 5380,
+      "train_speed(iter/s)": 0.451872
+    },
+    {
+      "acc": 0.624965,
+      "epoch": 0.13660578386605784,
+      "grad_norm": 4.53125,
+      "learning_rate": 9.990844134901308e-06,
+      "loss": 1.75557594,
+      "memory(GiB)": 58.14,
+      "step": 5385,
+      "train_speed(iter/s)": 0.452092
+    },
+    {
+      "acc": 0.65195866,
+      "epoch": 0.1367326230339929,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.9907805943052e-06,
+      "loss": 1.66792908,
+      "memory(GiB)": 58.14,
+      "step": 5390,
+      "train_speed(iter/s)": 0.45231
+    },
+    {
+      "acc": 0.63221412,
+      "epoch": 0.13685946220192796,
+      "grad_norm": 4.59375,
+      "learning_rate": 9.990716834192278e-06,
+      "loss": 1.66729813,
+      "memory(GiB)": 58.14,
+      "step": 5395,
+      "train_speed(iter/s)": 0.452528
+    },
+    {
+      "acc": 0.62673078,
+      "epoch": 0.136986301369863,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.990652854565348e-06,
+      "loss": 1.7620472,
+      "memory(GiB)": 58.14,
+      "step": 5400,
+      "train_speed(iter/s)": 0.452746
+    },
+    {
+      "epoch": 0.136986301369863,
+      "eval_acc": 0.6268168178079164,
+      "eval_loss": 1.7059340476989746,
+      "eval_runtime": 112.4627,
+      "eval_samples_per_second": 56.641,
+      "eval_steps_per_second": 28.321,
+      "step": 5400
+    },
+    {
+      "acc": 0.62790203,
+      "epoch": 0.13711314053779808,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.990588655427225e-06,
+      "loss": 1.77883072,
+      "memory(GiB)": 58.14,
+      "step": 5405,
+      "train_speed(iter/s)": 0.448567
+    },
+    {
+      "acc": 0.64419107,
+      "epoch": 0.13723997970573312,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.99052423678073e-06,
+      "loss": 1.71225319,
+      "memory(GiB)": 58.14,
+      "step": 5410,
+      "train_speed(iter/s)": 0.448784
+    },
+    {
+      "acc": 0.63921566,
+      "epoch": 0.1373668188736682,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.990459598628697e-06,
+      "loss": 1.66631508,
+      "memory(GiB)": 58.14,
+      "step": 5415,
+      "train_speed(iter/s)": 0.449002
+    },
+    {
+      "acc": 0.63895082,
+      "epoch": 0.13749365804160324,
+      "grad_norm": 4.4375,
+      "learning_rate": 9.990394740973972e-06,
+      "loss": 1.6214489,
+      "memory(GiB)": 58.14,
+      "step": 5420,
+      "train_speed(iter/s)": 0.449215
+    },
+    {
+      "acc": 0.64224005,
+      "epoch": 0.1376204972095383,
+      "grad_norm": 5.75,
+      "learning_rate": 9.990329663819405e-06,
+      "loss": 1.74676895,
+      "memory(GiB)": 58.14,
+      "step": 5425,
+      "train_speed(iter/s)": 0.449432
+    },
+    {
+      "acc": 0.63956337,
+      "epoch": 0.13774733637747336,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.99026436716786e-06,
+      "loss": 1.69299278,
+      "memory(GiB)": 58.14,
+      "step": 5430,
+      "train_speed(iter/s)": 0.449646
+    },
+    {
+      "acc": 0.63139544,
+      "epoch": 0.13787417554540843,
+      "grad_norm": 4.28125,
+      "learning_rate": 9.990198851022207e-06,
+      "loss": 1.7079216,
+      "memory(GiB)": 58.14,
+      "step": 5435,
+      "train_speed(iter/s)": 0.449861
+    },
+    {
+      "acc": 0.6418067,
+      "epoch": 0.13800101471334347,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.99013311538533e-06,
+      "loss": 1.69390507,
+      "memory(GiB)": 58.14,
+      "step": 5440,
+      "train_speed(iter/s)": 0.450076
+    },
+    {
+      "acc": 0.64191446,
+      "epoch": 0.13812785388127855,
+      "grad_norm": 5.875,
+      "learning_rate": 9.99006716026012e-06,
+      "loss": 1.72927017,
+      "memory(GiB)": 58.14,
+      "step": 5445,
+      "train_speed(iter/s)": 0.450292
+    },
+    {
+      "acc": 0.63658485,
+      "epoch": 0.1382546930492136,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.990000985649475e-06,
+      "loss": 1.7440485,
+      "memory(GiB)": 58.14,
+      "step": 5450,
+      "train_speed(iter/s)": 0.450506
+    },
+    {
+      "acc": 0.63153868,
+      "epoch": 0.13838153221714866,
+      "grad_norm": 5.125,
+      "learning_rate": 9.989934591556308e-06,
+      "loss": 1.7365303,
+      "memory(GiB)": 58.14,
+      "step": 5455,
+      "train_speed(iter/s)": 0.45072
+    },
+    {
+      "acc": 0.6239574,
+      "epoch": 0.1385083713850837,
+      "grad_norm": 6.1875,
+      "learning_rate": 9.98986797798354e-06,
+      "loss": 1.76665497,
+      "memory(GiB)": 58.14,
+      "step": 5460,
+      "train_speed(iter/s)": 0.450933
+    },
+    {
+      "acc": 0.63665466,
+      "epoch": 0.13863521055301878,
+      "grad_norm": 5.84375,
+      "learning_rate": 9.989801144934102e-06,
+      "loss": 1.71201077,
+      "memory(GiB)": 58.14,
+      "step": 5465,
+      "train_speed(iter/s)": 0.451148
+    },
+    {
+      "acc": 0.6433466,
+      "epoch": 0.13876204972095382,
+      "grad_norm": 6.03125,
+      "learning_rate": 9.98973409241093e-06,
+      "loss": 1.7140377,
+      "memory(GiB)": 58.14,
+      "step": 5470,
+      "train_speed(iter/s)": 0.451363
+    },
+    {
+      "acc": 0.63071918,
+      "epoch": 0.1388888888888889,
+      "grad_norm": 5.125,
+      "learning_rate": 9.989666820416974e-06,
+      "loss": 1.70875015,
+      "memory(GiB)": 58.14,
+      "step": 5475,
+      "train_speed(iter/s)": 0.451577
+    },
+    {
+      "acc": 0.63630266,
+      "epoch": 0.13901572805682394,
+      "grad_norm": 7.40625,
+      "learning_rate": 9.989599328955195e-06,
+      "loss": 1.76143684,
+      "memory(GiB)": 58.14,
+      "step": 5480,
+      "train_speed(iter/s)": 0.451793
+    },
+    {
+      "acc": 0.63964424,
+      "epoch": 0.139142567224759,
+      "grad_norm": 4.5625,
+      "learning_rate": 9.98953161802856e-06,
+      "loss": 1.70436306,
+      "memory(GiB)": 58.14,
+      "step": 5485,
+      "train_speed(iter/s)": 0.452004
+    },
+    {
+      "acc": 0.65204549,
+      "epoch": 0.13926940639269406,
+      "grad_norm": 6.4375,
+      "learning_rate": 9.98946368764005e-06,
+      "loss": 1.66906738,
+      "memory(GiB)": 58.14,
+      "step": 5490,
+      "train_speed(iter/s)": 0.452217
+    },
+    {
+      "acc": 0.66132069,
+      "epoch": 0.13939624556062913,
+      "grad_norm": 6.84375,
+      "learning_rate": 9.989395537792647e-06,
+      "loss": 1.68920097,
+      "memory(GiB)": 58.14,
+      "step": 5495,
+      "train_speed(iter/s)": 0.452431
+    },
+    {
+      "acc": 0.62196002,
+      "epoch": 0.13952308472856417,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.989327168489356e-06,
+      "loss": 1.73628559,
+      "memory(GiB)": 58.14,
+      "step": 5500,
+      "train_speed(iter/s)": 0.452643
+    },
+    {
+      "epoch": 0.13952308472856417,
+      "eval_acc": 0.6272792862194857,
+      "eval_loss": 1.7042996883392334,
+      "eval_runtime": 113.2184,
+      "eval_samples_per_second": 56.263,
+      "eval_steps_per_second": 28.131,
+      "step": 5500
+    },
+    {
+      "acc": 0.63909187,
+      "epoch": 0.13964992389649925,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.989258579733179e-06,
+      "loss": 1.74666195,
+      "memory(GiB)": 58.14,
+      "step": 5505,
+      "train_speed(iter/s)": 0.448514
+    },
+    {
+      "acc": 0.63207836,
+      "epoch": 0.1397767630644343,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.989189771527133e-06,
+      "loss": 1.65514946,
+      "memory(GiB)": 58.14,
+      "step": 5510,
+      "train_speed(iter/s)": 0.448724
+    },
+    {
+      "acc": 0.6344851,
+      "epoch": 0.13990360223236936,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.989120743874248e-06,
+      "loss": 1.73748684,
+      "memory(GiB)": 58.14,
+      "step": 5515,
+      "train_speed(iter/s)": 0.448935
+    },
+    {
+      "acc": 0.62594395,
+      "epoch": 0.1400304414003044,
+      "grad_norm": 7.375,
+      "learning_rate": 9.989051496777556e-06,
+      "loss": 1.80770874,
+      "memory(GiB)": 58.14,
+      "step": 5520,
+      "train_speed(iter/s)": 0.449149
+    },
+    {
+      "acc": 0.63148661,
+      "epoch": 0.14015728056823948,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.988982030240104e-06,
+      "loss": 1.74213238,
+      "memory(GiB)": 58.14,
+      "step": 5525,
+      "train_speed(iter/s)": 0.449357
+    },
+    {
+      "acc": 0.63529158,
+      "epoch": 0.14028411973617452,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.988912344264949e-06,
+      "loss": 1.79423065,
+      "memory(GiB)": 58.14,
+      "step": 5530,
+      "train_speed(iter/s)": 0.449569
+    },
+    {
+      "acc": 0.63416309,
+      "epoch": 0.1404109589041096,
+      "grad_norm": 4.5625,
+      "learning_rate": 9.988842438855156e-06,
+      "loss": 1.6672617,
+      "memory(GiB)": 58.14,
+      "step": 5535,
+      "train_speed(iter/s)": 0.449779
+    },
+    {
+      "acc": 0.62745543,
+      "epoch": 0.14053779807204464,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.988772314013799e-06,
+      "loss": 1.73622322,
+      "memory(GiB)": 58.14,
+      "step": 5540,
+      "train_speed(iter/s)": 0.449991
+    },
+    {
+      "acc": 0.63059883,
+      "epoch": 0.1406646372399797,
+      "grad_norm": 5.6875,
+      "learning_rate": 9.988701969743961e-06,
+      "loss": 1.72747498,
+      "memory(GiB)": 58.14,
+      "step": 5545,
+      "train_speed(iter/s)": 0.450204
+    },
+    {
+      "acc": 0.6283535,
+      "epoch": 0.14079147640791476,
+      "grad_norm": 4.40625,
+      "learning_rate": 9.98863140604874e-06,
+      "loss": 1.75545044,
+      "memory(GiB)": 58.14,
+      "step": 5550,
+      "train_speed(iter/s)": 0.450416
+    },
+    {
+      "acc": 0.63903456,
+      "epoch": 0.14091831557584983,
+      "grad_norm": 5.25,
+      "learning_rate": 9.988560622931233e-06,
+      "loss": 1.68769913,
+      "memory(GiB)": 58.14,
+      "step": 5555,
+      "train_speed(iter/s)": 0.450626
+    },
+    {
+      "acc": 0.65626926,
+      "epoch": 0.14104515474378487,
+      "grad_norm": 4.875,
+      "learning_rate": 9.988489620394562e-06,
+      "loss": 1.65706215,
+      "memory(GiB)": 58.14,
+      "step": 5560,
+      "train_speed(iter/s)": 0.450836
+    },
+    {
+      "acc": 0.6474865,
+      "epoch": 0.14117199391171995,
+      "grad_norm": 4.875,
+      "learning_rate": 9.988418398441842e-06,
+      "loss": 1.67927246,
+      "memory(GiB)": 58.14,
+      "step": 5565,
+      "train_speed(iter/s)": 0.451046
+    },
+    {
+      "acc": 0.61654778,
+      "epoch": 0.141298833079655,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.98834695707621e-06,
+      "loss": 1.83884811,
+      "memory(GiB)": 58.14,
+      "step": 5570,
+      "train_speed(iter/s)": 0.451257
+    },
+    {
+      "acc": 0.62592435,
+      "epoch": 0.14142567224759006,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.98827529630081e-06,
+      "loss": 1.73308716,
+      "memory(GiB)": 58.14,
+      "step": 5575,
+      "train_speed(iter/s)": 0.451468
+    },
+    {
+      "acc": 0.63740864,
+      "epoch": 0.1415525114155251,
+      "grad_norm": 4.59375,
+      "learning_rate": 9.988203416118788e-06,
+      "loss": 1.646661,
+      "memory(GiB)": 58.14,
+      "step": 5580,
+      "train_speed(iter/s)": 0.451676
+    },
+    {
+      "acc": 0.64474587,
+      "epoch": 0.14167935058346018,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.98813131653331e-06,
+      "loss": 1.68919258,
+      "memory(GiB)": 58.14,
+      "step": 5585,
+      "train_speed(iter/s)": 0.451885
+    },
+    {
+      "acc": 0.62830696,
+      "epoch": 0.14180618975139522,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.988058997547548e-06,
+      "loss": 1.7219902,
+      "memory(GiB)": 58.14,
+      "step": 5590,
+      "train_speed(iter/s)": 0.452092
+    },
+    {
+      "acc": 0.62381487,
+      "epoch": 0.1419330289193303,
+      "grad_norm": 6.15625,
+      "learning_rate": 9.987986459164678e-06,
+      "loss": 1.81512146,
+      "memory(GiB)": 58.14,
+      "step": 5595,
+      "train_speed(iter/s)": 0.452304
+    },
+    {
+      "acc": 0.63764067,
+      "epoch": 0.14205986808726534,
+      "grad_norm": 6.21875,
+      "learning_rate": 9.987913701387897e-06,
+      "loss": 1.73536224,
+      "memory(GiB)": 58.14,
+      "step": 5600,
+      "train_speed(iter/s)": 0.452514
+    },
+    {
+      "epoch": 0.14205986808726534,
+      "eval_acc": 0.6277634785311469,
+      "eval_loss": 1.7015951871871948,
+      "eval_runtime": 114.8653,
+      "eval_samples_per_second": 55.456,
+      "eval_steps_per_second": 27.728,
+      "step": 5600
+    },
+    {
+      "acc": 0.62242794,
+      "epoch": 0.1421867072552004,
+      "grad_norm": 4.875,
+      "learning_rate": 9.9878407242204e-06,
+      "loss": 1.7536972,
+      "memory(GiB)": 58.14,
+      "step": 5605,
+      "train_speed(iter/s)": 0.448403
+    },
+    {
+      "acc": 0.62527184,
+      "epoch": 0.14231354642313546,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.9877675276654e-06,
+      "loss": 1.72032719,
+      "memory(GiB)": 58.14,
+      "step": 5610,
+      "train_speed(iter/s)": 0.448612
+    },
+    {
+      "acc": 0.64107642,
+      "epoch": 0.14244038559107053,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.987694111726114e-06,
+      "loss": 1.69206257,
+      "memory(GiB)": 58.14,
+      "step": 5615,
+      "train_speed(iter/s)": 0.448819
+    },
+    {
+      "acc": 0.64274669,
+      "epoch": 0.14256722475900557,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.987620476405774e-06,
+      "loss": 1.68389683,
+      "memory(GiB)": 58.14,
+      "step": 5620,
+      "train_speed(iter/s)": 0.449027
+    },
+    {
+      "acc": 0.65106792,
+      "epoch": 0.14269406392694065,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.987546621707616e-06,
+      "loss": 1.67289543,
+      "memory(GiB)": 58.14,
+      "step": 5625,
+      "train_speed(iter/s)": 0.449234
+    },
+    {
+      "acc": 0.62957878,
+      "epoch": 0.1428209030948757,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.98747254763489e-06,
+      "loss": 1.74797707,
+      "memory(GiB)": 58.14,
+      "step": 5630,
+      "train_speed(iter/s)": 0.449441
+    },
+    {
+      "acc": 0.61637611,
+      "epoch": 0.14294774226281076,
+      "grad_norm": 5.75,
+      "learning_rate": 9.987398254190855e-06,
+      "loss": 1.78369484,
+      "memory(GiB)": 58.14,
+      "step": 5635,
+      "train_speed(iter/s)": 0.44965
+    },
+    {
+      "acc": 0.63721752,
+      "epoch": 0.1430745814307458,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.987323741378777e-06,
+      "loss": 1.73150635,
+      "memory(GiB)": 58.14,
+      "step": 5640,
+      "train_speed(iter/s)": 0.449858
+    },
+    {
+      "acc": 0.66023273,
+      "epoch": 0.14320142059868088,
+      "grad_norm": 5.96875,
+      "learning_rate": 9.987249009201934e-06,
+      "loss": 1.63697414,
+      "memory(GiB)": 58.14,
+      "step": 5645,
+      "train_speed(iter/s)": 0.450065
+    },
+    {
+      "acc": 0.64306326,
+      "epoch": 0.14332825976661592,
+      "grad_norm": 6.53125,
+      "learning_rate": 9.987174057663613e-06,
+      "loss": 1.67622528,
+      "memory(GiB)": 58.14,
+      "step": 5650,
+      "train_speed(iter/s)": 0.450275
+    },
+    {
+      "acc": 0.62775774,
+      "epoch": 0.143455098934551,
+      "grad_norm": 5.6875,
+      "learning_rate": 9.987098886767111e-06,
+      "loss": 1.70162601,
+      "memory(GiB)": 58.14,
+      "step": 5655,
+      "train_speed(iter/s)": 0.450482
+    },
+    {
+      "acc": 0.61782589,
+      "epoch": 0.14358193810248604,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.987023496515734e-06,
+      "loss": 1.81647758,
+      "memory(GiB)": 58.14,
+      "step": 5660,
+      "train_speed(iter/s)": 0.450688
+    },
+    {
+      "acc": 0.63810525,
+      "epoch": 0.1437087772704211,
+      "grad_norm": 6.65625,
+      "learning_rate": 9.9869478869128e-06,
+      "loss": 1.76525631,
+      "memory(GiB)": 58.14,
+      "step": 5665,
+      "train_speed(iter/s)": 0.450896
+    },
+    {
+      "acc": 0.62699556,
+      "epoch": 0.14383561643835616,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.98687205796163e-06,
+      "loss": 1.75273781,
+      "memory(GiB)": 58.14,
+      "step": 5670,
+      "train_speed(iter/s)": 0.451105
+    },
+    {
+      "acc": 0.63688421,
+      "epoch": 0.14396245560629123,
+      "grad_norm": 5.78125,
+      "learning_rate": 9.986796009665562e-06,
+      "loss": 1.66628647,
+      "memory(GiB)": 58.14,
+      "step": 5675,
+      "train_speed(iter/s)": 0.451313
+    },
+    {
+      "acc": 0.63535285,
+      "epoch": 0.14408929477422627,
+      "grad_norm": 4.5,
+      "learning_rate": 9.986719742027944e-06,
+      "loss": 1.64191208,
+      "memory(GiB)": 58.14,
+      "step": 5680,
+      "train_speed(iter/s)": 0.451518
+    },
+    {
+      "acc": 0.6325182,
+      "epoch": 0.14421613394216135,
+      "grad_norm": 5.375,
+      "learning_rate": 9.986643255052125e-06,
+      "loss": 1.70225487,
+      "memory(GiB)": 58.14,
+      "step": 5685,
+      "train_speed(iter/s)": 0.451727
+    },
+    {
+      "acc": 0.62961588,
+      "epoch": 0.1443429731100964,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.986566548741473e-06,
+      "loss": 1.73679352,
+      "memory(GiB)": 58.14,
+      "step": 5690,
+      "train_speed(iter/s)": 0.451934
+    },
+    {
+      "acc": 0.64627624,
+      "epoch": 0.14446981227803146,
+      "grad_norm": 5.5,
+      "learning_rate": 9.98648962309936e-06,
+      "loss": 1.69186974,
+      "memory(GiB)": 58.14,
+      "step": 5695,
+      "train_speed(iter/s)": 0.452137
+    },
+    {
+      "acc": 0.64414415,
+      "epoch": 0.1445966514459665,
+      "grad_norm": 5.78125,
+      "learning_rate": 9.986412478129171e-06,
+      "loss": 1.65069256,
+      "memory(GiB)": 58.14,
+      "step": 5700,
+      "train_speed(iter/s)": 0.452345
+    },
+    {
+      "epoch": 0.1445966514459665,
+      "eval_acc": 0.6280116323129645,
+      "eval_loss": 1.7001053094863892,
+      "eval_runtime": 113.0183,
+      "eval_samples_per_second": 56.363,
+      "eval_steps_per_second": 28.181,
+      "step": 5700
+    },
+    {
+      "acc": 0.63531656,
+      "epoch": 0.14472349061390158,
+      "grad_norm": 7.5625,
+      "learning_rate": 9.9863351138343e-06,
+      "loss": 1.72501373,
+      "memory(GiB)": 58.14,
+      "step": 5705,
+      "train_speed(iter/s)": 0.448374
+    },
+    {
+      "acc": 0.65072451,
+      "epoch": 0.14485032978183662,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.986257530218146e-06,
+      "loss": 1.67599182,
+      "memory(GiB)": 58.14,
+      "step": 5710,
+      "train_speed(iter/s)": 0.44858
+    },
+    {
+      "acc": 0.63838205,
+      "epoch": 0.1449771689497717,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.986179727284124e-06,
+      "loss": 1.650177,
+      "memory(GiB)": 58.14,
+      "step": 5715,
+      "train_speed(iter/s)": 0.448782
+    },
+    {
+      "acc": 0.62168951,
+      "epoch": 0.14510400811770674,
+      "grad_norm": 6.625,
+      "learning_rate": 9.986101705035656e-06,
+      "loss": 1.78340683,
+      "memory(GiB)": 58.14,
+      "step": 5720,
+      "train_speed(iter/s)": 0.448986
+    },
+    {
+      "acc": 0.62519422,
+      "epoch": 0.1452308472856418,
+      "grad_norm": 5.25,
+      "learning_rate": 9.986023463476175e-06,
+      "loss": 1.782201,
+      "memory(GiB)": 58.14,
+      "step": 5725,
+      "train_speed(iter/s)": 0.44919
+    },
+    {
+      "acc": 0.62733116,
+      "epoch": 0.14535768645357686,
+      "grad_norm": 5.25,
+      "learning_rate": 9.985945002609119e-06,
+      "loss": 1.75075874,
+      "memory(GiB)": 58.14,
+      "step": 5730,
+      "train_speed(iter/s)": 0.449396
+    },
+    {
+      "acc": 0.63228254,
+      "epoch": 0.14548452562151193,
+      "grad_norm": 6.71875,
+      "learning_rate": 9.985866322437942e-06,
+      "loss": 1.78584824,
+      "memory(GiB)": 58.14,
+      "step": 5735,
+      "train_speed(iter/s)": 0.449601
+    },
+    {
+      "acc": 0.63814306,
+      "epoch": 0.14561136478944697,
+      "grad_norm": 7.03125,
+      "learning_rate": 9.985787422966105e-06,
+      "loss": 1.7019392,
+      "memory(GiB)": 58.14,
+      "step": 5740,
+      "train_speed(iter/s)": 0.449809
+    },
+    {
+      "acc": 0.63795519,
+      "epoch": 0.14573820395738205,
+      "grad_norm": 6.4375,
+      "learning_rate": 9.985708304197075e-06,
+      "loss": 1.79319534,
+      "memory(GiB)": 58.14,
+      "step": 5745,
+      "train_speed(iter/s)": 0.450014
+    },
+    {
+      "acc": 0.63502231,
+      "epoch": 0.1458650431253171,
+      "grad_norm": 5.125,
+      "learning_rate": 9.985628966134336e-06,
+      "loss": 1.71769161,
+      "memory(GiB)": 58.14,
+      "step": 5750,
+      "train_speed(iter/s)": 0.45022
+    },
+    {
+      "acc": 0.63223782,
+      "epoch": 0.14599188229325216,
+      "grad_norm": 6.53125,
+      "learning_rate": 9.985549408781377e-06,
+      "loss": 1.7181015,
+      "memory(GiB)": 58.14,
+      "step": 5755,
+      "train_speed(iter/s)": 0.450426
+    },
+    {
+      "acc": 0.62663708,
+      "epoch": 0.1461187214611872,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.985469632141693e-06,
+      "loss": 1.78344822,
+      "memory(GiB)": 58.14,
+      "step": 5760,
+      "train_speed(iter/s)": 0.450631
+    },
+    {
+      "acc": 0.63541446,
+      "epoch": 0.14624556062912228,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.985389636218797e-06,
+      "loss": 1.71079865,
+      "memory(GiB)": 58.14,
+      "step": 5765,
+      "train_speed(iter/s)": 0.450836
+    },
+    {
+      "acc": 0.63279858,
+      "epoch": 0.14637239979705732,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.985309421016207e-06,
+      "loss": 1.68989525,
+      "memory(GiB)": 58.14,
+      "step": 5770,
+      "train_speed(iter/s)": 0.451043
+    },
+    {
+      "acc": 0.63986549,
+      "epoch": 0.1464992389649924,
+      "grad_norm": 5.375,
+      "learning_rate": 9.985228986537451e-06,
+      "loss": 1.71737595,
+      "memory(GiB)": 58.14,
+      "step": 5775,
+      "train_speed(iter/s)": 0.45125
+    },
+    {
+      "acc": 0.63557129,
+      "epoch": 0.14662607813292744,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.985148332786068e-06,
+      "loss": 1.68898048,
+      "memory(GiB)": 58.14,
+      "step": 5780,
+      "train_speed(iter/s)": 0.451455
+    },
+    {
+      "acc": 0.63252234,
+      "epoch": 0.1467529173008625,
+      "grad_norm": 5.75,
+      "learning_rate": 9.985067459765603e-06,
+      "loss": 1.73890591,
+      "memory(GiB)": 58.14,
+      "step": 5785,
+      "train_speed(iter/s)": 0.451662
+    },
+    {
+      "acc": 0.6361464,
+      "epoch": 0.14687975646879756,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.984986367479615e-06,
+      "loss": 1.74285889,
+      "memory(GiB)": 58.14,
+      "step": 5790,
+      "train_speed(iter/s)": 0.45187
+    },
+    {
+      "acc": 0.64615755,
+      "epoch": 0.14700659563673263,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.984905055931668e-06,
+      "loss": 1.66937733,
+      "memory(GiB)": 58.14,
+      "step": 5795,
+      "train_speed(iter/s)": 0.452077
+    },
+    {
+      "acc": 0.61166282,
+      "epoch": 0.14713343480466767,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.984823525125342e-06,
+      "loss": 1.78655033,
+      "memory(GiB)": 58.14,
+      "step": 5800,
+      "train_speed(iter/s)": 0.452284
+    },
+    {
+      "epoch": 0.14713343480466767,
+      "eval_acc": 0.6284841271399608,
+      "eval_loss": 1.6969976425170898,
+      "eval_runtime": 113.8122,
+      "eval_samples_per_second": 55.969,
+      "eval_steps_per_second": 27.985,
+      "step": 5800
+    },
+    {
+      "acc": 0.63178768,
+      "epoch": 0.14726027397260275,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.984741775064222e-06,
+      "loss": 1.75447617,
+      "memory(GiB)": 58.14,
+      "step": 5805,
+      "train_speed(iter/s)": 0.448355
+    },
+    {
+      "acc": 0.62364249,
+      "epoch": 0.1473871131405378,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.984659805751904e-06,
+      "loss": 1.77045193,
+      "memory(GiB)": 58.14,
+      "step": 5810,
+      "train_speed(iter/s)": 0.44856
+    },
+    {
+      "acc": 0.64836936,
+      "epoch": 0.14751395230847286,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.984577617191993e-06,
+      "loss": 1.71013165,
+      "memory(GiB)": 58.14,
+      "step": 5815,
+      "train_speed(iter/s)": 0.448765
+    },
+    {
+      "acc": 0.62805309,
+      "epoch": 0.1476407914764079,
+      "grad_norm": 5.625,
+      "learning_rate": 9.984495209388102e-06,
+      "loss": 1.76644897,
+      "memory(GiB)": 58.14,
+      "step": 5820,
+      "train_speed(iter/s)": 0.448972
+    },
+    {
+      "acc": 0.62435865,
+      "epoch": 0.14776763064434298,
+      "grad_norm": 5.875,
+      "learning_rate": 9.984412582343859e-06,
+      "loss": 1.77659149,
+      "memory(GiB)": 58.14,
+      "step": 5825,
+      "train_speed(iter/s)": 0.449179
+    },
+    {
+      "acc": 0.63662348,
+      "epoch": 0.14789446981227802,
+      "grad_norm": 5.96875,
+      "learning_rate": 9.984329736062896e-06,
+      "loss": 1.64894829,
+      "memory(GiB)": 58.14,
+      "step": 5830,
+      "train_speed(iter/s)": 0.449385
+    },
+    {
+      "acc": 0.6193377,
+      "epoch": 0.1480213089802131,
+      "grad_norm": 5.25,
+      "learning_rate": 9.984246670548858e-06,
+      "loss": 1.74502544,
+      "memory(GiB)": 58.14,
+      "step": 5835,
+      "train_speed(iter/s)": 0.449588
+    },
+    {
+      "acc": 0.63835092,
+      "epoch": 0.14814814814814814,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.984163385805398e-06,
+      "loss": 1.76451836,
+      "memory(GiB)": 58.14,
+      "step": 5840,
+      "train_speed(iter/s)": 0.449793
+    },
+    {
+      "acc": 0.63051615,
+      "epoch": 0.1482749873160832,
+      "grad_norm": 6.6875,
+      "learning_rate": 9.984079881836182e-06,
+      "loss": 1.72792664,
+      "memory(GiB)": 58.14,
+      "step": 5845,
+      "train_speed(iter/s)": 0.449997
+    },
+    {
+      "acc": 0.6393959,
+      "epoch": 0.14840182648401826,
+      "grad_norm": 6.09375,
+      "learning_rate": 9.983996158644877e-06,
+      "loss": 1.687257,
+      "memory(GiB)": 58.14,
+      "step": 5850,
+      "train_speed(iter/s)": 0.450201
+    },
+    {
+      "acc": 0.64106522,
+      "epoch": 0.14852866565195333,
+      "grad_norm": 4.28125,
+      "learning_rate": 9.983912216235172e-06,
+      "loss": 1.62324905,
+      "memory(GiB)": 58.14,
+      "step": 5855,
+      "train_speed(iter/s)": 0.450406
+    },
+    {
+      "acc": 0.64793434,
+      "epoch": 0.14865550481988837,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.983828054610754e-06,
+      "loss": 1.76565208,
+      "memory(GiB)": 58.14,
+      "step": 5860,
+      "train_speed(iter/s)": 0.450611
+    },
+    {
+      "acc": 0.63874741,
+      "epoch": 0.14878234398782345,
+      "grad_norm": 5.8125,
+      "learning_rate": 9.983743673775328e-06,
+      "loss": 1.75894775,
+      "memory(GiB)": 58.14,
+      "step": 5865,
+      "train_speed(iter/s)": 0.450815
+    },
+    {
+      "acc": 0.63766284,
+      "epoch": 0.1489091831557585,
+      "grad_norm": 6.71875,
+      "learning_rate": 9.983659073732604e-06,
+      "loss": 1.71356277,
+      "memory(GiB)": 58.14,
+      "step": 5870,
+      "train_speed(iter/s)": 0.451021
+    },
+    {
+      "acc": 0.63759117,
+      "epoch": 0.14903602232369356,
+      "grad_norm": 6.1875,
+      "learning_rate": 9.983574254486303e-06,
+      "loss": 1.72629471,
+      "memory(GiB)": 58.14,
+      "step": 5875,
+      "train_speed(iter/s)": 0.451224
+    },
+    {
+      "acc": 0.65143981,
+      "epoch": 0.1491628614916286,
+      "grad_norm": 4.6875,
+      "learning_rate": 9.983489216040158e-06,
+      "loss": 1.71128082,
+      "memory(GiB)": 58.14,
+      "step": 5880,
+      "train_speed(iter/s)": 0.451429
+    },
+    {
+      "acc": 0.64596019,
+      "epoch": 0.14928970065956368,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.983403958397907e-06,
+      "loss": 1.72300262,
+      "memory(GiB)": 58.14,
+      "step": 5885,
+      "train_speed(iter/s)": 0.451634
+    },
+    {
+      "acc": 0.62979126,
+      "epoch": 0.14941653982749872,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.9833184815633e-06,
+      "loss": 1.86155815,
+      "memory(GiB)": 58.14,
+      "step": 5890,
+      "train_speed(iter/s)": 0.451837
+    },
+    {
+      "acc": 0.6280376,
+      "epoch": 0.1495433789954338,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.983232785540097e-06,
+      "loss": 1.7970787,
+      "memory(GiB)": 58.14,
+      "step": 5895,
+      "train_speed(iter/s)": 0.45204
+    },
+    {
+      "acc": 0.62411852,
+      "epoch": 0.14967021816336884,
+      "grad_norm": 5.71875,
+      "learning_rate": 9.983146870332068e-06,
+      "loss": 1.74064713,
+      "memory(GiB)": 58.14,
+      "step": 5900,
+      "train_speed(iter/s)": 0.452243
+    },
+    {
+      "epoch": 0.14967021816336884,
+      "eval_acc": 0.6287222545063516,
+      "eval_loss": 1.6949149370193481,
+      "eval_runtime": 113.9019,
+      "eval_samples_per_second": 55.925,
+      "eval_steps_per_second": 27.963,
+      "step": 5900
+    },
+    {
+      "acc": 0.62579064,
+      "epoch": 0.1497970573313039,
+      "grad_norm": 7.375,
+      "learning_rate": 9.98306073594299e-06,
+      "loss": 1.77762947,
+      "memory(GiB)": 58.14,
+      "step": 5905,
+      "train_speed(iter/s)": 0.448379
+    },
+    {
+      "acc": 0.64695463,
+      "epoch": 0.14992389649923896,
+      "grad_norm": 6.53125,
+      "learning_rate": 9.982974382376656e-06,
+      "loss": 1.70982094,
+      "memory(GiB)": 58.14,
+      "step": 5910,
+      "train_speed(iter/s)": 0.448582
+    },
+    {
+      "acc": 0.65326896,
+      "epoch": 0.15005073566717403,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.98288780963686e-06,
+      "loss": 1.67041759,
+      "memory(GiB)": 58.14,
+      "step": 5915,
+      "train_speed(iter/s)": 0.448785
+    },
+    {
+      "acc": 0.63187575,
+      "epoch": 0.15017757483510907,
+      "grad_norm": 4.59375,
+      "learning_rate": 9.98280101772741e-06,
+      "loss": 1.77075977,
+      "memory(GiB)": 58.14,
+      "step": 5920,
+      "train_speed(iter/s)": 0.448989
+    },
+    {
+      "acc": 0.63178511,
+      "epoch": 0.15030441400304415,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.982714006652126e-06,
+      "loss": 1.73691139,
+      "memory(GiB)": 58.14,
+      "step": 5925,
+      "train_speed(iter/s)": 0.44919
+    },
+    {
+      "acc": 0.63479156,
+      "epoch": 0.1504312531709792,
+      "grad_norm": 4.75,
+      "learning_rate": 9.982626776414834e-06,
+      "loss": 1.70704155,
+      "memory(GiB)": 58.14,
+      "step": 5930,
+      "train_speed(iter/s)": 0.449391
+    },
+    {
+      "acc": 0.62522068,
+      "epoch": 0.15055809233891426,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.98253932701937e-06,
+      "loss": 1.73893242,
+      "memory(GiB)": 58.14,
+      "step": 5935,
+      "train_speed(iter/s)": 0.449594
+    },
+    {
+      "acc": 0.64340014,
+      "epoch": 0.1506849315068493,
+      "grad_norm": 6.4375,
+      "learning_rate": 9.98245165846958e-06,
+      "loss": 1.7726963,
+      "memory(GiB)": 58.14,
+      "step": 5940,
+      "train_speed(iter/s)": 0.449796
+    },
+    {
+      "acc": 0.64046078,
+      "epoch": 0.15081177067478438,
+      "grad_norm": 5.96875,
+      "learning_rate": 9.982363770769323e-06,
+      "loss": 1.7123291,
+      "memory(GiB)": 58.14,
+      "step": 5945,
+      "train_speed(iter/s)": 0.449999
+    },
+    {
+      "acc": 0.63388672,
+      "epoch": 0.15093860984271942,
+      "grad_norm": 5.71875,
+      "learning_rate": 9.98227566392246e-06,
+      "loss": 1.73712234,
+      "memory(GiB)": 58.14,
+      "step": 5950,
+      "train_speed(iter/s)": 0.450202
+    },
+    {
+      "acc": 0.63900013,
+      "epoch": 0.1510654490106545,
+      "grad_norm": 6.375,
+      "learning_rate": 9.982187337932871e-06,
+      "loss": 1.71467361,
+      "memory(GiB)": 58.14,
+      "step": 5955,
+      "train_speed(iter/s)": 0.450404
+    },
+    {
+      "acc": 0.6155602,
+      "epoch": 0.15119228817858954,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.98209879280444e-06,
+      "loss": 1.77856636,
+      "memory(GiB)": 58.14,
+      "step": 5960,
+      "train_speed(iter/s)": 0.450607
+    },
+    {
+      "acc": 0.6283668,
+      "epoch": 0.1513191273465246,
+      "grad_norm": 6.0,
+      "learning_rate": 9.982010028541057e-06,
+      "loss": 1.752075,
+      "memory(GiB)": 58.14,
+      "step": 5965,
+      "train_speed(iter/s)": 0.450808
+    },
+    {
+      "acc": 0.64005599,
+      "epoch": 0.15144596651445966,
+      "grad_norm": 6.1875,
+      "learning_rate": 9.981921045146633e-06,
+      "loss": 1.68224182,
+      "memory(GiB)": 58.14,
+      "step": 5970,
+      "train_speed(iter/s)": 0.45101
+    },
+    {
+      "acc": 0.64318318,
+      "epoch": 0.15157280568239473,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.981831842625079e-06,
+      "loss": 1.67549915,
+      "memory(GiB)": 58.14,
+      "step": 5975,
+      "train_speed(iter/s)": 0.451212
+    },
+    {
+      "acc": 0.6340692,
+      "epoch": 0.15169964485032977,
+      "grad_norm": 5.375,
+      "learning_rate": 9.981742420980316e-06,
+      "loss": 1.74056034,
+      "memory(GiB)": 58.14,
+      "step": 5980,
+      "train_speed(iter/s)": 0.451414
+    },
+    {
+      "acc": 0.63649821,
+      "epoch": 0.15182648401826485,
+      "grad_norm": 5.25,
+      "learning_rate": 9.981652780216281e-06,
+      "loss": 1.68402672,
+      "memory(GiB)": 58.14,
+      "step": 5985,
+      "train_speed(iter/s)": 0.451617
+    },
+    {
+      "acc": 0.65454082,
+      "epoch": 0.1519533231861999,
+      "grad_norm": 6.6875,
+      "learning_rate": 9.981562920336915e-06,
+      "loss": 1.67746849,
+      "memory(GiB)": 58.14,
+      "step": 5990,
+      "train_speed(iter/s)": 0.451818
+    },
+    {
+      "acc": 0.62003784,
+      "epoch": 0.15208016235413496,
+      "grad_norm": 5.5,
+      "learning_rate": 9.98147284134617e-06,
+      "loss": 1.77328529,
+      "memory(GiB)": 58.14,
+      "step": 5995,
+      "train_speed(iter/s)": 0.452019
+    },
+    {
+      "acc": 0.63403778,
+      "epoch": 0.15220700152207,
+      "grad_norm": 6.15625,
+      "learning_rate": 9.981382543248011e-06,
+      "loss": 1.74843636,
+      "memory(GiB)": 58.14,
+      "step": 6000,
+      "train_speed(iter/s)": 0.452218
+    },
+    {
+      "epoch": 0.15220700152207,
+      "eval_acc": 0.6291751142698033,
+      "eval_loss": 1.6928975582122803,
+      "eval_runtime": 113.8661,
+      "eval_samples_per_second": 55.943,
+      "eval_steps_per_second": 27.971,
+      "step": 6000
+    },
+    {
+      "acc": 0.63630781,
+      "epoch": 0.15233384069000508,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.981292026046406e-06,
+      "loss": 1.70675201,
+      "memory(GiB)": 58.14,
+      "step": 6005,
+      "train_speed(iter/s)": 0.448419
+    },
+    {
+      "acc": 0.63288488,
+      "epoch": 0.15246067985794012,
+      "grad_norm": 5.375,
+      "learning_rate": 9.981201289745337e-06,
+      "loss": 1.69798717,
+      "memory(GiB)": 58.14,
+      "step": 6010,
+      "train_speed(iter/s)": 0.448619
+    },
+    {
+      "acc": 0.62116013,
+      "epoch": 0.1525875190258752,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.981110334348796e-06,
+      "loss": 1.7549902,
+      "memory(GiB)": 58.14,
+      "step": 6015,
+      "train_speed(iter/s)": 0.44882
+    },
+    {
+      "acc": 0.64530439,
+      "epoch": 0.15271435819381024,
+      "grad_norm": 5.84375,
+      "learning_rate": 9.981019159860782e-06,
+      "loss": 1.67368908,
+      "memory(GiB)": 58.14,
+      "step": 6020,
+      "train_speed(iter/s)": 0.449022
+    },
+    {
+      "acc": 0.63427982,
+      "epoch": 0.1528411973617453,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.98092776628531e-06,
+      "loss": 1.68455658,
+      "memory(GiB)": 58.14,
+      "step": 6025,
+      "train_speed(iter/s)": 0.449222
+    },
+    {
+      "acc": 0.64319792,
+      "epoch": 0.15296803652968036,
+      "grad_norm": 4.6875,
+      "learning_rate": 9.980836153626396e-06,
+      "loss": 1.65393372,
+      "memory(GiB)": 58.14,
+      "step": 6030,
+      "train_speed(iter/s)": 0.449422
+    },
+    {
+      "acc": 0.64806957,
+      "epoch": 0.15309487569761543,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.980744321888068e-06,
+      "loss": 1.69325905,
+      "memory(GiB)": 58.14,
+      "step": 6035,
+      "train_speed(iter/s)": 0.44962
+    },
+    {
+      "acc": 0.62998781,
+      "epoch": 0.15322171486555047,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.98065227107437e-06,
+      "loss": 1.80609856,
+      "memory(GiB)": 58.14,
+      "step": 6040,
+      "train_speed(iter/s)": 0.449818
+    },
+    {
+      "acc": 0.63349195,
+      "epoch": 0.15334855403348555,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.980560001189346e-06,
+      "loss": 1.73680534,
+      "memory(GiB)": 58.14,
+      "step": 6045,
+      "train_speed(iter/s)": 0.450017
+    },
+    {
+      "acc": 0.62060304,
+      "epoch": 0.1534753932014206,
+      "grad_norm": 5.0,
+      "learning_rate": 9.980467512237058e-06,
+      "loss": 1.77974815,
+      "memory(GiB)": 58.14,
+      "step": 6050,
+      "train_speed(iter/s)": 0.450215
+    },
+    {
+      "acc": 0.62257667,
+      "epoch": 0.15360223236935566,
+      "grad_norm": 6.25,
+      "learning_rate": 9.98037480422157e-06,
+      "loss": 1.68618126,
+      "memory(GiB)": 71.21,
+      "step": 6055,
+      "train_speed(iter/s)": 0.450413
+    },
+    {
+      "acc": 0.64822035,
+      "epoch": 0.1537290715372907,
+      "grad_norm": 5.8125,
+      "learning_rate": 9.980281877146964e-06,
+      "loss": 1.69027042,
+      "memory(GiB)": 71.21,
+      "step": 6060,
+      "train_speed(iter/s)": 0.450613
+    },
+    {
+      "acc": 0.63800855,
+      "epoch": 0.15385591070522578,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.980188731017327e-06,
+      "loss": 1.74775219,
+      "memory(GiB)": 71.21,
+      "step": 6065,
+      "train_speed(iter/s)": 0.450812
+    },
+    {
+      "acc": 0.64689889,
+      "epoch": 0.15398274987316082,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.980095365836753e-06,
+      "loss": 1.64242783,
+      "memory(GiB)": 71.21,
+      "step": 6070,
+      "train_speed(iter/s)": 0.451009
+    },
+    {
+      "acc": 0.63862944,
+      "epoch": 0.1541095890410959,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.980001781609353e-06,
+      "loss": 1.72136669,
+      "memory(GiB)": 71.21,
+      "step": 6075,
+      "train_speed(iter/s)": 0.451208
+    },
+    {
+      "acc": 0.62790833,
+      "epoch": 0.15423642820903094,
+      "grad_norm": 5.96875,
+      "learning_rate": 9.979907978339236e-06,
+      "loss": 1.722258,
+      "memory(GiB)": 71.21,
+      "step": 6080,
+      "train_speed(iter/s)": 0.451406
+    },
+    {
+      "acc": 0.6412046,
+      "epoch": 0.154363267376966,
+      "grad_norm": 5.96875,
+      "learning_rate": 9.979813956030535e-06,
+      "loss": 1.66379547,
+      "memory(GiB)": 71.21,
+      "step": 6085,
+      "train_speed(iter/s)": 0.451604
+    },
+    {
+      "acc": 0.63239679,
+      "epoch": 0.15449010654490106,
+      "grad_norm": 5.78125,
+      "learning_rate": 9.979719714687384e-06,
+      "loss": 1.70074711,
+      "memory(GiB)": 71.21,
+      "step": 6090,
+      "train_speed(iter/s)": 0.451802
+    },
+    {
+      "acc": 0.63261719,
+      "epoch": 0.15461694571283613,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.979625254313924e-06,
+      "loss": 1.79346123,
+      "memory(GiB)": 71.21,
+      "step": 6095,
+      "train_speed(iter/s)": 0.452
+    },
+    {
+      "acc": 0.63210621,
+      "epoch": 0.15474378488077117,
+      "grad_norm": 6.65625,
+      "learning_rate": 9.979530574914316e-06,
+      "loss": 1.7295742,
+      "memory(GiB)": 71.21,
+      "step": 6100,
+      "train_speed(iter/s)": 0.452199
+    },
+    {
+      "epoch": 0.15474378488077117,
+      "eval_acc": 0.6294165837746697,
+      "eval_loss": 1.6914069652557373,
+      "eval_runtime": 113.5501,
+      "eval_samples_per_second": 56.099,
+      "eval_steps_per_second": 28.049,
+      "step": 6100
+    },
+    {
+      "acc": 0.63916278,
+      "epoch": 0.15487062404870625,
+      "grad_norm": 6.40625,
+      "learning_rate": 9.97943567649272e-06,
+      "loss": 1.68640079,
+      "memory(GiB)": 71.21,
+      "step": 6105,
+      "train_speed(iter/s)": 0.448473
+    },
+    {
+      "acc": 0.62674141,
+      "epoch": 0.1549974632166413,
+      "grad_norm": 5.125,
+      "learning_rate": 9.979340559053311e-06,
+      "loss": 1.65725746,
+      "memory(GiB)": 71.21,
+      "step": 6110,
+      "train_speed(iter/s)": 0.448668
+    },
+    {
+      "acc": 0.63233347,
+      "epoch": 0.15512430238457636,
+      "grad_norm": 4.34375,
+      "learning_rate": 9.979245222600273e-06,
+      "loss": 1.7305582,
+      "memory(GiB)": 71.21,
+      "step": 6115,
+      "train_speed(iter/s)": 0.448864
+    },
+    {
+      "acc": 0.62707701,
+      "epoch": 0.1552511415525114,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.979149667137801e-06,
+      "loss": 1.77526169,
+      "memory(GiB)": 71.21,
+      "step": 6120,
+      "train_speed(iter/s)": 0.449061
+    },
+    {
+      "acc": 0.62613888,
+      "epoch": 0.15537798072044648,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.979053892670094e-06,
+      "loss": 1.76586418,
+      "memory(GiB)": 71.21,
+      "step": 6125,
+      "train_speed(iter/s)": 0.449259
+    },
+    {
+      "acc": 0.6409863,
+      "epoch": 0.15550481988838152,
+      "grad_norm": 4.59375,
+      "learning_rate": 9.978957899201369e-06,
+      "loss": 1.75378647,
+      "memory(GiB)": 71.21,
+      "step": 6130,
+      "train_speed(iter/s)": 0.449455
+    },
+    {
+      "acc": 0.64654946,
+      "epoch": 0.1556316590563166,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.978861686735845e-06,
+      "loss": 1.67361908,
+      "memory(GiB)": 71.21,
+      "step": 6135,
+      "train_speed(iter/s)": 0.449652
+    },
+    {
+      "acc": 0.6318131,
+      "epoch": 0.15575849822425164,
+      "grad_norm": 7.34375,
+      "learning_rate": 9.978765255277756e-06,
+      "loss": 1.72088928,
+      "memory(GiB)": 71.21,
+      "step": 6140,
+      "train_speed(iter/s)": 0.449848
+    },
+    {
+      "acc": 0.63990841,
+      "epoch": 0.1558853373921867,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.97866860483134e-06,
+      "loss": 1.71816597,
+      "memory(GiB)": 71.21,
+      "step": 6145,
+      "train_speed(iter/s)": 0.450044
+    },
+    {
+      "acc": 0.65172644,
+      "epoch": 0.15601217656012176,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.978571735400853e-06,
+      "loss": 1.69172668,
+      "memory(GiB)": 71.21,
+      "step": 6150,
+      "train_speed(iter/s)": 0.450238
+    },
+    {
+      "acc": 0.62753701,
+      "epoch": 0.15613901572805683,
+      "grad_norm": 6.0,
+      "learning_rate": 9.978474646990552e-06,
+      "loss": 1.68023739,
+      "memory(GiB)": 71.21,
+      "step": 6155,
+      "train_speed(iter/s)": 0.450433
+    },
+    {
+      "acc": 0.63415184,
+      "epoch": 0.15626585489599187,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.97837733960471e-06,
+      "loss": 1.73192654,
+      "memory(GiB)": 71.21,
+      "step": 6160,
+      "train_speed(iter/s)": 0.450627
+    },
+    {
+      "acc": 0.65774403,
+      "epoch": 0.15639269406392695,
+      "grad_norm": 6.46875,
+      "learning_rate": 9.978279813247605e-06,
+      "loss": 1.67506714,
+      "memory(GiB)": 71.21,
+      "step": 6165,
+      "train_speed(iter/s)": 0.450823
+    },
+    {
+      "acc": 0.64377122,
+      "epoch": 0.156519533231862,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.978182067923528e-06,
+      "loss": 1.66583214,
+      "memory(GiB)": 71.21,
+      "step": 6170,
+      "train_speed(iter/s)": 0.451018
+    },
+    {
+      "acc": 0.62760563,
+      "epoch": 0.15664637239979706,
+      "grad_norm": 4.46875,
+      "learning_rate": 9.978084103636778e-06,
+      "loss": 1.80464134,
+      "memory(GiB)": 71.21,
+      "step": 6175,
+      "train_speed(iter/s)": 0.451212
+    },
+    {
+      "acc": 0.65065422,
+      "epoch": 0.1567732115677321,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.977985920391661e-06,
+      "loss": 1.6794405,
+      "memory(GiB)": 71.21,
+      "step": 6180,
+      "train_speed(iter/s)": 0.451407
+    },
+    {
+      "acc": 0.63304777,
+      "epoch": 0.15690005073566718,
+      "grad_norm": 5.375,
+      "learning_rate": 9.977887518192501e-06,
+      "loss": 1.77069626,
+      "memory(GiB)": 71.21,
+      "step": 6185,
+      "train_speed(iter/s)": 0.451603
+    },
+    {
+      "acc": 0.61158085,
+      "epoch": 0.15702688990360222,
+      "grad_norm": 4.40625,
+      "learning_rate": 9.977788897043622e-06,
+      "loss": 1.80420361,
+      "memory(GiB)": 71.21,
+      "step": 6190,
+      "train_speed(iter/s)": 0.451798
+    },
+    {
+      "acc": 0.64230924,
+      "epoch": 0.1571537290715373,
+      "grad_norm": 5.84375,
+      "learning_rate": 9.977690056949363e-06,
+      "loss": 1.68551178,
+      "memory(GiB)": 71.21,
+      "step": 6195,
+      "train_speed(iter/s)": 0.451992
+    },
+    {
+      "acc": 0.63077068,
+      "epoch": 0.15728056823947234,
+      "grad_norm": 6.59375,
+      "learning_rate": 9.977590997914072e-06,
+      "loss": 1.75044956,
+      "memory(GiB)": 71.21,
+      "step": 6200,
+      "train_speed(iter/s)": 0.452185
+    },
+    {
+      "epoch": 0.15728056823947234,
+      "eval_acc": 0.6295770064215013,
+      "eval_loss": 1.6895726919174194,
+      "eval_runtime": 113.4251,
+      "eval_samples_per_second": 56.16,
+      "eval_steps_per_second": 28.08,
+      "step": 6200
+    },
+    {
+      "acc": 0.63319101,
+      "epoch": 0.1574074074074074,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.977491719942106e-06,
+      "loss": 1.69404125,
+      "memory(GiB)": 71.21,
+      "step": 6205,
+      "train_speed(iter/s)": 0.448521
+    },
+    {
+      "acc": 0.63302393,
+      "epoch": 0.15753424657534246,
+      "grad_norm": 5.625,
+      "learning_rate": 9.97739222303783e-06,
+      "loss": 1.74673462,
+      "memory(GiB)": 71.21,
+      "step": 6210,
+      "train_speed(iter/s)": 0.448714
+    },
+    {
+      "acc": 0.64599352,
+      "epoch": 0.15766108574327753,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.977292507205623e-06,
+      "loss": 1.65102501,
+      "memory(GiB)": 71.21,
+      "step": 6215,
+      "train_speed(iter/s)": 0.448907
+    },
+    {
+      "acc": 0.61004953,
+      "epoch": 0.15778792491121257,
+      "grad_norm": 5.8125,
+      "learning_rate": 9.977192572449868e-06,
+      "loss": 1.81020546,
+      "memory(GiB)": 71.21,
+      "step": 6220,
+      "train_speed(iter/s)": 0.4491
+    },
+    {
+      "acc": 0.63879442,
+      "epoch": 0.15791476407914765,
+      "grad_norm": 6.1875,
+      "learning_rate": 9.977092418774962e-06,
+      "loss": 1.73230076,
+      "memory(GiB)": 71.21,
+      "step": 6225,
+      "train_speed(iter/s)": 0.449294
+    },
+    {
+      "acc": 0.61847792,
+      "epoch": 0.1580416032470827,
+      "grad_norm": 5.78125,
+      "learning_rate": 9.976992046185313e-06,
+      "loss": 1.79007607,
+      "memory(GiB)": 71.21,
+      "step": 6230,
+      "train_speed(iter/s)": 0.449486
+    },
+    {
+      "acc": 0.63165073,
+      "epoch": 0.15816844241501776,
+      "grad_norm": 4.875,
+      "learning_rate": 9.97689145468533e-06,
+      "loss": 1.74281464,
+      "memory(GiB)": 71.21,
+      "step": 6235,
+      "train_speed(iter/s)": 0.449679
+    },
+    {
+      "acc": 0.64975591,
+      "epoch": 0.1582952815829528,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.976790644279442e-06,
+      "loss": 1.64184265,
+      "memory(GiB)": 71.21,
+      "step": 6240,
+      "train_speed(iter/s)": 0.449872
+    },
+    {
+      "acc": 0.6411006,
+      "epoch": 0.15842212075088788,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.976689614972082e-06,
+      "loss": 1.64428825,
+      "memory(GiB)": 71.21,
+      "step": 6245,
+      "train_speed(iter/s)": 0.450063
+    },
+    {
+      "acc": 0.640096,
+      "epoch": 0.15854895991882292,
+      "grad_norm": 7.15625,
+      "learning_rate": 9.976588366767693e-06,
+      "loss": 1.73388939,
+      "memory(GiB)": 71.21,
+      "step": 6250,
+      "train_speed(iter/s)": 0.450257
+    },
+    {
+      "acc": 0.63372641,
+      "epoch": 0.158675799086758,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.976486899670729e-06,
+      "loss": 1.67146568,
+      "memory(GiB)": 71.21,
+      "step": 6255,
+      "train_speed(iter/s)": 0.450449
+    },
+    {
+      "acc": 0.63916836,
+      "epoch": 0.15880263825469304,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.976385213685652e-06,
+      "loss": 1.71383762,
+      "memory(GiB)": 71.21,
+      "step": 6260,
+      "train_speed(iter/s)": 0.450641
+    },
+    {
+      "acc": 0.63503208,
+      "epoch": 0.1589294774226281,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.976283308816937e-06,
+      "loss": 1.77095871,
+      "memory(GiB)": 71.21,
+      "step": 6265,
+      "train_speed(iter/s)": 0.450836
+    },
+    {
+      "acc": 0.64217548,
+      "epoch": 0.15905631659056316,
+      "grad_norm": 6.03125,
+      "learning_rate": 9.976181185069063e-06,
+      "loss": 1.6796814,
+      "memory(GiB)": 71.21,
+      "step": 6270,
+      "train_speed(iter/s)": 0.45103
+    },
+    {
+      "acc": 0.65000076,
+      "epoch": 0.15918315575849823,
+      "grad_norm": 4.15625,
+      "learning_rate": 9.976078842446522e-06,
+      "loss": 1.67571526,
+      "memory(GiB)": 71.21,
+      "step": 6275,
+      "train_speed(iter/s)": 0.451218
+    },
+    {
+      "acc": 0.63133268,
+      "epoch": 0.15930999492643327,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.97597628095382e-06,
+      "loss": 1.83774338,
+      "memory(GiB)": 71.21,
+      "step": 6280,
+      "train_speed(iter/s)": 0.451409
+    },
+    {
+      "acc": 0.62406836,
+      "epoch": 0.15943683409436835,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.975873500595464e-06,
+      "loss": 1.8288662,
+      "memory(GiB)": 71.21,
+      "step": 6285,
+      "train_speed(iter/s)": 0.451601
+    },
+    {
+      "acc": 0.6443151,
+      "epoch": 0.1595636732623034,
+      "grad_norm": 5.875,
+      "learning_rate": 9.975770501375974e-06,
+      "loss": 1.73548775,
+      "memory(GiB)": 71.21,
+      "step": 6290,
+      "train_speed(iter/s)": 0.45179
+    },
+    {
+      "acc": 0.63668132,
+      "epoch": 0.15969051243023846,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.975667283299884e-06,
+      "loss": 1.67912426,
+      "memory(GiB)": 71.21,
+      "step": 6295,
+      "train_speed(iter/s)": 0.451982
+    },
+    {
+      "acc": 0.64422007,
+      "epoch": 0.1598173515981735,
+      "grad_norm": 6.28125,
+      "learning_rate": 9.975563846371732e-06,
+      "loss": 1.71651382,
+      "memory(GiB)": 71.21,
+      "step": 6300,
+      "train_speed(iter/s)": 0.452174
+    },
+    {
+      "epoch": 0.1598173515981735,
+      "eval_acc": 0.629977645271271,
+      "eval_loss": 1.6877862215042114,
+      "eval_runtime": 112.9937,
+      "eval_samples_per_second": 56.375,
+      "eval_steps_per_second": 28.187,
+      "step": 6300
+    },
+    {
+      "acc": 0.63653145,
+      "epoch": 0.15994419076610858,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.975460190596068e-06,
+      "loss": 1.71957417,
+      "memory(GiB)": 71.21,
+      "step": 6305,
+      "train_speed(iter/s)": 0.448582
+    },
+    {
+      "acc": 0.63068991,
+      "epoch": 0.16007102993404362,
+      "grad_norm": 6.1875,
+      "learning_rate": 9.975356315977451e-06,
+      "loss": 1.7084877,
+      "memory(GiB)": 71.21,
+      "step": 6310,
+      "train_speed(iter/s)": 0.448773
+    },
+    {
+      "acc": 0.63710327,
+      "epoch": 0.1601978691019787,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.975252222520449e-06,
+      "loss": 1.70445976,
+      "memory(GiB)": 71.21,
+      "step": 6315,
+      "train_speed(iter/s)": 0.448961
+    },
+    {
+      "acc": 0.63732691,
+      "epoch": 0.16032470826991374,
+      "grad_norm": 4.6875,
+      "learning_rate": 9.97514791022964e-06,
+      "loss": 1.71315804,
+      "memory(GiB)": 71.21,
+      "step": 6320,
+      "train_speed(iter/s)": 0.449151
+    },
+    {
+      "acc": 0.6422514,
+      "epoch": 0.1604515474378488,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.975043379109617e-06,
+      "loss": 1.71896667,
+      "memory(GiB)": 71.21,
+      "step": 6325,
+      "train_speed(iter/s)": 0.449342
+    },
+    {
+      "acc": 0.64499207,
+      "epoch": 0.16057838660578386,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.974938629164973e-06,
+      "loss": 1.692416,
+      "memory(GiB)": 71.21,
+      "step": 6330,
+      "train_speed(iter/s)": 0.44953
+    },
+    {
+      "acc": 0.63671074,
+      "epoch": 0.16070522577371893,
+      "grad_norm": 4.4375,
+      "learning_rate": 9.974833660400315e-06,
+      "loss": 1.73145828,
+      "memory(GiB)": 71.21,
+      "step": 6335,
+      "train_speed(iter/s)": 0.44972
+    },
+    {
+      "acc": 0.62892737,
+      "epoch": 0.16083206494165397,
+      "grad_norm": 6.1875,
+      "learning_rate": 9.974728472820264e-06,
+      "loss": 1.71347389,
+      "memory(GiB)": 71.21,
+      "step": 6340,
+      "train_speed(iter/s)": 0.449909
+    },
+    {
+      "acc": 0.63510127,
+      "epoch": 0.16095890410958905,
+      "grad_norm": 4.3125,
+      "learning_rate": 9.97462306642944e-06,
+      "loss": 1.72145348,
+      "memory(GiB)": 71.21,
+      "step": 6345,
+      "train_speed(iter/s)": 0.450096
+    },
+    {
+      "acc": 0.65161772,
+      "epoch": 0.1610857432775241,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.974517441232487e-06,
+      "loss": 1.61755943,
+      "memory(GiB)": 71.21,
+      "step": 6350,
+      "train_speed(iter/s)": 0.450286
+    },
+    {
+      "acc": 0.63160658,
+      "epoch": 0.16121258244545916,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.974411597234046e-06,
+      "loss": 1.73004341,
+      "memory(GiB)": 71.21,
+      "step": 6355,
+      "train_speed(iter/s)": 0.450475
+    },
+    {
+      "acc": 0.63577652,
+      "epoch": 0.1613394216133942,
+      "grad_norm": 6.09375,
+      "learning_rate": 9.974305534438774e-06,
+      "loss": 1.66141491,
+      "memory(GiB)": 71.21,
+      "step": 6360,
+      "train_speed(iter/s)": 0.450664
+    },
+    {
+      "acc": 0.64566479,
+      "epoch": 0.16146626078132928,
+      "grad_norm": 4.75,
+      "learning_rate": 9.974199252851338e-06,
+      "loss": 1.70336876,
+      "memory(GiB)": 71.21,
+      "step": 6365,
+      "train_speed(iter/s)": 0.450854
+    },
+    {
+      "acc": 0.64617376,
+      "epoch": 0.16159309994926432,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.974092752476408e-06,
+      "loss": 1.66555977,
+      "memory(GiB)": 71.21,
+      "step": 6370,
+      "train_speed(iter/s)": 0.451043
+    },
+    {
+      "acc": 0.65135059,
+      "epoch": 0.1617199391171994,
+      "grad_norm": 4.875,
+      "learning_rate": 9.973986033318673e-06,
+      "loss": 1.71009521,
+      "memory(GiB)": 71.21,
+      "step": 6375,
+      "train_speed(iter/s)": 0.451231
+    },
+    {
+      "acc": 0.65685863,
+      "epoch": 0.16184677828513444,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.973879095382824e-06,
+      "loss": 1.62660656,
+      "memory(GiB)": 71.21,
+      "step": 6380,
+      "train_speed(iter/s)": 0.451419
+    },
+    {
+      "acc": 0.64332199,
+      "epoch": 0.1619736174530695,
+      "grad_norm": 6.1875,
+      "learning_rate": 9.973771938673564e-06,
+      "loss": 1.71407089,
+      "memory(GiB)": 71.21,
+      "step": 6385,
+      "train_speed(iter/s)": 0.451608
+    },
+    {
+      "acc": 0.63628197,
+      "epoch": 0.16210045662100456,
+      "grad_norm": 6.09375,
+      "learning_rate": 9.973664563195609e-06,
+      "loss": 1.76624718,
+      "memory(GiB)": 71.21,
+      "step": 6390,
+      "train_speed(iter/s)": 0.451796
+    },
+    {
+      "acc": 0.63456173,
+      "epoch": 0.16222729578893963,
+      "grad_norm": 5.96875,
+      "learning_rate": 9.973556968953682e-06,
+      "loss": 1.72168999,
+      "memory(GiB)": 71.21,
+      "step": 6395,
+      "train_speed(iter/s)": 0.451984
+    },
+    {
+      "acc": 0.63222179,
+      "epoch": 0.16235413495687467,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.973449155952512e-06,
+      "loss": 1.70554523,
+      "memory(GiB)": 71.21,
+      "step": 6400,
+      "train_speed(iter/s)": 0.452173
+    },
+    {
+      "epoch": 0.16235413495687467,
+      "eval_acc": 0.6302111771972576,
+      "eval_loss": 1.6864054203033447,
+      "eval_runtime": 115.1051,
+      "eval_samples_per_second": 55.341,
+      "eval_steps_per_second": 27.67,
+      "step": 6400
+    },
+    {
+      "acc": 0.63519077,
+      "epoch": 0.16248097412480975,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.973341124196847e-06,
+      "loss": 1.67466583,
+      "memory(GiB)": 71.21,
+      "step": 6405,
+      "train_speed(iter/s)": 0.448572
+    },
+    {
+      "acc": 0.65170107,
+      "epoch": 0.1626078132927448,
+      "grad_norm": 4.875,
+      "learning_rate": 9.973232873691431e-06,
+      "loss": 1.66719913,
+      "memory(GiB)": 71.21,
+      "step": 6410,
+      "train_speed(iter/s)": 0.448758
+    },
+    {
+      "acc": 0.63416324,
+      "epoch": 0.16273465246067986,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.973124404441031e-06,
+      "loss": 1.72526855,
+      "memory(GiB)": 71.21,
+      "step": 6415,
+      "train_speed(iter/s)": 0.448944
+    },
+    {
+      "acc": 0.62481432,
+      "epoch": 0.1628614916286149,
+      "grad_norm": 5.375,
+      "learning_rate": 9.973015716450416e-06,
+      "loss": 1.82407475,
+      "memory(GiB)": 71.21,
+      "step": 6420,
+      "train_speed(iter/s)": 0.449131
+    },
+    {
+      "acc": 0.64744358,
+      "epoch": 0.16298833079654998,
+      "grad_norm": 5.5,
+      "learning_rate": 9.972906809724367e-06,
+      "loss": 1.66186638,
+      "memory(GiB)": 71.21,
+      "step": 6425,
+      "train_speed(iter/s)": 0.449317
+    },
+    {
+      "acc": 0.6531373,
+      "epoch": 0.16311516996448502,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.972797684267674e-06,
+      "loss": 1.64693489,
+      "memory(GiB)": 71.21,
+      "step": 6430,
+      "train_speed(iter/s)": 0.449503
+    },
+    {
+      "acc": 0.6519381,
+      "epoch": 0.1632420091324201,
+      "grad_norm": 5.0,
+      "learning_rate": 9.972688340085137e-06,
+      "loss": 1.63905487,
+      "memory(GiB)": 71.21,
+      "step": 6435,
+      "train_speed(iter/s)": 0.44969
+    },
+    {
+      "acc": 0.64304528,
+      "epoch": 0.16336884830035514,
+      "grad_norm": 6.3125,
+      "learning_rate": 9.972578777181565e-06,
+      "loss": 1.72123661,
+      "memory(GiB)": 71.21,
+      "step": 6440,
+      "train_speed(iter/s)": 0.449877
+    },
+    {
+      "acc": 0.63808084,
+      "epoch": 0.1634956874682902,
+      "grad_norm": 5.6875,
+      "learning_rate": 9.972468995561778e-06,
+      "loss": 1.64513397,
+      "memory(GiB)": 71.21,
+      "step": 6445,
+      "train_speed(iter/s)": 0.450065
+    },
+    {
+      "acc": 0.64115577,
+      "epoch": 0.16362252663622526,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.972358995230604e-06,
+      "loss": 1.60937214,
+      "memory(GiB)": 71.21,
+      "step": 6450,
+      "train_speed(iter/s)": 0.450251
+    },
+    {
+      "acc": 0.6481483,
+      "epoch": 0.16374936580416033,
+      "grad_norm": 6.28125,
+      "learning_rate": 9.97224877619288e-06,
+      "loss": 1.69629669,
+      "memory(GiB)": 71.21,
+      "step": 6455,
+      "train_speed(iter/s)": 0.450438
+    },
+    {
+      "acc": 0.63374949,
+      "epoch": 0.16387620497209537,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.972138338453457e-06,
+      "loss": 1.74168835,
+      "memory(GiB)": 71.21,
+      "step": 6460,
+      "train_speed(iter/s)": 0.450625
+    },
+    {
+      "acc": 0.63819251,
+      "epoch": 0.16400304414003045,
+      "grad_norm": 4.75,
+      "learning_rate": 9.972027682017191e-06,
+      "loss": 1.70580139,
+      "memory(GiB)": 71.21,
+      "step": 6465,
+      "train_speed(iter/s)": 0.45081
+    },
+    {
+      "acc": 0.62667751,
+      "epoch": 0.1641298833079655,
+      "grad_norm": 4.4375,
+      "learning_rate": 9.971916806888948e-06,
+      "loss": 1.79486923,
+      "memory(GiB)": 71.21,
+      "step": 6470,
+      "train_speed(iter/s)": 0.450996
+    },
+    {
+      "acc": 0.63105898,
+      "epoch": 0.16425672247590056,
+      "grad_norm": 6.0,
+      "learning_rate": 9.971805713073606e-06,
+      "loss": 1.76685257,
+      "memory(GiB)": 71.21,
+      "step": 6475,
+      "train_speed(iter/s)": 0.451183
+    },
+    {
+      "acc": 0.63640289,
+      "epoch": 0.1643835616438356,
+      "grad_norm": 4.625,
+      "learning_rate": 9.971694400576053e-06,
+      "loss": 1.65031548,
+      "memory(GiB)": 71.21,
+      "step": 6480,
+      "train_speed(iter/s)": 0.451368
+    },
+    {
+      "acc": 0.64500246,
+      "epoch": 0.16451040081177068,
+      "grad_norm": 4.53125,
+      "learning_rate": 9.971582869401182e-06,
+      "loss": 1.69581451,
+      "memory(GiB)": 71.21,
+      "step": 6485,
+      "train_speed(iter/s)": 0.451552
+    },
+    {
+      "acc": 0.64254198,
+      "epoch": 0.16463723997970572,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.9714711195539e-06,
+      "loss": 1.71236401,
+      "memory(GiB)": 71.21,
+      "step": 6490,
+      "train_speed(iter/s)": 0.451738
+    },
+    {
+      "acc": 0.63174195,
+      "epoch": 0.1647640791476408,
+      "grad_norm": 6.65625,
+      "learning_rate": 9.97135915103912e-06,
+      "loss": 1.71433392,
+      "memory(GiB)": 71.21,
+      "step": 6495,
+      "train_speed(iter/s)": 0.451925
+    },
+    {
+      "acc": 0.63656821,
+      "epoch": 0.16489091831557584,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.971246963861772e-06,
+      "loss": 1.6948307,
+      "memory(GiB)": 71.21,
+      "step": 6500,
+      "train_speed(iter/s)": 0.452111
+    },
+    {
+      "epoch": 0.16489091831557584,
+      "eval_acc": 0.6304238207577714,
+      "eval_loss": 1.6844685077667236,
+      "eval_runtime": 115.3889,
+      "eval_samples_per_second": 55.205,
+      "eval_steps_per_second": 27.602,
+      "step": 6500
+    },
+    {
+      "acc": 0.63033233,
+      "epoch": 0.1650177574835109,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.971134558026786e-06,
+      "loss": 1.69573898,
+      "memory(GiB)": 71.21,
+      "step": 6505,
+      "train_speed(iter/s)": 0.448555
+    },
+    {
+      "acc": 0.64669685,
+      "epoch": 0.16514459665144596,
+      "grad_norm": 5.375,
+      "learning_rate": 9.971021933539108e-06,
+      "loss": 1.66779327,
+      "memory(GiB)": 71.21,
+      "step": 6510,
+      "train_speed(iter/s)": 0.448739
+    },
+    {
+      "acc": 0.64687338,
+      "epoch": 0.16527143581938103,
+      "grad_norm": 5.8125,
+      "learning_rate": 9.97090909040369e-06,
+      "loss": 1.66354771,
+      "memory(GiB)": 71.21,
+      "step": 6515,
+      "train_speed(iter/s)": 0.448925
+    },
+    {
+      "acc": 0.63365822,
+      "epoch": 0.16539827498731607,
+      "grad_norm": 4.75,
+      "learning_rate": 9.970796028625499e-06,
+      "loss": 1.73496552,
+      "memory(GiB)": 71.21,
+      "step": 6520,
+      "train_speed(iter/s)": 0.449109
+    },
+    {
+      "acc": 0.63935966,
+      "epoch": 0.16552511415525115,
+      "grad_norm": 5.375,
+      "learning_rate": 9.970682748209505e-06,
+      "loss": 1.67517166,
+      "memory(GiB)": 71.21,
+      "step": 6525,
+      "train_speed(iter/s)": 0.449295
+    },
+    {
+      "acc": 0.64406037,
+      "epoch": 0.1656519533231862,
+      "grad_norm": 4.1875,
+      "learning_rate": 9.97056924916069e-06,
+      "loss": 1.67376709,
+      "memory(GiB)": 71.21,
+      "step": 6530,
+      "train_speed(iter/s)": 0.449479
+    },
+    {
+      "acc": 0.65336609,
+      "epoch": 0.16577879249112126,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.970455531484049e-06,
+      "loss": 1.65930328,
+      "memory(GiB)": 71.21,
+      "step": 6535,
+      "train_speed(iter/s)": 0.44966
+    },
+    {
+      "acc": 0.6460598,
+      "epoch": 0.1659056316590563,
+      "grad_norm": 5.375,
+      "learning_rate": 9.97034159518458e-06,
+      "loss": 1.68185635,
+      "memory(GiB)": 71.21,
+      "step": 6540,
+      "train_speed(iter/s)": 0.449844
+    },
+    {
+      "acc": 0.64707355,
+      "epoch": 0.16603247082699138,
+      "grad_norm": 5.96875,
+      "learning_rate": 9.9702274402673e-06,
+      "loss": 1.6996788,
+      "memory(GiB)": 71.21,
+      "step": 6545,
+      "train_speed(iter/s)": 0.450029
+    },
+    {
+      "acc": 0.6494092,
+      "epoch": 0.16615930999492642,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.970113066737223e-06,
+      "loss": 1.7148674,
+      "memory(GiB)": 71.21,
+      "step": 6550,
+      "train_speed(iter/s)": 0.450211
+    },
+    {
+      "acc": 0.6416522,
+      "epoch": 0.1662861491628615,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.969998474599386e-06,
+      "loss": 1.68036804,
+      "memory(GiB)": 71.21,
+      "step": 6555,
+      "train_speed(iter/s)": 0.450394
+    },
+    {
+      "acc": 0.64480743,
+      "epoch": 0.16641298833079654,
+      "grad_norm": 6.28125,
+      "learning_rate": 9.969883663858826e-06,
+      "loss": 1.63234901,
+      "memory(GiB)": 71.21,
+      "step": 6560,
+      "train_speed(iter/s)": 0.450579
+    },
+    {
+      "acc": 0.65155292,
+      "epoch": 0.1665398274987316,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.969768634520593e-06,
+      "loss": 1.68875046,
+      "memory(GiB)": 71.21,
+      "step": 6565,
+      "train_speed(iter/s)": 0.450763
+    },
+    {
+      "acc": 0.65460062,
+      "epoch": 0.16666666666666666,
+      "grad_norm": 4.5625,
+      "learning_rate": 9.969653386589749e-06,
+      "loss": 1.62505722,
+      "memory(GiB)": 71.21,
+      "step": 6570,
+      "train_speed(iter/s)": 0.450946
+    },
+    {
+      "acc": 0.65035658,
+      "epoch": 0.16679350583460173,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.96953792007136e-06,
+      "loss": 1.70844345,
+      "memory(GiB)": 71.21,
+      "step": 6575,
+      "train_speed(iter/s)": 0.451129
+    },
+    {
+      "acc": 0.62463398,
+      "epoch": 0.16692034500253677,
+      "grad_norm": 4.625,
+      "learning_rate": 9.969422234970506e-06,
+      "loss": 1.72562618,
+      "memory(GiB)": 71.21,
+      "step": 6580,
+      "train_speed(iter/s)": 0.451311
+    },
+    {
+      "acc": 0.6577569,
+      "epoch": 0.16704718417047185,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.969306331292273e-06,
+      "loss": 1.60892105,
+      "memory(GiB)": 71.21,
+      "step": 6585,
+      "train_speed(iter/s)": 0.451492
+    },
+    {
+      "acc": 0.62938375,
+      "epoch": 0.1671740233384069,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.969190209041764e-06,
+      "loss": 1.75925503,
+      "memory(GiB)": 71.21,
+      "step": 6590,
+      "train_speed(iter/s)": 0.451675
+    },
+    {
+      "acc": 0.63579378,
+      "epoch": 0.16730086250634196,
+      "grad_norm": 5.9375,
+      "learning_rate": 9.969073868224082e-06,
+      "loss": 1.74828606,
+      "memory(GiB)": 71.21,
+      "step": 6595,
+      "train_speed(iter/s)": 0.451856
+    },
+    {
+      "acc": 0.62777534,
+      "epoch": 0.167427701674277,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.968957308844346e-06,
+      "loss": 1.78514938,
+      "memory(GiB)": 71.21,
+      "step": 6600,
+      "train_speed(iter/s)": 0.45204
+    },
+    {
+      "epoch": 0.167427701674277,
+      "eval_acc": 0.6306757344453742,
+      "eval_loss": 1.6830366849899292,
+      "eval_runtime": 114.5252,
+      "eval_samples_per_second": 55.621,
+      "eval_steps_per_second": 27.81,
+      "step": 6600
+    },
+    {
+      "acc": 0.63884621,
+      "epoch": 0.16755454084221208,
+      "grad_norm": 6.15625,
+      "learning_rate": 9.968840530907684e-06,
+      "loss": 1.74698486,
+      "memory(GiB)": 71.21,
+      "step": 6605,
+      "train_speed(iter/s)": 0.448567
+    },
+    {
+      "acc": 0.62307458,
+      "epoch": 0.16768138001014712,
+      "grad_norm": 6.6875,
+      "learning_rate": 9.96872353441923e-06,
+      "loss": 1.74410114,
+      "memory(GiB)": 71.21,
+      "step": 6610,
+      "train_speed(iter/s)": 0.448749
+    },
+    {
+      "acc": 0.63508086,
+      "epoch": 0.1678082191780822,
+      "grad_norm": 6.25,
+      "learning_rate": 9.968606319384131e-06,
+      "loss": 1.75212784,
+      "memory(GiB)": 71.21,
+      "step": 6615,
+      "train_speed(iter/s)": 0.44893
+    },
+    {
+      "acc": 0.6378727,
+      "epoch": 0.16793505834601724,
+      "grad_norm": 6.84375,
+      "learning_rate": 9.968488885807544e-06,
+      "loss": 1.76319771,
+      "memory(GiB)": 71.21,
+      "step": 6620,
+      "train_speed(iter/s)": 0.449112
+    },
+    {
+      "acc": 0.64346189,
+      "epoch": 0.1680618975139523,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.968371233694633e-06,
+      "loss": 1.7074379,
+      "memory(GiB)": 71.21,
+      "step": 6625,
+      "train_speed(iter/s)": 0.449294
+    },
+    {
+      "acc": 0.64173932,
+      "epoch": 0.16818873668188736,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.968253363050573e-06,
+      "loss": 1.71890678,
+      "memory(GiB)": 71.21,
+      "step": 6630,
+      "train_speed(iter/s)": 0.449474
+    },
+    {
+      "acc": 0.64332647,
+      "epoch": 0.16831557584982243,
+      "grad_norm": 4.34375,
+      "learning_rate": 9.968135273880547e-06,
+      "loss": 1.65478706,
+      "memory(GiB)": 71.21,
+      "step": 6635,
+      "train_speed(iter/s)": 0.449655
+    },
+    {
+      "acc": 0.6396049,
+      "epoch": 0.16844241501775747,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.968016966189753e-06,
+      "loss": 1.66964741,
+      "memory(GiB)": 71.21,
+      "step": 6640,
+      "train_speed(iter/s)": 0.449836
+    },
+    {
+      "acc": 0.64336157,
+      "epoch": 0.16856925418569255,
+      "grad_norm": 5.96875,
+      "learning_rate": 9.96789843998339e-06,
+      "loss": 1.63839188,
+      "memory(GiB)": 71.21,
+      "step": 6645,
+      "train_speed(iter/s)": 0.450017
+    },
+    {
+      "acc": 0.63814754,
+      "epoch": 0.1686960933536276,
+      "grad_norm": 6.25,
+      "learning_rate": 9.967779695266675e-06,
+      "loss": 1.70653496,
+      "memory(GiB)": 71.21,
+      "step": 6650,
+      "train_speed(iter/s)": 0.450199
+    },
+    {
+      "acc": 0.64745874,
+      "epoch": 0.16882293252156266,
+      "grad_norm": 6.21875,
+      "learning_rate": 9.967660732044828e-06,
+      "loss": 1.69663105,
+      "memory(GiB)": 71.21,
+      "step": 6655,
+      "train_speed(iter/s)": 0.450379
+    },
+    {
+      "acc": 0.64206862,
+      "epoch": 0.1689497716894977,
+      "grad_norm": 4.875,
+      "learning_rate": 9.967541550323085e-06,
+      "loss": 1.6930912,
+      "memory(GiB)": 71.21,
+      "step": 6660,
+      "train_speed(iter/s)": 0.45056
+    },
+    {
+      "acc": 0.64384375,
+      "epoch": 0.16907661085743278,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.967422150106685e-06,
+      "loss": 1.70717201,
+      "memory(GiB)": 71.21,
+      "step": 6665,
+      "train_speed(iter/s)": 0.450742
+    },
+    {
+      "acc": 0.63365135,
+      "epoch": 0.16920345002536782,
+      "grad_norm": 4.875,
+      "learning_rate": 9.96730253140088e-06,
+      "loss": 1.6828104,
+      "memory(GiB)": 71.21,
+      "step": 6670,
+      "train_speed(iter/s)": 0.450923
+    },
+    {
+      "acc": 0.63285046,
+      "epoch": 0.1693302891933029,
+      "grad_norm": 5.5,
+      "learning_rate": 9.967182694210933e-06,
+      "loss": 1.74362907,
+      "memory(GiB)": 71.21,
+      "step": 6675,
+      "train_speed(iter/s)": 0.451104
+    },
+    {
+      "acc": 0.64584789,
+      "epoch": 0.16945712836123794,
+      "grad_norm": 4.625,
+      "learning_rate": 9.967062638542116e-06,
+      "loss": 1.6860466,
+      "memory(GiB)": 71.21,
+      "step": 6680,
+      "train_speed(iter/s)": 0.451285
+    },
+    {
+      "acc": 0.63993616,
+      "epoch": 0.169583967529173,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.966942364399706e-06,
+      "loss": 1.70842514,
+      "memory(GiB)": 71.21,
+      "step": 6685,
+      "train_speed(iter/s)": 0.451466
+    },
+    {
+      "acc": 0.63192701,
+      "epoch": 0.16971080669710806,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.966821871788995e-06,
+      "loss": 1.73490124,
+      "memory(GiB)": 71.21,
+      "step": 6690,
+      "train_speed(iter/s)": 0.451646
+    },
+    {
+      "acc": 0.64266176,
+      "epoch": 0.16983764586504313,
+      "grad_norm": 6.09375,
+      "learning_rate": 9.966701160715283e-06,
+      "loss": 1.71660919,
+      "memory(GiB)": 71.21,
+      "step": 6695,
+      "train_speed(iter/s)": 0.451827
+    },
+    {
+      "acc": 0.65317831,
+      "epoch": 0.16996448503297817,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.96658023118388e-06,
+      "loss": 1.63388596,
+      "memory(GiB)": 71.21,
+      "step": 6700,
+      "train_speed(iter/s)": 0.452006
+    },
+    {
+      "epoch": 0.16996448503297817,
+      "eval_acc": 0.6308257129094694,
+      "eval_loss": 1.6815400123596191,
+      "eval_runtime": 113.4152,
+      "eval_samples_per_second": 56.165,
+      "eval_steps_per_second": 28.083,
+      "step": 6700
+    },
+    {
+      "acc": 0.64241967,
+      "epoch": 0.17009132420091325,
+      "grad_norm": 6.0,
+      "learning_rate": 9.966459083200102e-06,
+      "loss": 1.73983688,
+      "memory(GiB)": 71.21,
+      "step": 6705,
+      "train_speed(iter/s)": 0.448615
+    },
+    {
+      "acc": 0.62719831,
+      "epoch": 0.1702181633688483,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.966337716769283e-06,
+      "loss": 1.7396513,
+      "memory(GiB)": 71.21,
+      "step": 6710,
+      "train_speed(iter/s)": 0.44879
+    },
+    {
+      "acc": 0.63033934,
+      "epoch": 0.17034500253678336,
+      "grad_norm": 5.75,
+      "learning_rate": 9.966216131896755e-06,
+      "loss": 1.75303535,
+      "memory(GiB)": 71.21,
+      "step": 6715,
+      "train_speed(iter/s)": 0.448965
+    },
+    {
+      "acc": 0.62729473,
+      "epoch": 0.1704718417047184,
+      "grad_norm": 5.71875,
+      "learning_rate": 9.966094328587871e-06,
+      "loss": 1.73549404,
+      "memory(GiB)": 71.21,
+      "step": 6720,
+      "train_speed(iter/s)": 0.449141
+    },
+    {
+      "acc": 0.63383093,
+      "epoch": 0.17059868087265348,
+      "grad_norm": 5.125,
+      "learning_rate": 9.965972306847986e-06,
+      "loss": 1.76836853,
+      "memory(GiB)": 71.21,
+      "step": 6725,
+      "train_speed(iter/s)": 0.449315
+    },
+    {
+      "acc": 0.65538917,
+      "epoch": 0.17072552004058852,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.965850066682468e-06,
+      "loss": 1.59685116,
+      "memory(GiB)": 71.21,
+      "step": 6730,
+      "train_speed(iter/s)": 0.44949
+    },
+    {
+      "acc": 0.62905073,
+      "epoch": 0.1708523592085236,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.965727608096692e-06,
+      "loss": 1.69803505,
+      "memory(GiB)": 71.21,
+      "step": 6735,
+      "train_speed(iter/s)": 0.449667
+    },
+    {
+      "acc": 0.64299374,
+      "epoch": 0.17097919837645864,
+      "grad_norm": 4.375,
+      "learning_rate": 9.965604931096045e-06,
+      "loss": 1.7507885,
+      "memory(GiB)": 71.21,
+      "step": 6740,
+      "train_speed(iter/s)": 0.449843
+    },
+    {
+      "acc": 0.63420615,
+      "epoch": 0.1711060375443937,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.965482035685925e-06,
+      "loss": 1.73899078,
+      "memory(GiB)": 71.21,
+      "step": 6745,
+      "train_speed(iter/s)": 0.450017
+    },
+    {
+      "acc": 0.64873242,
+      "epoch": 0.17123287671232876,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.965358921871735e-06,
+      "loss": 1.71025467,
+      "memory(GiB)": 71.21,
+      "step": 6750,
+      "train_speed(iter/s)": 0.450193
+    },
+    {
+      "acc": 0.65254641,
+      "epoch": 0.17135971588026383,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.965235589658891e-06,
+      "loss": 1.64431171,
+      "memory(GiB)": 71.21,
+      "step": 6755,
+      "train_speed(iter/s)": 0.450369
+    },
+    {
+      "acc": 0.64476228,
+      "epoch": 0.17148655504819887,
+      "grad_norm": 3.921875,
+      "learning_rate": 9.965112039052817e-06,
+      "loss": 1.69672508,
+      "memory(GiB)": 71.21,
+      "step": 6760,
+      "train_speed(iter/s)": 0.450543
+    },
+    {
+      "acc": 0.63649068,
+      "epoch": 0.17161339421613395,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.964988270058948e-06,
+      "loss": 1.75114594,
+      "memory(GiB)": 71.21,
+      "step": 6765,
+      "train_speed(iter/s)": 0.450718
+    },
+    {
+      "acc": 0.63136678,
+      "epoch": 0.171740233384069,
+      "grad_norm": 4.75,
+      "learning_rate": 9.96486428268273e-06,
+      "loss": 1.6766922,
+      "memory(GiB)": 71.21,
+      "step": 6770,
+      "train_speed(iter/s)": 0.450892
+    },
+    {
+      "acc": 0.63834257,
+      "epoch": 0.17186707255200406,
+      "grad_norm": 5.84375,
+      "learning_rate": 9.964740076929612e-06,
+      "loss": 1.68672562,
+      "memory(GiB)": 71.21,
+      "step": 6775,
+      "train_speed(iter/s)": 0.451067
+    },
+    {
+      "acc": 0.62989707,
+      "epoch": 0.1719939117199391,
+      "grad_norm": 5.8125,
+      "learning_rate": 9.964615652805059e-06,
+      "loss": 1.75441475,
+      "memory(GiB)": 71.21,
+      "step": 6780,
+      "train_speed(iter/s)": 0.451241
+    },
+    {
+      "acc": 0.64719915,
+      "epoch": 0.17212075088787418,
+      "grad_norm": 5.78125,
+      "learning_rate": 9.964491010314545e-06,
+      "loss": 1.66278801,
+      "memory(GiB)": 71.21,
+      "step": 6785,
+      "train_speed(iter/s)": 0.451415
+    },
+    {
+      "acc": 0.64117589,
+      "epoch": 0.17224759005580922,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.964366149463552e-06,
+      "loss": 1.71033897,
+      "memory(GiB)": 71.21,
+      "step": 6790,
+      "train_speed(iter/s)": 0.451589
+    },
+    {
+      "acc": 0.65882111,
+      "epoch": 0.1723744292237443,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.96424107025757e-06,
+      "loss": 1.64602737,
+      "memory(GiB)": 71.21,
+      "step": 6795,
+      "train_speed(iter/s)": 0.451763
+    },
+    {
+      "acc": 0.64780502,
+      "epoch": 0.17250126839167934,
+      "grad_norm": 4.40625,
+      "learning_rate": 9.964115772702104e-06,
+      "loss": 1.68545761,
+      "memory(GiB)": 71.21,
+      "step": 6800,
+      "train_speed(iter/s)": 0.451939
+    },
+    {
+      "epoch": 0.17250126839167934,
+      "eval_acc": 0.6312635330497808,
+      "eval_loss": 1.6801426410675049,
+      "eval_runtime": 114.1408,
+      "eval_samples_per_second": 55.808,
+      "eval_steps_per_second": 27.904,
+      "step": 6800
+    },
+    {
+      "acc": 0.63717914,
+      "epoch": 0.1726281075596144,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.963990256802662e-06,
+      "loss": 1.74001732,
+      "memory(GiB)": 71.21,
+      "step": 6805,
+      "train_speed(iter/s)": 0.448578
+    },
+    {
+      "acc": 0.64864168,
+      "epoch": 0.17275494672754946,
+      "grad_norm": 6.375,
+      "learning_rate": 9.963864522564765e-06,
+      "loss": 1.66755104,
+      "memory(GiB)": 71.21,
+      "step": 6810,
+      "train_speed(iter/s)": 0.448752
+    },
+    {
+      "acc": 0.63915405,
+      "epoch": 0.17288178589548453,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.963738569993945e-06,
+      "loss": 1.72978821,
+      "memory(GiB)": 71.21,
+      "step": 6815,
+      "train_speed(iter/s)": 0.448926
+    },
+    {
+      "acc": 0.64949522,
+      "epoch": 0.17300862506341957,
+      "grad_norm": 6.65625,
+      "learning_rate": 9.963612399095743e-06,
+      "loss": 1.70425949,
+      "memory(GiB)": 71.21,
+      "step": 6820,
+      "train_speed(iter/s)": 0.4491
+    },
+    {
+      "acc": 0.62626896,
+      "epoch": 0.17313546423135465,
+      "grad_norm": 5.5,
+      "learning_rate": 9.963486009875705e-06,
+      "loss": 1.77209167,
+      "memory(GiB)": 71.21,
+      "step": 6825,
+      "train_speed(iter/s)": 0.449274
+    },
+    {
+      "acc": 0.63922653,
+      "epoch": 0.1732623033992897,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.963359402339393e-06,
+      "loss": 1.6831665,
+      "memory(GiB)": 71.21,
+      "step": 6830,
+      "train_speed(iter/s)": 0.449446
+    },
+    {
+      "acc": 0.63800831,
+      "epoch": 0.17338914256722476,
+      "grad_norm": 6.71875,
+      "learning_rate": 9.963232576492373e-06,
+      "loss": 1.75432358,
+      "memory(GiB)": 71.21,
+      "step": 6835,
+      "train_speed(iter/s)": 0.449619
+    },
+    {
+      "acc": 0.63258686,
+      "epoch": 0.1735159817351598,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.963105532340226e-06,
+      "loss": 1.7624651,
+      "memory(GiB)": 71.21,
+      "step": 6840,
+      "train_speed(iter/s)": 0.449792
+    },
+    {
+      "acc": 0.62508526,
+      "epoch": 0.17364282090309488,
+      "grad_norm": 6.09375,
+      "learning_rate": 9.962978269888538e-06,
+      "loss": 1.73552055,
+      "memory(GiB)": 71.21,
+      "step": 6845,
+      "train_speed(iter/s)": 0.449965
+    },
+    {
+      "acc": 0.62747498,
+      "epoch": 0.17376966007102992,
+      "grad_norm": 4.625,
+      "learning_rate": 9.96285078914291e-06,
+      "loss": 1.69868374,
+      "memory(GiB)": 71.21,
+      "step": 6850,
+      "train_speed(iter/s)": 0.450137
+    },
+    {
+      "acc": 0.63322325,
+      "epoch": 0.173896499238965,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.962723090108944e-06,
+      "loss": 1.70937462,
+      "memory(GiB)": 71.21,
+      "step": 6855,
+      "train_speed(iter/s)": 0.450311
+    },
+    {
+      "acc": 0.63472128,
+      "epoch": 0.17402333840690004,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.962595172792261e-06,
+      "loss": 1.71486435,
+      "memory(GiB)": 71.21,
+      "step": 6860,
+      "train_speed(iter/s)": 0.450484
+    },
+    {
+      "acc": 0.64128575,
+      "epoch": 0.1741501775748351,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.962467037198487e-06,
+      "loss": 1.64592934,
+      "memory(GiB)": 71.21,
+      "step": 6865,
+      "train_speed(iter/s)": 0.450656
+    },
+    {
+      "acc": 0.641115,
+      "epoch": 0.17427701674277016,
+      "grad_norm": 5.0,
+      "learning_rate": 9.962338683333254e-06,
+      "loss": 1.70540276,
+      "memory(GiB)": 71.21,
+      "step": 6870,
+      "train_speed(iter/s)": 0.450829
+    },
+    {
+      "acc": 0.63209133,
+      "epoch": 0.17440385591070523,
+      "grad_norm": 4.75,
+      "learning_rate": 9.962210111202212e-06,
+      "loss": 1.78955193,
+      "memory(GiB)": 71.21,
+      "step": 6875,
+      "train_speed(iter/s)": 0.451001
+    },
+    {
+      "acc": 0.63830833,
+      "epoch": 0.17453069507864027,
+      "grad_norm": 6.46875,
+      "learning_rate": 9.962081320811015e-06,
+      "loss": 1.71247025,
+      "memory(GiB)": 71.21,
+      "step": 6880,
+      "train_speed(iter/s)": 0.451173
+    },
+    {
+      "acc": 0.64899645,
+      "epoch": 0.17465753424657535,
+      "grad_norm": 5.8125,
+      "learning_rate": 9.961952312165327e-06,
+      "loss": 1.68242855,
+      "memory(GiB)": 71.21,
+      "step": 6885,
+      "train_speed(iter/s)": 0.451346
+    },
+    {
+      "acc": 0.64467893,
+      "epoch": 0.1747843734145104,
+      "grad_norm": 4.75,
+      "learning_rate": 9.961823085270823e-06,
+      "loss": 1.67668209,
+      "memory(GiB)": 71.21,
+      "step": 6890,
+      "train_speed(iter/s)": 0.451517
+    },
+    {
+      "acc": 0.6508585,
+      "epoch": 0.17491121258244546,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.961693640133187e-06,
+      "loss": 1.60053349,
+      "memory(GiB)": 71.21,
+      "step": 6895,
+      "train_speed(iter/s)": 0.451689
+    },
+    {
+      "acc": 0.63960209,
+      "epoch": 0.1750380517503805,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.961563976758112e-06,
+      "loss": 1.71107082,
+      "memory(GiB)": 71.21,
+      "step": 6900,
+      "train_speed(iter/s)": 0.45186
+    },
+    {
+      "epoch": 0.1750380517503805,
+      "eval_acc": 0.6314807720506985,
+      "eval_loss": 1.679044485092163,
+      "eval_runtime": 114.2953,
+      "eval_samples_per_second": 55.733,
+      "eval_steps_per_second": 27.866,
+      "step": 6900
+    },
+    {
+      "acc": 0.63297606,
+      "epoch": 0.17516489091831558,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.961434095151301e-06,
+      "loss": 1.75422115,
+      "memory(GiB)": 71.21,
+      "step": 6905,
+      "train_speed(iter/s)": 0.448545
+    },
+    {
+      "acc": 0.63639727,
+      "epoch": 0.17529173008625062,
+      "grad_norm": 4.28125,
+      "learning_rate": 9.961303995318467e-06,
+      "loss": 1.63829842,
+      "memory(GiB)": 71.21,
+      "step": 6910,
+      "train_speed(iter/s)": 0.448716
+    },
+    {
+      "acc": 0.64464526,
+      "epoch": 0.1754185692541857,
+      "grad_norm": 5.375,
+      "learning_rate": 9.961173677265334e-06,
+      "loss": 1.66234818,
+      "memory(GiB)": 71.21,
+      "step": 6915,
+      "train_speed(iter/s)": 0.448887
+    },
+    {
+      "acc": 0.63808126,
+      "epoch": 0.17554540842212074,
+      "grad_norm": 4.625,
+      "learning_rate": 9.961043140997632e-06,
+      "loss": 1.68159714,
+      "memory(GiB)": 71.21,
+      "step": 6920,
+      "train_speed(iter/s)": 0.449056
+    },
+    {
+      "acc": 0.62776995,
+      "epoch": 0.1756722475900558,
+      "grad_norm": 5.875,
+      "learning_rate": 9.960912386521104e-06,
+      "loss": 1.72295723,
+      "memory(GiB)": 71.21,
+      "step": 6925,
+      "train_speed(iter/s)": 0.449228
+    },
+    {
+      "acc": 0.63374896,
+      "epoch": 0.17579908675799086,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.9607814138415e-06,
+      "loss": 1.69503231,
+      "memory(GiB)": 71.21,
+      "step": 6930,
+      "train_speed(iter/s)": 0.449398
+    },
+    {
+      "acc": 0.64268875,
+      "epoch": 0.17592592592592593,
+      "grad_norm": 6.40625,
+      "learning_rate": 9.96065022296458e-06,
+      "loss": 1.71260147,
+      "memory(GiB)": 71.21,
+      "step": 6935,
+      "train_speed(iter/s)": 0.44957
+    },
+    {
+      "acc": 0.64920301,
+      "epoch": 0.17605276509386097,
+      "grad_norm": 5.9375,
+      "learning_rate": 9.960518813896117e-06,
+      "loss": 1.65298824,
+      "memory(GiB)": 71.21,
+      "step": 6940,
+      "train_speed(iter/s)": 0.449739
+    },
+    {
+      "acc": 0.63320346,
+      "epoch": 0.17617960426179605,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.960387186641887e-06,
+      "loss": 1.69064255,
+      "memory(GiB)": 71.21,
+      "step": 6945,
+      "train_speed(iter/s)": 0.449911
+    },
+    {
+      "acc": 0.64141626,
+      "epoch": 0.1763064434297311,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.960255341207686e-06,
+      "loss": 1.66379223,
+      "memory(GiB)": 71.21,
+      "step": 6950,
+      "train_speed(iter/s)": 0.450079
+    },
+    {
+      "acc": 0.65310822,
+      "epoch": 0.17643328259766616,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.960123277599305e-06,
+      "loss": 1.67130661,
+      "memory(GiB)": 71.21,
+      "step": 6955,
+      "train_speed(iter/s)": 0.450249
+    },
+    {
+      "acc": 0.62346492,
+      "epoch": 0.1765601217656012,
+      "grad_norm": 6.03125,
+      "learning_rate": 9.959990995822559e-06,
+      "loss": 1.71594238,
+      "memory(GiB)": 71.21,
+      "step": 6960,
+      "train_speed(iter/s)": 0.45042
+    },
+    {
+      "acc": 0.64713631,
+      "epoch": 0.17668696093353628,
+      "grad_norm": 4.4375,
+      "learning_rate": 9.959858495883263e-06,
+      "loss": 1.66925926,
+      "memory(GiB)": 71.21,
+      "step": 6965,
+      "train_speed(iter/s)": 0.450591
+    },
+    {
+      "acc": 0.64613409,
+      "epoch": 0.17681380010147132,
+      "grad_norm": 4.40625,
+      "learning_rate": 9.959725777787249e-06,
+      "loss": 1.64243317,
+      "memory(GiB)": 71.21,
+      "step": 6970,
+      "train_speed(iter/s)": 0.450762
+    },
+    {
+      "acc": 0.64114819,
+      "epoch": 0.1769406392694064,
+      "grad_norm": 6.375,
+      "learning_rate": 9.959592841540349e-06,
+      "loss": 1.72644653,
+      "memory(GiB)": 71.21,
+      "step": 6975,
+      "train_speed(iter/s)": 0.450932
+    },
+    {
+      "acc": 0.6248683,
+      "epoch": 0.17706747843734144,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.959459687148414e-06,
+      "loss": 1.71904373,
+      "memory(GiB)": 71.21,
+      "step": 6980,
+      "train_speed(iter/s)": 0.451102
+    },
+    {
+      "acc": 0.6215354,
+      "epoch": 0.1771943176052765,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.959326314617299e-06,
+      "loss": 1.75260105,
+      "memory(GiB)": 71.21,
+      "step": 6985,
+      "train_speed(iter/s)": 0.45127
+    },
+    {
+      "acc": 0.63244171,
+      "epoch": 0.17732115677321156,
+      "grad_norm": 5.875,
+      "learning_rate": 9.95919272395287e-06,
+      "loss": 1.73920155,
+      "memory(GiB)": 71.21,
+      "step": 6990,
+      "train_speed(iter/s)": 0.451439
+    },
+    {
+      "acc": 0.6280045,
+      "epoch": 0.17744799594114663,
+      "grad_norm": 5.375,
+      "learning_rate": 9.959058915161006e-06,
+      "loss": 1.8079855,
+      "memory(GiB)": 71.21,
+      "step": 6995,
+      "train_speed(iter/s)": 0.451611
+    },
+    {
+      "acc": 0.62093716,
+      "epoch": 0.17757483510908167,
+      "grad_norm": 5.25,
+      "learning_rate": 9.95892488824759e-06,
+      "loss": 1.74558754,
+      "memory(GiB)": 71.21,
+      "step": 7000,
+      "train_speed(iter/s)": 0.451782
+    },
+    {
+      "epoch": 0.17757483510908167,
+      "eval_acc": 0.631599000199275,
+      "eval_loss": 1.6772499084472656,
+      "eval_runtime": 114.821,
+      "eval_samples_per_second": 55.478,
+      "eval_steps_per_second": 27.739,
+      "step": 7000
+    },
+    {
+      "acc": 0.65774221,
+      "epoch": 0.17770167427701675,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.958790643218515e-06,
+      "loss": 1.57542114,
+      "memory(GiB)": 71.21,
+      "step": 7005,
+      "train_speed(iter/s)": 0.448501
+    },
+    {
+      "acc": 0.6377305,
+      "epoch": 0.1778285134449518,
+      "grad_norm": 4.3125,
+      "learning_rate": 9.95865618007969e-06,
+      "loss": 1.63670177,
+      "memory(GiB)": 71.21,
+      "step": 7010,
+      "train_speed(iter/s)": 0.44867
+    },
+    {
+      "acc": 0.64239469,
+      "epoch": 0.17795535261288686,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.958521498837029e-06,
+      "loss": 1.66215572,
+      "memory(GiB)": 71.21,
+      "step": 7015,
+      "train_speed(iter/s)": 0.448841
+    },
+    {
+      "acc": 0.63991089,
+      "epoch": 0.1780821917808219,
+      "grad_norm": 5.5,
+      "learning_rate": 9.95838659949645e-06,
+      "loss": 1.73151035,
+      "memory(GiB)": 71.21,
+      "step": 7020,
+      "train_speed(iter/s)": 0.449012
+    },
+    {
+      "acc": 0.65910544,
+      "epoch": 0.17820903094875698,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.958251482063894e-06,
+      "loss": 1.67527275,
+      "memory(GiB)": 71.21,
+      "step": 7025,
+      "train_speed(iter/s)": 0.449183
+    },
+    {
+      "acc": 0.63096104,
+      "epoch": 0.17833587011669202,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.9581161465453e-06,
+      "loss": 1.74462528,
+      "memory(GiB)": 71.21,
+      "step": 7030,
+      "train_speed(iter/s)": 0.449354
+    },
+    {
+      "acc": 0.62816329,
+      "epoch": 0.1784627092846271,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.957980592946621e-06,
+      "loss": 1.73820324,
+      "memory(GiB)": 71.21,
+      "step": 7035,
+      "train_speed(iter/s)": 0.449526
+    },
+    {
+      "acc": 0.65771322,
+      "epoch": 0.17858954845256214,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.957844821273822e-06,
+      "loss": 1.61181011,
+      "memory(GiB)": 71.21,
+      "step": 7040,
+      "train_speed(iter/s)": 0.449697
+    },
+    {
+      "acc": 0.65727053,
+      "epoch": 0.1787163876204972,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.95770883153287e-06,
+      "loss": 1.59334517,
+      "memory(GiB)": 71.21,
+      "step": 7045,
+      "train_speed(iter/s)": 0.449867
+    },
+    {
+      "acc": 0.64151306,
+      "epoch": 0.17884322678843226,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.957572623729749e-06,
+      "loss": 1.75311317,
+      "memory(GiB)": 71.21,
+      "step": 7050,
+      "train_speed(iter/s)": 0.450038
+    },
+    {
+      "acc": 0.6288065,
+      "epoch": 0.17897006595636733,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.957436197870451e-06,
+      "loss": 1.702075,
+      "memory(GiB)": 71.21,
+      "step": 7055,
+      "train_speed(iter/s)": 0.450207
+    },
+    {
+      "acc": 0.6372962,
+      "epoch": 0.17909690512430237,
+      "grad_norm": 6.09375,
+      "learning_rate": 9.957299553960975e-06,
+      "loss": 1.73042221,
+      "memory(GiB)": 71.21,
+      "step": 7060,
+      "train_speed(iter/s)": 0.450377
+    },
+    {
+      "acc": 0.64321432,
+      "epoch": 0.17922374429223745,
+      "grad_norm": 6.03125,
+      "learning_rate": 9.957162692007334e-06,
+      "loss": 1.64974308,
+      "memory(GiB)": 71.21,
+      "step": 7065,
+      "train_speed(iter/s)": 0.450547
+    },
+    {
+      "acc": 0.64608669,
+      "epoch": 0.1793505834601725,
+      "grad_norm": 5.625,
+      "learning_rate": 9.957025612015543e-06,
+      "loss": 1.68608284,
+      "memory(GiB)": 71.21,
+      "step": 7070,
+      "train_speed(iter/s)": 0.450716
+    },
+    {
+      "acc": 0.65064063,
+      "epoch": 0.17947742262810756,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.956888313991636e-06,
+      "loss": 1.63163643,
+      "memory(GiB)": 71.21,
+      "step": 7075,
+      "train_speed(iter/s)": 0.450885
+    },
+    {
+      "acc": 0.63756208,
+      "epoch": 0.1796042617960426,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.956750797941648e-06,
+      "loss": 1.6888073,
+      "memory(GiB)": 71.21,
+      "step": 7080,
+      "train_speed(iter/s)": 0.451056
+    },
+    {
+      "acc": 0.63542538,
+      "epoch": 0.17973110096397768,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.95661306387163e-06,
+      "loss": 1.74927101,
+      "memory(GiB)": 71.21,
+      "step": 7085,
+      "train_speed(iter/s)": 0.451225
+    },
+    {
+      "acc": 0.64372125,
+      "epoch": 0.17985794013191272,
+      "grad_norm": 4.40625,
+      "learning_rate": 9.95647511178764e-06,
+      "loss": 1.60645237,
+      "memory(GiB)": 71.21,
+      "step": 7090,
+      "train_speed(iter/s)": 0.451395
+    },
+    {
+      "acc": 0.64498444,
+      "epoch": 0.1799847792998478,
+      "grad_norm": 6.15625,
+      "learning_rate": 9.956336941695747e-06,
+      "loss": 1.71201668,
+      "memory(GiB)": 71.21,
+      "step": 7095,
+      "train_speed(iter/s)": 0.451564
+    },
+    {
+      "acc": 0.64342675,
+      "epoch": 0.18011161846778284,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.956198553602026e-06,
+      "loss": 1.64535561,
+      "memory(GiB)": 71.21,
+      "step": 7100,
+      "train_speed(iter/s)": 0.451733
+    },
+    {
+      "epoch": 0.18011161846778284,
+      "eval_acc": 0.6319010459640126,
+      "eval_loss": 1.675980567932129,
+      "eval_runtime": 114.7422,
+      "eval_samples_per_second": 55.516,
+      "eval_steps_per_second": 27.758,
+      "step": 7100
+    },
+    {
+      "acc": 0.60847073,
+      "epoch": 0.1802384576357179,
+      "grad_norm": 4.875,
+      "learning_rate": 9.956059947512563e-06,
+      "loss": 1.79434357,
+      "memory(GiB)": 71.21,
+      "step": 7105,
+      "train_speed(iter/s)": 0.448499
+    },
+    {
+      "acc": 0.63685389,
+      "epoch": 0.18036529680365296,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.95592112343346e-06,
+      "loss": 1.66323643,
+      "memory(GiB)": 71.21,
+      "step": 7110,
+      "train_speed(iter/s)": 0.448666
+    },
+    {
+      "acc": 0.64174376,
+      "epoch": 0.18049213597158803,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.955782081370818e-06,
+      "loss": 1.64723377,
+      "memory(GiB)": 71.21,
+      "step": 7115,
+      "train_speed(iter/s)": 0.448831
+    },
+    {
+      "acc": 0.65300169,
+      "epoch": 0.18061897513952307,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.955642821330752e-06,
+      "loss": 1.67541733,
+      "memory(GiB)": 71.21,
+      "step": 7120,
+      "train_speed(iter/s)": 0.448998
+    },
+    {
+      "acc": 0.65841947,
+      "epoch": 0.18074581430745815,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.95550334331939e-06,
+      "loss": 1.63094025,
+      "memory(GiB)": 71.21,
+      "step": 7125,
+      "train_speed(iter/s)": 0.449163
+    },
+    {
+      "acc": 0.6470685,
+      "epoch": 0.1808726534753932,
+      "grad_norm": 5.25,
+      "learning_rate": 9.955363647342868e-06,
+      "loss": 1.64027538,
+      "memory(GiB)": 71.21,
+      "step": 7130,
+      "train_speed(iter/s)": 0.44933
+    },
+    {
+      "acc": 0.62691331,
+      "epoch": 0.18099949264332826,
+      "grad_norm": 6.5,
+      "learning_rate": 9.955223733407327e-06,
+      "loss": 1.74702682,
+      "memory(GiB)": 71.21,
+      "step": 7135,
+      "train_speed(iter/s)": 0.449499
+    },
+    {
+      "acc": 0.64267902,
+      "epoch": 0.1811263318112633,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.955083601518924e-06,
+      "loss": 1.7266552,
+      "memory(GiB)": 71.21,
+      "step": 7140,
+      "train_speed(iter/s)": 0.449668
+    },
+    {
+      "acc": 0.62211342,
+      "epoch": 0.18125317097919838,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.95494325168382e-06,
+      "loss": 1.75653534,
+      "memory(GiB)": 71.21,
+      "step": 7145,
+      "train_speed(iter/s)": 0.449837
+    },
+    {
+      "acc": 0.6333622,
+      "epoch": 0.18138001014713342,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.954802683908192e-06,
+      "loss": 1.74033585,
+      "memory(GiB)": 71.21,
+      "step": 7150,
+      "train_speed(iter/s)": 0.450006
+    },
+    {
+      "acc": 0.64277658,
+      "epoch": 0.1815068493150685,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.954661898198216e-06,
+      "loss": 1.64676437,
+      "memory(GiB)": 71.21,
+      "step": 7155,
+      "train_speed(iter/s)": 0.450175
+    },
+    {
+      "acc": 0.63284101,
+      "epoch": 0.18163368848300354,
+      "grad_norm": 5.75,
+      "learning_rate": 9.954520894560092e-06,
+      "loss": 1.73367424,
+      "memory(GiB)": 71.21,
+      "step": 7160,
+      "train_speed(iter/s)": 0.450345
+    },
+    {
+      "acc": 0.63460722,
+      "epoch": 0.1817605276509386,
+      "grad_norm": 4.46875,
+      "learning_rate": 9.954379673000018e-06,
+      "loss": 1.72355309,
+      "memory(GiB)": 71.21,
+      "step": 7165,
+      "train_speed(iter/s)": 0.450513
+    },
+    {
+      "acc": 0.63592048,
+      "epoch": 0.18188736681887366,
+      "grad_norm": 5.0,
+      "learning_rate": 9.954238233524208e-06,
+      "loss": 1.72763519,
+      "memory(GiB)": 71.21,
+      "step": 7170,
+      "train_speed(iter/s)": 0.450681
+    },
+    {
+      "acc": 0.63759942,
+      "epoch": 0.18201420598680873,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.954096576138879e-06,
+      "loss": 1.73296318,
+      "memory(GiB)": 71.21,
+      "step": 7175,
+      "train_speed(iter/s)": 0.450849
+    },
+    {
+      "acc": 0.63229589,
+      "epoch": 0.18214104515474377,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.953954700850264e-06,
+      "loss": 1.73471756,
+      "memory(GiB)": 71.21,
+      "step": 7180,
+      "train_speed(iter/s)": 0.451018
+    },
+    {
+      "acc": 0.62964411,
+      "epoch": 0.18226788432267885,
+      "grad_norm": 4.40625,
+      "learning_rate": 9.953812607664607e-06,
+      "loss": 1.74249134,
+      "memory(GiB)": 71.21,
+      "step": 7185,
+      "train_speed(iter/s)": 0.451185
+    },
+    {
+      "acc": 0.6472333,
+      "epoch": 0.1823947234906139,
+      "grad_norm": 5.5,
+      "learning_rate": 9.95367029658815e-06,
+      "loss": 1.71487122,
+      "memory(GiB)": 71.21,
+      "step": 7190,
+      "train_speed(iter/s)": 0.451354
+    },
+    {
+      "acc": 0.63836093,
+      "epoch": 0.18252156265854896,
+      "grad_norm": 6.0625,
+      "learning_rate": 9.953527767627159e-06,
+      "loss": 1.68553467,
+      "memory(GiB)": 71.21,
+      "step": 7195,
+      "train_speed(iter/s)": 0.451521
+    },
+    {
+      "acc": 0.66171017,
+      "epoch": 0.182648401826484,
+      "grad_norm": 4.875,
+      "learning_rate": 9.9533850207879e-06,
+      "loss": 1.60840836,
+      "memory(GiB)": 71.21,
+      "step": 7200,
+      "train_speed(iter/s)": 0.451688
+    },
+    {
+      "epoch": 0.182648401826484,
+      "eval_acc": 0.6320497711261795,
+      "eval_loss": 1.6746814250946045,
+      "eval_runtime": 113.9395,
+      "eval_samples_per_second": 55.907,
+      "eval_steps_per_second": 27.953,
+      "step": 7200
+    },
+    {
+      "acc": 0.65047646,
+      "epoch": 0.18277524099441908,
+      "grad_norm": 5.5,
+      "learning_rate": 9.953242056076652e-06,
+      "loss": 1.70351143,
+      "memory(GiB)": 71.21,
+      "step": 7205,
+      "train_speed(iter/s)": 0.448524
+    },
+    {
+      "acc": 0.62818956,
+      "epoch": 0.18290208016235412,
+      "grad_norm": 5.8125,
+      "learning_rate": 9.953098873499705e-06,
+      "loss": 1.75705948,
+      "memory(GiB)": 71.21,
+      "step": 7210,
+      "train_speed(iter/s)": 0.448692
+    },
+    {
+      "acc": 0.64600315,
+      "epoch": 0.1830289193302892,
+      "grad_norm": 5.0,
+      "learning_rate": 9.952955473063356e-06,
+      "loss": 1.62562675,
+      "memory(GiB)": 71.21,
+      "step": 7215,
+      "train_speed(iter/s)": 0.448859
+    },
+    {
+      "acc": 0.63142004,
+      "epoch": 0.18315575849822424,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.952811854773911e-06,
+      "loss": 1.73863335,
+      "memory(GiB)": 71.21,
+      "step": 7220,
+      "train_speed(iter/s)": 0.449026
+    },
+    {
+      "acc": 0.63053617,
+      "epoch": 0.1832825976661593,
+      "grad_norm": 6.09375,
+      "learning_rate": 9.952668018637687e-06,
+      "loss": 1.73417759,
+      "memory(GiB)": 71.21,
+      "step": 7225,
+      "train_speed(iter/s)": 0.449191
+    },
+    {
+      "acc": 0.6388804,
+      "epoch": 0.18340943683409436,
+      "grad_norm": 5.5,
+      "learning_rate": 9.952523964661014e-06,
+      "loss": 1.68569317,
+      "memory(GiB)": 71.21,
+      "step": 7230,
+      "train_speed(iter/s)": 0.449354
+    },
+    {
+      "acc": 0.63938942,
+      "epoch": 0.18353627600202943,
+      "grad_norm": 5.375,
+      "learning_rate": 9.952379692850222e-06,
+      "loss": 1.70200844,
+      "memory(GiB)": 71.21,
+      "step": 7235,
+      "train_speed(iter/s)": 0.449518
+    },
+    {
+      "acc": 0.64353642,
+      "epoch": 0.18366311516996447,
+      "grad_norm": 6.5,
+      "learning_rate": 9.952235203211663e-06,
+      "loss": 1.63670692,
+      "memory(GiB)": 71.21,
+      "step": 7240,
+      "train_speed(iter/s)": 0.449681
+    },
+    {
+      "acc": 0.65047665,
+      "epoch": 0.18378995433789955,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.952090495751689e-06,
+      "loss": 1.67845173,
+      "memory(GiB)": 71.21,
+      "step": 7245,
+      "train_speed(iter/s)": 0.449843
+    },
+    {
+      "acc": 0.64037266,
+      "epoch": 0.1839167935058346,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.951945570476666e-06,
+      "loss": 1.68576107,
+      "memory(GiB)": 71.21,
+      "step": 7250,
+      "train_speed(iter/s)": 0.450008
+    },
+    {
+      "acc": 0.62808704,
+      "epoch": 0.18404363267376966,
+      "grad_norm": 5.875,
+      "learning_rate": 9.951800427392968e-06,
+      "loss": 1.77198658,
+      "memory(GiB)": 71.21,
+      "step": 7255,
+      "train_speed(iter/s)": 0.450174
+    },
+    {
+      "acc": 0.63405037,
+      "epoch": 0.1841704718417047,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.951655066506977e-06,
+      "loss": 1.75762978,
+      "memory(GiB)": 71.21,
+      "step": 7260,
+      "train_speed(iter/s)": 0.450339
+    },
+    {
+      "acc": 0.63699379,
+      "epoch": 0.18429731100963978,
+      "grad_norm": 5.25,
+      "learning_rate": 9.951509487825091e-06,
+      "loss": 1.68818207,
+      "memory(GiB)": 71.21,
+      "step": 7265,
+      "train_speed(iter/s)": 0.450503
+    },
+    {
+      "acc": 0.62087727,
+      "epoch": 0.18442415017757482,
+      "grad_norm": 6.21875,
+      "learning_rate": 9.95136369135371e-06,
+      "loss": 1.75531082,
+      "memory(GiB)": 71.21,
+      "step": 7270,
+      "train_speed(iter/s)": 0.450669
+    },
+    {
+      "acc": 0.64249229,
+      "epoch": 0.1845509893455099,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.951217677099248e-06,
+      "loss": 1.70273247,
+      "memory(GiB)": 71.21,
+      "step": 7275,
+      "train_speed(iter/s)": 0.450834
+    },
+    {
+      "acc": 0.63505716,
+      "epoch": 0.18467782851344494,
+      "grad_norm": 5.125,
+      "learning_rate": 9.951071445068125e-06,
+      "loss": 1.67429008,
+      "memory(GiB)": 71.21,
+      "step": 7280,
+      "train_speed(iter/s)": 0.450997
+    },
+    {
+      "acc": 0.63318262,
+      "epoch": 0.18480466768138,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.950924995266778e-06,
+      "loss": 1.73183746,
+      "memory(GiB)": 71.21,
+      "step": 7285,
+      "train_speed(iter/s)": 0.45116
+    },
+    {
+      "acc": 0.6422121,
+      "epoch": 0.18493150684931506,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.950778327701643e-06,
+      "loss": 1.71187248,
+      "memory(GiB)": 71.21,
+      "step": 7290,
+      "train_speed(iter/s)": 0.451323
+    },
+    {
+      "acc": 0.65183239,
+      "epoch": 0.18505834601725013,
+      "grad_norm": 4.46875,
+      "learning_rate": 9.950631442379175e-06,
+      "loss": 1.68032799,
+      "memory(GiB)": 71.21,
+      "step": 7295,
+      "train_speed(iter/s)": 0.451486
+    },
+    {
+      "acc": 0.64511795,
+      "epoch": 0.18518518518518517,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.950484339305832e-06,
+      "loss": 1.64890652,
+      "memory(GiB)": 71.21,
+      "step": 7300,
+      "train_speed(iter/s)": 0.45165
+    },
+    {
+      "epoch": 0.18518518518518517,
+      "eval_acc": 0.6323739585583185,
+      "eval_loss": 1.673172950744629,
+      "eval_runtime": 113.8426,
+      "eval_samples_per_second": 55.954,
+      "eval_steps_per_second": 27.977,
+      "step": 7300
+    },
+    {
+      "acc": 0.64879112,
+      "epoch": 0.18531202435312025,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.950337018488086e-06,
+      "loss": 1.72085114,
+      "memory(GiB)": 71.21,
+      "step": 7305,
+      "train_speed(iter/s)": 0.448531
+    },
+    {
+      "acc": 0.63489003,
+      "epoch": 0.1854388635210553,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.950189479932417e-06,
+      "loss": 1.71967411,
+      "memory(GiB)": 71.21,
+      "step": 7310,
+      "train_speed(iter/s)": 0.448692
+    },
+    {
+      "acc": 0.64130874,
+      "epoch": 0.18556570268899036,
+      "grad_norm": 5.0,
+      "learning_rate": 9.950041723645312e-06,
+      "loss": 1.69104652,
+      "memory(GiB)": 71.21,
+      "step": 7315,
+      "train_speed(iter/s)": 0.448853
+    },
+    {
+      "acc": 0.63875937,
+      "epoch": 0.1856925418569254,
+      "grad_norm": 4.75,
+      "learning_rate": 9.949893749633273e-06,
+      "loss": 1.7242691,
+      "memory(GiB)": 71.21,
+      "step": 7320,
+      "train_speed(iter/s)": 0.449015
+    },
+    {
+      "acc": 0.64443955,
+      "epoch": 0.18581938102486048,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.949745557902806e-06,
+      "loss": 1.75857048,
+      "memory(GiB)": 71.21,
+      "step": 7325,
+      "train_speed(iter/s)": 0.449176
+    },
+    {
+      "acc": 0.64022522,
+      "epoch": 0.18594622019279552,
+      "grad_norm": 4.40625,
+      "learning_rate": 9.949597148460433e-06,
+      "loss": 1.70952644,
+      "memory(GiB)": 71.21,
+      "step": 7330,
+      "train_speed(iter/s)": 0.449338
+    },
+    {
+      "acc": 0.63151064,
+      "epoch": 0.1860730593607306,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.949448521312676e-06,
+      "loss": 1.7911808,
+      "memory(GiB)": 71.21,
+      "step": 7335,
+      "train_speed(iter/s)": 0.4495
+    },
+    {
+      "acc": 0.63607311,
+      "epoch": 0.18619989852866564,
+      "grad_norm": 6.84375,
+      "learning_rate": 9.949299676466077e-06,
+      "loss": 1.74132233,
+      "memory(GiB)": 71.21,
+      "step": 7340,
+      "train_speed(iter/s)": 0.44966
+    },
+    {
+      "acc": 0.63019934,
+      "epoch": 0.1863267376966007,
+      "grad_norm": 5.25,
+      "learning_rate": 9.94915061392718e-06,
+      "loss": 1.69024429,
+      "memory(GiB)": 71.21,
+      "step": 7345,
+      "train_speed(iter/s)": 0.449819
+    },
+    {
+      "acc": 0.64417286,
+      "epoch": 0.18645357686453576,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.949001333702543e-06,
+      "loss": 1.64219131,
+      "memory(GiB)": 71.21,
+      "step": 7350,
+      "train_speed(iter/s)": 0.449979
+    },
+    {
+      "acc": 0.62558489,
+      "epoch": 0.18658041603247083,
+      "grad_norm": 5.5,
+      "learning_rate": 9.948851835798732e-06,
+      "loss": 1.81280899,
+      "memory(GiB)": 71.21,
+      "step": 7355,
+      "train_speed(iter/s)": 0.450139
+    },
+    {
+      "acc": 0.62541652,
+      "epoch": 0.18670725520040587,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.948702120222323e-06,
+      "loss": 1.73590984,
+      "memory(GiB)": 71.21,
+      "step": 7360,
+      "train_speed(iter/s)": 0.450298
+    },
+    {
+      "acc": 0.65073023,
+      "epoch": 0.18683409436834095,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.9485521869799e-06,
+      "loss": 1.64357224,
+      "memory(GiB)": 71.21,
+      "step": 7365,
+      "train_speed(iter/s)": 0.450457
+    },
+    {
+      "acc": 0.65757856,
+      "epoch": 0.186960933536276,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.948402036078057e-06,
+      "loss": 1.62586269,
+      "memory(GiB)": 71.21,
+      "step": 7370,
+      "train_speed(iter/s)": 0.450615
+    },
+    {
+      "acc": 0.62736578,
+      "epoch": 0.18708777270421106,
+      "grad_norm": 5.125,
+      "learning_rate": 9.948251667523401e-06,
+      "loss": 1.74679489,
+      "memory(GiB)": 71.21,
+      "step": 7375,
+      "train_speed(iter/s)": 0.450772
+    },
+    {
+      "acc": 0.62891831,
+      "epoch": 0.1872146118721461,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.948101081322544e-06,
+      "loss": 1.67257652,
+      "memory(GiB)": 71.21,
+      "step": 7380,
+      "train_speed(iter/s)": 0.45093
+    },
+    {
+      "acc": 0.64120245,
+      "epoch": 0.18734145104008118,
+      "grad_norm": 4.59375,
+      "learning_rate": 9.947950277482109e-06,
+      "loss": 1.66956902,
+      "memory(GiB)": 71.21,
+      "step": 7385,
+      "train_speed(iter/s)": 0.451088
+    },
+    {
+      "acc": 0.64241848,
+      "epoch": 0.18746829020801623,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.94779925600873e-06,
+      "loss": 1.71430054,
+      "memory(GiB)": 71.21,
+      "step": 7390,
+      "train_speed(iter/s)": 0.451246
+    },
+    {
+      "acc": 0.65908499,
+      "epoch": 0.1875951293759513,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.947648016909048e-06,
+      "loss": 1.66054764,
+      "memory(GiB)": 71.21,
+      "step": 7395,
+      "train_speed(iter/s)": 0.451405
+    },
+    {
+      "acc": 0.6492085,
+      "epoch": 0.18772196854388634,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.947496560189717e-06,
+      "loss": 1.69584789,
+      "memory(GiB)": 71.21,
+      "step": 7400,
+      "train_speed(iter/s)": 0.451563
+    },
+    {
+      "epoch": 0.18772196854388634,
+      "eval_acc": 0.6326066549496862,
+      "eval_loss": 1.6725375652313232,
+      "eval_runtime": 113.9438,
+      "eval_samples_per_second": 55.905,
+      "eval_steps_per_second": 27.952,
+      "step": 7400
+    },
+    {
+      "acc": 0.64540453,
+      "epoch": 0.18784880771182141,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.9473448858574e-06,
+      "loss": 1.72471313,
+      "memory(GiB)": 71.21,
+      "step": 7405,
+      "train_speed(iter/s)": 0.448482
+    },
+    {
+      "acc": 0.61458941,
+      "epoch": 0.18797564687975646,
+      "grad_norm": 5.71875,
+      "learning_rate": 9.947192993918765e-06,
+      "loss": 1.79372635,
+      "memory(GiB)": 71.21,
+      "step": 7410,
+      "train_speed(iter/s)": 0.44864
+    },
+    {
+      "acc": 0.62938728,
+      "epoch": 0.18810248604769153,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.947040884380496e-06,
+      "loss": 1.71874619,
+      "memory(GiB)": 71.21,
+      "step": 7415,
+      "train_speed(iter/s)": 0.448798
+    },
+    {
+      "acc": 0.65056539,
+      "epoch": 0.18822932521562658,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.946888557249281e-06,
+      "loss": 1.64476013,
+      "memory(GiB)": 71.21,
+      "step": 7420,
+      "train_speed(iter/s)": 0.448957
+    },
+    {
+      "acc": 0.6448823,
+      "epoch": 0.18835616438356165,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.946736012531821e-06,
+      "loss": 1.68225822,
+      "memory(GiB)": 71.21,
+      "step": 7425,
+      "train_speed(iter/s)": 0.449116
+    },
+    {
+      "acc": 0.64309673,
+      "epoch": 0.1884830035514967,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.946583250234826e-06,
+      "loss": 1.68420677,
+      "memory(GiB)": 71.21,
+      "step": 7430,
+      "train_speed(iter/s)": 0.449274
+    },
+    {
+      "acc": 0.64436255,
+      "epoch": 0.18860984271943176,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.946430270365015e-06,
+      "loss": 1.64312897,
+      "memory(GiB)": 71.21,
+      "step": 7435,
+      "train_speed(iter/s)": 0.449432
+    },
+    {
+      "acc": 0.64921837,
+      "epoch": 0.1887366818873668,
+      "grad_norm": 5.25,
+      "learning_rate": 9.946277072929115e-06,
+      "loss": 1.66890221,
+      "memory(GiB)": 71.21,
+      "step": 7440,
+      "train_speed(iter/s)": 0.44959
+    },
+    {
+      "acc": 0.63899708,
+      "epoch": 0.18886352105530188,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.946123657933867e-06,
+      "loss": 1.70184975,
+      "memory(GiB)": 71.21,
+      "step": 7445,
+      "train_speed(iter/s)": 0.449745
+    },
+    {
+      "acc": 0.63540998,
+      "epoch": 0.18899036022323693,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.945970025386018e-06,
+      "loss": 1.6520401,
+      "memory(GiB)": 71.21,
+      "step": 7450,
+      "train_speed(iter/s)": 0.449902
+    },
+    {
+      "acc": 0.6401722,
+      "epoch": 0.189117199391172,
+      "grad_norm": 6.09375,
+      "learning_rate": 9.945816175292326e-06,
+      "loss": 1.65837421,
+      "memory(GiB)": 71.21,
+      "step": 7455,
+      "train_speed(iter/s)": 0.45006
+    },
+    {
+      "acc": 0.64298801,
+      "epoch": 0.18924403855910704,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.945662107659554e-06,
+      "loss": 1.71494408,
+      "memory(GiB)": 71.21,
+      "step": 7460,
+      "train_speed(iter/s)": 0.450216
+    },
+    {
+      "acc": 0.65179439,
+      "epoch": 0.18937087772704211,
+      "grad_norm": 6.125,
+      "learning_rate": 9.945507822494485e-06,
+      "loss": 1.65016613,
+      "memory(GiB)": 71.21,
+      "step": 7465,
+      "train_speed(iter/s)": 0.450372
+    },
+    {
+      "acc": 0.63841887,
+      "epoch": 0.18949771689497716,
+      "grad_norm": 5.9375,
+      "learning_rate": 9.9453533198039e-06,
+      "loss": 1.69674721,
+      "memory(GiB)": 71.21,
+      "step": 7470,
+      "train_speed(iter/s)": 0.45053
+    },
+    {
+      "acc": 0.63471417,
+      "epoch": 0.18962455606291223,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.945198599594598e-06,
+      "loss": 1.68193779,
+      "memory(GiB)": 71.21,
+      "step": 7475,
+      "train_speed(iter/s)": 0.450687
+    },
+    {
+      "acc": 0.63170328,
+      "epoch": 0.18975139523084728,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.945043661873381e-06,
+      "loss": 1.75789623,
+      "memory(GiB)": 71.21,
+      "step": 7480,
+      "train_speed(iter/s)": 0.450842
+    },
+    {
+      "acc": 0.65170374,
+      "epoch": 0.18987823439878235,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.944888506647066e-06,
+      "loss": 1.66185989,
+      "memory(GiB)": 71.21,
+      "step": 7485,
+      "train_speed(iter/s)": 0.450999
+    },
+    {
+      "acc": 0.64946141,
+      "epoch": 0.1900050735667174,
+      "grad_norm": 5.6875,
+      "learning_rate": 9.944733133922479e-06,
+      "loss": 1.68779831,
+      "memory(GiB)": 71.21,
+      "step": 7490,
+      "train_speed(iter/s)": 0.451157
+    },
+    {
+      "acc": 0.64097347,
+      "epoch": 0.19013191273465246,
+      "grad_norm": 5.625,
+      "learning_rate": 9.944577543706451e-06,
+      "loss": 1.66502228,
+      "memory(GiB)": 71.21,
+      "step": 7495,
+      "train_speed(iter/s)": 0.451312
+    },
+    {
+      "acc": 0.6335701,
+      "epoch": 0.1902587519025875,
+      "grad_norm": 5.25,
+      "learning_rate": 9.944421736005825e-06,
+      "loss": 1.68425674,
+      "memory(GiB)": 71.21,
+      "step": 7500,
+      "train_speed(iter/s)": 0.451469
+    },
+    {
+      "epoch": 0.1902587519025875,
+      "eval_acc": 0.6326546981902738,
+      "eval_loss": 1.671066164970398,
+      "eval_runtime": 112.5248,
+      "eval_samples_per_second": 56.61,
+      "eval_steps_per_second": 28.305,
+      "step": 7500
+    },
+    {
+      "acc": 0.63305182,
+      "epoch": 0.19038559107052258,
+      "grad_norm": 5.0,
+      "learning_rate": 9.944265710827459e-06,
+      "loss": 1.78227558,
+      "memory(GiB)": 71.21,
+      "step": 7505,
+      "train_speed(iter/s)": 0.448468
+    },
+    {
+      "acc": 0.65126085,
+      "epoch": 0.19051243023845763,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.944109468178208e-06,
+      "loss": 1.66644154,
+      "memory(GiB)": 71.21,
+      "step": 7510,
+      "train_speed(iter/s)": 0.448623
+    },
+    {
+      "acc": 0.64263673,
+      "epoch": 0.1906392694063927,
+      "grad_norm": 4.375,
+      "learning_rate": 9.943953008064953e-06,
+      "loss": 1.69451485,
+      "memory(GiB)": 71.21,
+      "step": 7515,
+      "train_speed(iter/s)": 0.448777
+    },
+    {
+      "acc": 0.63827748,
+      "epoch": 0.19076610857432774,
+      "grad_norm": 5.71875,
+      "learning_rate": 9.94379633049457e-06,
+      "loss": 1.70436745,
+      "memory(GiB)": 71.21,
+      "step": 7520,
+      "train_speed(iter/s)": 0.448932
+    },
+    {
+      "acc": 0.64319239,
+      "epoch": 0.19089294774226281,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.943639435473952e-06,
+      "loss": 1.70651016,
+      "memory(GiB)": 71.21,
+      "step": 7525,
+      "train_speed(iter/s)": 0.449087
+    },
+    {
+      "acc": 0.65277729,
+      "epoch": 0.19101978691019786,
+      "grad_norm": 5.125,
+      "learning_rate": 9.94348232301e-06,
+      "loss": 1.67304573,
+      "memory(GiB)": 71.21,
+      "step": 7530,
+      "train_speed(iter/s)": 0.449083
+    },
+    {
+      "acc": 0.62471237,
+      "epoch": 0.19114662607813293,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.943324993109624e-06,
+      "loss": 1.72396278,
+      "memory(GiB)": 71.21,
+      "step": 7535,
+      "train_speed(iter/s)": 0.449241
+    },
+    {
+      "acc": 0.64704294,
+      "epoch": 0.19127346524606798,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.943167445779745e-06,
+      "loss": 1.65588303,
+      "memory(GiB)": 71.21,
+      "step": 7540,
+      "train_speed(iter/s)": 0.449397
+    },
+    {
+      "acc": 0.66720619,
+      "epoch": 0.19140030441400305,
+      "grad_norm": 5.5,
+      "learning_rate": 9.94300968102729e-06,
+      "loss": 1.62361031,
+      "memory(GiB)": 71.21,
+      "step": 7545,
+      "train_speed(iter/s)": 0.449552
+    },
+    {
+      "acc": 0.64876785,
+      "epoch": 0.1915271435819381,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.942851698859204e-06,
+      "loss": 1.67092438,
+      "memory(GiB)": 71.21,
+      "step": 7550,
+      "train_speed(iter/s)": 0.449708
+    },
+    {
+      "acc": 0.65490861,
+      "epoch": 0.19165398274987316,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.94269349928243e-06,
+      "loss": 1.62048988,
+      "memory(GiB)": 71.21,
+      "step": 7555,
+      "train_speed(iter/s)": 0.449863
+    },
+    {
+      "acc": 0.65470638,
+      "epoch": 0.1917808219178082,
+      "grad_norm": 5.25,
+      "learning_rate": 9.942535082303927e-06,
+      "loss": 1.62141399,
+      "memory(GiB)": 71.21,
+      "step": 7560,
+      "train_speed(iter/s)": 0.450019
+    },
+    {
+      "acc": 0.63746181,
+      "epoch": 0.19190766108574328,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.942376447930666e-06,
+      "loss": 1.68490295,
+      "memory(GiB)": 71.21,
+      "step": 7565,
+      "train_speed(iter/s)": 0.450175
+    },
+    {
+      "acc": 0.65492516,
+      "epoch": 0.19203450025367833,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.942217596169623e-06,
+      "loss": 1.60066757,
+      "memory(GiB)": 71.21,
+      "step": 7570,
+      "train_speed(iter/s)": 0.45033
+    },
+    {
+      "acc": 0.62345309,
+      "epoch": 0.1921613394216134,
+      "grad_norm": 4.625,
+      "learning_rate": 9.942058527027785e-06,
+      "loss": 1.74955063,
+      "memory(GiB)": 71.21,
+      "step": 7575,
+      "train_speed(iter/s)": 0.450487
+    },
+    {
+      "acc": 0.62559452,
+      "epoch": 0.19228817858954844,
+      "grad_norm": 5.125,
+      "learning_rate": 9.941899240512147e-06,
+      "loss": 1.7148037,
+      "memory(GiB)": 71.21,
+      "step": 7580,
+      "train_speed(iter/s)": 0.450643
+    },
+    {
+      "acc": 0.6384922,
+      "epoch": 0.19241501775748351,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.941739736629716e-06,
+      "loss": 1.69868488,
+      "memory(GiB)": 71.21,
+      "step": 7585,
+      "train_speed(iter/s)": 0.450799
+    },
+    {
+      "acc": 0.64508724,
+      "epoch": 0.19254185692541856,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.941580015387509e-06,
+      "loss": 1.6488596,
+      "memory(GiB)": 71.21,
+      "step": 7590,
+      "train_speed(iter/s)": 0.450955
+    },
+    {
+      "acc": 0.6188859,
+      "epoch": 0.19266869609335363,
+      "grad_norm": 7.375,
+      "learning_rate": 9.94142007679255e-06,
+      "loss": 1.7915451,
+      "memory(GiB)": 71.21,
+      "step": 7595,
+      "train_speed(iter/s)": 0.451111
+    },
+    {
+      "acc": 0.65783496,
+      "epoch": 0.19279553526128868,
+      "grad_norm": 6.40625,
+      "learning_rate": 9.941259920851874e-06,
+      "loss": 1.65056438,
+      "memory(GiB)": 71.21,
+      "step": 7600,
+      "train_speed(iter/s)": 0.451267
+    },
+    {
+      "epoch": 0.19279553526128868,
+      "eval_acc": 0.6329128783875184,
+      "eval_loss": 1.6699492931365967,
+      "eval_runtime": 112.9926,
+      "eval_samples_per_second": 56.375,
+      "eval_steps_per_second": 28.188,
+      "step": 7600
+    },
+    {
+      "acc": 0.63844094,
+      "epoch": 0.19292237442922375,
+      "grad_norm": 7.53125,
+      "learning_rate": 9.941099547572527e-06,
+      "loss": 1.71425858,
+      "memory(GiB)": 71.21,
+      "step": 7605,
+      "train_speed(iter/s)": 0.448297
+    },
+    {
+      "acc": 0.64833999,
+      "epoch": 0.1930492135971588,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.94093895696156e-06,
+      "loss": 1.6759016,
+      "memory(GiB)": 71.21,
+      "step": 7610,
+      "train_speed(iter/s)": 0.44845
+    },
+    {
+      "acc": 0.63412328,
+      "epoch": 0.19317605276509386,
+      "grad_norm": 5.6875,
+      "learning_rate": 9.940778149026038e-06,
+      "loss": 1.71386738,
+      "memory(GiB)": 71.21,
+      "step": 7615,
+      "train_speed(iter/s)": 0.448604
+    },
+    {
+      "acc": 0.63581343,
+      "epoch": 0.1933028919330289,
+      "grad_norm": 5.125,
+      "learning_rate": 9.940617123773036e-06,
+      "loss": 1.69941521,
+      "memory(GiB)": 71.21,
+      "step": 7620,
+      "train_speed(iter/s)": 0.448758
+    },
+    {
+      "acc": 0.65294085,
+      "epoch": 0.19342973110096398,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.940455881209632e-06,
+      "loss": 1.59593277,
+      "memory(GiB)": 71.21,
+      "step": 7625,
+      "train_speed(iter/s)": 0.448914
+    },
+    {
+      "acc": 0.64158449,
+      "epoch": 0.19355657026889903,
+      "grad_norm": 5.25,
+      "learning_rate": 9.940294421342922e-06,
+      "loss": 1.63792305,
+      "memory(GiB)": 71.21,
+      "step": 7630,
+      "train_speed(iter/s)": 0.449068
+    },
+    {
+      "acc": 0.6248044,
+      "epoch": 0.1936834094368341,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.940132744180007e-06,
+      "loss": 1.74248085,
+      "memory(GiB)": 71.21,
+      "step": 7635,
+      "train_speed(iter/s)": 0.449223
+    },
+    {
+      "acc": 0.6530365,
+      "epoch": 0.19381024860476914,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.939970849727995e-06,
+      "loss": 1.62175636,
+      "memory(GiB)": 71.21,
+      "step": 7640,
+      "train_speed(iter/s)": 0.449378
+    },
+    {
+      "acc": 0.62256699,
+      "epoch": 0.19393708777270421,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.939808737994013e-06,
+      "loss": 1.7660099,
+      "memory(GiB)": 71.21,
+      "step": 7645,
+      "train_speed(iter/s)": 0.449532
+    },
+    {
+      "acc": 0.64405804,
+      "epoch": 0.19406392694063926,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.939646408985186e-06,
+      "loss": 1.63705406,
+      "memory(GiB)": 71.21,
+      "step": 7650,
+      "train_speed(iter/s)": 0.449686
+    },
+    {
+      "acc": 0.65222592,
+      "epoch": 0.19419076610857433,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.939483862708658e-06,
+      "loss": 1.62148476,
+      "memory(GiB)": 71.21,
+      "step": 7655,
+      "train_speed(iter/s)": 0.44984
+    },
+    {
+      "acc": 0.63589873,
+      "epoch": 0.19431760527650938,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.939321099171575e-06,
+      "loss": 1.65142441,
+      "memory(GiB)": 71.21,
+      "step": 7660,
+      "train_speed(iter/s)": 0.449993
+    },
+    {
+      "acc": 0.63626051,
+      "epoch": 0.19444444444444445,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.939158118381097e-06,
+      "loss": 1.71466312,
+      "memory(GiB)": 71.21,
+      "step": 7665,
+      "train_speed(iter/s)": 0.450146
+    },
+    {
+      "acc": 0.63825407,
+      "epoch": 0.1945712836123795,
+      "grad_norm": 5.71875,
+      "learning_rate": 9.938994920344395e-06,
+      "loss": 1.69848709,
+      "memory(GiB)": 71.21,
+      "step": 7670,
+      "train_speed(iter/s)": 0.4503
+    },
+    {
+      "acc": 0.64246707,
+      "epoch": 0.19469812278031456,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.938831505068645e-06,
+      "loss": 1.65335846,
+      "memory(GiB)": 71.21,
+      "step": 7675,
+      "train_speed(iter/s)": 0.450456
+    },
+    {
+      "acc": 0.64241924,
+      "epoch": 0.1948249619482496,
+      "grad_norm": 5.25,
+      "learning_rate": 9.938667872561035e-06,
+      "loss": 1.62154961,
+      "memory(GiB)": 71.21,
+      "step": 7680,
+      "train_speed(iter/s)": 0.45061
+    },
+    {
+      "acc": 0.6567832,
+      "epoch": 0.19495180111618468,
+      "grad_norm": 5.25,
+      "learning_rate": 9.938504022828762e-06,
+      "loss": 1.63594303,
+      "memory(GiB)": 71.21,
+      "step": 7685,
+      "train_speed(iter/s)": 0.450764
+    },
+    {
+      "acc": 0.64295287,
+      "epoch": 0.19507864028411973,
+      "grad_norm": 4.125,
+      "learning_rate": 9.938339955879033e-06,
+      "loss": 1.65605888,
+      "memory(GiB)": 71.21,
+      "step": 7690,
+      "train_speed(iter/s)": 0.450918
+    },
+    {
+      "acc": 0.63837428,
+      "epoch": 0.1952054794520548,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.938175671719064e-06,
+      "loss": 1.71003571,
+      "memory(GiB)": 71.21,
+      "step": 7695,
+      "train_speed(iter/s)": 0.451071
+    },
+    {
+      "acc": 0.62362108,
+      "epoch": 0.19533231861998984,
+      "grad_norm": 5.0,
+      "learning_rate": 9.938011170356083e-06,
+      "loss": 1.66456642,
+      "memory(GiB)": 71.21,
+      "step": 7700,
+      "train_speed(iter/s)": 0.451226
+    },
+    {
+      "epoch": 0.19533231861998984,
+      "eval_acc": 0.6330766431728257,
+      "eval_loss": 1.6685415506362915,
+      "eval_runtime": 113.1115,
+      "eval_samples_per_second": 56.316,
+      "eval_steps_per_second": 28.158,
+      "step": 7700
+    },
+    {
+      "acc": 0.63569598,
+      "epoch": 0.19545915778792491,
+      "grad_norm": 7.96875,
+      "learning_rate": 9.937846451797324e-06,
+      "loss": 1.7004097,
+      "memory(GiB)": 71.21,
+      "step": 7705,
+      "train_speed(iter/s)": 0.448291
+    },
+    {
+      "acc": 0.64071584,
+      "epoch": 0.19558599695585996,
+      "grad_norm": 6.5625,
+      "learning_rate": 9.93768151605003e-06,
+      "loss": 1.64734421,
+      "memory(GiB)": 71.21,
+      "step": 7710,
+      "train_speed(iter/s)": 0.448443
+    },
+    {
+      "acc": 0.6473577,
+      "epoch": 0.19571283612379503,
+      "grad_norm": 6.0625,
+      "learning_rate": 9.93751636312146e-06,
+      "loss": 1.63463402,
+      "memory(GiB)": 71.21,
+      "step": 7715,
+      "train_speed(iter/s)": 0.448596
+    },
+    {
+      "acc": 0.62583714,
+      "epoch": 0.19583967529173008,
+      "grad_norm": 5.78125,
+      "learning_rate": 9.937350993018875e-06,
+      "loss": 1.78231087,
+      "memory(GiB)": 71.21,
+      "step": 7720,
+      "train_speed(iter/s)": 0.448748
+    },
+    {
+      "acc": 0.63588905,
+      "epoch": 0.19596651445966515,
+      "grad_norm": 4.6875,
+      "learning_rate": 9.93718540574955e-06,
+      "loss": 1.67965469,
+      "memory(GiB)": 71.21,
+      "step": 7725,
+      "train_speed(iter/s)": 0.448901
+    },
+    {
+      "acc": 0.62698727,
+      "epoch": 0.1960933536276002,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.937019601320768e-06,
+      "loss": 1.75032501,
+      "memory(GiB)": 71.21,
+      "step": 7730,
+      "train_speed(iter/s)": 0.449055
+    },
+    {
+      "acc": 0.63055353,
+      "epoch": 0.19622019279553526,
+      "grad_norm": 5.5,
+      "learning_rate": 9.936853579739823e-06,
+      "loss": 1.69595947,
+      "memory(GiB)": 71.21,
+      "step": 7735,
+      "train_speed(iter/s)": 0.449207
+    },
+    {
+      "acc": 0.62087431,
+      "epoch": 0.1963470319634703,
+      "grad_norm": 6.625,
+      "learning_rate": 9.936687341014015e-06,
+      "loss": 1.74901276,
+      "memory(GiB)": 71.21,
+      "step": 7740,
+      "train_speed(iter/s)": 0.449361
+    },
+    {
+      "acc": 0.65325327,
+      "epoch": 0.19647387113140538,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.936520885150655e-06,
+      "loss": 1.61029797,
+      "memory(GiB)": 71.21,
+      "step": 7745,
+      "train_speed(iter/s)": 0.449513
+    },
+    {
+      "acc": 0.6420105,
+      "epoch": 0.19660071029934043,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.936354212157068e-06,
+      "loss": 1.735359,
+      "memory(GiB)": 71.21,
+      "step": 7750,
+      "train_speed(iter/s)": 0.449667
+    },
+    {
+      "acc": 0.6397995,
+      "epoch": 0.1967275494672755,
+      "grad_norm": 4.3125,
+      "learning_rate": 9.936187322040584e-06,
+      "loss": 1.70557671,
+      "memory(GiB)": 71.21,
+      "step": 7755,
+      "train_speed(iter/s)": 0.449819
+    },
+    {
+      "acc": 0.62862849,
+      "epoch": 0.19685438863521054,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.936020214808544e-06,
+      "loss": 1.73480721,
+      "memory(GiB)": 71.21,
+      "step": 7760,
+      "train_speed(iter/s)": 0.449971
+    },
+    {
+      "acc": 0.64502392,
+      "epoch": 0.19698122780314561,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.935852890468297e-06,
+      "loss": 1.67905083,
+      "memory(GiB)": 71.21,
+      "step": 7765,
+      "train_speed(iter/s)": 0.450123
+    },
+    {
+      "acc": 0.6280983,
+      "epoch": 0.19710806697108066,
+      "grad_norm": 6.84375,
+      "learning_rate": 9.935685349027201e-06,
+      "loss": 1.70416718,
+      "memory(GiB)": 71.21,
+      "step": 7770,
+      "train_speed(iter/s)": 0.450276
+    },
+    {
+      "acc": 0.63208303,
+      "epoch": 0.19723490613901573,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.935517590492627e-06,
+      "loss": 1.69104424,
+      "memory(GiB)": 71.21,
+      "step": 7775,
+      "train_speed(iter/s)": 0.450428
+    },
+    {
+      "acc": 0.6499599,
+      "epoch": 0.19736174530695078,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.935349614871957e-06,
+      "loss": 1.63721924,
+      "memory(GiB)": 71.21,
+      "step": 7780,
+      "train_speed(iter/s)": 0.45058
+    },
+    {
+      "acc": 0.64528522,
+      "epoch": 0.19748858447488585,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.935181422172574e-06,
+      "loss": 1.67749386,
+      "memory(GiB)": 71.21,
+      "step": 7785,
+      "train_speed(iter/s)": 0.450733
+    },
+    {
+      "acc": 0.62817917,
+      "epoch": 0.1976154236428209,
+      "grad_norm": 6.09375,
+      "learning_rate": 9.935013012401878e-06,
+      "loss": 1.79723186,
+      "memory(GiB)": 71.21,
+      "step": 7790,
+      "train_speed(iter/s)": 0.450885
+    },
+    {
+      "acc": 0.65724416,
+      "epoch": 0.19774226281075596,
+      "grad_norm": 5.125,
+      "learning_rate": 9.934844385567275e-06,
+      "loss": 1.61300316,
+      "memory(GiB)": 71.21,
+      "step": 7795,
+      "train_speed(iter/s)": 0.451039
+    },
+    {
+      "acc": 0.64110975,
+      "epoch": 0.197869101978691,
+      "grad_norm": 5.875,
+      "learning_rate": 9.934675541676186e-06,
+      "loss": 1.69013252,
+      "memory(GiB)": 71.21,
+      "step": 7800,
+      "train_speed(iter/s)": 0.451192
+    },
+    {
+      "epoch": 0.197869101978691,
+      "eval_acc": 0.6332262038696115,
+      "eval_loss": 1.6671642065048218,
+      "eval_runtime": 113.4528,
+      "eval_samples_per_second": 56.147,
+      "eval_steps_per_second": 28.073,
+      "step": 7800
+    },
+    {
+      "acc": 0.6523982,
+      "epoch": 0.19799594114662608,
+      "grad_norm": 6.46875,
+      "learning_rate": 9.934506480736034e-06,
+      "loss": 1.63810654,
+      "memory(GiB)": 71.21,
+      "step": 7805,
+      "train_speed(iter/s)": 0.448287
+    },
+    {
+      "acc": 0.65067701,
+      "epoch": 0.19812278031456113,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.934337202754257e-06,
+      "loss": 1.67652397,
+      "memory(GiB)": 71.21,
+      "step": 7810,
+      "train_speed(iter/s)": 0.44844
+    },
+    {
+      "acc": 0.64005933,
+      "epoch": 0.1982496194824962,
+      "grad_norm": 6.0,
+      "learning_rate": 9.934167707738298e-06,
+      "loss": 1.73353348,
+      "memory(GiB)": 71.21,
+      "step": 7815,
+      "train_speed(iter/s)": 0.448593
+    },
+    {
+      "acc": 0.646842,
+      "epoch": 0.19837645865043124,
+      "grad_norm": 5.625,
+      "learning_rate": 9.933997995695615e-06,
+      "loss": 1.71121407,
+      "memory(GiB)": 71.21,
+      "step": 7820,
+      "train_speed(iter/s)": 0.448744
+    },
+    {
+      "acc": 0.6337667,
+      "epoch": 0.19850329781836631,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.93382806663367e-06,
+      "loss": 1.7432972,
+      "memory(GiB)": 71.21,
+      "step": 7825,
+      "train_speed(iter/s)": 0.448896
+    },
+    {
+      "acc": 0.64032583,
+      "epoch": 0.19863013698630136,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.933657920559939e-06,
+      "loss": 1.68478546,
+      "memory(GiB)": 71.21,
+      "step": 7830,
+      "train_speed(iter/s)": 0.449047
+    },
+    {
+      "acc": 0.64448905,
+      "epoch": 0.19875697615423643,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.933487557481905e-06,
+      "loss": 1.69543915,
+      "memory(GiB)": 71.21,
+      "step": 7835,
+      "train_speed(iter/s)": 0.449198
+    },
+    {
+      "acc": 0.64522381,
+      "epoch": 0.19888381532217148,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.933316977407063e-06,
+      "loss": 1.73755608,
+      "memory(GiB)": 71.21,
+      "step": 7840,
+      "train_speed(iter/s)": 0.449349
+    },
+    {
+      "acc": 0.65792408,
+      "epoch": 0.19901065449010655,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.933146180342914e-06,
+      "loss": 1.56299667,
+      "memory(GiB)": 71.21,
+      "step": 7845,
+      "train_speed(iter/s)": 0.449501
+    },
+    {
+      "acc": 0.6573257,
+      "epoch": 0.1991374936580416,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.932975166296972e-06,
+      "loss": 1.67728119,
+      "memory(GiB)": 71.21,
+      "step": 7850,
+      "train_speed(iter/s)": 0.449651
+    },
+    {
+      "acc": 0.64167662,
+      "epoch": 0.19926433282597666,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.932803935276757e-06,
+      "loss": 1.63266239,
+      "memory(GiB)": 71.21,
+      "step": 7855,
+      "train_speed(iter/s)": 0.449801
+    },
+    {
+      "acc": 0.62765436,
+      "epoch": 0.1993911719939117,
+      "grad_norm": 6.21875,
+      "learning_rate": 9.932632487289802e-06,
+      "loss": 1.75699196,
+      "memory(GiB)": 71.21,
+      "step": 7860,
+      "train_speed(iter/s)": 0.449952
+    },
+    {
+      "acc": 0.63972826,
+      "epoch": 0.19951801116184678,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.932460822343649e-06,
+      "loss": 1.67174435,
+      "memory(GiB)": 71.21,
+      "step": 7865,
+      "train_speed(iter/s)": 0.450103
+    },
+    {
+      "acc": 0.62979274,
+      "epoch": 0.19964485032978183,
+      "grad_norm": 5.78125,
+      "learning_rate": 9.932288940445845e-06,
+      "loss": 1.81322289,
+      "memory(GiB)": 71.21,
+      "step": 7870,
+      "train_speed(iter/s)": 0.450254
+    },
+    {
+      "acc": 0.63745799,
+      "epoch": 0.1997716894977169,
+      "grad_norm": 5.875,
+      "learning_rate": 9.932116841603954e-06,
+      "loss": 1.64593296,
+      "memory(GiB)": 71.21,
+      "step": 7875,
+      "train_speed(iter/s)": 0.450406
+    },
+    {
+      "acc": 0.64807987,
+      "epoch": 0.19989852866565194,
+      "grad_norm": 6.875,
+      "learning_rate": 9.931944525825542e-06,
+      "loss": 1.69942818,
+      "memory(GiB)": 71.21,
+      "step": 7880,
+      "train_speed(iter/s)": 0.450557
+    },
+    {
+      "acc": 0.63484945,
+      "epoch": 0.20002536783358701,
+      "grad_norm": 5.875,
+      "learning_rate": 9.931771993118191e-06,
+      "loss": 1.61795902,
+      "memory(GiB)": 71.21,
+      "step": 7885,
+      "train_speed(iter/s)": 0.450707
+    },
+    {
+      "acc": 0.64385376,
+      "epoch": 0.20015220700152206,
+      "grad_norm": 4.3125,
+      "learning_rate": 9.931599243489489e-06,
+      "loss": 1.72382717,
+      "memory(GiB)": 71.21,
+      "step": 7890,
+      "train_speed(iter/s)": 0.450857
+    },
+    {
+      "acc": 0.64237194,
+      "epoch": 0.20027904616945713,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.931426276947037e-06,
+      "loss": 1.65209923,
+      "memory(GiB)": 71.21,
+      "step": 7895,
+      "train_speed(iter/s)": 0.451007
+    },
+    {
+      "acc": 0.63275084,
+      "epoch": 0.20040588533739218,
+      "grad_norm": 5.0,
+      "learning_rate": 9.931253093498437e-06,
+      "loss": 1.67295685,
+      "memory(GiB)": 71.21,
+      "step": 7900,
+      "train_speed(iter/s)": 0.451157
+    },
+    {
+      "epoch": 0.20040588533739218,
+      "eval_acc": 0.6334927394130453,
+      "eval_loss": 1.6666460037231445,
+      "eval_runtime": 113.2497,
+      "eval_samples_per_second": 56.247,
+      "eval_steps_per_second": 28.124,
+      "step": 7900
+    },
+    {
+      "acc": 0.63523302,
+      "epoch": 0.20053272450532725,
+      "grad_norm": 4.0625,
+      "learning_rate": 9.93107969315131e-06,
+      "loss": 1.69254799,
+      "memory(GiB)": 71.21,
+      "step": 7905,
+      "train_speed(iter/s)": 0.448295
+    },
+    {
+      "acc": 0.65175066,
+      "epoch": 0.2006595636732623,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.930906075913281e-06,
+      "loss": 1.68473587,
+      "memory(GiB)": 71.21,
+      "step": 7910,
+      "train_speed(iter/s)": 0.448445
+    },
+    {
+      "acc": 0.65698614,
+      "epoch": 0.20078640284119736,
+      "grad_norm": 4.5625,
+      "learning_rate": 9.93073224179199e-06,
+      "loss": 1.61309128,
+      "memory(GiB)": 71.21,
+      "step": 7915,
+      "train_speed(iter/s)": 0.448594
+    },
+    {
+      "acc": 0.63625751,
+      "epoch": 0.2009132420091324,
+      "grad_norm": 6.03125,
+      "learning_rate": 9.93055819079508e-06,
+      "loss": 1.76167679,
+      "memory(GiB)": 71.21,
+      "step": 7920,
+      "train_speed(iter/s)": 0.448745
+    },
+    {
+      "acc": 0.64582615,
+      "epoch": 0.20104008117706748,
+      "grad_norm": 4.4375,
+      "learning_rate": 9.930383922930207e-06,
+      "loss": 1.73017941,
+      "memory(GiB)": 71.21,
+      "step": 7925,
+      "train_speed(iter/s)": 0.448742
+    },
+    {
+      "acc": 0.6340169,
+      "epoch": 0.20116692034500253,
+      "grad_norm": 5.84375,
+      "learning_rate": 9.930209438205038e-06,
+      "loss": 1.72401924,
+      "memory(GiB)": 71.21,
+      "step": 7930,
+      "train_speed(iter/s)": 0.448891
+    },
+    {
+      "acc": 0.6383214,
+      "epoch": 0.2012937595129376,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.930034736627245e-06,
+      "loss": 1.69098244,
+      "memory(GiB)": 71.21,
+      "step": 7935,
+      "train_speed(iter/s)": 0.449041
+    },
+    {
+      "acc": 0.65146866,
+      "epoch": 0.20142059868087264,
+      "grad_norm": 5.125,
+      "learning_rate": 9.929859818204514e-06,
+      "loss": 1.66798973,
+      "memory(GiB)": 71.21,
+      "step": 7940,
+      "train_speed(iter/s)": 0.44919
+    },
+    {
+      "acc": 0.66242647,
+      "epoch": 0.20154743784880771,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.929684682944538e-06,
+      "loss": 1.54506779,
+      "memory(GiB)": 71.21,
+      "step": 7945,
+      "train_speed(iter/s)": 0.44934
+    },
+    {
+      "acc": 0.63335748,
+      "epoch": 0.20167427701674276,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.929509330855018e-06,
+      "loss": 1.71219521,
+      "memory(GiB)": 71.21,
+      "step": 7950,
+      "train_speed(iter/s)": 0.44949
+    },
+    {
+      "acc": 0.64373326,
+      "epoch": 0.20180111618467783,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.929333761943672e-06,
+      "loss": 1.73696709,
+      "memory(GiB)": 71.21,
+      "step": 7955,
+      "train_speed(iter/s)": 0.449639
+    },
+    {
+      "acc": 0.62869987,
+      "epoch": 0.20192795535261288,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.929157976218218e-06,
+      "loss": 1.75948296,
+      "memory(GiB)": 71.21,
+      "step": 7960,
+      "train_speed(iter/s)": 0.449788
+    },
+    {
+      "acc": 0.63892293,
+      "epoch": 0.20205479452054795,
+      "grad_norm": 6.0,
+      "learning_rate": 9.928981973686388e-06,
+      "loss": 1.73255825,
+      "memory(GiB)": 71.21,
+      "step": 7965,
+      "train_speed(iter/s)": 0.449937
+    },
+    {
+      "acc": 0.65110106,
+      "epoch": 0.202181633688483,
+      "grad_norm": 4.5,
+      "learning_rate": 9.928805754355926e-06,
+      "loss": 1.60163498,
+      "memory(GiB)": 71.21,
+      "step": 7970,
+      "train_speed(iter/s)": 0.450085
+    },
+    {
+      "acc": 0.63845358,
+      "epoch": 0.20230847285641806,
+      "grad_norm": 5.9375,
+      "learning_rate": 9.92862931823458e-06,
+      "loss": 1.66533623,
+      "memory(GiB)": 71.21,
+      "step": 7975,
+      "train_speed(iter/s)": 0.450236
+    },
+    {
+      "acc": 0.64788485,
+      "epoch": 0.2024353120243531,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.928452665330113e-06,
+      "loss": 1.71982994,
+      "memory(GiB)": 71.21,
+      "step": 7980,
+      "train_speed(iter/s)": 0.450385
+    },
+    {
+      "acc": 0.63263912,
+      "epoch": 0.20256215119228818,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.928275795650293e-06,
+      "loss": 1.72257652,
+      "memory(GiB)": 71.21,
+      "step": 7985,
+      "train_speed(iter/s)": 0.450535
+    },
+    {
+      "acc": 0.64622374,
+      "epoch": 0.20268899036022323,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.928098709202901e-06,
+      "loss": 1.66977768,
+      "memory(GiB)": 71.21,
+      "step": 7990,
+      "train_speed(iter/s)": 0.450683
+    },
+    {
+      "acc": 0.6344285,
+      "epoch": 0.2028158295281583,
+      "grad_norm": 7.28125,
+      "learning_rate": 9.927921405995727e-06,
+      "loss": 1.73109589,
+      "memory(GiB)": 71.21,
+      "step": 7995,
+      "train_speed(iter/s)": 0.450832
+    },
+    {
+      "acc": 0.65770769,
+      "epoch": 0.20294266869609334,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.927743886036566e-06,
+      "loss": 1.6832737,
+      "memory(GiB)": 71.21,
+      "step": 8000,
+      "train_speed(iter/s)": 0.450981
+    },
+    {
+      "epoch": 0.20294266869609334,
+      "eval_acc": 0.6335274140997302,
+      "eval_loss": 1.665919303894043,
+      "eval_runtime": 113.4819,
+      "eval_samples_per_second": 56.132,
+      "eval_steps_per_second": 28.066,
+      "step": 8000
+    },
+    {
+      "acc": 0.65675073,
+      "epoch": 0.20306950786402841,
+      "grad_norm": 5.0,
+      "learning_rate": 9.927566149333228e-06,
+      "loss": 1.60690155,
+      "memory(GiB)": 71.21,
+      "step": 8005,
+      "train_speed(iter/s)": 0.448147
+    },
+    {
+      "acc": 0.6301918,
+      "epoch": 0.20319634703196346,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.92738819589353e-06,
+      "loss": 1.67938118,
+      "memory(GiB)": 71.21,
+      "step": 8010,
+      "train_speed(iter/s)": 0.448293
+    },
+    {
+      "acc": 0.63772144,
+      "epoch": 0.20332318619989853,
+      "grad_norm": 5.9375,
+      "learning_rate": 9.927210025725301e-06,
+      "loss": 1.66887665,
+      "memory(GiB)": 71.21,
+      "step": 8015,
+      "train_speed(iter/s)": 0.448441
+    },
+    {
+      "acc": 0.63797626,
+      "epoch": 0.20345002536783358,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.927031638836377e-06,
+      "loss": 1.68546829,
+      "memory(GiB)": 71.21,
+      "step": 8020,
+      "train_speed(iter/s)": 0.448589
+    },
+    {
+      "acc": 0.64352541,
+      "epoch": 0.20357686453576865,
+      "grad_norm": 6.71875,
+      "learning_rate": 9.926853035234603e-06,
+      "loss": 1.69362869,
+      "memory(GiB)": 71.21,
+      "step": 8025,
+      "train_speed(iter/s)": 0.448737
+    },
+    {
+      "acc": 0.64745083,
+      "epoch": 0.2037037037037037,
+      "grad_norm": 5.71875,
+      "learning_rate": 9.926674214927836e-06,
+      "loss": 1.74950905,
+      "memory(GiB)": 71.21,
+      "step": 8030,
+      "train_speed(iter/s)": 0.448883
+    },
+    {
+      "acc": 0.63772974,
+      "epoch": 0.20383054287163876,
+      "grad_norm": 4.5625,
+      "learning_rate": 9.926495177923941e-06,
+      "loss": 1.66350918,
+      "memory(GiB)": 71.21,
+      "step": 8035,
+      "train_speed(iter/s)": 0.449032
+    },
+    {
+      "acc": 0.64252672,
+      "epoch": 0.2039573820395738,
+      "grad_norm": 5.625,
+      "learning_rate": 9.926315924230794e-06,
+      "loss": 1.70670547,
+      "memory(GiB)": 71.21,
+      "step": 8040,
+      "train_speed(iter/s)": 0.449181
+    },
+    {
+      "acc": 0.63815174,
+      "epoch": 0.20408422120750888,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.926136453856277e-06,
+      "loss": 1.67611732,
+      "memory(GiB)": 71.21,
+      "step": 8045,
+      "train_speed(iter/s)": 0.449325
+    },
+    {
+      "acc": 0.64188876,
+      "epoch": 0.20421106037544393,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.925956766808286e-06,
+      "loss": 1.68995171,
+      "memory(GiB)": 71.21,
+      "step": 8050,
+      "train_speed(iter/s)": 0.449473
+    },
+    {
+      "acc": 0.62811117,
+      "epoch": 0.204337899543379,
+      "grad_norm": 4.6875,
+      "learning_rate": 9.925776863094723e-06,
+      "loss": 1.70620766,
+      "memory(GiB)": 71.21,
+      "step": 8055,
+      "train_speed(iter/s)": 0.449621
+    },
+    {
+      "acc": 0.63177853,
+      "epoch": 0.20446473871131404,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.9255967427235e-06,
+      "loss": 1.72925949,
+      "memory(GiB)": 71.21,
+      "step": 8060,
+      "train_speed(iter/s)": 0.449769
+    },
+    {
+      "acc": 0.64552116,
+      "epoch": 0.20459157787924911,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.925416405702544e-06,
+      "loss": 1.67127571,
+      "memory(GiB)": 71.21,
+      "step": 8065,
+      "train_speed(iter/s)": 0.449916
+    },
+    {
+      "acc": 0.64164724,
+      "epoch": 0.20471841704718416,
+      "grad_norm": 5.125,
+      "learning_rate": 9.925235852039783e-06,
+      "loss": 1.70809174,
+      "memory(GiB)": 71.21,
+      "step": 8070,
+      "train_speed(iter/s)": 0.450063
+    },
+    {
+      "acc": 0.63770175,
+      "epoch": 0.20484525621511923,
+      "grad_norm": 5.0,
+      "learning_rate": 9.92505508174316e-06,
+      "loss": 1.74251461,
+      "memory(GiB)": 71.21,
+      "step": 8075,
+      "train_speed(iter/s)": 0.450211
+    },
+    {
+      "acc": 0.6505959,
+      "epoch": 0.20497209538305428,
+      "grad_norm": 7.0625,
+      "learning_rate": 9.924874094820625e-06,
+      "loss": 1.65471878,
+      "memory(GiB)": 71.21,
+      "step": 8080,
+      "train_speed(iter/s)": 0.450358
+    },
+    {
+      "acc": 0.64262419,
+      "epoch": 0.20509893455098935,
+      "grad_norm": 6.46875,
+      "learning_rate": 9.924692891280139e-06,
+      "loss": 1.6950058,
+      "memory(GiB)": 71.21,
+      "step": 8085,
+      "train_speed(iter/s)": 0.450506
+    },
+    {
+      "acc": 0.6454524,
+      "epoch": 0.2052257737189244,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.924511471129673e-06,
+      "loss": 1.65451469,
+      "memory(GiB)": 71.21,
+      "step": 8090,
+      "train_speed(iter/s)": 0.450653
+    },
+    {
+      "acc": 0.63959908,
+      "epoch": 0.20535261288685946,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.924329834377206e-06,
+      "loss": 1.65727654,
+      "memory(GiB)": 71.21,
+      "step": 8095,
+      "train_speed(iter/s)": 0.450799
+    },
+    {
+      "acc": 0.64031057,
+      "epoch": 0.2054794520547945,
+      "grad_norm": 5.875,
+      "learning_rate": 9.924147981030728e-06,
+      "loss": 1.68533363,
+      "memory(GiB)": 71.21,
+      "step": 8100,
+      "train_speed(iter/s)": 0.450946
+    },
+    {
+      "epoch": 0.2054794520547945,
+      "eval_acc": 0.6337396398929346,
+      "eval_loss": 1.6647824048995972,
+      "eval_runtime": 112.79,
+      "eval_samples_per_second": 56.477,
+      "eval_steps_per_second": 28.238,
+      "step": 8100
+    },
+    {
+      "acc": 0.65359106,
+      "epoch": 0.20560629122272958,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.923965911098235e-06,
+      "loss": 1.65648003,
+      "memory(GiB)": 71.21,
+      "step": 8105,
+      "train_speed(iter/s)": 0.448166
+    },
+    {
+      "acc": 0.62566323,
+      "epoch": 0.20573313039066463,
+      "grad_norm": 7.0625,
+      "learning_rate": 9.92378362458774e-06,
+      "loss": 1.77997799,
+      "memory(GiB)": 71.21,
+      "step": 8110,
+      "train_speed(iter/s)": 0.448312
+    },
+    {
+      "acc": 0.64280653,
+      "epoch": 0.2058599695585997,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.923601121507256e-06,
+      "loss": 1.69552689,
+      "memory(GiB)": 71.21,
+      "step": 8115,
+      "train_speed(iter/s)": 0.448456
+    },
+    {
+      "acc": 0.6256156,
+      "epoch": 0.20598680872653474,
+      "grad_norm": 4.875,
+      "learning_rate": 9.923418401864812e-06,
+      "loss": 1.71542816,
+      "memory(GiB)": 71.21,
+      "step": 8120,
+      "train_speed(iter/s)": 0.448601
+    },
+    {
+      "acc": 0.63545871,
+      "epoch": 0.20611364789446981,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.923235465668447e-06,
+      "loss": 1.65908432,
+      "memory(GiB)": 71.21,
+      "step": 8125,
+      "train_speed(iter/s)": 0.448746
+    },
+    {
+      "acc": 0.64828691,
+      "epoch": 0.20624048706240486,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.923052312926204e-06,
+      "loss": 1.66910572,
+      "memory(GiB)": 71.21,
+      "step": 8130,
+      "train_speed(iter/s)": 0.448891
+    },
+    {
+      "acc": 0.6419198,
+      "epoch": 0.20636732623033993,
+      "grad_norm": 4.46875,
+      "learning_rate": 9.922868943646142e-06,
+      "loss": 1.6480854,
+      "memory(GiB)": 71.21,
+      "step": 8135,
+      "train_speed(iter/s)": 0.449035
+    },
+    {
+      "acc": 0.63529701,
+      "epoch": 0.20649416539827498,
+      "grad_norm": 5.75,
+      "learning_rate": 9.922685357836324e-06,
+      "loss": 1.69019833,
+      "memory(GiB)": 71.21,
+      "step": 8140,
+      "train_speed(iter/s)": 0.449179
+    },
+    {
+      "acc": 0.63884268,
+      "epoch": 0.20662100456621005,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.922501555504827e-06,
+      "loss": 1.69838448,
+      "memory(GiB)": 71.21,
+      "step": 8145,
+      "train_speed(iter/s)": 0.449324
+    },
+    {
+      "acc": 0.64210405,
+      "epoch": 0.2067478437341451,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.922317536659733e-06,
+      "loss": 1.63487358,
+      "memory(GiB)": 71.21,
+      "step": 8150,
+      "train_speed(iter/s)": 0.449468
+    },
+    {
+      "acc": 0.64256277,
+      "epoch": 0.20687468290208016,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.922133301309136e-06,
+      "loss": 1.69277077,
+      "memory(GiB)": 71.21,
+      "step": 8155,
+      "train_speed(iter/s)": 0.449613
+    },
+    {
+      "acc": 0.63550062,
+      "epoch": 0.2070015220700152,
+      "grad_norm": 6.21875,
+      "learning_rate": 9.921948849461142e-06,
+      "loss": 1.70646725,
+      "memory(GiB)": 71.21,
+      "step": 8160,
+      "train_speed(iter/s)": 0.449758
+    },
+    {
+      "acc": 0.65031271,
+      "epoch": 0.20712836123795028,
+      "grad_norm": 5.25,
+      "learning_rate": 9.921764181123864e-06,
+      "loss": 1.5951025,
+      "memory(GiB)": 71.21,
+      "step": 8165,
+      "train_speed(iter/s)": 0.449902
+    },
+    {
+      "acc": 0.65544124,
+      "epoch": 0.20725520040588533,
+      "grad_norm": 6.65625,
+      "learning_rate": 9.921579296305421e-06,
+      "loss": 1.62906513,
+      "memory(GiB)": 71.21,
+      "step": 8170,
+      "train_speed(iter/s)": 0.450047
+    },
+    {
+      "acc": 0.63458395,
+      "epoch": 0.2073820395738204,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.921394195013949e-06,
+      "loss": 1.63672066,
+      "memory(GiB)": 71.21,
+      "step": 8175,
+      "train_speed(iter/s)": 0.450192
+    },
+    {
+      "acc": 0.64468884,
+      "epoch": 0.20750887874175544,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.921208877257586e-06,
+      "loss": 1.67782326,
+      "memory(GiB)": 71.21,
+      "step": 8180,
+      "train_speed(iter/s)": 0.450335
+    },
+    {
+      "acc": 0.63539209,
+      "epoch": 0.20763571790969051,
+      "grad_norm": 6.25,
+      "learning_rate": 9.921023343044486e-06,
+      "loss": 1.66944523,
+      "memory(GiB)": 71.21,
+      "step": 8185,
+      "train_speed(iter/s)": 0.450479
+    },
+    {
+      "acc": 0.64285927,
+      "epoch": 0.20776255707762556,
+      "grad_norm": 7.21875,
+      "learning_rate": 9.92083759238281e-06,
+      "loss": 1.62081184,
+      "memory(GiB)": 71.21,
+      "step": 8190,
+      "train_speed(iter/s)": 0.450622
+    },
+    {
+      "acc": 0.64389386,
+      "epoch": 0.20788939624556063,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.920651625280725e-06,
+      "loss": 1.7454895,
+      "memory(GiB)": 71.21,
+      "step": 8195,
+      "train_speed(iter/s)": 0.450767
+    },
+    {
+      "acc": 0.63974924,
+      "epoch": 0.20801623541349568,
+      "grad_norm": 5.8125,
+      "learning_rate": 9.920465441746412e-06,
+      "loss": 1.71090851,
+      "memory(GiB)": 71.21,
+      "step": 8200,
+      "train_speed(iter/s)": 0.450913
+    },
+    {
+      "epoch": 0.20801623541349568,
+      "eval_acc": 0.6339146843955973,
+      "eval_loss": 1.6637836694717407,
+      "eval_runtime": 113.5595,
+      "eval_samples_per_second": 56.094,
+      "eval_steps_per_second": 28.047,
+      "step": 8200
+    },
+    {
+      "acc": 0.63911419,
+      "epoch": 0.20814307458143075,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.920279041788062e-06,
+      "loss": 1.68976269,
+      "memory(GiB)": 71.21,
+      "step": 8205,
+      "train_speed(iter/s)": 0.448147
+    },
+    {
+      "acc": 0.6528338,
+      "epoch": 0.2082699137493658,
+      "grad_norm": 5.375,
+      "learning_rate": 9.920092425413871e-06,
+      "loss": 1.68342724,
+      "memory(GiB)": 71.21,
+      "step": 8210,
+      "train_speed(iter/s)": 0.44829
+    },
+    {
+      "acc": 0.64426146,
+      "epoch": 0.20839675291730086,
+      "grad_norm": 5.375,
+      "learning_rate": 9.919905592632048e-06,
+      "loss": 1.62852592,
+      "memory(GiB)": 71.21,
+      "step": 8215,
+      "train_speed(iter/s)": 0.448433
+    },
+    {
+      "acc": 0.6371129,
+      "epoch": 0.2085235920852359,
+      "grad_norm": 6.15625,
+      "learning_rate": 9.919718543450813e-06,
+      "loss": 1.64365387,
+      "memory(GiB)": 71.21,
+      "step": 8220,
+      "train_speed(iter/s)": 0.448577
+    },
+    {
+      "acc": 0.64223194,
+      "epoch": 0.20865043125317098,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.919531277878391e-06,
+      "loss": 1.68323517,
+      "memory(GiB)": 71.21,
+      "step": 8225,
+      "train_speed(iter/s)": 0.44872
+    },
+    {
+      "acc": 0.64952016,
+      "epoch": 0.20877727042110603,
+      "grad_norm": 7.75,
+      "learning_rate": 9.91934379592302e-06,
+      "loss": 1.55598221,
+      "memory(GiB)": 71.21,
+      "step": 8230,
+      "train_speed(iter/s)": 0.448864
+    },
+    {
+      "acc": 0.6534863,
+      "epoch": 0.2089041095890411,
+      "grad_norm": 4.59375,
+      "learning_rate": 9.919156097592944e-06,
+      "loss": 1.59364061,
+      "memory(GiB)": 71.21,
+      "step": 8235,
+      "train_speed(iter/s)": 0.449007
+    },
+    {
+      "acc": 0.65045528,
+      "epoch": 0.20903094875697614,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.91896818289642e-06,
+      "loss": 1.63226776,
+      "memory(GiB)": 71.21,
+      "step": 8240,
+      "train_speed(iter/s)": 0.44915
+    },
+    {
+      "acc": 0.65358953,
+      "epoch": 0.20915778792491121,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.918780051841716e-06,
+      "loss": 1.67622566,
+      "memory(GiB)": 71.21,
+      "step": 8245,
+      "train_speed(iter/s)": 0.449292
+    },
+    {
+      "acc": 0.64208689,
+      "epoch": 0.20928462709284626,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.918591704437103e-06,
+      "loss": 1.67470646,
+      "memory(GiB)": 71.21,
+      "step": 8250,
+      "train_speed(iter/s)": 0.449436
+    },
+    {
+      "acc": 0.63879557,
+      "epoch": 0.20941146626078133,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.918403140690866e-06,
+      "loss": 1.66502895,
+      "memory(GiB)": 71.21,
+      "step": 8255,
+      "train_speed(iter/s)": 0.44958
+    },
+    {
+      "acc": 0.63374705,
+      "epoch": 0.20953830542871638,
+      "grad_norm": 4.59375,
+      "learning_rate": 9.918214360611302e-06,
+      "loss": 1.68402672,
+      "memory(GiB)": 71.21,
+      "step": 8260,
+      "train_speed(iter/s)": 0.449721
+    },
+    {
+      "acc": 0.63472929,
+      "epoch": 0.20966514459665145,
+      "grad_norm": 6.875,
+      "learning_rate": 9.918025364206712e-06,
+      "loss": 1.69764442,
+      "memory(GiB)": 71.21,
+      "step": 8265,
+      "train_speed(iter/s)": 0.449862
+    },
+    {
+      "acc": 0.64071884,
+      "epoch": 0.2097919837645865,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.917836151485407e-06,
+      "loss": 1.67343712,
+      "memory(GiB)": 71.21,
+      "step": 8270,
+      "train_speed(iter/s)": 0.450004
+    },
+    {
+      "acc": 0.65173993,
+      "epoch": 0.20991882293252156,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.917646722455713e-06,
+      "loss": 1.69439087,
+      "memory(GiB)": 71.21,
+      "step": 8275,
+      "train_speed(iter/s)": 0.450145
+    },
+    {
+      "acc": 0.6344492,
+      "epoch": 0.2100456621004566,
+      "grad_norm": 5.96875,
+      "learning_rate": 9.91745707712596e-06,
+      "loss": 1.66014977,
+      "memory(GiB)": 71.21,
+      "step": 8280,
+      "train_speed(iter/s)": 0.450286
+    },
+    {
+      "acc": 0.64204292,
+      "epoch": 0.21017250126839168,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.91726721550449e-06,
+      "loss": 1.67773266,
+      "memory(GiB)": 71.21,
+      "step": 8285,
+      "train_speed(iter/s)": 0.450427
+    },
+    {
+      "acc": 0.63515577,
+      "epoch": 0.21029934043632673,
+      "grad_norm": 4.34375,
+      "learning_rate": 9.917077137599653e-06,
+      "loss": 1.64633846,
+      "memory(GiB)": 71.21,
+      "step": 8290,
+      "train_speed(iter/s)": 0.450568
+    },
+    {
+      "acc": 0.63695116,
+      "epoch": 0.2104261796042618,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.916886843419811e-06,
+      "loss": 1.71501465,
+      "memory(GiB)": 71.21,
+      "step": 8295,
+      "train_speed(iter/s)": 0.450709
+    },
+    {
+      "acc": 0.65506315,
+      "epoch": 0.21055301877219684,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.916696332973334e-06,
+      "loss": 1.70812073,
+      "memory(GiB)": 71.21,
+      "step": 8300,
+      "train_speed(iter/s)": 0.45085
+    },
+    {
+      "epoch": 0.21055301877219684,
+      "eval_acc": 0.6341152127041367,
+      "eval_loss": 1.6625590324401855,
+      "eval_runtime": 112.9259,
+      "eval_samples_per_second": 56.409,
+      "eval_steps_per_second": 28.204,
+      "step": 8300
+    },
+    {
+      "acc": 0.64055576,
+      "epoch": 0.21067985794013191,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.9165056062686e-06,
+      "loss": 1.63725185,
+      "memory(GiB)": 71.21,
+      "step": 8305,
+      "train_speed(iter/s)": 0.448135
+    },
+    {
+      "acc": 0.63156252,
+      "epoch": 0.21080669710806696,
+      "grad_norm": 6.0,
+      "learning_rate": 9.916314663314e-06,
+      "loss": 1.71484127,
+      "memory(GiB)": 71.21,
+      "step": 8310,
+      "train_speed(iter/s)": 0.448279
+    },
+    {
+      "acc": 0.65101252,
+      "epoch": 0.21093353627600203,
+      "grad_norm": 4.6875,
+      "learning_rate": 9.91612350411793e-06,
+      "loss": 1.69785118,
+      "memory(GiB)": 71.21,
+      "step": 8315,
+      "train_speed(iter/s)": 0.448421
+    },
+    {
+      "acc": 0.65721731,
+      "epoch": 0.21106037544393708,
+      "grad_norm": 5.875,
+      "learning_rate": 9.9159321286888e-06,
+      "loss": 1.62851791,
+      "memory(GiB)": 71.21,
+      "step": 8320,
+      "train_speed(iter/s)": 0.448564
+    },
+    {
+      "acc": 0.63737774,
+      "epoch": 0.21118721461187215,
+      "grad_norm": 4.875,
+      "learning_rate": 9.915740537035026e-06,
+      "loss": 1.73724747,
+      "memory(GiB)": 71.21,
+      "step": 8325,
+      "train_speed(iter/s)": 0.448707
+    },
+    {
+      "acc": 0.63812456,
+      "epoch": 0.2113140537798072,
+      "grad_norm": 5.8125,
+      "learning_rate": 9.915548729165036e-06,
+      "loss": 1.73263206,
+      "memory(GiB)": 71.21,
+      "step": 8330,
+      "train_speed(iter/s)": 0.448851
+    },
+    {
+      "acc": 0.66573229,
+      "epoch": 0.21144089294774226,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.915356705087269e-06,
+      "loss": 1.60339928,
+      "memory(GiB)": 71.21,
+      "step": 8335,
+      "train_speed(iter/s)": 0.448995
+    },
+    {
+      "acc": 0.62934456,
+      "epoch": 0.2115677321156773,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.915164464810166e-06,
+      "loss": 1.71792564,
+      "memory(GiB)": 71.21,
+      "step": 8340,
+      "train_speed(iter/s)": 0.449138
+    },
+    {
+      "acc": 0.64654231,
+      "epoch": 0.21169457128361238,
+      "grad_norm": 5.625,
+      "learning_rate": 9.914972008342186e-06,
+      "loss": 1.66225758,
+      "memory(GiB)": 71.21,
+      "step": 8345,
+      "train_speed(iter/s)": 0.449281
+    },
+    {
+      "acc": 0.62663965,
+      "epoch": 0.21182141045154743,
+      "grad_norm": 5.25,
+      "learning_rate": 9.914779335691793e-06,
+      "loss": 1.75027809,
+      "memory(GiB)": 71.21,
+      "step": 8350,
+      "train_speed(iter/s)": 0.449424
+    },
+    {
+      "acc": 0.62927217,
+      "epoch": 0.2119482496194825,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.914586446867463e-06,
+      "loss": 1.72834949,
+      "memory(GiB)": 71.21,
+      "step": 8355,
+      "train_speed(iter/s)": 0.449567
+    },
+    {
+      "acc": 0.64732742,
+      "epoch": 0.21207508878741754,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.914393341877678e-06,
+      "loss": 1.68878078,
+      "memory(GiB)": 71.21,
+      "step": 8360,
+      "train_speed(iter/s)": 0.44971
+    },
+    {
+      "acc": 0.6347538,
+      "epoch": 0.21220192795535261,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.914200020730932e-06,
+      "loss": 1.70048676,
+      "memory(GiB)": 71.21,
+      "step": 8365,
+      "train_speed(iter/s)": 0.449853
+    },
+    {
+      "acc": 0.64807692,
+      "epoch": 0.21232876712328766,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.914006483435732e-06,
+      "loss": 1.65754147,
+      "memory(GiB)": 71.21,
+      "step": 8370,
+      "train_speed(iter/s)": 0.449997
+    },
+    {
+      "acc": 0.62769446,
+      "epoch": 0.21245560629122273,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.913812730000585e-06,
+      "loss": 1.72713394,
+      "memory(GiB)": 71.21,
+      "step": 8375,
+      "train_speed(iter/s)": 0.450139
+    },
+    {
+      "acc": 0.6506166,
+      "epoch": 0.21258244545915778,
+      "grad_norm": 6.34375,
+      "learning_rate": 9.913618760434015e-06,
+      "loss": 1.67680492,
+      "memory(GiB)": 71.21,
+      "step": 8380,
+      "train_speed(iter/s)": 0.450284
+    },
+    {
+      "acc": 0.64880624,
+      "epoch": 0.21270928462709285,
+      "grad_norm": 5.875,
+      "learning_rate": 9.913424574744555e-06,
+      "loss": 1.6197855,
+      "memory(GiB)": 71.21,
+      "step": 8385,
+      "train_speed(iter/s)": 0.450427
+    },
+    {
+      "acc": 0.65454459,
+      "epoch": 0.2128361237950279,
+      "grad_norm": 5.96875,
+      "learning_rate": 9.913230172940744e-06,
+      "loss": 1.70528831,
+      "memory(GiB)": 71.21,
+      "step": 8390,
+      "train_speed(iter/s)": 0.45057
+    },
+    {
+      "acc": 0.6289444,
+      "epoch": 0.21296296296296297,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.913035555031136e-06,
+      "loss": 1.69058723,
+      "memory(GiB)": 71.21,
+      "step": 8395,
+      "train_speed(iter/s)": 0.450714
+    },
+    {
+      "acc": 0.64075446,
+      "epoch": 0.213089802130898,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.912840721024288e-06,
+      "loss": 1.61358147,
+      "memory(GiB)": 71.21,
+      "step": 8400,
+      "train_speed(iter/s)": 0.450858
+    },
+    {
+      "epoch": 0.213089802130898,
+      "eval_acc": 0.6343157410126763,
+      "eval_loss": 1.6613247394561768,
+      "eval_runtime": 113.829,
+      "eval_samples_per_second": 55.961,
+      "eval_steps_per_second": 27.981,
+      "step": 8400
+    },
+    {
+      "acc": 0.66029735,
+      "epoch": 0.21321664129883308,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.91264567092877e-06,
+      "loss": 1.56634007,
+      "memory(GiB)": 71.21,
+      "step": 8405,
+      "train_speed(iter/s)": 0.448156
+    },
+    {
+      "acc": 0.63390112,
+      "epoch": 0.21334348046676813,
+      "grad_norm": 6.4375,
+      "learning_rate": 9.912450404753164e-06,
+      "loss": 1.75464439,
+      "memory(GiB)": 71.21,
+      "step": 8410,
+      "train_speed(iter/s)": 0.448301
+    },
+    {
+      "acc": 0.65367498,
+      "epoch": 0.2134703196347032,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.912254922506057e-06,
+      "loss": 1.61806946,
+      "memory(GiB)": 71.21,
+      "step": 8415,
+      "train_speed(iter/s)": 0.448445
+    },
+    {
+      "acc": 0.64051189,
+      "epoch": 0.21359715880263824,
+      "grad_norm": 5.375,
+      "learning_rate": 9.912059224196044e-06,
+      "loss": 1.70011864,
+      "memory(GiB)": 71.21,
+      "step": 8420,
+      "train_speed(iter/s)": 0.448588
+    },
+    {
+      "acc": 0.6440187,
+      "epoch": 0.21372399797057332,
+      "grad_norm": 4.5625,
+      "learning_rate": 9.911863309831738e-06,
+      "loss": 1.62829304,
+      "memory(GiB)": 71.21,
+      "step": 8425,
+      "train_speed(iter/s)": 0.44873
+    },
+    {
+      "acc": 0.62482624,
+      "epoch": 0.21385083713850836,
+      "grad_norm": 5.0,
+      "learning_rate": 9.911667179421753e-06,
+      "loss": 1.76024208,
+      "memory(GiB)": 71.21,
+      "step": 8430,
+      "train_speed(iter/s)": 0.448874
+    },
+    {
+      "acc": 0.64880376,
+      "epoch": 0.21397767630644343,
+      "grad_norm": 4.59375,
+      "learning_rate": 9.911470832974717e-06,
+      "loss": 1.62155228,
+      "memory(GiB)": 71.21,
+      "step": 8435,
+      "train_speed(iter/s)": 0.449016
+    },
+    {
+      "acc": 0.63791022,
+      "epoch": 0.21410451547437848,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.911274270499265e-06,
+      "loss": 1.63118515,
+      "memory(GiB)": 71.21,
+      "step": 8440,
+      "train_speed(iter/s)": 0.449158
+    },
+    {
+      "acc": 0.64686451,
+      "epoch": 0.21423135464231355,
+      "grad_norm": 5.84375,
+      "learning_rate": 9.911077492004044e-06,
+      "loss": 1.66607552,
+      "memory(GiB)": 71.21,
+      "step": 8445,
+      "train_speed(iter/s)": 0.4493
+    },
+    {
+      "acc": 0.63298426,
+      "epoch": 0.2143581938102486,
+      "grad_norm": 5.625,
+      "learning_rate": 9.910880497497707e-06,
+      "loss": 1.67723961,
+      "memory(GiB)": 71.21,
+      "step": 8450,
+      "train_speed(iter/s)": 0.449442
+    },
+    {
+      "acc": 0.64578667,
+      "epoch": 0.21448503297818367,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.910683286988922e-06,
+      "loss": 1.66332283,
+      "memory(GiB)": 71.21,
+      "step": 8455,
+      "train_speed(iter/s)": 0.449584
+    },
+    {
+      "acc": 0.63888454,
+      "epoch": 0.2146118721461187,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.910485860486361e-06,
+      "loss": 1.67283554,
+      "memory(GiB)": 71.21,
+      "step": 8460,
+      "train_speed(iter/s)": 0.449727
+    },
+    {
+      "acc": 0.63577676,
+      "epoch": 0.21473871131405378,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.910288217998707e-06,
+      "loss": 1.73443718,
+      "memory(GiB)": 71.21,
+      "step": 8465,
+      "train_speed(iter/s)": 0.44987
+    },
+    {
+      "acc": 0.64198065,
+      "epoch": 0.21486555048198883,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.910090359534654e-06,
+      "loss": 1.71854591,
+      "memory(GiB)": 71.21,
+      "step": 8470,
+      "train_speed(iter/s)": 0.450011
+    },
+    {
+      "acc": 0.64926138,
+      "epoch": 0.2149923896499239,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.909892285102907e-06,
+      "loss": 1.68130035,
+      "memory(GiB)": 71.21,
+      "step": 8475,
+      "train_speed(iter/s)": 0.450155
+    },
+    {
+      "acc": 0.65523891,
+      "epoch": 0.21511922881785894,
+      "grad_norm": 5.71875,
+      "learning_rate": 9.909693994712174e-06,
+      "loss": 1.64424038,
+      "memory(GiB)": 71.21,
+      "step": 8480,
+      "train_speed(iter/s)": 0.450296
+    },
+    {
+      "acc": 0.66069756,
+      "epoch": 0.21524606798579402,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.909495488371181e-06,
+      "loss": 1.57171192,
+      "memory(GiB)": 71.21,
+      "step": 8485,
+      "train_speed(iter/s)": 0.450437
+    },
+    {
+      "acc": 0.6437088,
+      "epoch": 0.21537290715372906,
+      "grad_norm": 5.25,
+      "learning_rate": 9.909296766088657e-06,
+      "loss": 1.66058884,
+      "memory(GiB)": 71.21,
+      "step": 8490,
+      "train_speed(iter/s)": 0.450579
+    },
+    {
+      "acc": 0.65637722,
+      "epoch": 0.21549974632166413,
+      "grad_norm": 6.0625,
+      "learning_rate": 9.909097827873341e-06,
+      "loss": 1.64300213,
+      "memory(GiB)": 71.21,
+      "step": 8495,
+      "train_speed(iter/s)": 0.45072
+    },
+    {
+      "acc": 0.64597721,
+      "epoch": 0.21562658548959918,
+      "grad_norm": 5.78125,
+      "learning_rate": 9.908898673733986e-06,
+      "loss": 1.69559383,
+      "memory(GiB)": 71.21,
+      "step": 8500,
+      "train_speed(iter/s)": 0.450862
+    },
+    {
+      "epoch": 0.21562658548959918,
+      "eval_acc": 0.6345003941634565,
+      "eval_loss": 1.6606484651565552,
+      "eval_runtime": 113.5763,
+      "eval_samples_per_second": 56.086,
+      "eval_steps_per_second": 28.043,
+      "step": 8500
+    },
+    {
+      "acc": 0.65200815,
+      "epoch": 0.21575342465753425,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.90869930367935e-06,
+      "loss": 1.65521774,
+      "memory(GiB)": 71.21,
+      "step": 8505,
+      "train_speed(iter/s)": 0.448197
+    },
+    {
+      "acc": 0.6272964,
+      "epoch": 0.2158802638254693,
+      "grad_norm": 6.25,
+      "learning_rate": 9.908499717718203e-06,
+      "loss": 1.75980797,
+      "memory(GiB)": 71.21,
+      "step": 8510,
+      "train_speed(iter/s)": 0.448338
+    },
+    {
+      "acc": 0.65032406,
+      "epoch": 0.21600710299340437,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.908299915859325e-06,
+      "loss": 1.68360138,
+      "memory(GiB)": 71.21,
+      "step": 8515,
+      "train_speed(iter/s)": 0.448478
+    },
+    {
+      "acc": 0.65043573,
+      "epoch": 0.2161339421613394,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.908099898111502e-06,
+      "loss": 1.65408058,
+      "memory(GiB)": 71.21,
+      "step": 8520,
+      "train_speed(iter/s)": 0.44862
+    },
+    {
+      "acc": 0.64116797,
+      "epoch": 0.21626078132927448,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.907899664483533e-06,
+      "loss": 1.64792061,
+      "memory(GiB)": 71.21,
+      "step": 8525,
+      "train_speed(iter/s)": 0.44876
+    },
+    {
+      "acc": 0.6256278,
+      "epoch": 0.21638762049720953,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.907699214984223e-06,
+      "loss": 1.72127037,
+      "memory(GiB)": 71.21,
+      "step": 8530,
+      "train_speed(iter/s)": 0.4489
+    },
+    {
+      "acc": 0.6327477,
+      "epoch": 0.2165144596651446,
+      "grad_norm": 5.25,
+      "learning_rate": 9.90749854962239e-06,
+      "loss": 1.67684021,
+      "memory(GiB)": 71.21,
+      "step": 8535,
+      "train_speed(iter/s)": 0.449039
+    },
+    {
+      "acc": 0.6455873,
+      "epoch": 0.21664129883307964,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.907297668406863e-06,
+      "loss": 1.66346493,
+      "memory(GiB)": 71.21,
+      "step": 8540,
+      "train_speed(iter/s)": 0.44918
+    },
+    {
+      "acc": 0.63578806,
+      "epoch": 0.21676813800101472,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.907096571346474e-06,
+      "loss": 1.67655296,
+      "memory(GiB)": 71.21,
+      "step": 8545,
+      "train_speed(iter/s)": 0.449321
+    },
+    {
+      "acc": 0.63263969,
+      "epoch": 0.21689497716894976,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.906895258450067e-06,
+      "loss": 1.62459526,
+      "memory(GiB)": 71.21,
+      "step": 8550,
+      "train_speed(iter/s)": 0.449462
+    },
+    {
+      "acc": 0.65021734,
+      "epoch": 0.21702181633688483,
+      "grad_norm": 4.59375,
+      "learning_rate": 9.9066937297265e-06,
+      "loss": 1.64175014,
+      "memory(GiB)": 71.21,
+      "step": 8555,
+      "train_speed(iter/s)": 0.449603
+    },
+    {
+      "acc": 0.63873334,
+      "epoch": 0.21714865550481988,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.906491985184637e-06,
+      "loss": 1.62002945,
+      "memory(GiB)": 71.21,
+      "step": 8560,
+      "train_speed(iter/s)": 0.449744
+    },
+    {
+      "acc": 0.6204812,
+      "epoch": 0.21727549467275495,
+      "grad_norm": 5.96875,
+      "learning_rate": 9.906290024833349e-06,
+      "loss": 1.71428185,
+      "memory(GiB)": 71.21,
+      "step": 8565,
+      "train_speed(iter/s)": 0.449884
+    },
+    {
+      "acc": 0.64224968,
+      "epoch": 0.21740233384069,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.906087848681523e-06,
+      "loss": 1.6708149,
+      "memory(GiB)": 71.21,
+      "step": 8570,
+      "train_speed(iter/s)": 0.450026
+    },
+    {
+      "acc": 0.64272375,
+      "epoch": 0.21752917300862507,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.905885456738046e-06,
+      "loss": 1.69182625,
+      "memory(GiB)": 71.21,
+      "step": 8575,
+      "train_speed(iter/s)": 0.450166
+    },
+    {
+      "acc": 0.64687839,
+      "epoch": 0.2176560121765601,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.905682849011826e-06,
+      "loss": 1.68394508,
+      "memory(GiB)": 71.21,
+      "step": 8580,
+      "train_speed(iter/s)": 0.450307
+    },
+    {
+      "acc": 0.63993306,
+      "epoch": 0.21778285134449518,
+      "grad_norm": 5.9375,
+      "learning_rate": 9.905480025511772e-06,
+      "loss": 1.72913322,
+      "memory(GiB)": 71.21,
+      "step": 8585,
+      "train_speed(iter/s)": 0.450447
+    },
+    {
+      "acc": 0.63887682,
+      "epoch": 0.21790969051243023,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.905276986246804e-06,
+      "loss": 1.68368549,
+      "memory(GiB)": 71.21,
+      "step": 8590,
+      "train_speed(iter/s)": 0.450587
+    },
+    {
+      "acc": 0.64382825,
+      "epoch": 0.2180365296803653,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.905073731225854e-06,
+      "loss": 1.62338028,
+      "memory(GiB)": 71.21,
+      "step": 8595,
+      "train_speed(iter/s)": 0.450727
+    },
+    {
+      "acc": 0.62571907,
+      "epoch": 0.21816336884830034,
+      "grad_norm": 6.0,
+      "learning_rate": 9.904870260457861e-06,
+      "loss": 1.67393875,
+      "memory(GiB)": 71.21,
+      "step": 8600,
+      "train_speed(iter/s)": 0.450866
+    },
+    {
+      "epoch": 0.21816336884830034,
+      "eval_acc": 0.6345434241963306,
+      "eval_loss": 1.6599725484848022,
+      "eval_runtime": 112.8545,
+      "eval_samples_per_second": 56.444,
+      "eval_steps_per_second": 28.222,
+      "step": 8600
+    },
+    {
+      "acc": 0.62467356,
+      "epoch": 0.21829020801623542,
+      "grad_norm": 6.09375,
+      "learning_rate": 9.904666573951777e-06,
+      "loss": 1.73779869,
+      "memory(GiB)": 71.21,
+      "step": 8605,
+      "train_speed(iter/s)": 0.448248
+    },
+    {
+      "acc": 0.63310089,
+      "epoch": 0.21841704718417046,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.904462671716559e-06,
+      "loss": 1.71177025,
+      "memory(GiB)": 71.21,
+      "step": 8610,
+      "train_speed(iter/s)": 0.448386
+    },
+    {
+      "acc": 0.62540512,
+      "epoch": 0.21854388635210553,
+      "grad_norm": 4.875,
+      "learning_rate": 9.904258553761175e-06,
+      "loss": 1.76584167,
+      "memory(GiB)": 71.21,
+      "step": 8615,
+      "train_speed(iter/s)": 0.448525
+    },
+    {
+      "acc": 0.64137201,
+      "epoch": 0.21867072552004058,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.904054220094603e-06,
+      "loss": 1.70458794,
+      "memory(GiB)": 71.21,
+      "step": 8620,
+      "train_speed(iter/s)": 0.448662
+    },
+    {
+      "acc": 0.63665075,
+      "epoch": 0.21879756468797565,
+      "grad_norm": 5.375,
+      "learning_rate": 9.903849670725833e-06,
+      "loss": 1.69028702,
+      "memory(GiB)": 71.21,
+      "step": 8625,
+      "train_speed(iter/s)": 0.448801
+    },
+    {
+      "acc": 0.63703203,
+      "epoch": 0.2189244038559107,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.903644905663861e-06,
+      "loss": 1.65207024,
+      "memory(GiB)": 71.21,
+      "step": 8630,
+      "train_speed(iter/s)": 0.44894
+    },
+    {
+      "acc": 0.64025235,
+      "epoch": 0.21905124302384577,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.90343992491769e-06,
+      "loss": 1.62149334,
+      "memory(GiB)": 71.21,
+      "step": 8635,
+      "train_speed(iter/s)": 0.449077
+    },
+    {
+      "acc": 0.64674225,
+      "epoch": 0.2191780821917808,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.903234728496341e-06,
+      "loss": 1.6584301,
+      "memory(GiB)": 71.21,
+      "step": 8640,
+      "train_speed(iter/s)": 0.449216
+    },
+    {
+      "acc": 0.63305817,
+      "epoch": 0.21930492135971588,
+      "grad_norm": 5.8125,
+      "learning_rate": 9.903029316408838e-06,
+      "loss": 1.74811535,
+      "memory(GiB)": 71.21,
+      "step": 8645,
+      "train_speed(iter/s)": 0.449355
+    },
+    {
+      "acc": 0.65412693,
+      "epoch": 0.21943176052765093,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.902823688664214e-06,
+      "loss": 1.63295174,
+      "memory(GiB)": 71.21,
+      "step": 8650,
+      "train_speed(iter/s)": 0.449494
+    },
+    {
+      "acc": 0.64470105,
+      "epoch": 0.219558599695586,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.902617845271514e-06,
+      "loss": 1.62208443,
+      "memory(GiB)": 71.21,
+      "step": 8655,
+      "train_speed(iter/s)": 0.449631
+    },
+    {
+      "acc": 0.65957475,
+      "epoch": 0.21968543886352104,
+      "grad_norm": 4.875,
+      "learning_rate": 9.902411786239794e-06,
+      "loss": 1.61606712,
+      "memory(GiB)": 71.21,
+      "step": 8660,
+      "train_speed(iter/s)": 0.44977
+    },
+    {
+      "acc": 0.63803854,
+      "epoch": 0.21981227803145612,
+      "grad_norm": 4.75,
+      "learning_rate": 9.902205511578114e-06,
+      "loss": 1.66391106,
+      "memory(GiB)": 71.21,
+      "step": 8665,
+      "train_speed(iter/s)": 0.449909
+    },
+    {
+      "acc": 0.63988657,
+      "epoch": 0.21993911719939116,
+      "grad_norm": 6.1875,
+      "learning_rate": 9.90199902129555e-06,
+      "loss": 1.68073959,
+      "memory(GiB)": 71.21,
+      "step": 8670,
+      "train_speed(iter/s)": 0.450048
+    },
+    {
+      "acc": 0.62764416,
+      "epoch": 0.22006595636732623,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.901792315401184e-06,
+      "loss": 1.72427216,
+      "memory(GiB)": 71.21,
+      "step": 8675,
+      "train_speed(iter/s)": 0.450187
+    },
+    {
+      "acc": 0.64597545,
+      "epoch": 0.22019279553526128,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.901585393904104e-06,
+      "loss": 1.60278053,
+      "memory(GiB)": 71.21,
+      "step": 8680,
+      "train_speed(iter/s)": 0.450324
+    },
+    {
+      "acc": 0.63844781,
+      "epoch": 0.22031963470319635,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.901378256813418e-06,
+      "loss": 1.74130955,
+      "memory(GiB)": 71.21,
+      "step": 8685,
+      "train_speed(iter/s)": 0.450462
+    },
+    {
+      "acc": 0.64623966,
+      "epoch": 0.2204464738711314,
+      "grad_norm": 5.5,
+      "learning_rate": 9.901170904138232e-06,
+      "loss": 1.64620361,
+      "memory(GiB)": 71.21,
+      "step": 8690,
+      "train_speed(iter/s)": 0.450599
+    },
+    {
+      "acc": 0.62689481,
+      "epoch": 0.22057331303906647,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.900963335887667e-06,
+      "loss": 1.77168198,
+      "memory(GiB)": 71.21,
+      "step": 8695,
+      "train_speed(iter/s)": 0.450736
+    },
+    {
+      "acc": 0.64292135,
+      "epoch": 0.2207001522070015,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.900755552070852e-06,
+      "loss": 1.69609146,
+      "memory(GiB)": 71.21,
+      "step": 8700,
+      "train_speed(iter/s)": 0.450873
+    },
+    {
+      "epoch": 0.2207001522070015,
+      "eval_acc": 0.6346411817467436,
+      "eval_loss": 1.65890371799469,
+      "eval_runtime": 113.7787,
+      "eval_samples_per_second": 55.986,
+      "eval_steps_per_second": 27.993,
+      "step": 8700
+    },
+    {
+      "acc": 0.64919968,
+      "epoch": 0.22082699137493658,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.900547552696931e-06,
+      "loss": 1.66205635,
+      "memory(GiB)": 71.21,
+      "step": 8705,
+      "train_speed(iter/s)": 0.448262
+    },
+    {
+      "acc": 0.65390587,
+      "epoch": 0.22095383054287163,
+      "grad_norm": 4.6875,
+      "learning_rate": 9.900339337775046e-06,
+      "loss": 1.71874924,
+      "memory(GiB)": 71.21,
+      "step": 8710,
+      "train_speed(iter/s)": 0.448399
+    },
+    {
+      "acc": 0.64157581,
+      "epoch": 0.2210806697108067,
+      "grad_norm": 5.84375,
+      "learning_rate": 9.90013090731436e-06,
+      "loss": 1.71507683,
+      "memory(GiB)": 71.21,
+      "step": 8715,
+      "train_speed(iter/s)": 0.448537
+    },
+    {
+      "acc": 0.62691565,
+      "epoch": 0.22120750887874174,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.89992226132404e-06,
+      "loss": 1.73959789,
+      "memory(GiB)": 71.21,
+      "step": 8720,
+      "train_speed(iter/s)": 0.448673
+    },
+    {
+      "acc": 0.64337192,
+      "epoch": 0.22133434804667682,
+      "grad_norm": 4.5625,
+      "learning_rate": 9.899713399813261e-06,
+      "loss": 1.63869781,
+      "memory(GiB)": 71.21,
+      "step": 8725,
+      "train_speed(iter/s)": 0.44881
+    },
+    {
+      "acc": 0.64540224,
+      "epoch": 0.22146118721461186,
+      "grad_norm": 5.375,
+      "learning_rate": 9.899504322791212e-06,
+      "loss": 1.6667572,
+      "memory(GiB)": 71.21,
+      "step": 8730,
+      "train_speed(iter/s)": 0.448947
+    },
+    {
+      "acc": 0.64097061,
+      "epoch": 0.22158802638254693,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.899295030267086e-06,
+      "loss": 1.72067375,
+      "memory(GiB)": 71.21,
+      "step": 8735,
+      "train_speed(iter/s)": 0.449083
+    },
+    {
+      "acc": 0.63403368,
+      "epoch": 0.22171486555048198,
+      "grad_norm": 4.875,
+      "learning_rate": 9.899085522250094e-06,
+      "loss": 1.6453619,
+      "memory(GiB)": 71.21,
+      "step": 8740,
+      "train_speed(iter/s)": 0.44922
+    },
+    {
+      "acc": 0.65026455,
+      "epoch": 0.22184170471841705,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.898875798749446e-06,
+      "loss": 1.65235004,
+      "memory(GiB)": 71.21,
+      "step": 8745,
+      "train_speed(iter/s)": 0.449357
+    },
+    {
+      "acc": 0.64297285,
+      "epoch": 0.2219685438863521,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.898665859774367e-06,
+      "loss": 1.70155563,
+      "memory(GiB)": 71.21,
+      "step": 8750,
+      "train_speed(iter/s)": 0.449493
+    },
+    {
+      "acc": 0.64260025,
+      "epoch": 0.22209538305428717,
+      "grad_norm": 6.0625,
+      "learning_rate": 9.898455705334095e-06,
+      "loss": 1.70446529,
+      "memory(GiB)": 71.21,
+      "step": 8755,
+      "train_speed(iter/s)": 0.44963
+    },
+    {
+      "acc": 0.63793778,
+      "epoch": 0.2222222222222222,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.89824533543787e-06,
+      "loss": 1.69004879,
+      "memory(GiB)": 71.21,
+      "step": 8760,
+      "train_speed(iter/s)": 0.449764
+    },
+    {
+      "acc": 0.62443075,
+      "epoch": 0.22234906139015728,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.898034750094946e-06,
+      "loss": 1.70333672,
+      "memory(GiB)": 71.21,
+      "step": 8765,
+      "train_speed(iter/s)": 0.4499
+    },
+    {
+      "acc": 0.64417849,
+      "epoch": 0.22247590055809233,
+      "grad_norm": 6.0,
+      "learning_rate": 9.897823949314586e-06,
+      "loss": 1.73804665,
+      "memory(GiB)": 71.21,
+      "step": 8770,
+      "train_speed(iter/s)": 0.450038
+    },
+    {
+      "acc": 0.6413599,
+      "epoch": 0.2226027397260274,
+      "grad_norm": 5.78125,
+      "learning_rate": 9.897612933106061e-06,
+      "loss": 1.73241959,
+      "memory(GiB)": 71.21,
+      "step": 8775,
+      "train_speed(iter/s)": 0.450174
+    },
+    {
+      "acc": 0.6458806,
+      "epoch": 0.22272957889396244,
+      "grad_norm": 5.0,
+      "learning_rate": 9.897401701478654e-06,
+      "loss": 1.66043892,
+      "memory(GiB)": 71.21,
+      "step": 8780,
+      "train_speed(iter/s)": 0.450311
+    },
+    {
+      "acc": 0.63821559,
+      "epoch": 0.22285641806189752,
+      "grad_norm": 6.09375,
+      "learning_rate": 9.897190254441653e-06,
+      "loss": 1.71675835,
+      "memory(GiB)": 71.21,
+      "step": 8785,
+      "train_speed(iter/s)": 0.450446
+    },
+    {
+      "acc": 0.6251699,
+      "epoch": 0.22298325722983256,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.896978592004363e-06,
+      "loss": 1.69117851,
+      "memory(GiB)": 71.21,
+      "step": 8790,
+      "train_speed(iter/s)": 0.450583
+    },
+    {
+      "acc": 0.63237815,
+      "epoch": 0.22311009639776763,
+      "grad_norm": 5.84375,
+      "learning_rate": 9.896766714176089e-06,
+      "loss": 1.71420631,
+      "memory(GiB)": 71.21,
+      "step": 8795,
+      "train_speed(iter/s)": 0.45072
+    },
+    {
+      "acc": 0.6399663,
+      "epoch": 0.22323693556570268,
+      "grad_norm": 6.0,
+      "learning_rate": 9.896554620966152e-06,
+      "loss": 1.71319427,
+      "memory(GiB)": 71.21,
+      "step": 8800,
+      "train_speed(iter/s)": 0.450858
+    },
+    {
+      "epoch": 0.22323693556570268,
+      "eval_acc": 0.634847976564925,
+      "eval_loss": 1.6580780744552612,
+      "eval_runtime": 113.4003,
+      "eval_samples_per_second": 56.173,
+      "eval_steps_per_second": 28.086,
+      "step": 8800
+    },
+    {
+      "acc": 0.65060911,
+      "epoch": 0.22336377473363775,
+      "grad_norm": 5.96875,
+      "learning_rate": 9.896342312383883e-06,
+      "loss": 1.69036503,
+      "memory(GiB)": 71.21,
+      "step": 8805,
+      "train_speed(iter/s)": 0.448286
+    },
+    {
+      "acc": 0.64468422,
+      "epoch": 0.2234906139015728,
+      "grad_norm": 6.40625,
+      "learning_rate": 9.896129788438617e-06,
+      "loss": 1.67757721,
+      "memory(GiB)": 71.21,
+      "step": 8810,
+      "train_speed(iter/s)": 0.44842
+    },
+    {
+      "acc": 0.65232911,
+      "epoch": 0.22361745306950787,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.895917049139704e-06,
+      "loss": 1.66300545,
+      "memory(GiB)": 71.21,
+      "step": 8815,
+      "train_speed(iter/s)": 0.448553
+    },
+    {
+      "acc": 0.63518257,
+      "epoch": 0.2237442922374429,
+      "grad_norm": 6.59375,
+      "learning_rate": 9.895704094496502e-06,
+      "loss": 1.72634087,
+      "memory(GiB)": 71.21,
+      "step": 8820,
+      "train_speed(iter/s)": 0.448688
+    },
+    {
+      "acc": 0.66409698,
+      "epoch": 0.22387113140537798,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.895490924518372e-06,
+      "loss": 1.61879234,
+      "memory(GiB)": 71.21,
+      "step": 8825,
+      "train_speed(iter/s)": 0.448823
+    },
+    {
+      "acc": 0.6458086,
+      "epoch": 0.22399797057331303,
+      "grad_norm": 4.75,
+      "learning_rate": 9.895277539214698e-06,
+      "loss": 1.57342072,
+      "memory(GiB)": 71.21,
+      "step": 8830,
+      "train_speed(iter/s)": 0.448956
+    },
+    {
+      "acc": 0.63458805,
+      "epoch": 0.2241248097412481,
+      "grad_norm": 5.125,
+      "learning_rate": 9.895063938594859e-06,
+      "loss": 1.71501255,
+      "memory(GiB)": 71.21,
+      "step": 8835,
+      "train_speed(iter/s)": 0.449091
+    },
+    {
+      "acc": 0.63261671,
+      "epoch": 0.22425164890918314,
+      "grad_norm": 4.25,
+      "learning_rate": 9.894850122668256e-06,
+      "loss": 1.71544609,
+      "memory(GiB)": 71.21,
+      "step": 8840,
+      "train_speed(iter/s)": 0.449225
+    },
+    {
+      "acc": 0.64980526,
+      "epoch": 0.22437848807711822,
+      "grad_norm": 4.4375,
+      "learning_rate": 9.89463609144429e-06,
+      "loss": 1.63574715,
+      "memory(GiB)": 71.21,
+      "step": 8845,
+      "train_speed(iter/s)": 0.449359
+    },
+    {
+      "acc": 0.64912205,
+      "epoch": 0.22450532724505326,
+      "grad_norm": 5.5,
+      "learning_rate": 9.894421844932375e-06,
+      "loss": 1.67726002,
+      "memory(GiB)": 71.21,
+      "step": 8850,
+      "train_speed(iter/s)": 0.449493
+    },
+    {
+      "acc": 0.66804757,
+      "epoch": 0.22463216641298833,
+      "grad_norm": 5.5,
+      "learning_rate": 9.894207383141937e-06,
+      "loss": 1.60480156,
+      "memory(GiB)": 71.21,
+      "step": 8855,
+      "train_speed(iter/s)": 0.449628
+    },
+    {
+      "acc": 0.64424849,
+      "epoch": 0.22475900558092338,
+      "grad_norm": 5.96875,
+      "learning_rate": 9.893992706082405e-06,
+      "loss": 1.62976532,
+      "memory(GiB)": 71.21,
+      "step": 8860,
+      "train_speed(iter/s)": 0.449763
+    },
+    {
+      "acc": 0.63582263,
+      "epoch": 0.22488584474885845,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.893777813763223e-06,
+      "loss": 1.69842148,
+      "memory(GiB)": 71.21,
+      "step": 8865,
+      "train_speed(iter/s)": 0.449898
+    },
+    {
+      "acc": 0.63942838,
+      "epoch": 0.2250126839167935,
+      "grad_norm": 7.21875,
+      "learning_rate": 9.893562706193847e-06,
+      "loss": 1.74765472,
+      "memory(GiB)": 71.21,
+      "step": 8870,
+      "train_speed(iter/s)": 0.450033
+    },
+    {
+      "acc": 0.64789085,
+      "epoch": 0.22513952308472857,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.893347383383732e-06,
+      "loss": 1.670755,
+      "memory(GiB)": 71.21,
+      "step": 8875,
+      "train_speed(iter/s)": 0.450168
+    },
+    {
+      "acc": 0.66058598,
+      "epoch": 0.2252663622526636,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.893131845342352e-06,
+      "loss": 1.66837845,
+      "memory(GiB)": 71.21,
+      "step": 8880,
+      "train_speed(iter/s)": 0.450304
+    },
+    {
+      "acc": 0.64740686,
+      "epoch": 0.22539320142059868,
+      "grad_norm": 5.25,
+      "learning_rate": 9.892916092079188e-06,
+      "loss": 1.69717522,
+      "memory(GiB)": 71.21,
+      "step": 8885,
+      "train_speed(iter/s)": 0.450438
+    },
+    {
+      "acc": 0.64078178,
+      "epoch": 0.22552004058853373,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.89270012360373e-06,
+      "loss": 1.71598701,
+      "memory(GiB)": 71.21,
+      "step": 8890,
+      "train_speed(iter/s)": 0.450572
+    },
+    {
+      "acc": 0.65165362,
+      "epoch": 0.2256468797564688,
+      "grad_norm": 5.25,
+      "learning_rate": 9.892483939925476e-06,
+      "loss": 1.6560318,
+      "memory(GiB)": 71.21,
+      "step": 8895,
+      "train_speed(iter/s)": 0.450706
+    },
+    {
+      "acc": 0.63041105,
+      "epoch": 0.22577371892440384,
+      "grad_norm": 6.125,
+      "learning_rate": 9.892267541053933e-06,
+      "loss": 1.69148598,
+      "memory(GiB)": 71.21,
+      "step": 8900,
+      "train_speed(iter/s)": 0.45084
+    },
+    {
+      "epoch": 0.22577371892440384,
+      "eval_acc": 0.6348859933900857,
+      "eval_loss": 1.657177209854126,
+      "eval_runtime": 112.9822,
+      "eval_samples_per_second": 56.381,
+      "eval_steps_per_second": 28.19,
+      "step": 8900
+    },
+    {
+      "acc": 0.64178405,
+      "epoch": 0.22590055809233892,
+      "grad_norm": 5.75,
+      "learning_rate": 9.892050926998624e-06,
+      "loss": 1.64071465,
+      "memory(GiB)": 71.21,
+      "step": 8905,
+      "train_speed(iter/s)": 0.448308
+    },
+    {
+      "acc": 0.63683686,
+      "epoch": 0.22602739726027396,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.891834097769071e-06,
+      "loss": 1.73163795,
+      "memory(GiB)": 71.21,
+      "step": 8910,
+      "train_speed(iter/s)": 0.448442
+    },
+    {
+      "acc": 0.62672396,
+      "epoch": 0.22615423642820903,
+      "grad_norm": 4.6875,
+      "learning_rate": 9.891617053374816e-06,
+      "loss": 1.75903835,
+      "memory(GiB)": 71.21,
+      "step": 8915,
+      "train_speed(iter/s)": 0.448574
+    },
+    {
+      "acc": 0.6349349,
+      "epoch": 0.22628107559614408,
+      "grad_norm": 5.375,
+      "learning_rate": 9.891399793825403e-06,
+      "loss": 1.68106956,
+      "memory(GiB)": 71.21,
+      "step": 8920,
+      "train_speed(iter/s)": 0.448709
+    },
+    {
+      "acc": 0.64478931,
+      "epoch": 0.22640791476407915,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.891182319130387e-06,
+      "loss": 1.74965858,
+      "memory(GiB)": 71.21,
+      "step": 8925,
+      "train_speed(iter/s)": 0.448844
+    },
+    {
+      "acc": 0.64513016,
+      "epoch": 0.2265347539320142,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.890964629299336e-06,
+      "loss": 1.72498131,
+      "memory(GiB)": 71.21,
+      "step": 8930,
+      "train_speed(iter/s)": 0.448978
+    },
+    {
+      "acc": 0.63588705,
+      "epoch": 0.22666159309994927,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.890746724341825e-06,
+      "loss": 1.72935143,
+      "memory(GiB)": 71.21,
+      "step": 8935,
+      "train_speed(iter/s)": 0.44911
+    },
+    {
+      "acc": 0.64235659,
+      "epoch": 0.2267884322678843,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.890528604267436e-06,
+      "loss": 1.61256599,
+      "memory(GiB)": 71.21,
+      "step": 8940,
+      "train_speed(iter/s)": 0.449242
+    },
+    {
+      "acc": 0.65340319,
+      "epoch": 0.22691527143581938,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.890310269085765e-06,
+      "loss": 1.64577961,
+      "memory(GiB)": 71.21,
+      "step": 8945,
+      "train_speed(iter/s)": 0.449376
+    },
+    {
+      "acc": 0.62669792,
+      "epoch": 0.22704211060375443,
+      "grad_norm": 5.25,
+      "learning_rate": 9.890091718806414e-06,
+      "loss": 1.73854828,
+      "memory(GiB)": 71.21,
+      "step": 8950,
+      "train_speed(iter/s)": 0.449508
+    },
+    {
+      "acc": 0.6441967,
+      "epoch": 0.2271689497716895,
+      "grad_norm": 6.0,
+      "learning_rate": 9.889872953438996e-06,
+      "loss": 1.69498367,
+      "memory(GiB)": 71.21,
+      "step": 8955,
+      "train_speed(iter/s)": 0.44964
+    },
+    {
+      "acc": 0.63234682,
+      "epoch": 0.22729578893962454,
+      "grad_norm": 6.375,
+      "learning_rate": 9.889653972993136e-06,
+      "loss": 1.69548874,
+      "memory(GiB)": 71.21,
+      "step": 8960,
+      "train_speed(iter/s)": 0.449773
+    },
+    {
+      "acc": 0.64013309,
+      "epoch": 0.22742262810755962,
+      "grad_norm": 5.125,
+      "learning_rate": 9.889434777478464e-06,
+      "loss": 1.68811188,
+      "memory(GiB)": 71.21,
+      "step": 8965,
+      "train_speed(iter/s)": 0.449907
+    },
+    {
+      "acc": 0.64788342,
+      "epoch": 0.22754946727549466,
+      "grad_norm": 5.125,
+      "learning_rate": 9.88921536690462e-06,
+      "loss": 1.67843094,
+      "memory(GiB)": 71.21,
+      "step": 8970,
+      "train_speed(iter/s)": 0.450039
+    },
+    {
+      "acc": 0.62794642,
+      "epoch": 0.22767630644342973,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.888995741281252e-06,
+      "loss": 1.76861305,
+      "memory(GiB)": 71.21,
+      "step": 8975,
+      "train_speed(iter/s)": 0.450172
+    },
+    {
+      "acc": 0.64210501,
+      "epoch": 0.22780314561136478,
+      "grad_norm": 5.5,
+      "learning_rate": 9.888775900618028e-06,
+      "loss": 1.63038273,
+      "memory(GiB)": 71.21,
+      "step": 8980,
+      "train_speed(iter/s)": 0.450305
+    },
+    {
+      "acc": 0.6400279,
+      "epoch": 0.22792998477929985,
+      "grad_norm": 5.75,
+      "learning_rate": 9.88855584492461e-06,
+      "loss": 1.6897522,
+      "memory(GiB)": 71.21,
+      "step": 8985,
+      "train_speed(iter/s)": 0.450437
+    },
+    {
+      "acc": 0.63977609,
+      "epoch": 0.2280568239472349,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.888335574210681e-06,
+      "loss": 1.69920502,
+      "memory(GiB)": 71.21,
+      "step": 8990,
+      "train_speed(iter/s)": 0.450568
+    },
+    {
+      "acc": 0.6471415,
+      "epoch": 0.22818366311516997,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.888115088485931e-06,
+      "loss": 1.57227955,
+      "memory(GiB)": 71.21,
+      "step": 8995,
+      "train_speed(iter/s)": 0.450699
+    },
+    {
+      "acc": 0.64659061,
+      "epoch": 0.228310502283105,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.887894387760053e-06,
+      "loss": 1.67709599,
+      "memory(GiB)": 71.21,
+      "step": 9000,
+      "train_speed(iter/s)": 0.450831
+    },
+    {
+      "epoch": 0.228310502283105,
+      "eval_acc": 0.6350518470119402,
+      "eval_loss": 1.656386137008667,
+      "eval_runtime": 114.2974,
+      "eval_samples_per_second": 55.732,
+      "eval_steps_per_second": 27.866,
+      "step": 9000
+    },
+    {
+      "acc": 0.64150748,
+      "epoch": 0.22843734145104008,
+      "grad_norm": 6.25,
+      "learning_rate": 9.887673472042757e-06,
+      "loss": 1.6895256,
+      "memory(GiB)": 71.21,
+      "step": 9005,
+      "train_speed(iter/s)": 0.448296
+    },
+    {
+      "acc": 0.64918518,
+      "epoch": 0.22856418061897513,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.88745234134376e-06,
+      "loss": 1.68153152,
+      "memory(GiB)": 71.21,
+      "step": 9010,
+      "train_speed(iter/s)": 0.448428
+    },
+    {
+      "acc": 0.63698549,
+      "epoch": 0.2286910197869102,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.887230995672789e-06,
+      "loss": 1.68130035,
+      "memory(GiB)": 71.21,
+      "step": 9015,
+      "train_speed(iter/s)": 0.448558
+    },
+    {
+      "acc": 0.64020567,
+      "epoch": 0.22881785895484524,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.887009435039578e-06,
+      "loss": 1.61104927,
+      "memory(GiB)": 71.21,
+      "step": 9020,
+      "train_speed(iter/s)": 0.448689
+    },
+    {
+      "acc": 0.63508744,
+      "epoch": 0.22894469812278032,
+      "grad_norm": 5.78125,
+      "learning_rate": 9.886787659453873e-06,
+      "loss": 1.66029129,
+      "memory(GiB)": 71.21,
+      "step": 9025,
+      "train_speed(iter/s)": 0.44882
+    },
+    {
+      "acc": 0.63999081,
+      "epoch": 0.22907153729071536,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.886565668925429e-06,
+      "loss": 1.6706646,
+      "memory(GiB)": 71.21,
+      "step": 9030,
+      "train_speed(iter/s)": 0.448949
+    },
+    {
+      "acc": 0.64018488,
+      "epoch": 0.22919837645865043,
+      "grad_norm": 6.375,
+      "learning_rate": 9.88634346346401e-06,
+      "loss": 1.70037613,
+      "memory(GiB)": 71.21,
+      "step": 9035,
+      "train_speed(iter/s)": 0.44908
+    },
+    {
+      "acc": 0.63816729,
+      "epoch": 0.22932521562658548,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.88612104307939e-06,
+      "loss": 1.64146347,
+      "memory(GiB)": 71.21,
+      "step": 9040,
+      "train_speed(iter/s)": 0.449211
+    },
+    {
+      "acc": 0.6534162,
+      "epoch": 0.22945205479452055,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.885898407781352e-06,
+      "loss": 1.62353325,
+      "memory(GiB)": 71.21,
+      "step": 9045,
+      "train_speed(iter/s)": 0.449342
+    },
+    {
+      "acc": 0.64851255,
+      "epoch": 0.2295788939624556,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.885675557579686e-06,
+      "loss": 1.75118752,
+      "memory(GiB)": 71.21,
+      "step": 9050,
+      "train_speed(iter/s)": 0.449473
+    },
+    {
+      "acc": 0.64811354,
+      "epoch": 0.22970573313039067,
+      "grad_norm": 5.6875,
+      "learning_rate": 9.885452492484198e-06,
+      "loss": 1.57105618,
+      "memory(GiB)": 71.21,
+      "step": 9055,
+      "train_speed(iter/s)": 0.449604
+    },
+    {
+      "acc": 0.64184046,
+      "epoch": 0.2298325722983257,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.885229212504697e-06,
+      "loss": 1.67570992,
+      "memory(GiB)": 71.21,
+      "step": 9060,
+      "train_speed(iter/s)": 0.449735
+    },
+    {
+      "acc": 0.63943548,
+      "epoch": 0.22995941146626078,
+      "grad_norm": 4.59375,
+      "learning_rate": 9.885005717651002e-06,
+      "loss": 1.63892593,
+      "memory(GiB)": 71.21,
+      "step": 9065,
+      "train_speed(iter/s)": 0.449864
+    },
+    {
+      "acc": 0.64715137,
+      "epoch": 0.23008625063419583,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.88478200793295e-06,
+      "loss": 1.6347887,
+      "memory(GiB)": 71.21,
+      "step": 9070,
+      "train_speed(iter/s)": 0.449994
+    },
+    {
+      "acc": 0.64410233,
+      "epoch": 0.2302130898021309,
+      "grad_norm": 5.25,
+      "learning_rate": 9.884558083360372e-06,
+      "loss": 1.63467331,
+      "memory(GiB)": 71.21,
+      "step": 9075,
+      "train_speed(iter/s)": 0.450125
+    },
+    {
+      "acc": 0.65830746,
+      "epoch": 0.23033992897006594,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.884333943943123e-06,
+      "loss": 1.56917982,
+      "memory(GiB)": 71.21,
+      "step": 9080,
+      "train_speed(iter/s)": 0.450254
+    },
+    {
+      "acc": 0.64271107,
+      "epoch": 0.23046676813800102,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.884109589691062e-06,
+      "loss": 1.69438782,
+      "memory(GiB)": 71.21,
+      "step": 9085,
+      "train_speed(iter/s)": 0.450386
+    },
+    {
+      "acc": 0.6374619,
+      "epoch": 0.23059360730593606,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.883885020614052e-06,
+      "loss": 1.71255112,
+      "memory(GiB)": 71.21,
+      "step": 9090,
+      "train_speed(iter/s)": 0.450518
+    },
+    {
+      "acc": 0.66035328,
+      "epoch": 0.23072044647387113,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.883660236721977e-06,
+      "loss": 1.57349663,
+      "memory(GiB)": 71.21,
+      "step": 9095,
+      "train_speed(iter/s)": 0.450648
+    },
+    {
+      "acc": 0.63642597,
+      "epoch": 0.23084728564180618,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.883435238024718e-06,
+      "loss": 1.67853546,
+      "memory(GiB)": 71.21,
+      "step": 9100,
+      "train_speed(iter/s)": 0.450778
+    },
+    {
+      "epoch": 0.23084728564180618,
+      "eval_acc": 0.6351416669834735,
+      "eval_loss": 1.6557594537734985,
+      "eval_runtime": 113.1007,
+      "eval_samples_per_second": 56.321,
+      "eval_steps_per_second": 28.161,
+      "step": 9100
+    },
+    {
+      "acc": 0.65952053,
+      "epoch": 0.23097412480974125,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.883210024532176e-06,
+      "loss": 1.61474571,
+      "memory(GiB)": 71.21,
+      "step": 9105,
+      "train_speed(iter/s)": 0.448299
+    },
+    {
+      "acc": 0.65104585,
+      "epoch": 0.2311009639776763,
+      "grad_norm": 5.6875,
+      "learning_rate": 9.882984596254255e-06,
+      "loss": 1.67403049,
+      "memory(GiB)": 71.21,
+      "step": 9110,
+      "train_speed(iter/s)": 0.44843
+    },
+    {
+      "acc": 0.64161625,
+      "epoch": 0.23122780314561137,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.88275895320087e-06,
+      "loss": 1.70848083,
+      "memory(GiB)": 71.21,
+      "step": 9115,
+      "train_speed(iter/s)": 0.448561
+    },
+    {
+      "acc": 0.6435461,
+      "epoch": 0.2313546423135464,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.882533095381947e-06,
+      "loss": 1.64648685,
+      "memory(GiB)": 71.21,
+      "step": 9120,
+      "train_speed(iter/s)": 0.448692
+    },
+    {
+      "acc": 0.62880745,
+      "epoch": 0.23148148148148148,
+      "grad_norm": 7.0,
+      "learning_rate": 9.882307022807419e-06,
+      "loss": 1.66570415,
+      "memory(GiB)": 71.21,
+      "step": 9125,
+      "train_speed(iter/s)": 0.448822
+    },
+    {
+      "acc": 0.63962955,
+      "epoch": 0.23160832064941653,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.88208073548723e-06,
+      "loss": 1.73283863,
+      "memory(GiB)": 71.21,
+      "step": 9130,
+      "train_speed(iter/s)": 0.44895
+    },
+    {
+      "acc": 0.64338145,
+      "epoch": 0.2317351598173516,
+      "grad_norm": 4.625,
+      "learning_rate": 9.881854233431333e-06,
+      "loss": 1.68782501,
+      "memory(GiB)": 71.21,
+      "step": 9135,
+      "train_speed(iter/s)": 0.449078
+    },
+    {
+      "acc": 0.64351912,
+      "epoch": 0.23186199898528664,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.881627516649692e-06,
+      "loss": 1.66155205,
+      "memory(GiB)": 71.21,
+      "step": 9140,
+      "train_speed(iter/s)": 0.449207
+    },
+    {
+      "acc": 0.62770853,
+      "epoch": 0.23198883815322172,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.881400585152278e-06,
+      "loss": 1.75321198,
+      "memory(GiB)": 71.21,
+      "step": 9145,
+      "train_speed(iter/s)": 0.449337
+    },
+    {
+      "acc": 0.65417624,
+      "epoch": 0.23211567732115676,
+      "grad_norm": 4.5625,
+      "learning_rate": 9.881173438949072e-06,
+      "loss": 1.67187366,
+      "memory(GiB)": 71.21,
+      "step": 9150,
+      "train_speed(iter/s)": 0.449464
+    },
+    {
+      "acc": 0.65229292,
+      "epoch": 0.23224251648909183,
+      "grad_norm": 4.75,
+      "learning_rate": 9.880946078050064e-06,
+      "loss": 1.63622475,
+      "memory(GiB)": 71.21,
+      "step": 9155,
+      "train_speed(iter/s)": 0.449593
+    },
+    {
+      "acc": 0.62765646,
+      "epoch": 0.23236935565702688,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.880718502465258e-06,
+      "loss": 1.74452744,
+      "memory(GiB)": 71.21,
+      "step": 9160,
+      "train_speed(iter/s)": 0.449722
+    },
+    {
+      "acc": 0.62743311,
+      "epoch": 0.23249619482496195,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.88049071220466e-06,
+      "loss": 1.72903748,
+      "memory(GiB)": 71.21,
+      "step": 9165,
+      "train_speed(iter/s)": 0.449851
+    },
+    {
+      "acc": 0.64528837,
+      "epoch": 0.232623033992897,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.88026270727829e-06,
+      "loss": 1.65912437,
+      "memory(GiB)": 71.21,
+      "step": 9170,
+      "train_speed(iter/s)": 0.449979
+    },
+    {
+      "acc": 0.6376646,
+      "epoch": 0.23274987316083207,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.880034487696179e-06,
+      "loss": 1.65191498,
+      "memory(GiB)": 71.21,
+      "step": 9175,
+      "train_speed(iter/s)": 0.450107
+    },
+    {
+      "acc": 0.63751621,
+      "epoch": 0.2328767123287671,
+      "grad_norm": 7.34375,
+      "learning_rate": 9.879806053468361e-06,
+      "loss": 1.6735714,
+      "memory(GiB)": 71.21,
+      "step": 9180,
+      "train_speed(iter/s)": 0.450236
+    },
+    {
+      "acc": 0.63770809,
+      "epoch": 0.23300355149670218,
+      "grad_norm": 4.53125,
+      "learning_rate": 9.879577404604889e-06,
+      "loss": 1.66351414,
+      "memory(GiB)": 71.21,
+      "step": 9185,
+      "train_speed(iter/s)": 0.450365
+    },
+    {
+      "acc": 0.6309947,
+      "epoch": 0.23313039066463723,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.879348541115816e-06,
+      "loss": 1.67180634,
+      "memory(GiB)": 71.21,
+      "step": 9190,
+      "train_speed(iter/s)": 0.450492
+    },
+    {
+      "acc": 0.63793411,
+      "epoch": 0.2332572298325723,
+      "grad_norm": 4.375,
+      "learning_rate": 9.879119463011208e-06,
+      "loss": 1.6578392,
+      "memory(GiB)": 71.21,
+      "step": 9195,
+      "train_speed(iter/s)": 0.450621
+    },
+    {
+      "acc": 0.65422168,
+      "epoch": 0.23338406900050734,
+      "grad_norm": 5.125,
+      "learning_rate": 9.878890170301143e-06,
+      "loss": 1.6297781,
+      "memory(GiB)": 71.21,
+      "step": 9200,
+      "train_speed(iter/s)": 0.45075
+    },
+    {
+      "epoch": 0.23338406900050734,
+      "eval_acc": 0.6352903921456403,
+      "eval_loss": 1.654702067375183,
+      "eval_runtime": 113.2272,
+      "eval_samples_per_second": 56.259,
+      "eval_steps_per_second": 28.129,
+      "step": 9200
+    },
+    {
+      "acc": 0.65784197,
+      "epoch": 0.23351090816844242,
+      "grad_norm": 4.4375,
+      "learning_rate": 9.878660662995706e-06,
+      "loss": 1.60854683,
+      "memory(GiB)": 71.21,
+      "step": 9205,
+      "train_speed(iter/s)": 0.448293
+    },
+    {
+      "acc": 0.64525433,
+      "epoch": 0.23363774733637746,
+      "grad_norm": 6.4375,
+      "learning_rate": 9.878430941104991e-06,
+      "loss": 1.69421883,
+      "memory(GiB)": 71.21,
+      "step": 9210,
+      "train_speed(iter/s)": 0.44842
+    },
+    {
+      "acc": 0.641152,
+      "epoch": 0.23376458650431253,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.878201004639104e-06,
+      "loss": 1.72842541,
+      "memory(GiB)": 71.21,
+      "step": 9215,
+      "train_speed(iter/s)": 0.448548
+    },
+    {
+      "acc": 0.6653368,
+      "epoch": 0.23389142567224758,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.877970853608156e-06,
+      "loss": 1.61517982,
+      "memory(GiB)": 71.21,
+      "step": 9220,
+      "train_speed(iter/s)": 0.448675
+    },
+    {
+      "acc": 0.64513693,
+      "epoch": 0.23401826484018265,
+      "grad_norm": 5.78125,
+      "learning_rate": 9.87774048802227e-06,
+      "loss": 1.67071304,
+      "memory(GiB)": 71.21,
+      "step": 9225,
+      "train_speed(iter/s)": 0.448802
+    },
+    {
+      "acc": 0.63552632,
+      "epoch": 0.2341451040081177,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.877509907891583e-06,
+      "loss": 1.6041235,
+      "memory(GiB)": 71.21,
+      "step": 9230,
+      "train_speed(iter/s)": 0.448929
+    },
+    {
+      "acc": 0.65549068,
+      "epoch": 0.23427194317605277,
+      "grad_norm": 5.125,
+      "learning_rate": 9.877279113226232e-06,
+      "loss": 1.5990778,
+      "memory(GiB)": 71.21,
+      "step": 9235,
+      "train_speed(iter/s)": 0.449056
+    },
+    {
+      "acc": 0.64702358,
+      "epoch": 0.2343987823439878,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.87704810403637e-06,
+      "loss": 1.62338562,
+      "memory(GiB)": 71.21,
+      "step": 9240,
+      "train_speed(iter/s)": 0.449182
+    },
+    {
+      "acc": 0.63972073,
+      "epoch": 0.23452562151192288,
+      "grad_norm": 5.125,
+      "learning_rate": 9.876816880332157e-06,
+      "loss": 1.69598198,
+      "memory(GiB)": 71.21,
+      "step": 9245,
+      "train_speed(iter/s)": 0.449309
+    },
+    {
+      "acc": 0.64490156,
+      "epoch": 0.23465246067985793,
+      "grad_norm": 4.15625,
+      "learning_rate": 9.876585442123765e-06,
+      "loss": 1.67653465,
+      "memory(GiB)": 71.21,
+      "step": 9250,
+      "train_speed(iter/s)": 0.449435
+    },
+    {
+      "acc": 0.64251409,
+      "epoch": 0.234779299847793,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.876353789421373e-06,
+      "loss": 1.73206291,
+      "memory(GiB)": 71.21,
+      "step": 9255,
+      "train_speed(iter/s)": 0.449562
+    },
+    {
+      "acc": 0.63710775,
+      "epoch": 0.23490613901572804,
+      "grad_norm": 6.875,
+      "learning_rate": 9.876121922235171e-06,
+      "loss": 1.75852489,
+      "memory(GiB)": 71.21,
+      "step": 9260,
+      "train_speed(iter/s)": 0.449688
+    },
+    {
+      "acc": 0.64012041,
+      "epoch": 0.23503297818366312,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.875889840575356e-06,
+      "loss": 1.73697338,
+      "memory(GiB)": 71.21,
+      "step": 9265,
+      "train_speed(iter/s)": 0.449816
+    },
+    {
+      "acc": 0.63503313,
+      "epoch": 0.23515981735159816,
+      "grad_norm": 4.59375,
+      "learning_rate": 9.875657544452135e-06,
+      "loss": 1.67308979,
+      "memory(GiB)": 71.21,
+      "step": 9270,
+      "train_speed(iter/s)": 0.449942
+    },
+    {
+      "acc": 0.62886133,
+      "epoch": 0.23528665651953323,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.875425033875728e-06,
+      "loss": 1.70906258,
+      "memory(GiB)": 71.21,
+      "step": 9275,
+      "train_speed(iter/s)": 0.450069
+    },
+    {
+      "acc": 0.65527387,
+      "epoch": 0.23541349568746828,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.875192308856363e-06,
+      "loss": 1.65108147,
+      "memory(GiB)": 71.21,
+      "step": 9280,
+      "train_speed(iter/s)": 0.450195
+    },
+    {
+      "acc": 0.65551763,
+      "epoch": 0.23554033485540335,
+      "grad_norm": 5.84375,
+      "learning_rate": 9.87495936940427e-06,
+      "loss": 1.60943241,
+      "memory(GiB)": 71.21,
+      "step": 9285,
+      "train_speed(iter/s)": 0.450322
+    },
+    {
+      "acc": 0.62830639,
+      "epoch": 0.2356671740233384,
+      "grad_norm": 5.375,
+      "learning_rate": 9.874726215529702e-06,
+      "loss": 1.7238945,
+      "memory(GiB)": 71.21,
+      "step": 9290,
+      "train_speed(iter/s)": 0.45045
+    },
+    {
+      "acc": 0.64427629,
+      "epoch": 0.23579401319127347,
+      "grad_norm": 6.03125,
+      "learning_rate": 9.87449284724291e-06,
+      "loss": 1.62295799,
+      "memory(GiB)": 71.21,
+      "step": 9295,
+      "train_speed(iter/s)": 0.450576
+    },
+    {
+      "acc": 0.6435245,
+      "epoch": 0.2359208523592085,
+      "grad_norm": 5.25,
+      "learning_rate": 9.874259264554159e-06,
+      "loss": 1.70718803,
+      "memory(GiB)": 71.21,
+      "step": 9300,
+      "train_speed(iter/s)": 0.450702
+    },
+    {
+      "epoch": 0.2359208523592085,
+      "eval_acc": 0.6354466371193774,
+      "eval_loss": 1.6541646718978882,
+      "eval_runtime": 113.6514,
+      "eval_samples_per_second": 56.049,
+      "eval_steps_per_second": 28.024,
+      "step": 9300
+    },
+    {
+      "acc": 0.65446739,
+      "epoch": 0.23604769152714358,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.874025467473722e-06,
+      "loss": 1.58965683,
+      "memory(GiB)": 71.21,
+      "step": 9305,
+      "train_speed(iter/s)": 0.448263
+    },
+    {
+      "acc": 0.62812486,
+      "epoch": 0.23617453069507863,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.873791456011887e-06,
+      "loss": 1.70619049,
+      "memory(GiB)": 71.21,
+      "step": 9310,
+      "train_speed(iter/s)": 0.448389
+    },
+    {
+      "acc": 0.64351168,
+      "epoch": 0.2363013698630137,
+      "grad_norm": 6.0625,
+      "learning_rate": 9.873557230178942e-06,
+      "loss": 1.66674194,
+      "memory(GiB)": 71.21,
+      "step": 9315,
+      "train_speed(iter/s)": 0.448514
+    },
+    {
+      "acc": 0.64316278,
+      "epoch": 0.23642820903094874,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.873322789985191e-06,
+      "loss": 1.64037819,
+      "memory(GiB)": 71.21,
+      "step": 9320,
+      "train_speed(iter/s)": 0.448639
+    },
+    {
+      "acc": 0.63499861,
+      "epoch": 0.23655504819888382,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.873088135440949e-06,
+      "loss": 1.72765312,
+      "memory(GiB)": 71.21,
+      "step": 9325,
+      "train_speed(iter/s)": 0.448764
+    },
+    {
+      "acc": 0.61725483,
+      "epoch": 0.23668188736681886,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.87285326655653e-06,
+      "loss": 1.74182358,
+      "memory(GiB)": 71.21,
+      "step": 9330,
+      "train_speed(iter/s)": 0.448889
+    },
+    {
+      "acc": 0.64406857,
+      "epoch": 0.23680872653475393,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.87261818334227e-06,
+      "loss": 1.64370708,
+      "memory(GiB)": 71.21,
+      "step": 9335,
+      "train_speed(iter/s)": 0.449015
+    },
+    {
+      "acc": 0.62091289,
+      "epoch": 0.23693556570268898,
+      "grad_norm": 5.375,
+      "learning_rate": 9.87238288580851e-06,
+      "loss": 1.75851574,
+      "memory(GiB)": 71.21,
+      "step": 9340,
+      "train_speed(iter/s)": 0.44914
+    },
+    {
+      "acc": 0.64080849,
+      "epoch": 0.23706240487062405,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.872147373965594e-06,
+      "loss": 1.68316193,
+      "memory(GiB)": 71.21,
+      "step": 9345,
+      "train_speed(iter/s)": 0.449266
+    },
+    {
+      "acc": 0.63035998,
+      "epoch": 0.2371892440385591,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.871911647823884e-06,
+      "loss": 1.78609562,
+      "memory(GiB)": 71.21,
+      "step": 9350,
+      "train_speed(iter/s)": 0.449392
+    },
+    {
+      "acc": 0.64652686,
+      "epoch": 0.23731608320649417,
+      "grad_norm": 4.34375,
+      "learning_rate": 9.871675707393749e-06,
+      "loss": 1.65325546,
+      "memory(GiB)": 71.21,
+      "step": 9355,
+      "train_speed(iter/s)": 0.449518
+    },
+    {
+      "acc": 0.64698601,
+      "epoch": 0.2374429223744292,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.871439552685566e-06,
+      "loss": 1.68890839,
+      "memory(GiB)": 71.21,
+      "step": 9360,
+      "train_speed(iter/s)": 0.449644
+    },
+    {
+      "acc": 0.64148483,
+      "epoch": 0.23756976154236428,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.871203183709723e-06,
+      "loss": 1.68862762,
+      "memory(GiB)": 71.21,
+      "step": 9365,
+      "train_speed(iter/s)": 0.44977
+    },
+    {
+      "acc": 0.6490633,
+      "epoch": 0.23769660071029933,
+      "grad_norm": 5.96875,
+      "learning_rate": 9.870966600476614e-06,
+      "loss": 1.64669571,
+      "memory(GiB)": 71.21,
+      "step": 9370,
+      "train_speed(iter/s)": 0.449897
+    },
+    {
+      "acc": 0.65917749,
+      "epoch": 0.2378234398782344,
+      "grad_norm": 5.71875,
+      "learning_rate": 9.870729802996647e-06,
+      "loss": 1.68023338,
+      "memory(GiB)": 71.21,
+      "step": 9375,
+      "train_speed(iter/s)": 0.450022
+    },
+    {
+      "acc": 0.63755732,
+      "epoch": 0.23795027904616944,
+      "grad_norm": 6.03125,
+      "learning_rate": 9.870492791280239e-06,
+      "loss": 1.6498703,
+      "memory(GiB)": 71.21,
+      "step": 9380,
+      "train_speed(iter/s)": 0.450149
+    },
+    {
+      "acc": 0.63591413,
+      "epoch": 0.23807711821410452,
+      "grad_norm": 8.25,
+      "learning_rate": 9.87025556533781e-06,
+      "loss": 1.66962547,
+      "memory(GiB)": 71.21,
+      "step": 9385,
+      "train_speed(iter/s)": 0.450274
+    },
+    {
+      "acc": 0.67321892,
+      "epoch": 0.23820395738203956,
+      "grad_norm": 5.625,
+      "learning_rate": 9.870018125179799e-06,
+      "loss": 1.56504402,
+      "memory(GiB)": 71.21,
+      "step": 9390,
+      "train_speed(iter/s)": 0.4504
+    },
+    {
+      "acc": 0.65984888,
+      "epoch": 0.23833079654997463,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.869780470816647e-06,
+      "loss": 1.55633698,
+      "memory(GiB)": 71.21,
+      "step": 9395,
+      "train_speed(iter/s)": 0.450526
+    },
+    {
+      "acc": 0.65697632,
+      "epoch": 0.23845763571790968,
+      "grad_norm": 4.21875,
+      "learning_rate": 9.869542602258809e-06,
+      "loss": 1.60326118,
+      "memory(GiB)": 71.21,
+      "step": 9400,
+      "train_speed(iter/s)": 0.45065
+    },
+    {
+      "epoch": 0.23845763571790968,
+      "eval_acc": 0.635622517156659,
+      "eval_loss": 1.6531695127487183,
+      "eval_runtime": 113.5957,
+      "eval_samples_per_second": 56.076,
+      "eval_steps_per_second": 28.038,
+      "step": 9400
+    },
+    {
+      "acc": 0.63990774,
+      "epoch": 0.23858447488584475,
+      "grad_norm": 6.28125,
+      "learning_rate": 9.869304519516745e-06,
+      "loss": 1.75399323,
+      "memory(GiB)": 71.21,
+      "step": 9405,
+      "train_speed(iter/s)": 0.448239
+    },
+    {
+      "acc": 0.64788933,
+      "epoch": 0.2387113140537798,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.869066222600928e-06,
+      "loss": 1.70030308,
+      "memory(GiB)": 71.21,
+      "step": 9410,
+      "train_speed(iter/s)": 0.448365
+    },
+    {
+      "acc": 0.63833828,
+      "epoch": 0.23883815322171487,
+      "grad_norm": 4.59375,
+      "learning_rate": 9.86882771152184e-06,
+      "loss": 1.68622322,
+      "memory(GiB)": 71.21,
+      "step": 9415,
+      "train_speed(iter/s)": 0.448491
+    },
+    {
+      "acc": 0.63343077,
+      "epoch": 0.2389649923896499,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.868588986289973e-06,
+      "loss": 1.78013668,
+      "memory(GiB)": 71.21,
+      "step": 9420,
+      "train_speed(iter/s)": 0.448618
+    },
+    {
+      "acc": 0.62793851,
+      "epoch": 0.23909183155758498,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.868350046915825e-06,
+      "loss": 1.74199944,
+      "memory(GiB)": 71.21,
+      "step": 9425,
+      "train_speed(iter/s)": 0.448745
+    },
+    {
+      "acc": 0.63901939,
+      "epoch": 0.23921867072552003,
+      "grad_norm": 5.875,
+      "learning_rate": 9.868110893409906e-06,
+      "loss": 1.74208241,
+      "memory(GiB)": 71.21,
+      "step": 9430,
+      "train_speed(iter/s)": 0.448871
+    },
+    {
+      "acc": 0.66115327,
+      "epoch": 0.2393455098934551,
+      "grad_norm": 5.875,
+      "learning_rate": 9.867871525782735e-06,
+      "loss": 1.6152317,
+      "memory(GiB)": 71.21,
+      "step": 9435,
+      "train_speed(iter/s)": 0.448998
+    },
+    {
+      "acc": 0.64950633,
+      "epoch": 0.23947234906139014,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.86763194404484e-06,
+      "loss": 1.65739822,
+      "memory(GiB)": 71.21,
+      "step": 9440,
+      "train_speed(iter/s)": 0.449126
+    },
+    {
+      "acc": 0.62799082,
+      "epoch": 0.23959918822932522,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.867392148206762e-06,
+      "loss": 1.73607903,
+      "memory(GiB)": 71.21,
+      "step": 9445,
+      "train_speed(iter/s)": 0.449253
+    },
+    {
+      "acc": 0.64420195,
+      "epoch": 0.23972602739726026,
+      "grad_norm": 6.15625,
+      "learning_rate": 9.867152138279043e-06,
+      "loss": 1.67406158,
+      "memory(GiB)": 71.21,
+      "step": 9450,
+      "train_speed(iter/s)": 0.44938
+    },
+    {
+      "acc": 0.64051237,
+      "epoch": 0.23985286656519533,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.866911914272246e-06,
+      "loss": 1.66110554,
+      "memory(GiB)": 71.21,
+      "step": 9455,
+      "train_speed(iter/s)": 0.449506
+    },
+    {
+      "acc": 0.64643135,
+      "epoch": 0.23997970573313038,
+      "grad_norm": 5.125,
+      "learning_rate": 9.866671476196931e-06,
+      "loss": 1.6352808,
+      "memory(GiB)": 71.21,
+      "step": 9460,
+      "train_speed(iter/s)": 0.449633
+    },
+    {
+      "acc": 0.65710506,
+      "epoch": 0.24010654490106545,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.866430824063678e-06,
+      "loss": 1.61370506,
+      "memory(GiB)": 71.21,
+      "step": 9465,
+      "train_speed(iter/s)": 0.44976
+    },
+    {
+      "acc": 0.65134134,
+      "epoch": 0.2402333840690005,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.86618995788307e-06,
+      "loss": 1.61107235,
+      "memory(GiB)": 84.18,
+      "step": 9470,
+      "train_speed(iter/s)": 0.449886
+    },
+    {
+      "acc": 0.62410879,
+      "epoch": 0.24036022323693557,
+      "grad_norm": 6.0,
+      "learning_rate": 9.865948877665702e-06,
+      "loss": 1.69452362,
+      "memory(GiB)": 84.18,
+      "step": 9475,
+      "train_speed(iter/s)": 0.450013
+    },
+    {
+      "acc": 0.64340334,
+      "epoch": 0.2404870624048706,
+      "grad_norm": 5.9375,
+      "learning_rate": 9.865707583422178e-06,
+      "loss": 1.71322784,
+      "memory(GiB)": 84.18,
+      "step": 9480,
+      "train_speed(iter/s)": 0.45014
+    },
+    {
+      "acc": 0.63803396,
+      "epoch": 0.24061390157280568,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.865466075163108e-06,
+      "loss": 1.69009895,
+      "memory(GiB)": 84.18,
+      "step": 9485,
+      "train_speed(iter/s)": 0.450266
+    },
+    {
+      "acc": 0.65077553,
+      "epoch": 0.24074074074074073,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.86522435289912e-06,
+      "loss": 1.6221138,
+      "memory(GiB)": 84.18,
+      "step": 9490,
+      "train_speed(iter/s)": 0.450393
+    },
+    {
+      "acc": 0.63570275,
+      "epoch": 0.2408675799086758,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.864982416640843e-06,
+      "loss": 1.73583221,
+      "memory(GiB)": 84.18,
+      "step": 9495,
+      "train_speed(iter/s)": 0.450519
+    },
+    {
+      "acc": 0.64468632,
+      "epoch": 0.24099441907661084,
+      "grad_norm": 5.125,
+      "learning_rate": 9.864740266398918e-06,
+      "loss": 1.67825508,
+      "memory(GiB)": 84.18,
+      "step": 9500,
+      "train_speed(iter/s)": 0.450647
+    },
+    {
+      "epoch": 0.24099441907661084,
+      "eval_acc": 0.6357670646457312,
+      "eval_loss": 1.6526737213134766,
+      "eval_runtime": 112.8007,
+      "eval_samples_per_second": 56.471,
+      "eval_steps_per_second": 28.236,
+      "step": 9500
+    },
+    {
+      "acc": 0.65441008,
+      "epoch": 0.24112125824454592,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.864497902183996e-06,
+      "loss": 1.62061348,
+      "memory(GiB)": 84.18,
+      "step": 9505,
+      "train_speed(iter/s)": 0.448279
+    },
+    {
+      "acc": 0.64899931,
+      "epoch": 0.24124809741248096,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.864255324006738e-06,
+      "loss": 1.66408501,
+      "memory(GiB)": 84.18,
+      "step": 9510,
+      "train_speed(iter/s)": 0.448405
+    },
+    {
+      "acc": 0.62924976,
+      "epoch": 0.24137493658041603,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.864012531877814e-06,
+      "loss": 1.72995281,
+      "memory(GiB)": 84.18,
+      "step": 9515,
+      "train_speed(iter/s)": 0.448531
+    },
+    {
+      "acc": 0.63176484,
+      "epoch": 0.24150177574835108,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.863769525807903e-06,
+      "loss": 1.73512478,
+      "memory(GiB)": 84.18,
+      "step": 9520,
+      "train_speed(iter/s)": 0.448658
+    },
+    {
+      "acc": 0.66021013,
+      "epoch": 0.24162861491628615,
+      "grad_norm": 5.5,
+      "learning_rate": 9.863526305807694e-06,
+      "loss": 1.60844841,
+      "memory(GiB)": 84.18,
+      "step": 9525,
+      "train_speed(iter/s)": 0.448785
+    },
+    {
+      "acc": 0.64407992,
+      "epoch": 0.2417554540842212,
+      "grad_norm": 7.46875,
+      "learning_rate": 9.863282871887882e-06,
+      "loss": 1.75947914,
+      "memory(GiB)": 84.18,
+      "step": 9530,
+      "train_speed(iter/s)": 0.448911
+    },
+    {
+      "acc": 0.64780474,
+      "epoch": 0.24188229325215627,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.863039224059177e-06,
+      "loss": 1.66074753,
+      "memory(GiB)": 84.18,
+      "step": 9535,
+      "train_speed(iter/s)": 0.449037
+    },
+    {
+      "acc": 0.6472455,
+      "epoch": 0.2420091324200913,
+      "grad_norm": 4.75,
+      "learning_rate": 9.862795362332293e-06,
+      "loss": 1.62877121,
+      "memory(GiB)": 84.18,
+      "step": 9540,
+      "train_speed(iter/s)": 0.449163
+    },
+    {
+      "acc": 0.66378317,
+      "epoch": 0.24213597158802638,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.862551286717961e-06,
+      "loss": 1.61465034,
+      "memory(GiB)": 84.18,
+      "step": 9545,
+      "train_speed(iter/s)": 0.449288
+    },
+    {
+      "acc": 0.65136733,
+      "epoch": 0.24226281075596143,
+      "grad_norm": 4.625,
+      "learning_rate": 9.862306997226914e-06,
+      "loss": 1.61032352,
+      "memory(GiB)": 84.18,
+      "step": 9550,
+      "train_speed(iter/s)": 0.449413
+    },
+    {
+      "acc": 0.64301291,
+      "epoch": 0.2423896499238965,
+      "grad_norm": 6.28125,
+      "learning_rate": 9.862062493869895e-06,
+      "loss": 1.71672344,
+      "memory(GiB)": 84.18,
+      "step": 9555,
+      "train_speed(iter/s)": 0.449539
+    },
+    {
+      "acc": 0.64165573,
+      "epoch": 0.24251648909183154,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.861817776657661e-06,
+      "loss": 1.61028442,
+      "memory(GiB)": 84.18,
+      "step": 9560,
+      "train_speed(iter/s)": 0.449665
+    },
+    {
+      "acc": 0.62407374,
+      "epoch": 0.24264332825976662,
+      "grad_norm": 6.75,
+      "learning_rate": 9.861572845600973e-06,
+      "loss": 1.70165749,
+      "memory(GiB)": 84.18,
+      "step": 9565,
+      "train_speed(iter/s)": 0.449792
+    },
+    {
+      "acc": 0.64178395,
+      "epoch": 0.24277016742770166,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.861327700710608e-06,
+      "loss": 1.67437096,
+      "memory(GiB)": 84.18,
+      "step": 9570,
+      "train_speed(iter/s)": 0.449917
+    },
+    {
+      "acc": 0.63719091,
+      "epoch": 0.24289700659563673,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.861082341997345e-06,
+      "loss": 1.71820889,
+      "memory(GiB)": 84.18,
+      "step": 9575,
+      "train_speed(iter/s)": 0.450043
+    },
+    {
+      "acc": 0.64579763,
+      "epoch": 0.24302384576357178,
+      "grad_norm": 4.34375,
+      "learning_rate": 9.860836769471977e-06,
+      "loss": 1.658815,
+      "memory(GiB)": 84.18,
+      "step": 9580,
+      "train_speed(iter/s)": 0.450168
+    },
+    {
+      "acc": 0.63311477,
+      "epoch": 0.24315068493150685,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.860590983145307e-06,
+      "loss": 1.73535118,
+      "memory(GiB)": 84.18,
+      "step": 9585,
+      "train_speed(iter/s)": 0.450293
+    },
+    {
+      "acc": 0.64140406,
+      "epoch": 0.2432775240994419,
+      "grad_norm": 5.6875,
+      "learning_rate": 9.860344983028146e-06,
+      "loss": 1.69727478,
+      "memory(GiB)": 84.18,
+      "step": 9590,
+      "train_speed(iter/s)": 0.450419
+    },
+    {
+      "acc": 0.63631096,
+      "epoch": 0.24340436326737697,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.86009876913131e-06,
+      "loss": 1.71041374,
+      "memory(GiB)": 84.18,
+      "step": 9595,
+      "train_speed(iter/s)": 0.450545
+    },
+    {
+      "acc": 0.63834791,
+      "epoch": 0.243531202435312,
+      "grad_norm": 3.984375,
+      "learning_rate": 9.859852341465633e-06,
+      "loss": 1.74432907,
+      "memory(GiB)": 84.18,
+      "step": 9600,
+      "train_speed(iter/s)": 0.45067
+    },
+    {
+      "epoch": 0.243531202435312,
+      "eval_acc": 0.6357954728227744,
+      "eval_loss": 1.6525287628173828,
+      "eval_runtime": 113.7275,
+      "eval_samples_per_second": 56.011,
+      "eval_steps_per_second": 28.006,
+      "step": 9600
+    },
+    {
+      "acc": 0.63986053,
+      "epoch": 0.24365804160324708,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.859605700041951e-06,
+      "loss": 1.71194496,
+      "memory(GiB)": 84.18,
+      "step": 9605,
+      "train_speed(iter/s)": 0.448307
+    },
+    {
+      "acc": 0.65924358,
+      "epoch": 0.24378488077118213,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.859358844871113e-06,
+      "loss": 1.61128387,
+      "memory(GiB)": 84.18,
+      "step": 9610,
+      "train_speed(iter/s)": 0.448432
+    },
+    {
+      "acc": 0.64468589,
+      "epoch": 0.2439117199391172,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.859111775963981e-06,
+      "loss": 1.68093033,
+      "memory(GiB)": 84.18,
+      "step": 9615,
+      "train_speed(iter/s)": 0.448556
+    },
+    {
+      "acc": 0.65342407,
+      "epoch": 0.24403855910705224,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.858864493331417e-06,
+      "loss": 1.6401659,
+      "memory(GiB)": 84.18,
+      "step": 9620,
+      "train_speed(iter/s)": 0.44868
+    },
+    {
+      "acc": 0.63621445,
+      "epoch": 0.24416539827498732,
+      "grad_norm": 5.75,
+      "learning_rate": 9.858616996984297e-06,
+      "loss": 1.72697945,
+      "memory(GiB)": 84.18,
+      "step": 9625,
+      "train_speed(iter/s)": 0.448806
+    },
+    {
+      "acc": 0.63256578,
+      "epoch": 0.24429223744292236,
+      "grad_norm": 5.5,
+      "learning_rate": 9.858369286933513e-06,
+      "loss": 1.71205883,
+      "memory(GiB)": 84.18,
+      "step": 9630,
+      "train_speed(iter/s)": 0.448931
+    },
+    {
+      "acc": 0.64839354,
+      "epoch": 0.24441907661085743,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.858121363189954e-06,
+      "loss": 1.66816864,
+      "memory(GiB)": 84.18,
+      "step": 9635,
+      "train_speed(iter/s)": 0.449055
+    },
+    {
+      "acc": 0.63687744,
+      "epoch": 0.24454591577879248,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.85787322576453e-06,
+      "loss": 1.7540205,
+      "memory(GiB)": 84.18,
+      "step": 9640,
+      "train_speed(iter/s)": 0.44918
+    },
+    {
+      "acc": 0.64409537,
+      "epoch": 0.24467275494672755,
+      "grad_norm": 4.15625,
+      "learning_rate": 9.85762487466815e-06,
+      "loss": 1.64781952,
+      "memory(GiB)": 84.18,
+      "step": 9645,
+      "train_speed(iter/s)": 0.449303
+    },
+    {
+      "acc": 0.6551383,
+      "epoch": 0.2447995941146626,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.857376309911741e-06,
+      "loss": 1.53300838,
+      "memory(GiB)": 84.18,
+      "step": 9650,
+      "train_speed(iter/s)": 0.449427
+    },
+    {
+      "acc": 0.63431463,
+      "epoch": 0.24492643328259767,
+      "grad_norm": 4.59375,
+      "learning_rate": 9.857127531506237e-06,
+      "loss": 1.7407032,
+      "memory(GiB)": 84.18,
+      "step": 9655,
+      "train_speed(iter/s)": 0.449551
+    },
+    {
+      "acc": 0.64181747,
+      "epoch": 0.2450532724505327,
+      "grad_norm": 5.625,
+      "learning_rate": 9.856878539462577e-06,
+      "loss": 1.67271271,
+      "memory(GiB)": 84.18,
+      "step": 9660,
+      "train_speed(iter/s)": 0.449673
+    },
+    {
+      "acc": 0.66206522,
+      "epoch": 0.24518011161846778,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.856629333791716e-06,
+      "loss": 1.59543552,
+      "memory(GiB)": 84.18,
+      "step": 9665,
+      "train_speed(iter/s)": 0.449797
+    },
+    {
+      "acc": 0.64142909,
+      "epoch": 0.24530695078640283,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.856379914504612e-06,
+      "loss": 1.71039314,
+      "memory(GiB)": 84.18,
+      "step": 9670,
+      "train_speed(iter/s)": 0.449921
+    },
+    {
+      "acc": 0.64408822,
+      "epoch": 0.2454337899543379,
+      "grad_norm": 4.59375,
+      "learning_rate": 9.856130281612237e-06,
+      "loss": 1.69994144,
+      "memory(GiB)": 84.18,
+      "step": 9675,
+      "train_speed(iter/s)": 0.450045
+    },
+    {
+      "acc": 0.63171906,
+      "epoch": 0.24556062912227294,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.855880435125572e-06,
+      "loss": 1.63647842,
+      "memory(GiB)": 84.18,
+      "step": 9680,
+      "train_speed(iter/s)": 0.450169
+    },
+    {
+      "acc": 0.63819122,
+      "epoch": 0.24568746829020802,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.855630375055604e-06,
+      "loss": 1.64949474,
+      "memory(GiB)": 84.18,
+      "step": 9685,
+      "train_speed(iter/s)": 0.450292
+    },
+    {
+      "acc": 0.64347181,
+      "epoch": 0.24581430745814306,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.855380101413336e-06,
+      "loss": 1.69322319,
+      "memory(GiB)": 84.18,
+      "step": 9690,
+      "train_speed(iter/s)": 0.450415
+    },
+    {
+      "acc": 0.63900776,
+      "epoch": 0.24594114662607813,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.855129614209771e-06,
+      "loss": 1.6777544,
+      "memory(GiB)": 84.18,
+      "step": 9695,
+      "train_speed(iter/s)": 0.450539
+    },
+    {
+      "acc": 0.64113932,
+      "epoch": 0.24606798579401318,
+      "grad_norm": 5.71875,
+      "learning_rate": 9.85487891345593e-06,
+      "loss": 1.72149887,
+      "memory(GiB)": 84.18,
+      "step": 9700,
+      "train_speed(iter/s)": 0.450663
+    },
+    {
+      "epoch": 0.24606798579401318,
+      "eval_acc": 0.6359888990870531,
+      "eval_loss": 1.6516163349151611,
+      "eval_runtime": 113.3401,
+      "eval_samples_per_second": 56.203,
+      "eval_steps_per_second": 28.101,
+      "step": 9700
+    },
+    {
+      "acc": 0.63458576,
+      "epoch": 0.24619482496194825,
+      "grad_norm": 6.28125,
+      "learning_rate": 9.85462799916284e-06,
+      "loss": 1.74244194,
+      "memory(GiB)": 84.18,
+      "step": 9705,
+      "train_speed(iter/s)": 0.448333
+    },
+    {
+      "acc": 0.63018379,
+      "epoch": 0.2463216641298833,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.854376871341535e-06,
+      "loss": 1.70108566,
+      "memory(GiB)": 84.18,
+      "step": 9710,
+      "train_speed(iter/s)": 0.448457
+    },
+    {
+      "acc": 0.63088713,
+      "epoch": 0.24644850329781837,
+      "grad_norm": 6.5,
+      "learning_rate": 9.854125530003063e-06,
+      "loss": 1.73135223,
+      "memory(GiB)": 84.18,
+      "step": 9715,
+      "train_speed(iter/s)": 0.448581
+    },
+    {
+      "acc": 0.64723148,
+      "epoch": 0.2465753424657534,
+      "grad_norm": 6.0625,
+      "learning_rate": 9.853873975158476e-06,
+      "loss": 1.64123268,
+      "memory(GiB)": 84.18,
+      "step": 9720,
+      "train_speed(iter/s)": 0.448704
+    },
+    {
+      "acc": 0.63749256,
+      "epoch": 0.24670218163368848,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.853622206818842e-06,
+      "loss": 1.75529137,
+      "memory(GiB)": 84.18,
+      "step": 9725,
+      "train_speed(iter/s)": 0.448828
+    },
+    {
+      "acc": 0.64337592,
+      "epoch": 0.24682902080162353,
+      "grad_norm": 4.6875,
+      "learning_rate": 9.853370224995233e-06,
+      "loss": 1.64793549,
+      "memory(GiB)": 84.18,
+      "step": 9730,
+      "train_speed(iter/s)": 0.44895
+    },
+    {
+      "acc": 0.65726776,
+      "epoch": 0.2469558599695586,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.853118029698733e-06,
+      "loss": 1.60163612,
+      "memory(GiB)": 84.18,
+      "step": 9735,
+      "train_speed(iter/s)": 0.449072
+    },
+    {
+      "acc": 0.6583992,
+      "epoch": 0.24708269913749364,
+      "grad_norm": 5.84375,
+      "learning_rate": 9.852865620940436e-06,
+      "loss": 1.69895668,
+      "memory(GiB)": 84.18,
+      "step": 9740,
+      "train_speed(iter/s)": 0.449195
+    },
+    {
+      "acc": 0.64079418,
+      "epoch": 0.24720953830542872,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.85261299873144e-06,
+      "loss": 1.66521473,
+      "memory(GiB)": 84.18,
+      "step": 9745,
+      "train_speed(iter/s)": 0.449318
+    },
+    {
+      "acc": 0.6563859,
+      "epoch": 0.24733637747336376,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.85236016308286e-06,
+      "loss": 1.64144573,
+      "memory(GiB)": 84.18,
+      "step": 9750,
+      "train_speed(iter/s)": 0.449441
+    },
+    {
+      "acc": 0.6437757,
+      "epoch": 0.24746321664129883,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.852107114005816e-06,
+      "loss": 1.68185616,
+      "memory(GiB)": 84.18,
+      "step": 9755,
+      "train_speed(iter/s)": 0.449565
+    },
+    {
+      "acc": 0.66282849,
+      "epoch": 0.24759005580923388,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.851853851511437e-06,
+      "loss": 1.63104763,
+      "memory(GiB)": 84.18,
+      "step": 9760,
+      "train_speed(iter/s)": 0.449689
+    },
+    {
+      "acc": 0.6452096,
+      "epoch": 0.24771689497716895,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.851600375610864e-06,
+      "loss": 1.64493637,
+      "memory(GiB)": 84.18,
+      "step": 9765,
+      "train_speed(iter/s)": 0.449813
+    },
+    {
+      "acc": 0.64191589,
+      "epoch": 0.247843734145104,
+      "grad_norm": 5.375,
+      "learning_rate": 9.851346686315246e-06,
+      "loss": 1.66515808,
+      "memory(GiB)": 84.18,
+      "step": 9770,
+      "train_speed(iter/s)": 0.449936
+    },
+    {
+      "acc": 0.63775434,
+      "epoch": 0.24797057331303907,
+      "grad_norm": 4.28125,
+      "learning_rate": 9.851092783635742e-06,
+      "loss": 1.73454018,
+      "memory(GiB)": 84.18,
+      "step": 9775,
+      "train_speed(iter/s)": 0.450056
+    },
+    {
+      "acc": 0.64558911,
+      "epoch": 0.2480974124809741,
+      "grad_norm": 6.0,
+      "learning_rate": 9.850838667583518e-06,
+      "loss": 1.67103024,
+      "memory(GiB)": 84.18,
+      "step": 9780,
+      "train_speed(iter/s)": 0.450178
+    },
+    {
+      "acc": 0.65088477,
+      "epoch": 0.24822425164890918,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.850584338169752e-06,
+      "loss": 1.6459053,
+      "memory(GiB)": 84.18,
+      "step": 9785,
+      "train_speed(iter/s)": 0.450301
+    },
+    {
+      "acc": 0.63854332,
+      "epoch": 0.24835109081684423,
+      "grad_norm": 5.0,
+      "learning_rate": 9.85032979540563e-06,
+      "loss": 1.69356747,
+      "memory(GiB)": 84.18,
+      "step": 9790,
+      "train_speed(iter/s)": 0.450422
+    },
+    {
+      "acc": 0.63480186,
+      "epoch": 0.2484779299847793,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.85007503930235e-06,
+      "loss": 1.71151695,
+      "memory(GiB)": 84.18,
+      "step": 9795,
+      "train_speed(iter/s)": 0.450543
+    },
+    {
+      "acc": 0.65237126,
+      "epoch": 0.24860476915271434,
+      "grad_norm": 5.125,
+      "learning_rate": 9.849820069871114e-06,
+      "loss": 1.67856102,
+      "memory(GiB)": 84.18,
+      "step": 9800,
+      "train_speed(iter/s)": 0.450664
+    },
+    {
+      "epoch": 0.24860476915271434,
+      "eval_acc": 0.635965921885033,
+      "eval_loss": 1.6508677005767822,
+      "eval_runtime": 113.9102,
+      "eval_samples_per_second": 55.921,
+      "eval_steps_per_second": 27.961,
+      "step": 9800
+    },
+    {
+      "acc": 0.63831329,
+      "epoch": 0.24873160832064942,
+      "grad_norm": 6.3125,
+      "learning_rate": 9.849564887123138e-06,
+      "loss": 1.69200115,
+      "memory(GiB)": 84.18,
+      "step": 9805,
+      "train_speed(iter/s)": 0.448344
+    },
+    {
+      "acc": 0.63247623,
+      "epoch": 0.24885844748858446,
+      "grad_norm": 5.0,
+      "learning_rate": 9.849309491069647e-06,
+      "loss": 1.68875885,
+      "memory(GiB)": 84.18,
+      "step": 9810,
+      "train_speed(iter/s)": 0.448465
+    },
+    {
+      "acc": 0.64661217,
+      "epoch": 0.24898528665651953,
+      "grad_norm": 6.375,
+      "learning_rate": 9.849053881721876e-06,
+      "loss": 1.63333359,
+      "memory(GiB)": 84.18,
+      "step": 9815,
+      "train_speed(iter/s)": 0.448585
+    },
+    {
+      "acc": 0.64804544,
+      "epoch": 0.24911212582445458,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.848798059091064e-06,
+      "loss": 1.71267929,
+      "memory(GiB)": 84.18,
+      "step": 9820,
+      "train_speed(iter/s)": 0.448706
+    },
+    {
+      "acc": 0.64320364,
+      "epoch": 0.24923896499238965,
+      "grad_norm": 5.375,
+      "learning_rate": 9.848542023188466e-06,
+      "loss": 1.717276,
+      "memory(GiB)": 84.18,
+      "step": 9825,
+      "train_speed(iter/s)": 0.448827
+    },
+    {
+      "acc": 0.66500702,
+      "epoch": 0.2493658041603247,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.848285774025342e-06,
+      "loss": 1.55275669,
+      "memory(GiB)": 84.18,
+      "step": 9830,
+      "train_speed(iter/s)": 0.448949
+    },
+    {
+      "acc": 0.64382815,
+      "epoch": 0.24949264332825977,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.848029311612963e-06,
+      "loss": 1.67573204,
+      "memory(GiB)": 84.18,
+      "step": 9835,
+      "train_speed(iter/s)": 0.449069
+    },
+    {
+      "acc": 0.64469352,
+      "epoch": 0.2496194824961948,
+      "grad_norm": 5.96875,
+      "learning_rate": 9.84777263596261e-06,
+      "loss": 1.68478775,
+      "memory(GiB)": 84.18,
+      "step": 9840,
+      "train_speed(iter/s)": 0.449191
+    },
+    {
+      "acc": 0.63684015,
+      "epoch": 0.24974632166412988,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.847515747085573e-06,
+      "loss": 1.70679092,
+      "memory(GiB)": 84.18,
+      "step": 9845,
+      "train_speed(iter/s)": 0.449312
+    },
+    {
+      "acc": 0.64473124,
+      "epoch": 0.24987316083206493,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.847258644993151e-06,
+      "loss": 1.68105564,
+      "memory(GiB)": 84.18,
+      "step": 9850,
+      "train_speed(iter/s)": 0.449434
+    },
+    {
+      "acc": 0.62908134,
+      "epoch": 0.25,
+      "grad_norm": 4.75,
+      "learning_rate": 9.847001329696653e-06,
+      "loss": 1.71537418,
+      "memory(GiB)": 84.18,
+      "step": 9855,
+      "train_speed(iter/s)": 0.449555
+    },
+    {
+      "acc": 0.64225731,
+      "epoch": 0.25012683916793504,
+      "grad_norm": 4.875,
+      "learning_rate": 9.846743801207395e-06,
+      "loss": 1.66853409,
+      "memory(GiB)": 84.18,
+      "step": 9860,
+      "train_speed(iter/s)": 0.449677
+    },
+    {
+      "acc": 0.62420464,
+      "epoch": 0.25025367833587014,
+      "grad_norm": 5.375,
+      "learning_rate": 9.846486059536706e-06,
+      "loss": 1.72606525,
+      "memory(GiB)": 97.17,
+      "step": 9865,
+      "train_speed(iter/s)": 0.449797
+    },
+    {
+      "acc": 0.64164133,
+      "epoch": 0.2503805175038052,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.846228104695922e-06,
+      "loss": 1.67052307,
+      "memory(GiB)": 97.17,
+      "step": 9870,
+      "train_speed(iter/s)": 0.449918
+    },
+    {
+      "acc": 0.63010015,
+      "epoch": 0.25050735667174023,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.84596993669639e-06,
+      "loss": 1.77863979,
+      "memory(GiB)": 97.17,
+      "step": 9875,
+      "train_speed(iter/s)": 0.450038
+    },
+    {
+      "acc": 0.64390774,
+      "epoch": 0.2506341958396753,
+      "grad_norm": 7.625,
+      "learning_rate": 9.845711555549464e-06,
+      "loss": 1.68367977,
+      "memory(GiB)": 97.17,
+      "step": 9880,
+      "train_speed(iter/s)": 0.450158
+    },
+    {
+      "acc": 0.64109015,
+      "epoch": 0.2507610350076104,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.845452961266509e-06,
+      "loss": 1.64917259,
+      "memory(GiB)": 97.17,
+      "step": 9885,
+      "train_speed(iter/s)": 0.450277
+    },
+    {
+      "acc": 0.65007424,
+      "epoch": 0.2508878741755454,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.845194153858899e-06,
+      "loss": 1.6526825,
+      "memory(GiB)": 97.17,
+      "step": 9890,
+      "train_speed(iter/s)": 0.450397
+    },
+    {
+      "acc": 0.64389496,
+      "epoch": 0.25101471334348047,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.844935133338018e-06,
+      "loss": 1.65119019,
+      "memory(GiB)": 97.17,
+      "step": 9895,
+      "train_speed(iter/s)": 0.450516
+    },
+    {
+      "acc": 0.62651777,
+      "epoch": 0.2511415525114155,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.84467589971526e-06,
+      "loss": 1.78537216,
+      "memory(GiB)": 97.17,
+      "step": 9900,
+      "train_speed(iter/s)": 0.450635
+    },
+    {
+      "epoch": 0.2511415525114155,
+      "eval_acc": 0.6361025317952255,
+      "eval_loss": 1.650057077407837,
+      "eval_runtime": 112.2369,
+      "eval_samples_per_second": 56.755,
+      "eval_steps_per_second": 28.377,
+      "step": 9900
+    },
+    {
+      "acc": 0.64691887,
+      "epoch": 0.2512683916793506,
+      "grad_norm": 5.75,
+      "learning_rate": 9.844416453002027e-06,
+      "loss": 1.69708214,
+      "memory(GiB)": 97.17,
+      "step": 9905,
+      "train_speed(iter/s)": 0.448373
+    },
+    {
+      "acc": 0.64094362,
+      "epoch": 0.25139523084728566,
+      "grad_norm": 5.125,
+      "learning_rate": 9.844156793209725e-06,
+      "loss": 1.65398254,
+      "memory(GiB)": 97.17,
+      "step": 9910,
+      "train_speed(iter/s)": 0.448493
+    },
+    {
+      "acc": 0.64647436,
+      "epoch": 0.2515220700152207,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.843896920349783e-06,
+      "loss": 1.64679718,
+      "memory(GiB)": 97.17,
+      "step": 9915,
+      "train_speed(iter/s)": 0.448611
+    },
+    {
+      "acc": 0.64076943,
+      "epoch": 0.25164890918315574,
+      "grad_norm": 4.5,
+      "learning_rate": 9.843636834433627e-06,
+      "loss": 1.69570084,
+      "memory(GiB)": 97.17,
+      "step": 9920,
+      "train_speed(iter/s)": 0.448731
+    },
+    {
+      "acc": 0.63992963,
+      "epoch": 0.25177574835109084,
+      "grad_norm": 5.5,
+      "learning_rate": 9.843376535472698e-06,
+      "loss": 1.67204361,
+      "memory(GiB)": 97.17,
+      "step": 9925,
+      "train_speed(iter/s)": 0.44885
+    },
+    {
+      "acc": 0.65698419,
+      "epoch": 0.2519025875190259,
+      "grad_norm": 4.28125,
+      "learning_rate": 9.843116023478445e-06,
+      "loss": 1.59887962,
+      "memory(GiB)": 97.17,
+      "step": 9930,
+      "train_speed(iter/s)": 0.448969
+    },
+    {
+      "acc": 0.6405468,
+      "epoch": 0.25202942668696093,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.842855298462327e-06,
+      "loss": 1.69015961,
+      "memory(GiB)": 97.17,
+      "step": 9935,
+      "train_speed(iter/s)": 0.449087
+    },
+    {
+      "acc": 0.63615909,
+      "epoch": 0.252156265854896,
+      "grad_norm": 6.21875,
+      "learning_rate": 9.84259436043581e-06,
+      "loss": 1.71440792,
+      "memory(GiB)": 97.17,
+      "step": 9940,
+      "train_speed(iter/s)": 0.449207
+    },
+    {
+      "acc": 0.64654627,
+      "epoch": 0.2522831050228311,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.842333209410372e-06,
+      "loss": 1.63373108,
+      "memory(GiB)": 97.17,
+      "step": 9945,
+      "train_speed(iter/s)": 0.449325
+    },
+    {
+      "acc": 0.6533143,
+      "epoch": 0.2524099441907661,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.842071845397502e-06,
+      "loss": 1.56941128,
+      "memory(GiB)": 97.17,
+      "step": 9950,
+      "train_speed(iter/s)": 0.449444
+    },
+    {
+      "acc": 0.63823442,
+      "epoch": 0.25253678335870117,
+      "grad_norm": 5.0,
+      "learning_rate": 9.841810268408692e-06,
+      "loss": 1.71749573,
+      "memory(GiB)": 97.17,
+      "step": 9955,
+      "train_speed(iter/s)": 0.449563
+    },
+    {
+      "acc": 0.64907484,
+      "epoch": 0.2526636225266362,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.841548478455451e-06,
+      "loss": 1.72018814,
+      "memory(GiB)": 97.17,
+      "step": 9960,
+      "train_speed(iter/s)": 0.449681
+    },
+    {
+      "acc": 0.64448767,
+      "epoch": 0.2527904616945713,
+      "grad_norm": 5.375,
+      "learning_rate": 9.841286475549291e-06,
+      "loss": 1.70823631,
+      "memory(GiB)": 97.17,
+      "step": 9965,
+      "train_speed(iter/s)": 0.449799
+    },
+    {
+      "acc": 0.64359264,
+      "epoch": 0.25291730086250636,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.841024259701737e-06,
+      "loss": 1.65259724,
+      "memory(GiB)": 97.17,
+      "step": 9970,
+      "train_speed(iter/s)": 0.449917
+    },
+    {
+      "acc": 0.64129829,
+      "epoch": 0.2530441400304414,
+      "grad_norm": 4.875,
+      "learning_rate": 9.840761830924323e-06,
+      "loss": 1.67311554,
+      "memory(GiB)": 97.17,
+      "step": 9975,
+      "train_speed(iter/s)": 0.450037
+    },
+    {
+      "acc": 0.64141607,
+      "epoch": 0.25317097919837644,
+      "grad_norm": 7.0,
+      "learning_rate": 9.84049918922859e-06,
+      "loss": 1.69971275,
+      "memory(GiB)": 97.17,
+      "step": 9980,
+      "train_speed(iter/s)": 0.450155
+    },
+    {
+      "acc": 0.63405867,
+      "epoch": 0.25329781836631154,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.840236334626091e-06,
+      "loss": 1.68541508,
+      "memory(GiB)": 97.17,
+      "step": 9985,
+      "train_speed(iter/s)": 0.450274
+    },
+    {
+      "acc": 0.6443634,
+      "epoch": 0.2534246575342466,
+      "grad_norm": 4.21875,
+      "learning_rate": 9.83997326712839e-06,
+      "loss": 1.64873981,
+      "memory(GiB)": 97.17,
+      "step": 9990,
+      "train_speed(iter/s)": 0.450393
+    },
+    {
+      "acc": 0.65700703,
+      "epoch": 0.25355149670218163,
+      "grad_norm": 4.4375,
+      "learning_rate": 9.839709986747054e-06,
+      "loss": 1.59298191,
+      "memory(GiB)": 97.17,
+      "step": 9995,
+      "train_speed(iter/s)": 0.450512
+    },
+    {
+      "acc": 0.65080976,
+      "epoch": 0.2536783358701167,
+      "grad_norm": 4.875,
+      "learning_rate": 9.839446493493667e-06,
+      "loss": 1.57753963,
+      "memory(GiB)": 97.17,
+      "step": 10000,
+      "train_speed(iter/s)": 0.450629
+    },
+    {
+      "epoch": 0.2536783358701167,
+      "eval_acc": 0.6362470792842978,
+      "eval_loss": 1.649816632270813,
+      "eval_runtime": 112.9138,
+      "eval_samples_per_second": 56.415,
+      "eval_steps_per_second": 28.207,
+      "step": 10000
+    },
+    {
+      "acc": 0.63965268,
+      "epoch": 0.2538051750380518,
+      "grad_norm": 4.75,
+      "learning_rate": 9.839182787379815e-06,
+      "loss": 1.61130695,
+      "memory(GiB)": 97.17,
+      "step": 10005,
+      "train_speed(iter/s)": 0.448375
+    },
+    {
+      "acc": 0.64882364,
+      "epoch": 0.2539320142059868,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.8389188684171e-06,
+      "loss": 1.6103384,
+      "memory(GiB)": 97.17,
+      "step": 10010,
+      "train_speed(iter/s)": 0.448492
+    },
+    {
+      "acc": 0.65004439,
+      "epoch": 0.25405885337392187,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.838654736617128e-06,
+      "loss": 1.57968521,
+      "memory(GiB)": 97.17,
+      "step": 10015,
+      "train_speed(iter/s)": 0.44861
+    },
+    {
+      "acc": 0.64287462,
+      "epoch": 0.2541856925418569,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.838390391991517e-06,
+      "loss": 1.66347008,
+      "memory(GiB)": 97.17,
+      "step": 10020,
+      "train_speed(iter/s)": 0.448729
+    },
+    {
+      "acc": 0.63177919,
+      "epoch": 0.254312531709792,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.838125834551895e-06,
+      "loss": 1.69404659,
+      "memory(GiB)": 97.17,
+      "step": 10025,
+      "train_speed(iter/s)": 0.448846
+    },
+    {
+      "acc": 0.64552422,
+      "epoch": 0.25443937087772706,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.837861064309899e-06,
+      "loss": 1.69221878,
+      "memory(GiB)": 97.17,
+      "step": 10030,
+      "train_speed(iter/s)": 0.448964
+    },
+    {
+      "acc": 0.64279327,
+      "epoch": 0.2545662100456621,
+      "grad_norm": 5.125,
+      "learning_rate": 9.837596081277173e-06,
+      "loss": 1.63055134,
+      "memory(GiB)": 97.17,
+      "step": 10035,
+      "train_speed(iter/s)": 0.449081
+    },
+    {
+      "acc": 0.64182806,
+      "epoch": 0.25469304921359714,
+      "grad_norm": 5.5,
+      "learning_rate": 9.837330885465373e-06,
+      "loss": 1.66612244,
+      "memory(GiB)": 97.17,
+      "step": 10040,
+      "train_speed(iter/s)": 0.449198
+    },
+    {
+      "acc": 0.6442668,
+      "epoch": 0.25481988838153224,
+      "grad_norm": 4.875,
+      "learning_rate": 9.837065476886163e-06,
+      "loss": 1.70503654,
+      "memory(GiB)": 97.17,
+      "step": 10045,
+      "train_speed(iter/s)": 0.449315
+    },
+    {
+      "acc": 0.64067979,
+      "epoch": 0.2549467275494673,
+      "grad_norm": 5.5,
+      "learning_rate": 9.83679985555122e-06,
+      "loss": 1.64878254,
+      "memory(GiB)": 97.17,
+      "step": 10050,
+      "train_speed(iter/s)": 0.449431
+    },
+    {
+      "acc": 0.63483868,
+      "epoch": 0.25507356671740233,
+      "grad_norm": 5.5,
+      "learning_rate": 9.836534021472222e-06,
+      "loss": 1.68517342,
+      "memory(GiB)": 97.17,
+      "step": 10055,
+      "train_speed(iter/s)": 0.449548
+    },
+    {
+      "acc": 0.64606409,
+      "epoch": 0.2552004058853374,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.836267974660866e-06,
+      "loss": 1.66882305,
+      "memory(GiB)": 97.17,
+      "step": 10060,
+      "train_speed(iter/s)": 0.449663
+    },
+    {
+      "acc": 0.64150124,
+      "epoch": 0.2553272450532725,
+      "grad_norm": 5.125,
+      "learning_rate": 9.836001715128851e-06,
+      "loss": 1.7048481,
+      "memory(GiB)": 97.17,
+      "step": 10065,
+      "train_speed(iter/s)": 0.449778
+    },
+    {
+      "acc": 0.6441721,
+      "epoch": 0.2554540842212075,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.835735242887889e-06,
+      "loss": 1.62405491,
+      "memory(GiB)": 97.17,
+      "step": 10070,
+      "train_speed(iter/s)": 0.449895
+    },
+    {
+      "acc": 0.64245281,
+      "epoch": 0.25558092338914257,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.835468557949701e-06,
+      "loss": 1.63910599,
+      "memory(GiB)": 97.17,
+      "step": 10075,
+      "train_speed(iter/s)": 0.450011
+    },
+    {
+      "acc": 0.64228315,
+      "epoch": 0.2557077625570776,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.83520166032602e-06,
+      "loss": 1.66814384,
+      "memory(GiB)": 97.17,
+      "step": 10080,
+      "train_speed(iter/s)": 0.450127
+    },
+    {
+      "acc": 0.63693943,
+      "epoch": 0.2558346017250127,
+      "grad_norm": 5.71875,
+      "learning_rate": 9.834934550028579e-06,
+      "loss": 1.65157509,
+      "memory(GiB)": 97.17,
+      "step": 10085,
+      "train_speed(iter/s)": 0.450243
+    },
+    {
+      "acc": 0.63770728,
+      "epoch": 0.25596144089294776,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.83466722706913e-06,
+      "loss": 1.69734192,
+      "memory(GiB)": 97.17,
+      "step": 10090,
+      "train_speed(iter/s)": 0.450359
+    },
+    {
+      "acc": 0.64027219,
+      "epoch": 0.2560882800608828,
+      "grad_norm": 5.125,
+      "learning_rate": 9.834399691459433e-06,
+      "loss": 1.68638973,
+      "memory(GiB)": 97.17,
+      "step": 10095,
+      "train_speed(iter/s)": 0.450474
+    },
+    {
+      "acc": 0.63692484,
+      "epoch": 0.25621511922881784,
+      "grad_norm": 5.25,
+      "learning_rate": 9.83413194321125e-06,
+      "loss": 1.64527855,
+      "memory(GiB)": 97.17,
+      "step": 10100,
+      "train_speed(iter/s)": 0.450589
+    },
+    {
+      "epoch": 0.25621511922881784,
+      "eval_acc": 0.6363252017711662,
+      "eval_loss": 1.64874267578125,
+      "eval_runtime": 113.6142,
+      "eval_samples_per_second": 56.067,
+      "eval_steps_per_second": 28.033,
+      "step": 10100
+    },
+    {
+      "acc": 0.65384083,
+      "epoch": 0.25634195839675294,
+      "grad_norm": 5.625,
+      "learning_rate": 9.833863982336365e-06,
+      "loss": 1.60704098,
+      "memory(GiB)": 97.17,
+      "step": 10105,
+      "train_speed(iter/s)": 0.448344
+    },
+    {
+      "acc": 0.65403714,
+      "epoch": 0.256468797564688,
+      "grad_norm": 4.625,
+      "learning_rate": 9.83359580884656e-06,
+      "loss": 1.6452343,
+      "memory(GiB)": 97.17,
+      "step": 10110,
+      "train_speed(iter/s)": 0.44846
+    },
+    {
+      "acc": 0.65271111,
+      "epoch": 0.25659563673262303,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.83332742275363e-06,
+      "loss": 1.66658325,
+      "memory(GiB)": 97.17,
+      "step": 10115,
+      "train_speed(iter/s)": 0.448577
+    },
+    {
+      "acc": 0.62488079,
+      "epoch": 0.2567224759005581,
+      "grad_norm": 6.03125,
+      "learning_rate": 9.833058824069382e-06,
+      "loss": 1.70323849,
+      "memory(GiB)": 97.17,
+      "step": 10120,
+      "train_speed(iter/s)": 0.448693
+    },
+    {
+      "acc": 0.65034437,
+      "epoch": 0.2568493150684932,
+      "grad_norm": 6.0625,
+      "learning_rate": 9.832790012805626e-06,
+      "loss": 1.65741673,
+      "memory(GiB)": 97.17,
+      "step": 10125,
+      "train_speed(iter/s)": 0.44881
+    },
+    {
+      "acc": 0.6508049,
+      "epoch": 0.2569761542364282,
+      "grad_norm": 5.8125,
+      "learning_rate": 9.832520988974191e-06,
+      "loss": 1.60273743,
+      "memory(GiB)": 97.17,
+      "step": 10130,
+      "train_speed(iter/s)": 0.448928
+    },
+    {
+      "acc": 0.65117588,
+      "epoch": 0.25710299340436327,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.832251752586907e-06,
+      "loss": 1.58609066,
+      "memory(GiB)": 97.17,
+      "step": 10135,
+      "train_speed(iter/s)": 0.449044
+    },
+    {
+      "acc": 0.64600563,
+      "epoch": 0.2572298325722983,
+      "grad_norm": 4.625,
+      "learning_rate": 9.831982303655617e-06,
+      "loss": 1.62340183,
+      "memory(GiB)": 97.17,
+      "step": 10140,
+      "train_speed(iter/s)": 0.449161
+    },
+    {
+      "acc": 0.64842343,
+      "epoch": 0.2573566717402334,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.83171264219217e-06,
+      "loss": 1.63590279,
+      "memory(GiB)": 97.17,
+      "step": 10145,
+      "train_speed(iter/s)": 0.449276
+    },
+    {
+      "acc": 0.67493429,
+      "epoch": 0.25748351090816846,
+      "grad_norm": 5.25,
+      "learning_rate": 9.831442768208429e-06,
+      "loss": 1.47832823,
+      "memory(GiB)": 97.17,
+      "step": 10150,
+      "train_speed(iter/s)": 0.449392
+    },
+    {
+      "acc": 0.66122627,
+      "epoch": 0.2576103500761035,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.831172681716265e-06,
+      "loss": 1.63144588,
+      "memory(GiB)": 97.17,
+      "step": 10155,
+      "train_speed(iter/s)": 0.449507
+    },
+    {
+      "acc": 0.65866194,
+      "epoch": 0.25773718924403854,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.830902382727556e-06,
+      "loss": 1.63804474,
+      "memory(GiB)": 97.17,
+      "step": 10160,
+      "train_speed(iter/s)": 0.449623
+    },
+    {
+      "acc": 0.65340271,
+      "epoch": 0.25786402841197364,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.830631871254193e-06,
+      "loss": 1.60548134,
+      "memory(GiB)": 97.17,
+      "step": 10165,
+      "train_speed(iter/s)": 0.449739
+    },
+    {
+      "acc": 0.64797201,
+      "epoch": 0.2579908675799087,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.830361147308074e-06,
+      "loss": 1.64140205,
+      "memory(GiB)": 97.17,
+      "step": 10170,
+      "train_speed(iter/s)": 0.449855
+    },
+    {
+      "acc": 0.63142986,
+      "epoch": 0.25811770674784373,
+      "grad_norm": 4.53125,
+      "learning_rate": 9.830090210901104e-06,
+      "loss": 1.66541443,
+      "memory(GiB)": 97.17,
+      "step": 10175,
+      "train_speed(iter/s)": 0.449971
+    },
+    {
+      "acc": 0.63583708,
+      "epoch": 0.2582445459157788,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.829819062045203e-06,
+      "loss": 1.68908386,
+      "memory(GiB)": 97.17,
+      "step": 10180,
+      "train_speed(iter/s)": 0.450086
+    },
+    {
+      "acc": 0.66478491,
+      "epoch": 0.2583713850837139,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.829547700752295e-06,
+      "loss": 1.5695116,
+      "memory(GiB)": 97.17,
+      "step": 10185,
+      "train_speed(iter/s)": 0.450203
+    },
+    {
+      "acc": 0.62844906,
+      "epoch": 0.2584982242516489,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.829276127034315e-06,
+      "loss": 1.73666248,
+      "memory(GiB)": 97.17,
+      "step": 10190,
+      "train_speed(iter/s)": 0.450319
+    },
+    {
+      "acc": 0.62936883,
+      "epoch": 0.25862506341958397,
+      "grad_norm": 5.625,
+      "learning_rate": 9.829004340903214e-06,
+      "loss": 1.70294666,
+      "memory(GiB)": 97.17,
+      "step": 10195,
+      "train_speed(iter/s)": 0.450435
+    },
+    {
+      "acc": 0.63833456,
+      "epoch": 0.258751902587519,
+      "grad_norm": 4.375,
+      "learning_rate": 9.82873234237094e-06,
+      "loss": 1.70547714,
+      "memory(GiB)": 97.17,
+      "step": 10200,
+      "train_speed(iter/s)": 0.450552
+    },
+    {
+      "epoch": 0.258751902587519,
+      "eval_acc": 0.6364868777199263,
+      "eval_loss": 1.648376226425171,
+      "eval_runtime": 114.1916,
+      "eval_samples_per_second": 55.783,
+      "eval_steps_per_second": 27.892,
+      "step": 10200
+    },
+    {
+      "acc": 0.63217478,
+      "epoch": 0.2588787417554541,
+      "grad_norm": 6.28125,
+      "learning_rate": 9.828460131449457e-06,
+      "loss": 1.71564789,
+      "memory(GiB)": 97.17,
+      "step": 10205,
+      "train_speed(iter/s)": 0.448319
+    },
+    {
+      "acc": 0.63032894,
+      "epoch": 0.25900558092338916,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.828187708150743e-06,
+      "loss": 1.70845108,
+      "memory(GiB)": 97.17,
+      "step": 10210,
+      "train_speed(iter/s)": 0.448433
+    },
+    {
+      "acc": 0.6530694,
+      "epoch": 0.2591324200913242,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.827915072486776e-06,
+      "loss": 1.62753773,
+      "memory(GiB)": 97.17,
+      "step": 10215,
+      "train_speed(iter/s)": 0.448547
+    },
+    {
+      "acc": 0.65005016,
+      "epoch": 0.25925925925925924,
+      "grad_norm": 5.75,
+      "learning_rate": 9.827642224469547e-06,
+      "loss": 1.6148571,
+      "memory(GiB)": 111.15,
+      "step": 10220,
+      "train_speed(iter/s)": 0.448663
+    },
+    {
+      "acc": 0.64397888,
+      "epoch": 0.25938609842719434,
+      "grad_norm": 6.25,
+      "learning_rate": 9.827369164111062e-06,
+      "loss": 1.71176014,
+      "memory(GiB)": 111.15,
+      "step": 10225,
+      "train_speed(iter/s)": 0.448779
+    },
+    {
+      "acc": 0.63397889,
+      "epoch": 0.2595129375951294,
+      "grad_norm": 6.03125,
+      "learning_rate": 9.827095891423328e-06,
+      "loss": 1.77851276,
+      "memory(GiB)": 111.15,
+      "step": 10230,
+      "train_speed(iter/s)": 0.448895
+    },
+    {
+      "acc": 0.65936146,
+      "epoch": 0.25963977676306443,
+      "grad_norm": 6.03125,
+      "learning_rate": 9.826822406418366e-06,
+      "loss": 1.55915585,
+      "memory(GiB)": 111.15,
+      "step": 10235,
+      "train_speed(iter/s)": 0.449012
+    },
+    {
+      "acc": 0.64927692,
+      "epoch": 0.2597666159309995,
+      "grad_norm": 4.75,
+      "learning_rate": 9.826548709108202e-06,
+      "loss": 1.56409826,
+      "memory(GiB)": 111.15,
+      "step": 10240,
+      "train_speed(iter/s)": 0.449128
+    },
+    {
+      "acc": 0.63607216,
+      "epoch": 0.2598934550989346,
+      "grad_norm": 5.625,
+      "learning_rate": 9.826274799504878e-06,
+      "loss": 1.63129997,
+      "memory(GiB)": 111.15,
+      "step": 10245,
+      "train_speed(iter/s)": 0.449244
+    },
+    {
+      "acc": 0.64446115,
+      "epoch": 0.2600202942668696,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.82600067762044e-06,
+      "loss": 1.65774345,
+      "memory(GiB)": 111.15,
+      "step": 10250,
+      "train_speed(iter/s)": 0.449361
+    },
+    {
+      "acc": 0.65417261,
+      "epoch": 0.26014713343480467,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.825726343466947e-06,
+      "loss": 1.63800316,
+      "memory(GiB)": 111.15,
+      "step": 10255,
+      "train_speed(iter/s)": 0.449477
+    },
+    {
+      "acc": 0.64329796,
+      "epoch": 0.2602739726027397,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.825451797056462e-06,
+      "loss": 1.68297005,
+      "memory(GiB)": 111.15,
+      "step": 10260,
+      "train_speed(iter/s)": 0.449591
+    },
+    {
+      "acc": 0.63969059,
+      "epoch": 0.2604008117706748,
+      "grad_norm": 6.09375,
+      "learning_rate": 9.825177038401064e-06,
+      "loss": 1.64901123,
+      "memory(GiB)": 111.15,
+      "step": 10265,
+      "train_speed(iter/s)": 0.449706
+    },
+    {
+      "acc": 0.63883801,
+      "epoch": 0.26052765093860986,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.824902067512838e-06,
+      "loss": 1.70557919,
+      "memory(GiB)": 111.15,
+      "step": 10270,
+      "train_speed(iter/s)": 0.449823
+    },
+    {
+      "acc": 0.65232162,
+      "epoch": 0.2606544901065449,
+      "grad_norm": 5.0,
+      "learning_rate": 9.824626884403877e-06,
+      "loss": 1.64757271,
+      "memory(GiB)": 111.15,
+      "step": 10275,
+      "train_speed(iter/s)": 0.449939
+    },
+    {
+      "acc": 0.64612293,
+      "epoch": 0.26078132927447994,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.824351489086283e-06,
+      "loss": 1.63203411,
+      "memory(GiB)": 111.15,
+      "step": 10280,
+      "train_speed(iter/s)": 0.450054
+    },
+    {
+      "acc": 0.65411334,
+      "epoch": 0.26090816844241504,
+      "grad_norm": 6.15625,
+      "learning_rate": 9.824075881572176e-06,
+      "loss": 1.63782921,
+      "memory(GiB)": 111.15,
+      "step": 10285,
+      "train_speed(iter/s)": 0.450171
+    },
+    {
+      "acc": 0.65749311,
+      "epoch": 0.2610350076103501,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.823800061873669e-06,
+      "loss": 1.65367374,
+      "memory(GiB)": 111.15,
+      "step": 10290,
+      "train_speed(iter/s)": 0.450287
+    },
+    {
+      "acc": 0.64824762,
+      "epoch": 0.26116184677828513,
+      "grad_norm": 6.65625,
+      "learning_rate": 9.8235240300029e-06,
+      "loss": 1.70516548,
+      "memory(GiB)": 111.15,
+      "step": 10295,
+      "train_speed(iter/s)": 0.450403
+    },
+    {
+      "acc": 0.6479887,
+      "epoch": 0.2612886859462202,
+      "grad_norm": 5.0,
+      "learning_rate": 9.82324778597201e-06,
+      "loss": 1.62311974,
+      "memory(GiB)": 111.15,
+      "step": 10300,
+      "train_speed(iter/s)": 0.450519
+    },
+    {
+      "epoch": 0.2612886859462202,
+      "eval_acc": 0.6365065127834708,
+      "eval_loss": 1.6477584838867188,
+      "eval_runtime": 112.8502,
+      "eval_samples_per_second": 56.447,
+      "eval_steps_per_second": 28.223,
+      "step": 10300
+    },
+    {
+      "acc": 0.64832945,
+      "epoch": 0.2614155251141553,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.822971329793147e-06,
+      "loss": 1.65533886,
+      "memory(GiB)": 111.15,
+      "step": 10305,
+      "train_speed(iter/s)": 0.448334
+    },
+    {
+      "acc": 0.65736933,
+      "epoch": 0.2615423642820903,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.822694661478471e-06,
+      "loss": 1.60440922,
+      "memory(GiB)": 111.15,
+      "step": 10310,
+      "train_speed(iter/s)": 0.448448
+    },
+    {
+      "acc": 0.63942556,
+      "epoch": 0.26166920345002537,
+      "grad_norm": 5.6875,
+      "learning_rate": 9.822417781040154e-06,
+      "loss": 1.66899605,
+      "memory(GiB)": 111.15,
+      "step": 10315,
+      "train_speed(iter/s)": 0.448562
+    },
+    {
+      "acc": 0.63693323,
+      "epoch": 0.2617960426179604,
+      "grad_norm": 4.6875,
+      "learning_rate": 9.822140688490372e-06,
+      "loss": 1.66239643,
+      "memory(GiB)": 111.15,
+      "step": 10320,
+      "train_speed(iter/s)": 0.448676
+    },
+    {
+      "acc": 0.6457778,
+      "epoch": 0.2619228817858955,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.821863383841312e-06,
+      "loss": 1.6458786,
+      "memory(GiB)": 111.15,
+      "step": 10325,
+      "train_speed(iter/s)": 0.44879
+    },
+    {
+      "acc": 0.66147504,
+      "epoch": 0.26204972095383056,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.821585867105173e-06,
+      "loss": 1.67228203,
+      "memory(GiB)": 111.15,
+      "step": 10330,
+      "train_speed(iter/s)": 0.448904
+    },
+    {
+      "acc": 0.63241463,
+      "epoch": 0.2621765601217656,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.821308138294162e-06,
+      "loss": 1.72343426,
+      "memory(GiB)": 111.15,
+      "step": 10335,
+      "train_speed(iter/s)": 0.449018
+    },
+    {
+      "acc": 0.63823109,
+      "epoch": 0.26230339928970065,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.821030197420492e-06,
+      "loss": 1.68619862,
+      "memory(GiB)": 111.15,
+      "step": 10340,
+      "train_speed(iter/s)": 0.449131
+    },
+    {
+      "acc": 0.64724827,
+      "epoch": 0.26243023845763574,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.820752044496389e-06,
+      "loss": 1.64986401,
+      "memory(GiB)": 111.15,
+      "step": 10345,
+      "train_speed(iter/s)": 0.449245
+    },
+    {
+      "acc": 0.6319047,
+      "epoch": 0.2625570776255708,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.82047367953409e-06,
+      "loss": 1.65586586,
+      "memory(GiB)": 111.15,
+      "step": 10350,
+      "train_speed(iter/s)": 0.449357
+    },
+    {
+      "acc": 0.65941129,
+      "epoch": 0.26268391679350583,
+      "grad_norm": 6.0,
+      "learning_rate": 9.820195102545835e-06,
+      "loss": 1.61650639,
+      "memory(GiB)": 111.15,
+      "step": 10355,
+      "train_speed(iter/s)": 0.449472
+    },
+    {
+      "acc": 0.62752819,
+      "epoch": 0.2628107559614409,
+      "grad_norm": 4.6875,
+      "learning_rate": 9.81991631354388e-06,
+      "loss": 1.64996834,
+      "memory(GiB)": 111.15,
+      "step": 10360,
+      "train_speed(iter/s)": 0.449588
+    },
+    {
+      "acc": 0.63833857,
+      "epoch": 0.262937595129376,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.819637312540485e-06,
+      "loss": 1.7260973,
+      "memory(GiB)": 111.15,
+      "step": 10365,
+      "train_speed(iter/s)": 0.449701
+    },
+    {
+      "acc": 0.64258757,
+      "epoch": 0.263064434297311,
+      "grad_norm": 4.6875,
+      "learning_rate": 9.819358099547923e-06,
+      "loss": 1.60989456,
+      "memory(GiB)": 111.15,
+      "step": 10370,
+      "train_speed(iter/s)": 0.449815
+    },
+    {
+      "acc": 0.62938113,
+      "epoch": 0.26319127346524607,
+      "grad_norm": 5.25,
+      "learning_rate": 9.819078674578474e-06,
+      "loss": 1.75894127,
+      "memory(GiB)": 111.15,
+      "step": 10375,
+      "train_speed(iter/s)": 0.44993
+    },
+    {
+      "acc": 0.62849383,
+      "epoch": 0.2633181126331811,
+      "grad_norm": 5.25,
+      "learning_rate": 9.818799037644432e-06,
+      "loss": 1.72301483,
+      "memory(GiB)": 111.15,
+      "step": 10380,
+      "train_speed(iter/s)": 0.450045
+    },
+    {
+      "acc": 0.64598904,
+      "epoch": 0.2634449518011162,
+      "grad_norm": 4.5,
+      "learning_rate": 9.818519188758092e-06,
+      "loss": 1.67254715,
+      "memory(GiB)": 111.15,
+      "step": 10385,
+      "train_speed(iter/s)": 0.450159
+    },
+    {
+      "acc": 0.64492431,
+      "epoch": 0.26357179096905126,
+      "grad_norm": 5.25,
+      "learning_rate": 9.818239127931765e-06,
+      "loss": 1.65526237,
+      "memory(GiB)": 111.15,
+      "step": 10390,
+      "train_speed(iter/s)": 0.450272
+    },
+    {
+      "acc": 0.63072276,
+      "epoch": 0.2636986301369863,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.81795885517777e-06,
+      "loss": 1.74420052,
+      "memory(GiB)": 111.15,
+      "step": 10395,
+      "train_speed(iter/s)": 0.450386
+    },
+    {
+      "acc": 0.64704728,
+      "epoch": 0.26382546930492135,
+      "grad_norm": 4.53125,
+      "learning_rate": 9.817678370508434e-06,
+      "loss": 1.69675446,
+      "memory(GiB)": 111.15,
+      "step": 10400,
+      "train_speed(iter/s)": 0.450499
+    },
+    {
+      "epoch": 0.26382546930492135,
+      "eval_acc": 0.6365796220626259,
+      "eval_loss": 1.6467974185943604,
+      "eval_runtime": 113.8276,
+      "eval_samples_per_second": 55.962,
+      "eval_steps_per_second": 27.981,
+      "step": 10400
+    },
+    {
+      "acc": 0.63342175,
+      "epoch": 0.26395230847285645,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.817397673936093e-06,
+      "loss": 1.73191185,
+      "memory(GiB)": 111.15,
+      "step": 10405,
+      "train_speed(iter/s)": 0.448316
+    },
+    {
+      "acc": 0.63455944,
+      "epoch": 0.2640791476407915,
+      "grad_norm": 5.625,
+      "learning_rate": 9.817116765473095e-06,
+      "loss": 1.71335678,
+      "memory(GiB)": 111.15,
+      "step": 10410,
+      "train_speed(iter/s)": 0.448429
+    },
+    {
+      "acc": 0.6439085,
+      "epoch": 0.26420598680872653,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.816835645131795e-06,
+      "loss": 1.6211647,
+      "memory(GiB)": 111.15,
+      "step": 10415,
+      "train_speed(iter/s)": 0.448543
+    },
+    {
+      "acc": 0.64781103,
+      "epoch": 0.2643328259766616,
+      "grad_norm": 5.5,
+      "learning_rate": 9.816554312924555e-06,
+      "loss": 1.62224064,
+      "memory(GiB)": 111.15,
+      "step": 10420,
+      "train_speed(iter/s)": 0.448656
+    },
+    {
+      "acc": 0.66037989,
+      "epoch": 0.2644596651445967,
+      "grad_norm": 5.25,
+      "learning_rate": 9.816272768863756e-06,
+      "loss": 1.61004105,
+      "memory(GiB)": 111.15,
+      "step": 10425,
+      "train_speed(iter/s)": 0.44877
+    },
+    {
+      "acc": 0.65064759,
+      "epoch": 0.2645865043125317,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.815991012961773e-06,
+      "loss": 1.63398972,
+      "memory(GiB)": 111.15,
+      "step": 10430,
+      "train_speed(iter/s)": 0.448883
+    },
+    {
+      "acc": 0.64851537,
+      "epoch": 0.26471334348046677,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.815709045231008e-06,
+      "loss": 1.71657066,
+      "memory(GiB)": 111.15,
+      "step": 10435,
+      "train_speed(iter/s)": 0.448995
+    },
+    {
+      "acc": 0.63785,
+      "epoch": 0.2648401826484018,
+      "grad_norm": 4.625,
+      "learning_rate": 9.815426865683858e-06,
+      "loss": 1.76409569,
+      "memory(GiB)": 111.15,
+      "step": 10440,
+      "train_speed(iter/s)": 0.449109
+    },
+    {
+      "acc": 0.6514431,
+      "epoch": 0.2649670218163369,
+      "grad_norm": 5.125,
+      "learning_rate": 9.815144474332732e-06,
+      "loss": 1.61515751,
+      "memory(GiB)": 111.15,
+      "step": 10445,
+      "train_speed(iter/s)": 0.449223
+    },
+    {
+      "acc": 0.65421677,
+      "epoch": 0.26509386098427196,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.814861871190056e-06,
+      "loss": 1.618647,
+      "memory(GiB)": 111.15,
+      "step": 10450,
+      "train_speed(iter/s)": 0.449336
+    },
+    {
+      "acc": 0.64979601,
+      "epoch": 0.265220700152207,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.814579056268256e-06,
+      "loss": 1.58884907,
+      "memory(GiB)": 111.15,
+      "step": 10455,
+      "train_speed(iter/s)": 0.44945
+    },
+    {
+      "acc": 0.65148792,
+      "epoch": 0.26534753932014205,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.814296029579776e-06,
+      "loss": 1.62890167,
+      "memory(GiB)": 111.15,
+      "step": 10460,
+      "train_speed(iter/s)": 0.449564
+    },
+    {
+      "acc": 0.62713518,
+      "epoch": 0.26547437848807715,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.814012791137063e-06,
+      "loss": 1.76987038,
+      "memory(GiB)": 111.15,
+      "step": 10465,
+      "train_speed(iter/s)": 0.449678
+    },
+    {
+      "acc": 0.63424377,
+      "epoch": 0.2656012176560122,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.81372934095257e-06,
+      "loss": 1.6876936,
+      "memory(GiB)": 111.15,
+      "step": 10470,
+      "train_speed(iter/s)": 0.44979
+    },
+    {
+      "acc": 0.63029704,
+      "epoch": 0.26572805682394723,
+      "grad_norm": 5.5,
+      "learning_rate": 9.813445679038773e-06,
+      "loss": 1.73932724,
+      "memory(GiB)": 111.15,
+      "step": 10475,
+      "train_speed(iter/s)": 0.449904
+    },
+    {
+      "acc": 0.63514605,
+      "epoch": 0.2658548959918823,
+      "grad_norm": 6.1875,
+      "learning_rate": 9.813161805408145e-06,
+      "loss": 1.67673512,
+      "memory(GiB)": 111.15,
+      "step": 10480,
+      "train_speed(iter/s)": 0.450018
+    },
+    {
+      "acc": 0.65030417,
+      "epoch": 0.2659817351598174,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.812877720073169e-06,
+      "loss": 1.67042656,
+      "memory(GiB)": 111.15,
+      "step": 10485,
+      "train_speed(iter/s)": 0.450131
+    },
+    {
+      "acc": 0.64088945,
+      "epoch": 0.2661085743277524,
+      "grad_norm": 6.0625,
+      "learning_rate": 9.812593423046344e-06,
+      "loss": 1.71995163,
+      "memory(GiB)": 111.15,
+      "step": 10490,
+      "train_speed(iter/s)": 0.450244
+    },
+    {
+      "acc": 0.63417873,
+      "epoch": 0.26623541349568747,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.812308914340174e-06,
+      "loss": 1.7628397,
+      "memory(GiB)": 111.15,
+      "step": 10495,
+      "train_speed(iter/s)": 0.450357
+    },
+    {
+      "acc": 0.63861637,
+      "epoch": 0.2663622526636225,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.812024193967171e-06,
+      "loss": 1.7220993,
+      "memory(GiB)": 111.15,
+      "step": 10500,
+      "train_speed(iter/s)": 0.45047
+    },
+    {
+      "epoch": 0.2663622526636225,
+      "eval_acc": 0.6365754443895313,
+      "eval_loss": 1.6466397047042847,
+      "eval_runtime": 113.4611,
+      "eval_samples_per_second": 56.143,
+      "eval_steps_per_second": 28.071,
+      "step": 10500
+    },
+    {
+      "acc": 0.64456587,
+      "epoch": 0.2664890918315576,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.811739261939861e-06,
+      "loss": 1.69936275,
+      "memory(GiB)": 111.15,
+      "step": 10505,
+      "train_speed(iter/s)": 0.448315
+    },
+    {
+      "acc": 0.64456005,
+      "epoch": 0.26661593099949266,
+      "grad_norm": 4.40625,
+      "learning_rate": 9.811454118270775e-06,
+      "loss": 1.68555069,
+      "memory(GiB)": 111.15,
+      "step": 10510,
+      "train_speed(iter/s)": 0.448427
+    },
+    {
+      "acc": 0.63295393,
+      "epoch": 0.2667427701674277,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.811168762972457e-06,
+      "loss": 1.68106022,
+      "memory(GiB)": 111.15,
+      "step": 10515,
+      "train_speed(iter/s)": 0.448539
+    },
+    {
+      "acc": 0.64319992,
+      "epoch": 0.26686960933536275,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.810883196057454e-06,
+      "loss": 1.68998985,
+      "memory(GiB)": 111.15,
+      "step": 10520,
+      "train_speed(iter/s)": 0.448651
+    },
+    {
+      "acc": 0.64584904,
+      "epoch": 0.26699644850329785,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.81059741753833e-06,
+      "loss": 1.62842865,
+      "memory(GiB)": 111.15,
+      "step": 10525,
+      "train_speed(iter/s)": 0.448762
+    },
+    {
+      "acc": 0.64315882,
+      "epoch": 0.2671232876712329,
+      "grad_norm": 5.375,
+      "learning_rate": 9.810311427427653e-06,
+      "loss": 1.66778412,
+      "memory(GiB)": 111.15,
+      "step": 10530,
+      "train_speed(iter/s)": 0.448874
+    },
+    {
+      "acc": 0.65436134,
+      "epoch": 0.26725012683916793,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.810025225738005e-06,
+      "loss": 1.66106319,
+      "memory(GiB)": 111.15,
+      "step": 10535,
+      "train_speed(iter/s)": 0.448987
+    },
+    {
+      "acc": 0.61416044,
+      "epoch": 0.267376966007103,
+      "grad_norm": 6.75,
+      "learning_rate": 9.809738812481971e-06,
+      "loss": 1.79050331,
+      "memory(GiB)": 111.15,
+      "step": 10540,
+      "train_speed(iter/s)": 0.449099
+    },
+    {
+      "acc": 0.64566631,
+      "epoch": 0.2675038051750381,
+      "grad_norm": 5.25,
+      "learning_rate": 9.809452187672149e-06,
+      "loss": 1.64396667,
+      "memory(GiB)": 111.15,
+      "step": 10545,
+      "train_speed(iter/s)": 0.449211
+    },
+    {
+      "acc": 0.63508387,
+      "epoch": 0.2676306443429731,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.809165351321149e-06,
+      "loss": 1.68749962,
+      "memory(GiB)": 111.15,
+      "step": 10550,
+      "train_speed(iter/s)": 0.449324
+    },
+    {
+      "acc": 0.66122913,
+      "epoch": 0.26775748351090817,
+      "grad_norm": 5.375,
+      "learning_rate": 9.808878303441585e-06,
+      "loss": 1.65110321,
+      "memory(GiB)": 111.15,
+      "step": 10555,
+      "train_speed(iter/s)": 0.449436
+    },
+    {
+      "acc": 0.64469032,
+      "epoch": 0.2678843226788432,
+      "grad_norm": 6.84375,
+      "learning_rate": 9.808591044046083e-06,
+      "loss": 1.69892731,
+      "memory(GiB)": 111.15,
+      "step": 10560,
+      "train_speed(iter/s)": 0.449548
+    },
+    {
+      "acc": 0.64150982,
+      "epoch": 0.2680111618467783,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.808303573147277e-06,
+      "loss": 1.70587845,
+      "memory(GiB)": 111.15,
+      "step": 10565,
+      "train_speed(iter/s)": 0.44966
+    },
+    {
+      "acc": 0.64790754,
+      "epoch": 0.26813800101471336,
+      "grad_norm": 6.25,
+      "learning_rate": 9.808015890757812e-06,
+      "loss": 1.6574131,
+      "memory(GiB)": 111.15,
+      "step": 10570,
+      "train_speed(iter/s)": 0.449773
+    },
+    {
+      "acc": 0.65174494,
+      "epoch": 0.2682648401826484,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.807727996890343e-06,
+      "loss": 1.61414452,
+      "memory(GiB)": 111.15,
+      "step": 10575,
+      "train_speed(iter/s)": 0.449887
+    },
+    {
+      "acc": 0.64311385,
+      "epoch": 0.26839167935058345,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.807439891557533e-06,
+      "loss": 1.66213684,
+      "memory(GiB)": 111.15,
+      "step": 10580,
+      "train_speed(iter/s)": 0.449999
+    },
+    {
+      "acc": 0.63658705,
+      "epoch": 0.26851851851851855,
+      "grad_norm": 5.78125,
+      "learning_rate": 9.80715157477205e-06,
+      "loss": 1.72441101,
+      "memory(GiB)": 111.15,
+      "step": 10585,
+      "train_speed(iter/s)": 0.450112
+    },
+    {
+      "acc": 0.63954258,
+      "epoch": 0.2686453576864536,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.806863046546581e-06,
+      "loss": 1.71004639,
+      "memory(GiB)": 111.15,
+      "step": 10590,
+      "train_speed(iter/s)": 0.450223
+    },
+    {
+      "acc": 0.64068861,
+      "epoch": 0.26877219685438863,
+      "grad_norm": 4.34375,
+      "learning_rate": 9.806574306893814e-06,
+      "loss": 1.69977074,
+      "memory(GiB)": 111.15,
+      "step": 10595,
+      "train_speed(iter/s)": 0.450336
+    },
+    {
+      "acc": 0.65321507,
+      "epoch": 0.2688990360223237,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.806285355826447e-06,
+      "loss": 1.60649109,
+      "memory(GiB)": 111.15,
+      "step": 10600,
+      "train_speed(iter/s)": 0.450449
+    },
+    {
+      "epoch": 0.2688990360223237,
+      "eval_acc": 0.6369589547796132,
+      "eval_loss": 1.6462167501449585,
+      "eval_runtime": 113.7921,
+      "eval_samples_per_second": 55.979,
+      "eval_steps_per_second": 27.99,
+      "step": 10600
+    },
+    {
+      "acc": 0.66060572,
+      "epoch": 0.2690258751902588,
+      "grad_norm": 5.71875,
+      "learning_rate": 9.805996193357194e-06,
+      "loss": 1.60208435,
+      "memory(GiB)": 111.15,
+      "step": 10605,
+      "train_speed(iter/s)": 0.448307
+    },
+    {
+      "acc": 0.62219057,
+      "epoch": 0.2691527143581938,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.80570681949877e-06,
+      "loss": 1.6789711,
+      "memory(GiB)": 111.15,
+      "step": 10610,
+      "train_speed(iter/s)": 0.448419
+    },
+    {
+      "acc": 0.63864217,
+      "epoch": 0.26927955352612887,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.805417234263905e-06,
+      "loss": 1.68765221,
+      "memory(GiB)": 111.15,
+      "step": 10615,
+      "train_speed(iter/s)": 0.448531
+    },
+    {
+      "acc": 0.63425088,
+      "epoch": 0.2694063926940639,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.805127437665333e-06,
+      "loss": 1.74543762,
+      "memory(GiB)": 111.15,
+      "step": 10620,
+      "train_speed(iter/s)": 0.448643
+    },
+    {
+      "acc": 0.6350512,
+      "epoch": 0.269533231861999,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.804837429715805e-06,
+      "loss": 1.73776474,
+      "memory(GiB)": 111.15,
+      "step": 10625,
+      "train_speed(iter/s)": 0.448754
+    },
+    {
+      "acc": 0.65661583,
+      "epoch": 0.26966007102993406,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.804547210428074e-06,
+      "loss": 1.64035664,
+      "memory(GiB)": 111.15,
+      "step": 10630,
+      "train_speed(iter/s)": 0.448867
+    },
+    {
+      "acc": 0.6331749,
+      "epoch": 0.2697869101978691,
+      "grad_norm": 5.5,
+      "learning_rate": 9.804256779814906e-06,
+      "loss": 1.70343304,
+      "memory(GiB)": 111.15,
+      "step": 10635,
+      "train_speed(iter/s)": 0.448979
+    },
+    {
+      "acc": 0.64547281,
+      "epoch": 0.26991374936580415,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.803966137889076e-06,
+      "loss": 1.58225842,
+      "memory(GiB)": 111.15,
+      "step": 10640,
+      "train_speed(iter/s)": 0.449091
+    },
+    {
+      "acc": 0.62487526,
+      "epoch": 0.27004058853373925,
+      "grad_norm": 5.5,
+      "learning_rate": 9.803675284663368e-06,
+      "loss": 1.75015697,
+      "memory(GiB)": 111.15,
+      "step": 10645,
+      "train_speed(iter/s)": 0.449204
+    },
+    {
+      "acc": 0.64729156,
+      "epoch": 0.2701674277016743,
+      "grad_norm": 5.75,
+      "learning_rate": 9.803384220150571e-06,
+      "loss": 1.7088501,
+      "memory(GiB)": 111.15,
+      "step": 10650,
+      "train_speed(iter/s)": 0.449316
+    },
+    {
+      "acc": 0.63795233,
+      "epoch": 0.27029426686960933,
+      "grad_norm": 6.0625,
+      "learning_rate": 9.803092944363493e-06,
+      "loss": 1.72100296,
+      "memory(GiB)": 111.15,
+      "step": 10655,
+      "train_speed(iter/s)": 0.449429
+    },
+    {
+      "acc": 0.66238565,
+      "epoch": 0.2704211060375444,
+      "grad_norm": 5.84375,
+      "learning_rate": 9.802801457314943e-06,
+      "loss": 1.64964027,
+      "memory(GiB)": 111.15,
+      "step": 10660,
+      "train_speed(iter/s)": 0.449542
+    },
+    {
+      "acc": 0.65660119,
+      "epoch": 0.2705479452054795,
+      "grad_norm": 7.0625,
+      "learning_rate": 9.802509759017741e-06,
+      "loss": 1.62792206,
+      "memory(GiB)": 111.15,
+      "step": 10665,
+      "train_speed(iter/s)": 0.449654
+    },
+    {
+      "acc": 0.63391347,
+      "epoch": 0.2706747843734145,
+      "grad_norm": 4.09375,
+      "learning_rate": 9.802217849484719e-06,
+      "loss": 1.72473183,
+      "memory(GiB)": 111.15,
+      "step": 10670,
+      "train_speed(iter/s)": 0.449766
+    },
+    {
+      "acc": 0.64480619,
+      "epoch": 0.27080162354134957,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.801925728728715e-06,
+      "loss": 1.66173363,
+      "memory(GiB)": 111.15,
+      "step": 10675,
+      "train_speed(iter/s)": 0.449878
+    },
+    {
+      "acc": 0.64621096,
+      "epoch": 0.2709284627092846,
+      "grad_norm": 5.0,
+      "learning_rate": 9.801633396762577e-06,
+      "loss": 1.69071236,
+      "memory(GiB)": 111.15,
+      "step": 10680,
+      "train_speed(iter/s)": 0.449989
+    },
+    {
+      "acc": 0.64803853,
+      "epoch": 0.2710553018772197,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.801340853599167e-06,
+      "loss": 1.71612778,
+      "memory(GiB)": 111.15,
+      "step": 10685,
+      "train_speed(iter/s)": 0.4501
+    },
+    {
+      "acc": 0.66075945,
+      "epoch": 0.27118214104515476,
+      "grad_norm": 6.96875,
+      "learning_rate": 9.801048099251348e-06,
+      "loss": 1.61173706,
+      "memory(GiB)": 111.15,
+      "step": 10690,
+      "train_speed(iter/s)": 0.450212
+    },
+    {
+      "acc": 0.63571215,
+      "epoch": 0.2713089802130898,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.800755133731999e-06,
+      "loss": 1.6736496,
+      "memory(GiB)": 111.15,
+      "step": 10695,
+      "train_speed(iter/s)": 0.450324
+    },
+    {
+      "acc": 0.65049639,
+      "epoch": 0.27143581938102485,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.800461957054006e-06,
+      "loss": 1.67568741,
+      "memory(GiB)": 111.15,
+      "step": 10700,
+      "train_speed(iter/s)": 0.450435
+    },
+    {
+      "epoch": 0.27143581938102485,
+      "eval_acc": 0.6369209379544525,
+      "eval_loss": 1.6455292701721191,
+      "eval_runtime": 113.4786,
+      "eval_samples_per_second": 56.134,
+      "eval_steps_per_second": 28.067,
+      "step": 10700
+    },
+    {
+      "acc": 0.64458227,
+      "epoch": 0.27156265854895995,
+      "grad_norm": 5.8125,
+      "learning_rate": 9.800168569230261e-06,
+      "loss": 1.62625351,
+      "memory(GiB)": 111.15,
+      "step": 10705,
+      "train_speed(iter/s)": 0.44832
+    },
+    {
+      "acc": 0.65337734,
+      "epoch": 0.271689497716895,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.799874970273674e-06,
+      "loss": 1.62052536,
+      "memory(GiB)": 111.15,
+      "step": 10710,
+      "train_speed(iter/s)": 0.448431
+    },
+    {
+      "acc": 0.64829273,
+      "epoch": 0.27181633688483003,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.799581160197156e-06,
+      "loss": 1.6696476,
+      "memory(GiB)": 111.15,
+      "step": 10715,
+      "train_speed(iter/s)": 0.448542
+    },
+    {
+      "acc": 0.65377245,
+      "epoch": 0.2719431760527651,
+      "grad_norm": 4.1875,
+      "learning_rate": 9.799287139013628e-06,
+      "loss": 1.61526585,
+      "memory(GiB)": 111.15,
+      "step": 10720,
+      "train_speed(iter/s)": 0.448652
+    },
+    {
+      "acc": 0.65760822,
+      "epoch": 0.2720700152207002,
+      "grad_norm": 5.25,
+      "learning_rate": 9.798992906736028e-06,
+      "loss": 1.57026005,
+      "memory(GiB)": 111.15,
+      "step": 10725,
+      "train_speed(iter/s)": 0.448763
+    },
+    {
+      "acc": 0.64212141,
+      "epoch": 0.2721968543886352,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.79869846337729e-06,
+      "loss": 1.68452644,
+      "memory(GiB)": 111.15,
+      "step": 10730,
+      "train_speed(iter/s)": 0.448874
+    },
+    {
+      "acc": 0.63777227,
+      "epoch": 0.27232369355657027,
+      "grad_norm": 6.09375,
+      "learning_rate": 9.79840380895037e-06,
+      "loss": 1.68718719,
+      "memory(GiB)": 111.15,
+      "step": 10735,
+      "train_speed(iter/s)": 0.448983
+    },
+    {
+      "acc": 0.65433426,
+      "epoch": 0.2724505327245053,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.798108943468228e-06,
+      "loss": 1.5699688,
+      "memory(GiB)": 111.15,
+      "step": 10740,
+      "train_speed(iter/s)": 0.449094
+    },
+    {
+      "acc": 0.63904018,
+      "epoch": 0.2725773718924404,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.797813866943832e-06,
+      "loss": 1.62258835,
+      "memory(GiB)": 111.15,
+      "step": 10745,
+      "train_speed(iter/s)": 0.449205
+    },
+    {
+      "acc": 0.65388136,
+      "epoch": 0.27270421106037546,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.797518579390162e-06,
+      "loss": 1.54560442,
+      "memory(GiB)": 111.15,
+      "step": 10750,
+      "train_speed(iter/s)": 0.449316
+    },
+    {
+      "acc": 0.65189171,
+      "epoch": 0.2728310502283105,
+      "grad_norm": 4.375,
+      "learning_rate": 9.797223080820204e-06,
+      "loss": 1.62971153,
+      "memory(GiB)": 111.15,
+      "step": 10755,
+      "train_speed(iter/s)": 0.449426
+    },
+    {
+      "acc": 0.63916759,
+      "epoch": 0.27295788939624555,
+      "grad_norm": 4.625,
+      "learning_rate": 9.796927371246958e-06,
+      "loss": 1.66935959,
+      "memory(GiB)": 111.15,
+      "step": 10760,
+      "train_speed(iter/s)": 0.449537
+    },
+    {
+      "acc": 0.6458045,
+      "epoch": 0.27308472856418065,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.796631450683431e-06,
+      "loss": 1.64870815,
+      "memory(GiB)": 111.15,
+      "step": 10765,
+      "train_speed(iter/s)": 0.449647
+    },
+    {
+      "acc": 0.63077965,
+      "epoch": 0.2732115677321157,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.796335319142637e-06,
+      "loss": 1.65166626,
+      "memory(GiB)": 111.15,
+      "step": 10770,
+      "train_speed(iter/s)": 0.449758
+    },
+    {
+      "acc": 0.64339128,
+      "epoch": 0.27333840690005073,
+      "grad_norm": 5.6875,
+      "learning_rate": 9.796038976637599e-06,
+      "loss": 1.66504822,
+      "memory(GiB)": 111.15,
+      "step": 10775,
+      "train_speed(iter/s)": 0.449869
+    },
+    {
+      "acc": 0.6482748,
+      "epoch": 0.2734652460679858,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.795742423181355e-06,
+      "loss": 1.65122929,
+      "memory(GiB)": 111.15,
+      "step": 10780,
+      "train_speed(iter/s)": 0.44998
+    },
+    {
+      "acc": 0.63234205,
+      "epoch": 0.2735920852359209,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.795445658786948e-06,
+      "loss": 1.76725044,
+      "memory(GiB)": 111.15,
+      "step": 10785,
+      "train_speed(iter/s)": 0.450091
+    },
+    {
+      "acc": 0.64653225,
+      "epoch": 0.2737189244038559,
+      "grad_norm": 5.0,
+      "learning_rate": 9.795148683467431e-06,
+      "loss": 1.66851044,
+      "memory(GiB)": 111.15,
+      "step": 10790,
+      "train_speed(iter/s)": 0.450201
+    },
+    {
+      "acc": 0.6354784,
+      "epoch": 0.27384576357179097,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.794851497235866e-06,
+      "loss": 1.66212234,
+      "memory(GiB)": 111.15,
+      "step": 10795,
+      "train_speed(iter/s)": 0.450313
+    },
+    {
+      "acc": 0.6351965,
+      "epoch": 0.273972602739726,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.794554100105325e-06,
+      "loss": 1.62322807,
+      "memory(GiB)": 111.15,
+      "step": 10800,
+      "train_speed(iter/s)": 0.450424
+    },
+    {
+      "epoch": 0.273972602739726,
+      "eval_acc": 0.637052952424241,
+      "eval_loss": 1.64460027217865,
+      "eval_runtime": 112.9875,
+      "eval_samples_per_second": 56.378,
+      "eval_steps_per_second": 28.189,
+      "step": 10800
+    },
+    {
+      "acc": 0.63959303,
+      "epoch": 0.2740994419076611,
+      "grad_norm": 4.6875,
+      "learning_rate": 9.794256492088888e-06,
+      "loss": 1.64184456,
+      "memory(GiB)": 111.15,
+      "step": 10805,
+      "train_speed(iter/s)": 0.448338
+    },
+    {
+      "acc": 0.64204593,
+      "epoch": 0.27422628107559616,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.793958673199647e-06,
+      "loss": 1.69917564,
+      "memory(GiB)": 111.15,
+      "step": 10810,
+      "train_speed(iter/s)": 0.448448
+    },
+    {
+      "acc": 0.65081358,
+      "epoch": 0.2743531202435312,
+      "grad_norm": 4.46875,
+      "learning_rate": 9.793660643450697e-06,
+      "loss": 1.63717918,
+      "memory(GiB)": 111.15,
+      "step": 10815,
+      "train_speed(iter/s)": 0.448559
+    },
+    {
+      "acc": 0.6347259,
+      "epoch": 0.27447995941146625,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.793362402855152e-06,
+      "loss": 1.66847305,
+      "memory(GiB)": 111.15,
+      "step": 10820,
+      "train_speed(iter/s)": 0.448669
+    },
+    {
+      "acc": 0.63835955,
+      "epoch": 0.27460679857940135,
+      "grad_norm": 5.5,
+      "learning_rate": 9.79306395142613e-06,
+      "loss": 1.63952446,
+      "memory(GiB)": 111.15,
+      "step": 10825,
+      "train_speed(iter/s)": 0.44878
+    },
+    {
+      "acc": 0.65294881,
+      "epoch": 0.2747336377473364,
+      "grad_norm": 4.3125,
+      "learning_rate": 9.792765289176751e-06,
+      "loss": 1.62337971,
+      "memory(GiB)": 111.15,
+      "step": 10830,
+      "train_speed(iter/s)": 0.44889
+    },
+    {
+      "acc": 0.63839631,
+      "epoch": 0.27486047691527143,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.79246641612016e-06,
+      "loss": 1.66194191,
+      "memory(GiB)": 111.15,
+      "step": 10835,
+      "train_speed(iter/s)": 0.449001
+    },
+    {
+      "acc": 0.64459667,
+      "epoch": 0.2749873160832065,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.792167332269498e-06,
+      "loss": 1.65412235,
+      "memory(GiB)": 111.15,
+      "step": 10840,
+      "train_speed(iter/s)": 0.449112
+    },
+    {
+      "acc": 0.65780134,
+      "epoch": 0.2751141552511416,
+      "grad_norm": 4.625,
+      "learning_rate": 9.791868037637922e-06,
+      "loss": 1.62622795,
+      "memory(GiB)": 111.15,
+      "step": 10845,
+      "train_speed(iter/s)": 0.449223
+    },
+    {
+      "acc": 0.64601293,
+      "epoch": 0.2752409944190766,
+      "grad_norm": 5.625,
+      "learning_rate": 9.791568532238594e-06,
+      "loss": 1.6990694,
+      "memory(GiB)": 111.15,
+      "step": 10850,
+      "train_speed(iter/s)": 0.449334
+    },
+    {
+      "acc": 0.64925914,
+      "epoch": 0.27536783358701167,
+      "grad_norm": 5.5,
+      "learning_rate": 9.79126881608469e-06,
+      "loss": 1.68230667,
+      "memory(GiB)": 111.15,
+      "step": 10855,
+      "train_speed(iter/s)": 0.449444
+    },
+    {
+      "acc": 0.64796381,
+      "epoch": 0.2754946727549467,
+      "grad_norm": 5.6875,
+      "learning_rate": 9.790968889189392e-06,
+      "loss": 1.66537838,
+      "memory(GiB)": 111.15,
+      "step": 10860,
+      "train_speed(iter/s)": 0.449555
+    },
+    {
+      "acc": 0.65023007,
+      "epoch": 0.2756215119228818,
+      "grad_norm": 5.78125,
+      "learning_rate": 9.790668751565893e-06,
+      "loss": 1.65628929,
+      "memory(GiB)": 111.15,
+      "step": 10865,
+      "train_speed(iter/s)": 0.449666
+    },
+    {
+      "acc": 0.65258899,
+      "epoch": 0.27574835109081686,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.790368403227391e-06,
+      "loss": 1.70908203,
+      "memory(GiB)": 111.15,
+      "step": 10870,
+      "train_speed(iter/s)": 0.449776
+    },
+    {
+      "acc": 0.64060316,
+      "epoch": 0.2758751902587519,
+      "grad_norm": 4.5,
+      "learning_rate": 9.7900678441871e-06,
+      "loss": 1.62029591,
+      "memory(GiB)": 111.15,
+      "step": 10875,
+      "train_speed(iter/s)": 0.449886
+    },
+    {
+      "acc": 0.63888922,
+      "epoch": 0.27600202942668695,
+      "grad_norm": 5.5,
+      "learning_rate": 9.78976707445824e-06,
+      "loss": 1.63015079,
+      "memory(GiB)": 111.15,
+      "step": 10880,
+      "train_speed(iter/s)": 0.449996
+    },
+    {
+      "acc": 0.64855566,
+      "epoch": 0.27612886859462205,
+      "grad_norm": 5.6875,
+      "learning_rate": 9.78946609405404e-06,
+      "loss": 1.69419975,
+      "memory(GiB)": 111.15,
+      "step": 10885,
+      "train_speed(iter/s)": 0.450106
+    },
+    {
+      "acc": 0.65410242,
+      "epoch": 0.2762557077625571,
+      "grad_norm": 6.96875,
+      "learning_rate": 9.789164902987738e-06,
+      "loss": 1.63207436,
+      "memory(GiB)": 111.15,
+      "step": 10890,
+      "train_speed(iter/s)": 0.450216
+    },
+    {
+      "acc": 0.66555386,
+      "epoch": 0.27638254693049213,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.78886350127258e-06,
+      "loss": 1.59287901,
+      "memory(GiB)": 111.15,
+      "step": 10895,
+      "train_speed(iter/s)": 0.450326
+    },
+    {
+      "acc": 0.63766856,
+      "epoch": 0.2765093860984272,
+      "grad_norm": 5.125,
+      "learning_rate": 9.788561888921825e-06,
+      "loss": 1.71051807,
+      "memory(GiB)": 111.15,
+      "step": 10900,
+      "train_speed(iter/s)": 0.450436
+    },
+    {
+      "epoch": 0.2765093860984272,
+      "eval_acc": 0.6372250725557375,
+      "eval_loss": 1.6446298360824585,
+      "eval_runtime": 112.6253,
+      "eval_samples_per_second": 56.559,
+      "eval_steps_per_second": 28.28,
+      "step": 10900
+    },
+    {
+      "acc": 0.65730972,
+      "epoch": 0.2766362252663623,
+      "grad_norm": 5.9375,
+      "learning_rate": 9.788260065948738e-06,
+      "loss": 1.67935715,
+      "memory(GiB)": 111.15,
+      "step": 10905,
+      "train_speed(iter/s)": 0.448376
+    },
+    {
+      "acc": 0.62518539,
+      "epoch": 0.2767630644342973,
+      "grad_norm": 5.75,
+      "learning_rate": 9.787958032366596e-06,
+      "loss": 1.72752686,
+      "memory(GiB)": 111.15,
+      "step": 10910,
+      "train_speed(iter/s)": 0.448486
+    },
+    {
+      "acc": 0.65110226,
+      "epoch": 0.27688990360223237,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.787655788188684e-06,
+      "loss": 1.59783077,
+      "memory(GiB)": 111.15,
+      "step": 10915,
+      "train_speed(iter/s)": 0.448594
+    },
+    {
+      "acc": 0.65954733,
+      "epoch": 0.2770167427701674,
+      "grad_norm": 5.375,
+      "learning_rate": 9.787353333428293e-06,
+      "loss": 1.5819643,
+      "memory(GiB)": 111.15,
+      "step": 10920,
+      "train_speed(iter/s)": 0.448703
+    },
+    {
+      "acc": 0.63955789,
+      "epoch": 0.2771435819381025,
+      "grad_norm": 5.6875,
+      "learning_rate": 9.78705066809873e-06,
+      "loss": 1.67073822,
+      "memory(GiB)": 111.15,
+      "step": 10925,
+      "train_speed(iter/s)": 0.448813
+    },
+    {
+      "acc": 0.63286953,
+      "epoch": 0.27727042110603756,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.786747792213304e-06,
+      "loss": 1.72865868,
+      "memory(GiB)": 111.15,
+      "step": 10930,
+      "train_speed(iter/s)": 0.448921
+    },
+    {
+      "acc": 0.65135775,
+      "epoch": 0.2773972602739726,
+      "grad_norm": 5.84375,
+      "learning_rate": 9.78644470578534e-06,
+      "loss": 1.64770889,
+      "memory(GiB)": 111.15,
+      "step": 10935,
+      "train_speed(iter/s)": 0.449031
+    },
+    {
+      "acc": 0.6353941,
+      "epoch": 0.27752409944190765,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.78614140882817e-06,
+      "loss": 1.71120033,
+      "memory(GiB)": 111.15,
+      "step": 10940,
+      "train_speed(iter/s)": 0.44914
+    },
+    {
+      "acc": 0.66260204,
+      "epoch": 0.27765093860984275,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.78583790135513e-06,
+      "loss": 1.6121273,
+      "memory(GiB)": 111.15,
+      "step": 10945,
+      "train_speed(iter/s)": 0.449249
+    },
+    {
+      "acc": 0.65313053,
+      "epoch": 0.2777777777777778,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.785534183379571e-06,
+      "loss": 1.64291039,
+      "memory(GiB)": 111.15,
+      "step": 10950,
+      "train_speed(iter/s)": 0.449357
+    },
+    {
+      "acc": 0.63889456,
+      "epoch": 0.27790461694571283,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.785230254914855e-06,
+      "loss": 1.69854431,
+      "memory(GiB)": 111.15,
+      "step": 10955,
+      "train_speed(iter/s)": 0.449466
+    },
+    {
+      "acc": 0.63251867,
+      "epoch": 0.2780314561136479,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.784926115974346e-06,
+      "loss": 1.70529423,
+      "memory(GiB)": 111.15,
+      "step": 10960,
+      "train_speed(iter/s)": 0.449575
+    },
+    {
+      "acc": 0.65269289,
+      "epoch": 0.278158295281583,
+      "grad_norm": 4.75,
+      "learning_rate": 9.784621766571424e-06,
+      "loss": 1.64479561,
+      "memory(GiB)": 111.15,
+      "step": 10965,
+      "train_speed(iter/s)": 0.449684
+    },
+    {
+      "acc": 0.64205313,
+      "epoch": 0.278285134449518,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.784317206719475e-06,
+      "loss": 1.7293457,
+      "memory(GiB)": 111.15,
+      "step": 10970,
+      "train_speed(iter/s)": 0.449793
+    },
+    {
+      "acc": 0.63773346,
+      "epoch": 0.27841197361745307,
+      "grad_norm": 4.3125,
+      "learning_rate": 9.784012436431896e-06,
+      "loss": 1.66916771,
+      "memory(GiB)": 111.15,
+      "step": 10975,
+      "train_speed(iter/s)": 0.449902
+    },
+    {
+      "acc": 0.65136795,
+      "epoch": 0.2785388127853881,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.78370745572209e-06,
+      "loss": 1.68317585,
+      "memory(GiB)": 111.15,
+      "step": 10980,
+      "train_speed(iter/s)": 0.450011
+    },
+    {
+      "acc": 0.63882689,
+      "epoch": 0.2786656519533232,
+      "grad_norm": 5.875,
+      "learning_rate": 9.783402264603471e-06,
+      "loss": 1.60392971,
+      "memory(GiB)": 111.15,
+      "step": 10985,
+      "train_speed(iter/s)": 0.450119
+    },
+    {
+      "acc": 0.63746691,
+      "epoch": 0.27879249112125826,
+      "grad_norm": 4.53125,
+      "learning_rate": 9.783096863089465e-06,
+      "loss": 1.64590454,
+      "memory(GiB)": 111.15,
+      "step": 10990,
+      "train_speed(iter/s)": 0.450227
+    },
+    {
+      "acc": 0.65722866,
+      "epoch": 0.2789193302891933,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.782791251193505e-06,
+      "loss": 1.52460938,
+      "memory(GiB)": 111.15,
+      "step": 10995,
+      "train_speed(iter/s)": 0.450337
+    },
+    {
+      "acc": 0.64458003,
+      "epoch": 0.27904616945712835,
+      "grad_norm": 4.3125,
+      "learning_rate": 9.782485428929032e-06,
+      "loss": 1.64803886,
+      "memory(GiB)": 111.15,
+      "step": 11000,
+      "train_speed(iter/s)": 0.450445
+    },
+    {
+      "epoch": 0.27904616945712835,
+      "eval_acc": 0.6371958288440754,
+      "eval_loss": 1.6440985202789307,
+      "eval_runtime": 113.9778,
+      "eval_samples_per_second": 55.888,
+      "eval_steps_per_second": 27.944,
+      "step": 11000
+    },
+    {
+      "acc": 0.65625963,
+      "epoch": 0.27917300862506345,
+      "grad_norm": 5.125,
+      "learning_rate": 9.782179396309496e-06,
+      "loss": 1.68092861,
+      "memory(GiB)": 111.15,
+      "step": 11005,
+      "train_speed(iter/s)": 0.448378
+    },
+    {
+      "acc": 0.63286467,
+      "epoch": 0.2792998477929985,
+      "grad_norm": 4.6875,
+      "learning_rate": 9.78187315334836e-06,
+      "loss": 1.66688595,
+      "memory(GiB)": 111.15,
+      "step": 11010,
+      "train_speed(iter/s)": 0.448486
+    },
+    {
+      "acc": 0.637713,
+      "epoch": 0.27942668696093353,
+      "grad_norm": 5.125,
+      "learning_rate": 9.781566700059094e-06,
+      "loss": 1.65753059,
+      "memory(GiB)": 111.15,
+      "step": 11015,
+      "train_speed(iter/s)": 0.448594
+    },
+    {
+      "acc": 0.63673034,
+      "epoch": 0.2795535261288686,
+      "grad_norm": 6.5625,
+      "learning_rate": 9.781260036455176e-06,
+      "loss": 1.73183899,
+      "memory(GiB)": 111.15,
+      "step": 11020,
+      "train_speed(iter/s)": 0.448701
+    },
+    {
+      "acc": 0.66248817,
+      "epoch": 0.2796803652968037,
+      "grad_norm": 4.5,
+      "learning_rate": 9.780953162550093e-06,
+      "loss": 1.61990871,
+      "memory(GiB)": 111.15,
+      "step": 11025,
+      "train_speed(iter/s)": 0.448808
+    },
+    {
+      "acc": 0.63879566,
+      "epoch": 0.2798072044647387,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.780646078357346e-06,
+      "loss": 1.67689247,
+      "memory(GiB)": 111.15,
+      "step": 11030,
+      "train_speed(iter/s)": 0.448916
+    },
+    {
+      "acc": 0.64713459,
+      "epoch": 0.27993404363267377,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.78033878389044e-06,
+      "loss": 1.72274246,
+      "memory(GiB)": 111.15,
+      "step": 11035,
+      "train_speed(iter/s)": 0.449024
+    },
+    {
+      "acc": 0.65327854,
+      "epoch": 0.2800608828006088,
+      "grad_norm": 6.8125,
+      "learning_rate": 9.780031279162892e-06,
+      "loss": 1.6879549,
+      "memory(GiB)": 111.15,
+      "step": 11040,
+      "train_speed(iter/s)": 0.449131
+    },
+    {
+      "acc": 0.65426345,
+      "epoch": 0.2801877219685439,
+      "grad_norm": 7.5,
+      "learning_rate": 9.779723564188228e-06,
+      "loss": 1.71193504,
+      "memory(GiB)": 111.15,
+      "step": 11045,
+      "train_speed(iter/s)": 0.44924
+    },
+    {
+      "acc": 0.63709173,
+      "epoch": 0.28031456113647896,
+      "grad_norm": 5.8125,
+      "learning_rate": 9.77941563897998e-06,
+      "loss": 1.68700409,
+      "memory(GiB)": 111.15,
+      "step": 11050,
+      "train_speed(iter/s)": 0.449348
+    },
+    {
+      "acc": 0.64473991,
+      "epoch": 0.280441400304414,
+      "grad_norm": 5.0,
+      "learning_rate": 9.779107503551695e-06,
+      "loss": 1.66767731,
+      "memory(GiB)": 111.15,
+      "step": 11055,
+      "train_speed(iter/s)": 0.449456
+    },
+    {
+      "acc": 0.6568327,
+      "epoch": 0.28056823947234905,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.778799157916926e-06,
+      "loss": 1.6142765,
+      "memory(GiB)": 111.15,
+      "step": 11060,
+      "train_speed(iter/s)": 0.449562
+    },
+    {
+      "acc": 0.6405899,
+      "epoch": 0.28069507864028415,
+      "grad_norm": 4.40625,
+      "learning_rate": 9.77849060208923e-06,
+      "loss": 1.68636894,
+      "memory(GiB)": 111.15,
+      "step": 11065,
+      "train_speed(iter/s)": 0.449669
+    },
+    {
+      "acc": 0.63269148,
+      "epoch": 0.2808219178082192,
+      "grad_norm": 4.6875,
+      "learning_rate": 9.778181836082185e-06,
+      "loss": 1.69798508,
+      "memory(GiB)": 111.15,
+      "step": 11070,
+      "train_speed(iter/s)": 0.449776
+    },
+    {
+      "acc": 0.6535573,
+      "epoch": 0.28094875697615423,
+      "grad_norm": 6.28125,
+      "learning_rate": 9.777872859909373e-06,
+      "loss": 1.64425087,
+      "memory(GiB)": 111.15,
+      "step": 11075,
+      "train_speed(iter/s)": 0.449884
+    },
+    {
+      "acc": 0.66931486,
+      "epoch": 0.2810755961440893,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.777563673584376e-06,
+      "loss": 1.57153587,
+      "memory(GiB)": 111.15,
+      "step": 11080,
+      "train_speed(iter/s)": 0.449991
+    },
+    {
+      "acc": 0.64883709,
+      "epoch": 0.2812024353120244,
+      "grad_norm": 5.9375,
+      "learning_rate": 9.777254277120801e-06,
+      "loss": 1.64784203,
+      "memory(GiB)": 111.15,
+      "step": 11085,
+      "train_speed(iter/s)": 0.450098
+    },
+    {
+      "acc": 0.66168542,
+      "epoch": 0.2813292744799594,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.776944670532253e-06,
+      "loss": 1.64538383,
+      "memory(GiB)": 111.15,
+      "step": 11090,
+      "train_speed(iter/s)": 0.450205
+    },
+    {
+      "acc": 0.64872818,
+      "epoch": 0.28145611364789447,
+      "grad_norm": 5.75,
+      "learning_rate": 9.776634853832352e-06,
+      "loss": 1.62329617,
+      "memory(GiB)": 111.15,
+      "step": 11095,
+      "train_speed(iter/s)": 0.450313
+    },
+    {
+      "acc": 0.65059605,
+      "epoch": 0.2815829528158295,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.776324827034724e-06,
+      "loss": 1.66148243,
+      "memory(GiB)": 111.15,
+      "step": 11100,
+      "train_speed(iter/s)": 0.45042
+    },
+    {
+      "epoch": 0.2815829528158295,
+      "eval_acc": 0.6373219945715316,
+      "eval_loss": 1.6432462930679321,
+      "eval_runtime": 112.8929,
+      "eval_samples_per_second": 56.425,
+      "eval_steps_per_second": 28.213,
+      "step": 11100
+    },
+    {
+      "acc": 0.64392147,
+      "epoch": 0.2817097919837646,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.776014590153005e-06,
+      "loss": 1.66989422,
+      "memory(GiB)": 111.15,
+      "step": 11105,
+      "train_speed(iter/s)": 0.448391
+    },
+    {
+      "acc": 0.65874119,
+      "epoch": 0.28183663115169966,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.77570414320084e-06,
+      "loss": 1.60502071,
+      "memory(GiB)": 111.15,
+      "step": 11110,
+      "train_speed(iter/s)": 0.448497
+    },
+    {
+      "acc": 0.65444789,
+      "epoch": 0.2819634703196347,
+      "grad_norm": 5.5,
+      "learning_rate": 9.775393486191884e-06,
+      "loss": 1.6413517,
+      "memory(GiB)": 111.15,
+      "step": 11115,
+      "train_speed(iter/s)": 0.448603
+    },
+    {
+      "acc": 0.63810673,
+      "epoch": 0.28209030948756975,
+      "grad_norm": 5.875,
+      "learning_rate": 9.775082619139805e-06,
+      "loss": 1.67183723,
+      "memory(GiB)": 111.15,
+      "step": 11120,
+      "train_speed(iter/s)": 0.44871
+    },
+    {
+      "acc": 0.66055446,
+      "epoch": 0.28221714865550485,
+      "grad_norm": 5.75,
+      "learning_rate": 9.77477154205827e-06,
+      "loss": 1.63652782,
+      "memory(GiB)": 111.15,
+      "step": 11125,
+      "train_speed(iter/s)": 0.448817
+    },
+    {
+      "acc": 0.63723497,
+      "epoch": 0.2823439878234399,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.774460254960968e-06,
+      "loss": 1.64890442,
+      "memory(GiB)": 111.15,
+      "step": 11130,
+      "train_speed(iter/s)": 0.448925
+    },
+    {
+      "acc": 0.65797944,
+      "epoch": 0.28247082699137493,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.774148757861584e-06,
+      "loss": 1.59983253,
+      "memory(GiB)": 111.15,
+      "step": 11135,
+      "train_speed(iter/s)": 0.449031
+    },
+    {
+      "acc": 0.64013643,
+      "epoch": 0.28259766615931,
+      "grad_norm": 5.75,
+      "learning_rate": 9.773837050773824e-06,
+      "loss": 1.72286663,
+      "memory(GiB)": 111.15,
+      "step": 11140,
+      "train_speed(iter/s)": 0.449138
+    },
+    {
+      "acc": 0.62790108,
+      "epoch": 0.2827245053272451,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.773525133711399e-06,
+      "loss": 1.71524029,
+      "memory(GiB)": 111.15,
+      "step": 11145,
+      "train_speed(iter/s)": 0.449245
+    },
+    {
+      "acc": 0.64691563,
+      "epoch": 0.2828513444951801,
+      "grad_norm": 4.625,
+      "learning_rate": 9.773213006688024e-06,
+      "loss": 1.68762417,
+      "memory(GiB)": 111.15,
+      "step": 11150,
+      "train_speed(iter/s)": 0.449351
+    },
+    {
+      "acc": 0.62633705,
+      "epoch": 0.28297818366311517,
+      "grad_norm": 5.0,
+      "learning_rate": 9.77290066971743e-06,
+      "loss": 1.73390636,
+      "memory(GiB)": 111.15,
+      "step": 11155,
+      "train_speed(iter/s)": 0.449458
+    },
+    {
+      "acc": 0.63712168,
+      "epoch": 0.2831050228310502,
+      "grad_norm": 4.625,
+      "learning_rate": 9.772588122813358e-06,
+      "loss": 1.679105,
+      "memory(GiB)": 111.15,
+      "step": 11160,
+      "train_speed(iter/s)": 0.449564
+    },
+    {
+      "acc": 0.65788794,
+      "epoch": 0.2832318619989853,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.772275365989548e-06,
+      "loss": 1.65855522,
+      "memory(GiB)": 111.15,
+      "step": 11165,
+      "train_speed(iter/s)": 0.449671
+    },
+    {
+      "acc": 0.65132484,
+      "epoch": 0.28335870116692036,
+      "grad_norm": 5.375,
+      "learning_rate": 9.771962399259764e-06,
+      "loss": 1.64876175,
+      "memory(GiB)": 111.15,
+      "step": 11170,
+      "train_speed(iter/s)": 0.449777
+    },
+    {
+      "acc": 0.65645885,
+      "epoch": 0.2834855403348554,
+      "grad_norm": 5.125,
+      "learning_rate": 9.771649222637767e-06,
+      "loss": 1.55534706,
+      "memory(GiB)": 111.15,
+      "step": 11175,
+      "train_speed(iter/s)": 0.449883
+    },
+    {
+      "acc": 0.61657734,
+      "epoch": 0.28361237950279045,
+      "grad_norm": 6.09375,
+      "learning_rate": 9.771335836137332e-06,
+      "loss": 1.73665085,
+      "memory(GiB)": 111.15,
+      "step": 11180,
+      "train_speed(iter/s)": 0.44999
+    },
+    {
+      "acc": 0.65149679,
+      "epoch": 0.28373921867072555,
+      "grad_norm": 5.125,
+      "learning_rate": 9.771022239772248e-06,
+      "loss": 1.59150524,
+      "memory(GiB)": 111.15,
+      "step": 11185,
+      "train_speed(iter/s)": 0.450095
+    },
+    {
+      "acc": 0.64141812,
+      "epoch": 0.2838660578386606,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.770708433556302e-06,
+      "loss": 1.72291679,
+      "memory(GiB)": 111.15,
+      "step": 11190,
+      "train_speed(iter/s)": 0.450201
+    },
+    {
+      "acc": 0.64601059,
+      "epoch": 0.28399289700659563,
+      "grad_norm": 5.25,
+      "learning_rate": 9.7703944175033e-06,
+      "loss": 1.66540737,
+      "memory(GiB)": 111.15,
+      "step": 11195,
+      "train_speed(iter/s)": 0.450307
+    },
+    {
+      "acc": 0.65243759,
+      "epoch": 0.2841197361745307,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.770080191627054e-06,
+      "loss": 1.61659222,
+      "memory(GiB)": 111.15,
+      "step": 11200,
+      "train_speed(iter/s)": 0.450413
+    },
+    {
+      "epoch": 0.2841197361745307,
+      "eval_acc": 0.6374435648585837,
+      "eval_loss": 1.6428890228271484,
+      "eval_runtime": 114.2028,
+      "eval_samples_per_second": 55.778,
+      "eval_steps_per_second": 27.889,
+      "step": 11200
+    },
+    {
+      "acc": 0.65002193,
+      "epoch": 0.2842465753424658,
+      "grad_norm": 4.40625,
+      "learning_rate": 9.769765755941383e-06,
+      "loss": 1.63769264,
+      "memory(GiB)": 111.15,
+      "step": 11205,
+      "train_speed(iter/s)": 0.448379
+    },
+    {
+      "acc": 0.64336171,
+      "epoch": 0.2843734145104008,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.76945111046012e-06,
+      "loss": 1.66362648,
+      "memory(GiB)": 111.15,
+      "step": 11210,
+      "train_speed(iter/s)": 0.448485
+    },
+    {
+      "acc": 0.63385491,
+      "epoch": 0.28450025367833587,
+      "grad_norm": 5.5,
+      "learning_rate": 9.769136255197103e-06,
+      "loss": 1.73203564,
+      "memory(GiB)": 111.15,
+      "step": 11215,
+      "train_speed(iter/s)": 0.448591
+    },
+    {
+      "acc": 0.64736862,
+      "epoch": 0.2846270928462709,
+      "grad_norm": 5.75,
+      "learning_rate": 9.768821190166179e-06,
+      "loss": 1.65053291,
+      "memory(GiB)": 111.15,
+      "step": 11220,
+      "train_speed(iter/s)": 0.448698
+    },
+    {
+      "acc": 0.64030943,
+      "epoch": 0.284753932014206,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.76850591538121e-06,
+      "loss": 1.60505371,
+      "memory(GiB)": 111.15,
+      "step": 11225,
+      "train_speed(iter/s)": 0.448804
+    },
+    {
+      "acc": 0.6424767,
+      "epoch": 0.28488077118214106,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.76819043085606e-06,
+      "loss": 1.61811295,
+      "memory(GiB)": 111.15,
+      "step": 11230,
+      "train_speed(iter/s)": 0.448911
+    },
+    {
+      "acc": 0.65504217,
+      "epoch": 0.2850076103500761,
+      "grad_norm": 4.4375,
+      "learning_rate": 9.767874736604605e-06,
+      "loss": 1.61249866,
+      "memory(GiB)": 111.15,
+      "step": 11235,
+      "train_speed(iter/s)": 0.449017
+    },
+    {
+      "acc": 0.65184245,
+      "epoch": 0.28513444951801115,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.767558832640734e-06,
+      "loss": 1.5913414,
+      "memory(GiB)": 111.15,
+      "step": 11240,
+      "train_speed(iter/s)": 0.449123
+    },
+    {
+      "acc": 0.65228891,
+      "epoch": 0.28526128868594625,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.76724271897834e-06,
+      "loss": 1.55513945,
+      "memory(GiB)": 111.15,
+      "step": 11245,
+      "train_speed(iter/s)": 0.449228
+    },
+    {
+      "acc": 0.63418932,
+      "epoch": 0.2853881278538813,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.766926395631326e-06,
+      "loss": 1.73253365,
+      "memory(GiB)": 111.15,
+      "step": 11250,
+      "train_speed(iter/s)": 0.449334
+    },
+    {
+      "acc": 0.6566186,
+      "epoch": 0.28551496702181633,
+      "grad_norm": 6.125,
+      "learning_rate": 9.766609862613607e-06,
+      "loss": 1.62139435,
+      "memory(GiB)": 111.15,
+      "step": 11255,
+      "train_speed(iter/s)": 0.44944
+    },
+    {
+      "acc": 0.65278406,
+      "epoch": 0.2856418061897514,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.766293119939104e-06,
+      "loss": 1.68457394,
+      "memory(GiB)": 111.15,
+      "step": 11260,
+      "train_speed(iter/s)": 0.449547
+    },
+    {
+      "acc": 0.65203304,
+      "epoch": 0.2857686453576865,
+      "grad_norm": 5.0,
+      "learning_rate": 9.76597616762175e-06,
+      "loss": 1.64673347,
+      "memory(GiB)": 111.15,
+      "step": 11265,
+      "train_speed(iter/s)": 0.449652
+    },
+    {
+      "acc": 0.63427362,
+      "epoch": 0.2858954845256215,
+      "grad_norm": 4.28125,
+      "learning_rate": 9.765659005675488e-06,
+      "loss": 1.63265877,
+      "memory(GiB)": 111.15,
+      "step": 11270,
+      "train_speed(iter/s)": 0.449757
+    },
+    {
+      "acc": 0.6284483,
+      "epoch": 0.28602232369355657,
+      "grad_norm": 4.75,
+      "learning_rate": 9.765341634114263e-06,
+      "loss": 1.71627026,
+      "memory(GiB)": 111.15,
+      "step": 11275,
+      "train_speed(iter/s)": 0.449863
+    },
+    {
+      "acc": 0.64157157,
+      "epoch": 0.2861491628614916,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.765024052952037e-06,
+      "loss": 1.65192795,
+      "memory(GiB)": 111.15,
+      "step": 11280,
+      "train_speed(iter/s)": 0.449969
+    },
+    {
+      "acc": 0.63879046,
+      "epoch": 0.2862760020294267,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.76470626220278e-06,
+      "loss": 1.70751534,
+      "memory(GiB)": 111.15,
+      "step": 11285,
+      "train_speed(iter/s)": 0.450075
+    },
+    {
+      "acc": 0.63971567,
+      "epoch": 0.28640284119736176,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.76438826188047e-06,
+      "loss": 1.66216564,
+      "memory(GiB)": 111.15,
+      "step": 11290,
+      "train_speed(iter/s)": 0.45018
+    },
+    {
+      "acc": 0.6330039,
+      "epoch": 0.2865296803652968,
+      "grad_norm": 6.15625,
+      "learning_rate": 9.76407005199909e-06,
+      "loss": 1.69981003,
+      "memory(GiB)": 111.15,
+      "step": 11295,
+      "train_speed(iter/s)": 0.450285
+    },
+    {
+      "acc": 0.6402606,
+      "epoch": 0.28665651953323185,
+      "grad_norm": 4.1875,
+      "learning_rate": 9.76375163257264e-06,
+      "loss": 1.63105011,
+      "memory(GiB)": 111.15,
+      "step": 11300,
+      "train_speed(iter/s)": 0.45039
+    },
+    {
+      "epoch": 0.28665651953323185,
+      "eval_acc": 0.6375617930071601,
+      "eval_loss": 1.6423982381820679,
+      "eval_runtime": 112.6458,
+      "eval_samples_per_second": 56.549,
+      "eval_steps_per_second": 28.274,
+      "step": 11300
+    },
+    {
+      "acc": 0.64987841,
+      "epoch": 0.28678335870116695,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.763433003615124e-06,
+      "loss": 1.64602165,
+      "memory(GiB)": 111.15,
+      "step": 11305,
+      "train_speed(iter/s)": 0.448402
+    },
+    {
+      "acc": 0.64360776,
+      "epoch": 0.286910197869102,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.763114165140559e-06,
+      "loss": 1.74809456,
+      "memory(GiB)": 111.15,
+      "step": 11310,
+      "train_speed(iter/s)": 0.448507
+    },
+    {
+      "acc": 0.62160263,
+      "epoch": 0.28703703703703703,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.762795117162967e-06,
+      "loss": 1.71172638,
+      "memory(GiB)": 111.15,
+      "step": 11315,
+      "train_speed(iter/s)": 0.448613
+    },
+    {
+      "acc": 0.66071787,
+      "epoch": 0.2871638762049721,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.76247585969638e-06,
+      "loss": 1.61466675,
+      "memory(GiB)": 111.15,
+      "step": 11320,
+      "train_speed(iter/s)": 0.448716
+    },
+    {
+      "acc": 0.65368338,
+      "epoch": 0.2872907153729072,
+      "grad_norm": 5.0,
+      "learning_rate": 9.762156392754842e-06,
+      "loss": 1.58079624,
+      "memory(GiB)": 111.15,
+      "step": 11325,
+      "train_speed(iter/s)": 0.448821
+    },
+    {
+      "acc": 0.62557964,
+      "epoch": 0.2874175545408422,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.761836716352405e-06,
+      "loss": 1.69626083,
+      "memory(GiB)": 111.15,
+      "step": 11330,
+      "train_speed(iter/s)": 0.448925
+    },
+    {
+      "acc": 0.63066788,
+      "epoch": 0.28754439370877727,
+      "grad_norm": 5.0,
+      "learning_rate": 9.761516830503128e-06,
+      "loss": 1.73517246,
+      "memory(GiB)": 111.15,
+      "step": 11335,
+      "train_speed(iter/s)": 0.44903
+    },
+    {
+      "acc": 0.65028868,
+      "epoch": 0.2876712328767123,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.761196735221083e-06,
+      "loss": 1.68195801,
+      "memory(GiB)": 111.15,
+      "step": 11340,
+      "train_speed(iter/s)": 0.449135
+    },
+    {
+      "acc": 0.64325228,
+      "epoch": 0.2877980720446474,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.76087643052035e-06,
+      "loss": 1.65014992,
+      "memory(GiB)": 111.15,
+      "step": 11345,
+      "train_speed(iter/s)": 0.449239
+    },
+    {
+      "acc": 0.64079103,
+      "epoch": 0.28792491121258246,
+      "grad_norm": 4.875,
+      "learning_rate": 9.760555916415015e-06,
+      "loss": 1.68327618,
+      "memory(GiB)": 111.15,
+      "step": 11350,
+      "train_speed(iter/s)": 0.449343
+    },
+    {
+      "acc": 0.65408354,
+      "epoch": 0.2880517503805175,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.760235192919175e-06,
+      "loss": 1.63960381,
+      "memory(GiB)": 111.15,
+      "step": 11355,
+      "train_speed(iter/s)": 0.449448
+    },
+    {
+      "acc": 0.64269376,
+      "epoch": 0.28817858954845255,
+      "grad_norm": 5.71875,
+      "learning_rate": 9.75991426004694e-06,
+      "loss": 1.67405891,
+      "memory(GiB)": 111.15,
+      "step": 11360,
+      "train_speed(iter/s)": 0.449552
+    },
+    {
+      "acc": 0.64675093,
+      "epoch": 0.28830542871638765,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.759593117812423e-06,
+      "loss": 1.65332355,
+      "memory(GiB)": 111.15,
+      "step": 11365,
+      "train_speed(iter/s)": 0.449657
+    },
+    {
+      "acc": 0.66907692,
+      "epoch": 0.2884322678843227,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.75927176622975e-06,
+      "loss": 1.61816444,
+      "memory(GiB)": 111.15,
+      "step": 11370,
+      "train_speed(iter/s)": 0.449762
+    },
+    {
+      "acc": 0.64397087,
+      "epoch": 0.28855910705225774,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.758950205313057e-06,
+      "loss": 1.69099274,
+      "memory(GiB)": 111.15,
+      "step": 11375,
+      "train_speed(iter/s)": 0.449866
+    },
+    {
+      "acc": 0.6582695,
+      "epoch": 0.2886859462201928,
+      "grad_norm": 4.34375,
+      "learning_rate": 9.758628435076488e-06,
+      "loss": 1.61282654,
+      "memory(GiB)": 111.15,
+      "step": 11380,
+      "train_speed(iter/s)": 0.44997
+    },
+    {
+      "acc": 0.63627133,
+      "epoch": 0.2888127853881279,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.758306455534193e-06,
+      "loss": 1.67416039,
+      "memory(GiB)": 111.15,
+      "step": 11385,
+      "train_speed(iter/s)": 0.450074
+    },
+    {
+      "acc": 0.63031754,
+      "epoch": 0.2889396245560629,
+      "grad_norm": 5.375,
+      "learning_rate": 9.757984266700336e-06,
+      "loss": 1.69458675,
+      "memory(GiB)": 111.15,
+      "step": 11390,
+      "train_speed(iter/s)": 0.450178
+    },
+    {
+      "acc": 0.64530091,
+      "epoch": 0.28906646372399797,
+      "grad_norm": 5.8125,
+      "learning_rate": 9.75766186858909e-06,
+      "loss": 1.6250721,
+      "memory(GiB)": 111.15,
+      "step": 11395,
+      "train_speed(iter/s)": 0.450283
+    },
+    {
+      "acc": 0.64924459,
+      "epoch": 0.289193302891933,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.757339261214631e-06,
+      "loss": 1.70327377,
+      "memory(GiB)": 111.15,
+      "step": 11400,
+      "train_speed(iter/s)": 0.450387
+    },
+    {
+      "epoch": 0.289193302891933,
+      "eval_acc": 0.6376223692670314,
+      "eval_loss": 1.6421945095062256,
+      "eval_runtime": 112.5113,
+      "eval_samples_per_second": 56.617,
+      "eval_steps_per_second": 28.308,
+      "step": 11400
+    },
+    {
+      "acc": 0.63925867,
+      "epoch": 0.2893201420598681,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.757016444591152e-06,
+      "loss": 1.66531487,
+      "memory(GiB)": 111.15,
+      "step": 11405,
+      "train_speed(iter/s)": 0.448419
+    },
+    {
+      "acc": 0.6477879,
+      "epoch": 0.28944698122780316,
+      "grad_norm": 4.4375,
+      "learning_rate": 9.756693418732852e-06,
+      "loss": 1.65402031,
+      "memory(GiB)": 111.15,
+      "step": 11410,
+      "train_speed(iter/s)": 0.448523
+    },
+    {
+      "acc": 0.64859414,
+      "epoch": 0.2895738203957382,
+      "grad_norm": 5.375,
+      "learning_rate": 9.756370183653938e-06,
+      "loss": 1.70133362,
+      "memory(GiB)": 111.15,
+      "step": 11415,
+      "train_speed(iter/s)": 0.448627
+    },
+    {
+      "acc": 0.64122958,
+      "epoch": 0.28970065956367325,
+      "grad_norm": 5.875,
+      "learning_rate": 9.756046739368628e-06,
+      "loss": 1.65705261,
+      "memory(GiB)": 111.15,
+      "step": 11420,
+      "train_speed(iter/s)": 0.448731
+    },
+    {
+      "acc": 0.63132238,
+      "epoch": 0.28982749873160835,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.755723085891147e-06,
+      "loss": 1.71997509,
+      "memory(GiB)": 111.15,
+      "step": 11425,
+      "train_speed(iter/s)": 0.448836
+    },
+    {
+      "acc": 0.65546174,
+      "epoch": 0.2899543378995434,
+      "grad_norm": 5.71875,
+      "learning_rate": 9.755399223235734e-06,
+      "loss": 1.59276905,
+      "memory(GiB)": 111.15,
+      "step": 11430,
+      "train_speed(iter/s)": 0.44894
+    },
+    {
+      "acc": 0.6415092,
+      "epoch": 0.29008117706747844,
+      "grad_norm": 6.28125,
+      "learning_rate": 9.75507515141663e-06,
+      "loss": 1.67783546,
+      "memory(GiB)": 111.15,
+      "step": 11435,
+      "train_speed(iter/s)": 0.449044
+    },
+    {
+      "acc": 0.63919439,
+      "epoch": 0.2902080162354135,
+      "grad_norm": 5.78125,
+      "learning_rate": 9.75475087044809e-06,
+      "loss": 1.66107254,
+      "memory(GiB)": 111.15,
+      "step": 11440,
+      "train_speed(iter/s)": 0.449147
+    },
+    {
+      "acc": 0.64341927,
+      "epoch": 0.2903348554033486,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.754426380344382e-06,
+      "loss": 1.68818626,
+      "memory(GiB)": 111.15,
+      "step": 11445,
+      "train_speed(iter/s)": 0.449251
+    },
+    {
+      "acc": 0.63659678,
+      "epoch": 0.2904616945712836,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.754101681119772e-06,
+      "loss": 1.71427994,
+      "memory(GiB)": 111.15,
+      "step": 11450,
+      "train_speed(iter/s)": 0.449355
+    },
+    {
+      "acc": 0.62910376,
+      "epoch": 0.29058853373921867,
+      "grad_norm": 6.3125,
+      "learning_rate": 9.753776772788545e-06,
+      "loss": 1.68716812,
+      "memory(GiB)": 111.15,
+      "step": 11455,
+      "train_speed(iter/s)": 0.44946
+    },
+    {
+      "acc": 0.64524622,
+      "epoch": 0.2907153729071537,
+      "grad_norm": 4.75,
+      "learning_rate": 9.753451655364992e-06,
+      "loss": 1.65006809,
+      "memory(GiB)": 111.15,
+      "step": 11460,
+      "train_speed(iter/s)": 0.449564
+    },
+    {
+      "acc": 0.63962708,
+      "epoch": 0.2908422120750888,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.75312632886341e-06,
+      "loss": 1.73162804,
+      "memory(GiB)": 111.15,
+      "step": 11465,
+      "train_speed(iter/s)": 0.449668
+    },
+    {
+      "acc": 0.67126164,
+      "epoch": 0.29096905124302386,
+      "grad_norm": 4.6875,
+      "learning_rate": 9.752800793298113e-06,
+      "loss": 1.60011826,
+      "memory(GiB)": 111.15,
+      "step": 11470,
+      "train_speed(iter/s)": 0.449772
+    },
+    {
+      "acc": 0.64818296,
+      "epoch": 0.2910958904109589,
+      "grad_norm": 5.375,
+      "learning_rate": 9.752475048683419e-06,
+      "loss": 1.62799568,
+      "memory(GiB)": 111.15,
+      "step": 11475,
+      "train_speed(iter/s)": 0.449875
+    },
+    {
+      "acc": 0.64708767,
+      "epoch": 0.29122272957889395,
+      "grad_norm": 4.75,
+      "learning_rate": 9.752149095033651e-06,
+      "loss": 1.63794365,
+      "memory(GiB)": 111.15,
+      "step": 11480,
+      "train_speed(iter/s)": 0.44998
+    },
+    {
+      "acc": 0.64788084,
+      "epoch": 0.29134956874682905,
+      "grad_norm": 6.0625,
+      "learning_rate": 9.75182293236315e-06,
+      "loss": 1.62897167,
+      "memory(GiB)": 111.15,
+      "step": 11485,
+      "train_speed(iter/s)": 0.450084
+    },
+    {
+      "acc": 0.63815374,
+      "epoch": 0.2914764079147641,
+      "grad_norm": 6.21875,
+      "learning_rate": 9.751496560686262e-06,
+      "loss": 1.59192648,
+      "memory(GiB)": 111.15,
+      "step": 11490,
+      "train_speed(iter/s)": 0.450188
+    },
+    {
+      "acc": 0.64463158,
+      "epoch": 0.29160324708269914,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.751169980017341e-06,
+      "loss": 1.61655426,
+      "memory(GiB)": 111.15,
+      "step": 11495,
+      "train_speed(iter/s)": 0.450291
+    },
+    {
+      "acc": 0.64837766,
+      "epoch": 0.2917300862506342,
+      "grad_norm": 4.59375,
+      "learning_rate": 9.750843190370752e-06,
+      "loss": 1.62248306,
+      "memory(GiB)": 111.15,
+      "step": 11500,
+      "train_speed(iter/s)": 0.450393
+    },
+    {
+      "epoch": 0.2917300862506342,
+      "eval_acc": 0.6376060763419626,
+      "eval_loss": 1.6415537595748901,
+      "eval_runtime": 113.8922,
+      "eval_samples_per_second": 55.93,
+      "eval_steps_per_second": 27.965,
+      "step": 11500
+    },
+    {
+      "acc": 0.66487856,
+      "epoch": 0.2918569254185693,
+      "grad_norm": 4.0,
+      "learning_rate": 9.750516191760868e-06,
+      "loss": 1.61725578,
+      "memory(GiB)": 111.15,
+      "step": 11505,
+      "train_speed(iter/s)": 0.448418
+    },
+    {
+      "acc": 0.64256449,
+      "epoch": 0.2919837645865043,
+      "grad_norm": 4.0625,
+      "learning_rate": 9.750188984202073e-06,
+      "loss": 1.62876587,
+      "memory(GiB)": 111.15,
+      "step": 11510,
+      "train_speed(iter/s)": 0.448522
+    },
+    {
+      "acc": 0.63722296,
+      "epoch": 0.29211060375443937,
+      "grad_norm": 5.75,
+      "learning_rate": 9.749861567708759e-06,
+      "loss": 1.74470482,
+      "memory(GiB)": 111.15,
+      "step": 11515,
+      "train_speed(iter/s)": 0.448625
+    },
+    {
+      "acc": 0.62911801,
+      "epoch": 0.2922374429223744,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.749533942295323e-06,
+      "loss": 1.72435951,
+      "memory(GiB)": 111.15,
+      "step": 11520,
+      "train_speed(iter/s)": 0.448729
+    },
+    {
+      "acc": 0.64836416,
+      "epoch": 0.2923642820903095,
+      "grad_norm": 6.4375,
+      "learning_rate": 9.749206107976183e-06,
+      "loss": 1.63874817,
+      "memory(GiB)": 111.15,
+      "step": 11525,
+      "train_speed(iter/s)": 0.448834
+    },
+    {
+      "acc": 0.63467135,
+      "epoch": 0.29249112125824456,
+      "grad_norm": 6.0,
+      "learning_rate": 9.748878064765753e-06,
+      "loss": 1.67717838,
+      "memory(GiB)": 111.15,
+      "step": 11530,
+      "train_speed(iter/s)": 0.448937
+    },
+    {
+      "acc": 0.64459701,
+      "epoch": 0.2926179604261796,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.748549812678466e-06,
+      "loss": 1.69776421,
+      "memory(GiB)": 111.15,
+      "step": 11535,
+      "train_speed(iter/s)": 0.44904
+    },
+    {
+      "acc": 0.64658208,
+      "epoch": 0.29274479959411465,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.748221351728754e-06,
+      "loss": 1.69286003,
+      "memory(GiB)": 111.15,
+      "step": 11540,
+      "train_speed(iter/s)": 0.449143
+    },
+    {
+      "acc": 0.65305119,
+      "epoch": 0.29287163876204975,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.747892681931067e-06,
+      "loss": 1.62567425,
+      "memory(GiB)": 111.15,
+      "step": 11545,
+      "train_speed(iter/s)": 0.449246
+    },
+    {
+      "acc": 0.64375591,
+      "epoch": 0.2929984779299848,
+      "grad_norm": 5.375,
+      "learning_rate": 9.747563803299865e-06,
+      "loss": 1.65536385,
+      "memory(GiB)": 111.15,
+      "step": 11550,
+      "train_speed(iter/s)": 0.449349
+    },
+    {
+      "acc": 0.64389753,
+      "epoch": 0.29312531709791984,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.74723471584961e-06,
+      "loss": 1.63563118,
+      "memory(GiB)": 111.15,
+      "step": 11555,
+      "train_speed(iter/s)": 0.449452
+    },
+    {
+      "acc": 0.64412231,
+      "epoch": 0.2932521562658549,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.746905419594777e-06,
+      "loss": 1.61791515,
+      "memory(GiB)": 111.15,
+      "step": 11560,
+      "train_speed(iter/s)": 0.449556
+    },
+    {
+      "acc": 0.64138718,
+      "epoch": 0.29337899543379,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.746575914549851e-06,
+      "loss": 1.66518135,
+      "memory(GiB)": 111.15,
+      "step": 11565,
+      "train_speed(iter/s)": 0.449658
+    },
+    {
+      "acc": 0.62727528,
+      "epoch": 0.293505834601725,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.746246200729323e-06,
+      "loss": 1.78143463,
+      "memory(GiB)": 111.15,
+      "step": 11570,
+      "train_speed(iter/s)": 0.44976
+    },
+    {
+      "acc": 0.65039501,
+      "epoch": 0.29363267376966007,
+      "grad_norm": 4.375,
+      "learning_rate": 9.745916278147696e-06,
+      "loss": 1.60077534,
+      "memory(GiB)": 111.15,
+      "step": 11575,
+      "train_speed(iter/s)": 0.449863
+    },
+    {
+      "acc": 0.64748378,
+      "epoch": 0.2937595129375951,
+      "grad_norm": 7.0,
+      "learning_rate": 9.745586146819484e-06,
+      "loss": 1.67576866,
+      "memory(GiB)": 111.15,
+      "step": 11580,
+      "train_speed(iter/s)": 0.449965
+    },
+    {
+      "acc": 0.64018588,
+      "epoch": 0.2938863521055302,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.745255806759205e-06,
+      "loss": 1.74319305,
+      "memory(GiB)": 111.15,
+      "step": 11585,
+      "train_speed(iter/s)": 0.450068
+    },
+    {
+      "acc": 0.64772768,
+      "epoch": 0.29401319127346526,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.74492525798139e-06,
+      "loss": 1.69699211,
+      "memory(GiB)": 111.15,
+      "step": 11590,
+      "train_speed(iter/s)": 0.45017
+    },
+    {
+      "acc": 0.63093505,
+      "epoch": 0.2941400304414003,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.744594500500578e-06,
+      "loss": 1.69472408,
+      "memory(GiB)": 111.15,
+      "step": 11595,
+      "train_speed(iter/s)": 0.450272
+    },
+    {
+      "acc": 0.63869567,
+      "epoch": 0.29426686960933535,
+      "grad_norm": 5.125,
+      "learning_rate": 9.744263534331315e-06,
+      "loss": 1.68456745,
+      "memory(GiB)": 111.15,
+      "step": 11600,
+      "train_speed(iter/s)": 0.450376
+    },
+    {
+      "epoch": 0.29426686960933535,
+      "eval_acc": 0.6376929719423298,
+      "eval_loss": 1.6413490772247314,
+      "eval_runtime": 112.4334,
+      "eval_samples_per_second": 56.656,
+      "eval_steps_per_second": 28.328,
+      "step": 11600
+    },
+    {
+      "acc": 0.65008388,
+      "epoch": 0.29439370877727045,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.743932359488161e-06,
+      "loss": 1.65295372,
+      "memory(GiB)": 111.15,
+      "step": 11605,
+      "train_speed(iter/s)": 0.448442
+    },
+    {
+      "acc": 0.64418478,
+      "epoch": 0.2945205479452055,
+      "grad_norm": 4.5625,
+      "learning_rate": 9.743600975985681e-06,
+      "loss": 1.67906227,
+      "memory(GiB)": 111.15,
+      "step": 11610,
+      "train_speed(iter/s)": 0.448545
+    },
+    {
+      "acc": 0.64813824,
+      "epoch": 0.29464738711314054,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.743269383838452e-06,
+      "loss": 1.68654861,
+      "memory(GiB)": 111.15,
+      "step": 11615,
+      "train_speed(iter/s)": 0.448648
+    },
+    {
+      "acc": 0.64886427,
+      "epoch": 0.2947742262810756,
+      "grad_norm": 5.96875,
+      "learning_rate": 9.74293758306106e-06,
+      "loss": 1.65968666,
+      "memory(GiB)": 111.15,
+      "step": 11620,
+      "train_speed(iter/s)": 0.448751
+    },
+    {
+      "acc": 0.62220774,
+      "epoch": 0.2949010654490107,
+      "grad_norm": 6.3125,
+      "learning_rate": 9.742605573668096e-06,
+      "loss": 1.68922386,
+      "memory(GiB)": 111.15,
+      "step": 11625,
+      "train_speed(iter/s)": 0.448854
+    },
+    {
+      "acc": 0.64330578,
+      "epoch": 0.2950279046169457,
+      "grad_norm": 6.09375,
+      "learning_rate": 9.742273355674164e-06,
+      "loss": 1.70709038,
+      "memory(GiB)": 111.15,
+      "step": 11630,
+      "train_speed(iter/s)": 0.448957
+    },
+    {
+      "acc": 0.6558012,
+      "epoch": 0.29515474378488077,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.741940929093879e-06,
+      "loss": 1.66321907,
+      "memory(GiB)": 111.15,
+      "step": 11635,
+      "train_speed(iter/s)": 0.449059
+    },
+    {
+      "acc": 0.65294905,
+      "epoch": 0.2952815829528158,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.741608293941858e-06,
+      "loss": 1.61639748,
+      "memory(GiB)": 111.15,
+      "step": 11640,
+      "train_speed(iter/s)": 0.449161
+    },
+    {
+      "acc": 0.6511591,
+      "epoch": 0.2954084221207509,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.741275450232736e-06,
+      "loss": 1.66115055,
+      "memory(GiB)": 111.15,
+      "step": 11645,
+      "train_speed(iter/s)": 0.449265
+    },
+    {
+      "acc": 0.65216026,
+      "epoch": 0.29553526128868596,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.740942397981151e-06,
+      "loss": 1.57517376,
+      "memory(GiB)": 111.15,
+      "step": 11650,
+      "train_speed(iter/s)": 0.449367
+    },
+    {
+      "acc": 0.64622383,
+      "epoch": 0.295662100456621,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.740609137201752e-06,
+      "loss": 1.64572754,
+      "memory(GiB)": 111.15,
+      "step": 11655,
+      "train_speed(iter/s)": 0.44947
+    },
+    {
+      "acc": 0.64864187,
+      "epoch": 0.29578893962455605,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.7402756679092e-06,
+      "loss": 1.67011795,
+      "memory(GiB)": 111.15,
+      "step": 11660,
+      "train_speed(iter/s)": 0.449572
+    },
+    {
+      "acc": 0.63881364,
+      "epoch": 0.29591577879249115,
+      "grad_norm": 5.5,
+      "learning_rate": 9.739941990118157e-06,
+      "loss": 1.63815231,
+      "memory(GiB)": 111.15,
+      "step": 11665,
+      "train_speed(iter/s)": 0.449674
+    },
+    {
+      "acc": 0.65184441,
+      "epoch": 0.2960426179604262,
+      "grad_norm": 4.5,
+      "learning_rate": 9.739608103843306e-06,
+      "loss": 1.64906082,
+      "memory(GiB)": 111.15,
+      "step": 11670,
+      "train_speed(iter/s)": 0.449776
+    },
+    {
+      "acc": 0.64520464,
+      "epoch": 0.29616945712836124,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.739274009099328e-06,
+      "loss": 1.66979141,
+      "memory(GiB)": 111.15,
+      "step": 11675,
+      "train_speed(iter/s)": 0.449878
+    },
+    {
+      "acc": 0.65894494,
+      "epoch": 0.2962962962962963,
+      "grad_norm": 5.125,
+      "learning_rate": 9.738939705900922e-06,
+      "loss": 1.63615952,
+      "memory(GiB)": 111.15,
+      "step": 11680,
+      "train_speed(iter/s)": 0.44998
+    },
+    {
+      "acc": 0.65550718,
+      "epoch": 0.2964231354642314,
+      "grad_norm": 4.46875,
+      "learning_rate": 9.738605194262787e-06,
+      "loss": 1.62016964,
+      "memory(GiB)": 111.15,
+      "step": 11685,
+      "train_speed(iter/s)": 0.450082
+    },
+    {
+      "acc": 0.64233932,
+      "epoch": 0.2965499746321664,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.738270474199641e-06,
+      "loss": 1.68456612,
+      "memory(GiB)": 111.15,
+      "step": 11690,
+      "train_speed(iter/s)": 0.450183
+    },
+    {
+      "acc": 0.63042569,
+      "epoch": 0.29667681380010147,
+      "grad_norm": 6.15625,
+      "learning_rate": 9.737935545726205e-06,
+      "loss": 1.70305901,
+      "memory(GiB)": 111.15,
+      "step": 11695,
+      "train_speed(iter/s)": 0.450285
+    },
+    {
+      "acc": 0.64669423,
+      "epoch": 0.2968036529680365,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.737600408857208e-06,
+      "loss": 1.64072266,
+      "memory(GiB)": 111.15,
+      "step": 11700,
+      "train_speed(iter/s)": 0.450388
+    },
+    {
+      "epoch": 0.2968036529680365,
+      "eval_acc": 0.6376883765019257,
+      "eval_loss": 1.640526533126831,
+      "eval_runtime": 113.5937,
+      "eval_samples_per_second": 56.077,
+      "eval_steps_per_second": 28.039,
+      "step": 11700
+    },
+    {
+      "acc": 0.63824759,
+      "epoch": 0.2969304921359716,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.737265063607395e-06,
+      "loss": 1.67866592,
+      "memory(GiB)": 111.15,
+      "step": 11705,
+      "train_speed(iter/s)": 0.448452
+    },
+    {
+      "acc": 0.64700489,
+      "epoch": 0.29705733130390666,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.736929509991515e-06,
+      "loss": 1.64573975,
+      "memory(GiB)": 111.15,
+      "step": 11710,
+      "train_speed(iter/s)": 0.448552
+    },
+    {
+      "acc": 0.65277472,
+      "epoch": 0.2971841704718417,
+      "grad_norm": 5.75,
+      "learning_rate": 9.736593748024325e-06,
+      "loss": 1.67160969,
+      "memory(GiB)": 111.15,
+      "step": 11715,
+      "train_speed(iter/s)": 0.448653
+    },
+    {
+      "acc": 0.65333595,
+      "epoch": 0.29731100963977675,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.736257777720595e-06,
+      "loss": 1.60299435,
+      "memory(GiB)": 111.15,
+      "step": 11720,
+      "train_speed(iter/s)": 0.448755
+    },
+    {
+      "acc": 0.6571207,
+      "epoch": 0.29743784880771185,
+      "grad_norm": 6.09375,
+      "learning_rate": 9.735921599095101e-06,
+      "loss": 1.63371067,
+      "memory(GiB)": 111.15,
+      "step": 11725,
+      "train_speed(iter/s)": 0.448856
+    },
+    {
+      "acc": 0.65891581,
+      "epoch": 0.2975646879756469,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.735585212162633e-06,
+      "loss": 1.62234383,
+      "memory(GiB)": 111.15,
+      "step": 11730,
+      "train_speed(iter/s)": 0.448955
+    },
+    {
+      "acc": 0.63484511,
+      "epoch": 0.29769152714358194,
+      "grad_norm": 6.125,
+      "learning_rate": 9.735248616937983e-06,
+      "loss": 1.68009872,
+      "memory(GiB)": 111.15,
+      "step": 11735,
+      "train_speed(iter/s)": 0.449055
+    },
+    {
+      "acc": 0.6496913,
+      "epoch": 0.297818366311517,
+      "grad_norm": 4.625,
+      "learning_rate": 9.734911813435957e-06,
+      "loss": 1.63371468,
+      "memory(GiB)": 111.15,
+      "step": 11740,
+      "train_speed(iter/s)": 0.449155
+    },
+    {
+      "acc": 0.65094013,
+      "epoch": 0.2979452054794521,
+      "grad_norm": 4.6875,
+      "learning_rate": 9.73457480167137e-06,
+      "loss": 1.75572929,
+      "memory(GiB)": 111.15,
+      "step": 11745,
+      "train_speed(iter/s)": 0.449256
+    },
+    {
+      "acc": 0.65438247,
+      "epoch": 0.2980720446473871,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.734237581659045e-06,
+      "loss": 1.66425533,
+      "memory(GiB)": 111.15,
+      "step": 11750,
+      "train_speed(iter/s)": 0.449356
+    },
+    {
+      "acc": 0.64325409,
+      "epoch": 0.29819888381532217,
+      "grad_norm": 5.25,
+      "learning_rate": 9.733900153413813e-06,
+      "loss": 1.6219595,
+      "memory(GiB)": 111.15,
+      "step": 11755,
+      "train_speed(iter/s)": 0.449457
+    },
+    {
+      "acc": 0.64971428,
+      "epoch": 0.2983257229832572,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.733562516950519e-06,
+      "loss": 1.62884407,
+      "memory(GiB)": 111.15,
+      "step": 11760,
+      "train_speed(iter/s)": 0.449557
+    },
+    {
+      "acc": 0.63364954,
+      "epoch": 0.2984525621511923,
+      "grad_norm": 5.8125,
+      "learning_rate": 9.73322467228401e-06,
+      "loss": 1.65487595,
+      "memory(GiB)": 111.15,
+      "step": 11765,
+      "train_speed(iter/s)": 0.449658
+    },
+    {
+      "acc": 0.64463124,
+      "epoch": 0.29857940131912736,
+      "grad_norm": 6.65625,
+      "learning_rate": 9.73288661942915e-06,
+      "loss": 1.63990517,
+      "memory(GiB)": 111.15,
+      "step": 11770,
+      "train_speed(iter/s)": 0.449758
+    },
+    {
+      "acc": 0.65357952,
+      "epoch": 0.2987062404870624,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.732548358400802e-06,
+      "loss": 1.62151356,
+      "memory(GiB)": 111.15,
+      "step": 11775,
+      "train_speed(iter/s)": 0.449858
+    },
+    {
+      "acc": 0.65091891,
+      "epoch": 0.29883307965499745,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.73220988921385e-06,
+      "loss": 1.60483646,
+      "memory(GiB)": 111.15,
+      "step": 11780,
+      "train_speed(iter/s)": 0.449958
+    },
+    {
+      "acc": 0.64542446,
+      "epoch": 0.29895991882293255,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.73187121188318e-06,
+      "loss": 1.6259985,
+      "memory(GiB)": 111.15,
+      "step": 11785,
+      "train_speed(iter/s)": 0.450059
+    },
+    {
+      "acc": 0.65885277,
+      "epoch": 0.2990867579908676,
+      "grad_norm": 6.34375,
+      "learning_rate": 9.731532326423686e-06,
+      "loss": 1.62264538,
+      "memory(GiB)": 111.15,
+      "step": 11790,
+      "train_speed(iter/s)": 0.450159
+    },
+    {
+      "acc": 0.65812302,
+      "epoch": 0.29921359715880264,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.731193232850277e-06,
+      "loss": 1.60783558,
+      "memory(GiB)": 111.15,
+      "step": 11795,
+      "train_speed(iter/s)": 0.450259
+    },
+    {
+      "acc": 0.63924456,
+      "epoch": 0.2993404363267377,
+      "grad_norm": 4.59375,
+      "learning_rate": 9.730853931177866e-06,
+      "loss": 1.68779984,
+      "memory(GiB)": 111.15,
+      "step": 11800,
+      "train_speed(iter/s)": 0.450358
+    },
+    {
+      "epoch": 0.2993404363267377,
+      "eval_acc": 0.6377614857810807,
+      "eval_loss": 1.6401467323303223,
+      "eval_runtime": 113.6777,
+      "eval_samples_per_second": 56.036,
+      "eval_steps_per_second": 28.018,
+      "step": 11800
+    },
+    {
+      "acc": 0.6511086,
+      "epoch": 0.2994672754946728,
+      "grad_norm": 5.96875,
+      "learning_rate": 9.730514421421378e-06,
+      "loss": 1.62002869,
+      "memory(GiB)": 111.15,
+      "step": 11805,
+      "train_speed(iter/s)": 0.448435
+    },
+    {
+      "acc": 0.63997355,
+      "epoch": 0.2995941146626078,
+      "grad_norm": 4.40625,
+      "learning_rate": 9.730174703595745e-06,
+      "loss": 1.66207867,
+      "memory(GiB)": 111.15,
+      "step": 11810,
+      "train_speed(iter/s)": 0.448532
+    },
+    {
+      "acc": 0.64688449,
+      "epoch": 0.29972095383054287,
+      "grad_norm": 4.875,
+      "learning_rate": 9.72983477771591e-06,
+      "loss": 1.60341206,
+      "memory(GiB)": 111.15,
+      "step": 11815,
+      "train_speed(iter/s)": 0.448629
+    },
+    {
+      "acc": 0.63591094,
+      "epoch": 0.2998477929984779,
+      "grad_norm": 4.75,
+      "learning_rate": 9.729494643796823e-06,
+      "loss": 1.73419876,
+      "memory(GiB)": 111.15,
+      "step": 11820,
+      "train_speed(iter/s)": 0.448728
+    },
+    {
+      "acc": 0.6449708,
+      "epoch": 0.299974632166413,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.729154301853448e-06,
+      "loss": 1.64082012,
+      "memory(GiB)": 111.15,
+      "step": 11825,
+      "train_speed(iter/s)": 0.448827
+    },
+    {
+      "acc": 0.64127045,
+      "epoch": 0.30010147133434806,
+      "grad_norm": 7.375,
+      "learning_rate": 9.72881375190075e-06,
+      "loss": 1.71435051,
+      "memory(GiB)": 111.15,
+      "step": 11830,
+      "train_speed(iter/s)": 0.448925
+    },
+    {
+      "acc": 0.65814962,
+      "epoch": 0.3002283105022831,
+      "grad_norm": 4.5,
+      "learning_rate": 9.728472993953712e-06,
+      "loss": 1.62002068,
+      "memory(GiB)": 111.15,
+      "step": 11835,
+      "train_speed(iter/s)": 0.449024
+    },
+    {
+      "acc": 0.64119005,
+      "epoch": 0.30035514967021815,
+      "grad_norm": 4.5625,
+      "learning_rate": 9.728132028027323e-06,
+      "loss": 1.59561958,
+      "memory(GiB)": 111.15,
+      "step": 11840,
+      "train_speed(iter/s)": 0.449123
+    },
+    {
+      "acc": 0.66369143,
+      "epoch": 0.30048198883815325,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.727790854136573e-06,
+      "loss": 1.67817039,
+      "memory(GiB)": 111.15,
+      "step": 11845,
+      "train_speed(iter/s)": 0.449222
+    },
+    {
+      "acc": 0.65159359,
+      "epoch": 0.3006088280060883,
+      "grad_norm": 4.5,
+      "learning_rate": 9.727449472296476e-06,
+      "loss": 1.58684721,
+      "memory(GiB)": 111.15,
+      "step": 11850,
+      "train_speed(iter/s)": 0.449322
+    },
+    {
+      "acc": 0.64275713,
+      "epoch": 0.30073566717402334,
+      "grad_norm": 5.96875,
+      "learning_rate": 9.727107882522045e-06,
+      "loss": 1.70808487,
+      "memory(GiB)": 111.15,
+      "step": 11855,
+      "train_speed(iter/s)": 0.449421
+    },
+    {
+      "acc": 0.65096769,
+      "epoch": 0.3008625063419584,
+      "grad_norm": 5.5,
+      "learning_rate": 9.726766084828303e-06,
+      "loss": 1.62070122,
+      "memory(GiB)": 111.15,
+      "step": 11860,
+      "train_speed(iter/s)": 0.449519
+    },
+    {
+      "acc": 0.63954062,
+      "epoch": 0.3009893455098935,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.726424079230286e-06,
+      "loss": 1.64515018,
+      "memory(GiB)": 111.15,
+      "step": 11865,
+      "train_speed(iter/s)": 0.449616
+    },
+    {
+      "acc": 0.64372387,
+      "epoch": 0.3011161846778285,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.726081865743036e-06,
+      "loss": 1.65789051,
+      "memory(GiB)": 111.15,
+      "step": 11870,
+      "train_speed(iter/s)": 0.449716
+    },
+    {
+      "acc": 0.66590734,
+      "epoch": 0.30124302384576357,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.725739444381603e-06,
+      "loss": 1.64140377,
+      "memory(GiB)": 111.15,
+      "step": 11875,
+      "train_speed(iter/s)": 0.449815
+    },
+    {
+      "acc": 0.64857073,
+      "epoch": 0.3013698630136986,
+      "grad_norm": 5.0,
+      "learning_rate": 9.725396815161053e-06,
+      "loss": 1.67433014,
+      "memory(GiB)": 111.15,
+      "step": 11880,
+      "train_speed(iter/s)": 0.449914
+    },
+    {
+      "acc": 0.6443572,
+      "epoch": 0.3014967021816337,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.725053978096453e-06,
+      "loss": 1.71241341,
+      "memory(GiB)": 111.15,
+      "step": 11885,
+      "train_speed(iter/s)": 0.450012
+    },
+    {
+      "acc": 0.63792281,
+      "epoch": 0.30162354134956876,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.724710933202884e-06,
+      "loss": 1.7287796,
+      "memory(GiB)": 111.15,
+      "step": 11890,
+      "train_speed(iter/s)": 0.450111
+    },
+    {
+      "acc": 0.64801517,
+      "epoch": 0.3017503805175038,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.724367680495432e-06,
+      "loss": 1.66857796,
+      "memory(GiB)": 111.15,
+      "step": 11895,
+      "train_speed(iter/s)": 0.450209
+    },
+    {
+      "acc": 0.65664587,
+      "epoch": 0.30187721968543885,
+      "grad_norm": 5.125,
+      "learning_rate": 9.724024219989198e-06,
+      "loss": 1.58443737,
+      "memory(GiB)": 111.15,
+      "step": 11900,
+      "train_speed(iter/s)": 0.450308
+    },
+    {
+      "epoch": 0.30187721968543885,
+      "eval_acc": 0.6377021628231377,
+      "eval_loss": 1.6403369903564453,
+      "eval_runtime": 113.5819,
+      "eval_samples_per_second": 56.083,
+      "eval_steps_per_second": 28.041,
+      "step": 11900
+    },
+    {
+      "acc": 0.63888397,
+      "epoch": 0.30200405885337395,
+      "grad_norm": 5.75,
+      "learning_rate": 9.723680551699286e-06,
+      "loss": 1.64306831,
+      "memory(GiB)": 111.15,
+      "step": 11905,
+      "train_speed(iter/s)": 0.448403
+    },
+    {
+      "acc": 0.63390312,
+      "epoch": 0.302130898021309,
+      "grad_norm": 5.75,
+      "learning_rate": 9.723336675640815e-06,
+      "loss": 1.73192673,
+      "memory(GiB)": 111.15,
+      "step": 11910,
+      "train_speed(iter/s)": 0.448501
+    },
+    {
+      "acc": 0.64023352,
+      "epoch": 0.30225773718924404,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.722992591828908e-06,
+      "loss": 1.64327412,
+      "memory(GiB)": 111.15,
+      "step": 11915,
+      "train_speed(iter/s)": 0.4486
+    },
+    {
+      "acc": 0.65822115,
+      "epoch": 0.3023845763571791,
+      "grad_norm": 5.5,
+      "learning_rate": 9.722648300278701e-06,
+      "loss": 1.57156754,
+      "memory(GiB)": 111.15,
+      "step": 11920,
+      "train_speed(iter/s)": 0.448698
+    },
+    {
+      "acc": 0.66270533,
+      "epoch": 0.3025114155251142,
+      "grad_norm": 5.0,
+      "learning_rate": 9.722303801005338e-06,
+      "loss": 1.65449562,
+      "memory(GiB)": 111.15,
+      "step": 11925,
+      "train_speed(iter/s)": 0.448796
+    },
+    {
+      "acc": 0.64662967,
+      "epoch": 0.3026382546930492,
+      "grad_norm": 6.0625,
+      "learning_rate": 9.721959094023968e-06,
+      "loss": 1.70118828,
+      "memory(GiB)": 111.15,
+      "step": 11930,
+      "train_speed(iter/s)": 0.448895
+    },
+    {
+      "acc": 0.6626874,
+      "epoch": 0.30276509386098427,
+      "grad_norm": 5.9375,
+      "learning_rate": 9.721614179349754e-06,
+      "loss": 1.57054834,
+      "memory(GiB)": 111.15,
+      "step": 11935,
+      "train_speed(iter/s)": 0.448993
+    },
+    {
+      "acc": 0.65682116,
+      "epoch": 0.3028919330289193,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.72126905699787e-06,
+      "loss": 1.67868423,
+      "memory(GiB)": 111.15,
+      "step": 11940,
+      "train_speed(iter/s)": 0.449092
+    },
+    {
+      "acc": 0.63211412,
+      "epoch": 0.3030187721968544,
+      "grad_norm": 4.625,
+      "learning_rate": 9.720923726983493e-06,
+      "loss": 1.63951874,
+      "memory(GiB)": 111.15,
+      "step": 11945,
+      "train_speed(iter/s)": 0.44919
+    },
+    {
+      "acc": 0.64202328,
+      "epoch": 0.30314561136478946,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.720578189321814e-06,
+      "loss": 1.64672623,
+      "memory(GiB)": 111.15,
+      "step": 11950,
+      "train_speed(iter/s)": 0.449288
+    },
+    {
+      "acc": 0.65513144,
+      "epoch": 0.3032724505327245,
+      "grad_norm": 6.21875,
+      "learning_rate": 9.72023244402803e-06,
+      "loss": 1.63461227,
+      "memory(GiB)": 111.15,
+      "step": 11955,
+      "train_speed(iter/s)": 0.449386
+    },
+    {
+      "acc": 0.64464426,
+      "epoch": 0.30339928970065955,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.719886491117348e-06,
+      "loss": 1.65310287,
+      "memory(GiB)": 111.15,
+      "step": 11960,
+      "train_speed(iter/s)": 0.449485
+    },
+    {
+      "acc": 0.64655538,
+      "epoch": 0.30352612886859465,
+      "grad_norm": 5.625,
+      "learning_rate": 9.719540330604986e-06,
+      "loss": 1.58601408,
+      "memory(GiB)": 111.15,
+      "step": 11965,
+      "train_speed(iter/s)": 0.449583
+    },
+    {
+      "acc": 0.65397029,
+      "epoch": 0.3036529680365297,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.71919396250617e-06,
+      "loss": 1.66997547,
+      "memory(GiB)": 111.15,
+      "step": 11970,
+      "train_speed(iter/s)": 0.449681
+    },
+    {
+      "acc": 0.62513132,
+      "epoch": 0.30377980720446474,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.718847386836131e-06,
+      "loss": 1.72465439,
+      "memory(GiB)": 111.15,
+      "step": 11975,
+      "train_speed(iter/s)": 0.449779
+    },
+    {
+      "acc": 0.64613333,
+      "epoch": 0.3039066463723998,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.718500603610119e-06,
+      "loss": 1.68342171,
+      "memory(GiB)": 111.15,
+      "step": 11980,
+      "train_speed(iter/s)": 0.449878
+    },
+    {
+      "acc": 0.63610115,
+      "epoch": 0.3040334855403349,
+      "grad_norm": 5.75,
+      "learning_rate": 9.718153612843382e-06,
+      "loss": 1.68873291,
+      "memory(GiB)": 111.15,
+      "step": 11985,
+      "train_speed(iter/s)": 0.449976
+    },
+    {
+      "acc": 0.63843594,
+      "epoch": 0.3041603247082699,
+      "grad_norm": 4.59375,
+      "learning_rate": 9.717806414551186e-06,
+      "loss": 1.70086899,
+      "memory(GiB)": 111.15,
+      "step": 11990,
+      "train_speed(iter/s)": 0.450074
+    },
+    {
+      "acc": 0.65368214,
+      "epoch": 0.30428716387620497,
+      "grad_norm": 6.6875,
+      "learning_rate": 9.717459008748798e-06,
+      "loss": 1.64928856,
+      "memory(GiB)": 111.15,
+      "step": 11995,
+      "train_speed(iter/s)": 0.450172
+    },
+    {
+      "acc": 0.64351168,
+      "epoch": 0.30441400304414,
+      "grad_norm": 5.875,
+      "learning_rate": 9.717111395451501e-06,
+      "loss": 1.63215752,
+      "memory(GiB)": 111.15,
+      "step": 12000,
+      "train_speed(iter/s)": 0.450272
+    },
+    {
+      "epoch": 0.30441400304414,
+      "eval_acc": 0.6379365302837434,
+      "eval_loss": 1.6398106813430786,
+      "eval_runtime": 113.7597,
+      "eval_samples_per_second": 55.995,
+      "eval_steps_per_second": 27.998,
+      "step": 12000
+    },
+    {
+      "acc": 0.63126626,
+      "epoch": 0.3045408422120751,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.716763574674586e-06,
+      "loss": 1.73478889,
+      "memory(GiB)": 111.15,
+      "step": 12005,
+      "train_speed(iter/s)": 0.448382
+    },
+    {
+      "acc": 0.65735931,
+      "epoch": 0.30466768138001016,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.71641554643335e-06,
+      "loss": 1.57218084,
+      "memory(GiB)": 111.15,
+      "step": 12010,
+      "train_speed(iter/s)": 0.448478
+    },
+    {
+      "acc": 0.6517272,
+      "epoch": 0.3047945205479452,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.7160673107431e-06,
+      "loss": 1.59773941,
+      "memory(GiB)": 111.15,
+      "step": 12015,
+      "train_speed(iter/s)": 0.448576
+    },
+    {
+      "acc": 0.62148085,
+      "epoch": 0.30492135971588025,
+      "grad_norm": 6.09375,
+      "learning_rate": 9.715718867619155e-06,
+      "loss": 1.74924793,
+      "memory(GiB)": 111.15,
+      "step": 12020,
+      "train_speed(iter/s)": 0.448674
+    },
+    {
+      "acc": 0.6463058,
+      "epoch": 0.30504819888381535,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.715370217076838e-06,
+      "loss": 1.63156624,
+      "memory(GiB)": 111.15,
+      "step": 12025,
+      "train_speed(iter/s)": 0.448772
+    },
+    {
+      "acc": 0.63073778,
+      "epoch": 0.3051750380517504,
+      "grad_norm": 5.375,
+      "learning_rate": 9.715021359131489e-06,
+      "loss": 1.69368858,
+      "memory(GiB)": 111.15,
+      "step": 12030,
+      "train_speed(iter/s)": 0.448869
+    },
+    {
+      "acc": 0.6340353,
+      "epoch": 0.30530187721968544,
+      "grad_norm": 5.8125,
+      "learning_rate": 9.714672293798449e-06,
+      "loss": 1.71521568,
+      "memory(GiB)": 111.15,
+      "step": 12035,
+      "train_speed(iter/s)": 0.448968
+    },
+    {
+      "acc": 0.6300971,
+      "epoch": 0.3054287163876205,
+      "grad_norm": 4.5625,
+      "learning_rate": 9.71432302109307e-06,
+      "loss": 1.70242882,
+      "memory(GiB)": 111.15,
+      "step": 12040,
+      "train_speed(iter/s)": 0.449065
+    },
+    {
+      "acc": 0.62911949,
+      "epoch": 0.3055555555555556,
+      "grad_norm": 6.0625,
+      "learning_rate": 9.713973541030716e-06,
+      "loss": 1.66565475,
+      "memory(GiB)": 111.15,
+      "step": 12045,
+      "train_speed(iter/s)": 0.449162
+    },
+    {
+      "acc": 0.64725952,
+      "epoch": 0.3056823947234906,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.713623853626763e-06,
+      "loss": 1.60451374,
+      "memory(GiB)": 111.15,
+      "step": 12050,
+      "train_speed(iter/s)": 0.44926
+    },
+    {
+      "acc": 0.65198832,
+      "epoch": 0.30580923389142567,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.713273958896586e-06,
+      "loss": 1.66147537,
+      "memory(GiB)": 111.15,
+      "step": 12055,
+      "train_speed(iter/s)": 0.449357
+    },
+    {
+      "acc": 0.6500145,
+      "epoch": 0.3059360730593607,
+      "grad_norm": 4.53125,
+      "learning_rate": 9.712923856855578e-06,
+      "loss": 1.59981766,
+      "memory(GiB)": 111.15,
+      "step": 12060,
+      "train_speed(iter/s)": 0.449455
+    },
+    {
+      "acc": 0.63221989,
+      "epoch": 0.3060629122272958,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.712573547519134e-06,
+      "loss": 1.71357021,
+      "memory(GiB)": 111.15,
+      "step": 12065,
+      "train_speed(iter/s)": 0.449553
+    },
+    {
+      "acc": 0.63088374,
+      "epoch": 0.30618975139523086,
+      "grad_norm": 6.3125,
+      "learning_rate": 9.712223030902668e-06,
+      "loss": 1.74134827,
+      "memory(GiB)": 111.15,
+      "step": 12070,
+      "train_speed(iter/s)": 0.44965
+    },
+    {
+      "acc": 0.65225515,
+      "epoch": 0.3063165905631659,
+      "grad_norm": 5.78125,
+      "learning_rate": 9.711872307021594e-06,
+      "loss": 1.65614586,
+      "memory(GiB)": 111.15,
+      "step": 12075,
+      "train_speed(iter/s)": 0.449747
+    },
+    {
+      "acc": 0.64735193,
+      "epoch": 0.30644342973110095,
+      "grad_norm": 5.625,
+      "learning_rate": 9.711521375891339e-06,
+      "loss": 1.67787609,
+      "memory(GiB)": 111.15,
+      "step": 12080,
+      "train_speed(iter/s)": 0.449844
+    },
+    {
+      "acc": 0.64399862,
+      "epoch": 0.30657026889903605,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.71117023752734e-06,
+      "loss": 1.67920876,
+      "memory(GiB)": 111.15,
+      "step": 12085,
+      "train_speed(iter/s)": 0.449941
+    },
+    {
+      "acc": 0.6430006,
+      "epoch": 0.3066971080669711,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.710818891945037e-06,
+      "loss": 1.61480503,
+      "memory(GiB)": 111.15,
+      "step": 12090,
+      "train_speed(iter/s)": 0.450037
+    },
+    {
+      "acc": 0.65409584,
+      "epoch": 0.30682394723490614,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.71046733915989e-06,
+      "loss": 1.63893089,
+      "memory(GiB)": 111.15,
+      "step": 12095,
+      "train_speed(iter/s)": 0.450134
+    },
+    {
+      "acc": 0.64327707,
+      "epoch": 0.3069507864028412,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.710115579187356e-06,
+      "loss": 1.64909363,
+      "memory(GiB)": 111.15,
+      "step": 12100,
+      "train_speed(iter/s)": 0.450232
+    },
+    {
+      "epoch": 0.3069507864028412,
+      "eval_acc": 0.6378630032372788,
+      "eval_loss": 1.6393685340881348,
+      "eval_runtime": 111.9765,
+      "eval_samples_per_second": 56.887,
+      "eval_steps_per_second": 28.443,
+      "step": 12100
+    },
+    {
+      "acc": 0.63206072,
+      "epoch": 0.3070776255707763,
+      "grad_norm": 5.84375,
+      "learning_rate": 9.709763612042911e-06,
+      "loss": 1.7169445,
+      "memory(GiB)": 111.15,
+      "step": 12105,
+      "train_speed(iter/s)": 0.448387
+    },
+    {
+      "acc": 0.64454517,
+      "epoch": 0.3072044647387113,
+      "grad_norm": 5.6875,
+      "learning_rate": 9.709411437742035e-06,
+      "loss": 1.58953419,
+      "memory(GiB)": 111.15,
+      "step": 12110,
+      "train_speed(iter/s)": 0.448483
+    },
+    {
+      "acc": 0.65365906,
+      "epoch": 0.30733130390664637,
+      "grad_norm": 6.25,
+      "learning_rate": 9.709059056300218e-06,
+      "loss": 1.61971188,
+      "memory(GiB)": 111.15,
+      "step": 12115,
+      "train_speed(iter/s)": 0.448577
+    },
+    {
+      "acc": 0.64947519,
+      "epoch": 0.3074581430745814,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.708706467732958e-06,
+      "loss": 1.6222126,
+      "memory(GiB)": 111.15,
+      "step": 12120,
+      "train_speed(iter/s)": 0.448673
+    },
+    {
+      "acc": 0.64905167,
+      "epoch": 0.3075849822425165,
+      "grad_norm": 5.25,
+      "learning_rate": 9.708353672055766e-06,
+      "loss": 1.67694397,
+      "memory(GiB)": 111.15,
+      "step": 12125,
+      "train_speed(iter/s)": 0.44877
+    },
+    {
+      "acc": 0.64748888,
+      "epoch": 0.30771182141045156,
+      "grad_norm": 5.78125,
+      "learning_rate": 9.708000669284158e-06,
+      "loss": 1.69502411,
+      "memory(GiB)": 111.15,
+      "step": 12130,
+      "train_speed(iter/s)": 0.448867
+    },
+    {
+      "acc": 0.64687757,
+      "epoch": 0.3078386605783866,
+      "grad_norm": 5.84375,
+      "learning_rate": 9.707647459433661e-06,
+      "loss": 1.67606163,
+      "memory(GiB)": 111.15,
+      "step": 12135,
+      "train_speed(iter/s)": 0.448964
+    },
+    {
+      "acc": 0.64536748,
+      "epoch": 0.30796549974632165,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.707294042519808e-06,
+      "loss": 1.62308407,
+      "memory(GiB)": 111.15,
+      "step": 12140,
+      "train_speed(iter/s)": 0.449061
+    },
+    {
+      "acc": 0.65040302,
+      "epoch": 0.30809233891425675,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.70694041855815e-06,
+      "loss": 1.72639656,
+      "memory(GiB)": 111.15,
+      "step": 12145,
+      "train_speed(iter/s)": 0.449158
+    },
+    {
+      "acc": 0.64523211,
+      "epoch": 0.3082191780821918,
+      "grad_norm": 4.59375,
+      "learning_rate": 9.706586587564236e-06,
+      "loss": 1.7079071,
+      "memory(GiB)": 111.15,
+      "step": 12150,
+      "train_speed(iter/s)": 0.449253
+    },
+    {
+      "acc": 0.64028225,
+      "epoch": 0.30834601725012684,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.70623254955363e-06,
+      "loss": 1.66565628,
+      "memory(GiB)": 111.15,
+      "step": 12155,
+      "train_speed(iter/s)": 0.449349
+    },
+    {
+      "acc": 0.65672913,
+      "epoch": 0.3084728564180619,
+      "grad_norm": 7.46875,
+      "learning_rate": 9.705878304541905e-06,
+      "loss": 1.58745451,
+      "memory(GiB)": 111.15,
+      "step": 12160,
+      "train_speed(iter/s)": 0.449446
+    },
+    {
+      "acc": 0.64548979,
+      "epoch": 0.308599695585997,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.705523852544643e-06,
+      "loss": 1.65273056,
+      "memory(GiB)": 111.15,
+      "step": 12165,
+      "train_speed(iter/s)": 0.449543
+    },
+    {
+      "acc": 0.63662605,
+      "epoch": 0.308726534753932,
+      "grad_norm": 6.25,
+      "learning_rate": 9.705169193577434e-06,
+      "loss": 1.70854816,
+      "memory(GiB)": 111.15,
+      "step": 12170,
+      "train_speed(iter/s)": 0.449639
+    },
+    {
+      "acc": 0.64997644,
+      "epoch": 0.30885337392186707,
+      "grad_norm": 5.78125,
+      "learning_rate": 9.704814327655874e-06,
+      "loss": 1.64368496,
+      "memory(GiB)": 111.15,
+      "step": 12175,
+      "train_speed(iter/s)": 0.449736
+    },
+    {
+      "acc": 0.65820026,
+      "epoch": 0.3089802130898021,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.704459254795575e-06,
+      "loss": 1.63453636,
+      "memory(GiB)": 111.15,
+      "step": 12180,
+      "train_speed(iter/s)": 0.449831
+    },
+    {
+      "acc": 0.6321578,
+      "epoch": 0.3091070522577372,
+      "grad_norm": 4.59375,
+      "learning_rate": 9.704103975012155e-06,
+      "loss": 1.71723938,
+      "memory(GiB)": 111.15,
+      "step": 12185,
+      "train_speed(iter/s)": 0.449928
+    },
+    {
+      "acc": 0.65098791,
+      "epoch": 0.30923389142567226,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.703748488321238e-06,
+      "loss": 1.59529457,
+      "memory(GiB)": 111.15,
+      "step": 12190,
+      "train_speed(iter/s)": 0.450023
+    },
+    {
+      "acc": 0.67134185,
+      "epoch": 0.3093607305936073,
+      "grad_norm": 5.375,
+      "learning_rate": 9.703392794738464e-06,
+      "loss": 1.59396152,
+      "memory(GiB)": 111.15,
+      "step": 12195,
+      "train_speed(iter/s)": 0.450117
+    },
+    {
+      "acc": 0.64275575,
+      "epoch": 0.30948756976154235,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.703036894279476e-06,
+      "loss": 1.69781876,
+      "memory(GiB)": 111.15,
+      "step": 12200,
+      "train_speed(iter/s)": 0.450212
+    },
+    {
+      "epoch": 0.30948756976154235,
+      "eval_acc": 0.6380956996286467,
+      "eval_loss": 1.6388194561004639,
+      "eval_runtime": 114.6282,
+      "eval_samples_per_second": 55.571,
+      "eval_steps_per_second": 27.785,
+      "step": 12200
+    },
+    {
+      "acc": 0.66670141,
+      "epoch": 0.30961440892947745,
+      "grad_norm": 6.125,
+      "learning_rate": 9.702680786959925e-06,
+      "loss": 1.57581778,
+      "memory(GiB)": 111.15,
+      "step": 12205,
+      "train_speed(iter/s)": 0.448337
+    },
+    {
+      "acc": 0.65414839,
+      "epoch": 0.3097412480974125,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.702324472795481e-06,
+      "loss": 1.65087891,
+      "memory(GiB)": 111.15,
+      "step": 12210,
+      "train_speed(iter/s)": 0.448432
+    },
+    {
+      "acc": 0.63975921,
+      "epoch": 0.30986808726534754,
+      "grad_norm": 5.0,
+      "learning_rate": 9.70196795180181e-06,
+      "loss": 1.65003872,
+      "memory(GiB)": 111.15,
+      "step": 12215,
+      "train_speed(iter/s)": 0.448528
+    },
+    {
+      "acc": 0.64131489,
+      "epoch": 0.3099949264332826,
+      "grad_norm": 5.6875,
+      "learning_rate": 9.701611223994596e-06,
+      "loss": 1.62780056,
+      "memory(GiB)": 111.15,
+      "step": 12220,
+      "train_speed(iter/s)": 0.448623
+    },
+    {
+      "acc": 0.64259577,
+      "epoch": 0.3101217656012177,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.701254289389529e-06,
+      "loss": 1.63561344,
+      "memory(GiB)": 111.15,
+      "step": 12225,
+      "train_speed(iter/s)": 0.44872
+    },
+    {
+      "acc": 0.64992857,
+      "epoch": 0.3102486047691527,
+      "grad_norm": 5.375,
+      "learning_rate": 9.700897148002308e-06,
+      "loss": 1.67261581,
+      "memory(GiB)": 111.15,
+      "step": 12230,
+      "train_speed(iter/s)": 0.448815
+    },
+    {
+      "acc": 0.64694147,
+      "epoch": 0.31037544393708777,
+      "grad_norm": 5.25,
+      "learning_rate": 9.700539799848645e-06,
+      "loss": 1.68389206,
+      "memory(GiB)": 111.15,
+      "step": 12235,
+      "train_speed(iter/s)": 0.448911
+    },
+    {
+      "acc": 0.64467955,
+      "epoch": 0.3105022831050228,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.700182244944252e-06,
+      "loss": 1.63858376,
+      "memory(GiB)": 111.15,
+      "step": 12240,
+      "train_speed(iter/s)": 0.449006
+    },
+    {
+      "acc": 0.63759542,
+      "epoch": 0.3106291222729579,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.69982448330486e-06,
+      "loss": 1.68621025,
+      "memory(GiB)": 111.15,
+      "step": 12245,
+      "train_speed(iter/s)": 0.449101
+    },
+    {
+      "acc": 0.63918104,
+      "epoch": 0.31075596144089296,
+      "grad_norm": 5.78125,
+      "learning_rate": 9.699466514946206e-06,
+      "loss": 1.78194199,
+      "memory(GiB)": 111.15,
+      "step": 12250,
+      "train_speed(iter/s)": 0.449197
+    },
+    {
+      "acc": 0.66187096,
+      "epoch": 0.310882800608828,
+      "grad_norm": 6.6875,
+      "learning_rate": 9.699108339884032e-06,
+      "loss": 1.5962779,
+      "memory(GiB)": 111.15,
+      "step": 12255,
+      "train_speed(iter/s)": 0.449292
+    },
+    {
+      "acc": 0.62815957,
+      "epoch": 0.31100963977676305,
+      "grad_norm": 5.25,
+      "learning_rate": 9.698749958134093e-06,
+      "loss": 1.709412,
+      "memory(GiB)": 111.15,
+      "step": 12260,
+      "train_speed(iter/s)": 0.449388
+    },
+    {
+      "acc": 0.63694048,
+      "epoch": 0.31113647894469815,
+      "grad_norm": 5.78125,
+      "learning_rate": 9.698391369712152e-06,
+      "loss": 1.74542732,
+      "memory(GiB)": 111.15,
+      "step": 12265,
+      "train_speed(iter/s)": 0.449485
+    },
+    {
+      "acc": 0.6515121,
+      "epoch": 0.3112633181126332,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.698032574633982e-06,
+      "loss": 1.62864571,
+      "memory(GiB)": 111.15,
+      "step": 12270,
+      "train_speed(iter/s)": 0.449581
+    },
+    {
+      "acc": 0.64555387,
+      "epoch": 0.31139015728056824,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.697673572915364e-06,
+      "loss": 1.65919189,
+      "memory(GiB)": 111.15,
+      "step": 12275,
+      "train_speed(iter/s)": 0.449677
+    },
+    {
+      "acc": 0.64611149,
+      "epoch": 0.3115169964485033,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.697314364572087e-06,
+      "loss": 1.67409039,
+      "memory(GiB)": 111.15,
+      "step": 12280,
+      "train_speed(iter/s)": 0.449773
+    },
+    {
+      "acc": 0.65357752,
+      "epoch": 0.3116438356164384,
+      "grad_norm": 5.25,
+      "learning_rate": 9.696954949619955e-06,
+      "loss": 1.68172207,
+      "memory(GiB)": 111.15,
+      "step": 12285,
+      "train_speed(iter/s)": 0.449869
+    },
+    {
+      "acc": 0.65429983,
+      "epoch": 0.3117706747843734,
+      "grad_norm": 4.6875,
+      "learning_rate": 9.696595328074774e-06,
+      "loss": 1.63068848,
+      "memory(GiB)": 111.15,
+      "step": 12290,
+      "train_speed(iter/s)": 0.449965
+    },
+    {
+      "acc": 0.65027237,
+      "epoch": 0.31189751395230847,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.69623549995236e-06,
+      "loss": 1.66726665,
+      "memory(GiB)": 111.15,
+      "step": 12295,
+      "train_speed(iter/s)": 0.450062
+    },
+    {
+      "acc": 0.63774481,
+      "epoch": 0.3120243531202435,
+      "grad_norm": 5.625,
+      "learning_rate": 9.695875465268543e-06,
+      "loss": 1.68268318,
+      "memory(GiB)": 111.15,
+      "step": 12300,
+      "train_speed(iter/s)": 0.450158
+    },
+    {
+      "epoch": 0.3120243531202435,
+      "eval_acc": 0.6380873442824575,
+      "eval_loss": 1.6378207206726074,
+      "eval_runtime": 112.1795,
+      "eval_samples_per_second": 56.784,
+      "eval_steps_per_second": 28.392,
+      "step": 12300
+    },
+    {
+      "acc": 0.6519865,
+      "epoch": 0.3121511922881786,
+      "grad_norm": 6.28125,
+      "learning_rate": 9.695515224039156e-06,
+      "loss": 1.67220707,
+      "memory(GiB)": 111.15,
+      "step": 12305,
+      "train_speed(iter/s)": 0.44834
+    },
+    {
+      "acc": 0.64857898,
+      "epoch": 0.31227803145611366,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.695154776280047e-06,
+      "loss": 1.65074673,
+      "memory(GiB)": 111.15,
+      "step": 12310,
+      "train_speed(iter/s)": 0.448436
+    },
+    {
+      "acc": 0.63974056,
+      "epoch": 0.3124048706240487,
+      "grad_norm": 5.375,
+      "learning_rate": 9.694794122007067e-06,
+      "loss": 1.70130463,
+      "memory(GiB)": 111.15,
+      "step": 12315,
+      "train_speed(iter/s)": 0.448531
+    },
+    {
+      "acc": 0.64638128,
+      "epoch": 0.31253170979198375,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.694433261236083e-06,
+      "loss": 1.65410366,
+      "memory(GiB)": 111.15,
+      "step": 12320,
+      "train_speed(iter/s)": 0.448626
+    },
+    {
+      "acc": 0.63894725,
+      "epoch": 0.31265854895991885,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.694072193982962e-06,
+      "loss": 1.73535461,
+      "memory(GiB)": 111.15,
+      "step": 12325,
+      "train_speed(iter/s)": 0.448721
+    },
+    {
+      "acc": 0.64942036,
+      "epoch": 0.3127853881278539,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.69371092026359e-06,
+      "loss": 1.65363121,
+      "memory(GiB)": 111.15,
+      "step": 12330,
+      "train_speed(iter/s)": 0.448816
+    },
+    {
+      "acc": 0.67198801,
+      "epoch": 0.31291222729578894,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.693349440093855e-06,
+      "loss": 1.59727898,
+      "memory(GiB)": 111.15,
+      "step": 12335,
+      "train_speed(iter/s)": 0.448913
+    },
+    {
+      "acc": 0.66462412,
+      "epoch": 0.313039066463724,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.69298775348966e-06,
+      "loss": 1.54071484,
+      "memory(GiB)": 111.15,
+      "step": 12340,
+      "train_speed(iter/s)": 0.449009
+    },
+    {
+      "acc": 0.64421482,
+      "epoch": 0.3131659056316591,
+      "grad_norm": 5.71875,
+      "learning_rate": 9.69262586046691e-06,
+      "loss": 1.6330759,
+      "memory(GiB)": 111.15,
+      "step": 12345,
+      "train_speed(iter/s)": 0.449105
+    },
+    {
+      "acc": 0.65639176,
+      "epoch": 0.3132927447995941,
+      "grad_norm": 5.625,
+      "learning_rate": 9.692263761041521e-06,
+      "loss": 1.66559887,
+      "memory(GiB)": 111.15,
+      "step": 12350,
+      "train_speed(iter/s)": 0.449202
+    },
+    {
+      "acc": 0.64486132,
+      "epoch": 0.31341958396752917,
+      "grad_norm": 4.4375,
+      "learning_rate": 9.691901455229425e-06,
+      "loss": 1.67320061,
+      "memory(GiB)": 111.15,
+      "step": 12355,
+      "train_speed(iter/s)": 0.449299
+    },
+    {
+      "acc": 0.64498558,
+      "epoch": 0.3135464231354642,
+      "grad_norm": 5.125,
+      "learning_rate": 9.691538943046552e-06,
+      "loss": 1.66187878,
+      "memory(GiB)": 111.15,
+      "step": 12360,
+      "train_speed(iter/s)": 0.449396
+    },
+    {
+      "acc": 0.64981194,
+      "epoch": 0.3136732623033993,
+      "grad_norm": 4.625,
+      "learning_rate": 9.691176224508853e-06,
+      "loss": 1.68947449,
+      "memory(GiB)": 111.15,
+      "step": 12365,
+      "train_speed(iter/s)": 0.449492
+    },
+    {
+      "acc": 0.6405592,
+      "epoch": 0.31380010147133436,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.690813299632278e-06,
+      "loss": 1.64771156,
+      "memory(GiB)": 111.15,
+      "step": 12370,
+      "train_speed(iter/s)": 0.449589
+    },
+    {
+      "acc": 0.65196357,
+      "epoch": 0.3139269406392694,
+      "grad_norm": 5.25,
+      "learning_rate": 9.690450168432793e-06,
+      "loss": 1.68153496,
+      "memory(GiB)": 111.15,
+      "step": 12375,
+      "train_speed(iter/s)": 0.449685
+    },
+    {
+      "acc": 0.63152599,
+      "epoch": 0.31405377980720445,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.690086830926366e-06,
+      "loss": 1.67459259,
+      "memory(GiB)": 111.15,
+      "step": 12380,
+      "train_speed(iter/s)": 0.449782
+    },
+    {
+      "acc": 0.62347646,
+      "epoch": 0.31418061897513955,
+      "grad_norm": 4.875,
+      "learning_rate": 9.689723287128981e-06,
+      "loss": 1.69290962,
+      "memory(GiB)": 111.15,
+      "step": 12385,
+      "train_speed(iter/s)": 0.449879
+    },
+    {
+      "acc": 0.64841156,
+      "epoch": 0.3143074581430746,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.689359537056628e-06,
+      "loss": 1.65416145,
+      "memory(GiB)": 111.15,
+      "step": 12390,
+      "train_speed(iter/s)": 0.449976
+    },
+    {
+      "acc": 0.64357009,
+      "epoch": 0.31443429731100964,
+      "grad_norm": 5.84375,
+      "learning_rate": 9.688995580725304e-06,
+      "loss": 1.63249969,
+      "memory(GiB)": 111.15,
+      "step": 12395,
+      "train_speed(iter/s)": 0.450073
+    },
+    {
+      "acc": 0.64715986,
+      "epoch": 0.3145611364789447,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.688631418151022e-06,
+      "loss": 1.61093616,
+      "memory(GiB)": 111.15,
+      "step": 12400,
+      "train_speed(iter/s)": 0.450169
+    },
+    {
+      "epoch": 0.3145611364789447,
+      "eval_acc": 0.6382030658271772,
+      "eval_loss": 1.6377592086791992,
+      "eval_runtime": 113.5274,
+      "eval_samples_per_second": 56.11,
+      "eval_steps_per_second": 28.055,
+      "step": 12400
+    },
+    {
+      "acc": 0.65611143,
+      "epoch": 0.3146879756468798,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.688267049349796e-06,
+      "loss": 1.61102505,
+      "memory(GiB)": 111.15,
+      "step": 12405,
+      "train_speed(iter/s)": 0.448344
+    },
+    {
+      "acc": 0.63575783,
+      "epoch": 0.3148148148148148,
+      "grad_norm": 5.0,
+      "learning_rate": 9.687902474337654e-06,
+      "loss": 1.72477722,
+      "memory(GiB)": 111.15,
+      "step": 12410,
+      "train_speed(iter/s)": 0.448439
+    },
+    {
+      "acc": 0.6424655,
+      "epoch": 0.31494165398274987,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.687537693130631e-06,
+      "loss": 1.61407776,
+      "memory(GiB)": 111.15,
+      "step": 12415,
+      "train_speed(iter/s)": 0.448535
+    },
+    {
+      "acc": 0.63960419,
+      "epoch": 0.3150684931506849,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.687172705744773e-06,
+      "loss": 1.67211838,
+      "memory(GiB)": 111.15,
+      "step": 12420,
+      "train_speed(iter/s)": 0.44863
+    },
+    {
+      "acc": 0.63361168,
+      "epoch": 0.31519533231862,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.686807512196132e-06,
+      "loss": 1.73157749,
+      "memory(GiB)": 111.15,
+      "step": 12425,
+      "train_speed(iter/s)": 0.448726
+    },
+    {
+      "acc": 0.64837651,
+      "epoch": 0.31532217148655506,
+      "grad_norm": 5.71875,
+      "learning_rate": 9.68644211250077e-06,
+      "loss": 1.61457081,
+      "memory(GiB)": 111.15,
+      "step": 12430,
+      "train_speed(iter/s)": 0.448823
+    },
+    {
+      "acc": 0.62967625,
+      "epoch": 0.3154490106544901,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.686076506674761e-06,
+      "loss": 1.68003998,
+      "memory(GiB)": 111.15,
+      "step": 12435,
+      "train_speed(iter/s)": 0.448918
+    },
+    {
+      "acc": 0.63506322,
+      "epoch": 0.31557584982242515,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.685710694734187e-06,
+      "loss": 1.69748344,
+      "memory(GiB)": 111.15,
+      "step": 12440,
+      "train_speed(iter/s)": 0.449014
+    },
+    {
+      "acc": 0.64497838,
+      "epoch": 0.31570268899036025,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.685344676695135e-06,
+      "loss": 1.64053726,
+      "memory(GiB)": 111.15,
+      "step": 12445,
+      "train_speed(iter/s)": 0.44911
+    },
+    {
+      "acc": 0.64180107,
+      "epoch": 0.3158295281582953,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.684978452573706e-06,
+      "loss": 1.70237026,
+      "memory(GiB)": 111.15,
+      "step": 12450,
+      "train_speed(iter/s)": 0.449205
+    },
+    {
+      "acc": 0.65929174,
+      "epoch": 0.31595636732623034,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.684612022386008e-06,
+      "loss": 1.57421932,
+      "memory(GiB)": 111.15,
+      "step": 12455,
+      "train_speed(iter/s)": 0.449299
+    },
+    {
+      "acc": 0.63754921,
+      "epoch": 0.3160832064941654,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.68424538614816e-06,
+      "loss": 1.67094002,
+      "memory(GiB)": 111.15,
+      "step": 12460,
+      "train_speed(iter/s)": 0.449395
+    },
+    {
+      "acc": 0.6456542,
+      "epoch": 0.3162100456621005,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.683878543876281e-06,
+      "loss": 1.67341232,
+      "memory(GiB)": 111.15,
+      "step": 12465,
+      "train_speed(iter/s)": 0.44949
+    },
+    {
+      "acc": 0.65152187,
+      "epoch": 0.3163368848300355,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.683511495586516e-06,
+      "loss": 1.62917557,
+      "memory(GiB)": 111.15,
+      "step": 12470,
+      "train_speed(iter/s)": 0.449586
+    },
+    {
+      "acc": 0.64967985,
+      "epoch": 0.31646372399797057,
+      "grad_norm": 5.25,
+      "learning_rate": 9.683144241295003e-06,
+      "loss": 1.60640774,
+      "memory(GiB)": 111.15,
+      "step": 12475,
+      "train_speed(iter/s)": 0.44968
+    },
+    {
+      "acc": 0.65012331,
+      "epoch": 0.3165905631659056,
+      "grad_norm": 6.21875,
+      "learning_rate": 9.682776781017899e-06,
+      "loss": 1.62433281,
+      "memory(GiB)": 111.15,
+      "step": 12480,
+      "train_speed(iter/s)": 0.449775
+    },
+    {
+      "acc": 0.63326378,
+      "epoch": 0.3167174023338407,
+      "grad_norm": 5.625,
+      "learning_rate": 9.682409114771364e-06,
+      "loss": 1.69007587,
+      "memory(GiB)": 111.15,
+      "step": 12485,
+      "train_speed(iter/s)": 0.449869
+    },
+    {
+      "acc": 0.63097239,
+      "epoch": 0.31684424150177576,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.682041242571571e-06,
+      "loss": 1.67244854,
+      "memory(GiB)": 111.15,
+      "step": 12490,
+      "train_speed(iter/s)": 0.449964
+    },
+    {
+      "acc": 0.64923487,
+      "epoch": 0.3169710806697108,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.681673164434701e-06,
+      "loss": 1.67347546,
+      "memory(GiB)": 111.15,
+      "step": 12495,
+      "train_speed(iter/s)": 0.450059
+    },
+    {
+      "acc": 0.65236993,
+      "epoch": 0.31709791983764585,
+      "grad_norm": 4.46875,
+      "learning_rate": 9.681304880376942e-06,
+      "loss": 1.59691343,
+      "memory(GiB)": 111.15,
+      "step": 12500,
+      "train_speed(iter/s)": 0.450153
+    },
+    {
+      "epoch": 0.31709791983764585,
+      "eval_acc": 0.6383233828123009,
+      "eval_loss": 1.6375657320022583,
+      "eval_runtime": 113.5589,
+      "eval_samples_per_second": 56.094,
+      "eval_steps_per_second": 28.047,
+      "step": 12500
+    },
+    {
+      "acc": 0.64003592,
+      "epoch": 0.31722475900558095,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.680936390414495e-06,
+      "loss": 1.7397686,
+      "memory(GiB)": 111.15,
+      "step": 12505,
+      "train_speed(iter/s)": 0.448341
+    },
+    {
+      "acc": 0.64458485,
+      "epoch": 0.317351598173516,
+      "grad_norm": 6.09375,
+      "learning_rate": 9.680567694563566e-06,
+      "loss": 1.68002281,
+      "memory(GiB)": 111.15,
+      "step": 12510,
+      "train_speed(iter/s)": 0.448433
+    },
+    {
+      "acc": 0.64521823,
+      "epoch": 0.31747843734145104,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.680198792840371e-06,
+      "loss": 1.66868973,
+      "memory(GiB)": 111.15,
+      "step": 12515,
+      "train_speed(iter/s)": 0.448526
+    },
+    {
+      "acc": 0.63747115,
+      "epoch": 0.3176052765093861,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.67982968526114e-06,
+      "loss": 1.64109364,
+      "memory(GiB)": 111.15,
+      "step": 12520,
+      "train_speed(iter/s)": 0.448618
+    },
+    {
+      "acc": 0.65895777,
+      "epoch": 0.3177321156773212,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.679460371842104e-06,
+      "loss": 1.61014729,
+      "memory(GiB)": 111.15,
+      "step": 12525,
+      "train_speed(iter/s)": 0.448712
+    },
+    {
+      "acc": 0.63992023,
+      "epoch": 0.3178589548452562,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.679090852599508e-06,
+      "loss": 1.65574684,
+      "memory(GiB)": 111.15,
+      "step": 12530,
+      "train_speed(iter/s)": 0.448805
+    },
+    {
+      "acc": 0.63760061,
+      "epoch": 0.31798579401319127,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.678721127549608e-06,
+      "loss": 1.69728069,
+      "memory(GiB)": 111.15,
+      "step": 12535,
+      "train_speed(iter/s)": 0.448899
+    },
+    {
+      "acc": 0.62461891,
+      "epoch": 0.3181126331811263,
+      "grad_norm": 6.46875,
+      "learning_rate": 9.678351196708662e-06,
+      "loss": 1.77512836,
+      "memory(GiB)": 111.15,
+      "step": 12540,
+      "train_speed(iter/s)": 0.448993
+    },
+    {
+      "acc": 0.64404902,
+      "epoch": 0.3182394723490614,
+      "grad_norm": 5.78125,
+      "learning_rate": 9.677981060092943e-06,
+      "loss": 1.71545658,
+      "memory(GiB)": 111.15,
+      "step": 12545,
+      "train_speed(iter/s)": 0.449087
+    },
+    {
+      "acc": 0.62593794,
+      "epoch": 0.31836631151699646,
+      "grad_norm": 4.34375,
+      "learning_rate": 9.677610717718732e-06,
+      "loss": 1.72600632,
+      "memory(GiB)": 111.15,
+      "step": 12550,
+      "train_speed(iter/s)": 0.44918
+    },
+    {
+      "acc": 0.62508011,
+      "epoch": 0.3184931506849315,
+      "grad_norm": 6.25,
+      "learning_rate": 9.677240169602317e-06,
+      "loss": 1.73107262,
+      "memory(GiB)": 111.15,
+      "step": 12555,
+      "train_speed(iter/s)": 0.449274
+    },
+    {
+      "acc": 0.64505749,
+      "epoch": 0.31861998985286655,
+      "grad_norm": 5.84375,
+      "learning_rate": 9.676869415759999e-06,
+      "loss": 1.66729317,
+      "memory(GiB)": 111.15,
+      "step": 12560,
+      "train_speed(iter/s)": 0.449366
+    },
+    {
+      "acc": 0.62894316,
+      "epoch": 0.31874682902080165,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.67649845620808e-06,
+      "loss": 1.75995369,
+      "memory(GiB)": 111.15,
+      "step": 12565,
+      "train_speed(iter/s)": 0.449459
+    },
+    {
+      "acc": 0.64986734,
+      "epoch": 0.3188736681887367,
+      "grad_norm": 4.625,
+      "learning_rate": 9.676127290962883e-06,
+      "loss": 1.69117355,
+      "memory(GiB)": 111.15,
+      "step": 12570,
+      "train_speed(iter/s)": 0.449552
+    },
+    {
+      "acc": 0.64299374,
+      "epoch": 0.31900050735667174,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.675755920040728e-06,
+      "loss": 1.6517168,
+      "memory(GiB)": 111.15,
+      "step": 12575,
+      "train_speed(iter/s)": 0.449646
+    },
+    {
+      "acc": 0.65798578,
+      "epoch": 0.3191273465246068,
+      "grad_norm": 5.0,
+      "learning_rate": 9.675384343457954e-06,
+      "loss": 1.64493504,
+      "memory(GiB)": 111.15,
+      "step": 12580,
+      "train_speed(iter/s)": 0.449739
+    },
+    {
+      "acc": 0.64022484,
+      "epoch": 0.3192541856925419,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.675012561230901e-06,
+      "loss": 1.68173428,
+      "memory(GiB)": 111.15,
+      "step": 12585,
+      "train_speed(iter/s)": 0.449832
+    },
+    {
+      "acc": 0.65287528,
+      "epoch": 0.3193810248604769,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.674640573375924e-06,
+      "loss": 1.6714222,
+      "memory(GiB)": 111.15,
+      "step": 12590,
+      "train_speed(iter/s)": 0.449925
+    },
+    {
+      "acc": 0.6428266,
+      "epoch": 0.31950786402841197,
+      "grad_norm": 6.21875,
+      "learning_rate": 9.674268379909383e-06,
+      "loss": 1.72566566,
+      "memory(GiB)": 111.15,
+      "step": 12595,
+      "train_speed(iter/s)": 0.450018
+    },
+    {
+      "acc": 0.64935522,
+      "epoch": 0.319634703196347,
+      "grad_norm": 6.625,
+      "learning_rate": 9.67389598084765e-06,
+      "loss": 1.66134434,
+      "memory(GiB)": 111.15,
+      "step": 12600,
+      "train_speed(iter/s)": 0.450111
+    },
+    {
+      "epoch": 0.319634703196347,
+      "eval_acc": 0.6382615532505013,
+      "eval_loss": 1.6370997428894043,
+      "eval_runtime": 113.4572,
+      "eval_samples_per_second": 56.145,
+      "eval_steps_per_second": 28.072,
+      "step": 12600
+    },
+    {
+      "acc": 0.6462431,
+      "epoch": 0.3197615423642821,
+      "grad_norm": 6.65625,
+      "learning_rate": 9.673523376207103e-06,
+      "loss": 1.63447762,
+      "memory(GiB)": 111.15,
+      "step": 12605,
+      "train_speed(iter/s)": 0.448315
+    },
+    {
+      "acc": 0.6332521,
+      "epoch": 0.31988838153221716,
+      "grad_norm": 6.8125,
+      "learning_rate": 9.673150566004135e-06,
+      "loss": 1.66529655,
+      "memory(GiB)": 111.15,
+      "step": 12610,
+      "train_speed(iter/s)": 0.448408
+    },
+    {
+      "acc": 0.63859196,
+      "epoch": 0.3200152207001522,
+      "grad_norm": 4.875,
+      "learning_rate": 9.672777550255137e-06,
+      "loss": 1.74135742,
+      "memory(GiB)": 111.15,
+      "step": 12615,
+      "train_speed(iter/s)": 0.448501
+    },
+    {
+      "acc": 0.65100927,
+      "epoch": 0.32014205986808725,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.672404328976523e-06,
+      "loss": 1.6732151,
+      "memory(GiB)": 111.15,
+      "step": 12620,
+      "train_speed(iter/s)": 0.448593
+    },
+    {
+      "acc": 0.64866238,
+      "epoch": 0.32026889903602235,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.672030902184706e-06,
+      "loss": 1.6350605,
+      "memory(GiB)": 111.15,
+      "step": 12625,
+      "train_speed(iter/s)": 0.448685
+    },
+    {
+      "acc": 0.6432375,
+      "epoch": 0.3203957382039574,
+      "grad_norm": 4.875,
+      "learning_rate": 9.671657269896108e-06,
+      "loss": 1.73939285,
+      "memory(GiB)": 111.15,
+      "step": 12630,
+      "train_speed(iter/s)": 0.448778
+    },
+    {
+      "acc": 0.64651279,
+      "epoch": 0.32052257737189244,
+      "grad_norm": 4.625,
+      "learning_rate": 9.671283432127169e-06,
+      "loss": 1.6644062,
+      "memory(GiB)": 111.15,
+      "step": 12635,
+      "train_speed(iter/s)": 0.448871
+    },
+    {
+      "acc": 0.65070481,
+      "epoch": 0.3206494165398275,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.670909388894328e-06,
+      "loss": 1.62857304,
+      "memory(GiB)": 111.15,
+      "step": 12640,
+      "train_speed(iter/s)": 0.448964
+    },
+    {
+      "acc": 0.64438763,
+      "epoch": 0.3207762557077626,
+      "grad_norm": 4.53125,
+      "learning_rate": 9.670535140214037e-06,
+      "loss": 1.68114624,
+      "memory(GiB)": 111.15,
+      "step": 12645,
+      "train_speed(iter/s)": 0.449058
+    },
+    {
+      "acc": 0.64042883,
+      "epoch": 0.3209030948756976,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.670160686102759e-06,
+      "loss": 1.67542953,
+      "memory(GiB)": 111.15,
+      "step": 12650,
+      "train_speed(iter/s)": 0.44915
+    },
+    {
+      "acc": 0.63703537,
+      "epoch": 0.32102993404363267,
+      "grad_norm": 5.25,
+      "learning_rate": 9.669786026576962e-06,
+      "loss": 1.6852375,
+      "memory(GiB)": 111.15,
+      "step": 12655,
+      "train_speed(iter/s)": 0.449242
+    },
+    {
+      "acc": 0.65243816,
+      "epoch": 0.3211567732115677,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.669411161653127e-06,
+      "loss": 1.65030746,
+      "memory(GiB)": 111.15,
+      "step": 12660,
+      "train_speed(iter/s)": 0.449335
+    },
+    {
+      "acc": 0.63336363,
+      "epoch": 0.3212836123795028,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.669036091347742e-06,
+      "loss": 1.6585041,
+      "memory(GiB)": 111.15,
+      "step": 12665,
+      "train_speed(iter/s)": 0.449428
+    },
+    {
+      "acc": 0.64557114,
+      "epoch": 0.32141045154743786,
+      "grad_norm": 6.09375,
+      "learning_rate": 9.668660815677304e-06,
+      "loss": 1.61463661,
+      "memory(GiB)": 111.15,
+      "step": 12670,
+      "train_speed(iter/s)": 0.44952
+    },
+    {
+      "acc": 0.66961851,
+      "epoch": 0.3215372907153729,
+      "grad_norm": 6.21875,
+      "learning_rate": 9.668285334658319e-06,
+      "loss": 1.60739269,
+      "memory(GiB)": 111.15,
+      "step": 12675,
+      "train_speed(iter/s)": 0.449613
+    },
+    {
+      "acc": 0.63705478,
+      "epoch": 0.32166412988330795,
+      "grad_norm": 4.875,
+      "learning_rate": 9.667909648307302e-06,
+      "loss": 1.69984627,
+      "memory(GiB)": 111.15,
+      "step": 12680,
+      "train_speed(iter/s)": 0.449707
+    },
+    {
+      "acc": 0.66240554,
+      "epoch": 0.32179096905124305,
+      "grad_norm": 6.96875,
+      "learning_rate": 9.66753375664078e-06,
+      "loss": 1.5973053,
+      "memory(GiB)": 111.15,
+      "step": 12685,
+      "train_speed(iter/s)": 0.449801
+    },
+    {
+      "acc": 0.64298182,
+      "epoch": 0.3219178082191781,
+      "grad_norm": 5.75,
+      "learning_rate": 9.667157659675284e-06,
+      "loss": 1.64596786,
+      "memory(GiB)": 111.15,
+      "step": 12690,
+      "train_speed(iter/s)": 0.449894
+    },
+    {
+      "acc": 0.64712687,
+      "epoch": 0.32204464738711314,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.666781357427355e-06,
+      "loss": 1.68261433,
+      "memory(GiB)": 111.15,
+      "step": 12695,
+      "train_speed(iter/s)": 0.449987
+    },
+    {
+      "acc": 0.63881989,
+      "epoch": 0.3221714865550482,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.666404849913546e-06,
+      "loss": 1.67943859,
+      "memory(GiB)": 111.15,
+      "step": 12700,
+      "train_speed(iter/s)": 0.450081
+    },
+    {
+      "epoch": 0.3221714865550482,
+      "eval_acc": 0.6383309026238712,
+      "eval_loss": 1.636739730834961,
+      "eval_runtime": 113.1193,
+      "eval_samples_per_second": 56.312,
+      "eval_steps_per_second": 28.156,
+      "step": 12700
+    },
+    {
+      "acc": 0.65242548,
+      "epoch": 0.3222983257229833,
+      "grad_norm": 6.1875,
+      "learning_rate": 9.66602813715042e-06,
+      "loss": 1.62917042,
+      "memory(GiB)": 111.15,
+      "step": 12705,
+      "train_speed(iter/s)": 0.448305
+    },
+    {
+      "acc": 0.65058274,
+      "epoch": 0.3224251648909183,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.665651219154543e-06,
+      "loss": 1.67290039,
+      "memory(GiB)": 111.15,
+      "step": 12710,
+      "train_speed(iter/s)": 0.448398
+    },
+    {
+      "acc": 0.6516675,
+      "epoch": 0.32255200405885337,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.665274095942495e-06,
+      "loss": 1.6879673,
+      "memory(GiB)": 111.15,
+      "step": 12715,
+      "train_speed(iter/s)": 0.448491
+    },
+    {
+      "acc": 0.64853749,
+      "epoch": 0.3226788432267884,
+      "grad_norm": 5.125,
+      "learning_rate": 9.664896767530862e-06,
+      "loss": 1.72316685,
+      "memory(GiB)": 111.15,
+      "step": 12720,
+      "train_speed(iter/s)": 0.448584
+    },
+    {
+      "acc": 0.63993325,
+      "epoch": 0.3228056823947235,
+      "grad_norm": 4.59375,
+      "learning_rate": 9.664519233936242e-06,
+      "loss": 1.66685562,
+      "memory(GiB)": 111.15,
+      "step": 12725,
+      "train_speed(iter/s)": 0.448677
+    },
+    {
+      "acc": 0.64207273,
+      "epoch": 0.32293252156265856,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.664141495175242e-06,
+      "loss": 1.61380424,
+      "memory(GiB)": 111.15,
+      "step": 12730,
+      "train_speed(iter/s)": 0.448768
+    },
+    {
+      "acc": 0.64839392,
+      "epoch": 0.3230593607305936,
+      "grad_norm": 4.875,
+      "learning_rate": 9.663763551264476e-06,
+      "loss": 1.68673096,
+      "memory(GiB)": 111.15,
+      "step": 12735,
+      "train_speed(iter/s)": 0.44886
+    },
+    {
+      "acc": 0.64906898,
+      "epoch": 0.32318619989852865,
+      "grad_norm": 5.25,
+      "learning_rate": 9.663385402220565e-06,
+      "loss": 1.61658974,
+      "memory(GiB)": 111.15,
+      "step": 12740,
+      "train_speed(iter/s)": 0.448952
+    },
+    {
+      "acc": 0.64483638,
+      "epoch": 0.32331303906646375,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.663007048060144e-06,
+      "loss": 1.73548241,
+      "memory(GiB)": 111.15,
+      "step": 12745,
+      "train_speed(iter/s)": 0.449045
+    },
+    {
+      "acc": 0.6556385,
+      "epoch": 0.3234398782343988,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.662628488799854e-06,
+      "loss": 1.58471451,
+      "memory(GiB)": 111.15,
+      "step": 12750,
+      "train_speed(iter/s)": 0.449137
+    },
+    {
+      "acc": 0.63845682,
+      "epoch": 0.32356671740233384,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.662249724456346e-06,
+      "loss": 1.62975445,
+      "memory(GiB)": 111.15,
+      "step": 12755,
+      "train_speed(iter/s)": 0.449229
+    },
+    {
+      "acc": 0.65083241,
+      "epoch": 0.3236935565702689,
+      "grad_norm": 5.9375,
+      "learning_rate": 9.661870755046278e-06,
+      "loss": 1.65941849,
+      "memory(GiB)": 111.15,
+      "step": 12760,
+      "train_speed(iter/s)": 0.449323
+    },
+    {
+      "acc": 0.64471331,
+      "epoch": 0.323820395738204,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.661491580586322e-06,
+      "loss": 1.62121983,
+      "memory(GiB)": 111.15,
+      "step": 12765,
+      "train_speed(iter/s)": 0.449415
+    },
+    {
+      "acc": 0.63827276,
+      "epoch": 0.323947234906139,
+      "grad_norm": 6.15625,
+      "learning_rate": 9.661112201093156e-06,
+      "loss": 1.65420418,
+      "memory(GiB)": 111.15,
+      "step": 12770,
+      "train_speed(iter/s)": 0.449507
+    },
+    {
+      "acc": 0.64150987,
+      "epoch": 0.32407407407407407,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.660732616583463e-06,
+      "loss": 1.68162708,
+      "memory(GiB)": 111.15,
+      "step": 12775,
+      "train_speed(iter/s)": 0.449599
+    },
+    {
+      "acc": 0.6585186,
+      "epoch": 0.3242009132420091,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.660352827073941e-06,
+      "loss": 1.62037201,
+      "memory(GiB)": 111.15,
+      "step": 12780,
+      "train_speed(iter/s)": 0.449691
+    },
+    {
+      "acc": 0.62741652,
+      "epoch": 0.3243277524099442,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.659972832581295e-06,
+      "loss": 1.68121338,
+      "memory(GiB)": 111.15,
+      "step": 12785,
+      "train_speed(iter/s)": 0.449784
+    },
+    {
+      "acc": 0.64315205,
+      "epoch": 0.32445459157787926,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.659592633122238e-06,
+      "loss": 1.64644413,
+      "memory(GiB)": 111.15,
+      "step": 12790,
+      "train_speed(iter/s)": 0.449876
+    },
+    {
+      "acc": 0.63680639,
+      "epoch": 0.3245814307458143,
+      "grad_norm": 6.03125,
+      "learning_rate": 9.659212228713495e-06,
+      "loss": 1.68993225,
+      "memory(GiB)": 111.15,
+      "step": 12795,
+      "train_speed(iter/s)": 0.449969
+    },
+    {
+      "acc": 0.65505972,
+      "epoch": 0.32470826991374935,
+      "grad_norm": 5.6875,
+      "learning_rate": 9.658831619371793e-06,
+      "loss": 1.64265099,
+      "memory(GiB)": 111.15,
+      "step": 12800,
+      "train_speed(iter/s)": 0.450061
+    },
+    {
+      "epoch": 0.32470826991374935,
+      "eval_acc": 0.6385264177246972,
+      "eval_loss": 1.6363639831542969,
+      "eval_runtime": 113.5116,
+      "eval_samples_per_second": 56.118,
+      "eval_steps_per_second": 28.059,
+      "step": 12800
+    },
+    {
+      "acc": 0.64229908,
+      "epoch": 0.32483510908168445,
+      "grad_norm": 5.9375,
+      "learning_rate": 9.658450805113879e-06,
+      "loss": 1.71740494,
+      "memory(GiB)": 111.15,
+      "step": 12805,
+      "train_speed(iter/s)": 0.448294
+    },
+    {
+      "acc": 0.65582676,
+      "epoch": 0.3249619482496195,
+      "grad_norm": 4.5625,
+      "learning_rate": 9.6580697859565e-06,
+      "loss": 1.59375496,
+      "memory(GiB)": 111.15,
+      "step": 12810,
+      "train_speed(iter/s)": 0.448386
+    },
+    {
+      "acc": 0.6705183,
+      "epoch": 0.32508878741755454,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.657688561916414e-06,
+      "loss": 1.51463938,
+      "memory(GiB)": 111.15,
+      "step": 12815,
+      "train_speed(iter/s)": 0.448476
+    },
+    {
+      "acc": 0.65902934,
+      "epoch": 0.3252156265854896,
+      "grad_norm": 6.0,
+      "learning_rate": 9.65730713301039e-06,
+      "loss": 1.59709816,
+      "memory(GiB)": 111.15,
+      "step": 12820,
+      "train_speed(iter/s)": 0.448567
+    },
+    {
+      "acc": 0.63833179,
+      "epoch": 0.3253424657534247,
+      "grad_norm": 5.5,
+      "learning_rate": 9.656925499255206e-06,
+      "loss": 1.65652084,
+      "memory(GiB)": 111.15,
+      "step": 12825,
+      "train_speed(iter/s)": 0.448659
+    },
+    {
+      "acc": 0.6510891,
+      "epoch": 0.3254693049213597,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.656543660667646e-06,
+      "loss": 1.62483921,
+      "memory(GiB)": 111.15,
+      "step": 12830,
+      "train_speed(iter/s)": 0.448751
+    },
+    {
+      "acc": 0.66133995,
+      "epoch": 0.32559614408929477,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.656161617264507e-06,
+      "loss": 1.56089907,
+      "memory(GiB)": 111.15,
+      "step": 12835,
+      "train_speed(iter/s)": 0.448843
+    },
+    {
+      "acc": 0.63487082,
+      "epoch": 0.3257229832572298,
+      "grad_norm": 6.25,
+      "learning_rate": 9.65577936906259e-06,
+      "loss": 1.66533298,
+      "memory(GiB)": 111.15,
+      "step": 12840,
+      "train_speed(iter/s)": 0.448933
+    },
+    {
+      "acc": 0.63235302,
+      "epoch": 0.3258498224251649,
+      "grad_norm": 6.4375,
+      "learning_rate": 9.65539691607871e-06,
+      "loss": 1.67911472,
+      "memory(GiB)": 111.15,
+      "step": 12845,
+      "train_speed(iter/s)": 0.449025
+    },
+    {
+      "acc": 0.64030523,
+      "epoch": 0.32597666159309996,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.65501425832969e-06,
+      "loss": 1.69944878,
+      "memory(GiB)": 111.15,
+      "step": 12850,
+      "train_speed(iter/s)": 0.449116
+    },
+    {
+      "acc": 0.63727961,
+      "epoch": 0.326103500761035,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.65463139583236e-06,
+      "loss": 1.69278393,
+      "memory(GiB)": 111.15,
+      "step": 12855,
+      "train_speed(iter/s)": 0.449207
+    },
+    {
+      "acc": 0.64086809,
+      "epoch": 0.32623033992897005,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.65424832860356e-06,
+      "loss": 1.68437691,
+      "memory(GiB)": 111.15,
+      "step": 12860,
+      "train_speed(iter/s)": 0.449299
+    },
+    {
+      "acc": 0.64703484,
+      "epoch": 0.32635717909690515,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.653865056660136e-06,
+      "loss": 1.6538414,
+      "memory(GiB)": 111.15,
+      "step": 12865,
+      "train_speed(iter/s)": 0.44939
+    },
+    {
+      "acc": 0.64520769,
+      "epoch": 0.3264840182648402,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.653481580018951e-06,
+      "loss": 1.69008942,
+      "memory(GiB)": 111.15,
+      "step": 12870,
+      "train_speed(iter/s)": 0.449481
+    },
+    {
+      "acc": 0.64410734,
+      "epoch": 0.32661085743277524,
+      "grad_norm": 6.03125,
+      "learning_rate": 9.653097898696869e-06,
+      "loss": 1.7099102,
+      "memory(GiB)": 111.15,
+      "step": 12875,
+      "train_speed(iter/s)": 0.449572
+    },
+    {
+      "acc": 0.63412018,
+      "epoch": 0.3267376966007103,
+      "grad_norm": 6.125,
+      "learning_rate": 9.652714012710766e-06,
+      "loss": 1.70931396,
+      "memory(GiB)": 111.15,
+      "step": 12880,
+      "train_speed(iter/s)": 0.449663
+    },
+    {
+      "acc": 0.64472704,
+      "epoch": 0.3268645357686454,
+      "grad_norm": 6.09375,
+      "learning_rate": 9.65232992207753e-06,
+      "loss": 1.72259197,
+      "memory(GiB)": 111.15,
+      "step": 12885,
+      "train_speed(iter/s)": 0.449755
+    },
+    {
+      "acc": 0.63794131,
+      "epoch": 0.3269913749365804,
+      "grad_norm": 4.59375,
+      "learning_rate": 9.651945626814052e-06,
+      "loss": 1.70574207,
+      "memory(GiB)": 111.15,
+      "step": 12890,
+      "train_speed(iter/s)": 0.449848
+    },
+    {
+      "acc": 0.649508,
+      "epoch": 0.32711821410451547,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.651561126937236e-06,
+      "loss": 1.63064919,
+      "memory(GiB)": 111.15,
+      "step": 12895,
+      "train_speed(iter/s)": 0.449938
+    },
+    {
+      "acc": 0.63328896,
+      "epoch": 0.3272450532724505,
+      "grad_norm": 5.875,
+      "learning_rate": 9.651176422463994e-06,
+      "loss": 1.74399433,
+      "memory(GiB)": 111.15,
+      "step": 12900,
+      "train_speed(iter/s)": 0.45003
+    },
+    {
+      "epoch": 0.3272450532724505,
+      "eval_acc": 0.6384775389494907,
+      "eval_loss": 1.6361290216445923,
+      "eval_runtime": 113.0341,
+      "eval_samples_per_second": 56.355,
+      "eval_steps_per_second": 28.177,
+      "step": 12900
+    },
+    {
+      "acc": 0.64975996,
+      "epoch": 0.3273718924403856,
+      "grad_norm": 4.5625,
+      "learning_rate": 9.650791513411246e-06,
+      "loss": 1.61017075,
+      "memory(GiB)": 111.15,
+      "step": 12905,
+      "train_speed(iter/s)": 0.448284
+    },
+    {
+      "acc": 0.62648792,
+      "epoch": 0.32749873160832066,
+      "grad_norm": 4.4375,
+      "learning_rate": 9.650406399795924e-06,
+      "loss": 1.70466881,
+      "memory(GiB)": 111.15,
+      "step": 12910,
+      "train_speed(iter/s)": 0.448374
+    },
+    {
+      "acc": 0.64123712,
+      "epoch": 0.3276255707762557,
+      "grad_norm": 6.375,
+      "learning_rate": 9.650021081634965e-06,
+      "loss": 1.71838818,
+      "memory(GiB)": 111.15,
+      "step": 12915,
+      "train_speed(iter/s)": 0.448466
+    },
+    {
+      "acc": 0.64075165,
+      "epoch": 0.32775240994419075,
+      "grad_norm": 5.375,
+      "learning_rate": 9.649635558945318e-06,
+      "loss": 1.64437752,
+      "memory(GiB)": 111.15,
+      "step": 12920,
+      "train_speed(iter/s)": 0.448557
+    },
+    {
+      "acc": 0.63724203,
+      "epoch": 0.32787924911212585,
+      "grad_norm": 4.5625,
+      "learning_rate": 9.649249831743941e-06,
+      "loss": 1.69252949,
+      "memory(GiB)": 111.15,
+      "step": 12925,
+      "train_speed(iter/s)": 0.448647
+    },
+    {
+      "acc": 0.63944511,
+      "epoch": 0.3280060882800609,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.6488639000478e-06,
+      "loss": 1.70934372,
+      "memory(GiB)": 111.15,
+      "step": 12930,
+      "train_speed(iter/s)": 0.448739
+    },
+    {
+      "acc": 0.6546886,
+      "epoch": 0.32813292744799594,
+      "grad_norm": 5.125,
+      "learning_rate": 9.648477763873868e-06,
+      "loss": 1.64684982,
+      "memory(GiB)": 111.15,
+      "step": 12935,
+      "train_speed(iter/s)": 0.448831
+    },
+    {
+      "acc": 0.64837551,
+      "epoch": 0.328259766615931,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.648091423239128e-06,
+      "loss": 1.61827412,
+      "memory(GiB)": 111.15,
+      "step": 12940,
+      "train_speed(iter/s)": 0.448922
+    },
+    {
+      "acc": 0.65476255,
+      "epoch": 0.3283866057838661,
+      "grad_norm": 5.375,
+      "learning_rate": 9.647704878160576e-06,
+      "loss": 1.5966938,
+      "memory(GiB)": 111.15,
+      "step": 12945,
+      "train_speed(iter/s)": 0.449013
+    },
+    {
+      "acc": 0.628016,
+      "epoch": 0.3285134449518011,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.647318128655213e-06,
+      "loss": 1.65439758,
+      "memory(GiB)": 111.15,
+      "step": 12950,
+      "train_speed(iter/s)": 0.449105
+    },
+    {
+      "acc": 0.66120496,
+      "epoch": 0.32864028411973617,
+      "grad_norm": 4.625,
+      "learning_rate": 9.64693117474005e-06,
+      "loss": 1.59857464,
+      "memory(GiB)": 111.15,
+      "step": 12955,
+      "train_speed(iter/s)": 0.449194
+    },
+    {
+      "acc": 0.64784303,
+      "epoch": 0.3287671232876712,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.646544016432109e-06,
+      "loss": 1.65207672,
+      "memory(GiB)": 111.15,
+      "step": 12960,
+      "train_speed(iter/s)": 0.449285
+    },
+    {
+      "acc": 0.65713844,
+      "epoch": 0.3288939624556063,
+      "grad_norm": 5.78125,
+      "learning_rate": 9.646156653748415e-06,
+      "loss": 1.63149567,
+      "memory(GiB)": 111.15,
+      "step": 12965,
+      "train_speed(iter/s)": 0.449376
+    },
+    {
+      "acc": 0.65116572,
+      "epoch": 0.32902080162354136,
+      "grad_norm": 5.5,
+      "learning_rate": 9.645769086706008e-06,
+      "loss": 1.6997673,
+      "memory(GiB)": 111.15,
+      "step": 12970,
+      "train_speed(iter/s)": 0.449466
+    },
+    {
+      "acc": 0.64783249,
+      "epoch": 0.3291476407914764,
+      "grad_norm": 4.34375,
+      "learning_rate": 9.645381315321934e-06,
+      "loss": 1.64681797,
+      "memory(GiB)": 111.15,
+      "step": 12975,
+      "train_speed(iter/s)": 0.449557
+    },
+    {
+      "acc": 0.64741354,
+      "epoch": 0.32927447995941145,
+      "grad_norm": 4.46875,
+      "learning_rate": 9.64499333961325e-06,
+      "loss": 1.68768044,
+      "memory(GiB)": 111.15,
+      "step": 12980,
+      "train_speed(iter/s)": 0.449649
+    },
+    {
+      "acc": 0.66060028,
+      "epoch": 0.32940131912734655,
+      "grad_norm": 4.875,
+      "learning_rate": 9.64460515959702e-06,
+      "loss": 1.56873646,
+      "memory(GiB)": 111.15,
+      "step": 12985,
+      "train_speed(iter/s)": 0.44974
+    },
+    {
+      "acc": 0.63774815,
+      "epoch": 0.3295281582952816,
+      "grad_norm": 5.84375,
+      "learning_rate": 9.64421677529032e-06,
+      "loss": 1.66719456,
+      "memory(GiB)": 111.15,
+      "step": 12990,
+      "train_speed(iter/s)": 0.449832
+    },
+    {
+      "acc": 0.66481404,
+      "epoch": 0.32965499746321664,
+      "grad_norm": 4.5625,
+      "learning_rate": 9.64382818671023e-06,
+      "loss": 1.57818432,
+      "memory(GiB)": 111.15,
+      "step": 12995,
+      "train_speed(iter/s)": 0.449923
+    },
+    {
+      "acc": 0.65654202,
+      "epoch": 0.3297818366311517,
+      "grad_norm": 5.71875,
+      "learning_rate": 9.643439393873844e-06,
+      "loss": 1.58309574,
+      "memory(GiB)": 111.15,
+      "step": 13000,
+      "train_speed(iter/s)": 0.450013
+    },
+    {
+      "epoch": 0.3297818366311517,
+      "eval_acc": 0.638631277319371,
+      "eval_loss": 1.635608196258545,
+      "eval_runtime": 113.3342,
+      "eval_samples_per_second": 56.205,
+      "eval_steps_per_second": 28.103,
+      "step": 13000
+    },
+    {
+      "acc": 0.64650068,
+      "epoch": 0.3299086757990868,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.643050396798262e-06,
+      "loss": 1.67794151,
+      "memory(GiB)": 111.15,
+      "step": 13005,
+      "train_speed(iter/s)": 0.448277
+    },
+    {
+      "acc": 0.65416927,
+      "epoch": 0.3300355149670218,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.642661195500593e-06,
+      "loss": 1.60028248,
+      "memory(GiB)": 111.15,
+      "step": 13010,
+      "train_speed(iter/s)": 0.448369
+    },
+    {
+      "acc": 0.63268671,
+      "epoch": 0.33016235413495687,
+      "grad_norm": 5.75,
+      "learning_rate": 9.642271789997956e-06,
+      "loss": 1.66915569,
+      "memory(GiB)": 111.15,
+      "step": 13015,
+      "train_speed(iter/s)": 0.448459
+    },
+    {
+      "acc": 0.65095663,
+      "epoch": 0.3302891933028919,
+      "grad_norm": 4.625,
+      "learning_rate": 9.64188218030748e-06,
+      "loss": 1.582341,
+      "memory(GiB)": 111.15,
+      "step": 13020,
+      "train_speed(iter/s)": 0.44855
+    },
+    {
+      "acc": 0.65387135,
+      "epoch": 0.330416032470827,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.641492366446301e-06,
+      "loss": 1.61686783,
+      "memory(GiB)": 111.15,
+      "step": 13025,
+      "train_speed(iter/s)": 0.44864
+    },
+    {
+      "acc": 0.64295979,
+      "epoch": 0.33054287163876206,
+      "grad_norm": 4.625,
+      "learning_rate": 9.641102348431565e-06,
+      "loss": 1.64997482,
+      "memory(GiB)": 111.15,
+      "step": 13030,
+      "train_speed(iter/s)": 0.448731
+    },
+    {
+      "acc": 0.63614974,
+      "epoch": 0.3306697108066971,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.640712126280429e-06,
+      "loss": 1.67680168,
+      "memory(GiB)": 111.15,
+      "step": 13035,
+      "train_speed(iter/s)": 0.448822
+    },
+    {
+      "acc": 0.64576697,
+      "epoch": 0.33079654997463215,
+      "grad_norm": 5.0,
+      "learning_rate": 9.640321700010053e-06,
+      "loss": 1.62277756,
+      "memory(GiB)": 111.15,
+      "step": 13040,
+      "train_speed(iter/s)": 0.448913
+    },
+    {
+      "acc": 0.64266219,
+      "epoch": 0.33092338914256725,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.63993106963761e-06,
+      "loss": 1.66203728,
+      "memory(GiB)": 111.15,
+      "step": 13045,
+      "train_speed(iter/s)": 0.449005
+    },
+    {
+      "acc": 0.63997221,
+      "epoch": 0.3310502283105023,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.639540235180283e-06,
+      "loss": 1.67431717,
+      "memory(GiB)": 111.15,
+      "step": 13050,
+      "train_speed(iter/s)": 0.449095
+    },
+    {
+      "acc": 0.65796938,
+      "epoch": 0.33117706747843734,
+      "grad_norm": 5.96875,
+      "learning_rate": 9.639149196655263e-06,
+      "loss": 1.59994869,
+      "memory(GiB)": 111.15,
+      "step": 13055,
+      "train_speed(iter/s)": 0.449186
+    },
+    {
+      "acc": 0.64478292,
+      "epoch": 0.3313039066463724,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.638757954079749e-06,
+      "loss": 1.60334072,
+      "memory(GiB)": 111.15,
+      "step": 13060,
+      "train_speed(iter/s)": 0.449277
+    },
+    {
+      "acc": 0.65211725,
+      "epoch": 0.3314307458143075,
+      "grad_norm": 6.0,
+      "learning_rate": 9.638366507470948e-06,
+      "loss": 1.61802597,
+      "memory(GiB)": 111.15,
+      "step": 13065,
+      "train_speed(iter/s)": 0.449368
+    },
+    {
+      "acc": 0.65717516,
+      "epoch": 0.3315575849822425,
+      "grad_norm": 5.875,
+      "learning_rate": 9.637974856846082e-06,
+      "loss": 1.65632782,
+      "memory(GiB)": 111.15,
+      "step": 13070,
+      "train_speed(iter/s)": 0.449458
+    },
+    {
+      "acc": 0.65569501,
+      "epoch": 0.33168442415017757,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.637583002222373e-06,
+      "loss": 1.56628113,
+      "memory(GiB)": 111.15,
+      "step": 13075,
+      "train_speed(iter/s)": 0.449549
+    },
+    {
+      "acc": 0.65104508,
+      "epoch": 0.3318112633181126,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.637190943617059e-06,
+      "loss": 1.66362152,
+      "memory(GiB)": 111.15,
+      "step": 13080,
+      "train_speed(iter/s)": 0.44964
+    },
+    {
+      "acc": 0.6433291,
+      "epoch": 0.3319381024860477,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.636798681047383e-06,
+      "loss": 1.61164646,
+      "memory(GiB)": 111.15,
+      "step": 13085,
+      "train_speed(iter/s)": 0.44973
+    },
+    {
+      "acc": 0.66432476,
+      "epoch": 0.33206494165398276,
+      "grad_norm": 5.875,
+      "learning_rate": 9.6364062145306e-06,
+      "loss": 1.63647938,
+      "memory(GiB)": 111.15,
+      "step": 13090,
+      "train_speed(iter/s)": 0.449821
+    },
+    {
+      "acc": 0.65174584,
+      "epoch": 0.3321917808219178,
+      "grad_norm": 4.5,
+      "learning_rate": 9.636013544083971e-06,
+      "loss": 1.59489069,
+      "memory(GiB)": 111.15,
+      "step": 13095,
+      "train_speed(iter/s)": 0.449911
+    },
+    {
+      "acc": 0.63728123,
+      "epoch": 0.33231861998985285,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.635620669724768e-06,
+      "loss": 1.68059349,
+      "memory(GiB)": 111.15,
+      "step": 13100,
+      "train_speed(iter/s)": 0.450002
+    },
+    {
+      "epoch": 0.33231861998985285,
+      "eval_acc": 0.6385765498018321,
+      "eval_loss": 1.635573387145996,
+      "eval_runtime": 113.5173,
+      "eval_samples_per_second": 56.115,
+      "eval_steps_per_second": 28.057,
+      "step": 13100
+    },
+    {
+      "acc": 0.65193415,
+      "epoch": 0.33244545915778795,
+      "grad_norm": 5.25,
+      "learning_rate": 9.635227591470272e-06,
+      "loss": 1.68287163,
+      "memory(GiB)": 111.15,
+      "step": 13105,
+      "train_speed(iter/s)": 0.448275
+    },
+    {
+      "acc": 0.65815716,
+      "epoch": 0.332572298325723,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.63483430933777e-06,
+      "loss": 1.61004143,
+      "memory(GiB)": 111.15,
+      "step": 13110,
+      "train_speed(iter/s)": 0.448364
+    },
+    {
+      "acc": 0.65156751,
+      "epoch": 0.33269913749365804,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.634440823344565e-06,
+      "loss": 1.67079315,
+      "memory(GiB)": 111.15,
+      "step": 13115,
+      "train_speed(iter/s)": 0.448453
+    },
+    {
+      "acc": 0.66256595,
+      "epoch": 0.3328259766615931,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.634047133507959e-06,
+      "loss": 1.57034683,
+      "memory(GiB)": 111.15,
+      "step": 13120,
+      "train_speed(iter/s)": 0.448544
+    },
+    {
+      "acc": 0.66299314,
+      "epoch": 0.3329528158295282,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.63365323984527e-06,
+      "loss": 1.58265743,
+      "memory(GiB)": 111.15,
+      "step": 13125,
+      "train_speed(iter/s)": 0.448633
+    },
+    {
+      "acc": 0.65500031,
+      "epoch": 0.3330796549974632,
+      "grad_norm": 5.125,
+      "learning_rate": 9.633259142373825e-06,
+      "loss": 1.57403793,
+      "memory(GiB)": 111.15,
+      "step": 13130,
+      "train_speed(iter/s)": 0.448722
+    },
+    {
+      "acc": 0.63279281,
+      "epoch": 0.33320649416539827,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.632864841110957e-06,
+      "loss": 1.68904915,
+      "memory(GiB)": 111.15,
+      "step": 13135,
+      "train_speed(iter/s)": 0.44881
+    },
+    {
+      "acc": 0.63893814,
+      "epoch": 0.3333333333333333,
+      "grad_norm": 6.1875,
+      "learning_rate": 9.632470336074009e-06,
+      "loss": 1.70369148,
+      "memory(GiB)": 111.15,
+      "step": 13140,
+      "train_speed(iter/s)": 0.4489
+    },
+    {
+      "acc": 0.65731258,
+      "epoch": 0.3334601725012684,
+      "grad_norm": 5.75,
+      "learning_rate": 9.632075627280333e-06,
+      "loss": 1.5899931,
+      "memory(GiB)": 111.15,
+      "step": 13145,
+      "train_speed(iter/s)": 0.44899
+    },
+    {
+      "acc": 0.64074097,
+      "epoch": 0.33358701166920346,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.631680714747292e-06,
+      "loss": 1.64995422,
+      "memory(GiB)": 111.15,
+      "step": 13150,
+      "train_speed(iter/s)": 0.44908
+    },
+    {
+      "acc": 0.65549002,
+      "epoch": 0.3337138508371385,
+      "grad_norm": 7.59375,
+      "learning_rate": 9.63128559849225e-06,
+      "loss": 1.58083076,
+      "memory(GiB)": 111.15,
+      "step": 13155,
+      "train_speed(iter/s)": 0.44917
+    },
+    {
+      "acc": 0.64021378,
+      "epoch": 0.33384069000507355,
+      "grad_norm": 6.21875,
+      "learning_rate": 9.630890278532594e-06,
+      "loss": 1.60837212,
+      "memory(GiB)": 111.15,
+      "step": 13160,
+      "train_speed(iter/s)": 0.44926
+    },
+    {
+      "acc": 0.62284355,
+      "epoch": 0.33396752917300865,
+      "grad_norm": 4.875,
+      "learning_rate": 9.630494754885706e-06,
+      "loss": 1.7300766,
+      "memory(GiB)": 111.15,
+      "step": 13165,
+      "train_speed(iter/s)": 0.44935
+    },
+    {
+      "acc": 0.64853106,
+      "epoch": 0.3340943683409437,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.630099027568986e-06,
+      "loss": 1.62550392,
+      "memory(GiB)": 111.15,
+      "step": 13170,
+      "train_speed(iter/s)": 0.449439
+    },
+    {
+      "acc": 0.6525857,
+      "epoch": 0.33422120750887874,
+      "grad_norm": 5.375,
+      "learning_rate": 9.629703096599839e-06,
+      "loss": 1.68082466,
+      "memory(GiB)": 111.15,
+      "step": 13175,
+      "train_speed(iter/s)": 0.44953
+    },
+    {
+      "acc": 0.65101528,
+      "epoch": 0.3343480466768138,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.629306961995678e-06,
+      "loss": 1.64511185,
+      "memory(GiB)": 111.15,
+      "step": 13180,
+      "train_speed(iter/s)": 0.449618
+    },
+    {
+      "acc": 0.63455973,
+      "epoch": 0.3344748858447489,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.62891062377393e-06,
+      "loss": 1.69095974,
+      "memory(GiB)": 111.15,
+      "step": 13185,
+      "train_speed(iter/s)": 0.449708
+    },
+    {
+      "acc": 0.65014539,
+      "epoch": 0.3346017250126839,
+      "grad_norm": 5.375,
+      "learning_rate": 9.628514081952026e-06,
+      "loss": 1.59857016,
+      "memory(GiB)": 111.15,
+      "step": 13190,
+      "train_speed(iter/s)": 0.449798
+    },
+    {
+      "acc": 0.62542477,
+      "epoch": 0.33472856418061897,
+      "grad_norm": 5.8125,
+      "learning_rate": 9.628117336547408e-06,
+      "loss": 1.74039078,
+      "memory(GiB)": 111.15,
+      "step": 13195,
+      "train_speed(iter/s)": 0.449888
+    },
+    {
+      "acc": 0.63493738,
+      "epoch": 0.334855403348554,
+      "grad_norm": 4.375,
+      "learning_rate": 9.627720387577525e-06,
+      "loss": 1.64815445,
+      "memory(GiB)": 111.15,
+      "step": 13200,
+      "train_speed(iter/s)": 0.449977
+    },
+    {
+      "epoch": 0.334855403348554,
+      "eval_acc": 0.6386550900560101,
+      "eval_loss": 1.6349986791610718,
+      "eval_runtime": 113.5552,
+      "eval_samples_per_second": 56.096,
+      "eval_steps_per_second": 28.048,
+      "step": 13200
+    },
+    {
+      "acc": 0.64301682,
+      "epoch": 0.3349822425164891,
+      "grad_norm": 6.15625,
+      "learning_rate": 9.62732323505984e-06,
+      "loss": 1.7193306,
+      "memory(GiB)": 111.15,
+      "step": 13205,
+      "train_speed(iter/s)": 0.448263
+    },
+    {
+      "acc": 0.65336485,
+      "epoch": 0.33510908168442416,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.62692587901182e-06,
+      "loss": 1.5975771,
+      "memory(GiB)": 111.15,
+      "step": 13210,
+      "train_speed(iter/s)": 0.448351
+    },
+    {
+      "acc": 0.64600048,
+      "epoch": 0.3352359208523592,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.62652831945094e-06,
+      "loss": 1.68663177,
+      "memory(GiB)": 111.15,
+      "step": 13215,
+      "train_speed(iter/s)": 0.44844
+    },
+    {
+      "acc": 0.65562434,
+      "epoch": 0.33536276002029425,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.626130556394689e-06,
+      "loss": 1.67380371,
+      "memory(GiB)": 111.15,
+      "step": 13220,
+      "train_speed(iter/s)": 0.448528
+    },
+    {
+      "acc": 0.65275626,
+      "epoch": 0.33548959918822935,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.625732589860562e-06,
+      "loss": 1.67726994,
+      "memory(GiB)": 111.15,
+      "step": 13225,
+      "train_speed(iter/s)": 0.448618
+    },
+    {
+      "acc": 0.63073645,
+      "epoch": 0.3356164383561644,
+      "grad_norm": 5.78125,
+      "learning_rate": 9.625334419866064e-06,
+      "loss": 1.73389359,
+      "memory(GiB)": 111.15,
+      "step": 13230,
+      "train_speed(iter/s)": 0.448708
+    },
+    {
+      "acc": 0.64667993,
+      "epoch": 0.33574327752409944,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.624936046428708e-06,
+      "loss": 1.62015228,
+      "memory(GiB)": 111.15,
+      "step": 13235,
+      "train_speed(iter/s)": 0.448797
+    },
+    {
+      "acc": 0.65902152,
+      "epoch": 0.3358701166920345,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.624537469566015e-06,
+      "loss": 1.62713299,
+      "memory(GiB)": 111.15,
+      "step": 13240,
+      "train_speed(iter/s)": 0.448886
+    },
+    {
+      "acc": 0.6513711,
+      "epoch": 0.3359969558599696,
+      "grad_norm": 5.875,
+      "learning_rate": 9.624138689295516e-06,
+      "loss": 1.59884453,
+      "memory(GiB)": 111.15,
+      "step": 13245,
+      "train_speed(iter/s)": 0.448975
+    },
+    {
+      "acc": 0.64085379,
+      "epoch": 0.3361237950279046,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.623739705634753e-06,
+      "loss": 1.62877579,
+      "memory(GiB)": 111.15,
+      "step": 13250,
+      "train_speed(iter/s)": 0.449064
+    },
+    {
+      "acc": 0.65831618,
+      "epoch": 0.33625063419583967,
+      "grad_norm": 5.6875,
+      "learning_rate": 9.623340518601274e-06,
+      "loss": 1.62732716,
+      "memory(GiB)": 111.15,
+      "step": 13255,
+      "train_speed(iter/s)": 0.449152
+    },
+    {
+      "acc": 0.64107018,
+      "epoch": 0.3363774733637747,
+      "grad_norm": 7.15625,
+      "learning_rate": 9.622941128212639e-06,
+      "loss": 1.74835548,
+      "memory(GiB)": 111.15,
+      "step": 13260,
+      "train_speed(iter/s)": 0.449241
+    },
+    {
+      "acc": 0.64420753,
+      "epoch": 0.3365043125317098,
+      "grad_norm": 5.6875,
+      "learning_rate": 9.622541534486411e-06,
+      "loss": 1.6488121,
+      "memory(GiB)": 111.15,
+      "step": 13265,
+      "train_speed(iter/s)": 0.449332
+    },
+    {
+      "acc": 0.64763708,
+      "epoch": 0.33663115169964486,
+      "grad_norm": 6.25,
+      "learning_rate": 9.62214173744017e-06,
+      "loss": 1.66007347,
+      "memory(GiB)": 111.15,
+      "step": 13270,
+      "train_speed(iter/s)": 0.44942
+    },
+    {
+      "acc": 0.64130392,
+      "epoch": 0.3367579908675799,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.6217417370915e-06,
+      "loss": 1.65013523,
+      "memory(GiB)": 111.15,
+      "step": 13275,
+      "train_speed(iter/s)": 0.449508
+    },
+    {
+      "acc": 0.65157938,
+      "epoch": 0.33688483003551495,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.62134153345799e-06,
+      "loss": 1.62035675,
+      "memory(GiB)": 111.15,
+      "step": 13280,
+      "train_speed(iter/s)": 0.449597
+    },
+    {
+      "acc": 0.6455739,
+      "epoch": 0.33701166920345005,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.620941126557248e-06,
+      "loss": 1.60122757,
+      "memory(GiB)": 111.15,
+      "step": 13285,
+      "train_speed(iter/s)": 0.449686
+    },
+    {
+      "acc": 0.66329541,
+      "epoch": 0.3371385083713851,
+      "grad_norm": 4.5625,
+      "learning_rate": 9.620540516406885e-06,
+      "loss": 1.52728844,
+      "memory(GiB)": 111.15,
+      "step": 13290,
+      "train_speed(iter/s)": 0.449774
+    },
+    {
+      "acc": 0.63905411,
+      "epoch": 0.33726534753932014,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.620139703024522e-06,
+      "loss": 1.65136719,
+      "memory(GiB)": 111.15,
+      "step": 13295,
+      "train_speed(iter/s)": 0.449864
+    },
+    {
+      "acc": 0.63869944,
+      "epoch": 0.3373921867072552,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.619738686427785e-06,
+      "loss": 1.73343887,
+      "memory(GiB)": 111.15,
+      "step": 13300,
+      "train_speed(iter/s)": 0.449953
+    },
+    {
+      "epoch": 0.3373921867072552,
+      "eval_acc": 0.6388393254394807,
+      "eval_loss": 1.6349447965621948,
+      "eval_runtime": 113.8407,
+      "eval_samples_per_second": 55.955,
+      "eval_steps_per_second": 27.978,
+      "step": 13300
+    },
+    {
+      "acc": 0.64281597,
+      "epoch": 0.3375190258751903,
+      "grad_norm": 4.875,
+      "learning_rate": 9.619337466634317e-06,
+      "loss": 1.63470974,
+      "memory(GiB)": 111.15,
+      "step": 13305,
+      "train_speed(iter/s)": 0.448249
+    },
+    {
+      "acc": 0.66472673,
+      "epoch": 0.3376458650431253,
+      "grad_norm": 5.71875,
+      "learning_rate": 9.618936043661762e-06,
+      "loss": 1.58528605,
+      "memory(GiB)": 111.15,
+      "step": 13310,
+      "train_speed(iter/s)": 0.448338
+    },
+    {
+      "acc": 0.63050585,
+      "epoch": 0.33777270421106037,
+      "grad_norm": 5.84375,
+      "learning_rate": 9.618534417527779e-06,
+      "loss": 1.66478615,
+      "memory(GiB)": 111.15,
+      "step": 13315,
+      "train_speed(iter/s)": 0.448427
+    },
+    {
+      "acc": 0.64970269,
+      "epoch": 0.3378995433789954,
+      "grad_norm": 5.875,
+      "learning_rate": 9.61813258825003e-06,
+      "loss": 1.58948174,
+      "memory(GiB)": 111.15,
+      "step": 13320,
+      "train_speed(iter/s)": 0.448516
+    },
+    {
+      "acc": 0.63918457,
+      "epoch": 0.3380263825469305,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.617730555846191e-06,
+      "loss": 1.65543938,
+      "memory(GiB)": 111.15,
+      "step": 13325,
+      "train_speed(iter/s)": 0.448605
+    },
+    {
+      "acc": 0.64256334,
+      "epoch": 0.33815322171486556,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.617328320333947e-06,
+      "loss": 1.63879738,
+      "memory(GiB)": 111.15,
+      "step": 13330,
+      "train_speed(iter/s)": 0.448694
+    },
+    {
+      "acc": 0.66426125,
+      "epoch": 0.3382800608828006,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.616925881730989e-06,
+      "loss": 1.54026623,
+      "memory(GiB)": 111.15,
+      "step": 13335,
+      "train_speed(iter/s)": 0.448783
+    },
+    {
+      "acc": 0.65528955,
+      "epoch": 0.33840690005073565,
+      "grad_norm": 5.125,
+      "learning_rate": 9.616523240055017e-06,
+      "loss": 1.6255867,
+      "memory(GiB)": 111.15,
+      "step": 13340,
+      "train_speed(iter/s)": 0.448873
+    },
+    {
+      "acc": 0.63299441,
+      "epoch": 0.33853373921867075,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.616120395323743e-06,
+      "loss": 1.71563339,
+      "memory(GiB)": 111.15,
+      "step": 13345,
+      "train_speed(iter/s)": 0.448961
+    },
+    {
+      "acc": 0.64787416,
+      "epoch": 0.3386605783866058,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.615717347554882e-06,
+      "loss": 1.62935066,
+      "memory(GiB)": 111.15,
+      "step": 13350,
+      "train_speed(iter/s)": 0.44905
+    },
+    {
+      "acc": 0.63082991,
+      "epoch": 0.33878741755454084,
+      "grad_norm": 4.6875,
+      "learning_rate": 9.615314096766166e-06,
+      "loss": 1.65929337,
+      "memory(GiB)": 111.15,
+      "step": 13355,
+      "train_speed(iter/s)": 0.449139
+    },
+    {
+      "acc": 0.64211025,
+      "epoch": 0.3389142567224759,
+      "grad_norm": 6.34375,
+      "learning_rate": 9.61491064297533e-06,
+      "loss": 1.71746864,
+      "memory(GiB)": 111.15,
+      "step": 13360,
+      "train_speed(iter/s)": 0.449227
+    },
+    {
+      "acc": 0.64315557,
+      "epoch": 0.339041095890411,
+      "grad_norm": 5.375,
+      "learning_rate": 9.614506986200119e-06,
+      "loss": 1.70846329,
+      "memory(GiB)": 111.15,
+      "step": 13365,
+      "train_speed(iter/s)": 0.449317
+    },
+    {
+      "acc": 0.64313512,
+      "epoch": 0.339167935058346,
+      "grad_norm": 6.75,
+      "learning_rate": 9.61410312645829e-06,
+      "loss": 1.6734972,
+      "memory(GiB)": 111.15,
+      "step": 13370,
+      "train_speed(iter/s)": 0.449405
+    },
+    {
+      "acc": 0.64325175,
+      "epoch": 0.33929477422628107,
+      "grad_norm": 6.0625,
+      "learning_rate": 9.613699063767603e-06,
+      "loss": 1.70340042,
+      "memory(GiB)": 111.15,
+      "step": 13375,
+      "train_speed(iter/s)": 0.449494
+    },
+    {
+      "acc": 0.64963217,
+      "epoch": 0.3394216133942161,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.613294798145833e-06,
+      "loss": 1.68396988,
+      "memory(GiB)": 111.15,
+      "step": 13380,
+      "train_speed(iter/s)": 0.449583
+    },
+    {
+      "acc": 0.65194283,
+      "epoch": 0.3395484525621512,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.612890329610762e-06,
+      "loss": 1.6042963,
+      "memory(GiB)": 111.15,
+      "step": 13385,
+      "train_speed(iter/s)": 0.449672
+    },
+    {
+      "acc": 0.65384626,
+      "epoch": 0.33967529173008626,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.612485658180178e-06,
+      "loss": 1.63723431,
+      "memory(GiB)": 111.15,
+      "step": 13390,
+      "train_speed(iter/s)": 0.44976
+    },
+    {
+      "acc": 0.6560977,
+      "epoch": 0.3398021308980213,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.612080783871882e-06,
+      "loss": 1.62229919,
+      "memory(GiB)": 111.15,
+      "step": 13395,
+      "train_speed(iter/s)": 0.449849
+    },
+    {
+      "acc": 0.64801359,
+      "epoch": 0.33992897006595635,
+      "grad_norm": 4.875,
+      "learning_rate": 9.611675706703682e-06,
+      "loss": 1.62219238,
+      "memory(GiB)": 111.15,
+      "step": 13400,
+      "train_speed(iter/s)": 0.449937
+    },
+    {
+      "epoch": 0.33992897006595635,
+      "eval_acc": 0.6388823554723548,
+      "eval_loss": 1.6347674131393433,
+      "eval_runtime": 113.4718,
+      "eval_samples_per_second": 56.137,
+      "eval_steps_per_second": 28.069,
+      "step": 13400
+    },
+    {
+      "acc": 0.63912477,
+      "epoch": 0.34005580923389145,
+      "grad_norm": 6.34375,
+      "learning_rate": 9.611270426693395e-06,
+      "loss": 1.69518585,
+      "memory(GiB)": 111.15,
+      "step": 13405,
+      "train_speed(iter/s)": 0.44825
+    },
+    {
+      "acc": 0.61878805,
+      "epoch": 0.3401826484018265,
+      "grad_norm": 6.625,
+      "learning_rate": 9.610864943858847e-06,
+      "loss": 1.68853245,
+      "memory(GiB)": 111.15,
+      "step": 13410,
+      "train_speed(iter/s)": 0.448338
+    },
+    {
+      "acc": 0.65231886,
+      "epoch": 0.34030948756976154,
+      "grad_norm": 5.875,
+      "learning_rate": 9.61045925821787e-06,
+      "loss": 1.63459167,
+      "memory(GiB)": 111.15,
+      "step": 13415,
+      "train_speed(iter/s)": 0.448427
+    },
+    {
+      "acc": 0.63874903,
+      "epoch": 0.3404363267376966,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.610053369788314e-06,
+      "loss": 1.67132282,
+      "memory(GiB)": 111.15,
+      "step": 13420,
+      "train_speed(iter/s)": 0.448514
+    },
+    {
+      "acc": 0.64549313,
+      "epoch": 0.3405631659056317,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.609647278588027e-06,
+      "loss": 1.74758263,
+      "memory(GiB)": 111.15,
+      "step": 13425,
+      "train_speed(iter/s)": 0.448601
+    },
+    {
+      "acc": 0.64561815,
+      "epoch": 0.3406900050735667,
+      "grad_norm": 4.25,
+      "learning_rate": 9.609240984634871e-06,
+      "loss": 1.62978745,
+      "memory(GiB)": 111.15,
+      "step": 13430,
+      "train_speed(iter/s)": 0.448689
+    },
+    {
+      "acc": 0.65488977,
+      "epoch": 0.34081684424150177,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.608834487946719e-06,
+      "loss": 1.65245972,
+      "memory(GiB)": 111.15,
+      "step": 13435,
+      "train_speed(iter/s)": 0.448776
+    },
+    {
+      "acc": 0.6309679,
+      "epoch": 0.3409436834094368,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.60842778854145e-06,
+      "loss": 1.67359505,
+      "memory(GiB)": 111.15,
+      "step": 13440,
+      "train_speed(iter/s)": 0.448865
+    },
+    {
+      "acc": 0.65254688,
+      "epoch": 0.3410705225773719,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.60802088643695e-06,
+      "loss": 1.62262802,
+      "memory(GiB)": 111.15,
+      "step": 13445,
+      "train_speed(iter/s)": 0.448953
+    },
+    {
+      "acc": 0.63615122,
+      "epoch": 0.34119736174530696,
+      "grad_norm": 4.625,
+      "learning_rate": 9.60761378165112e-06,
+      "loss": 1.64737816,
+      "memory(GiB)": 111.15,
+      "step": 13450,
+      "train_speed(iter/s)": 0.44904
+    },
+    {
+      "acc": 0.66723995,
+      "epoch": 0.341324200913242,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.607206474201863e-06,
+      "loss": 1.61577473,
+      "memory(GiB)": 111.15,
+      "step": 13455,
+      "train_speed(iter/s)": 0.449127
+    },
+    {
+      "acc": 0.64097991,
+      "epoch": 0.34145104008117705,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.606798964107096e-06,
+      "loss": 1.72571659,
+      "memory(GiB)": 111.15,
+      "step": 13460,
+      "train_speed(iter/s)": 0.449215
+    },
+    {
+      "acc": 0.66033754,
+      "epoch": 0.34157787924911215,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.60639125138474e-06,
+      "loss": 1.54907274,
+      "memory(GiB)": 111.15,
+      "step": 13465,
+      "train_speed(iter/s)": 0.449304
+    },
+    {
+      "acc": 0.64955292,
+      "epoch": 0.3417047184170472,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.605983336052735e-06,
+      "loss": 1.64906578,
+      "memory(GiB)": 111.15,
+      "step": 13470,
+      "train_speed(iter/s)": 0.449392
+    },
+    {
+      "acc": 0.63080535,
+      "epoch": 0.34183155758498224,
+      "grad_norm": 5.25,
+      "learning_rate": 9.605575218129017e-06,
+      "loss": 1.66043396,
+      "memory(GiB)": 111.15,
+      "step": 13475,
+      "train_speed(iter/s)": 0.44948
+    },
+    {
+      "acc": 0.63029566,
+      "epoch": 0.3419583967529173,
+      "grad_norm": 5.25,
+      "learning_rate": 9.605166897631539e-06,
+      "loss": 1.72559814,
+      "memory(GiB)": 111.15,
+      "step": 13480,
+      "train_speed(iter/s)": 0.449567
+    },
+    {
+      "acc": 0.6558557,
+      "epoch": 0.3420852359208524,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.604758374578259e-06,
+      "loss": 1.65277557,
+      "memory(GiB)": 111.15,
+      "step": 13485,
+      "train_speed(iter/s)": 0.449655
+    },
+    {
+      "acc": 0.64086399,
+      "epoch": 0.3422120750887874,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.604349648987148e-06,
+      "loss": 1.68258934,
+      "memory(GiB)": 111.15,
+      "step": 13490,
+      "train_speed(iter/s)": 0.449742
+    },
+    {
+      "acc": 0.64346614,
+      "epoch": 0.34233891425672247,
+      "grad_norm": 5.96875,
+      "learning_rate": 9.603940720876181e-06,
+      "loss": 1.67253494,
+      "memory(GiB)": 111.15,
+      "step": 13495,
+      "train_speed(iter/s)": 0.44983
+    },
+    {
+      "acc": 0.6423337,
+      "epoch": 0.3424657534246575,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.603531590263348e-06,
+      "loss": 1.6550499,
+      "memory(GiB)": 111.15,
+      "step": 13500,
+      "train_speed(iter/s)": 0.449918
+    },
+    {
+      "epoch": 0.3424657534246575,
+      "eval_acc": 0.6389015727685899,
+      "eval_loss": 1.634238600730896,
+      "eval_runtime": 113.527,
+      "eval_samples_per_second": 56.11,
+      "eval_steps_per_second": 28.055,
+      "step": 13500
+    },
+    {
+      "acc": 0.64177632,
+      "epoch": 0.3425925925925926,
+      "grad_norm": 4.59375,
+      "learning_rate": 9.603122257166641e-06,
+      "loss": 1.66742134,
+      "memory(GiB)": 111.15,
+      "step": 13505,
+      "train_speed(iter/s)": 0.448243
+    },
+    {
+      "acc": 0.65725021,
+      "epoch": 0.34271943176052766,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.602712721604066e-06,
+      "loss": 1.61912212,
+      "memory(GiB)": 111.15,
+      "step": 13510,
+      "train_speed(iter/s)": 0.448331
+    },
+    {
+      "acc": 0.63438482,
+      "epoch": 0.3428462709284627,
+      "grad_norm": 6.0625,
+      "learning_rate": 9.602302983593637e-06,
+      "loss": 1.7111002,
+      "memory(GiB)": 111.15,
+      "step": 13515,
+      "train_speed(iter/s)": 0.448419
+    },
+    {
+      "acc": 0.64421062,
+      "epoch": 0.34297311009639775,
+      "grad_norm": 5.84375,
+      "learning_rate": 9.601893043153372e-06,
+      "loss": 1.65377235,
+      "memory(GiB)": 111.15,
+      "step": 13520,
+      "train_speed(iter/s)": 0.448505
+    },
+    {
+      "acc": 0.64046326,
+      "epoch": 0.34309994926433285,
+      "grad_norm": 5.125,
+      "learning_rate": 9.601482900301308e-06,
+      "loss": 1.62992496,
+      "memory(GiB)": 111.15,
+      "step": 13525,
+      "train_speed(iter/s)": 0.448592
+    },
+    {
+      "acc": 0.65164299,
+      "epoch": 0.3432267884322679,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.60107255505548e-06,
+      "loss": 1.66345749,
+      "memory(GiB)": 111.15,
+      "step": 13530,
+      "train_speed(iter/s)": 0.44868
+    },
+    {
+      "acc": 0.63073874,
+      "epoch": 0.34335362760020294,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.60066200743394e-06,
+      "loss": 1.77850189,
+      "memory(GiB)": 111.15,
+      "step": 13535,
+      "train_speed(iter/s)": 0.448769
+    },
+    {
+      "acc": 0.64757633,
+      "epoch": 0.343480466768138,
+      "grad_norm": 6.15625,
+      "learning_rate": 9.600251257454744e-06,
+      "loss": 1.63806038,
+      "memory(GiB)": 111.15,
+      "step": 13540,
+      "train_speed(iter/s)": 0.448858
+    },
+    {
+      "acc": 0.63056636,
+      "epoch": 0.3436073059360731,
+      "grad_norm": 5.0,
+      "learning_rate": 9.599840305135959e-06,
+      "loss": 1.67879333,
+      "memory(GiB)": 111.15,
+      "step": 13545,
+      "train_speed(iter/s)": 0.448945
+    },
+    {
+      "acc": 0.64656172,
+      "epoch": 0.3437341451040081,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.59942915049566e-06,
+      "loss": 1.6023735,
+      "memory(GiB)": 111.15,
+      "step": 13550,
+      "train_speed(iter/s)": 0.449033
+    },
+    {
+      "acc": 0.63602276,
+      "epoch": 0.34386098427194317,
+      "grad_norm": 5.0,
+      "learning_rate": 9.599017793551933e-06,
+      "loss": 1.65858822,
+      "memory(GiB)": 111.15,
+      "step": 13555,
+      "train_speed(iter/s)": 0.449121
+    },
+    {
+      "acc": 0.63266535,
+      "epoch": 0.3439878234398782,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.598606234322869e-06,
+      "loss": 1.75436592,
+      "memory(GiB)": 111.15,
+      "step": 13560,
+      "train_speed(iter/s)": 0.44921
+    },
+    {
+      "acc": 0.65314236,
+      "epoch": 0.3441146626078133,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.598194472826574e-06,
+      "loss": 1.64844475,
+      "memory(GiB)": 111.15,
+      "step": 13565,
+      "train_speed(iter/s)": 0.449297
+    },
+    {
+      "acc": 0.64052863,
+      "epoch": 0.34424150177574836,
+      "grad_norm": 6.03125,
+      "learning_rate": 9.597782509081154e-06,
+      "loss": 1.6744709,
+      "memory(GiB)": 111.15,
+      "step": 13570,
+      "train_speed(iter/s)": 0.449385
+    },
+    {
+      "acc": 0.64789963,
+      "epoch": 0.3443683409436834,
+      "grad_norm": 4.5625,
+      "learning_rate": 9.597370343104733e-06,
+      "loss": 1.60511379,
+      "memory(GiB)": 111.15,
+      "step": 13575,
+      "train_speed(iter/s)": 0.449473
+    },
+    {
+      "acc": 0.66312146,
+      "epoch": 0.34449518011161845,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.596957974915438e-06,
+      "loss": 1.5928648,
+      "memory(GiB)": 111.15,
+      "step": 13580,
+      "train_speed(iter/s)": 0.44956
+    },
+    {
+      "acc": 0.64366326,
+      "epoch": 0.34462201927955355,
+      "grad_norm": 4.28125,
+      "learning_rate": 9.596545404531408e-06,
+      "loss": 1.66371078,
+      "memory(GiB)": 111.15,
+      "step": 13585,
+      "train_speed(iter/s)": 0.449648
+    },
+    {
+      "acc": 0.63196435,
+      "epoch": 0.3447488584474886,
+      "grad_norm": 4.6875,
+      "learning_rate": 9.596132631970788e-06,
+      "loss": 1.64398956,
+      "memory(GiB)": 111.15,
+      "step": 13590,
+      "train_speed(iter/s)": 0.449737
+    },
+    {
+      "acc": 0.65817604,
+      "epoch": 0.34487569761542364,
+      "grad_norm": 5.375,
+      "learning_rate": 9.595719657251735e-06,
+      "loss": 1.60683346,
+      "memory(GiB)": 111.15,
+      "step": 13595,
+      "train_speed(iter/s)": 0.449825
+    },
+    {
+      "acc": 0.6601769,
+      "epoch": 0.3450025367833587,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.595306480392413e-06,
+      "loss": 1.62262859,
+      "memory(GiB)": 111.15,
+      "step": 13600,
+      "train_speed(iter/s)": 0.449913
+    },
+    {
+      "epoch": 0.3450025367833587,
+      "eval_acc": 0.6388364010683145,
+      "eval_loss": 1.6343255043029785,
+      "eval_runtime": 113.2881,
+      "eval_samples_per_second": 56.228,
+      "eval_steps_per_second": 28.114,
+      "step": 13600
+    },
+    {
+      "acc": 0.64074392,
+      "epoch": 0.3451293759512938,
+      "grad_norm": 6.15625,
+      "learning_rate": 9.594893101410995e-06,
+      "loss": 1.69255333,
+      "memory(GiB)": 111.15,
+      "step": 13605,
+      "train_speed(iter/s)": 0.448253
+    },
+    {
+      "acc": 0.63475628,
+      "epoch": 0.3452562151192288,
+      "grad_norm": 5.0,
+      "learning_rate": 9.594479520325665e-06,
+      "loss": 1.6626339,
+      "memory(GiB)": 111.15,
+      "step": 13610,
+      "train_speed(iter/s)": 0.448339
+    },
+    {
+      "acc": 0.63485117,
+      "epoch": 0.34538305428716387,
+      "grad_norm": 5.75,
+      "learning_rate": 9.594065737154611e-06,
+      "loss": 1.63332291,
+      "memory(GiB)": 111.15,
+      "step": 13615,
+      "train_speed(iter/s)": 0.448426
+    },
+    {
+      "acc": 0.64619331,
+      "epoch": 0.3455098934550989,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.593651751916037e-06,
+      "loss": 1.62646847,
+      "memory(GiB)": 111.15,
+      "step": 13620,
+      "train_speed(iter/s)": 0.448512
+    },
+    {
+      "acc": 0.66380672,
+      "epoch": 0.345636732623034,
+      "grad_norm": 6.34375,
+      "learning_rate": 9.593237564628149e-06,
+      "loss": 1.54840393,
+      "memory(GiB)": 111.15,
+      "step": 13625,
+      "train_speed(iter/s)": 0.448599
+    },
+    {
+      "acc": 0.66192174,
+      "epoch": 0.34576357179096906,
+      "grad_norm": 4.34375,
+      "learning_rate": 9.592823175309164e-06,
+      "loss": 1.5609189,
+      "memory(GiB)": 111.15,
+      "step": 13630,
+      "train_speed(iter/s)": 0.448684
+    },
+    {
+      "acc": 0.65221529,
+      "epoch": 0.3458904109589041,
+      "grad_norm": 4.34375,
+      "learning_rate": 9.592408583977311e-06,
+      "loss": 1.61033363,
+      "memory(GiB)": 111.15,
+      "step": 13635,
+      "train_speed(iter/s)": 0.44877
+    },
+    {
+      "acc": 0.63230114,
+      "epoch": 0.34601725012683915,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.591993790650826e-06,
+      "loss": 1.62142143,
+      "memory(GiB)": 111.15,
+      "step": 13640,
+      "train_speed(iter/s)": 0.448858
+    },
+    {
+      "acc": 0.65384998,
+      "epoch": 0.34614408929477425,
+      "grad_norm": 5.75,
+      "learning_rate": 9.591578795347952e-06,
+      "loss": 1.66564922,
+      "memory(GiB)": 111.15,
+      "step": 13645,
+      "train_speed(iter/s)": 0.448946
+    },
+    {
+      "acc": 0.64846134,
+      "epoch": 0.3462709284627093,
+      "grad_norm": 6.03125,
+      "learning_rate": 9.591163598086943e-06,
+      "loss": 1.6676302,
+      "memory(GiB)": 111.15,
+      "step": 13650,
+      "train_speed(iter/s)": 0.449034
+    },
+    {
+      "acc": 0.64900293,
+      "epoch": 0.34639776763064434,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.59074819888606e-06,
+      "loss": 1.65944977,
+      "memory(GiB)": 111.15,
+      "step": 13655,
+      "train_speed(iter/s)": 0.449122
+    },
+    {
+      "acc": 0.64978294,
+      "epoch": 0.3465246067985794,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.590332597763575e-06,
+      "loss": 1.60361557,
+      "memory(GiB)": 111.15,
+      "step": 13660,
+      "train_speed(iter/s)": 0.449209
+    },
+    {
+      "acc": 0.64699898,
+      "epoch": 0.3466514459665145,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.589916794737768e-06,
+      "loss": 1.69255486,
+      "memory(GiB)": 111.15,
+      "step": 13665,
+      "train_speed(iter/s)": 0.449297
+    },
+    {
+      "acc": 0.64601269,
+      "epoch": 0.3467782851344495,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.589500789826927e-06,
+      "loss": 1.7080019,
+      "memory(GiB)": 111.15,
+      "step": 13670,
+      "train_speed(iter/s)": 0.449384
+    },
+    {
+      "acc": 0.63440256,
+      "epoch": 0.34690512430238457,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.589084583049353e-06,
+      "loss": 1.7775383,
+      "memory(GiB)": 111.15,
+      "step": 13675,
+      "train_speed(iter/s)": 0.449471
+    },
+    {
+      "acc": 0.64539881,
+      "epoch": 0.3470319634703196,
+      "grad_norm": 6.15625,
+      "learning_rate": 9.588668174423348e-06,
+      "loss": 1.65382347,
+      "memory(GiB)": 111.15,
+      "step": 13680,
+      "train_speed(iter/s)": 0.449559
+    },
+    {
+      "acc": 0.62981782,
+      "epoch": 0.3471588026382547,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.588251563967232e-06,
+      "loss": 1.70327568,
+      "memory(GiB)": 111.15,
+      "step": 13685,
+      "train_speed(iter/s)": 0.449645
+    },
+    {
+      "acc": 0.63958158,
+      "epoch": 0.34728564180618976,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.587834751699326e-06,
+      "loss": 1.7377182,
+      "memory(GiB)": 111.15,
+      "step": 13690,
+      "train_speed(iter/s)": 0.449732
+    },
+    {
+      "acc": 0.64236112,
+      "epoch": 0.3474124809741248,
+      "grad_norm": 5.8125,
+      "learning_rate": 9.587417737637963e-06,
+      "loss": 1.69043465,
+      "memory(GiB)": 111.15,
+      "step": 13695,
+      "train_speed(iter/s)": 0.449819
+    },
+    {
+      "acc": 0.65243244,
+      "epoch": 0.34753932014205985,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.587000521801488e-06,
+      "loss": 1.60939236,
+      "memory(GiB)": 111.15,
+      "step": 13700,
+      "train_speed(iter/s)": 0.449905
+    },
+    {
+      "epoch": 0.34753932014205985,
+      "eval_acc": 0.6389550469842005,
+      "eval_loss": 1.6337294578552246,
+      "eval_runtime": 114.2841,
+      "eval_samples_per_second": 55.738,
+      "eval_steps_per_second": 27.869,
+      "step": 13700
+    },
+    {
+      "acc": 0.65224667,
+      "epoch": 0.34766615930999495,
+      "grad_norm": 5.6875,
+      "learning_rate": 9.58658310420825e-06,
+      "loss": 1.64363079,
+      "memory(GiB)": 111.15,
+      "step": 13705,
+      "train_speed(iter/s)": 0.448243
+    },
+    {
+      "acc": 0.64518862,
+      "epoch": 0.34779299847793,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.58616548487661e-06,
+      "loss": 1.60551453,
+      "memory(GiB)": 111.15,
+      "step": 13710,
+      "train_speed(iter/s)": 0.448331
+    },
+    {
+      "acc": 0.64422979,
+      "epoch": 0.34791983764586504,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.585747663824936e-06,
+      "loss": 1.72791748,
+      "memory(GiB)": 111.15,
+      "step": 13715,
+      "train_speed(iter/s)": 0.448418
+    },
+    {
+      "acc": 0.65144629,
+      "epoch": 0.3480466768138001,
+      "grad_norm": 5.5,
+      "learning_rate": 9.585329641071606e-06,
+      "loss": 1.62911205,
+      "memory(GiB)": 111.15,
+      "step": 13720,
+      "train_speed(iter/s)": 0.448506
+    },
+    {
+      "acc": 0.64711027,
+      "epoch": 0.3481735159817352,
+      "grad_norm": 6.15625,
+      "learning_rate": 9.584911416635007e-06,
+      "loss": 1.64262257,
+      "memory(GiB)": 111.15,
+      "step": 13725,
+      "train_speed(iter/s)": 0.448594
+    },
+    {
+      "acc": 0.64410057,
+      "epoch": 0.3483003551496702,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.584492990533533e-06,
+      "loss": 1.65934143,
+      "memory(GiB)": 111.15,
+      "step": 13730,
+      "train_speed(iter/s)": 0.448681
+    },
+    {
+      "acc": 0.65518126,
+      "epoch": 0.34842719431760527,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.58407436278559e-06,
+      "loss": 1.56461582,
+      "memory(GiB)": 111.15,
+      "step": 13735,
+      "train_speed(iter/s)": 0.448768
+    },
+    {
+      "acc": 0.63987513,
+      "epoch": 0.3485540334855403,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.583655533409588e-06,
+      "loss": 1.65193958,
+      "memory(GiB)": 111.15,
+      "step": 13740,
+      "train_speed(iter/s)": 0.448856
+    },
+    {
+      "acc": 0.64441519,
+      "epoch": 0.3486808726534754,
+      "grad_norm": 4.40625,
+      "learning_rate": 9.583236502423952e-06,
+      "loss": 1.67047768,
+      "memory(GiB)": 111.15,
+      "step": 13745,
+      "train_speed(iter/s)": 0.448943
+    },
+    {
+      "acc": 0.64345765,
+      "epoch": 0.34880771182141046,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.582817269847112e-06,
+      "loss": 1.71998463,
+      "memory(GiB)": 111.15,
+      "step": 13750,
+      "train_speed(iter/s)": 0.449032
+    },
+    {
+      "acc": 0.65165386,
+      "epoch": 0.3489345509893455,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.582397835697509e-06,
+      "loss": 1.59828377,
+      "memory(GiB)": 111.15,
+      "step": 13755,
+      "train_speed(iter/s)": 0.449119
+    },
+    {
+      "acc": 0.65344687,
+      "epoch": 0.34906139015728055,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.581978199993587e-06,
+      "loss": 1.61674061,
+      "memory(GiB)": 111.15,
+      "step": 13760,
+      "train_speed(iter/s)": 0.449206
+    },
+    {
+      "acc": 0.64435925,
+      "epoch": 0.34918822932521565,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.58155836275381e-06,
+      "loss": 1.63897324,
+      "memory(GiB)": 111.15,
+      "step": 13765,
+      "train_speed(iter/s)": 0.449293
+    },
+    {
+      "acc": 0.64087219,
+      "epoch": 0.3493150684931507,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.581138323996639e-06,
+      "loss": 1.70425644,
+      "memory(GiB)": 111.15,
+      "step": 13770,
+      "train_speed(iter/s)": 0.449379
+    },
+    {
+      "acc": 0.65538464,
+      "epoch": 0.34944190766108574,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.580718083740553e-06,
+      "loss": 1.69704266,
+      "memory(GiB)": 111.15,
+      "step": 13775,
+      "train_speed(iter/s)": 0.449466
+    },
+    {
+      "acc": 0.67970333,
+      "epoch": 0.3495687468290208,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.580297642004032e-06,
+      "loss": 1.5640316,
+      "memory(GiB)": 111.15,
+      "step": 13780,
+      "train_speed(iter/s)": 0.449552
+    },
+    {
+      "acc": 0.64756861,
+      "epoch": 0.3496955859969559,
+      "grad_norm": 4.75,
+      "learning_rate": 9.579876998805573e-06,
+      "loss": 1.70120335,
+      "memory(GiB)": 111.15,
+      "step": 13785,
+      "train_speed(iter/s)": 0.449639
+    },
+    {
+      "acc": 0.64993563,
+      "epoch": 0.3498224251648909,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.579456154163676e-06,
+      "loss": 1.66384811,
+      "memory(GiB)": 111.15,
+      "step": 13790,
+      "train_speed(iter/s)": 0.449726
+    },
+    {
+      "acc": 0.63879771,
+      "epoch": 0.34994926433282597,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.57903510809685e-06,
+      "loss": 1.63221931,
+      "memory(GiB)": 111.15,
+      "step": 13795,
+      "train_speed(iter/s)": 0.449813
+    },
+    {
+      "acc": 0.64708543,
+      "epoch": 0.350076103500761,
+      "grad_norm": 6.0,
+      "learning_rate": 9.578613860623617e-06,
+      "loss": 1.6336792,
+      "memory(GiB)": 111.15,
+      "step": 13800,
+      "train_speed(iter/s)": 0.449899
+    },
+    {
+      "epoch": 0.350076103500761,
+      "eval_acc": 0.6388978128628048,
+      "eval_loss": 1.633205771446228,
+      "eval_runtime": 113.431,
+      "eval_samples_per_second": 56.158,
+      "eval_steps_per_second": 28.079,
+      "step": 13800
+    },
+    {
+      "acc": 0.65197029,
+      "epoch": 0.3502029426686961,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.578192411762503e-06,
+      "loss": 1.55447464,
+      "memory(GiB)": 111.15,
+      "step": 13805,
+      "train_speed(iter/s)": 0.448262
+    },
+    {
+      "acc": 0.64415607,
+      "epoch": 0.35032978183663116,
+      "grad_norm": 4.375,
+      "learning_rate": 9.577770761532049e-06,
+      "loss": 1.68373661,
+      "memory(GiB)": 111.15,
+      "step": 13810,
+      "train_speed(iter/s)": 0.448348
+    },
+    {
+      "acc": 0.64257393,
+      "epoch": 0.3504566210045662,
+      "grad_norm": 5.84375,
+      "learning_rate": 9.577348909950797e-06,
+      "loss": 1.66234207,
+      "memory(GiB)": 111.15,
+      "step": 13815,
+      "train_speed(iter/s)": 0.448434
+    },
+    {
+      "acc": 0.6567091,
+      "epoch": 0.35058346017250125,
+      "grad_norm": 5.25,
+      "learning_rate": 9.576926857037303e-06,
+      "loss": 1.50343027,
+      "memory(GiB)": 111.15,
+      "step": 13820,
+      "train_speed(iter/s)": 0.448521
+    },
+    {
+      "acc": 0.66023369,
+      "epoch": 0.35071029934043635,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.576504602810133e-06,
+      "loss": 1.64527283,
+      "memory(GiB)": 111.15,
+      "step": 13825,
+      "train_speed(iter/s)": 0.448608
+    },
+    {
+      "acc": 0.64658866,
+      "epoch": 0.3508371385083714,
+      "grad_norm": 5.125,
+      "learning_rate": 9.576082147287858e-06,
+      "loss": 1.62077484,
+      "memory(GiB)": 111.15,
+      "step": 13830,
+      "train_speed(iter/s)": 0.448694
+    },
+    {
+      "acc": 0.64606075,
+      "epoch": 0.35096397767630644,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.575659490489058e-06,
+      "loss": 1.59905949,
+      "memory(GiB)": 111.15,
+      "step": 13835,
+      "train_speed(iter/s)": 0.448781
+    },
+    {
+      "acc": 0.64534016,
+      "epoch": 0.3510908168442415,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.575236632432325e-06,
+      "loss": 1.6225029,
+      "memory(GiB)": 111.15,
+      "step": 13840,
+      "train_speed(iter/s)": 0.448869
+    },
+    {
+      "acc": 0.65817809,
+      "epoch": 0.3512176560121766,
+      "grad_norm": 5.75,
+      "learning_rate": 9.574813573136259e-06,
+      "loss": 1.62662258,
+      "memory(GiB)": 111.15,
+      "step": 13845,
+      "train_speed(iter/s)": 0.448956
+    },
+    {
+      "acc": 0.65324006,
+      "epoch": 0.3513444951801116,
+      "grad_norm": 4.625,
+      "learning_rate": 9.574390312619466e-06,
+      "loss": 1.65058708,
+      "memory(GiB)": 111.15,
+      "step": 13850,
+      "train_speed(iter/s)": 0.449043
+    },
+    {
+      "acc": 0.65746584,
+      "epoch": 0.35147133434804667,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.573966850900565e-06,
+      "loss": 1.61844025,
+      "memory(GiB)": 111.15,
+      "step": 13855,
+      "train_speed(iter/s)": 0.449129
+    },
+    {
+      "acc": 0.64182949,
+      "epoch": 0.3515981735159817,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.57354318799818e-06,
+      "loss": 1.61763935,
+      "memory(GiB)": 111.15,
+      "step": 13860,
+      "train_speed(iter/s)": 0.449216
+    },
+    {
+      "acc": 0.64992461,
+      "epoch": 0.3517250126839168,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.573119323930946e-06,
+      "loss": 1.64605808,
+      "memory(GiB)": 111.15,
+      "step": 13865,
+      "train_speed(iter/s)": 0.449303
+    },
+    {
+      "acc": 0.64900827,
+      "epoch": 0.35185185185185186,
+      "grad_norm": 4.75,
+      "learning_rate": 9.572695258717507e-06,
+      "loss": 1.63551769,
+      "memory(GiB)": 111.15,
+      "step": 13870,
+      "train_speed(iter/s)": 0.44939
+    },
+    {
+      "acc": 0.6451992,
+      "epoch": 0.3519786910197869,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.572270992376513e-06,
+      "loss": 1.66867371,
+      "memory(GiB)": 111.15,
+      "step": 13875,
+      "train_speed(iter/s)": 0.449476
+    },
+    {
+      "acc": 0.65296707,
+      "epoch": 0.35210553018772195,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.571846524926629e-06,
+      "loss": 1.64710693,
+      "memory(GiB)": 111.15,
+      "step": 13880,
+      "train_speed(iter/s)": 0.449564
+    },
+    {
+      "acc": 0.65420208,
+      "epoch": 0.35223236935565705,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.571421856386522e-06,
+      "loss": 1.69653473,
+      "memory(GiB)": 111.15,
+      "step": 13885,
+      "train_speed(iter/s)": 0.44965
+    },
+    {
+      "acc": 0.64517431,
+      "epoch": 0.3523592085235921,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.570996986774872e-06,
+      "loss": 1.65888557,
+      "memory(GiB)": 111.15,
+      "step": 13890,
+      "train_speed(iter/s)": 0.449736
+    },
+    {
+      "acc": 0.64347372,
+      "epoch": 0.35248604769152714,
+      "grad_norm": 6.34375,
+      "learning_rate": 9.570571916110366e-06,
+      "loss": 1.67334843,
+      "memory(GiB)": 111.15,
+      "step": 13895,
+      "train_speed(iter/s)": 0.449822
+    },
+    {
+      "acc": 0.64887338,
+      "epoch": 0.3526128868594622,
+      "grad_norm": 4.875,
+      "learning_rate": 9.570146644411705e-06,
+      "loss": 1.66215553,
+      "memory(GiB)": 111.15,
+      "step": 13900,
+      "train_speed(iter/s)": 0.449909
+    },
+    {
+      "epoch": 0.3526128868594622,
+      "eval_acc": 0.639013116640215,
+      "eval_loss": 1.6327142715454102,
+      "eval_runtime": 112.9348,
+      "eval_samples_per_second": 56.404,
+      "eval_steps_per_second": 28.202,
+      "step": 13900
+    },
+    {
+      "acc": 0.65493631,
+      "epoch": 0.3527397260273973,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.569721171697587e-06,
+      "loss": 1.65564365,
+      "memory(GiB)": 111.15,
+      "step": 13905,
+      "train_speed(iter/s)": 0.448292
+    },
+    {
+      "acc": 0.64626961,
+      "epoch": 0.3528665651953323,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.569295497986727e-06,
+      "loss": 1.67892075,
+      "memory(GiB)": 111.15,
+      "step": 13910,
+      "train_speed(iter/s)": 0.448378
+    },
+    {
+      "acc": 0.65952797,
+      "epoch": 0.35299340436326737,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.568869623297855e-06,
+      "loss": 1.63244972,
+      "memory(GiB)": 111.15,
+      "step": 13915,
+      "train_speed(iter/s)": 0.448464
+    },
+    {
+      "acc": 0.6325058,
+      "epoch": 0.3531202435312024,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.568443547649697e-06,
+      "loss": 1.73353481,
+      "memory(GiB)": 111.15,
+      "step": 13920,
+      "train_speed(iter/s)": 0.448551
+    },
+    {
+      "acc": 0.65298038,
+      "epoch": 0.3532470826991375,
+      "grad_norm": 5.84375,
+      "learning_rate": 9.568017271060994e-06,
+      "loss": 1.66758442,
+      "memory(GiB)": 111.15,
+      "step": 13925,
+      "train_speed(iter/s)": 0.448637
+    },
+    {
+      "acc": 0.66020384,
+      "epoch": 0.35337392186707256,
+      "grad_norm": 6.9375,
+      "learning_rate": 9.567590793550498e-06,
+      "loss": 1.59989319,
+      "memory(GiB)": 111.15,
+      "step": 13930,
+      "train_speed(iter/s)": 0.448723
+    },
+    {
+      "acc": 0.64962511,
+      "epoch": 0.3535007610350076,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.567164115136965e-06,
+      "loss": 1.6726553,
+      "memory(GiB)": 111.15,
+      "step": 13935,
+      "train_speed(iter/s)": 0.448809
+    },
+    {
+      "acc": 0.65230341,
+      "epoch": 0.35362760020294265,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.566737235839166e-06,
+      "loss": 1.64690189,
+      "memory(GiB)": 111.15,
+      "step": 13940,
+      "train_speed(iter/s)": 0.448896
+    },
+    {
+      "acc": 0.63917646,
+      "epoch": 0.35375443937087775,
+      "grad_norm": 5.5,
+      "learning_rate": 9.566310155675871e-06,
+      "loss": 1.65717449,
+      "memory(GiB)": 111.15,
+      "step": 13945,
+      "train_speed(iter/s)": 0.448983
+    },
+    {
+      "acc": 0.63990064,
+      "epoch": 0.3538812785388128,
+      "grad_norm": 4.0625,
+      "learning_rate": 9.56588287466587e-06,
+      "loss": 1.58915138,
+      "memory(GiB)": 111.15,
+      "step": 13950,
+      "train_speed(iter/s)": 0.44907
+    },
+    {
+      "acc": 0.66091614,
+      "epoch": 0.35400811770674784,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.565455392827954e-06,
+      "loss": 1.59982376,
+      "memory(GiB)": 111.15,
+      "step": 13955,
+      "train_speed(iter/s)": 0.449156
+    },
+    {
+      "acc": 0.64128933,
+      "epoch": 0.3541349568746829,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.565027710180927e-06,
+      "loss": 1.6735693,
+      "memory(GiB)": 111.15,
+      "step": 13960,
+      "train_speed(iter/s)": 0.449242
+    },
+    {
+      "acc": 0.66160359,
+      "epoch": 0.354261796042618,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.5645998267436e-06,
+      "loss": 1.54278316,
+      "memory(GiB)": 111.15,
+      "step": 13965,
+      "train_speed(iter/s)": 0.449329
+    },
+    {
+      "acc": 0.63823557,
+      "epoch": 0.354388635210553,
+      "grad_norm": 4.625,
+      "learning_rate": 9.564171742534794e-06,
+      "loss": 1.66355858,
+      "memory(GiB)": 111.15,
+      "step": 13970,
+      "train_speed(iter/s)": 0.449415
+    },
+    {
+      "acc": 0.6439827,
+      "epoch": 0.35451547437848807,
+      "grad_norm": 5.25,
+      "learning_rate": 9.563743457573336e-06,
+      "loss": 1.67273636,
+      "memory(GiB)": 111.15,
+      "step": 13975,
+      "train_speed(iter/s)": 0.4495
+    },
+    {
+      "acc": 0.63638186,
+      "epoch": 0.3546423135464231,
+      "grad_norm": 4.875,
+      "learning_rate": 9.563314971878065e-06,
+      "loss": 1.68128262,
+      "memory(GiB)": 111.15,
+      "step": 13980,
+      "train_speed(iter/s)": 0.449585
+    },
+    {
+      "acc": 0.64579544,
+      "epoch": 0.3547691527143582,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.562886285467828e-06,
+      "loss": 1.65092735,
+      "memory(GiB)": 111.15,
+      "step": 13985,
+      "train_speed(iter/s)": 0.449672
+    },
+    {
+      "acc": 0.63931093,
+      "epoch": 0.35489599188229326,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.56245739836148e-06,
+      "loss": 1.67836208,
+      "memory(GiB)": 111.15,
+      "step": 13990,
+      "train_speed(iter/s)": 0.449757
+    },
+    {
+      "acc": 0.6450654,
+      "epoch": 0.3550228310502283,
+      "grad_norm": 4.875,
+      "learning_rate": 9.562028310577887e-06,
+      "loss": 1.6372509,
+      "memory(GiB)": 111.15,
+      "step": 13995,
+      "train_speed(iter/s)": 0.449843
+    },
+    {
+      "acc": 0.63708959,
+      "epoch": 0.35514967021816335,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.56159902213592e-06,
+      "loss": 1.67382431,
+      "memory(GiB)": 111.15,
+      "step": 14000,
+      "train_speed(iter/s)": 0.449929
+    },
+    {
+      "epoch": 0.35514967021816335,
+      "eval_acc": 0.6390778705731809,
+      "eval_loss": 1.632528305053711,
+      "eval_runtime": 113.9799,
+      "eval_samples_per_second": 55.887,
+      "eval_steps_per_second": 27.944,
+      "step": 14000
+    },
+    {
+      "acc": 0.64792118,
+      "epoch": 0.35527650938609845,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.561169533054462e-06,
+      "loss": 1.63665886,
+      "memory(GiB)": 111.15,
+      "step": 14005,
+      "train_speed(iter/s)": 0.448306
+    },
+    {
+      "acc": 0.65470276,
+      "epoch": 0.3554033485540335,
+      "grad_norm": 6.65625,
+      "learning_rate": 9.560739843352404e-06,
+      "loss": 1.65799561,
+      "memory(GiB)": 111.15,
+      "step": 14010,
+      "train_speed(iter/s)": 0.448391
+    },
+    {
+      "acc": 0.64416289,
+      "epoch": 0.35553018772196854,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.560309953048645e-06,
+      "loss": 1.68351078,
+      "memory(GiB)": 111.15,
+      "step": 14015,
+      "train_speed(iter/s)": 0.448476
+    },
+    {
+      "acc": 0.63143368,
+      "epoch": 0.3556570268899036,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.559879862162095e-06,
+      "loss": 1.69894142,
+      "memory(GiB)": 111.15,
+      "step": 14020,
+      "train_speed(iter/s)": 0.448561
+    },
+    {
+      "acc": 0.6448947,
+      "epoch": 0.3557838660578387,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.55944957071167e-06,
+      "loss": 1.70590954,
+      "memory(GiB)": 111.15,
+      "step": 14025,
+      "train_speed(iter/s)": 0.448646
+    },
+    {
+      "acc": 0.64087458,
+      "epoch": 0.3559107052257737,
+      "grad_norm": 5.75,
+      "learning_rate": 9.559019078716295e-06,
+      "loss": 1.65334091,
+      "memory(GiB)": 111.15,
+      "step": 14030,
+      "train_speed(iter/s)": 0.448731
+    },
+    {
+      "acc": 0.64791336,
+      "epoch": 0.35603754439370877,
+      "grad_norm": 5.96875,
+      "learning_rate": 9.558588386194907e-06,
+      "loss": 1.70946712,
+      "memory(GiB)": 111.15,
+      "step": 14035,
+      "train_speed(iter/s)": 0.448817
+    },
+    {
+      "acc": 0.63646221,
+      "epoch": 0.3561643835616438,
+      "grad_norm": 6.1875,
+      "learning_rate": 9.55815749316645e-06,
+      "loss": 1.62360001,
+      "memory(GiB)": 111.15,
+      "step": 14040,
+      "train_speed(iter/s)": 0.448901
+    },
+    {
+      "acc": 0.63083696,
+      "epoch": 0.3562912227295789,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.557726399649875e-06,
+      "loss": 1.69806862,
+      "memory(GiB)": 111.15,
+      "step": 14045,
+      "train_speed(iter/s)": 0.448987
+    },
+    {
+      "acc": 0.63959489,
+      "epoch": 0.35641806189751396,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.557295105664144e-06,
+      "loss": 1.66109428,
+      "memory(GiB)": 111.15,
+      "step": 14050,
+      "train_speed(iter/s)": 0.449072
+    },
+    {
+      "acc": 0.63467441,
+      "epoch": 0.356544901065449,
+      "grad_norm": 5.625,
+      "learning_rate": 9.556863611228228e-06,
+      "loss": 1.72277565,
+      "memory(GiB)": 111.15,
+      "step": 14055,
+      "train_speed(iter/s)": 0.449158
+    },
+    {
+      "acc": 0.65098476,
+      "epoch": 0.35667174023338405,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.556431916361105e-06,
+      "loss": 1.66806259,
+      "memory(GiB)": 111.15,
+      "step": 14060,
+      "train_speed(iter/s)": 0.449243
+    },
+    {
+      "acc": 0.63266835,
+      "epoch": 0.35679857940131915,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.556000021081764e-06,
+      "loss": 1.65586433,
+      "memory(GiB)": 111.15,
+      "step": 14065,
+      "train_speed(iter/s)": 0.449328
+    },
+    {
+      "acc": 0.65270166,
+      "epoch": 0.3569254185692542,
+      "grad_norm": 6.15625,
+      "learning_rate": 9.5555679254092e-06,
+      "loss": 1.58572121,
+      "memory(GiB)": 111.15,
+      "step": 14070,
+      "train_speed(iter/s)": 0.449413
+    },
+    {
+      "acc": 0.63574028,
+      "epoch": 0.35705225773718924,
+      "grad_norm": 5.6875,
+      "learning_rate": 9.55513562936242e-06,
+      "loss": 1.73494415,
+      "memory(GiB)": 111.15,
+      "step": 14075,
+      "train_speed(iter/s)": 0.449498
+    },
+    {
+      "acc": 0.63240619,
+      "epoch": 0.3571790969051243,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.554703132960437e-06,
+      "loss": 1.74862785,
+      "memory(GiB)": 111.15,
+      "step": 14080,
+      "train_speed(iter/s)": 0.449584
+    },
+    {
+      "acc": 0.65498648,
+      "epoch": 0.3573059360730594,
+      "grad_norm": 4.34375,
+      "learning_rate": 9.554270436222277e-06,
+      "loss": 1.57103758,
+      "memory(GiB)": 111.15,
+      "step": 14085,
+      "train_speed(iter/s)": 0.449669
+    },
+    {
+      "acc": 0.64250689,
+      "epoch": 0.3574327752409944,
+      "grad_norm": 5.25,
+      "learning_rate": 9.553837539166969e-06,
+      "loss": 1.63600712,
+      "memory(GiB)": 111.15,
+      "step": 14090,
+      "train_speed(iter/s)": 0.449754
+    },
+    {
+      "acc": 0.64493866,
+      "epoch": 0.35755961440892947,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.553404441813554e-06,
+      "loss": 1.7062685,
+      "memory(GiB)": 111.15,
+      "step": 14095,
+      "train_speed(iter/s)": 0.44984
+    },
+    {
+      "acc": 0.65040212,
+      "epoch": 0.3576864535768645,
+      "grad_norm": 7.21875,
+      "learning_rate": 9.552971144181083e-06,
+      "loss": 1.62010555,
+      "memory(GiB)": 111.15,
+      "step": 14100,
+      "train_speed(iter/s)": 0.449924
+    },
+    {
+      "epoch": 0.3576864535768645,
+      "eval_acc": 0.6392600171201044,
+      "eval_loss": 1.6321802139282227,
+      "eval_runtime": 113.2553,
+      "eval_samples_per_second": 56.245,
+      "eval_steps_per_second": 28.122,
+      "step": 14100
+    },
+    {
+      "acc": 0.64428568,
+      "epoch": 0.3578132927447996,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.552537646288612e-06,
+      "loss": 1.69233932,
+      "memory(GiB)": 111.15,
+      "step": 14105,
+      "train_speed(iter/s)": 0.448325
+    },
+    {
+      "acc": 0.6589201,
+      "epoch": 0.35794013191273466,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.552103948155211e-06,
+      "loss": 1.61974697,
+      "memory(GiB)": 111.15,
+      "step": 14110,
+      "train_speed(iter/s)": 0.44841
+    },
+    {
+      "acc": 0.65990062,
+      "epoch": 0.3580669710806697,
+      "grad_norm": 6.125,
+      "learning_rate": 9.551670049799954e-06,
+      "loss": 1.63631229,
+      "memory(GiB)": 111.15,
+      "step": 14115,
+      "train_speed(iter/s)": 0.448495
+    },
+    {
+      "acc": 0.6388341,
+      "epoch": 0.35819381024860475,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.551235951241927e-06,
+      "loss": 1.6283268,
+      "memory(GiB)": 111.15,
+      "step": 14120,
+      "train_speed(iter/s)": 0.44858
+    },
+    {
+      "acc": 0.63620405,
+      "epoch": 0.35832064941653985,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.550801652500223e-06,
+      "loss": 1.72039032,
+      "memory(GiB)": 111.15,
+      "step": 14125,
+      "train_speed(iter/s)": 0.448664
+    },
+    {
+      "acc": 0.64916501,
+      "epoch": 0.3584474885844749,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.550367153593944e-06,
+      "loss": 1.63811283,
+      "memory(GiB)": 111.15,
+      "step": 14130,
+      "train_speed(iter/s)": 0.448749
+    },
+    {
+      "acc": 0.63713417,
+      "epoch": 0.35857432775240994,
+      "grad_norm": 4.625,
+      "learning_rate": 9.549932454542202e-06,
+      "loss": 1.66669979,
+      "memory(GiB)": 111.15,
+      "step": 14135,
+      "train_speed(iter/s)": 0.448833
+    },
+    {
+      "acc": 0.65722542,
+      "epoch": 0.358701166920345,
+      "grad_norm": 7.59375,
+      "learning_rate": 9.549497555364115e-06,
+      "loss": 1.62094383,
+      "memory(GiB)": 111.15,
+      "step": 14140,
+      "train_speed(iter/s)": 0.448919
+    },
+    {
+      "acc": 0.64861345,
+      "epoch": 0.3588280060882801,
+      "grad_norm": 6.15625,
+      "learning_rate": 9.549062456078816e-06,
+      "loss": 1.61638603,
+      "memory(GiB)": 111.15,
+      "step": 14145,
+      "train_speed(iter/s)": 0.449003
+    },
+    {
+      "acc": 0.64791088,
+      "epoch": 0.3589548452562151,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.54862715670544e-06,
+      "loss": 1.63125668,
+      "memory(GiB)": 111.15,
+      "step": 14150,
+      "train_speed(iter/s)": 0.449088
+    },
+    {
+      "acc": 0.64804392,
+      "epoch": 0.35908168442415017,
+      "grad_norm": 4.75,
+      "learning_rate": 9.548191657263132e-06,
+      "loss": 1.64996834,
+      "memory(GiB)": 111.15,
+      "step": 14155,
+      "train_speed(iter/s)": 0.449173
+    },
+    {
+      "acc": 0.6534133,
+      "epoch": 0.3592085235920852,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.547755957771049e-06,
+      "loss": 1.63778038,
+      "memory(GiB)": 111.15,
+      "step": 14160,
+      "train_speed(iter/s)": 0.449258
+    },
+    {
+      "acc": 0.65406156,
+      "epoch": 0.3593353627600203,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.547320058248356e-06,
+      "loss": 1.64388351,
+      "memory(GiB)": 111.15,
+      "step": 14165,
+      "train_speed(iter/s)": 0.449344
+    },
+    {
+      "acc": 0.65060816,
+      "epoch": 0.35946220192795536,
+      "grad_norm": 6.03125,
+      "learning_rate": 9.546883958714223e-06,
+      "loss": 1.6840313,
+      "memory(GiB)": 111.15,
+      "step": 14170,
+      "train_speed(iter/s)": 0.449429
+    },
+    {
+      "acc": 0.61958141,
+      "epoch": 0.3595890410958904,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.546447659187834e-06,
+      "loss": 1.7229599,
+      "memory(GiB)": 111.15,
+      "step": 14175,
+      "train_speed(iter/s)": 0.449514
+    },
+    {
+      "acc": 0.64923544,
+      "epoch": 0.35971588026382545,
+      "grad_norm": 4.875,
+      "learning_rate": 9.546011159688377e-06,
+      "loss": 1.61892262,
+      "memory(GiB)": 111.15,
+      "step": 14180,
+      "train_speed(iter/s)": 0.449598
+    },
+    {
+      "acc": 0.65543013,
+      "epoch": 0.35984271943176055,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.545574460235055e-06,
+      "loss": 1.64788437,
+      "memory(GiB)": 111.15,
+      "step": 14185,
+      "train_speed(iter/s)": 0.449683
+    },
+    {
+      "acc": 0.64655871,
+      "epoch": 0.3599695585996956,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.545137560847071e-06,
+      "loss": 1.58711977,
+      "memory(GiB)": 111.15,
+      "step": 14190,
+      "train_speed(iter/s)": 0.449767
+    },
+    {
+      "acc": 0.63546391,
+      "epoch": 0.36009639776763064,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.544700461543647e-06,
+      "loss": 1.6802248,
+      "memory(GiB)": 111.15,
+      "step": 14195,
+      "train_speed(iter/s)": 0.449852
+    },
+    {
+      "acc": 0.66254797,
+      "epoch": 0.3602232369355657,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.544263162344005e-06,
+      "loss": 1.61615257,
+      "memory(GiB)": 111.15,
+      "step": 14200,
+      "train_speed(iter/s)": 0.449937
+    },
+    {
+      "epoch": 0.3602232369355657,
+      "eval_acc": 0.639140953436909,
+      "eval_loss": 1.6318191289901733,
+      "eval_runtime": 113.0153,
+      "eval_samples_per_second": 56.364,
+      "eval_steps_per_second": 28.182,
+      "step": 14200
+    },
+    {
+      "acc": 0.63858023,
+      "epoch": 0.3603500761035008,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.54382566326738e-06,
+      "loss": 1.68927975,
+      "memory(GiB)": 111.15,
+      "step": 14205,
+      "train_speed(iter/s)": 0.448352
+    },
+    {
+      "acc": 0.63646684,
+      "epoch": 0.3604769152714358,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.543387964333018e-06,
+      "loss": 1.65857124,
+      "memory(GiB)": 111.15,
+      "step": 14210,
+      "train_speed(iter/s)": 0.448436
+    },
+    {
+      "acc": 0.6283659,
+      "epoch": 0.36060375443937087,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.542950065560165e-06,
+      "loss": 1.65683708,
+      "memory(GiB)": 111.15,
+      "step": 14215,
+      "train_speed(iter/s)": 0.448521
+    },
+    {
+      "acc": 0.62544022,
+      "epoch": 0.3607305936073059,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.542511966968087e-06,
+      "loss": 1.7676384,
+      "memory(GiB)": 111.15,
+      "step": 14220,
+      "train_speed(iter/s)": 0.448606
+    },
+    {
+      "acc": 0.64924555,
+      "epoch": 0.360857432775241,
+      "grad_norm": 5.5,
+      "learning_rate": 9.542073668576052e-06,
+      "loss": 1.58760176,
+      "memory(GiB)": 111.15,
+      "step": 14225,
+      "train_speed(iter/s)": 0.448689
+    },
+    {
+      "acc": 0.6560461,
+      "epoch": 0.36098427194317606,
+      "grad_norm": 4.5625,
+      "learning_rate": 9.541635170403338e-06,
+      "loss": 1.61116943,
+      "memory(GiB)": 111.15,
+      "step": 14230,
+      "train_speed(iter/s)": 0.448774
+    },
+    {
+      "acc": 0.64099092,
+      "epoch": 0.3611111111111111,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.541196472469234e-06,
+      "loss": 1.64024811,
+      "memory(GiB)": 111.15,
+      "step": 14235,
+      "train_speed(iter/s)": 0.448859
+    },
+    {
+      "acc": 0.64503651,
+      "epoch": 0.36123795027904615,
+      "grad_norm": 6.3125,
+      "learning_rate": 9.540757574793032e-06,
+      "loss": 1.65698242,
+      "memory(GiB)": 111.15,
+      "step": 14240,
+      "train_speed(iter/s)": 0.448943
+    },
+    {
+      "acc": 0.63416624,
+      "epoch": 0.36136478944698125,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.540318477394039e-06,
+      "loss": 1.66830101,
+      "memory(GiB)": 111.15,
+      "step": 14245,
+      "train_speed(iter/s)": 0.449028
+    },
+    {
+      "acc": 0.66051869,
+      "epoch": 0.3614916286149163,
+      "grad_norm": 4.625,
+      "learning_rate": 9.539879180291568e-06,
+      "loss": 1.60914898,
+      "memory(GiB)": 111.15,
+      "step": 14250,
+      "train_speed(iter/s)": 0.449112
+    },
+    {
+      "acc": 0.64642611,
+      "epoch": 0.36161846778285134,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.539439683504943e-06,
+      "loss": 1.64850788,
+      "memory(GiB)": 111.15,
+      "step": 14255,
+      "train_speed(iter/s)": 0.449197
+    },
+    {
+      "acc": 0.63902354,
+      "epoch": 0.3617453069507864,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.538999987053492e-06,
+      "loss": 1.73722286,
+      "memory(GiB)": 111.15,
+      "step": 14260,
+      "train_speed(iter/s)": 0.449282
+    },
+    {
+      "acc": 0.63937635,
+      "epoch": 0.3618721461187215,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.538560090956557e-06,
+      "loss": 1.67937088,
+      "memory(GiB)": 111.15,
+      "step": 14265,
+      "train_speed(iter/s)": 0.449366
+    },
+    {
+      "acc": 0.65090427,
+      "epoch": 0.3619989852866565,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.538119995233485e-06,
+      "loss": 1.61618996,
+      "memory(GiB)": 111.15,
+      "step": 14270,
+      "train_speed(iter/s)": 0.44945
+    },
+    {
+      "acc": 0.65808105,
+      "epoch": 0.36212582445459157,
+      "grad_norm": 4.53125,
+      "learning_rate": 9.537679699903637e-06,
+      "loss": 1.65665131,
+      "memory(GiB)": 111.15,
+      "step": 14275,
+      "train_speed(iter/s)": 0.449534
+    },
+    {
+      "acc": 0.66959643,
+      "epoch": 0.3622526636225266,
+      "grad_norm": 6.34375,
+      "learning_rate": 9.537239204986375e-06,
+      "loss": 1.50684471,
+      "memory(GiB)": 111.15,
+      "step": 14280,
+      "train_speed(iter/s)": 0.449619
+    },
+    {
+      "acc": 0.6284399,
+      "epoch": 0.3623795027904617,
+      "grad_norm": 4.875,
+      "learning_rate": 9.536798510501075e-06,
+      "loss": 1.66848011,
+      "memory(GiB)": 111.15,
+      "step": 14285,
+      "train_speed(iter/s)": 0.449704
+    },
+    {
+      "acc": 0.64889402,
+      "epoch": 0.36250634195839676,
+      "grad_norm": 6.625,
+      "learning_rate": 9.536357616467123e-06,
+      "loss": 1.63340073,
+      "memory(GiB)": 111.15,
+      "step": 14290,
+      "train_speed(iter/s)": 0.449789
+    },
+    {
+      "acc": 0.65227442,
+      "epoch": 0.3626331811263318,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.535916522903908e-06,
+      "loss": 1.62053204,
+      "memory(GiB)": 111.15,
+      "step": 14295,
+      "train_speed(iter/s)": 0.449872
+    },
+    {
+      "acc": 0.63406906,
+      "epoch": 0.36276002029426685,
+      "grad_norm": 6.09375,
+      "learning_rate": 9.535475229830832e-06,
+      "loss": 1.71453323,
+      "memory(GiB)": 111.15,
+      "step": 14300,
+      "train_speed(iter/s)": 0.449956
+    },
+    {
+      "epoch": 0.36276002029426685,
+      "eval_acc": 0.6393302020280932,
+      "eval_loss": 1.6315418481826782,
+      "eval_runtime": 113.6861,
+      "eval_samples_per_second": 56.031,
+      "eval_steps_per_second": 28.016,
+      "step": 14300
+    },
+    {
+      "acc": 0.64229002,
+      "epoch": 0.36288685946220195,
+      "grad_norm": 5.0,
+      "learning_rate": 9.535033737267308e-06,
+      "loss": 1.60360203,
+      "memory(GiB)": 111.15,
+      "step": 14305,
+      "train_speed(iter/s)": 0.448373
+    },
+    {
+      "acc": 0.6455997,
+      "epoch": 0.363013698630137,
+      "grad_norm": 5.8125,
+      "learning_rate": 9.534592045232752e-06,
+      "loss": 1.58670921,
+      "memory(GiB)": 111.15,
+      "step": 14310,
+      "train_speed(iter/s)": 0.448457
+    },
+    {
+      "acc": 0.63988686,
+      "epoch": 0.36314053779807204,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.534150153746591e-06,
+      "loss": 1.72967033,
+      "memory(GiB)": 111.15,
+      "step": 14315,
+      "train_speed(iter/s)": 0.448541
+    },
+    {
+      "acc": 0.64051681,
+      "epoch": 0.3632673769660071,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.533708062828264e-06,
+      "loss": 1.66630898,
+      "memory(GiB)": 111.15,
+      "step": 14320,
+      "train_speed(iter/s)": 0.448626
+    },
+    {
+      "acc": 0.64569559,
+      "epoch": 0.3633942161339422,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.533265772497216e-06,
+      "loss": 1.70899239,
+      "memory(GiB)": 111.15,
+      "step": 14325,
+      "train_speed(iter/s)": 0.44871
+    },
+    {
+      "acc": 0.65536766,
+      "epoch": 0.3635210553018772,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.532823282772899e-06,
+      "loss": 1.61132374,
+      "memory(GiB)": 111.15,
+      "step": 14330,
+      "train_speed(iter/s)": 0.448794
+    },
+    {
+      "acc": 0.64040947,
+      "epoch": 0.36364789446981227,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.532380593674775e-06,
+      "loss": 1.65101051,
+      "memory(GiB)": 111.15,
+      "step": 14335,
+      "train_speed(iter/s)": 0.448879
+    },
+    {
+      "acc": 0.64864426,
+      "epoch": 0.3637747336377473,
+      "grad_norm": 6.46875,
+      "learning_rate": 9.531937705222319e-06,
+      "loss": 1.66865959,
+      "memory(GiB)": 111.15,
+      "step": 14340,
+      "train_speed(iter/s)": 0.448963
+    },
+    {
+      "acc": 0.6335063,
+      "epoch": 0.3639015728056824,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.531494617435006e-06,
+      "loss": 1.65864449,
+      "memory(GiB)": 111.15,
+      "step": 14345,
+      "train_speed(iter/s)": 0.449047
+    },
+    {
+      "acc": 0.65094366,
+      "epoch": 0.36402841197361746,
+      "grad_norm": 6.71875,
+      "learning_rate": 9.531051330332331e-06,
+      "loss": 1.6091671,
+      "memory(GiB)": 111.15,
+      "step": 14350,
+      "train_speed(iter/s)": 0.449132
+    },
+    {
+      "acc": 0.6294487,
+      "epoch": 0.3641552511415525,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.530607843933788e-06,
+      "loss": 1.68662071,
+      "memory(GiB)": 111.15,
+      "step": 14355,
+      "train_speed(iter/s)": 0.449217
+    },
+    {
+      "acc": 0.64478893,
+      "epoch": 0.36428209030948755,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.530164158258883e-06,
+      "loss": 1.61809845,
+      "memory(GiB)": 111.15,
+      "step": 14360,
+      "train_speed(iter/s)": 0.449301
+    },
+    {
+      "acc": 0.65816355,
+      "epoch": 0.36440892947742265,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.529720273327135e-06,
+      "loss": 1.60836754,
+      "memory(GiB)": 111.15,
+      "step": 14365,
+      "train_speed(iter/s)": 0.449385
+    },
+    {
+      "acc": 0.6479497,
+      "epoch": 0.3645357686453577,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.529276189158063e-06,
+      "loss": 1.68301163,
+      "memory(GiB)": 111.15,
+      "step": 14370,
+      "train_speed(iter/s)": 0.44947
+    },
+    {
+      "acc": 0.65491405,
+      "epoch": 0.36466260781329274,
+      "grad_norm": 4.875,
+      "learning_rate": 9.528831905771205e-06,
+      "loss": 1.64202576,
+      "memory(GiB)": 111.15,
+      "step": 14375,
+      "train_speed(iter/s)": 0.449554
+    },
+    {
+      "acc": 0.64020581,
+      "epoch": 0.3647894469812278,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.528387423186098e-06,
+      "loss": 1.66654663,
+      "memory(GiB)": 111.15,
+      "step": 14380,
+      "train_speed(iter/s)": 0.449639
+    },
+    {
+      "acc": 0.64381261,
+      "epoch": 0.3649162861491629,
+      "grad_norm": 4.75,
+      "learning_rate": 9.527942741422297e-06,
+      "loss": 1.65318909,
+      "memory(GiB)": 111.15,
+      "step": 14385,
+      "train_speed(iter/s)": 0.449723
+    },
+    {
+      "acc": 0.63821669,
+      "epoch": 0.3650431253170979,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.527497860499355e-06,
+      "loss": 1.72965393,
+      "memory(GiB)": 111.15,
+      "step": 14390,
+      "train_speed(iter/s)": 0.449807
+    },
+    {
+      "acc": 0.64864984,
+      "epoch": 0.36516996448503297,
+      "grad_norm": 5.71875,
+      "learning_rate": 9.527052780436845e-06,
+      "loss": 1.55539169,
+      "memory(GiB)": 111.15,
+      "step": 14395,
+      "train_speed(iter/s)": 0.449891
+    },
+    {
+      "acc": 0.64167666,
+      "epoch": 0.365296803652968,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.52660750125434e-06,
+      "loss": 1.63269711,
+      "memory(GiB)": 111.15,
+      "step": 14400,
+      "train_speed(iter/s)": 0.449975
+    },
+    {
+      "epoch": 0.365296803652968,
+      "eval_acc": 0.6392704613028408,
+      "eval_loss": 1.6314353942871094,
+      "eval_runtime": 112.9253,
+      "eval_samples_per_second": 56.409,
+      "eval_steps_per_second": 28.204,
+      "step": 14400
+    },
+    {
+      "acc": 0.6418047,
+      "epoch": 0.3654236428209031,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.52616202297143e-06,
+      "loss": 1.64433746,
+      "memory(GiB)": 111.15,
+      "step": 14405,
+      "train_speed(iter/s)": 0.448413
+    },
+    {
+      "acc": 0.64049568,
+      "epoch": 0.36555048198883816,
+      "grad_norm": 4.40625,
+      "learning_rate": 9.525716345607706e-06,
+      "loss": 1.62900429,
+      "memory(GiB)": 111.15,
+      "step": 14410,
+      "train_speed(iter/s)": 0.448497
+    },
+    {
+      "acc": 0.62558689,
+      "epoch": 0.3656773211567732,
+      "grad_norm": 4.75,
+      "learning_rate": 9.52527046918277e-06,
+      "loss": 1.72462845,
+      "memory(GiB)": 111.15,
+      "step": 14415,
+      "train_speed(iter/s)": 0.44858
+    },
+    {
+      "acc": 0.62971029,
+      "epoch": 0.36580416032470825,
+      "grad_norm": 4.6875,
+      "learning_rate": 9.524824393716235e-06,
+      "loss": 1.72703705,
+      "memory(GiB)": 111.15,
+      "step": 14420,
+      "train_speed(iter/s)": 0.448663
+    },
+    {
+      "acc": 0.63854952,
+      "epoch": 0.36593099949264335,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.524378119227722e-06,
+      "loss": 1.65682793,
+      "memory(GiB)": 111.15,
+      "step": 14425,
+      "train_speed(iter/s)": 0.448747
+    },
+    {
+      "acc": 0.6552175,
+      "epoch": 0.3660578386605784,
+      "grad_norm": 5.5,
+      "learning_rate": 9.523931645736858e-06,
+      "loss": 1.68306732,
+      "memory(GiB)": 111.15,
+      "step": 14430,
+      "train_speed(iter/s)": 0.448831
+    },
+    {
+      "acc": 0.64867997,
+      "epoch": 0.36618467782851344,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.523484973263283e-06,
+      "loss": 1.68383541,
+      "memory(GiB)": 111.15,
+      "step": 14435,
+      "train_speed(iter/s)": 0.448914
+    },
+    {
+      "acc": 0.65961008,
+      "epoch": 0.3663115169964485,
+      "grad_norm": 6.0625,
+      "learning_rate": 9.523038101826644e-06,
+      "loss": 1.60269737,
+      "memory(GiB)": 111.15,
+      "step": 14440,
+      "train_speed(iter/s)": 0.448998
+    },
+    {
+      "acc": 0.6243906,
+      "epoch": 0.3664383561643836,
+      "grad_norm": 5.5,
+      "learning_rate": 9.522591031446596e-06,
+      "loss": 1.73108921,
+      "memory(GiB)": 111.15,
+      "step": 14445,
+      "train_speed(iter/s)": 0.449082
+    },
+    {
+      "acc": 0.64948978,
+      "epoch": 0.3665651953323186,
+      "grad_norm": 5.75,
+      "learning_rate": 9.522143762142801e-06,
+      "loss": 1.6035965,
+      "memory(GiB)": 111.15,
+      "step": 14450,
+      "train_speed(iter/s)": 0.449165
+    },
+    {
+      "acc": 0.66550035,
+      "epoch": 0.36669203450025367,
+      "grad_norm": 5.78125,
+      "learning_rate": 9.521696293934934e-06,
+      "loss": 1.62463913,
+      "memory(GiB)": 111.15,
+      "step": 14455,
+      "train_speed(iter/s)": 0.449249
+    },
+    {
+      "acc": 0.64511032,
+      "epoch": 0.3668188736681887,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.521248626842676e-06,
+      "loss": 1.68508854,
+      "memory(GiB)": 111.15,
+      "step": 14460,
+      "train_speed(iter/s)": 0.449333
+    },
+    {
+      "acc": 0.63800745,
+      "epoch": 0.3669457128361238,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.520800760885716e-06,
+      "loss": 1.70908775,
+      "memory(GiB)": 111.15,
+      "step": 14465,
+      "train_speed(iter/s)": 0.449416
+    },
+    {
+      "acc": 0.64224854,
+      "epoch": 0.36707255200405886,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.520352696083756e-06,
+      "loss": 1.586619,
+      "memory(GiB)": 111.15,
+      "step": 14470,
+      "train_speed(iter/s)": 0.4495
+    },
+    {
+      "acc": 0.65365391,
+      "epoch": 0.3671993911719939,
+      "grad_norm": 5.71875,
+      "learning_rate": 9.519904432456504e-06,
+      "loss": 1.56092949,
+      "memory(GiB)": 111.15,
+      "step": 14475,
+      "train_speed(iter/s)": 0.449584
+    },
+    {
+      "acc": 0.66726441,
+      "epoch": 0.36732623033992895,
+      "grad_norm": 5.5,
+      "learning_rate": 9.519455970023672e-06,
+      "loss": 1.54890289,
+      "memory(GiB)": 111.15,
+      "step": 14480,
+      "train_speed(iter/s)": 0.449668
+    },
+    {
+      "acc": 0.64416842,
+      "epoch": 0.36745306950786405,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.519007308804991e-06,
+      "loss": 1.63817139,
+      "memory(GiB)": 111.15,
+      "step": 14485,
+      "train_speed(iter/s)": 0.449752
+    },
+    {
+      "acc": 0.64854178,
+      "epoch": 0.3675799086757991,
+      "grad_norm": 4.5,
+      "learning_rate": 9.518558448820193e-06,
+      "loss": 1.59827461,
+      "memory(GiB)": 111.15,
+      "step": 14490,
+      "train_speed(iter/s)": 0.449836
+    },
+    {
+      "acc": 0.64438305,
+      "epoch": 0.36770674784373414,
+      "grad_norm": 6.03125,
+      "learning_rate": 9.518109390089017e-06,
+      "loss": 1.66951408,
+      "memory(GiB)": 111.15,
+      "step": 14495,
+      "train_speed(iter/s)": 0.44992
+    },
+    {
+      "acc": 0.6367979,
+      "epoch": 0.3678335870116692,
+      "grad_norm": 6.84375,
+      "learning_rate": 9.517660132631222e-06,
+      "loss": 1.69788647,
+      "memory(GiB)": 111.15,
+      "step": 14500,
+      "train_speed(iter/s)": 0.450004
+    },
+    {
+      "epoch": 0.3678335870116692,
+      "eval_acc": 0.6392583460508665,
+      "eval_loss": 1.630948543548584,
+      "eval_runtime": 112.2222,
+      "eval_samples_per_second": 56.762,
+      "eval_steps_per_second": 28.381,
+      "step": 14500
+    },
+    {
+      "acc": 0.6574049,
+      "epoch": 0.3679604261796043,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.517210676466561e-06,
+      "loss": 1.65641937,
+      "memory(GiB)": 111.15,
+      "step": 14505,
+      "train_speed(iter/s)": 0.448463
+    },
+    {
+      "acc": 0.650071,
+      "epoch": 0.3680872653475393,
+      "grad_norm": 4.25,
+      "learning_rate": 9.516761021614809e-06,
+      "loss": 1.60505524,
+      "memory(GiB)": 111.15,
+      "step": 14510,
+      "train_speed(iter/s)": 0.448545
+    },
+    {
+      "acc": 0.64554081,
+      "epoch": 0.36821410451547437,
+      "grad_norm": 4.6875,
+      "learning_rate": 9.51631116809574e-06,
+      "loss": 1.63457813,
+      "memory(GiB)": 111.15,
+      "step": 14515,
+      "train_speed(iter/s)": 0.448628
+    },
+    {
+      "acc": 0.64037876,
+      "epoch": 0.3683409436834094,
+      "grad_norm": 5.25,
+      "learning_rate": 9.515861115929144e-06,
+      "loss": 1.70555191,
+      "memory(GiB)": 111.15,
+      "step": 14520,
+      "train_speed(iter/s)": 0.448711
+    },
+    {
+      "acc": 0.64018316,
+      "epoch": 0.3684677828513445,
+      "grad_norm": 7.34375,
+      "learning_rate": 9.515410865134812e-06,
+      "loss": 1.63516159,
+      "memory(GiB)": 111.15,
+      "step": 14525,
+      "train_speed(iter/s)": 0.448794
+    },
+    {
+      "acc": 0.65630131,
+      "epoch": 0.36859462201927956,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.514960415732551e-06,
+      "loss": 1.58691101,
+      "memory(GiB)": 111.15,
+      "step": 14530,
+      "train_speed(iter/s)": 0.448876
+    },
+    {
+      "acc": 0.64040222,
+      "epoch": 0.3687214611872146,
+      "grad_norm": 6.0,
+      "learning_rate": 9.514509767742172e-06,
+      "loss": 1.69796944,
+      "memory(GiB)": 111.15,
+      "step": 14535,
+      "train_speed(iter/s)": 0.448959
+    },
+    {
+      "acc": 0.64557772,
+      "epoch": 0.36884830035514965,
+      "grad_norm": 6.75,
+      "learning_rate": 9.5140589211835e-06,
+      "loss": 1.64887981,
+      "memory(GiB)": 111.15,
+      "step": 14540,
+      "train_speed(iter/s)": 0.449042
+    },
+    {
+      "acc": 0.65082846,
+      "epoch": 0.36897513952308475,
+      "grad_norm": 5.5,
+      "learning_rate": 9.513607876076363e-06,
+      "loss": 1.69332352,
+      "memory(GiB)": 111.15,
+      "step": 14545,
+      "train_speed(iter/s)": 0.449125
+    },
+    {
+      "acc": 0.65439215,
+      "epoch": 0.3691019786910198,
+      "grad_norm": 6.59375,
+      "learning_rate": 9.513156632440598e-06,
+      "loss": 1.60593147,
+      "memory(GiB)": 111.15,
+      "step": 14550,
+      "train_speed(iter/s)": 0.449208
+    },
+    {
+      "acc": 0.64734979,
+      "epoch": 0.36922881785895484,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.512705190296055e-06,
+      "loss": 1.66978092,
+      "memory(GiB)": 111.15,
+      "step": 14555,
+      "train_speed(iter/s)": 0.44929
+    },
+    {
+      "acc": 0.65431437,
+      "epoch": 0.3693556570268899,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.512253549662588e-06,
+      "loss": 1.59671278,
+      "memory(GiB)": 111.15,
+      "step": 14560,
+      "train_speed(iter/s)": 0.449372
+    },
+    {
+      "acc": 0.6595489,
+      "epoch": 0.369482496194825,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.511801710560066e-06,
+      "loss": 1.70670662,
+      "memory(GiB)": 111.15,
+      "step": 14565,
+      "train_speed(iter/s)": 0.449454
+    },
+    {
+      "acc": 0.65455818,
+      "epoch": 0.36960933536276,
+      "grad_norm": 5.25,
+      "learning_rate": 9.511349673008364e-06,
+      "loss": 1.60160637,
+      "memory(GiB)": 111.15,
+      "step": 14570,
+      "train_speed(iter/s)": 0.449536
+    },
+    {
+      "acc": 0.64083128,
+      "epoch": 0.36973617453069507,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.510897437027358e-06,
+      "loss": 1.66876411,
+      "memory(GiB)": 111.15,
+      "step": 14575,
+      "train_speed(iter/s)": 0.449618
+    },
+    {
+      "acc": 0.6513443,
+      "epoch": 0.3698630136986301,
+      "grad_norm": 5.625,
+      "learning_rate": 9.510445002636943e-06,
+      "loss": 1.65052776,
+      "memory(GiB)": 111.15,
+      "step": 14580,
+      "train_speed(iter/s)": 0.449701
+    },
+    {
+      "acc": 0.66851597,
+      "epoch": 0.3699898528665652,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.50999236985702e-06,
+      "loss": 1.633741,
+      "memory(GiB)": 111.15,
+      "step": 14585,
+      "train_speed(iter/s)": 0.449783
+    },
+    {
+      "acc": 0.65297441,
+      "epoch": 0.37011669203450026,
+      "grad_norm": 5.25,
+      "learning_rate": 9.509539538707497e-06,
+      "loss": 1.71499596,
+      "memory(GiB)": 111.15,
+      "step": 14590,
+      "train_speed(iter/s)": 0.449865
+    },
+    {
+      "acc": 0.64281874,
+      "epoch": 0.3702435312024353,
+      "grad_norm": 6.40625,
+      "learning_rate": 9.50908650920829e-06,
+      "loss": 1.66126995,
+      "memory(GiB)": 111.15,
+      "step": 14595,
+      "train_speed(iter/s)": 0.449947
+    },
+    {
+      "acc": 0.64553657,
+      "epoch": 0.37037037037037035,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.50863328137933e-06,
+      "loss": 1.62382393,
+      "memory(GiB)": 111.15,
+      "step": 14600,
+      "train_speed(iter/s)": 0.450028
+    },
+    {
+      "epoch": 0.37037037037037035,
+      "eval_acc": 0.6393928671245118,
+      "eval_loss": 1.6308417320251465,
+      "eval_runtime": 113.7183,
+      "eval_samples_per_second": 56.016,
+      "eval_steps_per_second": 28.008,
+      "step": 14600
+    },
+    {
+      "acc": 0.6516736,
+      "epoch": 0.37049720953830545,
+      "grad_norm": 5.125,
+      "learning_rate": 9.508179855240545e-06,
+      "loss": 1.63735027,
+      "memory(GiB)": 111.15,
+      "step": 14605,
+      "train_speed(iter/s)": 0.448476
+    },
+    {
+      "acc": 0.65449963,
+      "epoch": 0.3706240487062405,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.507726230811884e-06,
+      "loss": 1.70705204,
+      "memory(GiB)": 111.15,
+      "step": 14610,
+      "train_speed(iter/s)": 0.448558
+    },
+    {
+      "acc": 0.64333277,
+      "epoch": 0.37075088787417554,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.507272408113298e-06,
+      "loss": 1.62672024,
+      "memory(GiB)": 111.15,
+      "step": 14615,
+      "train_speed(iter/s)": 0.44864
+    },
+    {
+      "acc": 0.63390422,
+      "epoch": 0.3708777270421106,
+      "grad_norm": 4.5,
+      "learning_rate": 9.506818387164748e-06,
+      "loss": 1.68107338,
+      "memory(GiB)": 111.15,
+      "step": 14620,
+      "train_speed(iter/s)": 0.448722
+    },
+    {
+      "acc": 0.65500851,
+      "epoch": 0.3710045662100457,
+      "grad_norm": 5.0,
+      "learning_rate": 9.506364167986204e-06,
+      "loss": 1.65059471,
+      "memory(GiB)": 111.15,
+      "step": 14625,
+      "train_speed(iter/s)": 0.448803
+    },
+    {
+      "acc": 0.64964819,
+      "epoch": 0.3711314053779807,
+      "grad_norm": 6.0625,
+      "learning_rate": 9.505909750597644e-06,
+      "loss": 1.66220169,
+      "memory(GiB)": 111.15,
+      "step": 14630,
+      "train_speed(iter/s)": 0.448885
+    },
+    {
+      "acc": 0.6452774,
+      "epoch": 0.37125824454591577,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.505455135019055e-06,
+      "loss": 1.6050169,
+      "memory(GiB)": 111.15,
+      "step": 14635,
+      "train_speed(iter/s)": 0.448967
+    },
+    {
+      "acc": 0.64545937,
+      "epoch": 0.3713850837138508,
+      "grad_norm": 5.9375,
+      "learning_rate": 9.505000321270435e-06,
+      "loss": 1.62233124,
+      "memory(GiB)": 111.15,
+      "step": 14640,
+      "train_speed(iter/s)": 0.449049
+    },
+    {
+      "acc": 0.65504727,
+      "epoch": 0.3715119228817859,
+      "grad_norm": 6.0625,
+      "learning_rate": 9.504545309371786e-06,
+      "loss": 1.63773575,
+      "memory(GiB)": 111.15,
+      "step": 14645,
+      "train_speed(iter/s)": 0.449131
+    },
+    {
+      "acc": 0.62760553,
+      "epoch": 0.37163876204972096,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.504090099343125e-06,
+      "loss": 1.6988781,
+      "memory(GiB)": 111.15,
+      "step": 14650,
+      "train_speed(iter/s)": 0.449214
+    },
+    {
+      "acc": 0.67126055,
+      "epoch": 0.371765601217656,
+      "grad_norm": 5.84375,
+      "learning_rate": 9.50363469120447e-06,
+      "loss": 1.55456266,
+      "memory(GiB)": 111.15,
+      "step": 14655,
+      "train_speed(iter/s)": 0.449296
+    },
+    {
+      "acc": 0.6206193,
+      "epoch": 0.37189244038559105,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.503179084975855e-06,
+      "loss": 1.72508469,
+      "memory(GiB)": 111.15,
+      "step": 14660,
+      "train_speed(iter/s)": 0.449378
+    },
+    {
+      "acc": 0.63771548,
+      "epoch": 0.37201927955352615,
+      "grad_norm": 5.125,
+      "learning_rate": 9.502723280677319e-06,
+      "loss": 1.67332745,
+      "memory(GiB)": 111.15,
+      "step": 14665,
+      "train_speed(iter/s)": 0.449459
+    },
+    {
+      "acc": 0.65977945,
+      "epoch": 0.3721461187214612,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.50226727832891e-06,
+      "loss": 1.6745182,
+      "memory(GiB)": 111.15,
+      "step": 14670,
+      "train_speed(iter/s)": 0.449541
+    },
+    {
+      "acc": 0.63518057,
+      "epoch": 0.37227295788939624,
+      "grad_norm": 5.9375,
+      "learning_rate": 9.501811077950685e-06,
+      "loss": 1.72175121,
+      "memory(GiB)": 111.15,
+      "step": 14675,
+      "train_speed(iter/s)": 0.449624
+    },
+    {
+      "acc": 0.64569473,
+      "epoch": 0.3723997970573313,
+      "grad_norm": 5.75,
+      "learning_rate": 9.501354679562708e-06,
+      "loss": 1.63712082,
+      "memory(GiB)": 111.15,
+      "step": 14680,
+      "train_speed(iter/s)": 0.449706
+    },
+    {
+      "acc": 0.65331955,
+      "epoch": 0.3725266362252664,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.500898083185058e-06,
+      "loss": 1.65383987,
+      "memory(GiB)": 111.15,
+      "step": 14685,
+      "train_speed(iter/s)": 0.449788
+    },
+    {
+      "acc": 0.64626818,
+      "epoch": 0.3726534753932014,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.500441288837812e-06,
+      "loss": 1.60931568,
+      "memory(GiB)": 111.15,
+      "step": 14690,
+      "train_speed(iter/s)": 0.44987
+    },
+    {
+      "acc": 0.64005337,
+      "epoch": 0.37278031456113647,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.499984296541066e-06,
+      "loss": 1.6972126,
+      "memory(GiB)": 111.15,
+      "step": 14695,
+      "train_speed(iter/s)": 0.449951
+    },
+    {
+      "acc": 0.62346907,
+      "epoch": 0.3729071537290715,
+      "grad_norm": 5.625,
+      "learning_rate": 9.49952710631492e-06,
+      "loss": 1.77166595,
+      "memory(GiB)": 111.15,
+      "step": 14700,
+      "train_speed(iter/s)": 0.450033
+    },
+    {
+      "epoch": 0.3729071537290715,
+      "eval_acc": 0.6393882716841077,
+      "eval_loss": 1.6302801370620728,
+      "eval_runtime": 113.7874,
+      "eval_samples_per_second": 55.982,
+      "eval_steps_per_second": 27.991,
+      "step": 14700
+    },
+    {
+      "acc": 0.64275198,
+      "epoch": 0.3730339928970066,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.499069718179484e-06,
+      "loss": 1.613451,
+      "memory(GiB)": 111.15,
+      "step": 14705,
+      "train_speed(iter/s)": 0.44849
+    },
+    {
+      "acc": 0.65590305,
+      "epoch": 0.37316083206494166,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.498612132154874e-06,
+      "loss": 1.58161278,
+      "memory(GiB)": 111.15,
+      "step": 14710,
+      "train_speed(iter/s)": 0.448572
+    },
+    {
+      "acc": 0.64549217,
+      "epoch": 0.3732876712328767,
+      "grad_norm": 4.03125,
+      "learning_rate": 9.498154348261217e-06,
+      "loss": 1.62372856,
+      "memory(GiB)": 111.15,
+      "step": 14715,
+      "train_speed(iter/s)": 0.448653
+    },
+    {
+      "acc": 0.65355778,
+      "epoch": 0.37341451040081175,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.497696366518649e-06,
+      "loss": 1.65267181,
+      "memory(GiB)": 111.15,
+      "step": 14720,
+      "train_speed(iter/s)": 0.448735
+    },
+    {
+      "acc": 0.64496713,
+      "epoch": 0.37354134956874685,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.497238186947315e-06,
+      "loss": 1.66919975,
+      "memory(GiB)": 111.15,
+      "step": 14725,
+      "train_speed(iter/s)": 0.448816
+    },
+    {
+      "acc": 0.63596821,
+      "epoch": 0.3736681887366819,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.496779809567367e-06,
+      "loss": 1.68401794,
+      "memory(GiB)": 111.15,
+      "step": 14730,
+      "train_speed(iter/s)": 0.448898
+    },
+    {
+      "acc": 0.64546413,
+      "epoch": 0.37379502790461694,
+      "grad_norm": 4.5,
+      "learning_rate": 9.496321234398967e-06,
+      "loss": 1.60097618,
+      "memory(GiB)": 111.15,
+      "step": 14735,
+      "train_speed(iter/s)": 0.44898
+    },
+    {
+      "acc": 0.64233036,
+      "epoch": 0.373921867072552,
+      "grad_norm": 4.3125,
+      "learning_rate": 9.495862461462282e-06,
+      "loss": 1.64110184,
+      "memory(GiB)": 111.15,
+      "step": 14740,
+      "train_speed(iter/s)": 0.449061
+    },
+    {
+      "acc": 0.64893937,
+      "epoch": 0.3740487062404871,
+      "grad_norm": 4.75,
+      "learning_rate": 9.495403490777495e-06,
+      "loss": 1.66180439,
+      "memory(GiB)": 111.15,
+      "step": 14745,
+      "train_speed(iter/s)": 0.449142
+    },
+    {
+      "acc": 0.66583433,
+      "epoch": 0.3741755454084221,
+      "grad_norm": 5.25,
+      "learning_rate": 9.49494432236479e-06,
+      "loss": 1.58811522,
+      "memory(GiB)": 111.15,
+      "step": 14750,
+      "train_speed(iter/s)": 0.449224
+    },
+    {
+      "acc": 0.64432797,
+      "epoch": 0.37430238457635717,
+      "grad_norm": 5.125,
+      "learning_rate": 9.494484956244368e-06,
+      "loss": 1.65499039,
+      "memory(GiB)": 111.15,
+      "step": 14755,
+      "train_speed(iter/s)": 0.449306
+    },
+    {
+      "acc": 0.64863954,
+      "epoch": 0.3744292237442922,
+      "grad_norm": 6.5625,
+      "learning_rate": 9.49402539243643e-06,
+      "loss": 1.69186001,
+      "memory(GiB)": 111.15,
+      "step": 14760,
+      "train_speed(iter/s)": 0.449388
+    },
+    {
+      "acc": 0.64270353,
+      "epoch": 0.3745560629122273,
+      "grad_norm": 5.0,
+      "learning_rate": 9.49356563096119e-06,
+      "loss": 1.65822678,
+      "memory(GiB)": 111.15,
+      "step": 14765,
+      "train_speed(iter/s)": 0.449469
+    },
+    {
+      "acc": 0.6442338,
+      "epoch": 0.37468290208016236,
+      "grad_norm": 4.4375,
+      "learning_rate": 9.49310567183887e-06,
+      "loss": 1.61382446,
+      "memory(GiB)": 111.15,
+      "step": 14770,
+      "train_speed(iter/s)": 0.449551
+    },
+    {
+      "acc": 0.64676294,
+      "epoch": 0.3748097412480974,
+      "grad_norm": 5.84375,
+      "learning_rate": 9.492645515089706e-06,
+      "loss": 1.63478985,
+      "memory(GiB)": 111.15,
+      "step": 14775,
+      "train_speed(iter/s)": 0.449634
+    },
+    {
+      "acc": 0.64007363,
+      "epoch": 0.37493658041603245,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.492185160733934e-06,
+      "loss": 1.64263306,
+      "memory(GiB)": 111.15,
+      "step": 14780,
+      "train_speed(iter/s)": 0.449715
+    },
+    {
+      "acc": 0.64391584,
+      "epoch": 0.37506341958396755,
+      "grad_norm": 6.125,
+      "learning_rate": 9.491724608791798e-06,
+      "loss": 1.67460728,
+      "memory(GiB)": 111.15,
+      "step": 14785,
+      "train_speed(iter/s)": 0.449797
+    },
+    {
+      "acc": 0.63908739,
+      "epoch": 0.3751902587519026,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.491263859283563e-06,
+      "loss": 1.63415985,
+      "memory(GiB)": 111.15,
+      "step": 14790,
+      "train_speed(iter/s)": 0.449878
+    },
+    {
+      "acc": 0.65625801,
+      "epoch": 0.37531709791983764,
+      "grad_norm": 4.25,
+      "learning_rate": 9.490802912229491e-06,
+      "loss": 1.64570007,
+      "memory(GiB)": 111.15,
+      "step": 14795,
+      "train_speed(iter/s)": 0.44996
+    },
+    {
+      "acc": 0.63277636,
+      "epoch": 0.3754439370877727,
+      "grad_norm": 4.5,
+      "learning_rate": 9.490341767649858e-06,
+      "loss": 1.73162193,
+      "memory(GiB)": 111.15,
+      "step": 14800,
+      "train_speed(iter/s)": 0.450041
+    },
+    {
+      "epoch": 0.3754439370877727,
+      "eval_acc": 0.6394375682266237,
+      "eval_loss": 1.6301159858703613,
+      "eval_runtime": 113.3927,
+      "eval_samples_per_second": 56.176,
+      "eval_steps_per_second": 28.088,
+      "step": 14800
+    },
+    {
+      "acc": 0.65420423,
+      "epoch": 0.3755707762557078,
+      "grad_norm": 5.71875,
+      "learning_rate": 9.489880425564944e-06,
+      "loss": 1.59041624,
+      "memory(GiB)": 111.15,
+      "step": 14805,
+      "train_speed(iter/s)": 0.448514
+    },
+    {
+      "acc": 0.63566408,
+      "epoch": 0.37569761542364283,
+      "grad_norm": 4.46875,
+      "learning_rate": 9.489418885995043e-06,
+      "loss": 1.60790405,
+      "memory(GiB)": 111.15,
+      "step": 14810,
+      "train_speed(iter/s)": 0.448596
+    },
+    {
+      "acc": 0.62919316,
+      "epoch": 0.3758244545915779,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.488957148960457e-06,
+      "loss": 1.72803001,
+      "memory(GiB)": 111.15,
+      "step": 14815,
+      "train_speed(iter/s)": 0.448677
+    },
+    {
+      "acc": 0.63234234,
+      "epoch": 0.3759512937595129,
+      "grad_norm": 5.0,
+      "learning_rate": 9.488495214481494e-06,
+      "loss": 1.64002342,
+      "memory(GiB)": 111.15,
+      "step": 14820,
+      "train_speed(iter/s)": 0.448758
+    },
+    {
+      "acc": 0.65110502,
+      "epoch": 0.376078132927448,
+      "grad_norm": 5.0,
+      "learning_rate": 9.48803308257847e-06,
+      "loss": 1.66407471,
+      "memory(GiB)": 111.15,
+      "step": 14825,
+      "train_speed(iter/s)": 0.448839
+    },
+    {
+      "acc": 0.6602035,
+      "epoch": 0.37620497209538306,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.487570753271716e-06,
+      "loss": 1.62914314,
+      "memory(GiB)": 111.15,
+      "step": 14830,
+      "train_speed(iter/s)": 0.44892
+    },
+    {
+      "acc": 0.63964972,
+      "epoch": 0.3763318112633181,
+      "grad_norm": 5.9375,
+      "learning_rate": 9.487108226581564e-06,
+      "loss": 1.67306557,
+      "memory(GiB)": 111.15,
+      "step": 14835,
+      "train_speed(iter/s)": 0.449
+    },
+    {
+      "acc": 0.65277367,
+      "epoch": 0.37645865043125315,
+      "grad_norm": 4.625,
+      "learning_rate": 9.486645502528355e-06,
+      "loss": 1.63380127,
+      "memory(GiB)": 111.15,
+      "step": 14840,
+      "train_speed(iter/s)": 0.449079
+    },
+    {
+      "acc": 0.6532012,
+      "epoch": 0.37658548959918825,
+      "grad_norm": 4.625,
+      "learning_rate": 9.486182581132449e-06,
+      "loss": 1.58466768,
+      "memory(GiB)": 111.15,
+      "step": 14845,
+      "train_speed(iter/s)": 0.449159
+    },
+    {
+      "acc": 0.64996367,
+      "epoch": 0.3767123287671233,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.485719462414202e-06,
+      "loss": 1.58853722,
+      "memory(GiB)": 111.15,
+      "step": 14850,
+      "train_speed(iter/s)": 0.449238
+    },
+    {
+      "acc": 0.66455765,
+      "epoch": 0.37683916793505834,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.485256146393987e-06,
+      "loss": 1.65410004,
+      "memory(GiB)": 111.15,
+      "step": 14855,
+      "train_speed(iter/s)": 0.449319
+    },
+    {
+      "acc": 0.65352192,
+      "epoch": 0.3769660071029934,
+      "grad_norm": 5.8125,
+      "learning_rate": 9.484792633092182e-06,
+      "loss": 1.63899994,
+      "memory(GiB)": 111.15,
+      "step": 14860,
+      "train_speed(iter/s)": 0.4494
+    },
+    {
+      "acc": 0.64974709,
+      "epoch": 0.3770928462709285,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.484328922529172e-06,
+      "loss": 1.5913332,
+      "memory(GiB)": 111.15,
+      "step": 14865,
+      "train_speed(iter/s)": 0.44948
+    },
+    {
+      "acc": 0.64389739,
+      "epoch": 0.37721968543886353,
+      "grad_norm": 5.0,
+      "learning_rate": 9.483865014725356e-06,
+      "loss": 1.59500332,
+      "memory(GiB)": 111.15,
+      "step": 14870,
+      "train_speed(iter/s)": 0.44956
+    },
+    {
+      "acc": 0.64750729,
+      "epoch": 0.3773465246067986,
+      "grad_norm": 5.875,
+      "learning_rate": 9.483400909701139e-06,
+      "loss": 1.67172165,
+      "memory(GiB)": 111.15,
+      "step": 14875,
+      "train_speed(iter/s)": 0.44964
+    },
+    {
+      "acc": 0.64214354,
+      "epoch": 0.3774733637747336,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.482936607476931e-06,
+      "loss": 1.65352135,
+      "memory(GiB)": 111.15,
+      "step": 14880,
+      "train_speed(iter/s)": 0.44972
+    },
+    {
+      "acc": 0.64087601,
+      "epoch": 0.3776002029426687,
+      "grad_norm": 5.84375,
+      "learning_rate": 9.482472108073157e-06,
+      "loss": 1.70822086,
+      "memory(GiB)": 111.15,
+      "step": 14885,
+      "train_speed(iter/s)": 0.449801
+    },
+    {
+      "acc": 0.63795581,
+      "epoch": 0.37772704211060376,
+      "grad_norm": 5.5,
+      "learning_rate": 9.482007411510245e-06,
+      "loss": 1.63081284,
+      "memory(GiB)": 111.15,
+      "step": 14890,
+      "train_speed(iter/s)": 0.44988
+    },
+    {
+      "acc": 0.64351187,
+      "epoch": 0.3778538812785388,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.48154251780864e-06,
+      "loss": 1.59781742,
+      "memory(GiB)": 111.15,
+      "step": 14895,
+      "train_speed(iter/s)": 0.449961
+    },
+    {
+      "acc": 0.65495691,
+      "epoch": 0.37798072044647385,
+      "grad_norm": 5.375,
+      "learning_rate": 9.481077426988782e-06,
+      "loss": 1.66050072,
+      "memory(GiB)": 111.15,
+      "step": 14900,
+      "train_speed(iter/s)": 0.45004
+    },
+    {
+      "epoch": 0.37798072044647385,
+      "eval_acc": 0.6395954842695987,
+      "eval_loss": 1.629775047302246,
+      "eval_runtime": 114.0557,
+      "eval_samples_per_second": 55.85,
+      "eval_steps_per_second": 27.925,
+      "step": 14900
+    },
+    {
+      "acc": 0.63240757,
+      "epoch": 0.37810755961440895,
+      "grad_norm": 5.71875,
+      "learning_rate": 9.480612139071134e-06,
+      "loss": 1.66841755,
+      "memory(GiB)": 111.15,
+      "step": 14905,
+      "train_speed(iter/s)": 0.448514
+    },
+    {
+      "acc": 0.63805861,
+      "epoch": 0.378234398782344,
+      "grad_norm": 5.75,
+      "learning_rate": 9.48014665407616e-06,
+      "loss": 1.67057076,
+      "memory(GiB)": 111.15,
+      "step": 14910,
+      "train_speed(iter/s)": 0.448592
+    },
+    {
+      "acc": 0.66378422,
+      "epoch": 0.37836123795027904,
+      "grad_norm": 5.375,
+      "learning_rate": 9.479680972024334e-06,
+      "loss": 1.60718403,
+      "memory(GiB)": 111.15,
+      "step": 14915,
+      "train_speed(iter/s)": 0.448671
+    },
+    {
+      "acc": 0.66384716,
+      "epoch": 0.3784880771182141,
+      "grad_norm": 6.15625,
+      "learning_rate": 9.47921509293614e-06,
+      "loss": 1.57608624,
+      "memory(GiB)": 111.15,
+      "step": 14920,
+      "train_speed(iter/s)": 0.448751
+    },
+    {
+      "acc": 0.65116968,
+      "epoch": 0.3786149162861492,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.478749016832066e-06,
+      "loss": 1.68787537,
+      "memory(GiB)": 111.15,
+      "step": 14925,
+      "train_speed(iter/s)": 0.448829
+    },
+    {
+      "acc": 0.65183778,
+      "epoch": 0.37874175545408423,
+      "grad_norm": 4.5625,
+      "learning_rate": 9.478282743732613e-06,
+      "loss": 1.60239487,
+      "memory(GiB)": 111.15,
+      "step": 14930,
+      "train_speed(iter/s)": 0.448907
+    },
+    {
+      "acc": 0.64813204,
+      "epoch": 0.3788685946220193,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.477816273658293e-06,
+      "loss": 1.64867096,
+      "memory(GiB)": 111.15,
+      "step": 14935,
+      "train_speed(iter/s)": 0.448987
+    },
+    {
+      "acc": 0.64645214,
+      "epoch": 0.3789954337899543,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.47734960662962e-06,
+      "loss": 1.7227047,
+      "memory(GiB)": 111.15,
+      "step": 14940,
+      "train_speed(iter/s)": 0.449065
+    },
+    {
+      "acc": 0.64930363,
+      "epoch": 0.3791222729578894,
+      "grad_norm": 4.5625,
+      "learning_rate": 9.476882742667122e-06,
+      "loss": 1.61137047,
+      "memory(GiB)": 111.15,
+      "step": 14945,
+      "train_speed(iter/s)": 0.449145
+    },
+    {
+      "acc": 0.64239426,
+      "epoch": 0.37924911212582446,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.476415681791333e-06,
+      "loss": 1.6158699,
+      "memory(GiB)": 111.15,
+      "step": 14950,
+      "train_speed(iter/s)": 0.449224
+    },
+    {
+      "acc": 0.64700909,
+      "epoch": 0.3793759512937595,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.475948424022798e-06,
+      "loss": 1.63355522,
+      "memory(GiB)": 111.15,
+      "step": 14955,
+      "train_speed(iter/s)": 0.449304
+    },
+    {
+      "acc": 0.66545525,
+      "epoch": 0.37950279046169455,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.475480969382065e-06,
+      "loss": 1.59146023,
+      "memory(GiB)": 111.15,
+      "step": 14960,
+      "train_speed(iter/s)": 0.449382
+    },
+    {
+      "acc": 0.64744444,
+      "epoch": 0.37962962962962965,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.475013317889699e-06,
+      "loss": 1.62458935,
+      "memory(GiB)": 111.15,
+      "step": 14965,
+      "train_speed(iter/s)": 0.449462
+    },
+    {
+      "acc": 0.64174986,
+      "epoch": 0.3797564687975647,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.474545469566267e-06,
+      "loss": 1.6196907,
+      "memory(GiB)": 111.15,
+      "step": 14970,
+      "train_speed(iter/s)": 0.449542
+    },
+    {
+      "acc": 0.63776031,
+      "epoch": 0.37988330796549974,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.474077424432348e-06,
+      "loss": 1.6416954,
+      "memory(GiB)": 111.15,
+      "step": 14975,
+      "train_speed(iter/s)": 0.449621
+    },
+    {
+      "acc": 0.64091244,
+      "epoch": 0.3800101471334348,
+      "grad_norm": 5.71875,
+      "learning_rate": 9.47360918250853e-06,
+      "loss": 1.6896759,
+      "memory(GiB)": 111.15,
+      "step": 14980,
+      "train_speed(iter/s)": 0.449625
+    },
+    {
+      "acc": 0.64674959,
+      "epoch": 0.3801369863013699,
+      "grad_norm": 6.375,
+      "learning_rate": 9.473140743815405e-06,
+      "loss": 1.72840748,
+      "memory(GiB)": 111.15,
+      "step": 14985,
+      "train_speed(iter/s)": 0.449705
+    },
+    {
+      "acc": 0.66726432,
+      "epoch": 0.38026382546930493,
+      "grad_norm": 4.875,
+      "learning_rate": 9.47267210837358e-06,
+      "loss": 1.59296646,
+      "memory(GiB)": 111.15,
+      "step": 14990,
+      "train_speed(iter/s)": 0.449784
+    },
+    {
+      "acc": 0.65054026,
+      "epoch": 0.38039066463724,
+      "grad_norm": 5.875,
+      "learning_rate": 9.472203276203667e-06,
+      "loss": 1.65335712,
+      "memory(GiB)": 111.15,
+      "step": 14995,
+      "train_speed(iter/s)": 0.449863
+    },
+    {
+      "acc": 0.64996519,
+      "epoch": 0.380517503805175,
+      "grad_norm": 4.875,
+      "learning_rate": 9.471734247326284e-06,
+      "loss": 1.67458668,
+      "memory(GiB)": 111.15,
+      "step": 15000,
+      "train_speed(iter/s)": 0.449942
+    },
+    {
+      "epoch": 0.380517503805175,
+      "eval_acc": 0.6394764205864033,
+      "eval_loss": 1.629930019378662,
+      "eval_runtime": 114.205,
+      "eval_samples_per_second": 55.777,
+      "eval_steps_per_second": 27.888,
+      "step": 15000
+    },
+    {
+      "acc": 0.65467911,
+      "epoch": 0.3806443429731101,
+      "grad_norm": 5.75,
+      "learning_rate": 9.471265021762067e-06,
+      "loss": 1.65644875,
+      "memory(GiB)": 111.15,
+      "step": 15005,
+      "train_speed(iter/s)": 0.448423
+    },
+    {
+      "acc": 0.6757957,
+      "epoch": 0.38077118214104516,
+      "grad_norm": 5.625,
+      "learning_rate": 9.47079559953165e-06,
+      "loss": 1.51892376,
+      "memory(GiB)": 111.15,
+      "step": 15010,
+      "train_speed(iter/s)": 0.448502
+    },
+    {
+      "acc": 0.62558093,
+      "epoch": 0.3808980213089802,
+      "grad_norm": 5.8125,
+      "learning_rate": 9.470325980655683e-06,
+      "loss": 1.69560833,
+      "memory(GiB)": 111.15,
+      "step": 15015,
+      "train_speed(iter/s)": 0.448581
+    },
+    {
+      "acc": 0.6407486,
+      "epoch": 0.38102486047691525,
+      "grad_norm": 7.78125,
+      "learning_rate": 9.46985616515482e-06,
+      "loss": 1.69873848,
+      "memory(GiB)": 111.15,
+      "step": 15020,
+      "train_speed(iter/s)": 0.44866
+    },
+    {
+      "acc": 0.64284592,
+      "epoch": 0.38115169964485035,
+      "grad_norm": 5.78125,
+      "learning_rate": 9.469386153049727e-06,
+      "loss": 1.64029083,
+      "memory(GiB)": 111.15,
+      "step": 15025,
+      "train_speed(iter/s)": 0.448739
+    },
+    {
+      "acc": 0.64997482,
+      "epoch": 0.3812785388127854,
+      "grad_norm": 5.6875,
+      "learning_rate": 9.468915944361076e-06,
+      "loss": 1.57378559,
+      "memory(GiB)": 111.15,
+      "step": 15030,
+      "train_speed(iter/s)": 0.448818
+    },
+    {
+      "acc": 0.65559368,
+      "epoch": 0.38140537798072044,
+      "grad_norm": 4.375,
+      "learning_rate": 9.468445539109551e-06,
+      "loss": 1.65336628,
+      "memory(GiB)": 111.15,
+      "step": 15035,
+      "train_speed(iter/s)": 0.448897
+    },
+    {
+      "acc": 0.6344059,
+      "epoch": 0.3815322171486555,
+      "grad_norm": 5.5,
+      "learning_rate": 9.46797493731584e-06,
+      "loss": 1.72369843,
+      "memory(GiB)": 111.15,
+      "step": 15040,
+      "train_speed(iter/s)": 0.448976
+    },
+    {
+      "acc": 0.65586414,
+      "epoch": 0.3816590563165906,
+      "grad_norm": 4.6875,
+      "learning_rate": 9.467504139000642e-06,
+      "loss": 1.63554211,
+      "memory(GiB)": 111.15,
+      "step": 15045,
+      "train_speed(iter/s)": 0.449055
+    },
+    {
+      "acc": 0.64697371,
+      "epoch": 0.38178589548452563,
+      "grad_norm": 4.625,
+      "learning_rate": 9.467033144184667e-06,
+      "loss": 1.68755455,
+      "memory(GiB)": 111.15,
+      "step": 15050,
+      "train_speed(iter/s)": 0.449134
+    },
+    {
+      "acc": 0.65605583,
+      "epoch": 0.3819127346524607,
+      "grad_norm": 5.75,
+      "learning_rate": 9.466561952888632e-06,
+      "loss": 1.64963093,
+      "memory(GiB)": 111.15,
+      "step": 15055,
+      "train_speed(iter/s)": 0.449212
+    },
+    {
+      "acc": 0.64498358,
+      "epoch": 0.3820395738203957,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.466090565133259e-06,
+      "loss": 1.64929657,
+      "memory(GiB)": 111.15,
+      "step": 15060,
+      "train_speed(iter/s)": 0.449291
+    },
+    {
+      "acc": 0.65483985,
+      "epoch": 0.3821664129883308,
+      "grad_norm": 4.59375,
+      "learning_rate": 9.465618980939284e-06,
+      "loss": 1.63532448,
+      "memory(GiB)": 111.15,
+      "step": 15065,
+      "train_speed(iter/s)": 0.44937
+    },
+    {
+      "acc": 0.65672026,
+      "epoch": 0.38229325215626586,
+      "grad_norm": 5.125,
+      "learning_rate": 9.465147200327446e-06,
+      "loss": 1.67566223,
+      "memory(GiB)": 111.15,
+      "step": 15070,
+      "train_speed(iter/s)": 0.449448
+    },
+    {
+      "acc": 0.64983163,
+      "epoch": 0.3824200913242009,
+      "grad_norm": 5.96875,
+      "learning_rate": 9.464675223318503e-06,
+      "loss": 1.59508696,
+      "memory(GiB)": 111.15,
+      "step": 15075,
+      "train_speed(iter/s)": 0.449527
+    },
+    {
+      "acc": 0.66478987,
+      "epoch": 0.38254693049213595,
+      "grad_norm": 5.84375,
+      "learning_rate": 9.464203049933207e-06,
+      "loss": 1.60530891,
+      "memory(GiB)": 111.15,
+      "step": 15080,
+      "train_speed(iter/s)": 0.449605
+    },
+    {
+      "acc": 0.67865434,
+      "epoch": 0.38267376966007105,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.463730680192332e-06,
+      "loss": 1.57984028,
+      "memory(GiB)": 111.15,
+      "step": 15085,
+      "train_speed(iter/s)": 0.449684
+    },
+    {
+      "acc": 0.64460173,
+      "epoch": 0.3828006088280061,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.46325811411665e-06,
+      "loss": 1.70267296,
+      "memory(GiB)": 111.15,
+      "step": 15090,
+      "train_speed(iter/s)": 0.449763
+    },
+    {
+      "acc": 0.65097761,
+      "epoch": 0.38292744799594114,
+      "grad_norm": 6.25,
+      "learning_rate": 9.462785351726951e-06,
+      "loss": 1.63867168,
+      "memory(GiB)": 111.15,
+      "step": 15095,
+      "train_speed(iter/s)": 0.449841
+    },
+    {
+      "acc": 0.65100784,
+      "epoch": 0.3830542871638762,
+      "grad_norm": 5.125,
+      "learning_rate": 9.462312393044027e-06,
+      "loss": 1.63593254,
+      "memory(GiB)": 111.15,
+      "step": 15100,
+      "train_speed(iter/s)": 0.449919
+    },
+    {
+      "epoch": 0.3830542871638762,
+      "eval_acc": 0.639693659587321,
+      "eval_loss": 1.6291992664337158,
+      "eval_runtime": 113.0649,
+      "eval_samples_per_second": 56.339,
+      "eval_steps_per_second": 28.17,
+      "step": 15100
+    },
+    {
+      "acc": 0.66500111,
+      "epoch": 0.3831811263318113,
+      "grad_norm": 5.25,
+      "learning_rate": 9.46183923808868e-06,
+      "loss": 1.61016483,
+      "memory(GiB)": 111.15,
+      "step": 15105,
+      "train_speed(iter/s)": 0.448427
+    },
+    {
+      "acc": 0.65316582,
+      "epoch": 0.38330796549974633,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.461365886881724e-06,
+      "loss": 1.66185608,
+      "memory(GiB)": 111.15,
+      "step": 15110,
+      "train_speed(iter/s)": 0.448427
+    },
+    {
+      "acc": 0.65410786,
+      "epoch": 0.3834348046676814,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.460892339443977e-06,
+      "loss": 1.69379997,
+      "memory(GiB)": 111.15,
+      "step": 15115,
+      "train_speed(iter/s)": 0.448506
+    },
+    {
+      "acc": 0.64868379,
+      "epoch": 0.3835616438356164,
+      "grad_norm": 6.34375,
+      "learning_rate": 9.460418595796268e-06,
+      "loss": 1.60279846,
+      "memory(GiB)": 111.15,
+      "step": 15120,
+      "train_speed(iter/s)": 0.448585
+    },
+    {
+      "acc": 0.6314846,
+      "epoch": 0.3836884830035515,
+      "grad_norm": 4.59375,
+      "learning_rate": 9.459944655959437e-06,
+      "loss": 1.68295822,
+      "memory(GiB)": 111.15,
+      "step": 15125,
+      "train_speed(iter/s)": 0.448663
+    },
+    {
+      "acc": 0.65969458,
+      "epoch": 0.38381532217148656,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.459470519954325e-06,
+      "loss": 1.57525578,
+      "memory(GiB)": 111.15,
+      "step": 15130,
+      "train_speed(iter/s)": 0.448742
+    },
+    {
+      "acc": 0.6498271,
+      "epoch": 0.3839421613394216,
+      "grad_norm": 5.9375,
+      "learning_rate": 9.458996187801791e-06,
+      "loss": 1.62640457,
+      "memory(GiB)": 111.15,
+      "step": 15135,
+      "train_speed(iter/s)": 0.448821
+    },
+    {
+      "acc": 0.63278399,
+      "epoch": 0.38406900050735665,
+      "grad_norm": 5.625,
+      "learning_rate": 9.458521659522697e-06,
+      "loss": 1.70377178,
+      "memory(GiB)": 111.15,
+      "step": 15140,
+      "train_speed(iter/s)": 0.448899
+    },
+    {
+      "acc": 0.63956375,
+      "epoch": 0.38419583967529175,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.458046935137913e-06,
+      "loss": 1.71881905,
+      "memory(GiB)": 111.15,
+      "step": 15145,
+      "train_speed(iter/s)": 0.448978
+    },
+    {
+      "acc": 0.65624151,
+      "epoch": 0.3843226788432268,
+      "grad_norm": 5.25,
+      "learning_rate": 9.457572014668323e-06,
+      "loss": 1.64339256,
+      "memory(GiB)": 111.15,
+      "step": 15150,
+      "train_speed(iter/s)": 0.449057
+    },
+    {
+      "acc": 0.6456933,
+      "epoch": 0.38444951801116184,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.457096898134813e-06,
+      "loss": 1.62951183,
+      "memory(GiB)": 111.15,
+      "step": 15155,
+      "train_speed(iter/s)": 0.449136
+    },
+    {
+      "acc": 0.65966244,
+      "epoch": 0.3845763571790969,
+      "grad_norm": 6.90625,
+      "learning_rate": 9.45662158555828e-06,
+      "loss": 1.65218697,
+      "memory(GiB)": 111.15,
+      "step": 15160,
+      "train_speed(iter/s)": 0.449215
+    },
+    {
+      "acc": 0.6442337,
+      "epoch": 0.384703196347032,
+      "grad_norm": 7.4375,
+      "learning_rate": 9.456146076959636e-06,
+      "loss": 1.65164452,
+      "memory(GiB)": 111.15,
+      "step": 15165,
+      "train_speed(iter/s)": 0.449294
+    },
+    {
+      "acc": 0.65274773,
+      "epoch": 0.38483003551496703,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.455670372359791e-06,
+      "loss": 1.68195763,
+      "memory(GiB)": 111.15,
+      "step": 15170,
+      "train_speed(iter/s)": 0.449373
+    },
+    {
+      "acc": 0.63407898,
+      "epoch": 0.3849568746829021,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.45519447177967e-06,
+      "loss": 1.67016945,
+      "memory(GiB)": 111.15,
+      "step": 15175,
+      "train_speed(iter/s)": 0.449451
+    },
+    {
+      "acc": 0.6460537,
+      "epoch": 0.3850837138508371,
+      "grad_norm": 5.375,
+      "learning_rate": 9.454718375240204e-06,
+      "loss": 1.70183525,
+      "memory(GiB)": 111.15,
+      "step": 15180,
+      "train_speed(iter/s)": 0.44953
+    },
+    {
+      "acc": 0.65817518,
+      "epoch": 0.3852105530187722,
+      "grad_norm": 6.53125,
+      "learning_rate": 9.454242082762336e-06,
+      "loss": 1.60628033,
+      "memory(GiB)": 111.15,
+      "step": 15185,
+      "train_speed(iter/s)": 0.449609
+    },
+    {
+      "acc": 0.65647864,
+      "epoch": 0.38533739218670726,
+      "grad_norm": 6.90625,
+      "learning_rate": 9.453765594367014e-06,
+      "loss": 1.65025444,
+      "memory(GiB)": 111.15,
+      "step": 15190,
+      "train_speed(iter/s)": 0.449687
+    },
+    {
+      "acc": 0.65487814,
+      "epoch": 0.3854642313546423,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.453288910075196e-06,
+      "loss": 1.62743378,
+      "memory(GiB)": 111.15,
+      "step": 15195,
+      "train_speed(iter/s)": 0.449766
+    },
+    {
+      "acc": 0.64754405,
+      "epoch": 0.38559107052257735,
+      "grad_norm": 6.375,
+      "learning_rate": 9.452812029907849e-06,
+      "loss": 1.65987091,
+      "memory(GiB)": 111.15,
+      "step": 15200,
+      "train_speed(iter/s)": 0.449845
+    },
+    {
+      "epoch": 0.38559107052257735,
+      "eval_acc": 0.6397020149335102,
+      "eval_loss": 1.6289994716644287,
+      "eval_runtime": 112.6041,
+      "eval_samples_per_second": 56.57,
+      "eval_steps_per_second": 28.285,
+      "step": 15200
+    },
+    {
+      "acc": 0.63997431,
+      "epoch": 0.38571790969051245,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.452334953885951e-06,
+      "loss": 1.65040684,
+      "memory(GiB)": 111.15,
+      "step": 15205,
+      "train_speed(iter/s)": 0.448369
+    },
+    {
+      "acc": 0.64217138,
+      "epoch": 0.3858447488584475,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.451857682030481e-06,
+      "loss": 1.69071159,
+      "memory(GiB)": 111.15,
+      "step": 15210,
+      "train_speed(iter/s)": 0.448448
+    },
+    {
+      "acc": 0.66231194,
+      "epoch": 0.38597158802638254,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.451380214362436e-06,
+      "loss": 1.62620201,
+      "memory(GiB)": 111.15,
+      "step": 15215,
+      "train_speed(iter/s)": 0.448526
+    },
+    {
+      "acc": 0.65221553,
+      "epoch": 0.3860984271943176,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.450902550902814e-06,
+      "loss": 1.62973309,
+      "memory(GiB)": 111.15,
+      "step": 15220,
+      "train_speed(iter/s)": 0.448604
+    },
+    {
+      "acc": 0.63812065,
+      "epoch": 0.3862252663622527,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.450424691672626e-06,
+      "loss": 1.70745049,
+      "memory(GiB)": 111.15,
+      "step": 15225,
+      "train_speed(iter/s)": 0.448682
+    },
+    {
+      "acc": 0.6533679,
+      "epoch": 0.38635210553018773,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.449946636692891e-06,
+      "loss": 1.61814213,
+      "memory(GiB)": 111.15,
+      "step": 15230,
+      "train_speed(iter/s)": 0.448759
+    },
+    {
+      "acc": 0.64956169,
+      "epoch": 0.3864789446981228,
+      "grad_norm": 5.78125,
+      "learning_rate": 9.449468385984634e-06,
+      "loss": 1.6199892,
+      "memory(GiB)": 111.15,
+      "step": 15235,
+      "train_speed(iter/s)": 0.448838
+    },
+    {
+      "acc": 0.65661983,
+      "epoch": 0.3866057838660578,
+      "grad_norm": 6.03125,
+      "learning_rate": 9.448989939568892e-06,
+      "loss": 1.65606689,
+      "memory(GiB)": 111.15,
+      "step": 15240,
+      "train_speed(iter/s)": 0.448916
+    },
+    {
+      "acc": 0.62977877,
+      "epoch": 0.3867326230339929,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.448511297466708e-06,
+      "loss": 1.70530624,
+      "memory(GiB)": 111.15,
+      "step": 15245,
+      "train_speed(iter/s)": 0.448994
+    },
+    {
+      "acc": 0.64273548,
+      "epoch": 0.38685946220192796,
+      "grad_norm": 5.125,
+      "learning_rate": 9.448032459699139e-06,
+      "loss": 1.64327698,
+      "memory(GiB)": 111.15,
+      "step": 15250,
+      "train_speed(iter/s)": 0.449072
+    },
+    {
+      "acc": 0.63000369,
+      "epoch": 0.386986301369863,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.447553426287244e-06,
+      "loss": 1.73388176,
+      "memory(GiB)": 111.15,
+      "step": 15255,
+      "train_speed(iter/s)": 0.44915
+    },
+    {
+      "acc": 0.64731398,
+      "epoch": 0.38711314053779805,
+      "grad_norm": 4.75,
+      "learning_rate": 9.44707419725209e-06,
+      "loss": 1.63816948,
+      "memory(GiB)": 111.15,
+      "step": 15260,
+      "train_speed(iter/s)": 0.449229
+    },
+    {
+      "acc": 0.63824806,
+      "epoch": 0.38723997970573315,
+      "grad_norm": 5.375,
+      "learning_rate": 9.446594772614759e-06,
+      "loss": 1.69819431,
+      "memory(GiB)": 111.15,
+      "step": 15265,
+      "train_speed(iter/s)": 0.449306
+    },
+    {
+      "acc": 0.64304609,
+      "epoch": 0.3873668188736682,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.446115152396335e-06,
+      "loss": 1.61759911,
+      "memory(GiB)": 111.15,
+      "step": 15270,
+      "train_speed(iter/s)": 0.449384
+    },
+    {
+      "acc": 0.66238666,
+      "epoch": 0.38749365804160324,
+      "grad_norm": 6.0625,
+      "learning_rate": 9.445635336617919e-06,
+      "loss": 1.56813908,
+      "memory(GiB)": 111.15,
+      "step": 15275,
+      "train_speed(iter/s)": 0.449462
+    },
+    {
+      "acc": 0.64201412,
+      "epoch": 0.3876204972095383,
+      "grad_norm": 4.09375,
+      "learning_rate": 9.445155325300612e-06,
+      "loss": 1.68102913,
+      "memory(GiB)": 111.15,
+      "step": 15280,
+      "train_speed(iter/s)": 0.44954
+    },
+    {
+      "acc": 0.65047398,
+      "epoch": 0.3877473363774734,
+      "grad_norm": 5.5,
+      "learning_rate": 9.444675118465528e-06,
+      "loss": 1.65923939,
+      "memory(GiB)": 111.15,
+      "step": 15285,
+      "train_speed(iter/s)": 0.449617
+    },
+    {
+      "acc": 0.64145823,
+      "epoch": 0.38787417554540843,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.444194716133785e-06,
+      "loss": 1.7031292,
+      "memory(GiB)": 111.15,
+      "step": 15290,
+      "train_speed(iter/s)": 0.449695
+    },
+    {
+      "acc": 0.65741835,
+      "epoch": 0.3880010147133435,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.44371411832652e-06,
+      "loss": 1.57439222,
+      "memory(GiB)": 111.15,
+      "step": 15295,
+      "train_speed(iter/s)": 0.449773
+    },
+    {
+      "acc": 0.63437672,
+      "epoch": 0.3881278538812785,
+      "grad_norm": 5.25,
+      "learning_rate": 9.443233325064867e-06,
+      "loss": 1.70402832,
+      "memory(GiB)": 111.15,
+      "step": 15300,
+      "train_speed(iter/s)": 0.449851
+    },
+    {
+      "epoch": 0.3881278538812785,
+      "eval_acc": 0.6397149657201034,
+      "eval_loss": 1.6287158727645874,
+      "eval_runtime": 112.032,
+      "eval_samples_per_second": 56.859,
+      "eval_steps_per_second": 28.429,
+      "step": 15300
+    },
+    {
+      "acc": 0.64509773,
+      "epoch": 0.3882546930492136,
+      "grad_norm": 4.75,
+      "learning_rate": 9.442752336369976e-06,
+      "loss": 1.61056633,
+      "memory(GiB)": 111.15,
+      "step": 15305,
+      "train_speed(iter/s)": 0.448391
+    },
+    {
+      "acc": 0.66699753,
+      "epoch": 0.38838153221714866,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.442271152263e-06,
+      "loss": 1.55269375,
+      "memory(GiB)": 111.15,
+      "step": 15310,
+      "train_speed(iter/s)": 0.448467
+    },
+    {
+      "acc": 0.64906425,
+      "epoch": 0.3885083713850837,
+      "grad_norm": 4.6875,
+      "learning_rate": 9.441789772765107e-06,
+      "loss": 1.65491867,
+      "memory(GiB)": 111.15,
+      "step": 15315,
+      "train_speed(iter/s)": 0.448544
+    },
+    {
+      "acc": 0.64233923,
+      "epoch": 0.38863521055301875,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.441308197897467e-06,
+      "loss": 1.66000843,
+      "memory(GiB)": 111.15,
+      "step": 15320,
+      "train_speed(iter/s)": 0.448621
+    },
+    {
+      "acc": 0.66120858,
+      "epoch": 0.38876204972095385,
+      "grad_norm": 5.6875,
+      "learning_rate": 9.440826427681264e-06,
+      "loss": 1.70942841,
+      "memory(GiB)": 111.15,
+      "step": 15325,
+      "train_speed(iter/s)": 0.448698
+    },
+    {
+      "acc": 0.64997606,
+      "epoch": 0.3888888888888889,
+      "grad_norm": 6.21875,
+      "learning_rate": 9.44034446213769e-06,
+      "loss": 1.65782032,
+      "memory(GiB)": 111.15,
+      "step": 15330,
+      "train_speed(iter/s)": 0.448775
+    },
+    {
+      "acc": 0.64528971,
+      "epoch": 0.38901572805682394,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.439862301287939e-06,
+      "loss": 1.63670292,
+      "memory(GiB)": 111.15,
+      "step": 15335,
+      "train_speed(iter/s)": 0.448851
+    },
+    {
+      "acc": 0.64188776,
+      "epoch": 0.389142567224759,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.439379945153223e-06,
+      "loss": 1.71291142,
+      "memory(GiB)": 111.15,
+      "step": 15340,
+      "train_speed(iter/s)": 0.448929
+    },
+    {
+      "acc": 0.66085248,
+      "epoch": 0.3892694063926941,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.438897393754755e-06,
+      "loss": 1.58937817,
+      "memory(GiB)": 111.15,
+      "step": 15345,
+      "train_speed(iter/s)": 0.449007
+    },
+    {
+      "acc": 0.65259256,
+      "epoch": 0.38939624556062913,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.438414647113762e-06,
+      "loss": 1.65180779,
+      "memory(GiB)": 111.15,
+      "step": 15350,
+      "train_speed(iter/s)": 0.449083
+    },
+    {
+      "acc": 0.64670777,
+      "epoch": 0.3895230847285642,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.437931705251478e-06,
+      "loss": 1.65523129,
+      "memory(GiB)": 111.15,
+      "step": 15355,
+      "train_speed(iter/s)": 0.44916
+    },
+    {
+      "acc": 0.64699469,
+      "epoch": 0.3896499238964992,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.437448568189142e-06,
+      "loss": 1.60090027,
+      "memory(GiB)": 111.15,
+      "step": 15360,
+      "train_speed(iter/s)": 0.449237
+    },
+    {
+      "acc": 0.65053358,
+      "epoch": 0.3897767630644343,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.436965235948008e-06,
+      "loss": 1.58004894,
+      "memory(GiB)": 111.15,
+      "step": 15365,
+      "train_speed(iter/s)": 0.449314
+    },
+    {
+      "acc": 0.65488625,
+      "epoch": 0.38990360223236936,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.436481708549332e-06,
+      "loss": 1.6598877,
+      "memory(GiB)": 111.15,
+      "step": 15370,
+      "train_speed(iter/s)": 0.449391
+    },
+    {
+      "acc": 0.64302225,
+      "epoch": 0.3900304414003044,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.435997986014382e-06,
+      "loss": 1.70952606,
+      "memory(GiB)": 111.15,
+      "step": 15375,
+      "train_speed(iter/s)": 0.449468
+    },
+    {
+      "acc": 0.63212361,
+      "epoch": 0.39015728056823945,
+      "grad_norm": 5.375,
+      "learning_rate": 9.435514068364437e-06,
+      "loss": 1.76018486,
+      "memory(GiB)": 111.15,
+      "step": 15380,
+      "train_speed(iter/s)": 0.449545
+    },
+    {
+      "acc": 0.65054703,
+      "epoch": 0.39028411973617455,
+      "grad_norm": 5.25,
+      "learning_rate": 9.43502995562078e-06,
+      "loss": 1.64097748,
+      "memory(GiB)": 111.15,
+      "step": 15385,
+      "train_speed(iter/s)": 0.44962
+    },
+    {
+      "acc": 0.64780569,
+      "epoch": 0.3904109589041096,
+      "grad_norm": 6.625,
+      "learning_rate": 9.434545647804703e-06,
+      "loss": 1.67113419,
+      "memory(GiB)": 111.15,
+      "step": 15390,
+      "train_speed(iter/s)": 0.449697
+    },
+    {
+      "acc": 0.65801506,
+      "epoch": 0.39053779807204464,
+      "grad_norm": 5.6875,
+      "learning_rate": 9.434061144937512e-06,
+      "loss": 1.61923561,
+      "memory(GiB)": 111.15,
+      "step": 15395,
+      "train_speed(iter/s)": 0.449774
+    },
+    {
+      "acc": 0.65816479,
+      "epoch": 0.3906646372399797,
+      "grad_norm": 5.625,
+      "learning_rate": 9.433576447040513e-06,
+      "loss": 1.59084454,
+      "memory(GiB)": 111.15,
+      "step": 15400,
+      "train_speed(iter/s)": 0.44985
+    },
+    {
+      "epoch": 0.3906646372399797,
+      "eval_acc": 0.6397124591162466,
+      "eval_loss": 1.62845778465271,
+      "eval_runtime": 113.8332,
+      "eval_samples_per_second": 55.959,
+      "eval_steps_per_second": 27.98,
+      "step": 15400
+    },
+    {
+      "acc": 0.65243464,
+      "epoch": 0.3907914764079148,
+      "grad_norm": 4.75,
+      "learning_rate": 9.433091554135029e-06,
+      "loss": 1.67814903,
+      "memory(GiB)": 111.15,
+      "step": 15405,
+      "train_speed(iter/s)": 0.448377
+    },
+    {
+      "acc": 0.64383297,
+      "epoch": 0.39091831557584983,
+      "grad_norm": 5.625,
+      "learning_rate": 9.432606466242384e-06,
+      "loss": 1.68169594,
+      "memory(GiB)": 111.15,
+      "step": 15410,
+      "train_speed(iter/s)": 0.448453
+    },
+    {
+      "acc": 0.64857321,
+      "epoch": 0.3910451547437849,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.43212118338392e-06,
+      "loss": 1.62442493,
+      "memory(GiB)": 111.15,
+      "step": 15415,
+      "train_speed(iter/s)": 0.44853
+    },
+    {
+      "acc": 0.64737511,
+      "epoch": 0.3911719939117199,
+      "grad_norm": 4.875,
+      "learning_rate": 9.431635705580975e-06,
+      "loss": 1.6328764,
+      "memory(GiB)": 111.15,
+      "step": 15420,
+      "train_speed(iter/s)": 0.448606
+    },
+    {
+      "acc": 0.64507885,
+      "epoch": 0.391298833079655,
+      "grad_norm": 5.875,
+      "learning_rate": 9.431150032854907e-06,
+      "loss": 1.64898911,
+      "memory(GiB)": 111.15,
+      "step": 15425,
+      "train_speed(iter/s)": 0.448683
+    },
+    {
+      "acc": 0.64797716,
+      "epoch": 0.39142567224759006,
+      "grad_norm": 5.71875,
+      "learning_rate": 9.430664165227077e-06,
+      "loss": 1.58477478,
+      "memory(GiB)": 111.15,
+      "step": 15430,
+      "train_speed(iter/s)": 0.448759
+    },
+    {
+      "acc": 0.65512757,
+      "epoch": 0.3915525114155251,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.430178102718857e-06,
+      "loss": 1.65286331,
+      "memory(GiB)": 111.15,
+      "step": 15435,
+      "train_speed(iter/s)": 0.448836
+    },
+    {
+      "acc": 0.65792456,
+      "epoch": 0.39167935058346015,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.429691845351623e-06,
+      "loss": 1.60286751,
+      "memory(GiB)": 111.15,
+      "step": 15440,
+      "train_speed(iter/s)": 0.448912
+    },
+    {
+      "acc": 0.64617133,
+      "epoch": 0.39180618975139525,
+      "grad_norm": 5.125,
+      "learning_rate": 9.429205393146763e-06,
+      "loss": 1.59066696,
+      "memory(GiB)": 111.15,
+      "step": 15445,
+      "train_speed(iter/s)": 0.448989
+    },
+    {
+      "acc": 0.63782969,
+      "epoch": 0.3919330289193303,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.428718746125678e-06,
+      "loss": 1.69889832,
+      "memory(GiB)": 111.15,
+      "step": 15450,
+      "train_speed(iter/s)": 0.449066
+    },
+    {
+      "acc": 0.65231819,
+      "epoch": 0.39205986808726534,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.428231904309768e-06,
+      "loss": 1.67045956,
+      "memory(GiB)": 111.15,
+      "step": 15455,
+      "train_speed(iter/s)": 0.449142
+    },
+    {
+      "acc": 0.63913121,
+      "epoch": 0.3921867072552004,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.427744867720448e-06,
+      "loss": 1.70090332,
+      "memory(GiB)": 111.15,
+      "step": 15460,
+      "train_speed(iter/s)": 0.449219
+    },
+    {
+      "acc": 0.6478672,
+      "epoch": 0.3923135464231355,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.42725763637914e-06,
+      "loss": 1.65929279,
+      "memory(GiB)": 111.15,
+      "step": 15465,
+      "train_speed(iter/s)": 0.449295
+    },
+    {
+      "acc": 0.65675707,
+      "epoch": 0.39244038559107053,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.426770210307277e-06,
+      "loss": 1.6144619,
+      "memory(GiB)": 111.15,
+      "step": 15470,
+      "train_speed(iter/s)": 0.449372
+    },
+    {
+      "acc": 0.63946505,
+      "epoch": 0.3925672247590056,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.426282589526294e-06,
+      "loss": 1.67030449,
+      "memory(GiB)": 111.15,
+      "step": 15475,
+      "train_speed(iter/s)": 0.449449
+    },
+    {
+      "acc": 0.65694008,
+      "epoch": 0.3926940639269406,
+      "grad_norm": 4.5625,
+      "learning_rate": 9.425794774057641e-06,
+      "loss": 1.58313389,
+      "memory(GiB)": 111.15,
+      "step": 15480,
+      "train_speed(iter/s)": 0.449525
+    },
+    {
+      "acc": 0.65447054,
+      "epoch": 0.3928209030948757,
+      "grad_norm": 4.875,
+      "learning_rate": 9.425306763922775e-06,
+      "loss": 1.61988182,
+      "memory(GiB)": 111.15,
+      "step": 15485,
+      "train_speed(iter/s)": 0.449601
+    },
+    {
+      "acc": 0.6263772,
+      "epoch": 0.39294774226281076,
+      "grad_norm": 5.84375,
+      "learning_rate": 9.42481855914316e-06,
+      "loss": 1.70543098,
+      "memory(GiB)": 111.15,
+      "step": 15490,
+      "train_speed(iter/s)": 0.449677
+    },
+    {
+      "acc": 0.63312292,
+      "epoch": 0.3930745814307458,
+      "grad_norm": 5.6875,
+      "learning_rate": 9.424330159740269e-06,
+      "loss": 1.650597,
+      "memory(GiB)": 111.15,
+      "step": 15495,
+      "train_speed(iter/s)": 0.449754
+    },
+    {
+      "acc": 0.6612793,
+      "epoch": 0.39320142059868085,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.423841565735582e-06,
+      "loss": 1.56348343,
+      "memory(GiB)": 111.15,
+      "step": 15500,
+      "train_speed(iter/s)": 0.449828
+    },
+    {
+      "epoch": 0.39320142059868085,
+      "eval_acc": 0.639915494028643,
+      "eval_loss": 1.6281678676605225,
+      "eval_runtime": 113.8609,
+      "eval_samples_per_second": 55.945,
+      "eval_steps_per_second": 27.973,
+      "step": 15500
+    },
+    {
+      "acc": 0.64893351,
+      "epoch": 0.39332825976661595,
+      "grad_norm": 5.25,
+      "learning_rate": 9.423352777150597e-06,
+      "loss": 1.70626698,
+      "memory(GiB)": 111.15,
+      "step": 15505,
+      "train_speed(iter/s)": 0.448365
+    },
+    {
+      "acc": 0.65988979,
+      "epoch": 0.393455098934551,
+      "grad_norm": 6.0625,
+      "learning_rate": 9.422863794006804e-06,
+      "loss": 1.63095131,
+      "memory(GiB)": 111.15,
+      "step": 15510,
+      "train_speed(iter/s)": 0.448442
+    },
+    {
+      "acc": 0.63694048,
+      "epoch": 0.39358193810248604,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.422374616325716e-06,
+      "loss": 1.67222519,
+      "memory(GiB)": 111.15,
+      "step": 15515,
+      "train_speed(iter/s)": 0.448518
+    },
+    {
+      "acc": 0.64123092,
+      "epoch": 0.3937087772704211,
+      "grad_norm": 5.71875,
+      "learning_rate": 9.421885244128847e-06,
+      "loss": 1.65485954,
+      "memory(GiB)": 111.15,
+      "step": 15520,
+      "train_speed(iter/s)": 0.448594
+    },
+    {
+      "acc": 0.64949789,
+      "epoch": 0.3938356164383562,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.421395677437724e-06,
+      "loss": 1.62031002,
+      "memory(GiB)": 111.15,
+      "step": 15525,
+      "train_speed(iter/s)": 0.448671
+    },
+    {
+      "acc": 0.66366763,
+      "epoch": 0.39396245560629123,
+      "grad_norm": 6.125,
+      "learning_rate": 9.42090591627388e-06,
+      "loss": 1.61398182,
+      "memory(GiB)": 111.15,
+      "step": 15530,
+      "train_speed(iter/s)": 0.448746
+    },
+    {
+      "acc": 0.64333267,
+      "epoch": 0.3940892947742263,
+      "grad_norm": 6.375,
+      "learning_rate": 9.420415960658853e-06,
+      "loss": 1.62337646,
+      "memory(GiB)": 111.15,
+      "step": 15535,
+      "train_speed(iter/s)": 0.448823
+    },
+    {
+      "acc": 0.64654479,
+      "epoch": 0.3942161339421613,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.419925810614196e-06,
+      "loss": 1.66029205,
+      "memory(GiB)": 111.15,
+      "step": 15540,
+      "train_speed(iter/s)": 0.448899
+    },
+    {
+      "acc": 0.63427815,
+      "epoch": 0.3943429731100964,
+      "grad_norm": 7.78125,
+      "learning_rate": 9.419435466161471e-06,
+      "loss": 1.66250477,
+      "memory(GiB)": 111.15,
+      "step": 15545,
+      "train_speed(iter/s)": 0.448976
+    },
+    {
+      "acc": 0.63966503,
+      "epoch": 0.39446981227803146,
+      "grad_norm": 5.375,
+      "learning_rate": 9.418944927322242e-06,
+      "loss": 1.7138319,
+      "memory(GiB)": 111.15,
+      "step": 15550,
+      "train_speed(iter/s)": 0.449052
+    },
+    {
+      "acc": 0.65564003,
+      "epoch": 0.3945966514459665,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.418454194118085e-06,
+      "loss": 1.61816368,
+      "memory(GiB)": 111.15,
+      "step": 15555,
+      "train_speed(iter/s)": 0.449128
+    },
+    {
+      "acc": 0.66004262,
+      "epoch": 0.39472349061390155,
+      "grad_norm": 5.375,
+      "learning_rate": 9.417963266570587e-06,
+      "loss": 1.67379761,
+      "memory(GiB)": 111.15,
+      "step": 15560,
+      "train_speed(iter/s)": 0.449203
+    },
+    {
+      "acc": 0.64733167,
+      "epoch": 0.39485032978183665,
+      "grad_norm": 4.25,
+      "learning_rate": 9.417472144701338e-06,
+      "loss": 1.62819099,
+      "memory(GiB)": 111.15,
+      "step": 15565,
+      "train_speed(iter/s)": 0.44928
+    },
+    {
+      "acc": 0.66106672,
+      "epoch": 0.3949771689497717,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.416980828531944e-06,
+      "loss": 1.56777678,
+      "memory(GiB)": 111.15,
+      "step": 15570,
+      "train_speed(iter/s)": 0.449356
+    },
+    {
+      "acc": 0.63666096,
+      "epoch": 0.39510400811770674,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.41648931808401e-06,
+      "loss": 1.69103699,
+      "memory(GiB)": 111.15,
+      "step": 15575,
+      "train_speed(iter/s)": 0.449433
+    },
+    {
+      "acc": 0.64592295,
+      "epoch": 0.3952308472856418,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.415997613379159e-06,
+      "loss": 1.62411423,
+      "memory(GiB)": 111.15,
+      "step": 15580,
+      "train_speed(iter/s)": 0.449509
+    },
+    {
+      "acc": 0.64935884,
+      "epoch": 0.3953576864535769,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.415505714439016e-06,
+      "loss": 1.63873692,
+      "memory(GiB)": 111.15,
+      "step": 15585,
+      "train_speed(iter/s)": 0.449585
+    },
+    {
+      "acc": 0.63681211,
+      "epoch": 0.39548452562151193,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.415013621285219e-06,
+      "loss": 1.66509705,
+      "memory(GiB)": 111.15,
+      "step": 15590,
+      "train_speed(iter/s)": 0.44966
+    },
+    {
+      "acc": 0.65156126,
+      "epoch": 0.395611364789447,
+      "grad_norm": 5.8125,
+      "learning_rate": 9.41452133393941e-06,
+      "loss": 1.56872368,
+      "memory(GiB)": 111.15,
+      "step": 15595,
+      "train_speed(iter/s)": 0.449737
+    },
+    {
+      "acc": 0.66403999,
+      "epoch": 0.395738203957382,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.414028852423245e-06,
+      "loss": 1.61125298,
+      "memory(GiB)": 111.15,
+      "step": 15600,
+      "train_speed(iter/s)": 0.449813
+    },
+    {
+      "epoch": 0.395738203957382,
+      "eval_acc": 0.6397838973261639,
+      "eval_loss": 1.6280382871627808,
+      "eval_runtime": 114.3398,
+      "eval_samples_per_second": 55.711,
+      "eval_steps_per_second": 27.856,
+      "step": 15600
+    },
+    {
+      "acc": 0.65908194,
+      "epoch": 0.3958650431253171,
+      "grad_norm": 7.03125,
+      "learning_rate": 9.413536176758384e-06,
+      "loss": 1.60531044,
+      "memory(GiB)": 111.15,
+      "step": 15605,
+      "train_speed(iter/s)": 0.448352
+    },
+    {
+      "acc": 0.63965044,
+      "epoch": 0.39599188229325216,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.413043306966496e-06,
+      "loss": 1.66303253,
+      "memory(GiB)": 111.15,
+      "step": 15610,
+      "train_speed(iter/s)": 0.448428
+    },
+    {
+      "acc": 0.66416321,
+      "epoch": 0.3961187214611872,
+      "grad_norm": 6.34375,
+      "learning_rate": 9.41255024306926e-06,
+      "loss": 1.58335915,
+      "memory(GiB)": 111.15,
+      "step": 15615,
+      "train_speed(iter/s)": 0.448504
+    },
+    {
+      "acc": 0.66371713,
+      "epoch": 0.39624556062912225,
+      "grad_norm": 5.78125,
+      "learning_rate": 9.412056985088364e-06,
+      "loss": 1.69100723,
+      "memory(GiB)": 111.15,
+      "step": 15620,
+      "train_speed(iter/s)": 0.448579
+    },
+    {
+      "acc": 0.64772377,
+      "epoch": 0.39637239979705735,
+      "grad_norm": 6.03125,
+      "learning_rate": 9.411563533045505e-06,
+      "loss": 1.63617744,
+      "memory(GiB)": 111.15,
+      "step": 15625,
+      "train_speed(iter/s)": 0.448655
+    },
+    {
+      "acc": 0.63429203,
+      "epoch": 0.3964992389649924,
+      "grad_norm": 6.1875,
+      "learning_rate": 9.411069886962383e-06,
+      "loss": 1.69695435,
+      "memory(GiB)": 111.15,
+      "step": 15630,
+      "train_speed(iter/s)": 0.44873
+    },
+    {
+      "acc": 0.63529005,
+      "epoch": 0.39662607813292744,
+      "grad_norm": 6.875,
+      "learning_rate": 9.410576046860716e-06,
+      "loss": 1.68165302,
+      "memory(GiB)": 111.15,
+      "step": 15635,
+      "train_speed(iter/s)": 0.448806
+    },
+    {
+      "acc": 0.65903158,
+      "epoch": 0.3967529173008625,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.41008201276222e-06,
+      "loss": 1.61599846,
+      "memory(GiB)": 111.15,
+      "step": 15640,
+      "train_speed(iter/s)": 0.448881
+    },
+    {
+      "acc": 0.65936365,
+      "epoch": 0.3968797564687976,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.409587784688629e-06,
+      "loss": 1.65689201,
+      "memory(GiB)": 111.15,
+      "step": 15645,
+      "train_speed(iter/s)": 0.448956
+    },
+    {
+      "acc": 0.6212923,
+      "epoch": 0.39700659563673263,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.409093362661678e-06,
+      "loss": 1.73159027,
+      "memory(GiB)": 111.15,
+      "step": 15650,
+      "train_speed(iter/s)": 0.449032
+    },
+    {
+      "acc": 0.65028448,
+      "epoch": 0.3971334348046677,
+      "grad_norm": 5.875,
+      "learning_rate": 9.408598746703119e-06,
+      "loss": 1.62613831,
+      "memory(GiB)": 111.15,
+      "step": 15655,
+      "train_speed(iter/s)": 0.449107
+    },
+    {
+      "acc": 0.64887342,
+      "epoch": 0.3972602739726027,
+      "grad_norm": 5.875,
+      "learning_rate": 9.408103936834703e-06,
+      "loss": 1.68367844,
+      "memory(GiB)": 111.15,
+      "step": 15660,
+      "train_speed(iter/s)": 0.449183
+    },
+    {
+      "acc": 0.64645014,
+      "epoch": 0.3973871131405378,
+      "grad_norm": 5.25,
+      "learning_rate": 9.407608933078194e-06,
+      "loss": 1.67176781,
+      "memory(GiB)": 111.15,
+      "step": 15665,
+      "train_speed(iter/s)": 0.449258
+    },
+    {
+      "acc": 0.64907446,
+      "epoch": 0.39751395230847286,
+      "grad_norm": 4.6875,
+      "learning_rate": 9.407113735455366e-06,
+      "loss": 1.62852554,
+      "memory(GiB)": 111.15,
+      "step": 15670,
+      "train_speed(iter/s)": 0.449334
+    },
+    {
+      "acc": 0.65387764,
+      "epoch": 0.3976407914764079,
+      "grad_norm": 6.0625,
+      "learning_rate": 9.406618343988e-06,
+      "loss": 1.6108139,
+      "memory(GiB)": 111.15,
+      "step": 15675,
+      "train_speed(iter/s)": 0.44941
+    },
+    {
+      "acc": 0.64860325,
+      "epoch": 0.39776763064434295,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.406122758697885e-06,
+      "loss": 1.65722046,
+      "memory(GiB)": 111.15,
+      "step": 15680,
+      "train_speed(iter/s)": 0.449485
+    },
+    {
+      "acc": 0.64742594,
+      "epoch": 0.39789446981227805,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.405626979606819e-06,
+      "loss": 1.68592949,
+      "memory(GiB)": 111.15,
+      "step": 15685,
+      "train_speed(iter/s)": 0.44956
+    },
+    {
+      "acc": 0.64032421,
+      "epoch": 0.3980213089802131,
+      "grad_norm": 4.75,
+      "learning_rate": 9.405131006736608e-06,
+      "loss": 1.64602661,
+      "memory(GiB)": 111.15,
+      "step": 15690,
+      "train_speed(iter/s)": 0.449636
+    },
+    {
+      "acc": 0.65909767,
+      "epoch": 0.39814814814814814,
+      "grad_norm": 5.5,
+      "learning_rate": 9.404634840109069e-06,
+      "loss": 1.65061569,
+      "memory(GiB)": 111.15,
+      "step": 15695,
+      "train_speed(iter/s)": 0.449711
+    },
+    {
+      "acc": 0.64360504,
+      "epoch": 0.3982749873160832,
+      "grad_norm": 5.125,
+      "learning_rate": 9.404138479746022e-06,
+      "loss": 1.64114723,
+      "memory(GiB)": 111.15,
+      "step": 15700,
+      "train_speed(iter/s)": 0.449786
+    },
+    {
+      "epoch": 0.3982749873160832,
+      "eval_acc": 0.6398198253147772,
+      "eval_loss": 1.627565860748291,
+      "eval_runtime": 113.6024,
+      "eval_samples_per_second": 56.073,
+      "eval_steps_per_second": 28.036,
+      "step": 15700
+    },
+    {
+      "acc": 0.65060625,
+      "epoch": 0.3984018264840183,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.403641925669304e-06,
+      "loss": 1.64542904,
+      "memory(GiB)": 111.15,
+      "step": 15705,
+      "train_speed(iter/s)": 0.448345
+    },
+    {
+      "acc": 0.6432219,
+      "epoch": 0.39852866565195333,
+      "grad_norm": 4.15625,
+      "learning_rate": 9.403145177900752e-06,
+      "loss": 1.67417469,
+      "memory(GiB)": 111.15,
+      "step": 15710,
+      "train_speed(iter/s)": 0.448419
+    },
+    {
+      "acc": 0.64616485,
+      "epoch": 0.3986555048198884,
+      "grad_norm": 5.75,
+      "learning_rate": 9.402648236462217e-06,
+      "loss": 1.64328499,
+      "memory(GiB)": 111.15,
+      "step": 15715,
+      "train_speed(iter/s)": 0.448494
+    },
+    {
+      "acc": 0.65105047,
+      "epoch": 0.3987823439878234,
+      "grad_norm": 4.46875,
+      "learning_rate": 9.402151101375557e-06,
+      "loss": 1.64415855,
+      "memory(GiB)": 111.15,
+      "step": 15720,
+      "train_speed(iter/s)": 0.448568
+    },
+    {
+      "acc": 0.63326621,
+      "epoch": 0.3989091831557585,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.401653772662638e-06,
+      "loss": 1.66724129,
+      "memory(GiB)": 111.15,
+      "step": 15725,
+      "train_speed(iter/s)": 0.448643
+    },
+    {
+      "acc": 0.64757051,
+      "epoch": 0.39903602232369356,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.401156250345331e-06,
+      "loss": 1.66217575,
+      "memory(GiB)": 111.15,
+      "step": 15730,
+      "train_speed(iter/s)": 0.448717
+    },
+    {
+      "acc": 0.65520287,
+      "epoch": 0.3991628614916286,
+      "grad_norm": 5.25,
+      "learning_rate": 9.400658534445524e-06,
+      "loss": 1.61325703,
+      "memory(GiB)": 111.15,
+      "step": 15735,
+      "train_speed(iter/s)": 0.448791
+    },
+    {
+      "acc": 0.63208036,
+      "epoch": 0.39928970065956365,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.40016062498511e-06,
+      "loss": 1.68947563,
+      "memory(GiB)": 111.15,
+      "step": 15740,
+      "train_speed(iter/s)": 0.448866
+    },
+    {
+      "acc": 0.63864808,
+      "epoch": 0.39941653982749875,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.399662521985982e-06,
+      "loss": 1.66203346,
+      "memory(GiB)": 111.15,
+      "step": 15745,
+      "train_speed(iter/s)": 0.44894
+    },
+    {
+      "acc": 0.65313511,
+      "epoch": 0.3995433789954338,
+      "grad_norm": 6.34375,
+      "learning_rate": 9.399164225470055e-06,
+      "loss": 1.69805832,
+      "memory(GiB)": 111.15,
+      "step": 15750,
+      "train_speed(iter/s)": 0.449014
+    },
+    {
+      "acc": 0.65095124,
+      "epoch": 0.39967021816336884,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.398665735459245e-06,
+      "loss": 1.67277527,
+      "memory(GiB)": 111.15,
+      "step": 15755,
+      "train_speed(iter/s)": 0.44909
+    },
+    {
+      "acc": 0.62923899,
+      "epoch": 0.3997970573313039,
+      "grad_norm": 4.15625,
+      "learning_rate": 9.398167051975475e-06,
+      "loss": 1.69110222,
+      "memory(GiB)": 111.15,
+      "step": 15760,
+      "train_speed(iter/s)": 0.449164
+    },
+    {
+      "acc": 0.64613557,
+      "epoch": 0.399923896499239,
+      "grad_norm": 6.15625,
+      "learning_rate": 9.397668175040684e-06,
+      "loss": 1.63880711,
+      "memory(GiB)": 111.15,
+      "step": 15765,
+      "train_speed(iter/s)": 0.449239
+    },
+    {
+      "acc": 0.63017702,
+      "epoch": 0.40005073566717403,
+      "grad_norm": 5.125,
+      "learning_rate": 9.397169104676813e-06,
+      "loss": 1.68737602,
+      "memory(GiB)": 111.15,
+      "step": 15770,
+      "train_speed(iter/s)": 0.449313
+    },
+    {
+      "acc": 0.63325081,
+      "epoch": 0.4001775748351091,
+      "grad_norm": 4.6875,
+      "learning_rate": 9.39666984090581e-06,
+      "loss": 1.68690796,
+      "memory(GiB)": 111.15,
+      "step": 15775,
+      "train_speed(iter/s)": 0.449388
+    },
+    {
+      "acc": 0.65418549,
+      "epoch": 0.4003044140030441,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.396170383749642e-06,
+      "loss": 1.62001362,
+      "memory(GiB)": 111.15,
+      "step": 15780,
+      "train_speed(iter/s)": 0.449462
+    },
+    {
+      "acc": 0.6529161,
+      "epoch": 0.4004312531709792,
+      "grad_norm": 4.59375,
+      "learning_rate": 9.39567073323027e-06,
+      "loss": 1.61634197,
+      "memory(GiB)": 111.15,
+      "step": 15785,
+      "train_speed(iter/s)": 0.449537
+    },
+    {
+      "acc": 0.63297606,
+      "epoch": 0.40055809233891426,
+      "grad_norm": 5.375,
+      "learning_rate": 9.395170889369674e-06,
+      "loss": 1.70829277,
+      "memory(GiB)": 111.15,
+      "step": 15790,
+      "train_speed(iter/s)": 0.449612
+    },
+    {
+      "acc": 0.65918269,
+      "epoch": 0.4006849315068493,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.39467085218984e-06,
+      "loss": 1.65314789,
+      "memory(GiB)": 111.15,
+      "step": 15795,
+      "train_speed(iter/s)": 0.449686
+    },
+    {
+      "acc": 0.63931856,
+      "epoch": 0.40081177067478435,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.39417062171276e-06,
+      "loss": 1.66523399,
+      "memory(GiB)": 111.15,
+      "step": 15800,
+      "train_speed(iter/s)": 0.449761
+    },
+    {
+      "epoch": 0.40081177067478435,
+      "eval_acc": 0.6398904279900756,
+      "eval_loss": 1.6277319192886353,
+      "eval_runtime": 113.7494,
+      "eval_samples_per_second": 56.0,
+      "eval_steps_per_second": 28.0,
+      "step": 15800
+    },
+    {
+      "acc": 0.64944453,
+      "epoch": 0.40093860984271945,
+      "grad_norm": 5.625,
+      "learning_rate": 9.393670197960439e-06,
+      "loss": 1.65363083,
+      "memory(GiB)": 111.15,
+      "step": 15805,
+      "train_speed(iter/s)": 0.448326
+    },
+    {
+      "acc": 0.64821367,
+      "epoch": 0.4010654490106545,
+      "grad_norm": 4.53125,
+      "learning_rate": 9.393169580954884e-06,
+      "loss": 1.62791157,
+      "memory(GiB)": 111.15,
+      "step": 15810,
+      "train_speed(iter/s)": 0.4484
+    },
+    {
+      "acc": 0.64016895,
+      "epoch": 0.40119228817858954,
+      "grad_norm": 4.46875,
+      "learning_rate": 9.392668770718118e-06,
+      "loss": 1.71036072,
+      "memory(GiB)": 111.15,
+      "step": 15815,
+      "train_speed(iter/s)": 0.448474
+    },
+    {
+      "acc": 0.65244312,
+      "epoch": 0.4013191273465246,
+      "grad_norm": 5.125,
+      "learning_rate": 9.392167767272169e-06,
+      "loss": 1.67083931,
+      "memory(GiB)": 111.15,
+      "step": 15820,
+      "train_speed(iter/s)": 0.448548
+    },
+    {
+      "acc": 0.64463968,
+      "epoch": 0.4014459665144597,
+      "grad_norm": 4.75,
+      "learning_rate": 9.39166657063907e-06,
+      "loss": 1.67240314,
+      "memory(GiB)": 111.15,
+      "step": 15825,
+      "train_speed(iter/s)": 0.448622
+    },
+    {
+      "acc": 0.63704596,
+      "epoch": 0.40157280568239473,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.391165180840869e-06,
+      "loss": 1.65192661,
+      "memory(GiB)": 111.15,
+      "step": 15830,
+      "train_speed(iter/s)": 0.448696
+    },
+    {
+      "acc": 0.64868956,
+      "epoch": 0.4016996448503298,
+      "grad_norm": 6.21875,
+      "learning_rate": 9.390663597899619e-06,
+      "loss": 1.66151657,
+      "memory(GiB)": 111.15,
+      "step": 15835,
+      "train_speed(iter/s)": 0.448771
+    },
+    {
+      "acc": 0.65608826,
+      "epoch": 0.4018264840182648,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.39016182183738e-06,
+      "loss": 1.58175411,
+      "memory(GiB)": 111.15,
+      "step": 15840,
+      "train_speed(iter/s)": 0.448846
+    },
+    {
+      "acc": 0.66116343,
+      "epoch": 0.4019533231861999,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.389659852676223e-06,
+      "loss": 1.61717033,
+      "memory(GiB)": 111.15,
+      "step": 15845,
+      "train_speed(iter/s)": 0.448921
+    },
+    {
+      "acc": 0.66856432,
+      "epoch": 0.40208016235413496,
+      "grad_norm": 6.21875,
+      "learning_rate": 9.389157690438228e-06,
+      "loss": 1.52035027,
+      "memory(GiB)": 111.15,
+      "step": 15850,
+      "train_speed(iter/s)": 0.448996
+    },
+    {
+      "acc": 0.64993954,
+      "epoch": 0.40220700152207,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.38865533514548e-06,
+      "loss": 1.60281887,
+      "memory(GiB)": 111.15,
+      "step": 15855,
+      "train_speed(iter/s)": 0.44907
+    },
+    {
+      "acc": 0.66053629,
+      "epoch": 0.40233384069000505,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.388152786820078e-06,
+      "loss": 1.54785967,
+      "memory(GiB)": 111.15,
+      "step": 15860,
+      "train_speed(iter/s)": 0.449145
+    },
+    {
+      "acc": 0.63252573,
+      "epoch": 0.40246067985794015,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.387650045484124e-06,
+      "loss": 1.77306099,
+      "memory(GiB)": 111.15,
+      "step": 15865,
+      "train_speed(iter/s)": 0.449219
+    },
+    {
+      "acc": 0.64841714,
+      "epoch": 0.4025875190258752,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.387147111159734e-06,
+      "loss": 1.65072746,
+      "memory(GiB)": 111.15,
+      "step": 15870,
+      "train_speed(iter/s)": 0.449294
+    },
+    {
+      "acc": 0.64255686,
+      "epoch": 0.40271435819381024,
+      "grad_norm": 7.03125,
+      "learning_rate": 9.386643983869025e-06,
+      "loss": 1.6453064,
+      "memory(GiB)": 111.15,
+      "step": 15875,
+      "train_speed(iter/s)": 0.449368
+    },
+    {
+      "acc": 0.65005684,
+      "epoch": 0.4028411973617453,
+      "grad_norm": 6.0625,
+      "learning_rate": 9.386140663634127e-06,
+      "loss": 1.72945061,
+      "memory(GiB)": 111.15,
+      "step": 15880,
+      "train_speed(iter/s)": 0.449442
+    },
+    {
+      "acc": 0.6478961,
+      "epoch": 0.4029680365296804,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.385637150477182e-06,
+      "loss": 1.68942375,
+      "memory(GiB)": 111.15,
+      "step": 15885,
+      "train_speed(iter/s)": 0.449517
+    },
+    {
+      "acc": 0.63437786,
+      "epoch": 0.40309487569761543,
+      "grad_norm": 6.03125,
+      "learning_rate": 9.385133444420333e-06,
+      "loss": 1.71772919,
+      "memory(GiB)": 111.15,
+      "step": 15890,
+      "train_speed(iter/s)": 0.449592
+    },
+    {
+      "acc": 0.66308455,
+      "epoch": 0.4032217148655505,
+      "grad_norm": 6.46875,
+      "learning_rate": 9.384629545485738e-06,
+      "loss": 1.56709146,
+      "memory(GiB)": 111.15,
+      "step": 15895,
+      "train_speed(iter/s)": 0.449665
+    },
+    {
+      "acc": 0.63499851,
+      "epoch": 0.4033485540334855,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.38412545369556e-06,
+      "loss": 1.65431633,
+      "memory(GiB)": 111.15,
+      "step": 15900,
+      "train_speed(iter/s)": 0.449739
+    },
+    {
+      "epoch": 0.4033485540334855,
+      "eval_acc": 0.6398536644668432,
+      "eval_loss": 1.6273599863052368,
+      "eval_runtime": 112.5508,
+      "eval_samples_per_second": 56.597,
+      "eval_steps_per_second": 28.298,
+      "step": 15900
+    },
+    {
+      "acc": 0.63903146,
+      "epoch": 0.4034753932014206,
+      "grad_norm": 6.8125,
+      "learning_rate": 9.383621169071971e-06,
+      "loss": 1.61832771,
+      "memory(GiB)": 111.15,
+      "step": 15905,
+      "train_speed(iter/s)": 0.44833
+    },
+    {
+      "acc": 0.66349039,
+      "epoch": 0.40360223236935566,
+      "grad_norm": 5.0,
+      "learning_rate": 9.38311669163715e-06,
+      "loss": 1.64513531,
+      "memory(GiB)": 111.15,
+      "step": 15910,
+      "train_speed(iter/s)": 0.448403
+    },
+    {
+      "acc": 0.65134974,
+      "epoch": 0.4037290715372907,
+      "grad_norm": 6.59375,
+      "learning_rate": 9.38261202141329e-06,
+      "loss": 1.62714615,
+      "memory(GiB)": 111.15,
+      "step": 15915,
+      "train_speed(iter/s)": 0.448477
+    },
+    {
+      "acc": 0.64628363,
+      "epoch": 0.40385591070522575,
+      "grad_norm": 6.4375,
+      "learning_rate": 9.382107158422585e-06,
+      "loss": 1.64891701,
+      "memory(GiB)": 111.15,
+      "step": 15920,
+      "train_speed(iter/s)": 0.44855
+    },
+    {
+      "acc": 0.64765997,
+      "epoch": 0.40398274987316085,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.381602102687241e-06,
+      "loss": 1.61613941,
+      "memory(GiB)": 111.15,
+      "step": 15925,
+      "train_speed(iter/s)": 0.448625
+    },
+    {
+      "acc": 0.65472775,
+      "epoch": 0.4041095890410959,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.381096854229476e-06,
+      "loss": 1.63174019,
+      "memory(GiB)": 111.15,
+      "step": 15930,
+      "train_speed(iter/s)": 0.448699
+    },
+    {
+      "acc": 0.65799866,
+      "epoch": 0.40423642820903094,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.38059141307151e-06,
+      "loss": 1.63090477,
+      "memory(GiB)": 111.15,
+      "step": 15935,
+      "train_speed(iter/s)": 0.448773
+    },
+    {
+      "acc": 0.64760499,
+      "epoch": 0.404363267376966,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.380085779235577e-06,
+      "loss": 1.62491283,
+      "memory(GiB)": 111.15,
+      "step": 15940,
+      "train_speed(iter/s)": 0.448848
+    },
+    {
+      "acc": 0.64343209,
+      "epoch": 0.4044901065449011,
+      "grad_norm": 4.53125,
+      "learning_rate": 9.379579952743916e-06,
+      "loss": 1.64609375,
+      "memory(GiB)": 111.15,
+      "step": 15945,
+      "train_speed(iter/s)": 0.448924
+    },
+    {
+      "acc": 0.6467103,
+      "epoch": 0.40461694571283613,
+      "grad_norm": 5.6875,
+      "learning_rate": 9.379073933618774e-06,
+      "loss": 1.63088894,
+      "memory(GiB)": 111.15,
+      "step": 15950,
+      "train_speed(iter/s)": 0.448999
+    },
+    {
+      "acc": 0.63932209,
+      "epoch": 0.4047437848807712,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.37856772188241e-06,
+      "loss": 1.67060413,
+      "memory(GiB)": 111.15,
+      "step": 15955,
+      "train_speed(iter/s)": 0.449075
+    },
+    {
+      "acc": 0.6417901,
+      "epoch": 0.4048706240487062,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.378061317557088e-06,
+      "loss": 1.61358833,
+      "memory(GiB)": 111.15,
+      "step": 15960,
+      "train_speed(iter/s)": 0.44915
+    },
+    {
+      "acc": 0.66491165,
+      "epoch": 0.4049974632166413,
+      "grad_norm": 5.6875,
+      "learning_rate": 9.377554720665083e-06,
+      "loss": 1.62786751,
+      "memory(GiB)": 111.15,
+      "step": 15965,
+      "train_speed(iter/s)": 0.449226
+    },
+    {
+      "acc": 0.64388933,
+      "epoch": 0.40512430238457636,
+      "grad_norm": 4.875,
+      "learning_rate": 9.377047931228677e-06,
+      "loss": 1.70449886,
+      "memory(GiB)": 111.15,
+      "step": 15970,
+      "train_speed(iter/s)": 0.449301
+    },
+    {
+      "acc": 0.65411944,
+      "epoch": 0.4052511415525114,
+      "grad_norm": 6.3125,
+      "learning_rate": 9.376540949270161e-06,
+      "loss": 1.60068722,
+      "memory(GiB)": 111.15,
+      "step": 15975,
+      "train_speed(iter/s)": 0.449378
+    },
+    {
+      "acc": 0.65048256,
+      "epoch": 0.40537798072044645,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.376033774811833e-06,
+      "loss": 1.60749359,
+      "memory(GiB)": 111.15,
+      "step": 15980,
+      "train_speed(iter/s)": 0.449453
+    },
+    {
+      "acc": 0.65982952,
+      "epoch": 0.40550481988838155,
+      "grad_norm": 5.6875,
+      "learning_rate": 9.375526407876003e-06,
+      "loss": 1.6095562,
+      "memory(GiB)": 111.15,
+      "step": 15985,
+      "train_speed(iter/s)": 0.449529
+    },
+    {
+      "acc": 0.63645515,
+      "epoch": 0.4056316590563166,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.375018848484987e-06,
+      "loss": 1.7021246,
+      "memory(GiB)": 111.15,
+      "step": 15990,
+      "train_speed(iter/s)": 0.449605
+    },
+    {
+      "acc": 0.65723057,
+      "epoch": 0.40575849822425164,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.374511096661108e-06,
+      "loss": 1.63122025,
+      "memory(GiB)": 111.15,
+      "step": 15995,
+      "train_speed(iter/s)": 0.44968
+    },
+    {
+      "acc": 0.64214497,
+      "epoch": 0.4058853373921867,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.374003152426701e-06,
+      "loss": 1.66204491,
+      "memory(GiB)": 111.15,
+      "step": 16000,
+      "train_speed(iter/s)": 0.449755
+    },
+    {
+      "epoch": 0.4058853373921867,
+      "eval_acc": 0.6399221783055943,
+      "eval_loss": 1.6269961595535278,
+      "eval_runtime": 114.1445,
+      "eval_samples_per_second": 55.806,
+      "eval_steps_per_second": 27.903,
+      "step": 16000
+    },
+    {
+      "acc": 0.65143061,
+      "epoch": 0.4060121765601218,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.373495015804106e-06,
+      "loss": 1.63724384,
+      "memory(GiB)": 111.15,
+      "step": 16005,
+      "train_speed(iter/s)": 0.448335
+    },
+    {
+      "acc": 0.64188366,
+      "epoch": 0.40613901572805683,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.372986686815674e-06,
+      "loss": 1.70729752,
+      "memory(GiB)": 111.15,
+      "step": 16010,
+      "train_speed(iter/s)": 0.44841
+    },
+    {
+      "acc": 0.65008759,
+      "epoch": 0.4062658548959919,
+      "grad_norm": 5.75,
+      "learning_rate": 9.372478165483763e-06,
+      "loss": 1.60834465,
+      "memory(GiB)": 111.15,
+      "step": 16015,
+      "train_speed(iter/s)": 0.448486
+    },
+    {
+      "acc": 0.65186887,
+      "epoch": 0.4063926940639269,
+      "grad_norm": 5.25,
+      "learning_rate": 9.371969451830743e-06,
+      "loss": 1.68279152,
+      "memory(GiB)": 111.15,
+      "step": 16020,
+      "train_speed(iter/s)": 0.44856
+    },
+    {
+      "acc": 0.65010719,
+      "epoch": 0.406519533231862,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.371460545878986e-06,
+      "loss": 1.62294769,
+      "memory(GiB)": 111.15,
+      "step": 16025,
+      "train_speed(iter/s)": 0.448635
+    },
+    {
+      "acc": 0.64782495,
+      "epoch": 0.40664637239979706,
+      "grad_norm": 5.5,
+      "learning_rate": 9.370951447650875e-06,
+      "loss": 1.61834831,
+      "memory(GiB)": 111.15,
+      "step": 16030,
+      "train_speed(iter/s)": 0.44871
+    },
+    {
+      "acc": 0.62972898,
+      "epoch": 0.4067732115677321,
+      "grad_norm": 5.125,
+      "learning_rate": 9.370442157168806e-06,
+      "loss": 1.70677662,
+      "memory(GiB)": 111.15,
+      "step": 16035,
+      "train_speed(iter/s)": 0.448785
+    },
+    {
+      "acc": 0.63901262,
+      "epoch": 0.40690005073566715,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.369932674455177e-06,
+      "loss": 1.68983765,
+      "memory(GiB)": 111.15,
+      "step": 16040,
+      "train_speed(iter/s)": 0.448861
+    },
+    {
+      "acc": 0.6572814,
+      "epoch": 0.40702688990360225,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.3694229995324e-06,
+      "loss": 1.57476215,
+      "memory(GiB)": 111.15,
+      "step": 16045,
+      "train_speed(iter/s)": 0.448935
+    },
+    {
+      "acc": 0.65458002,
+      "epoch": 0.4071537290715373,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.368913132422891e-06,
+      "loss": 1.62649117,
+      "memory(GiB)": 111.15,
+      "step": 16050,
+      "train_speed(iter/s)": 0.449011
+    },
+    {
+      "acc": 0.64681015,
+      "epoch": 0.40728056823947234,
+      "grad_norm": 5.6875,
+      "learning_rate": 9.368403073149079e-06,
+      "loss": 1.66858234,
+      "memory(GiB)": 111.15,
+      "step": 16055,
+      "train_speed(iter/s)": 0.449087
+    },
+    {
+      "acc": 0.63391953,
+      "epoch": 0.4074074074074074,
+      "grad_norm": 6.34375,
+      "learning_rate": 9.367892821733393e-06,
+      "loss": 1.63374023,
+      "memory(GiB)": 111.15,
+      "step": 16060,
+      "train_speed(iter/s)": 0.449162
+    },
+    {
+      "acc": 0.64759874,
+      "epoch": 0.4075342465753425,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.367382378198282e-06,
+      "loss": 1.63470249,
+      "memory(GiB)": 111.15,
+      "step": 16065,
+      "train_speed(iter/s)": 0.449237
+    },
+    {
+      "acc": 0.6456079,
+      "epoch": 0.40766108574327753,
+      "grad_norm": 6.5625,
+      "learning_rate": 9.366871742566193e-06,
+      "loss": 1.62195797,
+      "memory(GiB)": 111.15,
+      "step": 16070,
+      "train_speed(iter/s)": 0.449312
+    },
+    {
+      "acc": 0.63188477,
+      "epoch": 0.4077879249112126,
+      "grad_norm": 5.375,
+      "learning_rate": 9.36636091485959e-06,
+      "loss": 1.67230949,
+      "memory(GiB)": 111.15,
+      "step": 16075,
+      "train_speed(iter/s)": 0.449387
+    },
+    {
+      "acc": 0.65013676,
+      "epoch": 0.4079147640791476,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.365849895100939e-06,
+      "loss": 1.59211006,
+      "memory(GiB)": 111.15,
+      "step": 16080,
+      "train_speed(iter/s)": 0.449461
+    },
+    {
+      "acc": 0.65820122,
+      "epoch": 0.4080416032470827,
+      "grad_norm": 7.0,
+      "learning_rate": 9.365338683312714e-06,
+      "loss": 1.59948635,
+      "memory(GiB)": 111.15,
+      "step": 16085,
+      "train_speed(iter/s)": 0.449536
+    },
+    {
+      "acc": 0.64477949,
+      "epoch": 0.40816844241501776,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.364827279517408e-06,
+      "loss": 1.64739456,
+      "memory(GiB)": 111.15,
+      "step": 16090,
+      "train_speed(iter/s)": 0.44961
+    },
+    {
+      "acc": 0.63604441,
+      "epoch": 0.4082952815829528,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.36431568373751e-06,
+      "loss": 1.68808937,
+      "memory(GiB)": 111.15,
+      "step": 16095,
+      "train_speed(iter/s)": 0.449684
+    },
+    {
+      "acc": 0.6508811,
+      "epoch": 0.40842212075088785,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.363803895995522e-06,
+      "loss": 1.57515163,
+      "memory(GiB)": 111.15,
+      "step": 16100,
+      "train_speed(iter/s)": 0.449759
+    },
+    {
+      "epoch": 0.40842212075088785,
+      "eval_acc": 0.639984007867394,
+      "eval_loss": 1.6268733739852905,
+      "eval_runtime": 113.922,
+      "eval_samples_per_second": 55.915,
+      "eval_steps_per_second": 27.958,
+      "step": 16100
+    },
+    {
+      "acc": 0.64717054,
+      "epoch": 0.40854895991882295,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.363291916313955e-06,
+      "loss": 1.61785889,
+      "memory(GiB)": 111.15,
+      "step": 16105,
+      "train_speed(iter/s)": 0.448351
+    },
+    {
+      "acc": 0.64519033,
+      "epoch": 0.408675799086758,
+      "grad_norm": 4.6875,
+      "learning_rate": 9.362779744715332e-06,
+      "loss": 1.65577869,
+      "memory(GiB)": 111.15,
+      "step": 16110,
+      "train_speed(iter/s)": 0.448426
+    },
+    {
+      "acc": 0.64788399,
+      "epoch": 0.40880263825469304,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.362267381222174e-06,
+      "loss": 1.68617802,
+      "memory(GiB)": 111.15,
+      "step": 16115,
+      "train_speed(iter/s)": 0.448501
+    },
+    {
+      "acc": 0.65298834,
+      "epoch": 0.4089294774226281,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.361754825857022e-06,
+      "loss": 1.63152237,
+      "memory(GiB)": 111.15,
+      "step": 16120,
+      "train_speed(iter/s)": 0.448576
+    },
+    {
+      "acc": 0.64395914,
+      "epoch": 0.4090563165905632,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.36124207864242e-06,
+      "loss": 1.66268959,
+      "memory(GiB)": 111.15,
+      "step": 16125,
+      "train_speed(iter/s)": 0.448652
+    },
+    {
+      "acc": 0.63845472,
+      "epoch": 0.40918315575849823,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.360729139600917e-06,
+      "loss": 1.65722351,
+      "memory(GiB)": 111.15,
+      "step": 16130,
+      "train_speed(iter/s)": 0.448728
+    },
+    {
+      "acc": 0.64443421,
+      "epoch": 0.4093099949264333,
+      "grad_norm": 5.125,
+      "learning_rate": 9.36021600875508e-06,
+      "loss": 1.6579586,
+      "memory(GiB)": 111.15,
+      "step": 16135,
+      "train_speed(iter/s)": 0.448804
+    },
+    {
+      "acc": 0.63106542,
+      "epoch": 0.4094368340943683,
+      "grad_norm": 5.0,
+      "learning_rate": 9.359702686127474e-06,
+      "loss": 1.71448345,
+      "memory(GiB)": 111.15,
+      "step": 16140,
+      "train_speed(iter/s)": 0.448879
+    },
+    {
+      "acc": 0.65172763,
+      "epoch": 0.4095636732623034,
+      "grad_norm": 5.125,
+      "learning_rate": 9.359189171740679e-06,
+      "loss": 1.65969353,
+      "memory(GiB)": 111.15,
+      "step": 16145,
+      "train_speed(iter/s)": 0.448954
+    },
+    {
+      "acc": 0.63784628,
+      "epoch": 0.40969051243023846,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.358675465617283e-06,
+      "loss": 1.68275242,
+      "memory(GiB)": 111.15,
+      "step": 16150,
+      "train_speed(iter/s)": 0.44903
+    },
+    {
+      "acc": 0.6447082,
+      "epoch": 0.4098173515981735,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.35816156777988e-06,
+      "loss": 1.66857929,
+      "memory(GiB)": 111.15,
+      "step": 16155,
+      "train_speed(iter/s)": 0.449105
+    },
+    {
+      "acc": 0.63655686,
+      "epoch": 0.40994419076610855,
+      "grad_norm": 6.46875,
+      "learning_rate": 9.357647478251072e-06,
+      "loss": 1.65050316,
+      "memory(GiB)": 111.15,
+      "step": 16160,
+      "train_speed(iter/s)": 0.44918
+    },
+    {
+      "acc": 0.64066706,
+      "epoch": 0.41007102993404365,
+      "grad_norm": 5.78125,
+      "learning_rate": 9.357133197053475e-06,
+      "loss": 1.70095825,
+      "memory(GiB)": 111.15,
+      "step": 16165,
+      "train_speed(iter/s)": 0.449255
+    },
+    {
+      "acc": 0.6547822,
+      "epoch": 0.4101978691019787,
+      "grad_norm": 6.1875,
+      "learning_rate": 9.356618724209704e-06,
+      "loss": 1.62589912,
+      "memory(GiB)": 111.15,
+      "step": 16170,
+      "train_speed(iter/s)": 0.44933
+    },
+    {
+      "acc": 0.65179415,
+      "epoch": 0.41032470826991374,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.356104059742392e-06,
+      "loss": 1.60424728,
+      "memory(GiB)": 111.15,
+      "step": 16175,
+      "train_speed(iter/s)": 0.449405
+    },
+    {
+      "acc": 0.64641323,
+      "epoch": 0.4104515474378488,
+      "grad_norm": 4.875,
+      "learning_rate": 9.355589203674175e-06,
+      "loss": 1.63600464,
+      "memory(GiB)": 111.15,
+      "step": 16180,
+      "train_speed(iter/s)": 0.44948
+    },
+    {
+      "acc": 0.65505495,
+      "epoch": 0.4105783866057839,
+      "grad_norm": 6.03125,
+      "learning_rate": 9.355074156027699e-06,
+      "loss": 1.61012135,
+      "memory(GiB)": 111.15,
+      "step": 16185,
+      "train_speed(iter/s)": 0.449555
+    },
+    {
+      "acc": 0.64186916,
+      "epoch": 0.41070522577371893,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.354558916825616e-06,
+      "loss": 1.69574356,
+      "memory(GiB)": 111.15,
+      "step": 16190,
+      "train_speed(iter/s)": 0.44963
+    },
+    {
+      "acc": 0.65749578,
+      "epoch": 0.410832064941654,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.354043486090592e-06,
+      "loss": 1.61712971,
+      "memory(GiB)": 111.15,
+      "step": 16195,
+      "train_speed(iter/s)": 0.449705
+    },
+    {
+      "acc": 0.6378521,
+      "epoch": 0.410958904109589,
+      "grad_norm": 5.125,
+      "learning_rate": 9.353527863845296e-06,
+      "loss": 1.67580051,
+      "memory(GiB)": 111.15,
+      "step": 16200,
+      "train_speed(iter/s)": 0.44978
+    },
+    {
+      "epoch": 0.410958904109589,
+      "eval_acc": 0.6400266201329586,
+      "eval_loss": 1.6268789768218994,
+      "eval_runtime": 115.7535,
+      "eval_samples_per_second": 55.031,
+      "eval_steps_per_second": 27.515,
+      "step": 16200
+    },
+    {
+      "acc": 0.6622241,
+      "epoch": 0.4110857432775241,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.353012050112405e-06,
+      "loss": 1.60279598,
+      "memory(GiB)": 111.15,
+      "step": 16205,
+      "train_speed(iter/s)": 0.448356
+    },
+    {
+      "acc": 0.6468565,
+      "epoch": 0.41121258244545916,
+      "grad_norm": 5.125,
+      "learning_rate": 9.352496044914611e-06,
+      "loss": 1.63705902,
+      "memory(GiB)": 111.15,
+      "step": 16210,
+      "train_speed(iter/s)": 0.44843
+    },
+    {
+      "acc": 0.65564222,
+      "epoch": 0.4113394216133942,
+      "grad_norm": 6.46875,
+      "learning_rate": 9.351979848274608e-06,
+      "loss": 1.61295776,
+      "memory(GiB)": 111.15,
+      "step": 16215,
+      "train_speed(iter/s)": 0.448503
+    },
+    {
+      "acc": 0.66352382,
+      "epoch": 0.41146626078132925,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.351463460215102e-06,
+      "loss": 1.55455265,
+      "memory(GiB)": 111.15,
+      "step": 16220,
+      "train_speed(iter/s)": 0.448577
+    },
+    {
+      "acc": 0.65502863,
+      "epoch": 0.41159309994926435,
+      "grad_norm": 6.25,
+      "learning_rate": 9.350946880758804e-06,
+      "loss": 1.62152157,
+      "memory(GiB)": 111.15,
+      "step": 16225,
+      "train_speed(iter/s)": 0.448652
+    },
+    {
+      "acc": 0.65121527,
+      "epoch": 0.4117199391171994,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.350430109928437e-06,
+      "loss": 1.63010521,
+      "memory(GiB)": 111.15,
+      "step": 16230,
+      "train_speed(iter/s)": 0.448725
+    },
+    {
+      "acc": 0.65481725,
+      "epoch": 0.41184677828513444,
+      "grad_norm": 5.96875,
+      "learning_rate": 9.349913147746731e-06,
+      "loss": 1.70053864,
+      "memory(GiB)": 111.15,
+      "step": 16235,
+      "train_speed(iter/s)": 0.448799
+    },
+    {
+      "acc": 0.65579934,
+      "epoch": 0.4119736174530695,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.349395994236423e-06,
+      "loss": 1.5883482,
+      "memory(GiB)": 111.15,
+      "step": 16240,
+      "train_speed(iter/s)": 0.448873
+    },
+    {
+      "acc": 0.64541454,
+      "epoch": 0.4121004566210046,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.348878649420262e-06,
+      "loss": 1.69941978,
+      "memory(GiB)": 111.15,
+      "step": 16245,
+      "train_speed(iter/s)": 0.448946
+    },
+    {
+      "acc": 0.63718967,
+      "epoch": 0.41222729578893963,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.348361113321e-06,
+      "loss": 1.66328201,
+      "memory(GiB)": 111.15,
+      "step": 16250,
+      "train_speed(iter/s)": 0.44902
+    },
+    {
+      "acc": 0.6497962,
+      "epoch": 0.4123541349568747,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.347843385961403e-06,
+      "loss": 1.65080185,
+      "memory(GiB)": 111.15,
+      "step": 16255,
+      "train_speed(iter/s)": 0.449093
+    },
+    {
+      "acc": 0.62718048,
+      "epoch": 0.4124809741248097,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.347325467364242e-06,
+      "loss": 1.65719357,
+      "memory(GiB)": 111.15,
+      "step": 16260,
+      "train_speed(iter/s)": 0.449167
+    },
+    {
+      "acc": 0.65719485,
+      "epoch": 0.4126078132927448,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.346807357552296e-06,
+      "loss": 1.63608742,
+      "memory(GiB)": 111.15,
+      "step": 16265,
+      "train_speed(iter/s)": 0.44924
+    },
+    {
+      "acc": 0.64354587,
+      "epoch": 0.41273465246067986,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.346289056548357e-06,
+      "loss": 1.64914703,
+      "memory(GiB)": 111.15,
+      "step": 16270,
+      "train_speed(iter/s)": 0.449314
+    },
+    {
+      "acc": 0.66295147,
+      "epoch": 0.4128614916286149,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.345770564375221e-06,
+      "loss": 1.58379822,
+      "memory(GiB)": 111.15,
+      "step": 16275,
+      "train_speed(iter/s)": 0.449387
+    },
+    {
+      "acc": 0.6384738,
+      "epoch": 0.41298833079654995,
+      "grad_norm": 4.6875,
+      "learning_rate": 9.345251881055692e-06,
+      "loss": 1.6455368,
+      "memory(GiB)": 111.15,
+      "step": 16280,
+      "train_speed(iter/s)": 0.44946
+    },
+    {
+      "acc": 0.64921432,
+      "epoch": 0.41311516996448505,
+      "grad_norm": 5.96875,
+      "learning_rate": 9.344733006612585e-06,
+      "loss": 1.68562775,
+      "memory(GiB)": 111.15,
+      "step": 16285,
+      "train_speed(iter/s)": 0.449534
+    },
+    {
+      "acc": 0.65300412,
+      "epoch": 0.4132420091324201,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.344213941068724e-06,
+      "loss": 1.64478416,
+      "memory(GiB)": 111.15,
+      "step": 16290,
+      "train_speed(iter/s)": 0.449607
+    },
+    {
+      "acc": 0.64070544,
+      "epoch": 0.41336884830035514,
+      "grad_norm": 5.71875,
+      "learning_rate": 9.343694684446937e-06,
+      "loss": 1.6733345,
+      "memory(GiB)": 111.15,
+      "step": 16295,
+      "train_speed(iter/s)": 0.44968
+    },
+    {
+      "acc": 0.64769931,
+      "epoch": 0.4134956874682902,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.343175236770065e-06,
+      "loss": 1.58220949,
+      "memory(GiB)": 111.15,
+      "step": 16300,
+      "train_speed(iter/s)": 0.449754
+    },
+    {
+      "epoch": 0.4134956874682902,
+      "eval_acc": 0.6400491795676693,
+      "eval_loss": 1.6263422966003418,
+      "eval_runtime": 115.5216,
+      "eval_samples_per_second": 55.141,
+      "eval_steps_per_second": 27.571,
+      "step": 16300
+    },
+    {
+      "acc": 0.65734739,
+      "epoch": 0.4136225266362253,
+      "grad_norm": 4.3125,
+      "learning_rate": 9.342655598060955e-06,
+      "loss": 1.60211163,
+      "memory(GiB)": 111.15,
+      "step": 16305,
+      "train_speed(iter/s)": 0.448343
+    },
+    {
+      "acc": 0.65160551,
+      "epoch": 0.41374936580416033,
+      "grad_norm": 4.5,
+      "learning_rate": 9.342135768342464e-06,
+      "loss": 1.59915905,
+      "memory(GiB)": 111.15,
+      "step": 16310,
+      "train_speed(iter/s)": 0.448416
+    },
+    {
+      "acc": 0.65592852,
+      "epoch": 0.4138762049720954,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.341615747637454e-06,
+      "loss": 1.61348782,
+      "memory(GiB)": 111.15,
+      "step": 16315,
+      "train_speed(iter/s)": 0.44849
+    },
+    {
+      "acc": 0.63649092,
+      "epoch": 0.4140030441400304,
+      "grad_norm": 4.875,
+      "learning_rate": 9.3410955359688e-06,
+      "loss": 1.69064159,
+      "memory(GiB)": 111.15,
+      "step": 16320,
+      "train_speed(iter/s)": 0.448564
+    },
+    {
+      "acc": 0.65566339,
+      "epoch": 0.4141298833079655,
+      "grad_norm": 5.78125,
+      "learning_rate": 9.340575133359385e-06,
+      "loss": 1.64006691,
+      "memory(GiB)": 111.15,
+      "step": 16325,
+      "train_speed(iter/s)": 0.448637
+    },
+    {
+      "acc": 0.6503931,
+      "epoch": 0.41425672247590056,
+      "grad_norm": 5.25,
+      "learning_rate": 9.340054539832095e-06,
+      "loss": 1.59376688,
+      "memory(GiB)": 111.15,
+      "step": 16330,
+      "train_speed(iter/s)": 0.448711
+    },
+    {
+      "acc": 0.63787389,
+      "epoch": 0.4143835616438356,
+      "grad_norm": 6.34375,
+      "learning_rate": 9.339533755409828e-06,
+      "loss": 1.71170235,
+      "memory(GiB)": 111.15,
+      "step": 16335,
+      "train_speed(iter/s)": 0.448785
+    },
+    {
+      "acc": 0.64137039,
+      "epoch": 0.41451040081177065,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.339012780115492e-06,
+      "loss": 1.68638439,
+      "memory(GiB)": 111.15,
+      "step": 16340,
+      "train_speed(iter/s)": 0.448859
+    },
+    {
+      "acc": 0.64735355,
+      "epoch": 0.41463723997970575,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.338491613972002e-06,
+      "loss": 1.61712818,
+      "memory(GiB)": 111.15,
+      "step": 16345,
+      "train_speed(iter/s)": 0.448932
+    },
+    {
+      "acc": 0.66794863,
+      "epoch": 0.4147640791476408,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.337970257002282e-06,
+      "loss": 1.64576454,
+      "memory(GiB)": 111.15,
+      "step": 16350,
+      "train_speed(iter/s)": 0.449005
+    },
+    {
+      "acc": 0.64591651,
+      "epoch": 0.41489091831557584,
+      "grad_norm": 6.34375,
+      "learning_rate": 9.337448709229261e-06,
+      "loss": 1.72351665,
+      "memory(GiB)": 111.15,
+      "step": 16355,
+      "train_speed(iter/s)": 0.449078
+    },
+    {
+      "acc": 0.66100492,
+      "epoch": 0.4150177574835109,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.336926970675883e-06,
+      "loss": 1.63590851,
+      "memory(GiB)": 111.15,
+      "step": 16360,
+      "train_speed(iter/s)": 0.449152
+    },
+    {
+      "acc": 0.62602663,
+      "epoch": 0.415144596651446,
+      "grad_norm": 5.125,
+      "learning_rate": 9.33640504136509e-06,
+      "loss": 1.72774925,
+      "memory(GiB)": 111.15,
+      "step": 16365,
+      "train_speed(iter/s)": 0.449225
+    },
+    {
+      "acc": 0.64850082,
+      "epoch": 0.41527143581938103,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.335882921319845e-06,
+      "loss": 1.62144756,
+      "memory(GiB)": 111.15,
+      "step": 16370,
+      "train_speed(iter/s)": 0.449299
+    },
+    {
+      "acc": 0.66400299,
+      "epoch": 0.4153982749873161,
+      "grad_norm": 4.875,
+      "learning_rate": 9.335360610563111e-06,
+      "loss": 1.61179256,
+      "memory(GiB)": 111.15,
+      "step": 16375,
+      "train_speed(iter/s)": 0.449373
+    },
+    {
+      "acc": 0.6542871,
+      "epoch": 0.4155251141552511,
+      "grad_norm": 5.25,
+      "learning_rate": 9.33483810911786e-06,
+      "loss": 1.63856068,
+      "memory(GiB)": 111.15,
+      "step": 16380,
+      "train_speed(iter/s)": 0.449446
+    },
+    {
+      "acc": 0.63096371,
+      "epoch": 0.4156519533231862,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.334315417007079e-06,
+      "loss": 1.71098061,
+      "memory(GiB)": 111.15,
+      "step": 16385,
+      "train_speed(iter/s)": 0.449519
+    },
+    {
+      "acc": 0.63856692,
+      "epoch": 0.41577879249112126,
+      "grad_norm": 4.6875,
+      "learning_rate": 9.333792534253751e-06,
+      "loss": 1.66098347,
+      "memory(GiB)": 111.15,
+      "step": 16390,
+      "train_speed(iter/s)": 0.449592
+    },
+    {
+      "acc": 0.63820782,
+      "epoch": 0.4159056316590563,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.333269460880879e-06,
+      "loss": 1.63703308,
+      "memory(GiB)": 111.15,
+      "step": 16395,
+      "train_speed(iter/s)": 0.449665
+    },
+    {
+      "acc": 0.65623446,
+      "epoch": 0.41603247082699135,
+      "grad_norm": 5.84375,
+      "learning_rate": 9.33274619691147e-06,
+      "loss": 1.56448746,
+      "memory(GiB)": 111.15,
+      "step": 16400,
+      "train_speed(iter/s)": 0.449738
+    },
+    {
+      "epoch": 0.41603247082699135,
+      "eval_acc": 0.6400441663599559,
+      "eval_loss": 1.626044750213623,
+      "eval_runtime": 113.216,
+      "eval_samples_per_second": 56.264,
+      "eval_steps_per_second": 28.132,
+      "step": 16400
+    },
+    {
+      "acc": 0.64643679,
+      "epoch": 0.41615930999492645,
+      "grad_norm": 5.71875,
+      "learning_rate": 9.332222742368537e-06,
+      "loss": 1.62306137,
+      "memory(GiB)": 111.15,
+      "step": 16405,
+      "train_speed(iter/s)": 0.448363
+    },
+    {
+      "acc": 0.63408146,
+      "epoch": 0.4162861491628615,
+      "grad_norm": 4.75,
+      "learning_rate": 9.331699097275108e-06,
+      "loss": 1.67109051,
+      "memory(GiB)": 111.15,
+      "step": 16410,
+      "train_speed(iter/s)": 0.448436
+    },
+    {
+      "acc": 0.65849137,
+      "epoch": 0.41641298833079654,
+      "grad_norm": 8.0,
+      "learning_rate": 9.331175261654213e-06,
+      "loss": 1.65627403,
+      "memory(GiB)": 111.15,
+      "step": 16415,
+      "train_speed(iter/s)": 0.448508
+    },
+    {
+      "acc": 0.64748726,
+      "epoch": 0.4165398274987316,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.330651235528891e-06,
+      "loss": 1.69113121,
+      "memory(GiB)": 111.15,
+      "step": 16420,
+      "train_speed(iter/s)": 0.44858
+    },
+    {
+      "acc": 0.6414084,
+      "epoch": 0.4166666666666667,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.330127018922195e-06,
+      "loss": 1.71781502,
+      "memory(GiB)": 111.15,
+      "step": 16425,
+      "train_speed(iter/s)": 0.448652
+    },
+    {
+      "acc": 0.66547098,
+      "epoch": 0.41679350583460173,
+      "grad_norm": 5.0,
+      "learning_rate": 9.329602611857179e-06,
+      "loss": 1.57332153,
+      "memory(GiB)": 111.15,
+      "step": 16430,
+      "train_speed(iter/s)": 0.448724
+    },
+    {
+      "acc": 0.64482942,
+      "epoch": 0.4169203450025368,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.329078014356909e-06,
+      "loss": 1.61002789,
+      "memory(GiB)": 111.15,
+      "step": 16435,
+      "train_speed(iter/s)": 0.448797
+    },
+    {
+      "acc": 0.66598668,
+      "epoch": 0.4170471841704718,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.32855322644446e-06,
+      "loss": 1.56462545,
+      "memory(GiB)": 111.15,
+      "step": 16440,
+      "train_speed(iter/s)": 0.448869
+    },
+    {
+      "acc": 0.65097532,
+      "epoch": 0.4171740233384069,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.328028248142916e-06,
+      "loss": 1.58615246,
+      "memory(GiB)": 111.15,
+      "step": 16445,
+      "train_speed(iter/s)": 0.44894
+    },
+    {
+      "acc": 0.63982849,
+      "epoch": 0.41730086250634196,
+      "grad_norm": 4.4375,
+      "learning_rate": 9.327503079475365e-06,
+      "loss": 1.69326782,
+      "memory(GiB)": 111.15,
+      "step": 16450,
+      "train_speed(iter/s)": 0.449013
+    },
+    {
+      "acc": 0.63811693,
+      "epoch": 0.417427701674277,
+      "grad_norm": 5.78125,
+      "learning_rate": 9.326977720464908e-06,
+      "loss": 1.65198174,
+      "memory(GiB)": 111.15,
+      "step": 16455,
+      "train_speed(iter/s)": 0.449085
+    },
+    {
+      "acc": 0.65315723,
+      "epoch": 0.41755454084221205,
+      "grad_norm": 5.96875,
+      "learning_rate": 9.326452171134652e-06,
+      "loss": 1.63365364,
+      "memory(GiB)": 111.15,
+      "step": 16460,
+      "train_speed(iter/s)": 0.449157
+    },
+    {
+      "acc": 0.63213615,
+      "epoch": 0.41768138001014715,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.325926431507714e-06,
+      "loss": 1.67402992,
+      "memory(GiB)": 111.15,
+      "step": 16465,
+      "train_speed(iter/s)": 0.449228
+    },
+    {
+      "acc": 0.64885883,
+      "epoch": 0.4178082191780822,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.325400501607218e-06,
+      "loss": 1.62513809,
+      "memory(GiB)": 111.15,
+      "step": 16470,
+      "train_speed(iter/s)": 0.449301
+    },
+    {
+      "acc": 0.63371105,
+      "epoch": 0.41793505834601724,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.324874381456295e-06,
+      "loss": 1.69248905,
+      "memory(GiB)": 111.15,
+      "step": 16475,
+      "train_speed(iter/s)": 0.449373
+    },
+    {
+      "acc": 0.65466413,
+      "epoch": 0.4180618975139523,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.324348071078088e-06,
+      "loss": 1.61338005,
+      "memory(GiB)": 111.15,
+      "step": 16480,
+      "train_speed(iter/s)": 0.449444
+    },
+    {
+      "acc": 0.63324971,
+      "epoch": 0.4181887366818874,
+      "grad_norm": 5.0,
+      "learning_rate": 9.323821570495748e-06,
+      "loss": 1.68169384,
+      "memory(GiB)": 111.15,
+      "step": 16485,
+      "train_speed(iter/s)": 0.449515
+    },
+    {
+      "acc": 0.63939524,
+      "epoch": 0.41831557584982243,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.32329487973243e-06,
+      "loss": 1.65264244,
+      "memory(GiB)": 111.15,
+      "step": 16490,
+      "train_speed(iter/s)": 0.449587
+    },
+    {
+      "acc": 0.65641127,
+      "epoch": 0.4184424150177575,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.3227679988113e-06,
+      "loss": 1.61379433,
+      "memory(GiB)": 111.15,
+      "step": 16495,
+      "train_speed(iter/s)": 0.449658
+    },
+    {
+      "acc": 0.65871277,
+      "epoch": 0.4185692541856925,
+      "grad_norm": 6.0,
+      "learning_rate": 9.322240927755534e-06,
+      "loss": 1.60743122,
+      "memory(GiB)": 111.15,
+      "step": 16500,
+      "train_speed(iter/s)": 0.44973
+    },
+    {
+      "epoch": 0.4185692541856925,
+      "eval_acc": 0.6401247954506811,
+      "eval_loss": 1.6261812448501587,
+      "eval_runtime": 115.5391,
+      "eval_samples_per_second": 55.133,
+      "eval_steps_per_second": 27.566,
+      "step": 16500
+    },
+    {
+      "acc": 0.64120617,
+      "epoch": 0.4186960933536276,
+      "grad_norm": 6.125,
+      "learning_rate": 9.321713666588314e-06,
+      "loss": 1.64479294,
+      "memory(GiB)": 111.15,
+      "step": 16505,
+      "train_speed(iter/s)": 0.448335
+    },
+    {
+      "acc": 0.6487402,
+      "epoch": 0.41882293252156266,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.321186215332833e-06,
+      "loss": 1.69038124,
+      "memory(GiB)": 111.15,
+      "step": 16510,
+      "train_speed(iter/s)": 0.448406
+    },
+    {
+      "acc": 0.65008621,
+      "epoch": 0.4189497716894977,
+      "grad_norm": 4.3125,
+      "learning_rate": 9.320658574012289e-06,
+      "loss": 1.67295723,
+      "memory(GiB)": 111.15,
+      "step": 16515,
+      "train_speed(iter/s)": 0.448478
+    },
+    {
+      "acc": 0.65017114,
+      "epoch": 0.41907661085743275,
+      "grad_norm": 5.25,
+      "learning_rate": 9.32013074264989e-06,
+      "loss": 1.63766842,
+      "memory(GiB)": 111.15,
+      "step": 16520,
+      "train_speed(iter/s)": 0.448549
+    },
+    {
+      "acc": 0.65635872,
+      "epoch": 0.41920345002536785,
+      "grad_norm": 5.9375,
+      "learning_rate": 9.319602721268853e-06,
+      "loss": 1.62925167,
+      "memory(GiB)": 111.15,
+      "step": 16525,
+      "train_speed(iter/s)": 0.44862
+    },
+    {
+      "acc": 0.6745924,
+      "epoch": 0.4193302891933029,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.319074509892403e-06,
+      "loss": 1.56067848,
+      "memory(GiB)": 111.15,
+      "step": 16530,
+      "train_speed(iter/s)": 0.448691
+    },
+    {
+      "acc": 0.6559587,
+      "epoch": 0.41945712836123794,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.318546108543774e-06,
+      "loss": 1.56671219,
+      "memory(GiB)": 111.15,
+      "step": 16535,
+      "train_speed(iter/s)": 0.448762
+    },
+    {
+      "acc": 0.62391901,
+      "epoch": 0.419583967529173,
+      "grad_norm": 4.875,
+      "learning_rate": 9.318017517246205e-06,
+      "loss": 1.70603447,
+      "memory(GiB)": 111.15,
+      "step": 16540,
+      "train_speed(iter/s)": 0.448834
+    },
+    {
+      "acc": 0.62648287,
+      "epoch": 0.4197108066971081,
+      "grad_norm": 5.25,
+      "learning_rate": 9.317488736022948e-06,
+      "loss": 1.71432819,
+      "memory(GiB)": 111.15,
+      "step": 16545,
+      "train_speed(iter/s)": 0.448904
+    },
+    {
+      "acc": 0.64563622,
+      "epoch": 0.41983764586504313,
+      "grad_norm": 6.0625,
+      "learning_rate": 9.316959764897259e-06,
+      "loss": 1.66305122,
+      "memory(GiB)": 111.15,
+      "step": 16550,
+      "train_speed(iter/s)": 0.448976
+    },
+    {
+      "acc": 0.63409739,
+      "epoch": 0.4199644850329782,
+      "grad_norm": 5.6875,
+      "learning_rate": 9.316430603892406e-06,
+      "loss": 1.63482513,
+      "memory(GiB)": 111.15,
+      "step": 16555,
+      "train_speed(iter/s)": 0.449047
+    },
+    {
+      "acc": 0.63901138,
+      "epoch": 0.4200913242009132,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.315901253031663e-06,
+      "loss": 1.65722389,
+      "memory(GiB)": 111.15,
+      "step": 16560,
+      "train_speed(iter/s)": 0.449118
+    },
+    {
+      "acc": 0.63381476,
+      "epoch": 0.4202181633688483,
+      "grad_norm": 5.78125,
+      "learning_rate": 9.315371712338315e-06,
+      "loss": 1.78488026,
+      "memory(GiB)": 111.15,
+      "step": 16565,
+      "train_speed(iter/s)": 0.449189
+    },
+    {
+      "acc": 0.6543273,
+      "epoch": 0.42034500253678336,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.314841981835652e-06,
+      "loss": 1.61914387,
+      "memory(GiB)": 111.15,
+      "step": 16570,
+      "train_speed(iter/s)": 0.449259
+    },
+    {
+      "acc": 0.63609886,
+      "epoch": 0.4204718417047184,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.314312061546974e-06,
+      "loss": 1.70677261,
+      "memory(GiB)": 111.15,
+      "step": 16575,
+      "train_speed(iter/s)": 0.44933
+    },
+    {
+      "acc": 0.64558649,
+      "epoch": 0.42059868087265345,
+      "grad_norm": 4.34375,
+      "learning_rate": 9.313781951495588e-06,
+      "loss": 1.67297478,
+      "memory(GiB)": 111.15,
+      "step": 16580,
+      "train_speed(iter/s)": 0.449401
+    },
+    {
+      "acc": 0.64759083,
+      "epoch": 0.42072552004058855,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.313251651704816e-06,
+      "loss": 1.71654301,
+      "memory(GiB)": 111.15,
+      "step": 16585,
+      "train_speed(iter/s)": 0.449472
+    },
+    {
+      "acc": 0.65371609,
+      "epoch": 0.4208523592085236,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.312721162197975e-06,
+      "loss": 1.63245049,
+      "memory(GiB)": 111.15,
+      "step": 16590,
+      "train_speed(iter/s)": 0.449543
+    },
+    {
+      "acc": 0.65628662,
+      "epoch": 0.42097919837645864,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.312190482998405e-06,
+      "loss": 1.60666885,
+      "memory(GiB)": 111.15,
+      "step": 16595,
+      "train_speed(iter/s)": 0.449615
+    },
+    {
+      "acc": 0.64406486,
+      "epoch": 0.4211060375443937,
+      "grad_norm": 5.375,
+      "learning_rate": 9.311659614129443e-06,
+      "loss": 1.68860016,
+      "memory(GiB)": 111.15,
+      "step": 16600,
+      "train_speed(iter/s)": 0.449685
+    },
+    {
+      "epoch": 0.4211060375443937,
+      "eval_acc": 0.640297333349487,
+      "eval_loss": 1.6258081197738647,
+      "eval_runtime": 115.017,
+      "eval_samples_per_second": 55.383,
+      "eval_steps_per_second": 27.692,
+      "step": 16600
+    },
+    {
+      "acc": 0.64297071,
+      "epoch": 0.4212328767123288,
+      "grad_norm": 5.625,
+      "learning_rate": 9.311128555614443e-06,
+      "loss": 1.69722977,
+      "memory(GiB)": 111.15,
+      "step": 16605,
+      "train_speed(iter/s)": 0.448305
+    },
+    {
+      "acc": 0.64769888,
+      "epoch": 0.42135971588026383,
+      "grad_norm": 4.625,
+      "learning_rate": 9.31059730747676e-06,
+      "loss": 1.5489953,
+      "memory(GiB)": 111.15,
+      "step": 16610,
+      "train_speed(iter/s)": 0.448376
+    },
+    {
+      "acc": 0.65323043,
+      "epoch": 0.4214865550481989,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.310065869739763e-06,
+      "loss": 1.63912277,
+      "memory(GiB)": 111.15,
+      "step": 16615,
+      "train_speed(iter/s)": 0.448446
+    },
+    {
+      "acc": 0.64588718,
+      "epoch": 0.4216133942161339,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.309534242426826e-06,
+      "loss": 1.6188818,
+      "memory(GiB)": 111.15,
+      "step": 16620,
+      "train_speed(iter/s)": 0.448517
+    },
+    {
+      "acc": 0.65608301,
+      "epoch": 0.421740233384069,
+      "grad_norm": 4.6875,
+      "learning_rate": 9.30900242556133e-06,
+      "loss": 1.61432457,
+      "memory(GiB)": 111.15,
+      "step": 16625,
+      "train_speed(iter/s)": 0.448588
+    },
+    {
+      "acc": 0.65423059,
+      "epoch": 0.42186707255200406,
+      "grad_norm": 5.375,
+      "learning_rate": 9.308470419166672e-06,
+      "loss": 1.56800117,
+      "memory(GiB)": 111.15,
+      "step": 16630,
+      "train_speed(iter/s)": 0.448658
+    },
+    {
+      "acc": 0.63786149,
+      "epoch": 0.4219939117199391,
+      "grad_norm": 5.125,
+      "learning_rate": 9.307938223266247e-06,
+      "loss": 1.6416153,
+      "memory(GiB)": 111.15,
+      "step": 16635,
+      "train_speed(iter/s)": 0.448729
+    },
+    {
+      "acc": 0.63211703,
+      "epoch": 0.42212075088787415,
+      "grad_norm": 4.4375,
+      "learning_rate": 9.307405837883467e-06,
+      "loss": 1.70988541,
+      "memory(GiB)": 111.15,
+      "step": 16640,
+      "train_speed(iter/s)": 0.4488
+    },
+    {
+      "acc": 0.6436923,
+      "epoch": 0.42224759005580925,
+      "grad_norm": 3.890625,
+      "learning_rate": 9.306873263041745e-06,
+      "loss": 1.62871246,
+      "memory(GiB)": 111.15,
+      "step": 16645,
+      "train_speed(iter/s)": 0.448871
+    },
+    {
+      "acc": 0.64910102,
+      "epoch": 0.4223744292237443,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.30634049876451e-06,
+      "loss": 1.64532318,
+      "memory(GiB)": 111.15,
+      "step": 16650,
+      "train_speed(iter/s)": 0.448942
+    },
+    {
+      "acc": 0.64265566,
+      "epoch": 0.42250126839167934,
+      "grad_norm": 5.75,
+      "learning_rate": 9.305807545075194e-06,
+      "loss": 1.61112518,
+      "memory(GiB)": 111.15,
+      "step": 16655,
+      "train_speed(iter/s)": 0.449013
+    },
+    {
+      "acc": 0.65261889,
+      "epoch": 0.4226281075596144,
+      "grad_norm": 4.5,
+      "learning_rate": 9.305274401997237e-06,
+      "loss": 1.66084518,
+      "memory(GiB)": 111.15,
+      "step": 16660,
+      "train_speed(iter/s)": 0.449084
+    },
+    {
+      "acc": 0.64536171,
+      "epoch": 0.4227549467275495,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.304741069554088e-06,
+      "loss": 1.61740913,
+      "memory(GiB)": 111.15,
+      "step": 16665,
+      "train_speed(iter/s)": 0.449154
+    },
+    {
+      "acc": 0.65130258,
+      "epoch": 0.42288178589548453,
+      "grad_norm": 5.0,
+      "learning_rate": 9.304207547769211e-06,
+      "loss": 1.60065498,
+      "memory(GiB)": 111.15,
+      "step": 16670,
+      "train_speed(iter/s)": 0.449226
+    },
+    {
+      "acc": 0.66398258,
+      "epoch": 0.4230086250634196,
+      "grad_norm": 6.5625,
+      "learning_rate": 9.303673836666067e-06,
+      "loss": 1.62464504,
+      "memory(GiB)": 111.15,
+      "step": 16675,
+      "train_speed(iter/s)": 0.449297
+    },
+    {
+      "acc": 0.63941708,
+      "epoch": 0.4231354642313546,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.303139936268133e-06,
+      "loss": 1.67574768,
+      "memory(GiB)": 111.15,
+      "step": 16680,
+      "train_speed(iter/s)": 0.449369
+    },
+    {
+      "acc": 0.63693571,
+      "epoch": 0.4232623033992897,
+      "grad_norm": 4.875,
+      "learning_rate": 9.302605846598894e-06,
+      "loss": 1.68863716,
+      "memory(GiB)": 111.15,
+      "step": 16685,
+      "train_speed(iter/s)": 0.44944
+    },
+    {
+      "acc": 0.6443119,
+      "epoch": 0.42338914256722476,
+      "grad_norm": 6.53125,
+      "learning_rate": 9.30207156768184e-06,
+      "loss": 1.65081215,
+      "memory(GiB)": 111.15,
+      "step": 16690,
+      "train_speed(iter/s)": 0.449511
+    },
+    {
+      "acc": 0.65241866,
+      "epoch": 0.4235159817351598,
+      "grad_norm": 5.5,
+      "learning_rate": 9.30153709954047e-06,
+      "loss": 1.58175926,
+      "memory(GiB)": 111.15,
+      "step": 16695,
+      "train_speed(iter/s)": 0.449582
+    },
+    {
+      "acc": 0.65260615,
+      "epoch": 0.42364282090309485,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.301002442198294e-06,
+      "loss": 1.58351049,
+      "memory(GiB)": 111.15,
+      "step": 16700,
+      "train_speed(iter/s)": 0.449654
+    },
+    {
+      "epoch": 0.42364282090309485,
+      "eval_acc": 0.6402451124358048,
+      "eval_loss": 1.6261844635009766,
+      "eval_runtime": 113.5013,
+      "eval_samples_per_second": 56.123,
+      "eval_steps_per_second": 28.061,
+      "step": 16700
+    },
+    {
+      "acc": 0.64703741,
+      "epoch": 0.42376966007102995,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.300467595678829e-06,
+      "loss": 1.65279541,
+      "memory(GiB)": 111.15,
+      "step": 16705,
+      "train_speed(iter/s)": 0.4483
+    },
+    {
+      "acc": 0.64552221,
+      "epoch": 0.423896499238965,
+      "grad_norm": 6.78125,
+      "learning_rate": 9.299932560005596e-06,
+      "loss": 1.6721447,
+      "memory(GiB)": 111.15,
+      "step": 16710,
+      "train_speed(iter/s)": 0.44837
+    },
+    {
+      "acc": 0.65697675,
+      "epoch": 0.42402333840690004,
+      "grad_norm": 5.5,
+      "learning_rate": 9.299397335202133e-06,
+      "loss": 1.66039581,
+      "memory(GiB)": 111.15,
+      "step": 16715,
+      "train_speed(iter/s)": 0.44844
+    },
+    {
+      "acc": 0.6539917,
+      "epoch": 0.4241501775748351,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.29886192129198e-06,
+      "loss": 1.61069336,
+      "memory(GiB)": 111.15,
+      "step": 16720,
+      "train_speed(iter/s)": 0.44851
+    },
+    {
+      "acc": 0.63343267,
+      "epoch": 0.4242770167427702,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.298326318298688e-06,
+      "loss": 1.66645775,
+      "memory(GiB)": 111.15,
+      "step": 16725,
+      "train_speed(iter/s)": 0.448579
+    },
+    {
+      "acc": 0.64545574,
+      "epoch": 0.42440385591070523,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.29779052624581e-06,
+      "loss": 1.59622297,
+      "memory(GiB)": 111.15,
+      "step": 16730,
+      "train_speed(iter/s)": 0.448649
+    },
+    {
+      "acc": 0.65057602,
+      "epoch": 0.4245306950786403,
+      "grad_norm": 5.96875,
+      "learning_rate": 9.29725454515692e-06,
+      "loss": 1.65726471,
+      "memory(GiB)": 111.15,
+      "step": 16735,
+      "train_speed(iter/s)": 0.44872
+    },
+    {
+      "acc": 0.65226707,
+      "epoch": 0.4246575342465753,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.296718375055587e-06,
+      "loss": 1.57008324,
+      "memory(GiB)": 111.15,
+      "step": 16740,
+      "train_speed(iter/s)": 0.44879
+    },
+    {
+      "acc": 0.64606524,
+      "epoch": 0.4247843734145104,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.296182015965399e-06,
+      "loss": 1.67107315,
+      "memory(GiB)": 111.15,
+      "step": 16745,
+      "train_speed(iter/s)": 0.448861
+    },
+    {
+      "acc": 0.65154357,
+      "epoch": 0.42491121258244546,
+      "grad_norm": 7.25,
+      "learning_rate": 9.295645467909942e-06,
+      "loss": 1.64996605,
+      "memory(GiB)": 111.15,
+      "step": 16750,
+      "train_speed(iter/s)": 0.448931
+    },
+    {
+      "acc": 0.6425993,
+      "epoch": 0.4250380517503805,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.29510873091282e-06,
+      "loss": 1.59227448,
+      "memory(GiB)": 111.15,
+      "step": 16755,
+      "train_speed(iter/s)": 0.449001
+    },
+    {
+      "acc": 0.64310169,
+      "epoch": 0.42516489091831555,
+      "grad_norm": 5.875,
+      "learning_rate": 9.29457180499764e-06,
+      "loss": 1.66960564,
+      "memory(GiB)": 111.15,
+      "step": 16760,
+      "train_speed(iter/s)": 0.449072
+    },
+    {
+      "acc": 0.64456792,
+      "epoch": 0.42529173008625065,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.294034690188016e-06,
+      "loss": 1.66299686,
+      "memory(GiB)": 111.15,
+      "step": 16765,
+      "train_speed(iter/s)": 0.449142
+    },
+    {
+      "acc": 0.64090328,
+      "epoch": 0.4254185692541857,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.293497386507577e-06,
+      "loss": 1.68580379,
+      "memory(GiB)": 111.15,
+      "step": 16770,
+      "train_speed(iter/s)": 0.449212
+    },
+    {
+      "acc": 0.6614501,
+      "epoch": 0.42554540842212074,
+      "grad_norm": 6.09375,
+      "learning_rate": 9.292959893979953e-06,
+      "loss": 1.61997566,
+      "memory(GiB)": 111.15,
+      "step": 16775,
+      "train_speed(iter/s)": 0.449283
+    },
+    {
+      "acc": 0.64647217,
+      "epoch": 0.4256722475900558,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.292422212628786e-06,
+      "loss": 1.67102852,
+      "memory(GiB)": 111.15,
+      "step": 16780,
+      "train_speed(iter/s)": 0.449353
+    },
+    {
+      "acc": 0.65543585,
+      "epoch": 0.4257990867579909,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.291884342477728e-06,
+      "loss": 1.63762817,
+      "memory(GiB)": 111.15,
+      "step": 16785,
+      "train_speed(iter/s)": 0.449423
+    },
+    {
+      "acc": 0.64925184,
+      "epoch": 0.42592592592592593,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.291346283550433e-06,
+      "loss": 1.62338123,
+      "memory(GiB)": 111.15,
+      "step": 16790,
+      "train_speed(iter/s)": 0.449494
+    },
+    {
+      "acc": 0.65038376,
+      "epoch": 0.426052765093861,
+      "grad_norm": 5.625,
+      "learning_rate": 9.290808035870569e-06,
+      "loss": 1.68389359,
+      "memory(GiB)": 111.15,
+      "step": 16795,
+      "train_speed(iter/s)": 0.449563
+    },
+    {
+      "acc": 0.63843489,
+      "epoch": 0.426179604261796,
+      "grad_norm": 5.6875,
+      "learning_rate": 9.29026959946181e-06,
+      "loss": 1.68883514,
+      "memory(GiB)": 111.15,
+      "step": 16800,
+      "train_speed(iter/s)": 0.449634
+    },
+    {
+      "epoch": 0.426179604261796,
+      "eval_acc": 0.6402421880646386,
+      "eval_loss": 1.6256159543991089,
+      "eval_runtime": 112.8047,
+      "eval_samples_per_second": 56.469,
+      "eval_steps_per_second": 28.235,
+      "step": 16800
+    },
+    {
+      "acc": 0.65532074,
+      "epoch": 0.4263064434297311,
+      "grad_norm": 4.625,
+      "learning_rate": 9.289730974347841e-06,
+      "loss": 1.61831551,
+      "memory(GiB)": 111.15,
+      "step": 16805,
+      "train_speed(iter/s)": 0.448296
+    },
+    {
+      "acc": 0.67026796,
+      "epoch": 0.42643328259766616,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.28919216055235e-06,
+      "loss": 1.59910727,
+      "memory(GiB)": 111.15,
+      "step": 16810,
+      "train_speed(iter/s)": 0.448366
+    },
+    {
+      "acc": 0.66124544,
+      "epoch": 0.4265601217656012,
+      "grad_norm": 6.21875,
+      "learning_rate": 9.288653158099038e-06,
+      "loss": 1.58079872,
+      "memory(GiB)": 111.15,
+      "step": 16815,
+      "train_speed(iter/s)": 0.448436
+    },
+    {
+      "acc": 0.64744959,
+      "epoch": 0.42668696093353625,
+      "grad_norm": 5.125,
+      "learning_rate": 9.288113967011612e-06,
+      "loss": 1.689254,
+      "memory(GiB)": 111.15,
+      "step": 16820,
+      "train_speed(iter/s)": 0.448506
+    },
+    {
+      "acc": 0.6557457,
+      "epoch": 0.42681380010147135,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.28757458731379e-06,
+      "loss": 1.60272255,
+      "memory(GiB)": 111.15,
+      "step": 16825,
+      "train_speed(iter/s)": 0.448576
+    },
+    {
+      "acc": 0.64284897,
+      "epoch": 0.4269406392694064,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.287035019029295e-06,
+      "loss": 1.6989666,
+      "memory(GiB)": 111.15,
+      "step": 16830,
+      "train_speed(iter/s)": 0.448646
+    },
+    {
+      "acc": 0.64833803,
+      "epoch": 0.42706747843734144,
+      "grad_norm": 5.375,
+      "learning_rate": 9.286495262181859e-06,
+      "loss": 1.5594039,
+      "memory(GiB)": 111.15,
+      "step": 16835,
+      "train_speed(iter/s)": 0.448715
+    },
+    {
+      "acc": 0.64770517,
+      "epoch": 0.4271943176052765,
+      "grad_norm": 7.15625,
+      "learning_rate": 9.285955316795224e-06,
+      "loss": 1.69755535,
+      "memory(GiB)": 111.15,
+      "step": 16840,
+      "train_speed(iter/s)": 0.448785
+    },
+    {
+      "acc": 0.65035524,
+      "epoch": 0.4273211567732116,
+      "grad_norm": 6.8125,
+      "learning_rate": 9.285415182893138e-06,
+      "loss": 1.67875977,
+      "memory(GiB)": 111.15,
+      "step": 16845,
+      "train_speed(iter/s)": 0.448855
+    },
+    {
+      "acc": 0.64524832,
+      "epoch": 0.42744799594114663,
+      "grad_norm": 6.25,
+      "learning_rate": 9.28487486049936e-06,
+      "loss": 1.63049011,
+      "memory(GiB)": 111.15,
+      "step": 16850,
+      "train_speed(iter/s)": 0.448924
+    },
+    {
+      "acc": 0.64672074,
+      "epoch": 0.4275748351090817,
+      "grad_norm": 6.0625,
+      "learning_rate": 9.284334349637655e-06,
+      "loss": 1.71820488,
+      "memory(GiB)": 111.15,
+      "step": 16855,
+      "train_speed(iter/s)": 0.448994
+    },
+    {
+      "acc": 0.65825691,
+      "epoch": 0.4277016742770167,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.283793650331798e-06,
+      "loss": 1.57684355,
+      "memory(GiB)": 111.15,
+      "step": 16860,
+      "train_speed(iter/s)": 0.449063
+    },
+    {
+      "acc": 0.66200809,
+      "epoch": 0.4278285134449518,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.283252762605568e-06,
+      "loss": 1.60479908,
+      "memory(GiB)": 111.15,
+      "step": 16865,
+      "train_speed(iter/s)": 0.449133
+    },
+    {
+      "acc": 0.64627447,
+      "epoch": 0.42795535261288686,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.28271168648276e-06,
+      "loss": 1.65301056,
+      "memory(GiB)": 111.15,
+      "step": 16870,
+      "train_speed(iter/s)": 0.449203
+    },
+    {
+      "acc": 0.6405756,
+      "epoch": 0.4280821917808219,
+      "grad_norm": 6.03125,
+      "learning_rate": 9.282170421987171e-06,
+      "loss": 1.68900375,
+      "memory(GiB)": 111.15,
+      "step": 16875,
+      "train_speed(iter/s)": 0.449273
+    },
+    {
+      "acc": 0.64207592,
+      "epoch": 0.42820903094875695,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.281628969142609e-06,
+      "loss": 1.73415585,
+      "memory(GiB)": 111.15,
+      "step": 16880,
+      "train_speed(iter/s)": 0.449343
+    },
+    {
+      "acc": 0.63002329,
+      "epoch": 0.42833587011669205,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.281087327972886e-06,
+      "loss": 1.73738594,
+      "memory(GiB)": 111.15,
+      "step": 16885,
+      "train_speed(iter/s)": 0.449413
+    },
+    {
+      "acc": 0.651647,
+      "epoch": 0.4284627092846271,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.280545498501832e-06,
+      "loss": 1.56453705,
+      "memory(GiB)": 111.15,
+      "step": 16890,
+      "train_speed(iter/s)": 0.449483
+    },
+    {
+      "acc": 0.63814845,
+      "epoch": 0.42858954845256214,
+      "grad_norm": 5.125,
+      "learning_rate": 9.280003480753274e-06,
+      "loss": 1.72573929,
+      "memory(GiB)": 111.15,
+      "step": 16895,
+      "train_speed(iter/s)": 0.449553
+    },
+    {
+      "acc": 0.62625546,
+      "epoch": 0.4287163876204972,
+      "grad_norm": 5.875,
+      "learning_rate": 9.279461274751054e-06,
+      "loss": 1.71955948,
+      "memory(GiB)": 111.15,
+      "step": 16900,
+      "train_speed(iter/s)": 0.449623
+    },
+    {
+      "epoch": 0.4287163876204972,
+      "eval_acc": 0.6403086130668424,
+      "eval_loss": 1.6253241300582886,
+      "eval_runtime": 112.5476,
+      "eval_samples_per_second": 56.598,
+      "eval_steps_per_second": 28.299,
+      "step": 16900
+    },
+    {
+      "acc": 0.63471165,
+      "epoch": 0.4288432267884323,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.27891888051902e-06,
+      "loss": 1.65053787,
+      "memory(GiB)": 111.15,
+      "step": 16905,
+      "train_speed(iter/s)": 0.448297
+    },
+    {
+      "acc": 0.65053587,
+      "epoch": 0.42897006595636733,
+      "grad_norm": 5.375,
+      "learning_rate": 9.278376298081032e-06,
+      "loss": 1.66243649,
+      "memory(GiB)": 111.15,
+      "step": 16910,
+      "train_speed(iter/s)": 0.448367
+    },
+    {
+      "acc": 0.64819679,
+      "epoch": 0.4290969051243024,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.277833527460952e-06,
+      "loss": 1.65649776,
+      "memory(GiB)": 111.15,
+      "step": 16915,
+      "train_speed(iter/s)": 0.448437
+    },
+    {
+      "acc": 0.65822973,
+      "epoch": 0.4292237442922374,
+      "grad_norm": 5.25,
+      "learning_rate": 9.277290568682653e-06,
+      "loss": 1.67826843,
+      "memory(GiB)": 111.15,
+      "step": 16920,
+      "train_speed(iter/s)": 0.448507
+    },
+    {
+      "acc": 0.62949476,
+      "epoch": 0.4293505834601725,
+      "grad_norm": 5.375,
+      "learning_rate": 9.27674742177002e-06,
+      "loss": 1.71830711,
+      "memory(GiB)": 111.15,
+      "step": 16925,
+      "train_speed(iter/s)": 0.448576
+    },
+    {
+      "acc": 0.63309774,
+      "epoch": 0.42947742262810756,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.27620408674694e-06,
+      "loss": 1.61059761,
+      "memory(GiB)": 111.15,
+      "step": 16930,
+      "train_speed(iter/s)": 0.448645
+    },
+    {
+      "acc": 0.63333473,
+      "epoch": 0.4296042617960426,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.275660563637313e-06,
+      "loss": 1.63589363,
+      "memory(GiB)": 111.15,
+      "step": 16935,
+      "train_speed(iter/s)": 0.448715
+    },
+    {
+      "acc": 0.65663433,
+      "epoch": 0.42973110096397765,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.275116852465043e-06,
+      "loss": 1.64043427,
+      "memory(GiB)": 111.15,
+      "step": 16940,
+      "train_speed(iter/s)": 0.448785
+    },
+    {
+      "acc": 0.64849672,
+      "epoch": 0.42985794013191275,
+      "grad_norm": 5.84375,
+      "learning_rate": 9.274572953254048e-06,
+      "loss": 1.60335484,
+      "memory(GiB)": 111.15,
+      "step": 16945,
+      "train_speed(iter/s)": 0.448856
+    },
+    {
+      "acc": 0.66199055,
+      "epoch": 0.4299847792998478,
+      "grad_norm": 6.1875,
+      "learning_rate": 9.27402886602825e-06,
+      "loss": 1.52564068,
+      "memory(GiB)": 111.15,
+      "step": 16950,
+      "train_speed(iter/s)": 0.448925
+    },
+    {
+      "acc": 0.63999491,
+      "epoch": 0.43011161846778284,
+      "grad_norm": 5.78125,
+      "learning_rate": 9.27348459081158e-06,
+      "loss": 1.68128662,
+      "memory(GiB)": 111.15,
+      "step": 16955,
+      "train_speed(iter/s)": 0.448996
+    },
+    {
+      "acc": 0.6496212,
+      "epoch": 0.4302384576357179,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.272940127627979e-06,
+      "loss": 1.6156641,
+      "memory(GiB)": 111.15,
+      "step": 16960,
+      "train_speed(iter/s)": 0.449066
+    },
+    {
+      "acc": 0.64575748,
+      "epoch": 0.430365296803653,
+      "grad_norm": 6.40625,
+      "learning_rate": 9.272395476501392e-06,
+      "loss": 1.64408264,
+      "memory(GiB)": 111.15,
+      "step": 16965,
+      "train_speed(iter/s)": 0.449137
+    },
+    {
+      "acc": 0.63206034,
+      "epoch": 0.43049213597158803,
+      "grad_norm": 4.46875,
+      "learning_rate": 9.27185063745578e-06,
+      "loss": 1.71578598,
+      "memory(GiB)": 111.15,
+      "step": 16970,
+      "train_speed(iter/s)": 0.449207
+    },
+    {
+      "acc": 0.65571642,
+      "epoch": 0.4306189751395231,
+      "grad_norm": 5.0,
+      "learning_rate": 9.271305610515103e-06,
+      "loss": 1.59589539,
+      "memory(GiB)": 111.15,
+      "step": 16975,
+      "train_speed(iter/s)": 0.449277
+    },
+    {
+      "acc": 0.64838943,
+      "epoch": 0.4307458143074581,
+      "grad_norm": 4.625,
+      "learning_rate": 9.270760395703334e-06,
+      "loss": 1.65031166,
+      "memory(GiB)": 111.15,
+      "step": 16980,
+      "train_speed(iter/s)": 0.449347
+    },
+    {
+      "acc": 0.64349413,
+      "epoch": 0.4308726534753932,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.270214993044456e-06,
+      "loss": 1.68148384,
+      "memory(GiB)": 111.15,
+      "step": 16985,
+      "train_speed(iter/s)": 0.449417
+    },
+    {
+      "acc": 0.64259553,
+      "epoch": 0.43099949264332826,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.269669402562458e-06,
+      "loss": 1.64350758,
+      "memory(GiB)": 111.15,
+      "step": 16990,
+      "train_speed(iter/s)": 0.449487
+    },
+    {
+      "acc": 0.65871038,
+      "epoch": 0.4311263318112633,
+      "grad_norm": 5.5,
+      "learning_rate": 9.269123624281336e-06,
+      "loss": 1.62274895,
+      "memory(GiB)": 111.15,
+      "step": 16995,
+      "train_speed(iter/s)": 0.449557
+    },
+    {
+      "acc": 0.66687322,
+      "epoch": 0.43125317097919835,
+      "grad_norm": 4.75,
+      "learning_rate": 9.268577658225097e-06,
+      "loss": 1.50307837,
+      "memory(GiB)": 111.15,
+      "step": 17000,
+      "train_speed(iter/s)": 0.449627
+    },
+    {
+      "epoch": 0.43125317097919835,
+      "eval_acc": 0.6403203105515072,
+      "eval_loss": 1.625187635421753,
+      "eval_runtime": 113.4524,
+      "eval_samples_per_second": 56.147,
+      "eval_steps_per_second": 28.073,
+      "step": 17000
+    },
+    {
+      "acc": 0.65020485,
+      "epoch": 0.43138001014713345,
+      "grad_norm": 5.8125,
+      "learning_rate": 9.268031504417756e-06,
+      "loss": 1.62717075,
+      "memory(GiB)": 111.15,
+      "step": 17005,
+      "train_speed(iter/s)": 0.448298
+    },
+    {
+      "acc": 0.64776955,
+      "epoch": 0.4315068493150685,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.267485162883334e-06,
+      "loss": 1.66278648,
+      "memory(GiB)": 111.15,
+      "step": 17010,
+      "train_speed(iter/s)": 0.448367
+    },
+    {
+      "acc": 0.63303723,
+      "epoch": 0.43163368848300354,
+      "grad_norm": 5.9375,
+      "learning_rate": 9.266938633645861e-06,
+      "loss": 1.73811512,
+      "memory(GiB)": 111.15,
+      "step": 17015,
+      "train_speed(iter/s)": 0.448437
+    },
+    {
+      "acc": 0.66061316,
+      "epoch": 0.4317605276509386,
+      "grad_norm": 6.15625,
+      "learning_rate": 9.266391916729376e-06,
+      "loss": 1.57575855,
+      "memory(GiB)": 111.15,
+      "step": 17020,
+      "train_speed(iter/s)": 0.448507
+    },
+    {
+      "acc": 0.63892803,
+      "epoch": 0.4318873668188737,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.265845012157926e-06,
+      "loss": 1.66742783,
+      "memory(GiB)": 111.15,
+      "step": 17025,
+      "train_speed(iter/s)": 0.448576
+    },
+    {
+      "acc": 0.64368315,
+      "epoch": 0.43201420598680873,
+      "grad_norm": 6.09375,
+      "learning_rate": 9.265297919955566e-06,
+      "loss": 1.64607544,
+      "memory(GiB)": 111.15,
+      "step": 17030,
+      "train_speed(iter/s)": 0.448645
+    },
+    {
+      "acc": 0.64491901,
+      "epoch": 0.4321410451547438,
+      "grad_norm": 5.375,
+      "learning_rate": 9.264750640146363e-06,
+      "loss": 1.66307335,
+      "memory(GiB)": 111.15,
+      "step": 17035,
+      "train_speed(iter/s)": 0.448714
+    },
+    {
+      "acc": 0.64818497,
+      "epoch": 0.4322678843226788,
+      "grad_norm": 4.1875,
+      "learning_rate": 9.264203172754384e-06,
+      "loss": 1.64637089,
+      "memory(GiB)": 111.15,
+      "step": 17040,
+      "train_speed(iter/s)": 0.448783
+    },
+    {
+      "acc": 0.65443091,
+      "epoch": 0.4323947234906139,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.263655517803713e-06,
+      "loss": 1.68622589,
+      "memory(GiB)": 111.15,
+      "step": 17045,
+      "train_speed(iter/s)": 0.448852
+    },
+    {
+      "acc": 0.64291744,
+      "epoch": 0.43252156265854896,
+      "grad_norm": 4.5625,
+      "learning_rate": 9.263107675318434e-06,
+      "loss": 1.70068359,
+      "memory(GiB)": 111.15,
+      "step": 17050,
+      "train_speed(iter/s)": 0.448922
+    },
+    {
+      "acc": 0.65749989,
+      "epoch": 0.432648401826484,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.262559645322648e-06,
+      "loss": 1.62571373,
+      "memory(GiB)": 111.15,
+      "step": 17055,
+      "train_speed(iter/s)": 0.448991
+    },
+    {
+      "acc": 0.65325146,
+      "epoch": 0.43277524099441905,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.262011427840459e-06,
+      "loss": 1.62780533,
+      "memory(GiB)": 111.15,
+      "step": 17060,
+      "train_speed(iter/s)": 0.44906
+    },
+    {
+      "acc": 0.65508704,
+      "epoch": 0.43290208016235415,
+      "grad_norm": 5.0,
+      "learning_rate": 9.261463022895976e-06,
+      "loss": 1.53218727,
+      "memory(GiB)": 111.15,
+      "step": 17065,
+      "train_speed(iter/s)": 0.449128
+    },
+    {
+      "acc": 0.65401487,
+      "epoch": 0.4330289193302892,
+      "grad_norm": 5.78125,
+      "learning_rate": 9.260914430513325e-06,
+      "loss": 1.61691055,
+      "memory(GiB)": 111.15,
+      "step": 17070,
+      "train_speed(iter/s)": 0.449197
+    },
+    {
+      "acc": 0.63701439,
+      "epoch": 0.43315575849822424,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.260365650716632e-06,
+      "loss": 1.70378799,
+      "memory(GiB)": 111.15,
+      "step": 17075,
+      "train_speed(iter/s)": 0.449266
+    },
+    {
+      "acc": 0.64877682,
+      "epoch": 0.4332825976661593,
+      "grad_norm": 6.1875,
+      "learning_rate": 9.259816683530038e-06,
+      "loss": 1.67790031,
+      "memory(GiB)": 111.15,
+      "step": 17080,
+      "train_speed(iter/s)": 0.449335
+    },
+    {
+      "acc": 0.65751724,
+      "epoch": 0.4334094368340944,
+      "grad_norm": 5.25,
+      "learning_rate": 9.259267528977687e-06,
+      "loss": 1.57302475,
+      "memory(GiB)": 111.15,
+      "step": 17085,
+      "train_speed(iter/s)": 0.449405
+    },
+    {
+      "acc": 0.65287991,
+      "epoch": 0.43353627600202943,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.258718187083734e-06,
+      "loss": 1.63934536,
+      "memory(GiB)": 111.15,
+      "step": 17090,
+      "train_speed(iter/s)": 0.449473
+    },
+    {
+      "acc": 0.65327225,
+      "epoch": 0.4336631151699645,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.258168657872341e-06,
+      "loss": 1.62802601,
+      "memory(GiB)": 111.15,
+      "step": 17095,
+      "train_speed(iter/s)": 0.449543
+    },
+    {
+      "acc": 0.65321531,
+      "epoch": 0.4337899543378995,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.25761894136768e-06,
+      "loss": 1.66509285,
+      "memory(GiB)": 111.15,
+      "step": 17100,
+      "train_speed(iter/s)": 0.449612
+    },
+    {
+      "epoch": 0.4337899543378995,
+      "eval_acc": 0.6403015110225816,
+      "eval_loss": 1.6251171827316284,
+      "eval_runtime": 113.1828,
+      "eval_samples_per_second": 56.281,
+      "eval_steps_per_second": 28.14,
+      "step": 17100
+    },
+    {
+      "acc": 0.64019852,
+      "epoch": 0.4339167935058346,
+      "grad_norm": 4.53125,
+      "learning_rate": 9.25706903759393e-06,
+      "loss": 1.6697237,
+      "memory(GiB)": 111.15,
+      "step": 17105,
+      "train_speed(iter/s)": 0.448294
+    },
+    {
+      "acc": 0.65722713,
+      "epoch": 0.43404363267376966,
+      "grad_norm": 5.8125,
+      "learning_rate": 9.256518946575274e-06,
+      "loss": 1.59425831,
+      "memory(GiB)": 111.15,
+      "step": 17110,
+      "train_speed(iter/s)": 0.448363
+    },
+    {
+      "acc": 0.65019989,
+      "epoch": 0.4341704718417047,
+      "grad_norm": 6.8125,
+      "learning_rate": 9.255968668335912e-06,
+      "loss": 1.6627388,
+      "memory(GiB)": 111.15,
+      "step": 17115,
+      "train_speed(iter/s)": 0.448432
+    },
+    {
+      "acc": 0.64703226,
+      "epoch": 0.43429731100963975,
+      "grad_norm": 6.09375,
+      "learning_rate": 9.255418202900048e-06,
+      "loss": 1.6077858,
+      "memory(GiB)": 111.15,
+      "step": 17120,
+      "train_speed(iter/s)": 0.448501
+    },
+    {
+      "acc": 0.63817945,
+      "epoch": 0.43442415017757485,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.254867550291891e-06,
+      "loss": 1.68035316,
+      "memory(GiB)": 111.15,
+      "step": 17125,
+      "train_speed(iter/s)": 0.448569
+    },
+    {
+      "acc": 0.65268922,
+      "epoch": 0.4345509893455099,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.254316710535662e-06,
+      "loss": 1.5683012,
+      "memory(GiB)": 111.15,
+      "step": 17130,
+      "train_speed(iter/s)": 0.448638
+    },
+    {
+      "acc": 0.65181632,
+      "epoch": 0.43467782851344494,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.253765683655591e-06,
+      "loss": 1.63271027,
+      "memory(GiB)": 111.15,
+      "step": 17135,
+      "train_speed(iter/s)": 0.448707
+    },
+    {
+      "acc": 0.67040572,
+      "epoch": 0.43480466768138,
+      "grad_norm": 6.28125,
+      "learning_rate": 9.253214469675913e-06,
+      "loss": 1.57940731,
+      "memory(GiB)": 111.15,
+      "step": 17140,
+      "train_speed(iter/s)": 0.448776
+    },
+    {
+      "acc": 0.65769253,
+      "epoch": 0.4349315068493151,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.252663068620874e-06,
+      "loss": 1.62087173,
+      "memory(GiB)": 111.15,
+      "step": 17145,
+      "train_speed(iter/s)": 0.448845
+    },
+    {
+      "acc": 0.63956175,
+      "epoch": 0.43505834601725013,
+      "grad_norm": 4.46875,
+      "learning_rate": 9.252111480514726e-06,
+      "loss": 1.67999439,
+      "memory(GiB)": 111.15,
+      "step": 17150,
+      "train_speed(iter/s)": 0.448914
+    },
+    {
+      "acc": 0.6475544,
+      "epoch": 0.4351851851851852,
+      "grad_norm": 5.71875,
+      "learning_rate": 9.251559705381731e-06,
+      "loss": 1.66605186,
+      "memory(GiB)": 111.15,
+      "step": 17155,
+      "train_speed(iter/s)": 0.448982
+    },
+    {
+      "acc": 0.62009058,
+      "epoch": 0.4353120243531202,
+      "grad_norm": 6.21875,
+      "learning_rate": 9.251007743246159e-06,
+      "loss": 1.73617134,
+      "memory(GiB)": 111.15,
+      "step": 17160,
+      "train_speed(iter/s)": 0.449052
+    },
+    {
+      "acc": 0.66004038,
+      "epoch": 0.4354388635210553,
+      "grad_norm": 6.625,
+      "learning_rate": 9.250455594132286e-06,
+      "loss": 1.62910156,
+      "memory(GiB)": 111.15,
+      "step": 17165,
+      "train_speed(iter/s)": 0.449121
+    },
+    {
+      "acc": 0.6510251,
+      "epoch": 0.43556570268899036,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.249903258064399e-06,
+      "loss": 1.66936951,
+      "memory(GiB)": 111.15,
+      "step": 17170,
+      "train_speed(iter/s)": 0.44919
+    },
+    {
+      "acc": 0.65864077,
+      "epoch": 0.4356925418569254,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.249350735066792e-06,
+      "loss": 1.58294449,
+      "memory(GiB)": 111.15,
+      "step": 17175,
+      "train_speed(iter/s)": 0.44926
+    },
+    {
+      "acc": 0.63140764,
+      "epoch": 0.43581938102486045,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.248798025163768e-06,
+      "loss": 1.65163994,
+      "memory(GiB)": 111.15,
+      "step": 17180,
+      "train_speed(iter/s)": 0.449328
+    },
+    {
+      "acc": 0.65269561,
+      "epoch": 0.43594622019279555,
+      "grad_norm": 6.5,
+      "learning_rate": 9.248245128379638e-06,
+      "loss": 1.58572521,
+      "memory(GiB)": 111.15,
+      "step": 17185,
+      "train_speed(iter/s)": 0.449397
+    },
+    {
+      "acc": 0.64936581,
+      "epoch": 0.4360730593607306,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.24769204473872e-06,
+      "loss": 1.61195831,
+      "memory(GiB)": 111.15,
+      "step": 17190,
+      "train_speed(iter/s)": 0.449467
+    },
+    {
+      "acc": 0.6508296,
+      "epoch": 0.43619989852866564,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.24713877426534e-06,
+      "loss": 1.5736907,
+      "memory(GiB)": 111.15,
+      "step": 17195,
+      "train_speed(iter/s)": 0.449536
+    },
+    {
+      "acc": 0.65803494,
+      "epoch": 0.4363267376966007,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.246585316983837e-06,
+      "loss": 1.63135242,
+      "memory(GiB)": 111.15,
+      "step": 17200,
+      "train_speed(iter/s)": 0.449605
+    },
+    {
+      "epoch": 0.4363267376966007,
+      "eval_acc": 0.6402597342916359,
+      "eval_loss": 1.6247406005859375,
+      "eval_runtime": 113.2372,
+      "eval_samples_per_second": 56.254,
+      "eval_steps_per_second": 28.127,
+      "step": 17200
+    },
+    {
+      "acc": 0.63855062,
+      "epoch": 0.4364535768645358,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.24603167291855e-06,
+      "loss": 1.72843895,
+      "memory(GiB)": 111.15,
+      "step": 17205,
+      "train_speed(iter/s)": 0.448294
+    },
+    {
+      "acc": 0.64426422,
+      "epoch": 0.43658041603247083,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.245477842093832e-06,
+      "loss": 1.62153549,
+      "memory(GiB)": 111.15,
+      "step": 17210,
+      "train_speed(iter/s)": 0.448364
+    },
+    {
+      "acc": 0.64279222,
+      "epoch": 0.4367072552004059,
+      "grad_norm": 5.5,
+      "learning_rate": 9.244923824534046e-06,
+      "loss": 1.63029099,
+      "memory(GiB)": 111.15,
+      "step": 17215,
+      "train_speed(iter/s)": 0.448433
+    },
+    {
+      "acc": 0.63957987,
+      "epoch": 0.4368340943683409,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.244369620263558e-06,
+      "loss": 1.68073273,
+      "memory(GiB)": 111.15,
+      "step": 17220,
+      "train_speed(iter/s)": 0.448503
+    },
+    {
+      "acc": 0.64821095,
+      "epoch": 0.436960933536276,
+      "grad_norm": 5.5,
+      "learning_rate": 9.243815229306746e-06,
+      "loss": 1.60483761,
+      "memory(GiB)": 111.15,
+      "step": 17225,
+      "train_speed(iter/s)": 0.448571
+    },
+    {
+      "acc": 0.64310207,
+      "epoch": 0.43708777270421106,
+      "grad_norm": 6.125,
+      "learning_rate": 9.243260651687989e-06,
+      "loss": 1.69257698,
+      "memory(GiB)": 111.15,
+      "step": 17230,
+      "train_speed(iter/s)": 0.44864
+    },
+    {
+      "acc": 0.6435822,
+      "epoch": 0.4372146118721461,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.242705887431685e-06,
+      "loss": 1.67983665,
+      "memory(GiB)": 111.15,
+      "step": 17235,
+      "train_speed(iter/s)": 0.44871
+    },
+    {
+      "acc": 0.64623799,
+      "epoch": 0.43734145104008115,
+      "grad_norm": 6.59375,
+      "learning_rate": 9.242150936562235e-06,
+      "loss": 1.71585026,
+      "memory(GiB)": 111.15,
+      "step": 17240,
+      "train_speed(iter/s)": 0.448779
+    },
+    {
+      "acc": 0.65051394,
+      "epoch": 0.43746829020801625,
+      "grad_norm": 4.875,
+      "learning_rate": 9.241595799104046e-06,
+      "loss": 1.58839073,
+      "memory(GiB)": 111.15,
+      "step": 17245,
+      "train_speed(iter/s)": 0.448848
+    },
+    {
+      "acc": 0.6440589,
+      "epoch": 0.4375951293759513,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.241040475081537e-06,
+      "loss": 1.67115936,
+      "memory(GiB)": 111.15,
+      "step": 17250,
+      "train_speed(iter/s)": 0.448918
+    },
+    {
+      "acc": 0.63667784,
+      "epoch": 0.43772196854388634,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.240484964519131e-06,
+      "loss": 1.66938286,
+      "memory(GiB)": 111.15,
+      "step": 17255,
+      "train_speed(iter/s)": 0.448987
+    },
+    {
+      "acc": 0.65027533,
+      "epoch": 0.4378488077118214,
+      "grad_norm": 6.46875,
+      "learning_rate": 9.239929267441267e-06,
+      "loss": 1.60519676,
+      "memory(GiB)": 111.15,
+      "step": 17260,
+      "train_speed(iter/s)": 0.449057
+    },
+    {
+      "acc": 0.65911837,
+      "epoch": 0.4379756468797565,
+      "grad_norm": 5.71875,
+      "learning_rate": 9.239373383872382e-06,
+      "loss": 1.6991806,
+      "memory(GiB)": 111.15,
+      "step": 17265,
+      "train_speed(iter/s)": 0.449126
+    },
+    {
+      "acc": 0.63225455,
+      "epoch": 0.43810248604769153,
+      "grad_norm": 4.875,
+      "learning_rate": 9.238817313836927e-06,
+      "loss": 1.6116333,
+      "memory(GiB)": 111.15,
+      "step": 17270,
+      "train_speed(iter/s)": 0.449196
+    },
+    {
+      "acc": 0.65202637,
+      "epoch": 0.4382293252156266,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.238261057359365e-06,
+      "loss": 1.60404243,
+      "memory(GiB)": 111.15,
+      "step": 17275,
+      "train_speed(iter/s)": 0.449265
+    },
+    {
+      "acc": 0.64760871,
+      "epoch": 0.4383561643835616,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.237704614464157e-06,
+      "loss": 1.65551243,
+      "memory(GiB)": 111.15,
+      "step": 17280,
+      "train_speed(iter/s)": 0.449334
+    },
+    {
+      "acc": 0.64110723,
+      "epoch": 0.4384830035514967,
+      "grad_norm": 4.6875,
+      "learning_rate": 9.237147985175781e-06,
+      "loss": 1.67709274,
+      "memory(GiB)": 111.15,
+      "step": 17285,
+      "train_speed(iter/s)": 0.449403
+    },
+    {
+      "acc": 0.65886908,
+      "epoch": 0.43860984271943176,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.236591169518717e-06,
+      "loss": 1.62398186,
+      "memory(GiB)": 111.15,
+      "step": 17290,
+      "train_speed(iter/s)": 0.449473
+    },
+    {
+      "acc": 0.65168304,
+      "epoch": 0.4387366818873668,
+      "grad_norm": 5.625,
+      "learning_rate": 9.236034167517461e-06,
+      "loss": 1.65241547,
+      "memory(GiB)": 111.15,
+      "step": 17295,
+      "train_speed(iter/s)": 0.449542
+    },
+    {
+      "acc": 0.65537882,
+      "epoch": 0.43886352105530185,
+      "grad_norm": 6.5,
+      "learning_rate": 9.235476979196507e-06,
+      "loss": 1.61735764,
+      "memory(GiB)": 111.15,
+      "step": 17300,
+      "train_speed(iter/s)": 0.449611
+    },
+    {
+      "epoch": 0.43886352105530185,
+      "eval_acc": 0.6403086130668424,
+      "eval_loss": 1.624882459640503,
+      "eval_runtime": 113.5301,
+      "eval_samples_per_second": 56.108,
+      "eval_steps_per_second": 28.054,
+      "step": 17300
+    },
+    {
+      "acc": 0.65920978,
+      "epoch": 0.43899036022323695,
+      "grad_norm": 5.5,
+      "learning_rate": 9.234919604580368e-06,
+      "loss": 1.63529129,
+      "memory(GiB)": 111.15,
+      "step": 17305,
+      "train_speed(iter/s)": 0.448305
+    },
+    {
+      "acc": 0.66436696,
+      "epoch": 0.439117199391172,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.234362043693556e-06,
+      "loss": 1.55953693,
+      "memory(GiB)": 111.15,
+      "step": 17310,
+      "train_speed(iter/s)": 0.448374
+    },
+    {
+      "acc": 0.63698516,
+      "epoch": 0.43924403855910704,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.233804296560596e-06,
+      "loss": 1.64951096,
+      "memory(GiB)": 111.15,
+      "step": 17315,
+      "train_speed(iter/s)": 0.448441
+    },
+    {
+      "acc": 0.62880697,
+      "epoch": 0.4393708777270421,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.233246363206021e-06,
+      "loss": 1.72565022,
+      "memory(GiB)": 111.15,
+      "step": 17320,
+      "train_speed(iter/s)": 0.44851
+    },
+    {
+      "acc": 0.64421535,
+      "epoch": 0.4394977168949772,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.232688243654371e-06,
+      "loss": 1.70402832,
+      "memory(GiB)": 111.15,
+      "step": 17325,
+      "train_speed(iter/s)": 0.448579
+    },
+    {
+      "acc": 0.63451166,
+      "epoch": 0.43962455606291223,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.232129937930194e-06,
+      "loss": 1.71982594,
+      "memory(GiB)": 111.15,
+      "step": 17330,
+      "train_speed(iter/s)": 0.448647
+    },
+    {
+      "acc": 0.65267391,
+      "epoch": 0.4397513952308473,
+      "grad_norm": 4.875,
+      "learning_rate": 9.231571446058047e-06,
+      "loss": 1.69477425,
+      "memory(GiB)": 111.15,
+      "step": 17335,
+      "train_speed(iter/s)": 0.448716
+    },
+    {
+      "acc": 0.64612331,
+      "epoch": 0.4398782343987823,
+      "grad_norm": 4.4375,
+      "learning_rate": 9.231012768062497e-06,
+      "loss": 1.63679028,
+      "memory(GiB)": 111.15,
+      "step": 17340,
+      "train_speed(iter/s)": 0.448784
+    },
+    {
+      "acc": 0.64650884,
+      "epoch": 0.4400050735667174,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.230453903968112e-06,
+      "loss": 1.66090164,
+      "memory(GiB)": 111.15,
+      "step": 17345,
+      "train_speed(iter/s)": 0.448853
+    },
+    {
+      "acc": 0.65463758,
+      "epoch": 0.44013191273465246,
+      "grad_norm": 5.625,
+      "learning_rate": 9.22989485379948e-06,
+      "loss": 1.58351822,
+      "memory(GiB)": 111.15,
+      "step": 17350,
+      "train_speed(iter/s)": 0.448921
+    },
+    {
+      "acc": 0.65135288,
+      "epoch": 0.4402587519025875,
+      "grad_norm": 4.875,
+      "learning_rate": 9.229335617581187e-06,
+      "loss": 1.54890652,
+      "memory(GiB)": 111.15,
+      "step": 17355,
+      "train_speed(iter/s)": 0.44899
+    },
+    {
+      "acc": 0.65185184,
+      "epoch": 0.44038559107052255,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.22877619533783e-06,
+      "loss": 1.5950943,
+      "memory(GiB)": 111.15,
+      "step": 17360,
+      "train_speed(iter/s)": 0.449058
+    },
+    {
+      "acc": 0.6463582,
+      "epoch": 0.44051243023845765,
+      "grad_norm": 4.5625,
+      "learning_rate": 9.228216587094014e-06,
+      "loss": 1.61898041,
+      "memory(GiB)": 111.15,
+      "step": 17365,
+      "train_speed(iter/s)": 0.449127
+    },
+    {
+      "acc": 0.66250005,
+      "epoch": 0.4406392694063927,
+      "grad_norm": 6.15625,
+      "learning_rate": 9.227656792874358e-06,
+      "loss": 1.57358389,
+      "memory(GiB)": 111.15,
+      "step": 17370,
+      "train_speed(iter/s)": 0.449196
+    },
+    {
+      "acc": 0.64613991,
+      "epoch": 0.44076610857432774,
+      "grad_norm": 5.78125,
+      "learning_rate": 9.227096812703479e-06,
+      "loss": 1.65252304,
+      "memory(GiB)": 111.15,
+      "step": 17375,
+      "train_speed(iter/s)": 0.449264
+    },
+    {
+      "acc": 0.6440485,
+      "epoch": 0.4408929477422628,
+      "grad_norm": 6.15625,
+      "learning_rate": 9.22653664660601e-06,
+      "loss": 1.64063301,
+      "memory(GiB)": 111.15,
+      "step": 17380,
+      "train_speed(iter/s)": 0.449333
+    },
+    {
+      "acc": 0.65983057,
+      "epoch": 0.4410197869101979,
+      "grad_norm": 4.59375,
+      "learning_rate": 9.225976294606589e-06,
+      "loss": 1.64178658,
+      "memory(GiB)": 111.15,
+      "step": 17385,
+      "train_speed(iter/s)": 0.449401
+    },
+    {
+      "acc": 0.64442163,
+      "epoch": 0.44114662607813293,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.225415756729863e-06,
+      "loss": 1.61692619,
+      "memory(GiB)": 111.15,
+      "step": 17390,
+      "train_speed(iter/s)": 0.44947
+    },
+    {
+      "acc": 0.63393207,
+      "epoch": 0.441273465246068,
+      "grad_norm": 5.625,
+      "learning_rate": 9.224855033000489e-06,
+      "loss": 1.66131134,
+      "memory(GiB)": 111.15,
+      "step": 17395,
+      "train_speed(iter/s)": 0.449539
+    },
+    {
+      "acc": 0.66388664,
+      "epoch": 0.441400304414003,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.224294123443125e-06,
+      "loss": 1.58479557,
+      "memory(GiB)": 111.15,
+      "step": 17400,
+      "train_speed(iter/s)": 0.449606
+    },
+    {
+      "epoch": 0.441400304414003,
+      "eval_acc": 0.6403959264345189,
+      "eval_loss": 1.62440824508667,
+      "eval_runtime": 113.8729,
+      "eval_samples_per_second": 55.94,
+      "eval_steps_per_second": 27.97,
+      "step": 17400
+    },
+    {
+      "acc": 0.65850697,
+      "epoch": 0.4415271435819381,
+      "grad_norm": 4.75,
+      "learning_rate": 9.223733028082447e-06,
+      "loss": 1.59983654,
+      "memory(GiB)": 111.15,
+      "step": 17405,
+      "train_speed(iter/s)": 0.448303
+    },
+    {
+      "acc": 0.64719419,
+      "epoch": 0.44165398274987316,
+      "grad_norm": 5.5,
+      "learning_rate": 9.223171746943132e-06,
+      "loss": 1.63351135,
+      "memory(GiB)": 111.15,
+      "step": 17410,
+      "train_speed(iter/s)": 0.448372
+    },
+    {
+      "acc": 0.6586267,
+      "epoch": 0.4417808219178082,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.222610280049868e-06,
+      "loss": 1.66458321,
+      "memory(GiB)": 111.15,
+      "step": 17415,
+      "train_speed(iter/s)": 0.44844
+    },
+    {
+      "acc": 0.64104862,
+      "epoch": 0.44190766108574325,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.222048627427352e-06,
+      "loss": 1.70456543,
+      "memory(GiB)": 111.15,
+      "step": 17420,
+      "train_speed(iter/s)": 0.448508
+    },
+    {
+      "acc": 0.6553834,
+      "epoch": 0.44203450025367835,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.221486789100288e-06,
+      "loss": 1.66402206,
+      "memory(GiB)": 111.15,
+      "step": 17425,
+      "train_speed(iter/s)": 0.448577
+    },
+    {
+      "acc": 0.63825712,
+      "epoch": 0.4421613394216134,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.220924765093386e-06,
+      "loss": 1.658078,
+      "memory(GiB)": 111.15,
+      "step": 17430,
+      "train_speed(iter/s)": 0.448644
+    },
+    {
+      "acc": 0.63809042,
+      "epoch": 0.44228817858954844,
+      "grad_norm": 4.625,
+      "learning_rate": 9.220362555431369e-06,
+      "loss": 1.66647434,
+      "memory(GiB)": 111.15,
+      "step": 17435,
+      "train_speed(iter/s)": 0.448713
+    },
+    {
+      "acc": 0.63973818,
+      "epoch": 0.4424150177574835,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.219800160138964e-06,
+      "loss": 1.60111866,
+      "memory(GiB)": 111.15,
+      "step": 17440,
+      "train_speed(iter/s)": 0.448781
+    },
+    {
+      "acc": 0.64286842,
+      "epoch": 0.4425418569254186,
+      "grad_norm": 5.96875,
+      "learning_rate": 9.219237579240907e-06,
+      "loss": 1.63364887,
+      "memory(GiB)": 111.15,
+      "step": 17445,
+      "train_speed(iter/s)": 0.448849
+    },
+    {
+      "acc": 0.65482368,
+      "epoch": 0.44266869609335363,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.218674812761946e-06,
+      "loss": 1.62116699,
+      "memory(GiB)": 111.15,
+      "step": 17450,
+      "train_speed(iter/s)": 0.448917
+    },
+    {
+      "acc": 0.64408908,
+      "epoch": 0.4427955352612887,
+      "grad_norm": 4.5,
+      "learning_rate": 9.21811186072683e-06,
+      "loss": 1.61038818,
+      "memory(GiB)": 111.15,
+      "step": 17455,
+      "train_speed(iter/s)": 0.448985
+    },
+    {
+      "acc": 0.65263801,
+      "epoch": 0.4429223744292237,
+      "grad_norm": 5.75,
+      "learning_rate": 9.21754872316032e-06,
+      "loss": 1.62329941,
+      "memory(GiB)": 111.15,
+      "step": 17460,
+      "train_speed(iter/s)": 0.449054
+    },
+    {
+      "acc": 0.67120581,
+      "epoch": 0.4430492135971588,
+      "grad_norm": 6.375,
+      "learning_rate": 9.21698540008719e-06,
+      "loss": 1.57654953,
+      "memory(GiB)": 111.15,
+      "step": 17465,
+      "train_speed(iter/s)": 0.449122
+    },
+    {
+      "acc": 0.64745283,
+      "epoch": 0.44317605276509386,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.216421891532214e-06,
+      "loss": 1.62022858,
+      "memory(GiB)": 111.15,
+      "step": 17470,
+      "train_speed(iter/s)": 0.44919
+    },
+    {
+      "acc": 0.66475639,
+      "epoch": 0.4433028919330289,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.215858197520178e-06,
+      "loss": 1.64729557,
+      "memory(GiB)": 111.15,
+      "step": 17475,
+      "train_speed(iter/s)": 0.449257
+    },
+    {
+      "acc": 0.65051727,
+      "epoch": 0.44342973110096395,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.215294318075876e-06,
+      "loss": 1.63894806,
+      "memory(GiB)": 111.15,
+      "step": 17480,
+      "train_speed(iter/s)": 0.449326
+    },
+    {
+      "acc": 0.6567553,
+      "epoch": 0.44355657026889905,
+      "grad_norm": 5.71875,
+      "learning_rate": 9.21473025322411e-06,
+      "loss": 1.60424232,
+      "memory(GiB)": 111.15,
+      "step": 17485,
+      "train_speed(iter/s)": 0.449395
+    },
+    {
+      "acc": 0.64634748,
+      "epoch": 0.4436834094368341,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.21416600298969e-06,
+      "loss": 1.67242088,
+      "memory(GiB)": 111.15,
+      "step": 17490,
+      "train_speed(iter/s)": 0.449464
+    },
+    {
+      "acc": 0.64441948,
+      "epoch": 0.44381024860476914,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.213601567397434e-06,
+      "loss": 1.57439709,
+      "memory(GiB)": 111.15,
+      "step": 17495,
+      "train_speed(iter/s)": 0.449532
+    },
+    {
+      "acc": 0.63889122,
+      "epoch": 0.4439370877727042,
+      "grad_norm": 6.0625,
+      "learning_rate": 9.213036946472169e-06,
+      "loss": 1.71897106,
+      "memory(GiB)": 111.15,
+      "step": 17500,
+      "train_speed(iter/s)": 0.449601
+    },
+    {
+      "epoch": 0.4439370877727042,
+      "eval_acc": 0.6405183322561899,
+      "eval_loss": 1.623980164527893,
+      "eval_runtime": 112.9493,
+      "eval_samples_per_second": 56.397,
+      "eval_steps_per_second": 28.198,
+      "step": 17500
+    },
+    {
+      "acc": 0.63506665,
+      "epoch": 0.4440639269406393,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.212472140238729e-06,
+      "loss": 1.64957829,
+      "memory(GiB)": 111.15,
+      "step": 17505,
+      "train_speed(iter/s)": 0.448317
+    },
+    {
+      "acc": 0.64288025,
+      "epoch": 0.44419076610857433,
+      "grad_norm": 5.75,
+      "learning_rate": 9.211907148721958e-06,
+      "loss": 1.65521431,
+      "memory(GiB)": 111.15,
+      "step": 17510,
+      "train_speed(iter/s)": 0.448387
+    },
+    {
+      "acc": 0.65054607,
+      "epoch": 0.4443176052765094,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.211341971946705e-06,
+      "loss": 1.63157272,
+      "memory(GiB)": 111.15,
+      "step": 17515,
+      "train_speed(iter/s)": 0.448455
+    },
+    {
+      "acc": 0.66537852,
+      "epoch": 0.4444444444444444,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.21077660993783e-06,
+      "loss": 1.615765,
+      "memory(GiB)": 111.15,
+      "step": 17520,
+      "train_speed(iter/s)": 0.448524
+    },
+    {
+      "acc": 0.65197239,
+      "epoch": 0.4445712836123795,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.210211062720198e-06,
+      "loss": 1.68479404,
+      "memory(GiB)": 111.15,
+      "step": 17525,
+      "train_speed(iter/s)": 0.448592
+    },
+    {
+      "acc": 0.6300189,
+      "epoch": 0.44469812278031456,
+      "grad_norm": 4.75,
+      "learning_rate": 9.209645330318689e-06,
+      "loss": 1.71307297,
+      "memory(GiB)": 111.15,
+      "step": 17530,
+      "train_speed(iter/s)": 0.448661
+    },
+    {
+      "acc": 0.64983711,
+      "epoch": 0.4448249619482496,
+      "grad_norm": 5.9375,
+      "learning_rate": 9.209079412758183e-06,
+      "loss": 1.66355667,
+      "memory(GiB)": 111.15,
+      "step": 17535,
+      "train_speed(iter/s)": 0.44873
+    },
+    {
+      "acc": 0.64501028,
+      "epoch": 0.44495180111618465,
+      "grad_norm": 5.75,
+      "learning_rate": 9.208513310063572e-06,
+      "loss": 1.67153988,
+      "memory(GiB)": 111.15,
+      "step": 17540,
+      "train_speed(iter/s)": 0.448799
+    },
+    {
+      "acc": 0.65297213,
+      "epoch": 0.44507864028411975,
+      "grad_norm": 6.40625,
+      "learning_rate": 9.207947022259755e-06,
+      "loss": 1.63022537,
+      "memory(GiB)": 111.15,
+      "step": 17545,
+      "train_speed(iter/s)": 0.448868
+    },
+    {
+      "acc": 0.66059427,
+      "epoch": 0.4452054794520548,
+      "grad_norm": 6.1875,
+      "learning_rate": 9.207380549371642e-06,
+      "loss": 1.59212646,
+      "memory(GiB)": 111.15,
+      "step": 17550,
+      "train_speed(iter/s)": 0.448937
+    },
+    {
+      "acc": 0.64103365,
+      "epoch": 0.44533231861998984,
+      "grad_norm": 6.03125,
+      "learning_rate": 9.206813891424147e-06,
+      "loss": 1.69040985,
+      "memory(GiB)": 111.15,
+      "step": 17555,
+      "train_speed(iter/s)": 0.449005
+    },
+    {
+      "acc": 0.63632727,
+      "epoch": 0.4454591577879249,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.206247048442196e-06,
+      "loss": 1.703442,
+      "memory(GiB)": 111.15,
+      "step": 17560,
+      "train_speed(iter/s)": 0.449074
+    },
+    {
+      "acc": 0.64868164,
+      "epoch": 0.44558599695586,
+      "grad_norm": 4.875,
+      "learning_rate": 9.20568002045072e-06,
+      "loss": 1.65853691,
+      "memory(GiB)": 111.15,
+      "step": 17565,
+      "train_speed(iter/s)": 0.449144
+    },
+    {
+      "acc": 0.63786397,
+      "epoch": 0.44571283612379503,
+      "grad_norm": 4.625,
+      "learning_rate": 9.20511280747466e-06,
+      "loss": 1.64694061,
+      "memory(GiB)": 111.15,
+      "step": 17570,
+      "train_speed(iter/s)": 0.449213
+    },
+    {
+      "acc": 0.65984659,
+      "epoch": 0.4458396752917301,
+      "grad_norm": 4.40625,
+      "learning_rate": 9.204545409538962e-06,
+      "loss": 1.57792387,
+      "memory(GiB)": 111.15,
+      "step": 17575,
+      "train_speed(iter/s)": 0.449282
+    },
+    {
+      "acc": 0.63484135,
+      "epoch": 0.4459665144596651,
+      "grad_norm": 5.0,
+      "learning_rate": 9.203977826668587e-06,
+      "loss": 1.74068489,
+      "memory(GiB)": 111.15,
+      "step": 17580,
+      "train_speed(iter/s)": 0.449351
+    },
+    {
+      "acc": 0.66680708,
+      "epoch": 0.4460933536276002,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.203410058888498e-06,
+      "loss": 1.58136053,
+      "memory(GiB)": 111.15,
+      "step": 17585,
+      "train_speed(iter/s)": 0.449419
+    },
+    {
+      "acc": 0.6496191,
+      "epoch": 0.44622019279553526,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.202842106223667e-06,
+      "loss": 1.65004292,
+      "memory(GiB)": 111.15,
+      "step": 17590,
+      "train_speed(iter/s)": 0.449487
+    },
+    {
+      "acc": 0.63693981,
+      "epoch": 0.4463470319634703,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.202273968699075e-06,
+      "loss": 1.7075491,
+      "memory(GiB)": 111.15,
+      "step": 17595,
+      "train_speed(iter/s)": 0.449556
+    },
+    {
+      "acc": 0.66062627,
+      "epoch": 0.44647387113140535,
+      "grad_norm": 7.09375,
+      "learning_rate": 9.201705646339714e-06,
+      "loss": 1.65188828,
+      "memory(GiB)": 111.15,
+      "step": 17600,
+      "train_speed(iter/s)": 0.449626
+    },
+    {
+      "epoch": 0.44647387113140535,
+      "eval_acc": 0.6404506539520579,
+      "eval_loss": 1.6242213249206543,
+      "eval_runtime": 113.5679,
+      "eval_samples_per_second": 56.09,
+      "eval_steps_per_second": 28.045,
+      "step": 17600
+    },
+    {
+      "acc": 0.64620657,
+      "epoch": 0.44660071029934045,
+      "grad_norm": 4.625,
+      "learning_rate": 9.201137139170578e-06,
+      "loss": 1.59510727,
+      "memory(GiB)": 111.15,
+      "step": 17605,
+      "train_speed(iter/s)": 0.448341
+    },
+    {
+      "acc": 0.65623522,
+      "epoch": 0.4467275494672755,
+      "grad_norm": 4.875,
+      "learning_rate": 9.200568447216673e-06,
+      "loss": 1.60194702,
+      "memory(GiB)": 111.15,
+      "step": 17610,
+      "train_speed(iter/s)": 0.448409
+    },
+    {
+      "acc": 0.6442317,
+      "epoch": 0.44685438863521054,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.199999570503015e-06,
+      "loss": 1.60527325,
+      "memory(GiB)": 111.15,
+      "step": 17615,
+      "train_speed(iter/s)": 0.448476
+    },
+    {
+      "acc": 0.62959371,
+      "epoch": 0.4469812278031456,
+      "grad_norm": 4.28125,
+      "learning_rate": 9.199430509054625e-06,
+      "loss": 1.78597984,
+      "memory(GiB)": 111.15,
+      "step": 17620,
+      "train_speed(iter/s)": 0.448544
+    },
+    {
+      "acc": 0.64660616,
+      "epoch": 0.4471080669710807,
+      "grad_norm": 5.71875,
+      "learning_rate": 9.19886126289653e-06,
+      "loss": 1.61263046,
+      "memory(GiB)": 111.15,
+      "step": 17625,
+      "train_speed(iter/s)": 0.448611
+    },
+    {
+      "acc": 0.65171008,
+      "epoch": 0.44723490613901573,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.198291832053771e-06,
+      "loss": 1.67300797,
+      "memory(GiB)": 111.15,
+      "step": 17630,
+      "train_speed(iter/s)": 0.448679
+    },
+    {
+      "acc": 0.64988079,
+      "epoch": 0.4473617453069508,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.197722216551395e-06,
+      "loss": 1.65984192,
+      "memory(GiB)": 111.15,
+      "step": 17635,
+      "train_speed(iter/s)": 0.448747
+    },
+    {
+      "acc": 0.65121088,
+      "epoch": 0.4474885844748858,
+      "grad_norm": 4.21875,
+      "learning_rate": 9.197152416414452e-06,
+      "loss": 1.5902524,
+      "memory(GiB)": 111.15,
+      "step": 17640,
+      "train_speed(iter/s)": 0.448815
+    },
+    {
+      "acc": 0.63410759,
+      "epoch": 0.4476154236428209,
+      "grad_norm": 5.125,
+      "learning_rate": 9.196582431668007e-06,
+      "loss": 1.74448967,
+      "memory(GiB)": 111.15,
+      "step": 17645,
+      "train_speed(iter/s)": 0.448883
+    },
+    {
+      "acc": 0.65439372,
+      "epoch": 0.44774226281075596,
+      "grad_norm": 5.96875,
+      "learning_rate": 9.196012262337131e-06,
+      "loss": 1.6173748,
+      "memory(GiB)": 111.15,
+      "step": 17650,
+      "train_speed(iter/s)": 0.44895
+    },
+    {
+      "acc": 0.63598108,
+      "epoch": 0.447869101978691,
+      "grad_norm": 5.25,
+      "learning_rate": 9.195441908446902e-06,
+      "loss": 1.73254776,
+      "memory(GiB)": 111.15,
+      "step": 17655,
+      "train_speed(iter/s)": 0.449018
+    },
+    {
+      "acc": 0.65106153,
+      "epoch": 0.44799594114662605,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.194871370022407e-06,
+      "loss": 1.64211044,
+      "memory(GiB)": 111.15,
+      "step": 17660,
+      "train_speed(iter/s)": 0.449086
+    },
+    {
+      "acc": 0.65856009,
+      "epoch": 0.44812278031456115,
+      "grad_norm": 5.375,
+      "learning_rate": 9.194300647088739e-06,
+      "loss": 1.63055153,
+      "memory(GiB)": 111.15,
+      "step": 17665,
+      "train_speed(iter/s)": 0.449154
+    },
+    {
+      "acc": 0.63350105,
+      "epoch": 0.4482496194824962,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.193729739671002e-06,
+      "loss": 1.66326599,
+      "memory(GiB)": 111.15,
+      "step": 17670,
+      "train_speed(iter/s)": 0.449222
+    },
+    {
+      "acc": 0.64212017,
+      "epoch": 0.44837645865043124,
+      "grad_norm": 4.375,
+      "learning_rate": 9.193158647794308e-06,
+      "loss": 1.64019852,
+      "memory(GiB)": 111.15,
+      "step": 17675,
+      "train_speed(iter/s)": 0.449289
+    },
+    {
+      "acc": 0.63937368,
+      "epoch": 0.4485032978183663,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.192587371483777e-06,
+      "loss": 1.65612164,
+      "memory(GiB)": 111.15,
+      "step": 17680,
+      "train_speed(iter/s)": 0.449357
+    },
+    {
+      "acc": 0.63299065,
+      "epoch": 0.4486301369863014,
+      "grad_norm": 5.8125,
+      "learning_rate": 9.192015910764535e-06,
+      "loss": 1.72685509,
+      "memory(GiB)": 111.15,
+      "step": 17685,
+      "train_speed(iter/s)": 0.449425
+    },
+    {
+      "acc": 0.65312276,
+      "epoch": 0.44875697615423643,
+      "grad_norm": 5.75,
+      "learning_rate": 9.191444265661715e-06,
+      "loss": 1.65709629,
+      "memory(GiB)": 111.15,
+      "step": 17690,
+      "train_speed(iter/s)": 0.449492
+    },
+    {
+      "acc": 0.6427393,
+      "epoch": 0.4488838153221715,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.190872436200464e-06,
+      "loss": 1.67179337,
+      "memory(GiB)": 111.15,
+      "step": 17695,
+      "train_speed(iter/s)": 0.44956
+    },
+    {
+      "acc": 0.63243065,
+      "epoch": 0.4490106544901065,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.190300422405933e-06,
+      "loss": 1.65096474,
+      "memory(GiB)": 111.15,
+      "step": 17700,
+      "train_speed(iter/s)": 0.449628
+    },
+    {
+      "epoch": 0.4490106544901065,
+      "eval_acc": 0.640498279425336,
+      "eval_loss": 1.6239088773727417,
+      "eval_runtime": 112.7349,
+      "eval_samples_per_second": 56.504,
+      "eval_steps_per_second": 28.252,
+      "step": 17700
+    },
+    {
+      "acc": 0.64403028,
+      "epoch": 0.4491374936580416,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.18972822430328e-06,
+      "loss": 1.66656342,
+      "memory(GiB)": 111.15,
+      "step": 17705,
+      "train_speed(iter/s)": 0.448359
+    },
+    {
+      "acc": 0.65383954,
+      "epoch": 0.44926433282597666,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.189155841917675e-06,
+      "loss": 1.57767296,
+      "memory(GiB)": 111.15,
+      "step": 17710,
+      "train_speed(iter/s)": 0.448426
+    },
+    {
+      "acc": 0.64086895,
+      "epoch": 0.4493911719939117,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.18858327527429e-06,
+      "loss": 1.6762289,
+      "memory(GiB)": 111.15,
+      "step": 17715,
+      "train_speed(iter/s)": 0.448493
+    },
+    {
+      "acc": 0.6326602,
+      "epoch": 0.44951801116184675,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.188010524398314e-06,
+      "loss": 1.66197205,
+      "memory(GiB)": 111.15,
+      "step": 17720,
+      "train_speed(iter/s)": 0.44856
+    },
+    {
+      "acc": 0.67263527,
+      "epoch": 0.44964485032978185,
+      "grad_norm": 5.78125,
+      "learning_rate": 9.187437589314939e-06,
+      "loss": 1.51285524,
+      "memory(GiB)": 111.15,
+      "step": 17725,
+      "train_speed(iter/s)": 0.448627
+    },
+    {
+      "acc": 0.65184336,
+      "epoch": 0.4497716894977169,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.186864470049358e-06,
+      "loss": 1.58560781,
+      "memory(GiB)": 111.15,
+      "step": 17730,
+      "train_speed(iter/s)": 0.448694
+    },
+    {
+      "acc": 0.6573977,
+      "epoch": 0.44989852866565194,
+      "grad_norm": 4.5,
+      "learning_rate": 9.186291166626789e-06,
+      "loss": 1.61542797,
+      "memory(GiB)": 111.15,
+      "step": 17735,
+      "train_speed(iter/s)": 0.448762
+    },
+    {
+      "acc": 0.65138731,
+      "epoch": 0.450025367833587,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.185717679072444e-06,
+      "loss": 1.6294775,
+      "memory(GiB)": 111.15,
+      "step": 17740,
+      "train_speed(iter/s)": 0.448829
+    },
+    {
+      "acc": 0.64548292,
+      "epoch": 0.4501522070015221,
+      "grad_norm": 5.0,
+      "learning_rate": 9.185144007411547e-06,
+      "loss": 1.64064255,
+      "memory(GiB)": 111.15,
+      "step": 17745,
+      "train_speed(iter/s)": 0.448896
+    },
+    {
+      "acc": 0.62352839,
+      "epoch": 0.45027904616945713,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.18457015166933e-06,
+      "loss": 1.63757572,
+      "memory(GiB)": 111.15,
+      "step": 17750,
+      "train_speed(iter/s)": 0.448963
+    },
+    {
+      "acc": 0.65318966,
+      "epoch": 0.4504058853373922,
+      "grad_norm": 6.3125,
+      "learning_rate": 9.183996111871034e-06,
+      "loss": 1.59947195,
+      "memory(GiB)": 111.15,
+      "step": 17755,
+      "train_speed(iter/s)": 0.449031
+    },
+    {
+      "acc": 0.66034698,
+      "epoch": 0.4505327245053272,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.18342188804191e-06,
+      "loss": 1.67865868,
+      "memory(GiB)": 111.15,
+      "step": 17760,
+      "train_speed(iter/s)": 0.449098
+    },
+    {
+      "acc": 0.64079933,
+      "epoch": 0.4506595636732623,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.182847480207215e-06,
+      "loss": 1.62811966,
+      "memory(GiB)": 111.15,
+      "step": 17765,
+      "train_speed(iter/s)": 0.449166
+    },
+    {
+      "acc": 0.65363417,
+      "epoch": 0.45078640284119736,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.182272888392211e-06,
+      "loss": 1.59235191,
+      "memory(GiB)": 111.15,
+      "step": 17770,
+      "train_speed(iter/s)": 0.449233
+    },
+    {
+      "acc": 0.64311705,
+      "epoch": 0.4509132420091324,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.181698112622175e-06,
+      "loss": 1.63919029,
+      "memory(GiB)": 111.15,
+      "step": 17775,
+      "train_speed(iter/s)": 0.449301
+    },
+    {
+      "acc": 0.62075005,
+      "epoch": 0.45104008117706745,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.181123152922384e-06,
+      "loss": 1.67774334,
+      "memory(GiB)": 111.15,
+      "step": 17780,
+      "train_speed(iter/s)": 0.449368
+    },
+    {
+      "acc": 0.64064837,
+      "epoch": 0.45116692034500255,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.18054800931813e-06,
+      "loss": 1.66456299,
+      "memory(GiB)": 111.15,
+      "step": 17785,
+      "train_speed(iter/s)": 0.449435
+    },
+    {
+      "acc": 0.64071608,
+      "epoch": 0.4512937595129376,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.17997268183471e-06,
+      "loss": 1.60889549,
+      "memory(GiB)": 111.15,
+      "step": 17790,
+      "train_speed(iter/s)": 0.449503
+    },
+    {
+      "acc": 0.62419043,
+      "epoch": 0.45142059868087264,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.17939717049743e-06,
+      "loss": 1.73013268,
+      "memory(GiB)": 111.15,
+      "step": 17795,
+      "train_speed(iter/s)": 0.44957
+    },
+    {
+      "acc": 0.65376396,
+      "epoch": 0.4515474378488077,
+      "grad_norm": 6.03125,
+      "learning_rate": 9.1788214753316e-06,
+      "loss": 1.65573158,
+      "memory(GiB)": 111.15,
+      "step": 17800,
+      "train_speed(iter/s)": 0.449637
+    },
+    {
+      "epoch": 0.4515474378488077,
+      "eval_acc": 0.6405325363447115,
+      "eval_loss": 1.6238375902175903,
+      "eval_runtime": 113.9741,
+      "eval_samples_per_second": 55.89,
+      "eval_steps_per_second": 27.945,
+      "step": 17800
+    },
+    {
+      "acc": 0.65548811,
+      "epoch": 0.4516742770167428,
+      "grad_norm": 5.71875,
+      "learning_rate": 9.178245596362546e-06,
+      "loss": 1.63439941,
+      "memory(GiB)": 111.15,
+      "step": 17805,
+      "train_speed(iter/s)": 0.448362
+    },
+    {
+      "acc": 0.64623051,
+      "epoch": 0.45180111618467783,
+      "grad_norm": 5.71875,
+      "learning_rate": 9.177669533615599e-06,
+      "loss": 1.63227196,
+      "memory(GiB)": 111.15,
+      "step": 17810,
+      "train_speed(iter/s)": 0.448429
+    },
+    {
+      "acc": 0.65017509,
+      "epoch": 0.4519279553526129,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.17709328711609e-06,
+      "loss": 1.58975277,
+      "memory(GiB)": 111.15,
+      "step": 17815,
+      "train_speed(iter/s)": 0.448495
+    },
+    {
+      "acc": 0.63670368,
+      "epoch": 0.4520547945205479,
+      "grad_norm": 4.875,
+      "learning_rate": 9.17651685688937e-06,
+      "loss": 1.67137413,
+      "memory(GiB)": 111.15,
+      "step": 17820,
+      "train_speed(iter/s)": 0.448562
+    },
+    {
+      "acc": 0.64195786,
+      "epoch": 0.452181633688483,
+      "grad_norm": 5.71875,
+      "learning_rate": 9.175940242960792e-06,
+      "loss": 1.66914978,
+      "memory(GiB)": 111.15,
+      "step": 17825,
+      "train_speed(iter/s)": 0.448629
+    },
+    {
+      "acc": 0.64658833,
+      "epoch": 0.45230847285641806,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.175363445355718e-06,
+      "loss": 1.69142265,
+      "memory(GiB)": 111.15,
+      "step": 17830,
+      "train_speed(iter/s)": 0.448696
+    },
+    {
+      "acc": 0.656566,
+      "epoch": 0.4524353120243531,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.174786464099519e-06,
+      "loss": 1.62445297,
+      "memory(GiB)": 111.15,
+      "step": 17835,
+      "train_speed(iter/s)": 0.448762
+    },
+    {
+      "acc": 0.63754616,
+      "epoch": 0.45256215119228815,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.17420929921757e-06,
+      "loss": 1.66258202,
+      "memory(GiB)": 111.15,
+      "step": 17840,
+      "train_speed(iter/s)": 0.448829
+    },
+    {
+      "acc": 0.66223087,
+      "epoch": 0.45268899036022325,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.173631950735262e-06,
+      "loss": 1.57992363,
+      "memory(GiB)": 111.15,
+      "step": 17845,
+      "train_speed(iter/s)": 0.448896
+    },
+    {
+      "acc": 0.65069013,
+      "epoch": 0.4528158295281583,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.173054418677985e-06,
+      "loss": 1.66575012,
+      "memory(GiB)": 111.15,
+      "step": 17850,
+      "train_speed(iter/s)": 0.448963
+    },
+    {
+      "acc": 0.65472178,
+      "epoch": 0.45294266869609334,
+      "grad_norm": 6.25,
+      "learning_rate": 9.172476703071145e-06,
+      "loss": 1.61576538,
+      "memory(GiB)": 111.15,
+      "step": 17855,
+      "train_speed(iter/s)": 0.44903
+    },
+    {
+      "acc": 0.65945024,
+      "epoch": 0.4530695078640284,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.171898803940148e-06,
+      "loss": 1.56042118,
+      "memory(GiB)": 111.15,
+      "step": 17860,
+      "train_speed(iter/s)": 0.449097
+    },
+    {
+      "acc": 0.65726843,
+      "epoch": 0.4531963470319635,
+      "grad_norm": 4.5625,
+      "learning_rate": 9.17132072131042e-06,
+      "loss": 1.58314571,
+      "memory(GiB)": 111.15,
+      "step": 17865,
+      "train_speed(iter/s)": 0.449164
+    },
+    {
+      "acc": 0.64883142,
+      "epoch": 0.45332318619989853,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.170742455207378e-06,
+      "loss": 1.63162174,
+      "memory(GiB)": 111.15,
+      "step": 17870,
+      "train_speed(iter/s)": 0.449231
+    },
+    {
+      "acc": 0.64885511,
+      "epoch": 0.4534500253678336,
+      "grad_norm": 6.125,
+      "learning_rate": 9.170164005656465e-06,
+      "loss": 1.62406502,
+      "memory(GiB)": 111.15,
+      "step": 17875,
+      "train_speed(iter/s)": 0.449297
+    },
+    {
+      "acc": 0.66215086,
+      "epoch": 0.4535768645357686,
+      "grad_norm": 5.375,
+      "learning_rate": 9.169585372683118e-06,
+      "loss": 1.50632133,
+      "memory(GiB)": 111.15,
+      "step": 17880,
+      "train_speed(iter/s)": 0.449363
+    },
+    {
+      "acc": 0.65495596,
+      "epoch": 0.4537037037037037,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.169006556312794e-06,
+      "loss": 1.63736,
+      "memory(GiB)": 111.15,
+      "step": 17885,
+      "train_speed(iter/s)": 0.44943
+    },
+    {
+      "acc": 0.63862047,
+      "epoch": 0.45383054287163876,
+      "grad_norm": 5.5,
+      "learning_rate": 9.168427556570946e-06,
+      "loss": 1.68051605,
+      "memory(GiB)": 111.15,
+      "step": 17890,
+      "train_speed(iter/s)": 0.449496
+    },
+    {
+      "acc": 0.66267829,
+      "epoch": 0.4539573820395738,
+      "grad_norm": 5.5,
+      "learning_rate": 9.167848373483044e-06,
+      "loss": 1.61647301,
+      "memory(GiB)": 111.15,
+      "step": 17895,
+      "train_speed(iter/s)": 0.449563
+    },
+    {
+      "acc": 0.649401,
+      "epoch": 0.45408422120750885,
+      "grad_norm": 5.0,
+      "learning_rate": 9.167269007074561e-06,
+      "loss": 1.65486622,
+      "memory(GiB)": 111.15,
+      "step": 17900,
+      "train_speed(iter/s)": 0.449628
+    },
+    {
+      "epoch": 0.45408422120750885,
+      "eval_acc": 0.6406048100892476,
+      "eval_loss": 1.6238631010055542,
+      "eval_runtime": 113.4548,
+      "eval_samples_per_second": 56.146,
+      "eval_steps_per_second": 28.073,
+      "step": 17900
+    },
+    {
+      "acc": 0.64790087,
+      "epoch": 0.45421106037544395,
+      "grad_norm": 4.125,
+      "learning_rate": 9.166689457370983e-06,
+      "loss": 1.62117558,
+      "memory(GiB)": 111.15,
+      "step": 17905,
+      "train_speed(iter/s)": 0.448367
+    },
+    {
+      "acc": 0.62897086,
+      "epoch": 0.454337899543379,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.166109724397801e-06,
+      "loss": 1.666782,
+      "memory(GiB)": 111.15,
+      "step": 17910,
+      "train_speed(iter/s)": 0.448433
+    },
+    {
+      "acc": 0.64613833,
+      "epoch": 0.45446473871131404,
+      "grad_norm": 6.0625,
+      "learning_rate": 9.165529808180511e-06,
+      "loss": 1.62342339,
+      "memory(GiB)": 111.15,
+      "step": 17915,
+      "train_speed(iter/s)": 0.4485
+    },
+    {
+      "acc": 0.64871936,
+      "epoch": 0.4545915778792491,
+      "grad_norm": 4.625,
+      "learning_rate": 9.164949708744622e-06,
+      "loss": 1.64257069,
+      "memory(GiB)": 111.15,
+      "step": 17920,
+      "train_speed(iter/s)": 0.448566
+    },
+    {
+      "acc": 0.64706926,
+      "epoch": 0.4547184170471842,
+      "grad_norm": 6.96875,
+      "learning_rate": 9.164369426115652e-06,
+      "loss": 1.58816538,
+      "memory(GiB)": 111.15,
+      "step": 17925,
+      "train_speed(iter/s)": 0.448632
+    },
+    {
+      "acc": 0.64860559,
+      "epoch": 0.45484525621511923,
+      "grad_norm": 5.125,
+      "learning_rate": 9.16378896031912e-06,
+      "loss": 1.67462597,
+      "memory(GiB)": 111.15,
+      "step": 17930,
+      "train_speed(iter/s)": 0.448698
+    },
+    {
+      "acc": 0.64833298,
+      "epoch": 0.4549720953830543,
+      "grad_norm": 5.5,
+      "learning_rate": 9.163208311380561e-06,
+      "loss": 1.62704239,
+      "memory(GiB)": 111.15,
+      "step": 17935,
+      "train_speed(iter/s)": 0.448763
+    },
+    {
+      "acc": 0.65435486,
+      "epoch": 0.4550989345509893,
+      "grad_norm": 4.59375,
+      "learning_rate": 9.162627479325511e-06,
+      "loss": 1.60184784,
+      "memory(GiB)": 111.15,
+      "step": 17940,
+      "train_speed(iter/s)": 0.448828
+    },
+    {
+      "acc": 0.65640984,
+      "epoch": 0.4552257737189244,
+      "grad_norm": 6.09375,
+      "learning_rate": 9.16204646417952e-06,
+      "loss": 1.61401539,
+      "memory(GiB)": 111.15,
+      "step": 17945,
+      "train_speed(iter/s)": 0.448894
+    },
+    {
+      "acc": 0.65014968,
+      "epoch": 0.45535261288685946,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.161465265968145e-06,
+      "loss": 1.5764678,
+      "memory(GiB)": 111.15,
+      "step": 17950,
+      "train_speed(iter/s)": 0.448959
+    },
+    {
+      "acc": 0.66462374,
+      "epoch": 0.4554794520547945,
+      "grad_norm": 6.0625,
+      "learning_rate": 9.160883884716948e-06,
+      "loss": 1.5784709,
+      "memory(GiB)": 111.15,
+      "step": 17955,
+      "train_speed(iter/s)": 0.449025
+    },
+    {
+      "acc": 0.64806547,
+      "epoch": 0.45560629122272955,
+      "grad_norm": 4.6875,
+      "learning_rate": 9.1603023204515e-06,
+      "loss": 1.65666027,
+      "memory(GiB)": 111.15,
+      "step": 17960,
+      "train_speed(iter/s)": 0.449091
+    },
+    {
+      "acc": 0.63582096,
+      "epoch": 0.45573313039066465,
+      "grad_norm": 4.5,
+      "learning_rate": 9.15972057319738e-06,
+      "loss": 1.64318142,
+      "memory(GiB)": 111.15,
+      "step": 17965,
+      "train_speed(iter/s)": 0.449156
+    },
+    {
+      "acc": 0.65820394,
+      "epoch": 0.4558599695585997,
+      "grad_norm": 5.84375,
+      "learning_rate": 9.159138642980178e-06,
+      "loss": 1.64969425,
+      "memory(GiB)": 111.15,
+      "step": 17970,
+      "train_speed(iter/s)": 0.449222
+    },
+    {
+      "acc": 0.64330144,
+      "epoch": 0.45598680872653474,
+      "grad_norm": 6.5,
+      "learning_rate": 9.15855652982549e-06,
+      "loss": 1.67619934,
+      "memory(GiB)": 111.15,
+      "step": 17975,
+      "train_speed(iter/s)": 0.449288
+    },
+    {
+      "acc": 0.65490036,
+      "epoch": 0.4561136478944698,
+      "grad_norm": 7.40625,
+      "learning_rate": 9.15797423375892e-06,
+      "loss": 1.64396267,
+      "memory(GiB)": 111.15,
+      "step": 17980,
+      "train_speed(iter/s)": 0.449353
+    },
+    {
+      "acc": 0.64768448,
+      "epoch": 0.4562404870624049,
+      "grad_norm": 6.125,
+      "learning_rate": 9.157391754806079e-06,
+      "loss": 1.67707748,
+      "memory(GiB)": 111.15,
+      "step": 17985,
+      "train_speed(iter/s)": 0.449419
+    },
+    {
+      "acc": 0.64810991,
+      "epoch": 0.45636732623033993,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.156809092992588e-06,
+      "loss": 1.61114922,
+      "memory(GiB)": 111.15,
+      "step": 17990,
+      "train_speed(iter/s)": 0.449484
+    },
+    {
+      "acc": 0.64348583,
+      "epoch": 0.456494165398275,
+      "grad_norm": 5.75,
+      "learning_rate": 9.156226248344072e-06,
+      "loss": 1.63893051,
+      "memory(GiB)": 111.15,
+      "step": 17995,
+      "train_speed(iter/s)": 0.44955
+    },
+    {
+      "acc": 0.66405864,
+      "epoch": 0.45662100456621,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.15564322088617e-06,
+      "loss": 1.61182976,
+      "memory(GiB)": 111.15,
+      "step": 18000,
+      "train_speed(iter/s)": 0.449615
+    },
+    {
+      "epoch": 0.45662100456621,
+      "eval_acc": 0.6405985435796058,
+      "eval_loss": 1.623692274093628,
+      "eval_runtime": 114.6378,
+      "eval_samples_per_second": 55.566,
+      "eval_steps_per_second": 27.783,
+      "step": 18000
+    },
+    {
+      "acc": 0.64258127,
+      "epoch": 0.4567478437341451,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.155060010644525e-06,
+      "loss": 1.64468613,
+      "memory(GiB)": 111.15,
+      "step": 18005,
+      "train_speed(iter/s)": 0.448346
+    },
+    {
+      "acc": 0.65395021,
+      "epoch": 0.45687468290208016,
+      "grad_norm": 6.15625,
+      "learning_rate": 9.154476617644792e-06,
+      "loss": 1.58812037,
+      "memory(GiB)": 111.15,
+      "step": 18010,
+      "train_speed(iter/s)": 0.448411
+    },
+    {
+      "acc": 0.64340105,
+      "epoch": 0.4570015220700152,
+      "grad_norm": 6.40625,
+      "learning_rate": 9.153893041912627e-06,
+      "loss": 1.569067,
+      "memory(GiB)": 111.15,
+      "step": 18015,
+      "train_speed(iter/s)": 0.448477
+    },
+    {
+      "acc": 0.66478567,
+      "epoch": 0.45712836123795025,
+      "grad_norm": 5.71875,
+      "learning_rate": 9.1533092834737e-06,
+      "loss": 1.5848959,
+      "memory(GiB)": 111.15,
+      "step": 18020,
+      "train_speed(iter/s)": 0.448543
+    },
+    {
+      "acc": 0.64590898,
+      "epoch": 0.45725520040588535,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.152725342353688e-06,
+      "loss": 1.65465813,
+      "memory(GiB)": 111.15,
+      "step": 18025,
+      "train_speed(iter/s)": 0.448609
+    },
+    {
+      "acc": 0.63304882,
+      "epoch": 0.4573820395738204,
+      "grad_norm": 6.3125,
+      "learning_rate": 9.152141218578276e-06,
+      "loss": 1.69629402,
+      "memory(GiB)": 111.15,
+      "step": 18030,
+      "train_speed(iter/s)": 0.448675
+    },
+    {
+      "acc": 0.64024215,
+      "epoch": 0.45750887874175544,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.151556912173154e-06,
+      "loss": 1.70532913,
+      "memory(GiB)": 111.15,
+      "step": 18035,
+      "train_speed(iter/s)": 0.44874
+    },
+    {
+      "acc": 0.64752245,
+      "epoch": 0.4576357179096905,
+      "grad_norm": 6.5625,
+      "learning_rate": 9.150972423164024e-06,
+      "loss": 1.64980774,
+      "memory(GiB)": 111.15,
+      "step": 18040,
+      "train_speed(iter/s)": 0.448806
+    },
+    {
+      "acc": 0.64653583,
+      "epoch": 0.4577625570776256,
+      "grad_norm": 6.21875,
+      "learning_rate": 9.150387751576594e-06,
+      "loss": 1.68800659,
+      "memory(GiB)": 111.15,
+      "step": 18045,
+      "train_speed(iter/s)": 0.448872
+    },
+    {
+      "acc": 0.64302607,
+      "epoch": 0.45788939624556063,
+      "grad_norm": 4.15625,
+      "learning_rate": 9.14980289743658e-06,
+      "loss": 1.66444874,
+      "memory(GiB)": 111.15,
+      "step": 18050,
+      "train_speed(iter/s)": 0.448937
+    },
+    {
+      "acc": 0.63830252,
+      "epoch": 0.4580162354134957,
+      "grad_norm": 5.5,
+      "learning_rate": 9.149217860769708e-06,
+      "loss": 1.68476601,
+      "memory(GiB)": 111.15,
+      "step": 18055,
+      "train_speed(iter/s)": 0.449003
+    },
+    {
+      "acc": 0.65752954,
+      "epoch": 0.4581430745814307,
+      "grad_norm": 5.875,
+      "learning_rate": 9.14863264160171e-06,
+      "loss": 1.57996426,
+      "memory(GiB)": 111.15,
+      "step": 18060,
+      "train_speed(iter/s)": 0.449069
+    },
+    {
+      "acc": 0.64375615,
+      "epoch": 0.4582699137493658,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.148047239958325e-06,
+      "loss": 1.72266846,
+      "memory(GiB)": 111.15,
+      "step": 18065,
+      "train_speed(iter/s)": 0.449134
+    },
+    {
+      "acc": 0.64375401,
+      "epoch": 0.45839675291730086,
+      "grad_norm": 5.71875,
+      "learning_rate": 9.147461655865302e-06,
+      "loss": 1.664217,
+      "memory(GiB)": 111.15,
+      "step": 18070,
+      "train_speed(iter/s)": 0.4492
+    },
+    {
+      "acc": 0.65756102,
+      "epoch": 0.4585235920852359,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.1468758893484e-06,
+      "loss": 1.70248566,
+      "memory(GiB)": 111.15,
+      "step": 18075,
+      "train_speed(iter/s)": 0.449267
+    },
+    {
+      "acc": 0.66085863,
+      "epoch": 0.45865043125317095,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.14628994043338e-06,
+      "loss": 1.67144642,
+      "memory(GiB)": 111.15,
+      "step": 18080,
+      "train_speed(iter/s)": 0.449332
+    },
+    {
+      "acc": 0.65291948,
+      "epoch": 0.45877727042110605,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.145703809146018e-06,
+      "loss": 1.67906094,
+      "memory(GiB)": 111.15,
+      "step": 18085,
+      "train_speed(iter/s)": 0.449398
+    },
+    {
+      "acc": 0.63214688,
+      "epoch": 0.4589041095890411,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.145117495512092e-06,
+      "loss": 1.67810135,
+      "memory(GiB)": 111.15,
+      "step": 18090,
+      "train_speed(iter/s)": 0.449464
+    },
+    {
+      "acc": 0.64969735,
+      "epoch": 0.45903094875697614,
+      "grad_norm": 4.875,
+      "learning_rate": 9.144530999557393e-06,
+      "loss": 1.72802029,
+      "memory(GiB)": 111.15,
+      "step": 18095,
+      "train_speed(iter/s)": 0.44953
+    },
+    {
+      "acc": 0.65498438,
+      "epoch": 0.4591577879249112,
+      "grad_norm": 6.375,
+      "learning_rate": 9.143944321307718e-06,
+      "loss": 1.63395271,
+      "memory(GiB)": 111.15,
+      "step": 18100,
+      "train_speed(iter/s)": 0.449596
+    },
+    {
+      "epoch": 0.4591577879249112,
+      "eval_acc": 0.6405814151199181,
+      "eval_loss": 1.6230018138885498,
+      "eval_runtime": 113.2441,
+      "eval_samples_per_second": 56.25,
+      "eval_steps_per_second": 28.125,
+      "step": 18100
+    },
+    {
+      "acc": 0.6445003,
+      "epoch": 0.4592846270928463,
+      "grad_norm": 5.0,
+      "learning_rate": 9.143357460788868e-06,
+      "loss": 1.66909409,
+      "memory(GiB)": 111.15,
+      "step": 18105,
+      "train_speed(iter/s)": 0.448349
+    },
+    {
+      "acc": 0.6388299,
+      "epoch": 0.45941146626078133,
+      "grad_norm": 5.6875,
+      "learning_rate": 9.14277041802666e-06,
+      "loss": 1.7392643,
+      "memory(GiB)": 111.15,
+      "step": 18110,
+      "train_speed(iter/s)": 0.448414
+    },
+    {
+      "acc": 0.64023056,
+      "epoch": 0.4595383054287164,
+      "grad_norm": 5.5,
+      "learning_rate": 9.142183193046912e-06,
+      "loss": 1.64861126,
+      "memory(GiB)": 111.15,
+      "step": 18115,
+      "train_speed(iter/s)": 0.448479
+    },
+    {
+      "acc": 0.65999527,
+      "epoch": 0.4596651445966514,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.141595785875453e-06,
+      "loss": 1.56845379,
+      "memory(GiB)": 111.15,
+      "step": 18120,
+      "train_speed(iter/s)": 0.448544
+    },
+    {
+      "acc": 0.6430191,
+      "epoch": 0.4597919837645865,
+      "grad_norm": 4.46875,
+      "learning_rate": 9.141008196538122e-06,
+      "loss": 1.64486713,
+      "memory(GiB)": 111.15,
+      "step": 18125,
+      "train_speed(iter/s)": 0.44861
+    },
+    {
+      "acc": 0.63748674,
+      "epoch": 0.45991882293252156,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.14042042506076e-06,
+      "loss": 1.65775261,
+      "memory(GiB)": 111.15,
+      "step": 18130,
+      "train_speed(iter/s)": 0.448675
+    },
+    {
+      "acc": 0.64931374,
+      "epoch": 0.4600456621004566,
+      "grad_norm": 6.1875,
+      "learning_rate": 9.139832471469224e-06,
+      "loss": 1.620578,
+      "memory(GiB)": 111.15,
+      "step": 18135,
+      "train_speed(iter/s)": 0.448741
+    },
+    {
+      "acc": 0.66084557,
+      "epoch": 0.46017250126839165,
+      "grad_norm": 4.46875,
+      "learning_rate": 9.13924433578937e-06,
+      "loss": 1.60610352,
+      "memory(GiB)": 111.15,
+      "step": 18140,
+      "train_speed(iter/s)": 0.448806
+    },
+    {
+      "acc": 0.64961443,
+      "epoch": 0.46029934043632675,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.138656018047074e-06,
+      "loss": 1.63161659,
+      "memory(GiB)": 111.15,
+      "step": 18145,
+      "train_speed(iter/s)": 0.448871
+    },
+    {
+      "acc": 0.6520113,
+      "epoch": 0.4604261796042618,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.138067518268206e-06,
+      "loss": 1.61394463,
+      "memory(GiB)": 111.15,
+      "step": 18150,
+      "train_speed(iter/s)": 0.448935
+    },
+    {
+      "acc": 0.65558057,
+      "epoch": 0.46055301877219684,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.137478836478654e-06,
+      "loss": 1.62159081,
+      "memory(GiB)": 111.15,
+      "step": 18155,
+      "train_speed(iter/s)": 0.449
+    },
+    {
+      "acc": 0.65343904,
+      "epoch": 0.4606798579401319,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.13688997270431e-06,
+      "loss": 1.62685318,
+      "memory(GiB)": 111.15,
+      "step": 18160,
+      "train_speed(iter/s)": 0.449066
+    },
+    {
+      "acc": 0.67230778,
+      "epoch": 0.460806697108067,
+      "grad_norm": 5.25,
+      "learning_rate": 9.136300926971076e-06,
+      "loss": 1.56804619,
+      "memory(GiB)": 111.15,
+      "step": 18165,
+      "train_speed(iter/s)": 0.449131
+    },
+    {
+      "acc": 0.65672522,
+      "epoch": 0.46093353627600203,
+      "grad_norm": 4.625,
+      "learning_rate": 9.135711699304858e-06,
+      "loss": 1.69412727,
+      "memory(GiB)": 111.15,
+      "step": 18170,
+      "train_speed(iter/s)": 0.449196
+    },
+    {
+      "acc": 0.64287281,
+      "epoch": 0.4610603754439371,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.135122289731575e-06,
+      "loss": 1.63418007,
+      "memory(GiB)": 111.15,
+      "step": 18175,
+      "train_speed(iter/s)": 0.449262
+    },
+    {
+      "acc": 0.64696617,
+      "epoch": 0.4611872146118721,
+      "grad_norm": 6.03125,
+      "learning_rate": 9.134532698277154e-06,
+      "loss": 1.59013243,
+      "memory(GiB)": 111.15,
+      "step": 18180,
+      "train_speed(iter/s)": 0.449328
+    },
+    {
+      "acc": 0.65078735,
+      "epoch": 0.4613140537798072,
+      "grad_norm": 6.90625,
+      "learning_rate": 9.133942924967524e-06,
+      "loss": 1.65923767,
+      "memory(GiB)": 111.15,
+      "step": 18185,
+      "train_speed(iter/s)": 0.449393
+    },
+    {
+      "acc": 0.66408453,
+      "epoch": 0.46144089294774226,
+      "grad_norm": 7.1875,
+      "learning_rate": 9.133352969828628e-06,
+      "loss": 1.57815218,
+      "memory(GiB)": 111.15,
+      "step": 18190,
+      "train_speed(iter/s)": 0.449458
+    },
+    {
+      "acc": 0.64419079,
+      "epoch": 0.4615677321156773,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.132762832886416e-06,
+      "loss": 1.59385462,
+      "memory(GiB)": 111.15,
+      "step": 18195,
+      "train_speed(iter/s)": 0.449523
+    },
+    {
+      "acc": 0.64199886,
+      "epoch": 0.46169457128361235,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.13217251416684e-06,
+      "loss": 1.70415878,
+      "memory(GiB)": 111.15,
+      "step": 18200,
+      "train_speed(iter/s)": 0.449589
+    },
+    {
+      "epoch": 0.46169457128361235,
+      "eval_acc": 0.6406808437395689,
+      "eval_loss": 1.6233675479888916,
+      "eval_runtime": 113.4279,
+      "eval_samples_per_second": 56.159,
+      "eval_steps_per_second": 28.08,
+      "step": 18200
+    },
+    {
+      "acc": 0.64497814,
+      "epoch": 0.46182141045154745,
+      "grad_norm": 6.09375,
+      "learning_rate": 9.131582013695867e-06,
+      "loss": 1.63758965,
+      "memory(GiB)": 111.15,
+      "step": 18205,
+      "train_speed(iter/s)": 0.448348
+    },
+    {
+      "acc": 0.65781593,
+      "epoch": 0.4619482496194825,
+      "grad_norm": 6.0625,
+      "learning_rate": 9.130991331499474e-06,
+      "loss": 1.69163628,
+      "memory(GiB)": 111.15,
+      "step": 18210,
+      "train_speed(iter/s)": 0.448413
+    },
+    {
+      "acc": 0.66803436,
+      "epoch": 0.46207508878741754,
+      "grad_norm": 5.9375,
+      "learning_rate": 9.130400467603637e-06,
+      "loss": 1.58227253,
+      "memory(GiB)": 111.15,
+      "step": 18215,
+      "train_speed(iter/s)": 0.448478
+    },
+    {
+      "acc": 0.63053923,
+      "epoch": 0.4622019279553526,
+      "grad_norm": 5.875,
+      "learning_rate": 9.129809422034349e-06,
+      "loss": 1.69475784,
+      "memory(GiB)": 111.15,
+      "step": 18220,
+      "train_speed(iter/s)": 0.448544
+    },
+    {
+      "acc": 0.65363598,
+      "epoch": 0.4623287671232877,
+      "grad_norm": 6.0625,
+      "learning_rate": 9.129218194817601e-06,
+      "loss": 1.68358421,
+      "memory(GiB)": 111.15,
+      "step": 18225,
+      "train_speed(iter/s)": 0.448609
+    },
+    {
+      "acc": 0.64460602,
+      "epoch": 0.46245560629122273,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.128626785979404e-06,
+      "loss": 1.672369,
+      "memory(GiB)": 111.15,
+      "step": 18230,
+      "train_speed(iter/s)": 0.448675
+    },
+    {
+      "acc": 0.63654146,
+      "epoch": 0.4625824454591578,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.128035195545766e-06,
+      "loss": 1.66236458,
+      "memory(GiB)": 111.15,
+      "step": 18235,
+      "train_speed(iter/s)": 0.44874
+    },
+    {
+      "acc": 0.63425946,
+      "epoch": 0.4627092846270928,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.12744342354271e-06,
+      "loss": 1.74656162,
+      "memory(GiB)": 111.15,
+      "step": 18240,
+      "train_speed(iter/s)": 0.448806
+    },
+    {
+      "acc": 0.65481329,
+      "epoch": 0.4628361237950279,
+      "grad_norm": 5.875,
+      "learning_rate": 9.126851469996265e-06,
+      "loss": 1.62454433,
+      "memory(GiB)": 111.15,
+      "step": 18245,
+      "train_speed(iter/s)": 0.448871
+    },
+    {
+      "acc": 0.6440196,
+      "epoch": 0.46296296296296297,
+      "grad_norm": 5.5,
+      "learning_rate": 9.126259334932467e-06,
+      "loss": 1.63647861,
+      "memory(GiB)": 111.15,
+      "step": 18250,
+      "train_speed(iter/s)": 0.448937
+    },
+    {
+      "acc": 0.63573875,
+      "epoch": 0.463089802130898,
+      "grad_norm": 6.71875,
+      "learning_rate": 9.125667018377362e-06,
+      "loss": 1.7456625,
+      "memory(GiB)": 111.15,
+      "step": 18255,
+      "train_speed(iter/s)": 0.449004
+    },
+    {
+      "acc": 0.65065207,
+      "epoch": 0.46321664129883305,
+      "grad_norm": 6.28125,
+      "learning_rate": 9.125074520357002e-06,
+      "loss": 1.63900185,
+      "memory(GiB)": 111.15,
+      "step": 18260,
+      "train_speed(iter/s)": 0.449069
+    },
+    {
+      "acc": 0.6473959,
+      "epoch": 0.46334348046676815,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.124481840897446e-06,
+      "loss": 1.60962448,
+      "memory(GiB)": 111.15,
+      "step": 18265,
+      "train_speed(iter/s)": 0.449135
+    },
+    {
+      "acc": 0.64412975,
+      "epoch": 0.4634703196347032,
+      "grad_norm": 4.875,
+      "learning_rate": 9.123888980024765e-06,
+      "loss": 1.6232233,
+      "memory(GiB)": 111.15,
+      "step": 18270,
+      "train_speed(iter/s)": 0.449199
+    },
+    {
+      "acc": 0.66579037,
+      "epoch": 0.46359715880263824,
+      "grad_norm": 4.5,
+      "learning_rate": 9.123295937765034e-06,
+      "loss": 1.58583975,
+      "memory(GiB)": 111.15,
+      "step": 18275,
+      "train_speed(iter/s)": 0.449265
+    },
+    {
+      "acc": 0.67146401,
+      "epoch": 0.4637239979705733,
+      "grad_norm": 5.8125,
+      "learning_rate": 9.122702714144339e-06,
+      "loss": 1.55856733,
+      "memory(GiB)": 111.15,
+      "step": 18280,
+      "train_speed(iter/s)": 0.44933
+    },
+    {
+      "acc": 0.64378691,
+      "epoch": 0.4638508371385084,
+      "grad_norm": 5.25,
+      "learning_rate": 9.122109309188772e-06,
+      "loss": 1.63967552,
+      "memory(GiB)": 111.15,
+      "step": 18285,
+      "train_speed(iter/s)": 0.449396
+    },
+    {
+      "acc": 0.66831989,
+      "epoch": 0.46397767630644343,
+      "grad_norm": 6.625,
+      "learning_rate": 9.121515722924435e-06,
+      "loss": 1.60099583,
+      "memory(GiB)": 111.15,
+      "step": 18290,
+      "train_speed(iter/s)": 0.449463
+    },
+    {
+      "acc": 0.65531921,
+      "epoch": 0.4641045154743785,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.120921955377433e-06,
+      "loss": 1.5971077,
+      "memory(GiB)": 111.15,
+      "step": 18295,
+      "train_speed(iter/s)": 0.449529
+    },
+    {
+      "acc": 0.64050837,
+      "epoch": 0.4642313546423135,
+      "grad_norm": 5.0,
+      "learning_rate": 9.120328006573887e-06,
+      "loss": 1.62931023,
+      "memory(GiB)": 111.15,
+      "step": 18300,
+      "train_speed(iter/s)": 0.449594
+    },
+    {
+      "epoch": 0.4642313546423135,
+      "eval_acc": 0.6406165075739124,
+      "eval_loss": 1.6226986646652222,
+      "eval_runtime": 113.5654,
+      "eval_samples_per_second": 56.091,
+      "eval_steps_per_second": 28.046,
+      "step": 18300
+    },
+    {
+      "acc": 0.65506487,
+      "epoch": 0.4643581938102486,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.119733876539916e-06,
+      "loss": 1.55712833,
+      "memory(GiB)": 111.15,
+      "step": 18305,
+      "train_speed(iter/s)": 0.448358
+    },
+    {
+      "acc": 0.64307866,
+      "epoch": 0.46448503297818367,
+      "grad_norm": 5.5,
+      "learning_rate": 9.119139565301658e-06,
+      "loss": 1.61205883,
+      "memory(GiB)": 111.15,
+      "step": 18310,
+      "train_speed(iter/s)": 0.448424
+    },
+    {
+      "acc": 0.65227137,
+      "epoch": 0.4646118721461187,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.118545072885253e-06,
+      "loss": 1.6866869,
+      "memory(GiB)": 111.15,
+      "step": 18315,
+      "train_speed(iter/s)": 0.448489
+    },
+    {
+      "acc": 0.65983257,
+      "epoch": 0.46473871131405375,
+      "grad_norm": 6.4375,
+      "learning_rate": 9.117950399316845e-06,
+      "loss": 1.59319592,
+      "memory(GiB)": 111.15,
+      "step": 18320,
+      "train_speed(iter/s)": 0.448554
+    },
+    {
+      "acc": 0.66612692,
+      "epoch": 0.46486555048198885,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.117355544622595e-06,
+      "loss": 1.59368172,
+      "memory(GiB)": 111.15,
+      "step": 18325,
+      "train_speed(iter/s)": 0.448619
+    },
+    {
+      "acc": 0.6472126,
+      "epoch": 0.4649923896499239,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.116760508828664e-06,
+      "loss": 1.5690135,
+      "memory(GiB)": 111.15,
+      "step": 18330,
+      "train_speed(iter/s)": 0.448684
+    },
+    {
+      "acc": 0.66651535,
+      "epoch": 0.46511922881785894,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.116165291961225e-06,
+      "loss": 1.62407017,
+      "memory(GiB)": 111.15,
+      "step": 18335,
+      "train_speed(iter/s)": 0.448749
+    },
+    {
+      "acc": 0.64161787,
+      "epoch": 0.465246067985794,
+      "grad_norm": 4.625,
+      "learning_rate": 9.11556989404646e-06,
+      "loss": 1.62849617,
+      "memory(GiB)": 111.15,
+      "step": 18340,
+      "train_speed(iter/s)": 0.448814
+    },
+    {
+      "acc": 0.63987713,
+      "epoch": 0.4653729071537291,
+      "grad_norm": 5.6875,
+      "learning_rate": 9.114974315110558e-06,
+      "loss": 1.72187824,
+      "memory(GiB)": 111.15,
+      "step": 18345,
+      "train_speed(iter/s)": 0.448879
+    },
+    {
+      "acc": 0.65916214,
+      "epoch": 0.46549974632166413,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.114378555179712e-06,
+      "loss": 1.64385262,
+      "memory(GiB)": 111.15,
+      "step": 18350,
+      "train_speed(iter/s)": 0.448943
+    },
+    {
+      "acc": 0.66123972,
+      "epoch": 0.4656265854895992,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.11378261428013e-06,
+      "loss": 1.60845757,
+      "memory(GiB)": 111.15,
+      "step": 18355,
+      "train_speed(iter/s)": 0.449008
+    },
+    {
+      "acc": 0.65182648,
+      "epoch": 0.4657534246575342,
+      "grad_norm": 5.25,
+      "learning_rate": 9.11318649243802e-06,
+      "loss": 1.6316618,
+      "memory(GiB)": 111.15,
+      "step": 18360,
+      "train_speed(iter/s)": 0.449074
+    },
+    {
+      "acc": 0.65041628,
+      "epoch": 0.4658802638254693,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.112590189679604e-06,
+      "loss": 1.63320503,
+      "memory(GiB)": 111.15,
+      "step": 18365,
+      "train_speed(iter/s)": 0.449139
+    },
+    {
+      "acc": 0.64401913,
+      "epoch": 0.46600710299340437,
+      "grad_norm": 4.46875,
+      "learning_rate": 9.111993706031109e-06,
+      "loss": 1.6492672,
+      "memory(GiB)": 111.15,
+      "step": 18370,
+      "train_speed(iter/s)": 0.449204
+    },
+    {
+      "acc": 0.64830265,
+      "epoch": 0.4661339421613394,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.111397041518774e-06,
+      "loss": 1.63535061,
+      "memory(GiB)": 111.15,
+      "step": 18375,
+      "train_speed(iter/s)": 0.449269
+    },
+    {
+      "acc": 0.64971189,
+      "epoch": 0.46626078132927445,
+      "grad_norm": 4.875,
+      "learning_rate": 9.11080019616884e-06,
+      "loss": 1.61010475,
+      "memory(GiB)": 111.15,
+      "step": 18380,
+      "train_speed(iter/s)": 0.449334
+    },
+    {
+      "acc": 0.65798349,
+      "epoch": 0.46638762049720955,
+      "grad_norm": 5.625,
+      "learning_rate": 9.11020317000756e-06,
+      "loss": 1.65622673,
+      "memory(GiB)": 111.15,
+      "step": 18385,
+      "train_speed(iter/s)": 0.449399
+    },
+    {
+      "acc": 0.62587147,
+      "epoch": 0.4665144596651446,
+      "grad_norm": 5.25,
+      "learning_rate": 9.109605963061194e-06,
+      "loss": 1.74048958,
+      "memory(GiB)": 111.15,
+      "step": 18390,
+      "train_speed(iter/s)": 0.449464
+    },
+    {
+      "acc": 0.65257325,
+      "epoch": 0.46664129883307964,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.10900857535601e-06,
+      "loss": 1.61184502,
+      "memory(GiB)": 111.15,
+      "step": 18395,
+      "train_speed(iter/s)": 0.449529
+    },
+    {
+      "acc": 0.62558956,
+      "epoch": 0.4667681380010147,
+      "grad_norm": 5.9375,
+      "learning_rate": 9.108411006918283e-06,
+      "loss": 1.68565636,
+      "memory(GiB)": 111.15,
+      "step": 18400,
+      "train_speed(iter/s)": 0.449594
+    },
+    {
+      "epoch": 0.4667681380010147,
+      "eval_acc": 0.6407623083649131,
+      "eval_loss": 1.6228444576263428,
+      "eval_runtime": 113.5085,
+      "eval_samples_per_second": 56.119,
+      "eval_steps_per_second": 28.06,
+      "step": 18400
+    },
+    {
+      "acc": 0.65425553,
+      "epoch": 0.4668949771689498,
+      "grad_norm": 6.03125,
+      "learning_rate": 9.107813257774298e-06,
+      "loss": 1.66392746,
+      "memory(GiB)": 111.15,
+      "step": 18405,
+      "train_speed(iter/s)": 0.448366
+    },
+    {
+      "acc": 0.64056087,
+      "epoch": 0.46702181633688483,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.107215327950345e-06,
+      "loss": 1.64805527,
+      "memory(GiB)": 111.15,
+      "step": 18410,
+      "train_speed(iter/s)": 0.44843
+    },
+    {
+      "acc": 0.6438386,
+      "epoch": 0.4671486555048199,
+      "grad_norm": 5.9375,
+      "learning_rate": 9.106617217472724e-06,
+      "loss": 1.6635006,
+      "memory(GiB)": 111.15,
+      "step": 18415,
+      "train_speed(iter/s)": 0.448495
+    },
+    {
+      "acc": 0.64418349,
+      "epoch": 0.4672754946727549,
+      "grad_norm": 5.21875,
+      "learning_rate": 9.106018926367744e-06,
+      "loss": 1.62999268,
+      "memory(GiB)": 111.15,
+      "step": 18420,
+      "train_speed(iter/s)": 0.44856
+    },
+    {
+      "acc": 0.64991632,
+      "epoch": 0.46740233384069,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.10542045466172e-06,
+      "loss": 1.66267109,
+      "memory(GiB)": 111.15,
+      "step": 18425,
+      "train_speed(iter/s)": 0.448624
+    },
+    {
+      "acc": 0.65056028,
+      "epoch": 0.46752917300862507,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.104821802380974e-06,
+      "loss": 1.67134666,
+      "memory(GiB)": 111.15,
+      "step": 18430,
+      "train_speed(iter/s)": 0.448688
+    },
+    {
+      "acc": 0.65150704,
+      "epoch": 0.4676560121765601,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.104222969551838e-06,
+      "loss": 1.57996998,
+      "memory(GiB)": 111.15,
+      "step": 18435,
+      "train_speed(iter/s)": 0.448753
+    },
+    {
+      "acc": 0.65227833,
+      "epoch": 0.46778285134449515,
+      "grad_norm": 5.5,
+      "learning_rate": 9.103623956200654e-06,
+      "loss": 1.656633,
+      "memory(GiB)": 111.15,
+      "step": 18440,
+      "train_speed(iter/s)": 0.448817
+    },
+    {
+      "acc": 0.6445262,
+      "epoch": 0.46790969051243025,
+      "grad_norm": 5.375,
+      "learning_rate": 9.103024762353766e-06,
+      "loss": 1.69572487,
+      "memory(GiB)": 111.15,
+      "step": 18445,
+      "train_speed(iter/s)": 0.44888
+    },
+    {
+      "acc": 0.65994658,
+      "epoch": 0.4680365296803653,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.102425388037527e-06,
+      "loss": 1.58760967,
+      "memory(GiB)": 111.15,
+      "step": 18450,
+      "train_speed(iter/s)": 0.448945
+    },
+    {
+      "acc": 0.64596262,
+      "epoch": 0.46816336884830034,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.101825833278308e-06,
+      "loss": 1.64518871,
+      "memory(GiB)": 111.15,
+      "step": 18455,
+      "train_speed(iter/s)": 0.44901
+    },
+    {
+      "acc": 0.654251,
+      "epoch": 0.4682902080162354,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.101226098102473e-06,
+      "loss": 1.58524752,
+      "memory(GiB)": 111.15,
+      "step": 18460,
+      "train_speed(iter/s)": 0.449074
+    },
+    {
+      "acc": 0.65029984,
+      "epoch": 0.4684170471841705,
+      "grad_norm": 6.8125,
+      "learning_rate": 9.100626182536405e-06,
+      "loss": 1.66436501,
+      "memory(GiB)": 111.15,
+      "step": 18465,
+      "train_speed(iter/s)": 0.449138
+    },
+    {
+      "acc": 0.65600443,
+      "epoch": 0.46854388635210553,
+      "grad_norm": 5.6875,
+      "learning_rate": 9.100026086606488e-06,
+      "loss": 1.59276485,
+      "memory(GiB)": 111.15,
+      "step": 18470,
+      "train_speed(iter/s)": 0.449203
+    },
+    {
+      "acc": 0.67464876,
+      "epoch": 0.4686707255200406,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.09942581033912e-06,
+      "loss": 1.53188086,
+      "memory(GiB)": 111.15,
+      "step": 18475,
+      "train_speed(iter/s)": 0.449267
+    },
+    {
+      "acc": 0.66208801,
+      "epoch": 0.4687975646879756,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.0988253537607e-06,
+      "loss": 1.54502659,
+      "memory(GiB)": 111.15,
+      "step": 18480,
+      "train_speed(iter/s)": 0.449331
+    },
+    {
+      "acc": 0.65728588,
+      "epoch": 0.4689244038559107,
+      "grad_norm": 4.5,
+      "learning_rate": 9.098224716897644e-06,
+      "loss": 1.62895718,
+      "memory(GiB)": 111.15,
+      "step": 18485,
+      "train_speed(iter/s)": 0.449396
+    },
+    {
+      "acc": 0.65967865,
+      "epoch": 0.46905124302384577,
+      "grad_norm": 5.25,
+      "learning_rate": 9.097623899776366e-06,
+      "loss": 1.62379494,
+      "memory(GiB)": 111.15,
+      "step": 18490,
+      "train_speed(iter/s)": 0.449461
+    },
+    {
+      "acc": 0.63681393,
+      "epoch": 0.4691780821917808,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.097022902423294e-06,
+      "loss": 1.62050781,
+      "memory(GiB)": 111.15,
+      "step": 18495,
+      "train_speed(iter/s)": 0.449525
+    },
+    {
+      "acc": 0.64813433,
+      "epoch": 0.46930492135971585,
+      "grad_norm": 5.0,
+      "learning_rate": 9.096421724864864e-06,
+      "loss": 1.64656143,
+      "memory(GiB)": 111.15,
+      "step": 18500,
+      "train_speed(iter/s)": 0.449589
+    },
+    {
+      "epoch": 0.46930492135971585,
+      "eval_acc": 0.6407794368246008,
+      "eval_loss": 1.622450351715088,
+      "eval_runtime": 112.2195,
+      "eval_samples_per_second": 56.764,
+      "eval_steps_per_second": 28.382,
+      "step": 18500
+    },
+    {
+      "acc": 0.64854393,
+      "epoch": 0.46943176052765095,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.095820367127517e-06,
+      "loss": 1.65303383,
+      "memory(GiB)": 111.15,
+      "step": 18505,
+      "train_speed(iter/s)": 0.448382
+    },
+    {
+      "acc": 0.64208736,
+      "epoch": 0.469558599695586,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.095218829237703e-06,
+      "loss": 1.65377254,
+      "memory(GiB)": 111.15,
+      "step": 18510,
+      "train_speed(iter/s)": 0.448446
+    },
+    {
+      "acc": 0.63350401,
+      "epoch": 0.46968543886352104,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.094617111221881e-06,
+      "loss": 1.67860489,
+      "memory(GiB)": 111.15,
+      "step": 18515,
+      "train_speed(iter/s)": 0.448511
+    },
+    {
+      "acc": 0.64017286,
+      "epoch": 0.4698122780314561,
+      "grad_norm": 4.625,
+      "learning_rate": 9.09401521310652e-06,
+      "loss": 1.60295906,
+      "memory(GiB)": 111.15,
+      "step": 18520,
+      "train_speed(iter/s)": 0.448576
+    },
+    {
+      "acc": 0.66613545,
+      "epoch": 0.4699391171993912,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.093413134918088e-06,
+      "loss": 1.56817646,
+      "memory(GiB)": 111.15,
+      "step": 18525,
+      "train_speed(iter/s)": 0.44864
+    },
+    {
+      "acc": 0.65946789,
+      "epoch": 0.47006595636732623,
+      "grad_norm": 5.0,
+      "learning_rate": 9.09281087668307e-06,
+      "loss": 1.62598495,
+      "memory(GiB)": 111.15,
+      "step": 18530,
+      "train_speed(iter/s)": 0.448704
+    },
+    {
+      "acc": 0.66190076,
+      "epoch": 0.4701927955352613,
+      "grad_norm": 5.375,
+      "learning_rate": 9.09220843842796e-06,
+      "loss": 1.63116798,
+      "memory(GiB)": 111.15,
+      "step": 18535,
+      "train_speed(iter/s)": 0.448769
+    },
+    {
+      "acc": 0.64535542,
+      "epoch": 0.4703196347031963,
+      "grad_norm": 4.75,
+      "learning_rate": 9.09160582017925e-06,
+      "loss": 1.61513557,
+      "memory(GiB)": 111.15,
+      "step": 18540,
+      "train_speed(iter/s)": 0.448833
+    },
+    {
+      "acc": 0.62677269,
+      "epoch": 0.4704464738711314,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.091003021963449e-06,
+      "loss": 1.71194382,
+      "memory(GiB)": 111.15,
+      "step": 18545,
+      "train_speed(iter/s)": 0.448897
+    },
+    {
+      "acc": 0.64866896,
+      "epoch": 0.47057331303906647,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.09040004380707e-06,
+      "loss": 1.66419907,
+      "memory(GiB)": 111.15,
+      "step": 18550,
+      "train_speed(iter/s)": 0.44896
+    },
+    {
+      "acc": 0.64011097,
+      "epoch": 0.4707001522070015,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.089796885736637e-06,
+      "loss": 1.62956238,
+      "memory(GiB)": 111.15,
+      "step": 18555,
+      "train_speed(iter/s)": 0.449024
+    },
+    {
+      "acc": 0.65847063,
+      "epoch": 0.47082699137493655,
+      "grad_norm": 4.59375,
+      "learning_rate": 9.089193547778674e-06,
+      "loss": 1.58198814,
+      "memory(GiB)": 111.15,
+      "step": 18560,
+      "train_speed(iter/s)": 0.449087
+    },
+    {
+      "acc": 0.64289827,
+      "epoch": 0.47095383054287165,
+      "grad_norm": 5.125,
+      "learning_rate": 9.088590029959724e-06,
+      "loss": 1.64502754,
+      "memory(GiB)": 111.15,
+      "step": 18565,
+      "train_speed(iter/s)": 0.449151
+    },
+    {
+      "acc": 0.63535042,
+      "epoch": 0.4710806697108067,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.08798633230633e-06,
+      "loss": 1.72364941,
+      "memory(GiB)": 111.15,
+      "step": 18570,
+      "train_speed(iter/s)": 0.449215
+    },
+    {
+      "acc": 0.66117601,
+      "epoch": 0.47120750887874174,
+      "grad_norm": 4.5,
+      "learning_rate": 9.087382454845044e-06,
+      "loss": 1.66802788,
+      "memory(GiB)": 111.15,
+      "step": 18575,
+      "train_speed(iter/s)": 0.449278
+    },
+    {
+      "acc": 0.63896351,
+      "epoch": 0.4713343480466768,
+      "grad_norm": 4.875,
+      "learning_rate": 9.08677839760243e-06,
+      "loss": 1.69396667,
+      "memory(GiB)": 111.15,
+      "step": 18580,
+      "train_speed(iter/s)": 0.449341
+    },
+    {
+      "acc": 0.63585753,
+      "epoch": 0.4714611872146119,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.086174160605055e-06,
+      "loss": 1.64885311,
+      "memory(GiB)": 111.15,
+      "step": 18585,
+      "train_speed(iter/s)": 0.449405
+    },
+    {
+      "acc": 0.63899016,
+      "epoch": 0.47158802638254693,
+      "grad_norm": 4.53125,
+      "learning_rate": 9.085569743879498e-06,
+      "loss": 1.67609367,
+      "memory(GiB)": 111.15,
+      "step": 18590,
+      "train_speed(iter/s)": 0.449468
+    },
+    {
+      "acc": 0.64270773,
+      "epoch": 0.471714865550482,
+      "grad_norm": 4.875,
+      "learning_rate": 9.084965147452342e-06,
+      "loss": 1.63265915,
+      "memory(GiB)": 111.15,
+      "step": 18595,
+      "train_speed(iter/s)": 0.449532
+    },
+    {
+      "acc": 0.64756985,
+      "epoch": 0.471841704718417,
+      "grad_norm": 4.6875,
+      "learning_rate": 9.084360371350182e-06,
+      "loss": 1.61219578,
+      "memory(GiB)": 111.15,
+      "step": 18600,
+      "train_speed(iter/s)": 0.449595
+    },
+    {
+      "epoch": 0.471841704718417,
+      "eval_acc": 0.6408095160708818,
+      "eval_loss": 1.6221330165863037,
+      "eval_runtime": 113.7313,
+      "eval_samples_per_second": 56.009,
+      "eval_steps_per_second": 28.005,
+      "step": 18600
+    },
+    {
+      "acc": 0.64520869,
+      "epoch": 0.4719685438863521,
+      "grad_norm": 4.875,
+      "learning_rate": 9.083755415599617e-06,
+      "loss": 1.62295189,
+      "memory(GiB)": 111.15,
+      "step": 18605,
+      "train_speed(iter/s)": 0.448376
+    },
+    {
+      "acc": 0.64881015,
+      "epoch": 0.47209538305428717,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.083150280227255e-06,
+      "loss": 1.5992465,
+      "memory(GiB)": 111.15,
+      "step": 18610,
+      "train_speed(iter/s)": 0.448439
+    },
+    {
+      "acc": 0.65273237,
+      "epoch": 0.4722222222222222,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.082544965259716e-06,
+      "loss": 1.61947994,
+      "memory(GiB)": 111.15,
+      "step": 18615,
+      "train_speed(iter/s)": 0.448501
+    },
+    {
+      "acc": 0.65438251,
+      "epoch": 0.47234906139015725,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.081939470723619e-06,
+      "loss": 1.62616005,
+      "memory(GiB)": 111.15,
+      "step": 18620,
+      "train_speed(iter/s)": 0.448564
+    },
+    {
+      "acc": 0.64187794,
+      "epoch": 0.47247590055809235,
+      "grad_norm": 5.96875,
+      "learning_rate": 9.081333796645603e-06,
+      "loss": 1.67179718,
+      "memory(GiB)": 111.15,
+      "step": 18625,
+      "train_speed(iter/s)": 0.448627
+    },
+    {
+      "acc": 0.6504077,
+      "epoch": 0.4726027397260274,
+      "grad_norm": 6.09375,
+      "learning_rate": 9.080727943052304e-06,
+      "loss": 1.61995544,
+      "memory(GiB)": 111.15,
+      "step": 18630,
+      "train_speed(iter/s)": 0.44869
+    },
+    {
+      "acc": 0.64500012,
+      "epoch": 0.47272957889396244,
+      "grad_norm": 5.375,
+      "learning_rate": 9.080121909970369e-06,
+      "loss": 1.6666893,
+      "memory(GiB)": 111.15,
+      "step": 18635,
+      "train_speed(iter/s)": 0.448751
+    },
+    {
+      "acc": 0.6491581,
+      "epoch": 0.4728564180618975,
+      "grad_norm": 5.8125,
+      "learning_rate": 9.079515697426457e-06,
+      "loss": 1.58967876,
+      "memory(GiB)": 111.15,
+      "step": 18640,
+      "train_speed(iter/s)": 0.448814
+    },
+    {
+      "acc": 0.64640131,
+      "epoch": 0.4729832572298326,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.078909305447231e-06,
+      "loss": 1.66195908,
+      "memory(GiB)": 111.15,
+      "step": 18645,
+      "train_speed(iter/s)": 0.448878
+    },
+    {
+      "acc": 0.66532059,
+      "epoch": 0.47311009639776763,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.078302734059363e-06,
+      "loss": 1.55669117,
+      "memory(GiB)": 111.15,
+      "step": 18650,
+      "train_speed(iter/s)": 0.448941
+    },
+    {
+      "acc": 0.6552393,
+      "epoch": 0.4732369355657027,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.077695983289531e-06,
+      "loss": 1.60450153,
+      "memory(GiB)": 111.15,
+      "step": 18655,
+      "train_speed(iter/s)": 0.449004
+    },
+    {
+      "acc": 0.63598161,
+      "epoch": 0.4733637747336377,
+      "grad_norm": 4.6875,
+      "learning_rate": 9.077089053164426e-06,
+      "loss": 1.649403,
+      "memory(GiB)": 111.15,
+      "step": 18660,
+      "train_speed(iter/s)": 0.449068
+    },
+    {
+      "acc": 0.65972185,
+      "epoch": 0.4734906139015728,
+      "grad_norm": 4.75,
+      "learning_rate": 9.076481943710742e-06,
+      "loss": 1.59884148,
+      "memory(GiB)": 111.15,
+      "step": 18665,
+      "train_speed(iter/s)": 0.44913
+    },
+    {
+      "acc": 0.64556623,
+      "epoch": 0.47361745306950787,
+      "grad_norm": 6.21875,
+      "learning_rate": 9.075874654955178e-06,
+      "loss": 1.63819695,
+      "memory(GiB)": 111.15,
+      "step": 18670,
+      "train_speed(iter/s)": 0.449194
+    },
+    {
+      "acc": 0.64022832,
+      "epoch": 0.4737442922374429,
+      "grad_norm": 4.46875,
+      "learning_rate": 9.075267186924453e-06,
+      "loss": 1.68326168,
+      "memory(GiB)": 111.15,
+      "step": 18675,
+      "train_speed(iter/s)": 0.449257
+    },
+    {
+      "acc": 0.63208704,
+      "epoch": 0.47387113140537795,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.074659539645281e-06,
+      "loss": 1.63173866,
+      "memory(GiB)": 111.15,
+      "step": 18680,
+      "train_speed(iter/s)": 0.44932
+    },
+    {
+      "acc": 0.63972893,
+      "epoch": 0.47399797057331305,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.074051713144392e-06,
+      "loss": 1.71313477,
+      "memory(GiB)": 111.15,
+      "step": 18685,
+      "train_speed(iter/s)": 0.449384
+    },
+    {
+      "acc": 0.6545918,
+      "epoch": 0.4741248097412481,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.073443707448517e-06,
+      "loss": 1.64684696,
+      "memory(GiB)": 111.15,
+      "step": 18690,
+      "train_speed(iter/s)": 0.449447
+    },
+    {
+      "acc": 0.64129438,
+      "epoch": 0.47425164890918314,
+      "grad_norm": 5.9375,
+      "learning_rate": 9.072835522584402e-06,
+      "loss": 1.67804012,
+      "memory(GiB)": 111.15,
+      "step": 18695,
+      "train_speed(iter/s)": 0.44951
+    },
+    {
+      "acc": 0.66137505,
+      "epoch": 0.4743784880771182,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.072227158578798e-06,
+      "loss": 1.59022255,
+      "memory(GiB)": 111.15,
+      "step": 18700,
+      "train_speed(iter/s)": 0.449572
+    },
+    {
+      "epoch": 0.4743784880771182,
+      "eval_acc": 0.640723873772443,
+      "eval_loss": 1.6221725940704346,
+      "eval_runtime": 114.8496,
+      "eval_samples_per_second": 55.464,
+      "eval_steps_per_second": 27.732,
+      "step": 18700
+    },
+    {
+      "acc": 0.63176355,
+      "epoch": 0.4745053272450533,
+      "grad_norm": 6.125,
+      "learning_rate": 9.07161861545846e-06,
+      "loss": 1.65353279,
+      "memory(GiB)": 111.15,
+      "step": 18705,
+      "train_speed(iter/s)": 0.448349
+    },
+    {
+      "acc": 0.64030285,
+      "epoch": 0.47463216641298833,
+      "grad_norm": 6.09375,
+      "learning_rate": 9.071009893250158e-06,
+      "loss": 1.70206947,
+      "memory(GiB)": 111.15,
+      "step": 18710,
+      "train_speed(iter/s)": 0.448412
+    },
+    {
+      "acc": 0.6406744,
+      "epoch": 0.4747590055809234,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.070400991980666e-06,
+      "loss": 1.65643673,
+      "memory(GiB)": 111.15,
+      "step": 18715,
+      "train_speed(iter/s)": 0.448474
+    },
+    {
+      "acc": 0.6610714,
+      "epoch": 0.4748858447488584,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.069791911676765e-06,
+      "loss": 1.63106213,
+      "memory(GiB)": 111.15,
+      "step": 18720,
+      "train_speed(iter/s)": 0.448538
+    },
+    {
+      "acc": 0.66428165,
+      "epoch": 0.4750126839167935,
+      "grad_norm": 5.375,
+      "learning_rate": 9.069182652365245e-06,
+      "loss": 1.61055508,
+      "memory(GiB)": 111.15,
+      "step": 18725,
+      "train_speed(iter/s)": 0.448601
+    },
+    {
+      "acc": 0.62881489,
+      "epoch": 0.47513952308472857,
+      "grad_norm": 5.6875,
+      "learning_rate": 9.068573214072904e-06,
+      "loss": 1.71944809,
+      "memory(GiB)": 111.15,
+      "step": 18730,
+      "train_speed(iter/s)": 0.448665
+    },
+    {
+      "acc": 0.63636727,
+      "epoch": 0.4752663622526636,
+      "grad_norm": 4.34375,
+      "learning_rate": 9.067963596826547e-06,
+      "loss": 1.66106853,
+      "memory(GiB)": 111.15,
+      "step": 18735,
+      "train_speed(iter/s)": 0.448728
+    },
+    {
+      "acc": 0.65077448,
+      "epoch": 0.47539320142059865,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.067353800652991e-06,
+      "loss": 1.68044224,
+      "memory(GiB)": 111.15,
+      "step": 18740,
+      "train_speed(iter/s)": 0.448791
+    },
+    {
+      "acc": 0.65210552,
+      "epoch": 0.47552004058853375,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.066743825579056e-06,
+      "loss": 1.64920654,
+      "memory(GiB)": 111.15,
+      "step": 18745,
+      "train_speed(iter/s)": 0.448854
+    },
+    {
+      "acc": 0.65511675,
+      "epoch": 0.4756468797564688,
+      "grad_norm": 6.03125,
+      "learning_rate": 9.06613367163157e-06,
+      "loss": 1.58560295,
+      "memory(GiB)": 111.15,
+      "step": 18750,
+      "train_speed(iter/s)": 0.448917
+    },
+    {
+      "acc": 0.64729409,
+      "epoch": 0.47577371892440384,
+      "grad_norm": 5.5,
+      "learning_rate": 9.06552333883737e-06,
+      "loss": 1.61739349,
+      "memory(GiB)": 111.15,
+      "step": 18755,
+      "train_speed(iter/s)": 0.448979
+    },
+    {
+      "acc": 0.64822044,
+      "epoch": 0.4759005580923389,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.064912827223303e-06,
+      "loss": 1.65681229,
+      "memory(GiB)": 111.15,
+      "step": 18760,
+      "train_speed(iter/s)": 0.449043
+    },
+    {
+      "acc": 0.65030489,
+      "epoch": 0.476027397260274,
+      "grad_norm": 5.0,
+      "learning_rate": 9.06430213681622e-06,
+      "loss": 1.59055634,
+      "memory(GiB)": 111.15,
+      "step": 18765,
+      "train_speed(iter/s)": 0.449106
+    },
+    {
+      "acc": 0.62454462,
+      "epoch": 0.47615423642820903,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.063691267642987e-06,
+      "loss": 1.71639156,
+      "memory(GiB)": 111.15,
+      "step": 18770,
+      "train_speed(iter/s)": 0.449168
+    },
+    {
+      "acc": 0.64751482,
+      "epoch": 0.4762810755961441,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.063080219730467e-06,
+      "loss": 1.65420971,
+      "memory(GiB)": 111.15,
+      "step": 18775,
+      "train_speed(iter/s)": 0.449232
+    },
+    {
+      "acc": 0.64703283,
+      "epoch": 0.4764079147640791,
+      "grad_norm": 5.25,
+      "learning_rate": 9.062468993105538e-06,
+      "loss": 1.64552269,
+      "memory(GiB)": 111.15,
+      "step": 18780,
+      "train_speed(iter/s)": 0.449295
+    },
+    {
+      "acc": 0.66759686,
+      "epoch": 0.4765347539320142,
+      "grad_norm": 5.375,
+      "learning_rate": 9.061857587795084e-06,
+      "loss": 1.54307394,
+      "memory(GiB)": 111.15,
+      "step": 18785,
+      "train_speed(iter/s)": 0.449358
+    },
+    {
+      "acc": 0.64350672,
+      "epoch": 0.47666159309994927,
+      "grad_norm": 5.84375,
+      "learning_rate": 9.061246003826e-06,
+      "loss": 1.74264984,
+      "memory(GiB)": 111.15,
+      "step": 18790,
+      "train_speed(iter/s)": 0.449421
+    },
+    {
+      "acc": 0.64647236,
+      "epoch": 0.4767884322678843,
+      "grad_norm": 5.875,
+      "learning_rate": 9.060634241225184e-06,
+      "loss": 1.66083603,
+      "memory(GiB)": 111.15,
+      "step": 18795,
+      "train_speed(iter/s)": 0.449484
+    },
+    {
+      "acc": 0.65006104,
+      "epoch": 0.47691527143581935,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.060022300019546e-06,
+      "loss": 1.63149872,
+      "memory(GiB)": 111.15,
+      "step": 18800,
+      "train_speed(iter/s)": 0.449547
+    },
+    {
+      "epoch": 0.47691527143581935,
+      "eval_acc": 0.6408207957882371,
+      "eval_loss": 1.6221325397491455,
+      "eval_runtime": 112.4919,
+      "eval_samples_per_second": 56.626,
+      "eval_steps_per_second": 28.313,
+      "step": 18800
+    },
+    {
+      "acc": 0.65572605,
+      "epoch": 0.47704211060375445,
+      "grad_norm": 5.78125,
+      "learning_rate": 9.059410180236e-06,
+      "loss": 1.61337185,
+      "memory(GiB)": 111.15,
+      "step": 18805,
+      "train_speed(iter/s)": 0.448355
+    },
+    {
+      "acc": 0.65356059,
+      "epoch": 0.4771689497716895,
+      "grad_norm": 4.46875,
+      "learning_rate": 9.058797881901469e-06,
+      "loss": 1.59716015,
+      "memory(GiB)": 111.15,
+      "step": 18810,
+      "train_speed(iter/s)": 0.448417
+    },
+    {
+      "acc": 0.66277456,
+      "epoch": 0.47729578893962454,
+      "grad_norm": 5.9375,
+      "learning_rate": 9.058185405042886e-06,
+      "loss": 1.54827862,
+      "memory(GiB)": 111.15,
+      "step": 18815,
+      "train_speed(iter/s)": 0.448479
+    },
+    {
+      "acc": 0.64740486,
+      "epoch": 0.4774226281075596,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.05757274968719e-06,
+      "loss": 1.69446869,
+      "memory(GiB)": 111.15,
+      "step": 18820,
+      "train_speed(iter/s)": 0.448541
+    },
+    {
+      "acc": 0.64844704,
+      "epoch": 0.4775494672754947,
+      "grad_norm": 5.625,
+      "learning_rate": 9.056959915861331e-06,
+      "loss": 1.60191727,
+      "memory(GiB)": 111.15,
+      "step": 18825,
+      "train_speed(iter/s)": 0.448603
+    },
+    {
+      "acc": 0.6465189,
+      "epoch": 0.47767630644342973,
+      "grad_norm": 5.8125,
+      "learning_rate": 9.056346903592262e-06,
+      "loss": 1.65673962,
+      "memory(GiB)": 111.15,
+      "step": 18830,
+      "train_speed(iter/s)": 0.448666
+    },
+    {
+      "acc": 0.63962708,
+      "epoch": 0.4778031456113648,
+      "grad_norm": 4.375,
+      "learning_rate": 9.055733712906943e-06,
+      "loss": 1.6444313,
+      "memory(GiB)": 111.15,
+      "step": 18835,
+      "train_speed(iter/s)": 0.448728
+    },
+    {
+      "acc": 0.64170017,
+      "epoch": 0.4779299847792998,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.05512034383235e-06,
+      "loss": 1.64773045,
+      "memory(GiB)": 111.15,
+      "step": 18840,
+      "train_speed(iter/s)": 0.448791
+    },
+    {
+      "acc": 0.63297062,
+      "epoch": 0.4780568239472349,
+      "grad_norm": 5.3125,
+      "learning_rate": 9.054506796395458e-06,
+      "loss": 1.67727013,
+      "memory(GiB)": 111.15,
+      "step": 18845,
+      "train_speed(iter/s)": 0.448854
+    },
+    {
+      "acc": 0.64635773,
+      "epoch": 0.47818366311516997,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.053893070623256e-06,
+      "loss": 1.6804493,
+      "memory(GiB)": 111.15,
+      "step": 18850,
+      "train_speed(iter/s)": 0.448917
+    },
+    {
+      "acc": 0.65276842,
+      "epoch": 0.478310502283105,
+      "grad_norm": 5.78125,
+      "learning_rate": 9.053279166542738e-06,
+      "loss": 1.66035995,
+      "memory(GiB)": 111.15,
+      "step": 18855,
+      "train_speed(iter/s)": 0.44898
+    },
+    {
+      "acc": 0.66163511,
+      "epoch": 0.47843734145104005,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.052665084180906e-06,
+      "loss": 1.60619774,
+      "memory(GiB)": 111.15,
+      "step": 18860,
+      "train_speed(iter/s)": 0.449042
+    },
+    {
+      "acc": 0.6435555,
+      "epoch": 0.47856418061897515,
+      "grad_norm": 4.625,
+      "learning_rate": 9.052050823564767e-06,
+      "loss": 1.65472984,
+      "memory(GiB)": 111.15,
+      "step": 18865,
+      "train_speed(iter/s)": 0.449105
+    },
+    {
+      "acc": 0.66019387,
+      "epoch": 0.4786910197869102,
+      "grad_norm": 4.75,
+      "learning_rate": 9.051436384721344e-06,
+      "loss": 1.62662754,
+      "memory(GiB)": 111.15,
+      "step": 18870,
+      "train_speed(iter/s)": 0.449168
+    },
+    {
+      "acc": 0.67041035,
+      "epoch": 0.47881785895484524,
+      "grad_norm": 5.125,
+      "learning_rate": 9.05082176767766e-06,
+      "loss": 1.55034599,
+      "memory(GiB)": 111.15,
+      "step": 18875,
+      "train_speed(iter/s)": 0.449231
+    },
+    {
+      "acc": 0.65229759,
+      "epoch": 0.4789446981227803,
+      "grad_norm": 4.34375,
+      "learning_rate": 9.050206972460749e-06,
+      "loss": 1.62118645,
+      "memory(GiB)": 111.15,
+      "step": 18880,
+      "train_speed(iter/s)": 0.449294
+    },
+    {
+      "acc": 0.65500956,
+      "epoch": 0.4790715372907154,
+      "grad_norm": 5.84375,
+      "learning_rate": 9.049591999097651e-06,
+      "loss": 1.66212234,
+      "memory(GiB)": 111.15,
+      "step": 18885,
+      "train_speed(iter/s)": 0.449356
+    },
+    {
+      "acc": 0.63629999,
+      "epoch": 0.47919837645865043,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.048976847615418e-06,
+      "loss": 1.67770596,
+      "memory(GiB)": 111.15,
+      "step": 18890,
+      "train_speed(iter/s)": 0.449419
+    },
+    {
+      "acc": 0.6415987,
+      "epoch": 0.4793252156265855,
+      "grad_norm": 4.875,
+      "learning_rate": 9.048361518041107e-06,
+      "loss": 1.68103447,
+      "memory(GiB)": 111.15,
+      "step": 18895,
+      "train_speed(iter/s)": 0.449481
+    },
+    {
+      "acc": 0.65871015,
+      "epoch": 0.4794520547945205,
+      "grad_norm": 4.53125,
+      "learning_rate": 9.04774601040178e-06,
+      "loss": 1.56979551,
+      "memory(GiB)": 111.15,
+      "step": 18900,
+      "train_speed(iter/s)": 0.449544
+    },
+    {
+      "epoch": 0.4794520547945205,
+      "eval_acc": 0.6409156289674839,
+      "eval_loss": 1.6219755411148071,
+      "eval_runtime": 113.9931,
+      "eval_samples_per_second": 55.881,
+      "eval_steps_per_second": 27.94,
+      "step": 18900
+    },
+    {
+      "acc": 0.63968182,
+      "epoch": 0.4795788939624556,
+      "grad_norm": 6.375,
+      "learning_rate": 9.047130324724513e-06,
+      "loss": 1.64418335,
+      "memory(GiB)": 111.15,
+      "step": 18905,
+      "train_speed(iter/s)": 0.448343
+    },
+    {
+      "acc": 0.64582891,
+      "epoch": 0.47970573313039067,
+      "grad_norm": 7.28125,
+      "learning_rate": 9.046514461036385e-06,
+      "loss": 1.64974518,
+      "memory(GiB)": 111.15,
+      "step": 18910,
+      "train_speed(iter/s)": 0.448405
+    },
+    {
+      "acc": 0.64389315,
+      "epoch": 0.4798325722983257,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.045898419364483e-06,
+      "loss": 1.64983215,
+      "memory(GiB)": 111.15,
+      "step": 18915,
+      "train_speed(iter/s)": 0.448468
+    },
+    {
+      "acc": 0.6542541,
+      "epoch": 0.47995941146626075,
+      "grad_norm": 4.25,
+      "learning_rate": 9.045282199735906e-06,
+      "loss": 1.60532722,
+      "memory(GiB)": 111.15,
+      "step": 18920,
+      "train_speed(iter/s)": 0.44853
+    },
+    {
+      "acc": 0.63222337,
+      "epoch": 0.48008625063419585,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.044665802177756e-06,
+      "loss": 1.76689453,
+      "memory(GiB)": 111.15,
+      "step": 18925,
+      "train_speed(iter/s)": 0.448592
+    },
+    {
+      "acc": 0.64778614,
+      "epoch": 0.4802130898021309,
+      "grad_norm": 7.1875,
+      "learning_rate": 9.044049226717148e-06,
+      "loss": 1.61681767,
+      "memory(GiB)": 111.15,
+      "step": 18930,
+      "train_speed(iter/s)": 0.448655
+    },
+    {
+      "acc": 0.66843777,
+      "epoch": 0.48033992897006594,
+      "grad_norm": 4.5625,
+      "learning_rate": 9.043432473381198e-06,
+      "loss": 1.61745968,
+      "memory(GiB)": 111.15,
+      "step": 18935,
+      "train_speed(iter/s)": 0.448717
+    },
+    {
+      "acc": 0.64984846,
+      "epoch": 0.480466768138001,
+      "grad_norm": 5.59375,
+      "learning_rate": 9.042815542197037e-06,
+      "loss": 1.67952671,
+      "memory(GiB)": 111.15,
+      "step": 18940,
+      "train_speed(iter/s)": 0.448779
+    },
+    {
+      "acc": 0.64608345,
+      "epoch": 0.4805936073059361,
+      "grad_norm": 5.34375,
+      "learning_rate": 9.042198433191796e-06,
+      "loss": 1.59996204,
+      "memory(GiB)": 111.15,
+      "step": 18945,
+      "train_speed(iter/s)": 0.448842
+    },
+    {
+      "acc": 0.6438201,
+      "epoch": 0.48072044647387113,
+      "grad_norm": 6.34375,
+      "learning_rate": 9.041581146392621e-06,
+      "loss": 1.6727253,
+      "memory(GiB)": 111.15,
+      "step": 18950,
+      "train_speed(iter/s)": 0.448905
+    },
+    {
+      "acc": 0.63902388,
+      "epoch": 0.4808472856418062,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.040963681826665e-06,
+      "loss": 1.61245079,
+      "memory(GiB)": 111.15,
+      "step": 18955,
+      "train_speed(iter/s)": 0.448968
+    },
+    {
+      "acc": 0.65387602,
+      "epoch": 0.4809741248097412,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.040346039521085e-06,
+      "loss": 1.67941856,
+      "memory(GiB)": 111.15,
+      "step": 18960,
+      "train_speed(iter/s)": 0.449031
+    },
+    {
+      "acc": 0.65924988,
+      "epoch": 0.4811009639776763,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.039728219503044e-06,
+      "loss": 1.58756809,
+      "memory(GiB)": 111.15,
+      "step": 18965,
+      "train_speed(iter/s)": 0.449093
+    },
+    {
+      "acc": 0.66051979,
+      "epoch": 0.48122780314561137,
+      "grad_norm": 4.75,
+      "learning_rate": 9.039110221799721e-06,
+      "loss": 1.58596115,
+      "memory(GiB)": 111.15,
+      "step": 18970,
+      "train_speed(iter/s)": 0.449156
+    },
+    {
+      "acc": 0.65079718,
+      "epoch": 0.4813546423135464,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.038492046438298e-06,
+      "loss": 1.6492485,
+      "memory(GiB)": 111.15,
+      "step": 18975,
+      "train_speed(iter/s)": 0.449219
+    },
+    {
+      "acc": 0.64832649,
+      "epoch": 0.48148148148148145,
+      "grad_norm": 5.78125,
+      "learning_rate": 9.037873693445965e-06,
+      "loss": 1.65304794,
+      "memory(GiB)": 111.15,
+      "step": 18980,
+      "train_speed(iter/s)": 0.449281
+    },
+    {
+      "acc": 0.65419526,
+      "epoch": 0.48160832064941655,
+      "grad_norm": 4.875,
+      "learning_rate": 9.037255162849918e-06,
+      "loss": 1.63278275,
+      "memory(GiB)": 111.15,
+      "step": 18985,
+      "train_speed(iter/s)": 0.449344
+    },
+    {
+      "acc": 0.64988823,
+      "epoch": 0.4817351598173516,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.036636454677363e-06,
+      "loss": 1.61742077,
+      "memory(GiB)": 111.15,
+      "step": 18990,
+      "train_speed(iter/s)": 0.449407
+    },
+    {
+      "acc": 0.6431056,
+      "epoch": 0.48186199898528664,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.036017568955516e-06,
+      "loss": 1.66349716,
+      "memory(GiB)": 111.15,
+      "step": 18995,
+      "train_speed(iter/s)": 0.449469
+    },
+    {
+      "acc": 0.64743853,
+      "epoch": 0.4819888381532217,
+      "grad_norm": 4.34375,
+      "learning_rate": 9.035398505711597e-06,
+      "loss": 1.64596996,
+      "memory(GiB)": 111.15,
+      "step": 19000,
+      "train_speed(iter/s)": 0.449532
+    },
+    {
+      "epoch": 0.4819888381532217,
+      "eval_acc": 0.640792387611194,
+      "eval_loss": 1.6214004755020142,
+      "eval_runtime": 113.5192,
+      "eval_samples_per_second": 56.114,
+      "eval_steps_per_second": 28.057,
+      "step": 19000
+    },
+    {
+      "acc": 0.65405855,
+      "epoch": 0.4821156773211568,
+      "grad_norm": 5.8125,
+      "learning_rate": 9.034779264972834e-06,
+      "loss": 1.62203312,
+      "memory(GiB)": 111.15,
+      "step": 19005,
+      "train_speed(iter/s)": 0.448342
+    },
+    {
+      "acc": 0.65157089,
+      "epoch": 0.48224251648909183,
+      "grad_norm": 4.65625,
+      "learning_rate": 9.034159846766464e-06,
+      "loss": 1.63134403,
+      "memory(GiB)": 111.15,
+      "step": 19010,
+      "train_speed(iter/s)": 0.448404
+    },
+    {
+      "acc": 0.65551562,
+      "epoch": 0.4823693556570269,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.033540251119734e-06,
+      "loss": 1.55701084,
+      "memory(GiB)": 111.15,
+      "step": 19015,
+      "train_speed(iter/s)": 0.448466
+    },
+    {
+      "acc": 0.65176058,
+      "epoch": 0.4824961948249619,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.032920478059897e-06,
+      "loss": 1.59100113,
+      "memory(GiB)": 111.15,
+      "step": 19020,
+      "train_speed(iter/s)": 0.448528
+    },
+    {
+      "acc": 0.64677091,
+      "epoch": 0.482623033992897,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.032300527614209e-06,
+      "loss": 1.71027184,
+      "memory(GiB)": 111.15,
+      "step": 19025,
+      "train_speed(iter/s)": 0.448591
+    },
+    {
+      "acc": 0.6445446,
+      "epoch": 0.48274987316083207,
+      "grad_norm": 5.5625,
+      "learning_rate": 9.031680399809941e-06,
+      "loss": 1.68353691,
+      "memory(GiB)": 111.15,
+      "step": 19030,
+      "train_speed(iter/s)": 0.448653
+    },
+    {
+      "acc": 0.63243742,
+      "epoch": 0.4828767123287671,
+      "grad_norm": 4.75,
+      "learning_rate": 9.031060094674371e-06,
+      "loss": 1.72041245,
+      "memory(GiB)": 111.15,
+      "step": 19035,
+      "train_speed(iter/s)": 0.448715
+    },
+    {
+      "acc": 0.6371913,
+      "epoch": 0.48300355149670215,
+      "grad_norm": 6.5625,
+      "learning_rate": 9.030439612234778e-06,
+      "loss": 1.64601326,
+      "memory(GiB)": 111.15,
+      "step": 19040,
+      "train_speed(iter/s)": 0.448777
+    },
+    {
+      "acc": 0.65773306,
+      "epoch": 0.48313039066463725,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.029818952518458e-06,
+      "loss": 1.61323032,
+      "memory(GiB)": 111.15,
+      "step": 19045,
+      "train_speed(iter/s)": 0.44884
+    },
+    {
+      "acc": 0.66205664,
+      "epoch": 0.4832572298325723,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.029198115552708e-06,
+      "loss": 1.56384802,
+      "memory(GiB)": 111.15,
+      "step": 19050,
+      "train_speed(iter/s)": 0.448902
+    },
+    {
+      "acc": 0.64410515,
+      "epoch": 0.48338406900050734,
+      "grad_norm": 5.25,
+      "learning_rate": 9.028577101364837e-06,
+      "loss": 1.6143074,
+      "memory(GiB)": 111.15,
+      "step": 19055,
+      "train_speed(iter/s)": 0.448964
+    },
+    {
+      "acc": 0.6591651,
+      "epoch": 0.4835109081684424,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.027955909982157e-06,
+      "loss": 1.59567871,
+      "memory(GiB)": 111.15,
+      "step": 19060,
+      "train_speed(iter/s)": 0.449026
+    },
+    {
+      "acc": 0.67822781,
+      "epoch": 0.4836377473363775,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.027334541431993e-06,
+      "loss": 1.52079248,
+      "memory(GiB)": 111.15,
+      "step": 19065,
+      "train_speed(iter/s)": 0.449087
+    },
+    {
+      "acc": 0.64846668,
+      "epoch": 0.48376458650431253,
+      "grad_norm": 6.53125,
+      "learning_rate": 9.026712995741676e-06,
+      "loss": 1.61672249,
+      "memory(GiB)": 111.15,
+      "step": 19070,
+      "train_speed(iter/s)": 0.449149
+    },
+    {
+      "acc": 0.62901874,
+      "epoch": 0.4838914256722476,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.026091272938543e-06,
+      "loss": 1.69690247,
+      "memory(GiB)": 111.15,
+      "step": 19075,
+      "train_speed(iter/s)": 0.449212
+    },
+    {
+      "acc": 0.65588951,
+      "epoch": 0.4840182648401826,
+      "grad_norm": 4.875,
+      "learning_rate": 9.02546937304994e-06,
+      "loss": 1.60648041,
+      "memory(GiB)": 111.15,
+      "step": 19080,
+      "train_speed(iter/s)": 0.449274
+    },
+    {
+      "acc": 0.65000858,
+      "epoch": 0.4841451040081177,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.02484729610322e-06,
+      "loss": 1.66610489,
+      "memory(GiB)": 111.15,
+      "step": 19085,
+      "train_speed(iter/s)": 0.449336
+    },
+    {
+      "acc": 0.63661933,
+      "epoch": 0.48427194317605277,
+      "grad_norm": 4.75,
+      "learning_rate": 9.02422504212575e-06,
+      "loss": 1.71079102,
+      "memory(GiB)": 111.15,
+      "step": 19090,
+      "train_speed(iter/s)": 0.449399
+    },
+    {
+      "acc": 0.65368338,
+      "epoch": 0.4843987823439878,
+      "grad_norm": 4.75,
+      "learning_rate": 9.023602611144893e-06,
+      "loss": 1.60765495,
+      "memory(GiB)": 111.15,
+      "step": 19095,
+      "train_speed(iter/s)": 0.449461
+    },
+    {
+      "acc": 0.64198837,
+      "epoch": 0.48452562151192285,
+      "grad_norm": 4.78125,
+      "learning_rate": 9.02298000318803e-06,
+      "loss": 1.6267786,
+      "memory(GiB)": 111.15,
+      "step": 19100,
+      "train_speed(iter/s)": 0.449523
+    },
+    {
+      "epoch": 0.48452562151192285,
+      "eval_acc": 0.6408809542807989,
+      "eval_loss": 1.6217284202575684,
+      "eval_runtime": 113.7076,
+      "eval_samples_per_second": 56.021,
+      "eval_steps_per_second": 28.01,
+      "step": 19100
+    },
+    {
+      "acc": 0.64203553,
+      "epoch": 0.48465246067985795,
+      "grad_norm": 5.15625,
+      "learning_rate": 9.022357218282546e-06,
+      "loss": 1.63061447,
+      "memory(GiB)": 111.15,
+      "step": 19105,
+      "train_speed(iter/s)": 0.448337
+    },
+    {
+      "acc": 0.64170532,
+      "epoch": 0.484779299847793,
+      "grad_norm": 5.53125,
+      "learning_rate": 9.021734256455832e-06,
+      "loss": 1.68958206,
+      "memory(GiB)": 111.15,
+      "step": 19110,
+      "train_speed(iter/s)": 0.448399
+    },
+    {
+      "acc": 0.67630024,
+      "epoch": 0.48490613901572804,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.02111111773529e-06,
+      "loss": 1.56844578,
+      "memory(GiB)": 111.15,
+      "step": 19115,
+      "train_speed(iter/s)": 0.448461
+    },
+    {
+      "acc": 0.65351734,
+      "epoch": 0.4850329781836631,
+      "grad_norm": 4.8125,
+      "learning_rate": 9.020487802148328e-06,
+      "loss": 1.56021843,
+      "memory(GiB)": 111.15,
+      "step": 19120,
+      "train_speed(iter/s)": 0.448523
+    },
+    {
+      "acc": 0.64454651,
+      "epoch": 0.4851598173515982,
+      "grad_norm": 5.28125,
+      "learning_rate": 9.019864309722362e-06,
+      "loss": 1.63543339,
+      "memory(GiB)": 111.15,
+      "step": 19125,
+      "train_speed(iter/s)": 0.448584
+    },
+    {
+      "acc": 0.65549674,
+      "epoch": 0.48528665651953323,
+      "grad_norm": 4.34375,
+      "learning_rate": 9.019240640484816e-06,
+      "loss": 1.61127357,
+      "memory(GiB)": 111.15,
+      "step": 19130,
+      "train_speed(iter/s)": 0.448646
+    },
+    {
+      "acc": 0.64719925,
+      "epoch": 0.4854134956874683,
+      "grad_norm": 5.625,
+      "learning_rate": 9.018616794463124e-06,
+      "loss": 1.61882591,
+      "memory(GiB)": 111.15,
+      "step": 19135,
+      "train_speed(iter/s)": 0.448708
+    },
+    {
+      "acc": 0.63946924,
+      "epoch": 0.4855403348554033,
+      "grad_norm": 4.90625,
+      "learning_rate": 9.017992771684722e-06,
+      "loss": 1.66870384,
+      "memory(GiB)": 111.15,
+      "step": 19140,
+      "train_speed(iter/s)": 0.44877
+    },
+    {
+      "acc": 0.63684483,
+      "epoch": 0.4856671740233384,
+      "grad_norm": 5.71875,
+      "learning_rate": 9.017368572177058e-06,
+      "loss": 1.64602413,
+      "memory(GiB)": 111.15,
+      "step": 19145,
+      "train_speed(iter/s)": 0.448831
+    },
+    {
+      "acc": 0.64727974,
+      "epoch": 0.48579401319127347,
+      "grad_norm": 5.96875,
+      "learning_rate": 9.016744195967588e-06,
+      "loss": 1.62067356,
+      "memory(GiB)": 111.15,
+      "step": 19150,
+      "train_speed(iter/s)": 0.448892
+    },
+    {
+      "acc": 0.66369309,
+      "epoch": 0.4859208523592085,
+      "grad_norm": 5.6875,
+      "learning_rate": 9.016119643083777e-06,
+      "loss": 1.66478291,
+      "memory(GiB)": 111.15,
+      "step": 19155,
+      "train_speed(iter/s)": 0.448954
+    },
+    {
+      "acc": 0.65257587,
+      "epoch": 0.48604769152714355,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.015494913553091e-06,
+      "loss": 1.64631138,
+      "memory(GiB)": 111.15,
+      "step": 19160,
+      "train_speed(iter/s)": 0.449016
+    },
+    {
+      "acc": 0.63958178,
+      "epoch": 0.48617453069507865,
+      "grad_norm": 4.84375,
+      "learning_rate": 9.014870007403012e-06,
+      "loss": 1.63401909,
+      "memory(GiB)": 111.15,
+      "step": 19165,
+      "train_speed(iter/s)": 0.449079
+    },
+    {
+      "acc": 0.64127951,
+      "epoch": 0.4863013698630137,
+      "grad_norm": 5.1875,
+      "learning_rate": 9.014244924661026e-06,
+      "loss": 1.57819738,
+      "memory(GiB)": 111.15,
+      "step": 19170,
+      "train_speed(iter/s)": 0.44914
+    },
+    {
+      "acc": 0.64438739,
+      "epoch": 0.48642820903094874,
+      "grad_norm": 5.125,
+      "learning_rate": 9.013619665354626e-06,
+      "loss": 1.64140167,
+      "memory(GiB)": 111.15,
+      "step": 19175,
+      "train_speed(iter/s)": 0.449202
+    },
+    {
+      "acc": 0.64124694,
+      "epoch": 0.4865550481988838,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.01299422951131e-06,
+      "loss": 1.69079762,
+      "memory(GiB)": 111.15,
+      "step": 19180,
+      "train_speed(iter/s)": 0.449264
+    },
+    {
+      "acc": 0.63716879,
+      "epoch": 0.4866818873668189,
+      "grad_norm": 5.875,
+      "learning_rate": 9.012368617158593e-06,
+      "loss": 1.67937794,
+      "memory(GiB)": 111.15,
+      "step": 19185,
+      "train_speed(iter/s)": 0.449326
+    },
+    {
+      "acc": 0.63726978,
+      "epoch": 0.48680872653475393,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.01174282832399e-06,
+      "loss": 1.63657322,
+      "memory(GiB)": 111.15,
+      "step": 19190,
+      "train_speed(iter/s)": 0.449388
+    },
+    {
+      "acc": 0.66072812,
+      "epoch": 0.486935565702689,
+      "grad_norm": 5.40625,
+      "learning_rate": 9.011116863035027e-06,
+      "loss": 1.55699387,
+      "memory(GiB)": 111.15,
+      "step": 19195,
+      "train_speed(iter/s)": 0.449449
+    },
+    {
+      "acc": 0.63863153,
+      "epoch": 0.487062404870624,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.010490721319237e-06,
+      "loss": 1.66960392,
+      "memory(GiB)": 111.15,
+      "step": 19200,
+      "train_speed(iter/s)": 0.449511
+    },
+    {
+      "epoch": 0.487062404870624,
+      "eval_acc": 0.6409774585292836,
+      "eval_loss": 1.621353268623352,
+      "eval_runtime": 114.0373,
+      "eval_samples_per_second": 55.859,
+      "eval_steps_per_second": 27.929,
+      "step": 19200
+    },
+    {
+      "acc": 0.64599915,
+      "epoch": 0.4871892440385591,
+      "grad_norm": 5.8125,
+      "learning_rate": 9.009864403204157e-06,
+      "loss": 1.63188744,
+      "memory(GiB)": 111.15,
+      "step": 19205,
+      "train_speed(iter/s)": 0.448328
+    },
+    {
+      "acc": 0.65334759,
+      "epoch": 0.48731608320649417,
+      "grad_norm": 4.75,
+      "learning_rate": 9.00923790871734e-06,
+      "loss": 1.57228127,
+      "memory(GiB)": 111.15,
+      "step": 19210,
+      "train_speed(iter/s)": 0.44839
+    },
+    {
+      "acc": 0.64364328,
+      "epoch": 0.4874429223744292,
+      "grad_norm": 6.4375,
+      "learning_rate": 9.008611237886339e-06,
+      "loss": 1.68164902,
+      "memory(GiB)": 111.15,
+      "step": 19215,
+      "train_speed(iter/s)": 0.448452
+    },
+    {
+      "acc": 0.65107927,
+      "epoch": 0.48756976154236426,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.00798439073872e-06,
+      "loss": 1.62828445,
+      "memory(GiB)": 111.15,
+      "step": 19220,
+      "train_speed(iter/s)": 0.448513
+    },
+    {
+      "acc": 0.64676628,
+      "epoch": 0.48769660071029935,
+      "grad_norm": 6.96875,
+      "learning_rate": 9.007357367302052e-06,
+      "loss": 1.64756699,
+      "memory(GiB)": 111.15,
+      "step": 19225,
+      "train_speed(iter/s)": 0.448575
+    },
+    {
+      "acc": 0.63618631,
+      "epoch": 0.4878234398782344,
+      "grad_norm": 5.375,
+      "learning_rate": 9.006730167603914e-06,
+      "loss": 1.70140572,
+      "memory(GiB)": 111.15,
+      "step": 19230,
+      "train_speed(iter/s)": 0.448636
+    },
+    {
+      "acc": 0.64493132,
+      "epoch": 0.48795027904616944,
+      "grad_norm": 5.6875,
+      "learning_rate": 9.006102791671896e-06,
+      "loss": 1.66279945,
+      "memory(GiB)": 111.15,
+      "step": 19235,
+      "train_speed(iter/s)": 0.448698
+    },
+    {
+      "acc": 0.65589643,
+      "epoch": 0.4880771182141045,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.005475239533591e-06,
+      "loss": 1.63769798,
+      "memory(GiB)": 111.15,
+      "step": 19240,
+      "train_speed(iter/s)": 0.448761
+    },
+    {
+      "acc": 0.63749704,
+      "epoch": 0.4882039573820396,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.0048475112166e-06,
+      "loss": 1.65136223,
+      "memory(GiB)": 111.15,
+      "step": 19245,
+      "train_speed(iter/s)": 0.448822
+    },
+    {
+      "acc": 0.64306965,
+      "epoch": 0.48833079654997463,
+      "grad_norm": 4.9375,
+      "learning_rate": 9.00421960674854e-06,
+      "loss": 1.64080315,
+      "memory(GiB)": 111.15,
+      "step": 19250,
+      "train_speed(iter/s)": 0.448884
+    },
+    {
+      "acc": 0.64099693,
+      "epoch": 0.4884576357179097,
+      "grad_norm": 5.4375,
+      "learning_rate": 9.003591526157021e-06,
+      "loss": 1.66535778,
+      "memory(GiB)": 111.15,
+      "step": 19255,
+      "train_speed(iter/s)": 0.448946
+    },
+    {
+      "acc": 0.64774833,
+      "epoch": 0.4885844748858447,
+      "grad_norm": 5.8125,
+      "learning_rate": 9.002963269469672e-06,
+      "loss": 1.66947594,
+      "memory(GiB)": 111.15,
+      "step": 19260,
+      "train_speed(iter/s)": 0.449008
+    },
+    {
+      "acc": 0.65985851,
+      "epoch": 0.4887113140537798,
+      "grad_norm": 5.03125,
+      "learning_rate": 9.002334836714126e-06,
+      "loss": 1.58462105,
+      "memory(GiB)": 111.15,
+      "step": 19265,
+      "train_speed(iter/s)": 0.44907
+    },
+    {
+      "acc": 0.64875956,
+      "epoch": 0.48883815322171487,
+      "grad_norm": 4.71875,
+      "learning_rate": 9.001706227918023e-06,
+      "loss": 1.60208797,
+      "memory(GiB)": 111.15,
+      "step": 19270,
+      "train_speed(iter/s)": 0.449132
+    },
+    {
+      "acc": 0.64401202,
+      "epoch": 0.4889649923896499,
+      "grad_norm": 5.0,
+      "learning_rate": 9.001077443109016e-06,
+      "loss": 1.69486084,
+      "memory(GiB)": 111.15,
+      "step": 19275,
+      "train_speed(iter/s)": 0.449194
+    },
+    {
+      "acc": 0.64017572,
+      "epoch": 0.48909183155758496,
+      "grad_norm": 4.5625,
+      "learning_rate": 9.00044848231476e-06,
+      "loss": 1.65506401,
+      "memory(GiB)": 111.15,
+      "step": 19280,
+      "train_speed(iter/s)": 0.449255
+    },
+    {
+      "acc": 0.66595573,
+      "epoch": 0.48921867072552006,
+      "grad_norm": 4.84375,
+      "learning_rate": 8.999819345562919e-06,
+      "loss": 1.56353426,
+      "memory(GiB)": 111.15,
+      "step": 19285,
+      "train_speed(iter/s)": 0.449317
+    },
+    {
+      "acc": 0.64263086,
+      "epoch": 0.4893455098934551,
+      "grad_norm": 5.5,
+      "learning_rate": 8.999190032881165e-06,
+      "loss": 1.65221329,
+      "memory(GiB)": 111.15,
+      "step": 19290,
+      "train_speed(iter/s)": 0.449379
+    },
+    {
+      "acc": 0.66589212,
+      "epoch": 0.48947234906139014,
+      "grad_norm": 5.1875,
+      "learning_rate": 8.998560544297176e-06,
+      "loss": 1.58555279,
+      "memory(GiB)": 111.15,
+      "step": 19295,
+      "train_speed(iter/s)": 0.449441
+    },
+    {
+      "acc": 0.64519072,
+      "epoch": 0.4895991882293252,
+      "grad_norm": 4.875,
+      "learning_rate": 8.997930879838646e-06,
+      "loss": 1.62003307,
+      "memory(GiB)": 111.15,
+      "step": 19300,
+      "train_speed(iter/s)": 0.449503
+    },
+    {
+      "epoch": 0.4895991882293252,
+      "eval_acc": 0.6409770407619741,
+      "eval_loss": 1.621379017829895,
+      "eval_runtime": 112.6403,
+      "eval_samples_per_second": 56.552,
+      "eval_steps_per_second": 28.276,
+      "step": 19300
+    },
+    {
+      "acc": 0.64992905,
+      "epoch": 0.4897260273972603,
+      "grad_norm": 5.0625,
+      "learning_rate": 8.997301039533264e-06,
+      "loss": 1.65375214,
+      "memory(GiB)": 111.15,
+      "step": 19305,
+      "train_speed(iter/s)": 0.448342
+    },
+    {
+      "acc": 0.64251685,
+      "epoch": 0.48985286656519533,
+      "grad_norm": 5.71875,
+      "learning_rate": 8.996671023408737e-06,
+      "loss": 1.6641201,
+      "memory(GiB)": 111.15,
+      "step": 19310,
+      "train_speed(iter/s)": 0.448403
+    },
+    {
+      "acc": 0.64107342,
+      "epoch": 0.4899797057331304,
+      "grad_norm": 5.0625,
+      "learning_rate": 8.996040831492772e-06,
+      "loss": 1.677528,
+      "memory(GiB)": 111.15,
+      "step": 19315,
+      "train_speed(iter/s)": 0.448465
+    },
+    {
+      "acc": 0.62711916,
+      "epoch": 0.4901065449010654,
+      "grad_norm": 4.5625,
+      "learning_rate": 8.995410463813093e-06,
+      "loss": 1.60708542,
+      "memory(GiB)": 111.15,
+      "step": 19320,
+      "train_speed(iter/s)": 0.448527
+    },
+    {
+      "acc": 0.65129037,
+      "epoch": 0.4902333840690005,
+      "grad_norm": 4.46875,
+      "learning_rate": 8.99477992039742e-06,
+      "loss": 1.5919631,
+      "memory(GiB)": 111.15,
+      "step": 19325,
+      "train_speed(iter/s)": 0.448588
+    },
+    {
+      "acc": 0.64937878,
+      "epoch": 0.49036022323693557,
+      "grad_norm": 6.28125,
+      "learning_rate": 8.994149201273495e-06,
+      "loss": 1.63562737,
+      "memory(GiB)": 111.15,
+      "step": 19330,
+      "train_speed(iter/s)": 0.44865
+    },
+    {
+      "acc": 0.63755674,
+      "epoch": 0.4904870624048706,
+      "grad_norm": 5.75,
+      "learning_rate": 8.993518306469052e-06,
+      "loss": 1.60786171,
+      "memory(GiB)": 111.15,
+      "step": 19335,
+      "train_speed(iter/s)": 0.448711
+    },
+    {
+      "acc": 0.62695413,
+      "epoch": 0.49061390157280566,
+      "grad_norm": 5.34375,
+      "learning_rate": 8.992887236011847e-06,
+      "loss": 1.7553627,
+      "memory(GiB)": 111.15,
+      "step": 19340,
+      "train_speed(iter/s)": 0.448773
+    },
+    {
+      "acc": 0.63381844,
+      "epoch": 0.49074074074074076,
+      "grad_norm": 4.84375,
+      "learning_rate": 8.992255989929632e-06,
+      "loss": 1.67682877,
+      "memory(GiB)": 111.15,
+      "step": 19345,
+      "train_speed(iter/s)": 0.448835
+    },
+    {
+      "acc": 0.66563301,
+      "epoch": 0.4908675799086758,
+      "grad_norm": 4.8125,
+      "learning_rate": 8.991624568250175e-06,
+      "loss": 1.58863144,
+      "memory(GiB)": 111.15,
+      "step": 19350,
+      "train_speed(iter/s)": 0.448896
+    },
+    {
+      "acc": 0.64343934,
+      "epoch": 0.49099441907661084,
+      "grad_norm": 6.0625,
+      "learning_rate": 8.99099297100125e-06,
+      "loss": 1.69840851,
+      "memory(GiB)": 111.15,
+      "step": 19355,
+      "train_speed(iter/s)": 0.448958
+    },
+    {
+      "acc": 0.65460687,
+      "epoch": 0.4911212582445459,
+      "grad_norm": 6.34375,
+      "learning_rate": 8.990361198210634e-06,
+      "loss": 1.62798386,
+      "memory(GiB)": 111.15,
+      "step": 19360,
+      "train_speed(iter/s)": 0.449019
+    },
+    {
+      "acc": 0.63621321,
+      "epoch": 0.491248097412481,
+      "grad_norm": 4.53125,
+      "learning_rate": 8.989729249906116e-06,
+      "loss": 1.73319359,
+      "memory(GiB)": 111.15,
+      "step": 19365,
+      "train_speed(iter/s)": 0.44908
+    },
+    {
+      "acc": 0.65269837,
+      "epoch": 0.49137493658041603,
+      "grad_norm": 5.0,
+      "learning_rate": 8.989097126115493e-06,
+      "loss": 1.60817852,
+      "memory(GiB)": 111.15,
+      "step": 19370,
+      "train_speed(iter/s)": 0.449141
+    },
+    {
+      "acc": 0.64523873,
+      "epoch": 0.4915017757483511,
+      "grad_norm": 5.625,
+      "learning_rate": 8.98846482686657e-06,
+      "loss": 1.69147663,
+      "memory(GiB)": 111.15,
+      "step": 19375,
+      "train_speed(iter/s)": 0.449203
+    },
+    {
+      "acc": 0.6513546,
+      "epoch": 0.4916286149162861,
+      "grad_norm": 5.90625,
+      "learning_rate": 8.987832352187156e-06,
+      "loss": 1.6666975,
+      "memory(GiB)": 111.15,
+      "step": 19380,
+      "train_speed(iter/s)": 0.449264
+    },
+    {
+      "acc": 0.65197001,
+      "epoch": 0.4917554540842212,
+      "grad_norm": 5.5,
+      "learning_rate": 8.987199702105071e-06,
+      "loss": 1.68130054,
+      "memory(GiB)": 111.15,
+      "step": 19385,
+      "train_speed(iter/s)": 0.449326
+    },
+    {
+      "acc": 0.63824501,
+      "epoch": 0.49188229325215627,
+      "grad_norm": 5.34375,
+      "learning_rate": 8.986566876648141e-06,
+      "loss": 1.68513718,
+      "memory(GiB)": 111.15,
+      "step": 19390,
+      "train_speed(iter/s)": 0.449388
+    },
+    {
+      "acc": 0.63807278,
+      "epoch": 0.4920091324200913,
+      "grad_norm": 5.0625,
+      "learning_rate": 8.985933875844202e-06,
+      "loss": 1.62893333,
+      "memory(GiB)": 111.15,
+      "step": 19395,
+      "train_speed(iter/s)": 0.449449
+    },
+    {
+      "acc": 0.67302475,
+      "epoch": 0.49213597158802636,
+      "grad_norm": 5.1875,
+      "learning_rate": 8.985300699721094e-06,
+      "loss": 1.58375063,
+      "memory(GiB)": 111.15,
+      "step": 19400,
+      "train_speed(iter/s)": 0.44951
+    },
+    {
+      "epoch": 0.49213597158802636,
+      "eval_acc": 0.6410580876200089,
+      "eval_loss": 1.620782494544983,
+      "eval_runtime": 114.4032,
+      "eval_samples_per_second": 55.68,
+      "eval_steps_per_second": 27.84,
+      "step": 19400
+    },
+    {
+      "acc": 0.6445715,
+      "epoch": 0.49226281075596146,
+      "grad_norm": 5.5625,
+      "learning_rate": 8.984667348306669e-06,
+      "loss": 1.66913948,
+      "memory(GiB)": 111.15,
+      "step": 19405,
+      "train_speed(iter/s)": 0.448336
+    },
+    {
+      "acc": 0.65802813,
+      "epoch": 0.4923896499238965,
+      "grad_norm": 5.21875,
+      "learning_rate": 8.984033821628782e-06,
+      "loss": 1.59751186,
+      "memory(GiB)": 111.15,
+      "step": 19410,
+      "train_speed(iter/s)": 0.448397
+    },
+    {
+      "acc": 0.66723785,
+      "epoch": 0.49251648909183154,
+      "grad_norm": 5.03125,
+      "learning_rate": 8.983400119715303e-06,
+      "loss": 1.58746223,
+      "memory(GiB)": 111.15,
+      "step": 19415,
+      "train_speed(iter/s)": 0.448458
+    },
+    {
+      "acc": 0.64559422,
+      "epoch": 0.4926433282597666,
+      "grad_norm": 5.59375,
+      "learning_rate": 8.982766242594099e-06,
+      "loss": 1.63232346,
+      "memory(GiB)": 111.15,
+      "step": 19420,
+      "train_speed(iter/s)": 0.448519
+    },
+    {
+      "acc": 0.66723385,
+      "epoch": 0.4927701674277017,
+      "grad_norm": 6.5625,
+      "learning_rate": 8.982132190293056e-06,
+      "loss": 1.6433773,
+      "memory(GiB)": 111.15,
+      "step": 19425,
+      "train_speed(iter/s)": 0.44858
+    },
+    {
+      "acc": 0.65465431,
+      "epoch": 0.49289700659563673,
+      "grad_norm": 5.34375,
+      "learning_rate": 8.98149796284006e-06,
+      "loss": 1.61076221,
+      "memory(GiB)": 111.15,
+      "step": 19430,
+      "train_speed(iter/s)": 0.448641
+    },
+    {
+      "acc": 0.65105076,
+      "epoch": 0.4930238457635718,
+      "grad_norm": 6.03125,
+      "learning_rate": 8.980863560263007e-06,
+      "loss": 1.62299786,
+      "memory(GiB)": 111.15,
+      "step": 19435,
+      "train_speed(iter/s)": 0.448702
+    },
+    {
+      "acc": 0.65418553,
+      "epoch": 0.4931506849315068,
+      "grad_norm": 5.40625,
+      "learning_rate": 8.980228982589802e-06,
+      "loss": 1.61417351,
+      "memory(GiB)": 111.15,
+      "step": 19440,
+      "train_speed(iter/s)": 0.448763
+    },
+    {
+      "acc": 0.66117258,
+      "epoch": 0.4932775240994419,
+      "grad_norm": 5.15625,
+      "learning_rate": 8.979594229848355e-06,
+      "loss": 1.65091095,
+      "memory(GiB)": 111.15,
+      "step": 19445,
+      "train_speed(iter/s)": 0.448825
+    },
+    {
+      "acc": 0.65229969,
+      "epoch": 0.49340436326737697,
+      "grad_norm": 5.125,
+      "learning_rate": 8.978959302066587e-06,
+      "loss": 1.67502575,
+      "memory(GiB)": 111.15,
+      "step": 19450,
+      "train_speed(iter/s)": 0.448886
+    },
+    {
+      "acc": 0.64084988,
+      "epoch": 0.493531202435312,
+      "grad_norm": 4.53125,
+      "learning_rate": 8.978324199272423e-06,
+      "loss": 1.59788513,
+      "memory(GiB)": 111.15,
+      "step": 19455,
+      "train_speed(iter/s)": 0.448948
+    },
+    {
+      "acc": 0.65719013,
+      "epoch": 0.49365804160324706,
+      "grad_norm": 5.6875,
+      "learning_rate": 8.977688921493799e-06,
+      "loss": 1.57431412,
+      "memory(GiB)": 111.15,
+      "step": 19460,
+      "train_speed(iter/s)": 0.449009
+    },
+    {
+      "acc": 0.657513,
+      "epoch": 0.49378488077118216,
+      "grad_norm": 4.75,
+      "learning_rate": 8.977053468758659e-06,
+      "loss": 1.56710997,
+      "memory(GiB)": 111.15,
+      "step": 19465,
+      "train_speed(iter/s)": 0.44907
+    },
+    {
+      "acc": 0.65799584,
+      "epoch": 0.4939117199391172,
+      "grad_norm": 5.5625,
+      "learning_rate": 8.976417841094949e-06,
+      "loss": 1.64296818,
+      "memory(GiB)": 111.15,
+      "step": 19470,
+      "train_speed(iter/s)": 0.449132
+    },
+    {
+      "acc": 0.65312796,
+      "epoch": 0.49403855910705224,
+      "grad_norm": 5.59375,
+      "learning_rate": 8.97578203853063e-06,
+      "loss": 1.63040695,
+      "memory(GiB)": 111.15,
+      "step": 19475,
+      "train_speed(iter/s)": 0.449193
+    },
+    {
+      "acc": 0.65051908,
+      "epoch": 0.4941653982749873,
+      "grad_norm": 4.6875,
+      "learning_rate": 8.975146061093667e-06,
+      "loss": 1.61847382,
+      "memory(GiB)": 111.15,
+      "step": 19480,
+      "train_speed(iter/s)": 0.449254
+    },
+    {
+      "acc": 0.63925037,
+      "epoch": 0.4942922374429224,
+      "grad_norm": 5.28125,
+      "learning_rate": 8.97450990881203e-06,
+      "loss": 1.72094994,
+      "memory(GiB)": 111.15,
+      "step": 19485,
+      "train_speed(iter/s)": 0.449315
+    },
+    {
+      "acc": 0.66057014,
+      "epoch": 0.49441907661085743,
+      "grad_norm": 6.46875,
+      "learning_rate": 8.973873581713705e-06,
+      "loss": 1.60698795,
+      "memory(GiB)": 111.15,
+      "step": 19490,
+      "train_speed(iter/s)": 0.449376
+    },
+    {
+      "acc": 0.65537696,
+      "epoch": 0.4945459157787925,
+      "grad_norm": 5.4375,
+      "learning_rate": 8.973237079826676e-06,
+      "loss": 1.63585701,
+      "memory(GiB)": 111.15,
+      "step": 19495,
+      "train_speed(iter/s)": 0.449436
+    },
+    {
+      "acc": 0.64741716,
+      "epoch": 0.4946727549467275,
+      "grad_norm": 6.53125,
+      "learning_rate": 8.972600403178941e-06,
+      "loss": 1.65512238,
+      "memory(GiB)": 111.15,
+      "step": 19500,
+      "train_speed(iter/s)": 0.449497
+    },
+    {
+      "epoch": 0.4946727549467275,
+      "eval_acc": 0.6410497322738198,
+      "eval_loss": 1.6204440593719482,
+      "eval_runtime": 113.1642,
+      "eval_samples_per_second": 56.29,
+      "eval_steps_per_second": 28.145,
+      "step": 19500
+    },
+    {
+      "acc": 0.64733772,
+      "epoch": 0.4947995941146626,
+      "grad_norm": 5.90625,
+      "learning_rate": 8.971963551798506e-06,
+      "loss": 1.59074268,
+      "memory(GiB)": 111.15,
+      "step": 19505,
+      "train_speed(iter/s)": 0.448342
+    },
+    {
+      "acc": 0.65378852,
+      "epoch": 0.49492643328259767,
+      "grad_norm": 5.28125,
+      "learning_rate": 8.971326525713378e-06,
+      "loss": 1.58030519,
+      "memory(GiB)": 111.15,
+      "step": 19510,
+      "train_speed(iter/s)": 0.448402
+    },
+    {
+      "acc": 0.64739265,
+      "epoch": 0.4950532724505327,
+      "grad_norm": 5.90625,
+      "learning_rate": 8.97068932495158e-06,
+      "loss": 1.66038361,
+      "memory(GiB)": 111.15,
+      "step": 19515,
+      "train_speed(iter/s)": 0.448462
+    },
+    {
+      "acc": 0.64897904,
+      "epoch": 0.49518011161846776,
+      "grad_norm": 7.625,
+      "learning_rate": 8.970051949541137e-06,
+      "loss": 1.65075798,
+      "memory(GiB)": 111.15,
+      "step": 19520,
+      "train_speed(iter/s)": 0.448523
+    },
+    {
+      "acc": 0.65034771,
+      "epoch": 0.49530695078640286,
+      "grad_norm": 5.375,
+      "learning_rate": 8.969414399510085e-06,
+      "loss": 1.6129776,
+      "memory(GiB)": 111.15,
+      "step": 19525,
+      "train_speed(iter/s)": 0.448583
+    },
+    {
+      "acc": 0.66213326,
+      "epoch": 0.4954337899543379,
+      "grad_norm": 4.75,
+      "learning_rate": 8.968776674886466e-06,
+      "loss": 1.61632652,
+      "memory(GiB)": 111.15,
+      "step": 19530,
+      "train_speed(iter/s)": 0.448644
+    },
+    {
+      "acc": 0.62931166,
+      "epoch": 0.49556062912227294,
+      "grad_norm": 7.78125,
+      "learning_rate": 8.968138775698328e-06,
+      "loss": 1.71390076,
+      "memory(GiB)": 111.15,
+      "step": 19535,
+      "train_speed(iter/s)": 0.448705
+    },
+    {
+      "acc": 0.66008778,
+      "epoch": 0.495687468290208,
+      "grad_norm": 5.65625,
+      "learning_rate": 8.96750070197373e-06,
+      "loss": 1.62999687,
+      "memory(GiB)": 111.15,
+      "step": 19540,
+      "train_speed(iter/s)": 0.448766
+    },
+    {
+      "acc": 0.64180026,
+      "epoch": 0.4958143074581431,
+      "grad_norm": 5.5,
+      "learning_rate": 8.966862453740738e-06,
+      "loss": 1.63300514,
+      "memory(GiB)": 111.15,
+      "step": 19545,
+      "train_speed(iter/s)": 0.448827
+    },
+    {
+      "acc": 0.6468627,
+      "epoch": 0.49594114662607813,
+      "grad_norm": 4.6875,
+      "learning_rate": 8.966224031027426e-06,
+      "loss": 1.67881184,
+      "memory(GiB)": 111.15,
+      "step": 19550,
+      "train_speed(iter/s)": 0.448888
+    },
+    {
+      "acc": 0.64234486,
+      "epoch": 0.4960679857940132,
+      "grad_norm": 5.53125,
+      "learning_rate": 8.965585433861871e-06,
+      "loss": 1.65521164,
+      "memory(GiB)": 111.15,
+      "step": 19555,
+      "train_speed(iter/s)": 0.448948
+    },
+    {
+      "acc": 0.6452858,
+      "epoch": 0.4961948249619482,
+      "grad_norm": 5.375,
+      "learning_rate": 8.964946662272167e-06,
+      "loss": 1.59792099,
+      "memory(GiB)": 111.15,
+      "step": 19560,
+      "train_speed(iter/s)": 0.449009
+    },
+    {
+      "acc": 0.65219803,
+      "epoch": 0.4963216641298833,
+      "grad_norm": 5.53125,
+      "learning_rate": 8.964307716286404e-06,
+      "loss": 1.59632511,
+      "memory(GiB)": 111.15,
+      "step": 19565,
+      "train_speed(iter/s)": 0.449069
+    },
+    {
+      "acc": 0.65406055,
+      "epoch": 0.49644850329781837,
+      "grad_norm": 6.09375,
+      "learning_rate": 8.963668595932689e-06,
+      "loss": 1.66682625,
+      "memory(GiB)": 111.15,
+      "step": 19570,
+      "train_speed(iter/s)": 0.44913
+    },
+    {
+      "acc": 0.64594746,
+      "epoch": 0.4965753424657534,
+      "grad_norm": 4.78125,
+      "learning_rate": 8.96302930123913e-06,
+      "loss": 1.63992786,
+      "memory(GiB)": 111.15,
+      "step": 19575,
+      "train_speed(iter/s)": 0.44919
+    },
+    {
+      "acc": 0.65579138,
+      "epoch": 0.49670218163368846,
+      "grad_norm": 5.125,
+      "learning_rate": 8.962389832233853e-06,
+      "loss": 1.61381836,
+      "memory(GiB)": 111.15,
+      "step": 19580,
+      "train_speed(iter/s)": 0.449251
+    },
+    {
+      "acc": 0.63740091,
+      "epoch": 0.49682902080162356,
+      "grad_norm": 7.875,
+      "learning_rate": 8.961750188944978e-06,
+      "loss": 1.71557102,
+      "memory(GiB)": 111.15,
+      "step": 19585,
+      "train_speed(iter/s)": 0.449312
+    },
+    {
+      "acc": 0.64190941,
+      "epoch": 0.4969558599695586,
+      "grad_norm": 5.5,
+      "learning_rate": 8.96111037140064e-06,
+      "loss": 1.64288044,
+      "memory(GiB)": 111.15,
+      "step": 19590,
+      "train_speed(iter/s)": 0.449372
+    },
+    {
+      "acc": 0.64492645,
+      "epoch": 0.49708269913749364,
+      "grad_norm": 4.59375,
+      "learning_rate": 8.960470379628986e-06,
+      "loss": 1.58975945,
+      "memory(GiB)": 111.15,
+      "step": 19595,
+      "train_speed(iter/s)": 0.449433
+    },
+    {
+      "acc": 0.64249325,
+      "epoch": 0.4972095383054287,
+      "grad_norm": 5.71875,
+      "learning_rate": 8.959830213658161e-06,
+      "loss": 1.62804146,
+      "memory(GiB)": 111.15,
+      "step": 19600,
+      "train_speed(iter/s)": 0.449493
+    },
+    {
+      "epoch": 0.4972095383054287,
+      "eval_acc": 0.6411128151375478,
+      "eval_loss": 1.6208021640777588,
+      "eval_runtime": 113.4802,
+      "eval_samples_per_second": 56.133,
+      "eval_steps_per_second": 28.067,
+      "step": 19600
+    },
+    {
+      "acc": 0.64347668,
+      "epoch": 0.4973363774733638,
+      "grad_norm": 5.40625,
+      "learning_rate": 8.959189873516324e-06,
+      "loss": 1.70902748,
+      "memory(GiB)": 111.15,
+      "step": 19605,
+      "train_speed(iter/s)": 0.448341
+    },
+    {
+      "acc": 0.6401154,
+      "epoch": 0.49746321664129883,
+      "grad_norm": 4.9375,
+      "learning_rate": 8.95854935923164e-06,
+      "loss": 1.71167965,
+      "memory(GiB)": 111.15,
+      "step": 19610,
+      "train_speed(iter/s)": 0.448401
+    },
+    {
+      "acc": 0.65336165,
+      "epoch": 0.4975900558092339,
+      "grad_norm": 6.875,
+      "learning_rate": 8.95790867083228e-06,
+      "loss": 1.67354736,
+      "memory(GiB)": 111.15,
+      "step": 19615,
+      "train_speed(iter/s)": 0.448462
+    },
+    {
+      "acc": 0.6361618,
+      "epoch": 0.4977168949771689,
+      "grad_norm": 6.4375,
+      "learning_rate": 8.957267808346428e-06,
+      "loss": 1.68470726,
+      "memory(GiB)": 111.15,
+      "step": 19620,
+      "train_speed(iter/s)": 0.448523
+    },
+    {
+      "acc": 0.65967007,
+      "epoch": 0.497843734145104,
+      "grad_norm": 4.84375,
+      "learning_rate": 8.95662677180227e-06,
+      "loss": 1.60451908,
+      "memory(GiB)": 111.15,
+      "step": 19625,
+      "train_speed(iter/s)": 0.448583
+    },
+    {
+      "acc": 0.6553791,
+      "epoch": 0.49797057331303907,
+      "grad_norm": 5.28125,
+      "learning_rate": 8.955985561228e-06,
+      "loss": 1.60309162,
+      "memory(GiB)": 111.15,
+      "step": 19630,
+      "train_speed(iter/s)": 0.448643
+    },
+    {
+      "acc": 0.65983362,
+      "epoch": 0.4980974124809741,
+      "grad_norm": 6.03125,
+      "learning_rate": 8.955344176651824e-06,
+      "loss": 1.63896217,
+      "memory(GiB)": 111.15,
+      "step": 19635,
+      "train_speed(iter/s)": 0.448704
+    },
+    {
+      "acc": 0.65563126,
+      "epoch": 0.49822425164890916,
+      "grad_norm": 6.46875,
+      "learning_rate": 8.954702618101952e-06,
+      "loss": 1.62643986,
+      "memory(GiB)": 111.15,
+      "step": 19640,
+      "train_speed(iter/s)": 0.448765
+    },
+    {
+      "acc": 0.63512735,
+      "epoch": 0.49835109081684426,
+      "grad_norm": 6.84375,
+      "learning_rate": 8.9540608856066e-06,
+      "loss": 1.65276241,
+      "memory(GiB)": 111.15,
+      "step": 19645,
+      "train_speed(iter/s)": 0.448825
+    },
+    {
+      "acc": 0.63559399,
+      "epoch": 0.4984779299847793,
+      "grad_norm": 6.09375,
+      "learning_rate": 8.953418979194e-06,
+      "loss": 1.72147312,
+      "memory(GiB)": 111.15,
+      "step": 19650,
+      "train_speed(iter/s)": 0.448885
+    },
+    {
+      "acc": 0.64839697,
+      "epoch": 0.49860476915271434,
+      "grad_norm": 5.28125,
+      "learning_rate": 8.95277689889238e-06,
+      "loss": 1.60835972,
+      "memory(GiB)": 111.15,
+      "step": 19655,
+      "train_speed(iter/s)": 0.448945
+    },
+    {
+      "acc": 0.64133368,
+      "epoch": 0.4987316083206494,
+      "grad_norm": 5.9375,
+      "learning_rate": 8.952134644729985e-06,
+      "loss": 1.67530327,
+      "memory(GiB)": 111.15,
+      "step": 19660,
+      "train_speed(iter/s)": 0.449006
+    },
+    {
+      "acc": 0.65316854,
+      "epoch": 0.4988584474885845,
+      "grad_norm": 5.78125,
+      "learning_rate": 8.951492216735062e-06,
+      "loss": 1.60997486,
+      "memory(GiB)": 111.15,
+      "step": 19665,
+      "train_speed(iter/s)": 0.449066
+    },
+    {
+      "acc": 0.63017092,
+      "epoch": 0.49898528665651953,
+      "grad_norm": 4.84375,
+      "learning_rate": 8.950849614935872e-06,
+      "loss": 1.66038017,
+      "memory(GiB)": 111.15,
+      "step": 19670,
+      "train_speed(iter/s)": 0.449126
+    },
+    {
+      "acc": 0.63417425,
+      "epoch": 0.4991121258244546,
+      "grad_norm": 5.9375,
+      "learning_rate": 8.950206839360674e-06,
+      "loss": 1.71010208,
+      "memory(GiB)": 111.15,
+      "step": 19675,
+      "train_speed(iter/s)": 0.449186
+    },
+    {
+      "acc": 0.64172668,
+      "epoch": 0.4992389649923896,
+      "grad_norm": 4.625,
+      "learning_rate": 8.949563890037745e-06,
+      "loss": 1.68182487,
+      "memory(GiB)": 111.15,
+      "step": 19680,
+      "train_speed(iter/s)": 0.449246
+    },
+    {
+      "acc": 0.63474569,
+      "epoch": 0.4993658041603247,
+      "grad_norm": 5.46875,
+      "learning_rate": 8.948920766995362e-06,
+      "loss": 1.6851017,
+      "memory(GiB)": 111.15,
+      "step": 19685,
+      "train_speed(iter/s)": 0.449307
+    },
+    {
+      "acc": 0.64971361,
+      "epoch": 0.49949264332825977,
+      "grad_norm": 5.625,
+      "learning_rate": 8.948277470261812e-06,
+      "loss": 1.62977314,
+      "memory(GiB)": 111.15,
+      "step": 19690,
+      "train_speed(iter/s)": 0.449367
+    },
+    {
+      "acc": 0.63511553,
+      "epoch": 0.4996194824961948,
+      "grad_norm": 5.46875,
+      "learning_rate": 8.94763399986539e-06,
+      "loss": 1.65221558,
+      "memory(GiB)": 111.15,
+      "step": 19695,
+      "train_speed(iter/s)": 0.449427
+    },
+    {
+      "acc": 0.65666561,
+      "epoch": 0.49974632166412986,
+      "grad_norm": 4.5625,
+      "learning_rate": 8.946990355834401e-06,
+      "loss": 1.59745445,
+      "memory(GiB)": 111.15,
+      "step": 19700,
+      "train_speed(iter/s)": 0.449488
+    },
+    {
+      "epoch": 0.49974632166412986,
+      "eval_acc": 0.641140387779972,
+      "eval_loss": 1.6207466125488281,
+      "eval_runtime": 113.0405,
+      "eval_samples_per_second": 56.351,
+      "eval_steps_per_second": 28.176,
+      "step": 19700
+    },
+    {
+      "acc": 0.65152073,
+      "epoch": 0.49987316083206496,
+      "grad_norm": 5.28125,
+      "learning_rate": 8.946346538197156e-06,
+      "loss": 1.60887604,
+      "memory(GiB)": 111.15,
+      "step": 19705,
+      "train_speed(iter/s)": 0.448346
+    },
+    {
+      "acc": 0.64312763,
+      "epoch": 0.5,
+      "grad_norm": 5.0625,
+      "learning_rate": 8.94570254698197e-06,
+      "loss": 1.66292133,
+      "memory(GiB)": 111.15,
+      "step": 19710,
+      "train_speed(iter/s)": 0.448406
+    },
+    {
+      "acc": 0.64098616,
+      "epoch": 0.5001268391679351,
+      "grad_norm": 5.15625,
+      "learning_rate": 8.945058382217168e-06,
+      "loss": 1.65659752,
+      "memory(GiB)": 111.15,
+      "step": 19715,
+      "train_speed(iter/s)": 0.448467
+    },
+    {
+      "acc": 0.63804965,
+      "epoch": 0.5002536783358701,
+      "grad_norm": 5.0625,
+      "learning_rate": 8.944414043931086e-06,
+      "loss": 1.72590218,
+      "memory(GiB)": 111.15,
+      "step": 19720,
+      "train_speed(iter/s)": 0.448528
+    },
+    {
+      "acc": 0.65472589,
+      "epoch": 0.5003805175038052,
+      "grad_norm": 4.21875,
+      "learning_rate": 8.943769532152065e-06,
+      "loss": 1.59081125,
+      "memory(GiB)": 111.15,
+      "step": 19725,
+      "train_speed(iter/s)": 0.448587
+    },
+    {
+      "acc": 0.64078412,
+      "epoch": 0.5005073566717403,
+      "grad_norm": 5.1875,
+      "learning_rate": 8.94312484690845e-06,
+      "loss": 1.63936729,
+      "memory(GiB)": 111.15,
+      "step": 19730,
+      "train_speed(iter/s)": 0.448648
+    },
+    {
+      "acc": 0.64954872,
+      "epoch": 0.5006341958396753,
+      "grad_norm": 5.46875,
+      "learning_rate": 8.9424799882286e-06,
+      "loss": 1.66516342,
+      "memory(GiB)": 111.15,
+      "step": 19735,
+      "train_speed(iter/s)": 0.448709
+    },
+    {
+      "acc": 0.65834932,
+      "epoch": 0.5007610350076104,
+      "grad_norm": 4.5625,
+      "learning_rate": 8.94183495614088e-06,
+      "loss": 1.6083374,
+      "memory(GiB)": 111.15,
+      "step": 19740,
+      "train_speed(iter/s)": 0.448768
+    },
+    {
+      "acc": 0.6696136,
+      "epoch": 0.5008878741755454,
+      "grad_norm": 5.21875,
+      "learning_rate": 8.941189750673658e-06,
+      "loss": 1.56559277,
+      "memory(GiB)": 111.15,
+      "step": 19745,
+      "train_speed(iter/s)": 0.448828
+    },
+    {
+      "acc": 0.639182,
+      "epoch": 0.5010147133434805,
+      "grad_norm": 4.90625,
+      "learning_rate": 8.940544371855315e-06,
+      "loss": 1.64966278,
+      "memory(GiB)": 111.15,
+      "step": 19750,
+      "train_speed(iter/s)": 0.448889
+    },
+    {
+      "acc": 0.65417347,
+      "epoch": 0.5011415525114156,
+      "grad_norm": 5.15625,
+      "learning_rate": 8.939898819714237e-06,
+      "loss": 1.5684557,
+      "memory(GiB)": 111.15,
+      "step": 19755,
+      "train_speed(iter/s)": 0.448949
+    },
+    {
+      "acc": 0.65219088,
+      "epoch": 0.5012683916793506,
+      "grad_norm": 4.78125,
+      "learning_rate": 8.93925309427882e-06,
+      "loss": 1.62795448,
+      "memory(GiB)": 111.15,
+      "step": 19760,
+      "train_speed(iter/s)": 0.44901
+    },
+    {
+      "acc": 0.64510913,
+      "epoch": 0.5013952308472857,
+      "grad_norm": 5.46875,
+      "learning_rate": 8.938607195577462e-06,
+      "loss": 1.68277283,
+      "memory(GiB)": 111.15,
+      "step": 19765,
+      "train_speed(iter/s)": 0.44907
+    },
+    {
+      "acc": 0.63969193,
+      "epoch": 0.5015220700152208,
+      "grad_norm": 4.78125,
+      "learning_rate": 8.937961123638577e-06,
+      "loss": 1.70045528,
+      "memory(GiB)": 111.15,
+      "step": 19770,
+      "train_speed(iter/s)": 0.449131
+    },
+    {
+      "acc": 0.64736881,
+      "epoch": 0.5016489091831557,
+      "grad_norm": 5.5625,
+      "learning_rate": 8.93731487849058e-06,
+      "loss": 1.65596733,
+      "memory(GiB)": 111.15,
+      "step": 19775,
+      "train_speed(iter/s)": 0.449191
+    },
+    {
+      "acc": 0.63354292,
+      "epoch": 0.5017757483510908,
+      "grad_norm": 5.9375,
+      "learning_rate": 8.936668460161895e-06,
+      "loss": 1.67505112,
+      "memory(GiB)": 111.15,
+      "step": 19780,
+      "train_speed(iter/s)": 0.449252
+    },
+    {
+      "acc": 0.65068741,
+      "epoch": 0.5019025875190258,
+      "grad_norm": 6.1875,
+      "learning_rate": 8.936021868680956e-06,
+      "loss": 1.72361488,
+      "memory(GiB)": 111.15,
+      "step": 19785,
+      "train_speed(iter/s)": 0.449311
+    },
+    {
+      "acc": 0.63680954,
+      "epoch": 0.5020294266869609,
+      "grad_norm": 5.90625,
+      "learning_rate": 8.935375104076201e-06,
+      "loss": 1.71470222,
+      "memory(GiB)": 111.15,
+      "step": 19790,
+      "train_speed(iter/s)": 0.449371
+    },
+    {
+      "acc": 0.64843993,
+      "epoch": 0.502156265854896,
+      "grad_norm": 4.875,
+      "learning_rate": 8.93472816637608e-06,
+      "loss": 1.6471674,
+      "memory(GiB)": 111.15,
+      "step": 19795,
+      "train_speed(iter/s)": 0.449431
+    },
+    {
+      "acc": 0.65148096,
+      "epoch": 0.502283105022831,
+      "grad_norm": 5.1875,
+      "learning_rate": 8.934081055609046e-06,
+      "loss": 1.63630924,
+      "memory(GiB)": 111.15,
+      "step": 19800,
+      "train_speed(iter/s)": 0.449491
+    },
+    {
+      "epoch": 0.502283105022831,
+      "eval_acc": 0.6411412233145909,
+      "eval_loss": 1.6205523014068604,
+      "eval_runtime": 113.4099,
+      "eval_samples_per_second": 56.168,
+      "eval_steps_per_second": 28.084,
+      "step": 19800
+    },
+    {
+      "acc": 0.65779028,
+      "epoch": 0.5024099441907661,
+      "grad_norm": 4.96875,
+      "learning_rate": 8.933433771803562e-06,
+      "loss": 1.61116714,
+      "memory(GiB)": 111.15,
+      "step": 19805,
+      "train_speed(iter/s)": 0.44835
+    },
+    {
+      "acc": 0.64732332,
+      "epoch": 0.5025367833587012,
+      "grad_norm": 4.90625,
+      "learning_rate": 8.932786314988099e-06,
+      "loss": 1.63017464,
+      "memory(GiB)": 111.15,
+      "step": 19810,
+      "train_speed(iter/s)": 0.448409
+    },
+    {
+      "acc": 0.65393696,
+      "epoch": 0.5026636225266362,
+      "grad_norm": 6.4375,
+      "learning_rate": 8.932138685191136e-06,
+      "loss": 1.64114685,
+      "memory(GiB)": 111.15,
+      "step": 19815,
+      "train_speed(iter/s)": 0.448469
+    },
+    {
+      "acc": 0.66011,
+      "epoch": 0.5027904616945713,
+      "grad_norm": 6.09375,
+      "learning_rate": 8.931490882441159e-06,
+      "loss": 1.61415825,
+      "memory(GiB)": 111.15,
+      "step": 19820,
+      "train_speed(iter/s)": 0.448528
+    },
+    {
+      "acc": 0.63887177,
+      "epoch": 0.5029173008625063,
+      "grad_norm": 5.78125,
+      "learning_rate": 8.930842906766659e-06,
+      "loss": 1.67127571,
+      "memory(GiB)": 111.15,
+      "step": 19825,
+      "train_speed(iter/s)": 0.448588
+    },
+    {
+      "acc": 0.66116543,
+      "epoch": 0.5030441400304414,
+      "grad_norm": 5.65625,
+      "learning_rate": 8.930194758196138e-06,
+      "loss": 1.58702316,
+      "memory(GiB)": 111.15,
+      "step": 19830,
+      "train_speed(iter/s)": 0.448647
+    },
+    {
+      "acc": 0.63884401,
+      "epoch": 0.5031709791983765,
+      "grad_norm": 4.71875,
+      "learning_rate": 8.929546436758105e-06,
+      "loss": 1.67797718,
+      "memory(GiB)": 111.15,
+      "step": 19835,
+      "train_speed(iter/s)": 0.448707
+    },
+    {
+      "acc": 0.64916,
+      "epoch": 0.5032978183663115,
+      "grad_norm": 4.875,
+      "learning_rate": 8.928897942481075e-06,
+      "loss": 1.61680603,
+      "memory(GiB)": 111.15,
+      "step": 19840,
+      "train_speed(iter/s)": 0.448766
+    },
+    {
+      "acc": 0.63736629,
+      "epoch": 0.5034246575342466,
+      "grad_norm": 6.90625,
+      "learning_rate": 8.928249275393572e-06,
+      "loss": 1.6150526,
+      "memory(GiB)": 111.15,
+      "step": 19845,
+      "train_speed(iter/s)": 0.448826
+    },
+    {
+      "acc": 0.64750786,
+      "epoch": 0.5035514967021817,
+      "grad_norm": 5.15625,
+      "learning_rate": 8.927600435524129e-06,
+      "loss": 1.5982069,
+      "memory(GiB)": 111.15,
+      "step": 19850,
+      "train_speed(iter/s)": 0.448886
+    },
+    {
+      "acc": 0.64708862,
+      "epoch": 0.5036783358701167,
+      "grad_norm": 5.625,
+      "learning_rate": 8.926951422901282e-06,
+      "loss": 1.67548809,
+      "memory(GiB)": 111.15,
+      "step": 19855,
+      "train_speed(iter/s)": 0.448946
+    },
+    {
+      "acc": 0.6586225,
+      "epoch": 0.5038051750380518,
+      "grad_norm": 7.125,
+      "learning_rate": 8.926302237553578e-06,
+      "loss": 1.61093044,
+      "memory(GiB)": 111.15,
+      "step": 19860,
+      "train_speed(iter/s)": 0.449006
+    },
+    {
+      "acc": 0.64287481,
+      "epoch": 0.5039320142059868,
+      "grad_norm": 5.75,
+      "learning_rate": 8.925652879509575e-06,
+      "loss": 1.61765022,
+      "memory(GiB)": 111.15,
+      "step": 19865,
+      "train_speed(iter/s)": 0.449067
+    },
+    {
+      "acc": 0.65285764,
+      "epoch": 0.5040588533739219,
+      "grad_norm": 5.46875,
+      "learning_rate": 8.925003348797829e-06,
+      "loss": 1.68288212,
+      "memory(GiB)": 111.15,
+      "step": 19870,
+      "train_speed(iter/s)": 0.449127
+    },
+    {
+      "acc": 0.65032539,
+      "epoch": 0.504185692541857,
+      "grad_norm": 5.0625,
+      "learning_rate": 8.924353645446912e-06,
+      "loss": 1.56781807,
+      "memory(GiB)": 111.15,
+      "step": 19875,
+      "train_speed(iter/s)": 0.449187
+    },
+    {
+      "acc": 0.64459152,
+      "epoch": 0.504312531709792,
+      "grad_norm": 5.0625,
+      "learning_rate": 8.923703769485403e-06,
+      "loss": 1.62718544,
+      "memory(GiB)": 111.15,
+      "step": 19880,
+      "train_speed(iter/s)": 0.449247
+    },
+    {
+      "acc": 0.65369778,
+      "epoch": 0.5044393708777271,
+      "grad_norm": 5.6875,
+      "learning_rate": 8.92305372094188e-06,
+      "loss": 1.65368176,
+      "memory(GiB)": 111.15,
+      "step": 19885,
+      "train_speed(iter/s)": 0.449307
+    },
+    {
+      "acc": 0.6608572,
+      "epoch": 0.5045662100456622,
+      "grad_norm": 5.5625,
+      "learning_rate": 8.922403499844943e-06,
+      "loss": 1.55294876,
+      "memory(GiB)": 111.15,
+      "step": 19890,
+      "train_speed(iter/s)": 0.449366
+    },
+    {
+      "acc": 0.64980078,
+      "epoch": 0.5046930492135971,
+      "grad_norm": 5.625,
+      "learning_rate": 8.921753106223186e-06,
+      "loss": 1.62799778,
+      "memory(GiB)": 111.15,
+      "step": 19895,
+      "train_speed(iter/s)": 0.449426
+    },
+    {
+      "acc": 0.6211278,
+      "epoch": 0.5048198883815322,
+      "grad_norm": 5.71875,
+      "learning_rate": 8.92110254010522e-06,
+      "loss": 1.78864441,
+      "memory(GiB)": 111.15,
+      "step": 19900,
+      "train_speed(iter/s)": 0.449486
+    },
+    {
+      "epoch": 0.5048198883815322,
+      "eval_acc": 0.6410509855757481,
+      "eval_loss": 1.6204253435134888,
+      "eval_runtime": 113.8356,
+      "eval_samples_per_second": 55.958,
+      "eval_steps_per_second": 27.979,
+      "step": 19900
+    },
+    {
+      "acc": 0.63189363,
+      "epoch": 0.5049467275494672,
+      "grad_norm": 4.375,
+      "learning_rate": 8.920451801519656e-06,
+      "loss": 1.72856541,
+      "memory(GiB)": 111.15,
+      "step": 19905,
+      "train_speed(iter/s)": 0.448346
+    },
+    {
+      "acc": 0.64705267,
+      "epoch": 0.5050735667174023,
+      "grad_norm": 6.46875,
+      "learning_rate": 8.919800890495118e-06,
+      "loss": 1.62633934,
+      "memory(GiB)": 111.15,
+      "step": 19910,
+      "train_speed(iter/s)": 0.448405
+    },
+    {
+      "acc": 0.64308343,
+      "epoch": 0.5052004058853374,
+      "grad_norm": 5.0625,
+      "learning_rate": 8.919149807060237e-06,
+      "loss": 1.67277737,
+      "memory(GiB)": 111.15,
+      "step": 19915,
+      "train_speed(iter/s)": 0.448464
+    },
+    {
+      "acc": 0.64374957,
+      "epoch": 0.5053272450532724,
+      "grad_norm": 5.59375,
+      "learning_rate": 8.918498551243649e-06,
+      "loss": 1.70391808,
+      "memory(GiB)": 111.15,
+      "step": 19920,
+      "train_speed(iter/s)": 0.448522
+    },
+    {
+      "acc": 0.64195366,
+      "epoch": 0.5054540842212075,
+      "grad_norm": 4.75,
+      "learning_rate": 8.917847123073999e-06,
+      "loss": 1.65286789,
+      "memory(GiB)": 111.15,
+      "step": 19925,
+      "train_speed(iter/s)": 0.448581
+    },
+    {
+      "acc": 0.64615202,
+      "epoch": 0.5055809233891426,
+      "grad_norm": 6.53125,
+      "learning_rate": 8.917195522579943e-06,
+      "loss": 1.62834053,
+      "memory(GiB)": 111.15,
+      "step": 19930,
+      "train_speed(iter/s)": 0.44864
+    },
+    {
+      "acc": 0.64980145,
+      "epoch": 0.5057077625570776,
+      "grad_norm": 5.40625,
+      "learning_rate": 8.916543749790139e-06,
+      "loss": 1.62496815,
+      "memory(GiB)": 111.15,
+      "step": 19935,
+      "train_speed(iter/s)": 0.448699
+    },
+    {
+      "acc": 0.64302568,
+      "epoch": 0.5058346017250127,
+      "grad_norm": 5.90625,
+      "learning_rate": 8.915891804733253e-06,
+      "loss": 1.6766943,
+      "memory(GiB)": 111.15,
+      "step": 19940,
+      "train_speed(iter/s)": 0.448758
+    },
+    {
+      "acc": 0.65832748,
+      "epoch": 0.5059614408929477,
+      "grad_norm": 5.21875,
+      "learning_rate": 8.915239687437963e-06,
+      "loss": 1.58243637,
+      "memory(GiB)": 111.15,
+      "step": 19945,
+      "train_speed(iter/s)": 0.448816
+    },
+    {
+      "acc": 0.6488071,
+      "epoch": 0.5060882800608828,
+      "grad_norm": 4.75,
+      "learning_rate": 8.91458739793295e-06,
+      "loss": 1.61363945,
+      "memory(GiB)": 111.15,
+      "step": 19950,
+      "train_speed(iter/s)": 0.448874
+    },
+    {
+      "acc": 0.64655004,
+      "epoch": 0.5062151192288179,
+      "grad_norm": 5.46875,
+      "learning_rate": 8.913934936246907e-06,
+      "loss": 1.67589722,
+      "memory(GiB)": 111.15,
+      "step": 19955,
+      "train_speed(iter/s)": 0.448933
+    },
+    {
+      "acc": 0.63078566,
+      "epoch": 0.5063419583967529,
+      "grad_norm": 5.1875,
+      "learning_rate": 8.91328230240853e-06,
+      "loss": 1.71206779,
+      "memory(GiB)": 111.15,
+      "step": 19960,
+      "train_speed(iter/s)": 0.448992
+    },
+    {
+      "acc": 0.65314703,
+      "epoch": 0.506468797564688,
+      "grad_norm": 5.46875,
+      "learning_rate": 8.912629496446528e-06,
+      "loss": 1.60752449,
+      "memory(GiB)": 111.15,
+      "step": 19965,
+      "train_speed(iter/s)": 0.44905
+    },
+    {
+      "acc": 0.65357242,
+      "epoch": 0.5065956367326231,
+      "grad_norm": 6.9375,
+      "learning_rate": 8.911976518389612e-06,
+      "loss": 1.55129414,
+      "memory(GiB)": 111.15,
+      "step": 19970,
+      "train_speed(iter/s)": 0.449109
+    },
+    {
+      "acc": 0.66091118,
+      "epoch": 0.5067224759005581,
+      "grad_norm": 5.53125,
+      "learning_rate": 8.9113233682665e-06,
+      "loss": 1.59045334,
+      "memory(GiB)": 111.15,
+      "step": 19975,
+      "train_speed(iter/s)": 0.449168
+    },
+    {
+      "acc": 0.64498329,
+      "epoch": 0.5068493150684932,
+      "grad_norm": 4.71875,
+      "learning_rate": 8.910670046105927e-06,
+      "loss": 1.62249432,
+      "memory(GiB)": 111.15,
+      "step": 19980,
+      "train_speed(iter/s)": 0.449227
+    },
+    {
+      "acc": 0.6498518,
+      "epoch": 0.5069761542364282,
+      "grad_norm": 5.53125,
+      "learning_rate": 8.910016551936623e-06,
+      "loss": 1.65905304,
+      "memory(GiB)": 111.15,
+      "step": 19985,
+      "train_speed(iter/s)": 0.449286
+    },
+    {
+      "acc": 0.64149647,
+      "epoch": 0.5071029934043633,
+      "grad_norm": 5.40625,
+      "learning_rate": 8.909362885787333e-06,
+      "loss": 1.67586403,
+      "memory(GiB)": 111.15,
+      "step": 19990,
+      "train_speed(iter/s)": 0.449345
+    },
+    {
+      "acc": 0.63777685,
+      "epoch": 0.5072298325722984,
+      "grad_norm": 5.0625,
+      "learning_rate": 8.908709047686813e-06,
+      "loss": 1.69009876,
+      "memory(GiB)": 111.15,
+      "step": 19995,
+      "train_speed(iter/s)": 0.449403
+    },
+    {
+      "acc": 0.65144787,
+      "epoch": 0.5073566717402334,
+      "grad_norm": 6.1875,
+      "learning_rate": 8.908055037663815e-06,
+      "loss": 1.64033413,
+      "memory(GiB)": 111.15,
+      "step": 20000,
+      "train_speed(iter/s)": 0.449463
+    },
+    {
+      "epoch": 0.5073566717402334,
+      "eval_acc": 0.6412749088536173,
+      "eval_loss": 1.6201322078704834,
+      "eval_runtime": 114.879,
+      "eval_samples_per_second": 55.45,
+      "eval_steps_per_second": 27.725,
+      "step": 20000
+    },
+    {
+      "acc": 0.65780358,
+      "epoch": 0.5074835109081685,
+      "grad_norm": 5.53125,
+      "learning_rate": 8.907400855747111e-06,
+      "loss": 1.63554573,
+      "memory(GiB)": 111.15,
+      "step": 20005,
+      "train_speed(iter/s)": 0.44832
+    },
+    {
+      "acc": 0.61898642,
+      "epoch": 0.5076103500761036,
+      "grad_norm": 4.875,
+      "learning_rate": 8.906746501965468e-06,
+      "loss": 1.73053017,
+      "memory(GiB)": 111.15,
+      "step": 20010,
+      "train_speed(iter/s)": 0.448378
+    },
+    {
+      "acc": 0.66952753,
+      "epoch": 0.5077371892440385,
+      "grad_norm": 6.1875,
+      "learning_rate": 8.906091976347675e-06,
+      "loss": 1.57055092,
+      "memory(GiB)": 111.15,
+      "step": 20015,
+      "train_speed(iter/s)": 0.448438
+    },
+    {
+      "acc": 0.63644347,
+      "epoch": 0.5078640284119736,
+      "grad_norm": 4.59375,
+      "learning_rate": 8.905437278922516e-06,
+      "loss": 1.64243927,
+      "memory(GiB)": 111.15,
+      "step": 20020,
+      "train_speed(iter/s)": 0.448497
+    },
+    {
+      "acc": 0.65560164,
+      "epoch": 0.5079908675799086,
+      "grad_norm": 5.96875,
+      "learning_rate": 8.90478240971879e-06,
+      "loss": 1.6263195,
+      "memory(GiB)": 111.15,
+      "step": 20025,
+      "train_speed(iter/s)": 0.448556
+    },
+    {
+      "acc": 0.65538573,
+      "epoch": 0.5081177067478437,
+      "grad_norm": 5.1875,
+      "learning_rate": 8.904127368765298e-06,
+      "loss": 1.63288651,
+      "memory(GiB)": 111.15,
+      "step": 20030,
+      "train_speed(iter/s)": 0.448615
+    },
+    {
+      "acc": 0.62948251,
+      "epoch": 0.5082445459157788,
+      "grad_norm": 6.125,
+      "learning_rate": 8.903472156090856e-06,
+      "loss": 1.6879715,
+      "memory(GiB)": 111.15,
+      "step": 20035,
+      "train_speed(iter/s)": 0.448674
+    },
+    {
+      "acc": 0.65240479,
+      "epoch": 0.5083713850837138,
+      "grad_norm": 4.875,
+      "learning_rate": 8.902816771724279e-06,
+      "loss": 1.6113575,
+      "memory(GiB)": 111.15,
+      "step": 20040,
+      "train_speed(iter/s)": 0.448734
+    },
+    {
+      "acc": 0.64111795,
+      "epoch": 0.5084982242516489,
+      "grad_norm": 4.875,
+      "learning_rate": 8.902161215694396e-06,
+      "loss": 1.62289848,
+      "memory(GiB)": 111.15,
+      "step": 20045,
+      "train_speed(iter/s)": 0.448793
+    },
+    {
+      "acc": 0.65775142,
+      "epoch": 0.508625063419584,
+      "grad_norm": 5.21875,
+      "learning_rate": 8.901505488030042e-06,
+      "loss": 1.62933159,
+      "memory(GiB)": 111.15,
+      "step": 20050,
+      "train_speed(iter/s)": 0.448852
+    },
+    {
+      "acc": 0.62770581,
+      "epoch": 0.508751902587519,
+      "grad_norm": 5.34375,
+      "learning_rate": 8.900849588760057e-06,
+      "loss": 1.63833771,
+      "memory(GiB)": 111.15,
+      "step": 20055,
+      "train_speed(iter/s)": 0.448911
+    },
+    {
+      "acc": 0.63344884,
+      "epoch": 0.5088787417554541,
+      "grad_norm": 5.1875,
+      "learning_rate": 8.90019351791329e-06,
+      "loss": 1.68736382,
+      "memory(GiB)": 111.15,
+      "step": 20060,
+      "train_speed(iter/s)": 0.44897
+    },
+    {
+      "acc": 0.64177279,
+      "epoch": 0.5090055809233891,
+      "grad_norm": 5.84375,
+      "learning_rate": 8.8995372755186e-06,
+      "loss": 1.63044662,
+      "memory(GiB)": 111.15,
+      "step": 20065,
+      "train_speed(iter/s)": 0.44903
+    },
+    {
+      "acc": 0.64139175,
+      "epoch": 0.5091324200913242,
+      "grad_norm": 8.1875,
+      "learning_rate": 8.89888086160485e-06,
+      "loss": 1.60529194,
+      "memory(GiB)": 111.15,
+      "step": 20070,
+      "train_speed(iter/s)": 0.449089
+    },
+    {
+      "acc": 0.64494324,
+      "epoch": 0.5092592592592593,
+      "grad_norm": 5.25,
+      "learning_rate": 8.898224276200913e-06,
+      "loss": 1.6623354,
+      "memory(GiB)": 111.15,
+      "step": 20075,
+      "train_speed(iter/s)": 0.449149
+    },
+    {
+      "acc": 0.65296164,
+      "epoch": 0.5093860984271943,
+      "grad_norm": 4.875,
+      "learning_rate": 8.897567519335669e-06,
+      "loss": 1.61010189,
+      "memory(GiB)": 111.15,
+      "step": 20080,
+      "train_speed(iter/s)": 0.449208
+    },
+    {
+      "acc": 0.64035749,
+      "epoch": 0.5095129375951294,
+      "grad_norm": 5.4375,
+      "learning_rate": 8.896910591038002e-06,
+      "loss": 1.64152527,
+      "memory(GiB)": 111.15,
+      "step": 20085,
+      "train_speed(iter/s)": 0.449268
+    },
+    {
+      "acc": 0.64090071,
+      "epoch": 0.5096397767630645,
+      "grad_norm": 6.28125,
+      "learning_rate": 8.896253491336809e-06,
+      "loss": 1.70509491,
+      "memory(GiB)": 111.15,
+      "step": 20090,
+      "train_speed(iter/s)": 0.449327
+    },
+    {
+      "acc": 0.6371511,
+      "epoch": 0.5097666159309995,
+      "grad_norm": 5.59375,
+      "learning_rate": 8.895596220260993e-06,
+      "loss": 1.66529884,
+      "memory(GiB)": 111.15,
+      "step": 20095,
+      "train_speed(iter/s)": 0.449386
+    },
+    {
+      "acc": 0.65029869,
+      "epoch": 0.5098934550989346,
+      "grad_norm": 6.5,
+      "learning_rate": 8.894938777839462e-06,
+      "loss": 1.66585808,
+      "memory(GiB)": 111.15,
+      "step": 20100,
+      "train_speed(iter/s)": 0.449445
+    },
+    {
+      "epoch": 0.5098934550989346,
+      "eval_acc": 0.6412314610534336,
+      "eval_loss": 1.6199264526367188,
+      "eval_runtime": 113.7293,
+      "eval_samples_per_second": 56.01,
+      "eval_steps_per_second": 28.005,
+      "step": 20100
+    },
+    {
+      "acc": 0.65497208,
+      "epoch": 0.5100202942668696,
+      "grad_norm": 5.46875,
+      "learning_rate": 8.894281164101134e-06,
+      "loss": 1.62883492,
+      "memory(GiB)": 111.15,
+      "step": 20105,
+      "train_speed(iter/s)": 0.448318
+    },
+    {
+      "acc": 0.62209892,
+      "epoch": 0.5101471334348047,
+      "grad_norm": 4.78125,
+      "learning_rate": 8.893623379074934e-06,
+      "loss": 1.64234848,
+      "memory(GiB)": 111.15,
+      "step": 20110,
+      "train_speed(iter/s)": 0.448377
+    },
+    {
+      "acc": 0.6445405,
+      "epoch": 0.5102739726027398,
+      "grad_norm": 5.28125,
+      "learning_rate": 8.892965422789793e-06,
+      "loss": 1.64053516,
+      "memory(GiB)": 111.15,
+      "step": 20115,
+      "train_speed(iter/s)": 0.448436
+    },
+    {
+      "acc": 0.6535265,
+      "epoch": 0.5104008117706748,
+      "grad_norm": 6.0625,
+      "learning_rate": 8.892307295274654e-06,
+      "loss": 1.67580452,
+      "memory(GiB)": 111.15,
+      "step": 20120,
+      "train_speed(iter/s)": 0.448495
+    },
+    {
+      "acc": 0.6519165,
+      "epoch": 0.5105276509386099,
+      "grad_norm": 6.15625,
+      "learning_rate": 8.89164899655846e-06,
+      "loss": 1.63578949,
+      "memory(GiB)": 111.15,
+      "step": 20125,
+      "train_speed(iter/s)": 0.448555
+    },
+    {
+      "acc": 0.67143373,
+      "epoch": 0.510654490106545,
+      "grad_norm": 5.1875,
+      "learning_rate": 8.89099052667017e-06,
+      "loss": 1.52573853,
+      "memory(GiB)": 111.15,
+      "step": 20130,
+      "train_speed(iter/s)": 0.448613
+    },
+    {
+      "acc": 0.6415709,
+      "epoch": 0.51078132927448,
+      "grad_norm": 4.8125,
+      "learning_rate": 8.890331885638744e-06,
+      "loss": 1.66831455,
+      "memory(GiB)": 111.15,
+      "step": 20135,
+      "train_speed(iter/s)": 0.448672
+    },
+    {
+      "acc": 0.65488882,
+      "epoch": 0.510908168442415,
+      "grad_norm": 4.84375,
+      "learning_rate": 8.889673073493151e-06,
+      "loss": 1.63171463,
+      "memory(GiB)": 111.15,
+      "step": 20140,
+      "train_speed(iter/s)": 0.448731
+    },
+    {
+      "acc": 0.65465717,
+      "epoch": 0.51103500761035,
+      "grad_norm": 5.71875,
+      "learning_rate": 8.889014090262371e-06,
+      "loss": 1.66564236,
+      "memory(GiB)": 111.15,
+      "step": 20145,
+      "train_speed(iter/s)": 0.44879
+    },
+    {
+      "acc": 0.64077549,
+      "epoch": 0.5111618467782851,
+      "grad_norm": 5.125,
+      "learning_rate": 8.888354935975388e-06,
+      "loss": 1.57877159,
+      "memory(GiB)": 111.15,
+      "step": 20150,
+      "train_speed(iter/s)": 0.448848
+    },
+    {
+      "acc": 0.65484886,
+      "epoch": 0.5112886859462202,
+      "grad_norm": 4.21875,
+      "learning_rate": 8.887695610661196e-06,
+      "loss": 1.60701046,
+      "memory(GiB)": 111.15,
+      "step": 20155,
+      "train_speed(iter/s)": 0.448907
+    },
+    {
+      "acc": 0.64016342,
+      "epoch": 0.5114155251141552,
+      "grad_norm": 5.375,
+      "learning_rate": 8.887036114348792e-06,
+      "loss": 1.7001709,
+      "memory(GiB)": 111.15,
+      "step": 20160,
+      "train_speed(iter/s)": 0.448965
+    },
+    {
+      "acc": 0.66147265,
+      "epoch": 0.5115423642820903,
+      "grad_norm": 5.09375,
+      "learning_rate": 8.886376447067186e-06,
+      "loss": 1.65595894,
+      "memory(GiB)": 111.15,
+      "step": 20165,
+      "train_speed(iter/s)": 0.449024
+    },
+    {
+      "acc": 0.64104271,
+      "epoch": 0.5116692034500254,
+      "grad_norm": 6.46875,
+      "learning_rate": 8.885716608845394e-06,
+      "loss": 1.65234413,
+      "memory(GiB)": 111.15,
+      "step": 20170,
+      "train_speed(iter/s)": 0.449083
+    },
+    {
+      "acc": 0.65104208,
+      "epoch": 0.5117960426179604,
+      "grad_norm": 4.21875,
+      "learning_rate": 8.885056599712436e-06,
+      "loss": 1.60193787,
+      "memory(GiB)": 111.15,
+      "step": 20175,
+      "train_speed(iter/s)": 0.449141
+    },
+    {
+      "acc": 0.64391069,
+      "epoch": 0.5119228817858955,
+      "grad_norm": 5.28125,
+      "learning_rate": 8.884396419697343e-06,
+      "loss": 1.68876915,
+      "memory(GiB)": 111.15,
+      "step": 20180,
+      "train_speed(iter/s)": 0.4492
+    },
+    {
+      "acc": 0.64758291,
+      "epoch": 0.5120497209538305,
+      "grad_norm": 5.6875,
+      "learning_rate": 8.883736068829151e-06,
+      "loss": 1.60949268,
+      "memory(GiB)": 111.15,
+      "step": 20185,
+      "train_speed(iter/s)": 0.44926
+    },
+    {
+      "acc": 0.64725008,
+      "epoch": 0.5121765601217656,
+      "grad_norm": 5.1875,
+      "learning_rate": 8.88307554713691e-06,
+      "loss": 1.63280983,
+      "memory(GiB)": 111.15,
+      "step": 20190,
+      "train_speed(iter/s)": 0.449318
+    },
+    {
+      "acc": 0.66268158,
+      "epoch": 0.5123033992897007,
+      "grad_norm": 5.28125,
+      "learning_rate": 8.882414854649667e-06,
+      "loss": 1.60372181,
+      "memory(GiB)": 111.15,
+      "step": 20195,
+      "train_speed(iter/s)": 0.449377
+    },
+    {
+      "acc": 0.65276198,
+      "epoch": 0.5124302384576357,
+      "grad_norm": 5.09375,
+      "learning_rate": 8.881753991396488e-06,
+      "loss": 1.66477737,
+      "memory(GiB)": 111.15,
+      "step": 20200,
+      "train_speed(iter/s)": 0.449436
+    },
+    {
+      "epoch": 0.5124302384576357,
+      "eval_acc": 0.6412690601112848,
+      "eval_loss": 1.6197140216827393,
+      "eval_runtime": 113.8311,
+      "eval_samples_per_second": 55.96,
+      "eval_steps_per_second": 27.98,
+      "step": 20200
+    },
+    {
+      "acc": 0.6475677,
+      "epoch": 0.5125570776255708,
+      "grad_norm": 4.90625,
+      "learning_rate": 8.881092957406436e-06,
+      "loss": 1.58843079,
+      "memory(GiB)": 111.15,
+      "step": 20205,
+      "train_speed(iter/s)": 0.448315
+    },
+    {
+      "acc": 0.65057421,
+      "epoch": 0.5126839167935059,
+      "grad_norm": 5.78125,
+      "learning_rate": 8.880431752708588e-06,
+      "loss": 1.58279285,
+      "memory(GiB)": 111.15,
+      "step": 20210,
+      "train_speed(iter/s)": 0.448372
+    },
+    {
+      "acc": 0.66456137,
+      "epoch": 0.5128107559614409,
+      "grad_norm": 5.53125,
+      "learning_rate": 8.879770377332026e-06,
+      "loss": 1.57497177,
+      "memory(GiB)": 111.15,
+      "step": 20215,
+      "train_speed(iter/s)": 0.448431
+    },
+    {
+      "acc": 0.64588451,
+      "epoch": 0.512937595129376,
+      "grad_norm": 6.34375,
+      "learning_rate": 8.879108831305842e-06,
+      "loss": 1.61518478,
+      "memory(GiB)": 111.15,
+      "step": 20220,
+      "train_speed(iter/s)": 0.448489
+    },
+    {
+      "acc": 0.64373875,
+      "epoch": 0.513064434297311,
+      "grad_norm": 5.34375,
+      "learning_rate": 8.878447114659131e-06,
+      "loss": 1.64181957,
+      "memory(GiB)": 111.15,
+      "step": 20225,
+      "train_speed(iter/s)": 0.448547
+    },
+    {
+      "acc": 0.66631756,
+      "epoch": 0.5131912734652461,
+      "grad_norm": 6.15625,
+      "learning_rate": 8.877785227421003e-06,
+      "loss": 1.58298378,
+      "memory(GiB)": 111.15,
+      "step": 20230,
+      "train_speed(iter/s)": 0.448606
+    },
+    {
+      "acc": 0.66338458,
+      "epoch": 0.5133181126331812,
+      "grad_norm": 5.15625,
+      "learning_rate": 8.877123169620565e-06,
+      "loss": 1.61580296,
+      "memory(GiB)": 111.15,
+      "step": 20235,
+      "train_speed(iter/s)": 0.448665
+    },
+    {
+      "acc": 0.64220743,
+      "epoch": 0.5134449518011162,
+      "grad_norm": 4.8125,
+      "learning_rate": 8.876460941286941e-06,
+      "loss": 1.63509293,
+      "memory(GiB)": 111.15,
+      "step": 20240,
+      "train_speed(iter/s)": 0.448723
+    },
+    {
+      "acc": 0.6343997,
+      "epoch": 0.5135717909690513,
+      "grad_norm": 5.46875,
+      "learning_rate": 8.875798542449256e-06,
+      "loss": 1.68862534,
+      "memory(GiB)": 111.15,
+      "step": 20245,
+      "train_speed(iter/s)": 0.448782
+    },
+    {
+      "acc": 0.6297996,
+      "epoch": 0.5136986301369864,
+      "grad_norm": 5.03125,
+      "learning_rate": 8.87513597313665e-06,
+      "loss": 1.68137665,
+      "memory(GiB)": 111.15,
+      "step": 20250,
+      "train_speed(iter/s)": 0.448841
+    },
+    {
+      "acc": 0.63260617,
+      "epoch": 0.5138254693049213,
+      "grad_norm": 5.4375,
+      "learning_rate": 8.87447323337826e-06,
+      "loss": 1.68320732,
+      "memory(GiB)": 111.15,
+      "step": 20255,
+      "train_speed(iter/s)": 0.448899
+    },
+    {
+      "acc": 0.65727234,
+      "epoch": 0.5139523084728564,
+      "grad_norm": 5.5625,
+      "learning_rate": 8.87381032320324e-06,
+      "loss": 1.58720598,
+      "memory(GiB)": 111.15,
+      "step": 20260,
+      "train_speed(iter/s)": 0.448957
+    },
+    {
+      "acc": 0.64046593,
+      "epoch": 0.5140791476407914,
+      "grad_norm": 5.375,
+      "learning_rate": 8.873147242640746e-06,
+      "loss": 1.66223335,
+      "memory(GiB)": 111.15,
+      "step": 20265,
+      "train_speed(iter/s)": 0.449015
+    },
+    {
+      "acc": 0.64339094,
+      "epoch": 0.5142059868087265,
+      "grad_norm": 4.46875,
+      "learning_rate": 8.872483991719944e-06,
+      "loss": 1.6780159,
+      "memory(GiB)": 111.15,
+      "step": 20270,
+      "train_speed(iter/s)": 0.449073
+    },
+    {
+      "acc": 0.62995806,
+      "epoch": 0.5143328259766616,
+      "grad_norm": 4.4375,
+      "learning_rate": 8.871820570470009e-06,
+      "loss": 1.67741699,
+      "memory(GiB)": 111.15,
+      "step": 20275,
+      "train_speed(iter/s)": 0.449132
+    },
+    {
+      "acc": 0.64295893,
+      "epoch": 0.5144596651445966,
+      "grad_norm": 7.0,
+      "learning_rate": 8.871156978920116e-06,
+      "loss": 1.64983196,
+      "memory(GiB)": 111.15,
+      "step": 20280,
+      "train_speed(iter/s)": 0.449191
+    },
+    {
+      "acc": 0.66206837,
+      "epoch": 0.5145865043125317,
+      "grad_norm": 4.9375,
+      "learning_rate": 8.870493217099456e-06,
+      "loss": 1.5314249,
+      "memory(GiB)": 111.15,
+      "step": 20285,
+      "train_speed(iter/s)": 0.449249
+    },
+    {
+      "acc": 0.65098386,
+      "epoch": 0.5147133434804668,
+      "grad_norm": 5.125,
+      "learning_rate": 8.869829285037224e-06,
+      "loss": 1.56703959,
+      "memory(GiB)": 111.15,
+      "step": 20290,
+      "train_speed(iter/s)": 0.449307
+    },
+    {
+      "acc": 0.64075227,
+      "epoch": 0.5148401826484018,
+      "grad_norm": 6.0625,
+      "learning_rate": 8.869165182762623e-06,
+      "loss": 1.67500153,
+      "memory(GiB)": 111.15,
+      "step": 20295,
+      "train_speed(iter/s)": 0.449366
+    },
+    {
+      "acc": 0.64885879,
+      "epoch": 0.5149670218163369,
+      "grad_norm": 5.28125,
+      "learning_rate": 8.868500910304863e-06,
+      "loss": 1.66765575,
+      "memory(GiB)": 111.15,
+      "step": 20300,
+      "train_speed(iter/s)": 0.449425
+    },
+    {
+      "epoch": 0.5149670218163369,
+      "eval_acc": 0.6413221165595859,
+      "eval_loss": 1.6198632717132568,
+      "eval_runtime": 114.1877,
+      "eval_samples_per_second": 55.785,
+      "eval_steps_per_second": 27.893,
+      "step": 20300
+    },
+    {
+      "acc": 0.64977808,
+      "epoch": 0.5150938609842719,
+      "grad_norm": 4.8125,
+      "learning_rate": 8.86783646769316e-06,
+      "loss": 1.61024303,
+      "memory(GiB)": 111.15,
+      "step": 20305,
+      "train_speed(iter/s)": 0.448304
+    },
+    {
+      "acc": 0.66161852,
+      "epoch": 0.515220700152207,
+      "grad_norm": 5.25,
+      "learning_rate": 8.867171854956742e-06,
+      "loss": 1.62311554,
+      "memory(GiB)": 111.15,
+      "step": 20310,
+      "train_speed(iter/s)": 0.448362
+    },
+    {
+      "acc": 0.64208775,
+      "epoch": 0.5153475393201421,
+      "grad_norm": 6.53125,
+      "learning_rate": 8.86650707212484e-06,
+      "loss": 1.63755093,
+      "memory(GiB)": 111.15,
+      "step": 20315,
+      "train_speed(iter/s)": 0.448419
+    },
+    {
+      "acc": 0.65008821,
+      "epoch": 0.5154743784880771,
+      "grad_norm": 5.09375,
+      "learning_rate": 8.865842119226693e-06,
+      "loss": 1.65770454,
+      "memory(GiB)": 111.15,
+      "step": 20320,
+      "train_speed(iter/s)": 0.448477
+    },
+    {
+      "acc": 0.63754449,
+      "epoch": 0.5156012176560122,
+      "grad_norm": 5.65625,
+      "learning_rate": 8.86517699629155e-06,
+      "loss": 1.71644325,
+      "memory(GiB)": 111.15,
+      "step": 20325,
+      "train_speed(iter/s)": 0.448535
+    },
+    {
+      "acc": 0.63472271,
+      "epoch": 0.5157280568239473,
+      "grad_norm": 4.59375,
+      "learning_rate": 8.864511703348666e-06,
+      "loss": 1.70413227,
+      "memory(GiB)": 111.15,
+      "step": 20330,
+      "train_speed(iter/s)": 0.448592
+    },
+    {
+      "acc": 0.63774271,
+      "epoch": 0.5158548959918823,
+      "grad_norm": 5.5,
+      "learning_rate": 8.863846240427306e-06,
+      "loss": 1.67435646,
+      "memory(GiB)": 111.15,
+      "step": 20335,
+      "train_speed(iter/s)": 0.448649
+    },
+    {
+      "acc": 0.66084795,
+      "epoch": 0.5159817351598174,
+      "grad_norm": 5.03125,
+      "learning_rate": 8.863180607556733e-06,
+      "loss": 1.53565702,
+      "memory(GiB)": 111.15,
+      "step": 20340,
+      "train_speed(iter/s)": 0.448707
+    },
+    {
+      "acc": 0.64474325,
+      "epoch": 0.5161085743277524,
+      "grad_norm": 6.0625,
+      "learning_rate": 8.862514804766234e-06,
+      "loss": 1.62035618,
+      "memory(GiB)": 111.15,
+      "step": 20345,
+      "train_speed(iter/s)": 0.448765
+    },
+    {
+      "acc": 0.63978577,
+      "epoch": 0.5162354134956875,
+      "grad_norm": 5.59375,
+      "learning_rate": 8.861848832085084e-06,
+      "loss": 1.64842911,
+      "memory(GiB)": 111.15,
+      "step": 20350,
+      "train_speed(iter/s)": 0.448823
+    },
+    {
+      "acc": 0.65127201,
+      "epoch": 0.5163622526636226,
+      "grad_norm": 5.40625,
+      "learning_rate": 8.861182689542585e-06,
+      "loss": 1.60889969,
+      "memory(GiB)": 111.15,
+      "step": 20355,
+      "train_speed(iter/s)": 0.44888
+    },
+    {
+      "acc": 0.65274248,
+      "epoch": 0.5164890918315576,
+      "grad_norm": 5.4375,
+      "learning_rate": 8.86051637716803e-06,
+      "loss": 1.58584824,
+      "memory(GiB)": 111.15,
+      "step": 20360,
+      "train_speed(iter/s)": 0.448938
+    },
+    {
+      "acc": 0.63952379,
+      "epoch": 0.5166159309994927,
+      "grad_norm": 4.96875,
+      "learning_rate": 8.859849894990728e-06,
+      "loss": 1.67411957,
+      "memory(GiB)": 111.15,
+      "step": 20365,
+      "train_speed(iter/s)": 0.448995
+    },
+    {
+      "acc": 0.64621215,
+      "epoch": 0.5167427701674278,
+      "grad_norm": 5.40625,
+      "learning_rate": 8.859183243039995e-06,
+      "loss": 1.67879143,
+      "memory(GiB)": 111.15,
+      "step": 20370,
+      "train_speed(iter/s)": 0.449052
+    },
+    {
+      "acc": 0.63781972,
+      "epoch": 0.5168696093353627,
+      "grad_norm": 5.84375,
+      "learning_rate": 8.858516421345154e-06,
+      "loss": 1.65565376,
+      "memory(GiB)": 111.15,
+      "step": 20375,
+      "train_speed(iter/s)": 0.44911
+    },
+    {
+      "acc": 0.64238071,
+      "epoch": 0.5169964485032978,
+      "grad_norm": 5.40625,
+      "learning_rate": 8.857849429935534e-06,
+      "loss": 1.68447151,
+      "memory(GiB)": 111.15,
+      "step": 20380,
+      "train_speed(iter/s)": 0.449168
+    },
+    {
+      "acc": 0.65431566,
+      "epoch": 0.5171232876712328,
+      "grad_norm": 6.125,
+      "learning_rate": 8.857182268840471e-06,
+      "loss": 1.66377468,
+      "memory(GiB)": 111.15,
+      "step": 20385,
+      "train_speed(iter/s)": 0.449225
+    },
+    {
+      "acc": 0.64510574,
+      "epoch": 0.5172501268391679,
+      "grad_norm": 5.03125,
+      "learning_rate": 8.856514938089312e-06,
+      "loss": 1.60667305,
+      "memory(GiB)": 111.15,
+      "step": 20390,
+      "train_speed(iter/s)": 0.449283
+    },
+    {
+      "acc": 0.64003325,
+      "epoch": 0.517376966007103,
+      "grad_norm": 5.34375,
+      "learning_rate": 8.855847437711407e-06,
+      "loss": 1.70861053,
+      "memory(GiB)": 111.15,
+      "step": 20395,
+      "train_speed(iter/s)": 0.44934
+    },
+    {
+      "acc": 0.6424902,
+      "epoch": 0.517503805175038,
+      "grad_norm": 5.75,
+      "learning_rate": 8.855179767736117e-06,
+      "loss": 1.63393021,
+      "memory(GiB)": 111.15,
+      "step": 20400,
+      "train_speed(iter/s)": 0.449398
+    },
+    {
+      "epoch": 0.517503805175038,
+      "eval_acc": 0.641213497059127,
+      "eval_loss": 1.6197670698165894,
+      "eval_runtime": 113.4695,
+      "eval_samples_per_second": 56.138,
+      "eval_steps_per_second": 28.069,
+      "step": 20400
+    },
+    {
+      "acc": 0.64450955,
+      "epoch": 0.5176306443429731,
+      "grad_norm": 5.09375,
+      "learning_rate": 8.854511928192808e-06,
+      "loss": 1.61953964,
+      "memory(GiB)": 111.15,
+      "step": 20405,
+      "train_speed(iter/s)": 0.448292
+    },
+    {
+      "acc": 0.63497038,
+      "epoch": 0.5177574835109082,
+      "grad_norm": 5.5,
+      "learning_rate": 8.853843919110856e-06,
+      "loss": 1.54750137,
+      "memory(GiB)": 111.15,
+      "step": 20410,
+      "train_speed(iter/s)": 0.44835
+    },
+    {
+      "acc": 0.64286399,
+      "epoch": 0.5178843226788432,
+      "grad_norm": 6.0625,
+      "learning_rate": 8.853175740519642e-06,
+      "loss": 1.68529148,
+      "memory(GiB)": 111.15,
+      "step": 20415,
+      "train_speed(iter/s)": 0.448408
+    },
+    {
+      "acc": 0.65844083,
+      "epoch": 0.5180111618467783,
+      "grad_norm": 5.5,
+      "learning_rate": 8.852507392448555e-06,
+      "loss": 1.59052219,
+      "memory(GiB)": 111.15,
+      "step": 20420,
+      "train_speed(iter/s)": 0.448467
+    },
+    {
+      "acc": 0.64411945,
+      "epoch": 0.5181380010147133,
+      "grad_norm": 6.09375,
+      "learning_rate": 8.851838874926994e-06,
+      "loss": 1.66908875,
+      "memory(GiB)": 111.15,
+      "step": 20425,
+      "train_speed(iter/s)": 0.448524
+    },
+    {
+      "acc": 0.64412246,
+      "epoch": 0.5182648401826484,
+      "grad_norm": 6.28125,
+      "learning_rate": 8.851170187984362e-06,
+      "loss": 1.62277298,
+      "memory(GiB)": 111.15,
+      "step": 20430,
+      "train_speed(iter/s)": 0.448582
+    },
+    {
+      "acc": 0.65265017,
+      "epoch": 0.5183916793505835,
+      "grad_norm": 5.125,
+      "learning_rate": 8.850501331650069e-06,
+      "loss": 1.58741951,
+      "memory(GiB)": 111.15,
+      "step": 20435,
+      "train_speed(iter/s)": 0.44864
+    },
+    {
+      "acc": 0.64619379,
+      "epoch": 0.5185185185185185,
+      "grad_norm": 5.25,
+      "learning_rate": 8.849832305953536e-06,
+      "loss": 1.6669632,
+      "memory(GiB)": 111.15,
+      "step": 20440,
+      "train_speed(iter/s)": 0.448698
+    },
+    {
+      "acc": 0.65018568,
+      "epoch": 0.5186453576864536,
+      "grad_norm": 4.5,
+      "learning_rate": 8.849163110924193e-06,
+      "loss": 1.6349102,
+      "memory(GiB)": 111.15,
+      "step": 20445,
+      "train_speed(iter/s)": 0.448756
+    },
+    {
+      "acc": 0.63906012,
+      "epoch": 0.5187721968543887,
+      "grad_norm": 4.90625,
+      "learning_rate": 8.84849374659147e-06,
+      "loss": 1.66595955,
+      "memory(GiB)": 111.15,
+      "step": 20450,
+      "train_speed(iter/s)": 0.448814
+    },
+    {
+      "acc": 0.64773979,
+      "epoch": 0.5188990360223237,
+      "grad_norm": 4.40625,
+      "learning_rate": 8.847824212984807e-06,
+      "loss": 1.56585531,
+      "memory(GiB)": 111.15,
+      "step": 20455,
+      "train_speed(iter/s)": 0.448872
+    },
+    {
+      "acc": 0.65745201,
+      "epoch": 0.5190258751902588,
+      "grad_norm": 5.1875,
+      "learning_rate": 8.84715451013366e-06,
+      "loss": 1.51215305,
+      "memory(GiB)": 111.15,
+      "step": 20460,
+      "train_speed(iter/s)": 0.44893
+    },
+    {
+      "acc": 0.65332522,
+      "epoch": 0.5191527143581938,
+      "grad_norm": 6.15625,
+      "learning_rate": 8.846484638067478e-06,
+      "loss": 1.6267086,
+      "memory(GiB)": 111.15,
+      "step": 20465,
+      "train_speed(iter/s)": 0.448988
+    },
+    {
+      "acc": 0.64451418,
+      "epoch": 0.5192795535261289,
+      "grad_norm": 4.96875,
+      "learning_rate": 8.84581459681573e-06,
+      "loss": 1.63981438,
+      "memory(GiB)": 111.15,
+      "step": 20470,
+      "train_speed(iter/s)": 0.449046
+    },
+    {
+      "acc": 0.66904049,
+      "epoch": 0.519406392694064,
+      "grad_norm": 5.9375,
+      "learning_rate": 8.845144386407884e-06,
+      "loss": 1.59844303,
+      "memory(GiB)": 111.15,
+      "step": 20475,
+      "train_speed(iter/s)": 0.449103
+    },
+    {
+      "acc": 0.64480515,
+      "epoch": 0.519533231861999,
+      "grad_norm": 4.78125,
+      "learning_rate": 8.844474006873422e-06,
+      "loss": 1.65803299,
+      "memory(GiB)": 111.15,
+      "step": 20480,
+      "train_speed(iter/s)": 0.449161
+    },
+    {
+      "acc": 0.65620909,
+      "epoch": 0.5196600710299341,
+      "grad_norm": 5.78125,
+      "learning_rate": 8.84380345824183e-06,
+      "loss": 1.58514194,
+      "memory(GiB)": 111.15,
+      "step": 20485,
+      "train_speed(iter/s)": 0.449219
+    },
+    {
+      "acc": 0.64652939,
+      "epoch": 0.5197869101978692,
+      "grad_norm": 5.03125,
+      "learning_rate": 8.843132740542599e-06,
+      "loss": 1.6645195,
+      "memory(GiB)": 111.15,
+      "step": 20490,
+      "train_speed(iter/s)": 0.449278
+    },
+    {
+      "acc": 0.65573711,
+      "epoch": 0.5199137493658041,
+      "grad_norm": 5.96875,
+      "learning_rate": 8.842461853805232e-06,
+      "loss": 1.55341616,
+      "memory(GiB)": 111.15,
+      "step": 20495,
+      "train_speed(iter/s)": 0.449336
+    },
+    {
+      "acc": 0.65555334,
+      "epoch": 0.5200405885337392,
+      "grad_norm": 5.21875,
+      "learning_rate": 8.841790798059237e-06,
+      "loss": 1.62602539,
+      "memory(GiB)": 111.15,
+      "step": 20500,
+      "train_speed(iter/s)": 0.449394
+    },
+    {
+      "epoch": 0.5200405885337392,
+      "eval_acc": 0.6412636291362619,
+      "eval_loss": 1.6192383766174316,
+      "eval_runtime": 113.696,
+      "eval_samples_per_second": 56.027,
+      "eval_steps_per_second": 28.013,
+      "step": 20500
+    },
+    {
+      "acc": 0.66065216,
+      "epoch": 0.5201674277016742,
+      "grad_norm": 6.28125,
+      "learning_rate": 8.84111957333413e-06,
+      "loss": 1.5499794,
+      "memory(GiB)": 111.15,
+      "step": 20505,
+      "train_speed(iter/s)": 0.44829
+    },
+    {
+      "acc": 0.63612781,
+      "epoch": 0.5202942668696093,
+      "grad_norm": 5.4375,
+      "learning_rate": 8.840448179659436e-06,
+      "loss": 1.75245819,
+      "memory(GiB)": 111.15,
+      "step": 20510,
+      "train_speed(iter/s)": 0.448348
+    },
+    {
+      "acc": 0.64651113,
+      "epoch": 0.5204211060375444,
+      "grad_norm": 4.9375,
+      "learning_rate": 8.839776617064683e-06,
+      "loss": 1.66760139,
+      "memory(GiB)": 111.15,
+      "step": 20515,
+      "train_speed(iter/s)": 0.448405
+    },
+    {
+      "acc": 0.64848423,
+      "epoch": 0.5205479452054794,
+      "grad_norm": 4.875,
+      "learning_rate": 8.839104885579413e-06,
+      "loss": 1.62671394,
+      "memory(GiB)": 111.15,
+      "step": 20520,
+      "train_speed(iter/s)": 0.448463
+    },
+    {
+      "acc": 0.63955612,
+      "epoch": 0.5206747843734145,
+      "grad_norm": 6.03125,
+      "learning_rate": 8.83843298523317e-06,
+      "loss": 1.65807877,
+      "memory(GiB)": 111.15,
+      "step": 20525,
+      "train_speed(iter/s)": 0.448521
+    },
+    {
+      "acc": 0.64260273,
+      "epoch": 0.5208016235413496,
+      "grad_norm": 6.03125,
+      "learning_rate": 8.837760916055505e-06,
+      "loss": 1.66262779,
+      "memory(GiB)": 111.15,
+      "step": 20530,
+      "train_speed(iter/s)": 0.448579
+    },
+    {
+      "acc": 0.63825531,
+      "epoch": 0.5209284627092846,
+      "grad_norm": 5.1875,
+      "learning_rate": 8.837088678075983e-06,
+      "loss": 1.70225029,
+      "memory(GiB)": 111.15,
+      "step": 20535,
+      "train_speed(iter/s)": 0.448637
+    },
+    {
+      "acc": 0.64030442,
+      "epoch": 0.5210553018772197,
+      "grad_norm": 4.625,
+      "learning_rate": 8.836416271324166e-06,
+      "loss": 1.65919514,
+      "memory(GiB)": 111.15,
+      "step": 20540,
+      "train_speed(iter/s)": 0.448695
+    },
+    {
+      "acc": 0.67224808,
+      "epoch": 0.5211821410451547,
+      "grad_norm": 4.25,
+      "learning_rate": 8.835743695829635e-06,
+      "loss": 1.53951759,
+      "memory(GiB)": 111.15,
+      "step": 20545,
+      "train_speed(iter/s)": 0.448753
+    },
+    {
+      "acc": 0.63773623,
+      "epoch": 0.5213089802130898,
+      "grad_norm": 6.3125,
+      "learning_rate": 8.835070951621971e-06,
+      "loss": 1.68298283,
+      "memory(GiB)": 111.15,
+      "step": 20550,
+      "train_speed(iter/s)": 0.448811
+    },
+    {
+      "acc": 0.6488215,
+      "epoch": 0.5214358193810249,
+      "grad_norm": 5.125,
+      "learning_rate": 8.834398038730765e-06,
+      "loss": 1.64031334,
+      "memory(GiB)": 111.15,
+      "step": 20555,
+      "train_speed(iter/s)": 0.448869
+    },
+    {
+      "acc": 0.6825655,
+      "epoch": 0.5215626585489599,
+      "grad_norm": 6.375,
+      "learning_rate": 8.833724957185612e-06,
+      "loss": 1.51895561,
+      "memory(GiB)": 111.15,
+      "step": 20560,
+      "train_speed(iter/s)": 0.448927
+    },
+    {
+      "acc": 0.64102654,
+      "epoch": 0.521689497716895,
+      "grad_norm": 6.1875,
+      "learning_rate": 8.83305170701612e-06,
+      "loss": 1.6964674,
+      "memory(GiB)": 111.15,
+      "step": 20565,
+      "train_speed(iter/s)": 0.448985
+    },
+    {
+      "acc": 0.65696597,
+      "epoch": 0.5218163368848301,
+      "grad_norm": 5.46875,
+      "learning_rate": 8.832378288251902e-06,
+      "loss": 1.64727287,
+      "memory(GiB)": 111.15,
+      "step": 20570,
+      "train_speed(iter/s)": 0.449043
+    },
+    {
+      "acc": 0.64583349,
+      "epoch": 0.5219431760527651,
+      "grad_norm": 5.59375,
+      "learning_rate": 8.831704700922574e-06,
+      "loss": 1.65551796,
+      "memory(GiB)": 111.15,
+      "step": 20575,
+      "train_speed(iter/s)": 0.449101
+    },
+    {
+      "acc": 0.64951196,
+      "epoch": 0.5220700152207002,
+      "grad_norm": 5.53125,
+      "learning_rate": 8.831030945057767e-06,
+      "loss": 1.62573948,
+      "memory(GiB)": 111.15,
+      "step": 20580,
+      "train_speed(iter/s)": 0.449158
+    },
+    {
+      "acc": 0.66495514,
+      "epoch": 0.5221968543886352,
+      "grad_norm": 4.78125,
+      "learning_rate": 8.830357020687115e-06,
+      "loss": 1.53906746,
+      "memory(GiB)": 111.15,
+      "step": 20585,
+      "train_speed(iter/s)": 0.449215
+    },
+    {
+      "acc": 0.64656038,
+      "epoch": 0.5223236935565703,
+      "grad_norm": 4.9375,
+      "learning_rate": 8.82968292784026e-06,
+      "loss": 1.64613762,
+      "memory(GiB)": 111.15,
+      "step": 20590,
+      "train_speed(iter/s)": 0.449273
+    },
+    {
+      "acc": 0.64068317,
+      "epoch": 0.5224505327245054,
+      "grad_norm": 6.34375,
+      "learning_rate": 8.82900866654685e-06,
+      "loss": 1.63355103,
+      "memory(GiB)": 111.15,
+      "step": 20595,
+      "train_speed(iter/s)": 0.449332
+    },
+    {
+      "acc": 0.6492631,
+      "epoch": 0.5225773718924404,
+      "grad_norm": 4.875,
+      "learning_rate": 8.828334236836546e-06,
+      "loss": 1.61788692,
+      "memory(GiB)": 111.15,
+      "step": 20600,
+      "train_speed(iter/s)": 0.449389
+    },
+    {
+      "epoch": 0.5225773718924404,
+      "eval_acc": 0.641443686846638,
+      "eval_loss": 1.6192506551742554,
+      "eval_runtime": 113.1557,
+      "eval_samples_per_second": 56.294,
+      "eval_steps_per_second": 28.147,
+      "step": 20600
+    },
+    {
+      "acc": 0.64619427,
+      "epoch": 0.5227042110603755,
+      "grad_norm": 4.96875,
+      "learning_rate": 8.827659638739007e-06,
+      "loss": 1.68572559,
+      "memory(GiB)": 111.15,
+      "step": 20605,
+      "train_speed(iter/s)": 0.448295
+    },
+    {
+      "acc": 0.6394949,
+      "epoch": 0.5228310502283106,
+      "grad_norm": 5.03125,
+      "learning_rate": 8.82698487228391e-06,
+      "loss": 1.60918732,
+      "memory(GiB)": 111.15,
+      "step": 20610,
+      "train_speed(iter/s)": 0.448353
+    },
+    {
+      "acc": 0.64383879,
+      "epoch": 0.5229578893962455,
+      "grad_norm": 5.15625,
+      "learning_rate": 8.826309937500932e-06,
+      "loss": 1.62483215,
+      "memory(GiB)": 111.15,
+      "step": 20615,
+      "train_speed(iter/s)": 0.44841
+    },
+    {
+      "acc": 0.64457626,
+      "epoch": 0.5230847285641806,
+      "grad_norm": 4.96875,
+      "learning_rate": 8.825634834419758e-06,
+      "loss": 1.66760273,
+      "memory(GiB)": 111.15,
+      "step": 20620,
+      "train_speed(iter/s)": 0.448468
+    },
+    {
+      "acc": 0.65588908,
+      "epoch": 0.5232115677321156,
+      "grad_norm": 6.0,
+      "learning_rate": 8.824959563070085e-06,
+      "loss": 1.58184528,
+      "memory(GiB)": 111.15,
+      "step": 20625,
+      "train_speed(iter/s)": 0.448525
+    },
+    {
+      "acc": 0.64928026,
+      "epoch": 0.5233384069000507,
+      "grad_norm": 5.09375,
+      "learning_rate": 8.824284123481614e-06,
+      "loss": 1.54839239,
+      "memory(GiB)": 111.15,
+      "step": 20630,
+      "train_speed(iter/s)": 0.448583
+    },
+    {
+      "acc": 0.64109669,
+      "epoch": 0.5234652460679858,
+      "grad_norm": 5.25,
+      "learning_rate": 8.823608515684053e-06,
+      "loss": 1.67186108,
+      "memory(GiB)": 111.15,
+      "step": 20635,
+      "train_speed(iter/s)": 0.44864
+    },
+    {
+      "acc": 0.63917036,
+      "epoch": 0.5235920852359208,
+      "grad_norm": 4.40625,
+      "learning_rate": 8.822932739707118e-06,
+      "loss": 1.70629234,
+      "memory(GiB)": 111.15,
+      "step": 20640,
+      "train_speed(iter/s)": 0.448698
+    },
+    {
+      "acc": 0.63644342,
+      "epoch": 0.5237189244038559,
+      "grad_norm": 5.46875,
+      "learning_rate": 8.822256795580532e-06,
+      "loss": 1.67135487,
+      "memory(GiB)": 111.15,
+      "step": 20645,
+      "train_speed(iter/s)": 0.448755
+    },
+    {
+      "acc": 0.65369778,
+      "epoch": 0.523845763571791,
+      "grad_norm": 5.78125,
+      "learning_rate": 8.821580683334027e-06,
+      "loss": 1.63749466,
+      "memory(GiB)": 111.15,
+      "step": 20650,
+      "train_speed(iter/s)": 0.448813
+    },
+    {
+      "acc": 0.63634567,
+      "epoch": 0.523972602739726,
+      "grad_norm": 6.09375,
+      "learning_rate": 8.820904402997343e-06,
+      "loss": 1.63799858,
+      "memory(GiB)": 111.15,
+      "step": 20655,
+      "train_speed(iter/s)": 0.44887
+    },
+    {
+      "acc": 0.64743538,
+      "epoch": 0.5240994419076611,
+      "grad_norm": 5.0,
+      "learning_rate": 8.820227954600222e-06,
+      "loss": 1.59456768,
+      "memory(GiB)": 111.15,
+      "step": 20660,
+      "train_speed(iter/s)": 0.448927
+    },
+    {
+      "acc": 0.63244963,
+      "epoch": 0.5242262810755961,
+      "grad_norm": 5.03125,
+      "learning_rate": 8.819551338172421e-06,
+      "loss": 1.71562481,
+      "memory(GiB)": 111.15,
+      "step": 20665,
+      "train_speed(iter/s)": 0.448984
+    },
+    {
+      "acc": 0.66015415,
+      "epoch": 0.5243531202435312,
+      "grad_norm": 4.71875,
+      "learning_rate": 8.8188745537437e-06,
+      "loss": 1.63960705,
+      "memory(GiB)": 111.15,
+      "step": 20670,
+      "train_speed(iter/s)": 0.449041
+    },
+    {
+      "acc": 0.64911795,
+      "epoch": 0.5244799594114663,
+      "grad_norm": 5.25,
+      "learning_rate": 8.818197601343822e-06,
+      "loss": 1.61926975,
+      "memory(GiB)": 111.15,
+      "step": 20675,
+      "train_speed(iter/s)": 0.449099
+    },
+    {
+      "acc": 0.64613681,
+      "epoch": 0.5246067985794013,
+      "grad_norm": 6.625,
+      "learning_rate": 8.81752048100257e-06,
+      "loss": 1.58071947,
+      "memory(GiB)": 111.15,
+      "step": 20680,
+      "train_speed(iter/s)": 0.449156
+    },
+    {
+      "acc": 0.63239841,
+      "epoch": 0.5247336377473364,
+      "grad_norm": 5.21875,
+      "learning_rate": 8.816843192749724e-06,
+      "loss": 1.71042824,
+      "memory(GiB)": 111.15,
+      "step": 20685,
+      "train_speed(iter/s)": 0.449214
+    },
+    {
+      "acc": 0.64500294,
+      "epoch": 0.5248604769152715,
+      "grad_norm": 5.78125,
+      "learning_rate": 8.816165736615072e-06,
+      "loss": 1.62676353,
+      "memory(GiB)": 111.15,
+      "step": 20690,
+      "train_speed(iter/s)": 0.449271
+    },
+    {
+      "acc": 0.64720793,
+      "epoch": 0.5249873160832065,
+      "grad_norm": 5.84375,
+      "learning_rate": 8.815488112628412e-06,
+      "loss": 1.64080124,
+      "memory(GiB)": 111.15,
+      "step": 20695,
+      "train_speed(iter/s)": 0.449329
+    },
+    {
+      "acc": 0.65860581,
+      "epoch": 0.5251141552511416,
+      "grad_norm": 5.40625,
+      "learning_rate": 8.814810320819551e-06,
+      "loss": 1.58190289,
+      "memory(GiB)": 111.15,
+      "step": 20700,
+      "train_speed(iter/s)": 0.449387
+    },
+    {
+      "epoch": 0.5251141552511416,
+      "eval_acc": 0.6413818572848383,
+      "eval_loss": 1.6190168857574463,
+      "eval_runtime": 113.0732,
+      "eval_samples_per_second": 56.335,
+      "eval_steps_per_second": 28.168,
+      "step": 20700
+    },
+    {
+      "acc": 0.65677853,
+      "epoch": 0.5252409944190766,
+      "grad_norm": 5.40625,
+      "learning_rate": 8.8141323612183e-06,
+      "loss": 1.62655773,
+      "memory(GiB)": 111.15,
+      "step": 20705,
+      "train_speed(iter/s)": 0.4483
+    },
+    {
+      "acc": 0.63819642,
+      "epoch": 0.5253678335870117,
+      "grad_norm": 6.46875,
+      "learning_rate": 8.813454233854479e-06,
+      "loss": 1.65494156,
+      "memory(GiB)": 111.15,
+      "step": 20710,
+      "train_speed(iter/s)": 0.448357
+    },
+    {
+      "acc": 0.64968767,
+      "epoch": 0.5254946727549468,
+      "grad_norm": 5.1875,
+      "learning_rate": 8.812775938757914e-06,
+      "loss": 1.61218185,
+      "memory(GiB)": 111.15,
+      "step": 20715,
+      "train_speed(iter/s)": 0.448415
+    },
+    {
+      "acc": 0.66025357,
+      "epoch": 0.5256215119228818,
+      "grad_norm": 5.9375,
+      "learning_rate": 8.812097475958442e-06,
+      "loss": 1.58391018,
+      "memory(GiB)": 111.15,
+      "step": 20720,
+      "train_speed(iter/s)": 0.448472
+    },
+    {
+      "acc": 0.64364376,
+      "epoch": 0.5257483510908169,
+      "grad_norm": 5.9375,
+      "learning_rate": 8.811418845485902e-06,
+      "loss": 1.67757301,
+      "memory(GiB)": 111.15,
+      "step": 20725,
+      "train_speed(iter/s)": 0.44853
+    },
+    {
+      "acc": 0.65662489,
+      "epoch": 0.525875190258752,
+      "grad_norm": 5.34375,
+      "learning_rate": 8.810740047370146e-06,
+      "loss": 1.66067619,
+      "memory(GiB)": 111.15,
+      "step": 20730,
+      "train_speed(iter/s)": 0.448587
+    },
+    {
+      "acc": 0.66195917,
+      "epoch": 0.526002029426687,
+      "grad_norm": 5.5,
+      "learning_rate": 8.810061081641026e-06,
+      "loss": 1.6368803,
+      "memory(GiB)": 111.15,
+      "step": 20735,
+      "train_speed(iter/s)": 0.448644
+    },
+    {
+      "acc": 0.65861826,
+      "epoch": 0.526128868594622,
+      "grad_norm": 4.375,
+      "learning_rate": 8.809381948328412e-06,
+      "loss": 1.60868912,
+      "memory(GiB)": 111.15,
+      "step": 20740,
+      "train_speed(iter/s)": 0.448701
+    },
+    {
+      "acc": 0.65172882,
+      "epoch": 0.526255707762557,
+      "grad_norm": 4.90625,
+      "learning_rate": 8.80870264746217e-06,
+      "loss": 1.65635357,
+      "memory(GiB)": 111.15,
+      "step": 20745,
+      "train_speed(iter/s)": 0.448759
+    },
+    {
+      "acc": 0.64303322,
+      "epoch": 0.5263825469304921,
+      "grad_norm": 4.71875,
+      "learning_rate": 8.808023179072183e-06,
+      "loss": 1.62728596,
+      "memory(GiB)": 111.15,
+      "step": 20750,
+      "train_speed(iter/s)": 0.448817
+    },
+    {
+      "acc": 0.63846941,
+      "epoch": 0.5265093860984272,
+      "grad_norm": 5.15625,
+      "learning_rate": 8.807343543188333e-06,
+      "loss": 1.71516266,
+      "memory(GiB)": 111.15,
+      "step": 20755,
+      "train_speed(iter/s)": 0.448874
+    },
+    {
+      "acc": 0.65823116,
+      "epoch": 0.5266362252663622,
+      "grad_norm": 5.84375,
+      "learning_rate": 8.806663739840515e-06,
+      "loss": 1.63009377,
+      "memory(GiB)": 111.15,
+      "step": 20760,
+      "train_speed(iter/s)": 0.448932
+    },
+    {
+      "acc": 0.64279265,
+      "epoch": 0.5267630644342973,
+      "grad_norm": 5.5625,
+      "learning_rate": 8.805983769058633e-06,
+      "loss": 1.67328529,
+      "memory(GiB)": 111.15,
+      "step": 20765,
+      "train_speed(iter/s)": 0.448989
+    },
+    {
+      "acc": 0.65562534,
+      "epoch": 0.5268899036022324,
+      "grad_norm": 5.78125,
+      "learning_rate": 8.80530363087259e-06,
+      "loss": 1.5953598,
+      "memory(GiB)": 111.15,
+      "step": 20770,
+      "train_speed(iter/s)": 0.449046
+    },
+    {
+      "acc": 0.65021629,
+      "epoch": 0.5270167427701674,
+      "grad_norm": 5.03125,
+      "learning_rate": 8.804623325312305e-06,
+      "loss": 1.67343712,
+      "memory(GiB)": 111.15,
+      "step": 20775,
+      "train_speed(iter/s)": 0.449104
+    },
+    {
+      "acc": 0.64371605,
+      "epoch": 0.5271435819381025,
+      "grad_norm": 5.03125,
+      "learning_rate": 8.8039428524077e-06,
+      "loss": 1.63680305,
+      "memory(GiB)": 111.15,
+      "step": 20780,
+      "train_speed(iter/s)": 0.449161
+    },
+    {
+      "acc": 0.65993819,
+      "epoch": 0.5272704211060375,
+      "grad_norm": 6.0,
+      "learning_rate": 8.803262212188703e-06,
+      "loss": 1.67922363,
+      "memory(GiB)": 111.15,
+      "step": 20785,
+      "train_speed(iter/s)": 0.449218
+    },
+    {
+      "acc": 0.65364218,
+      "epoch": 0.5273972602739726,
+      "grad_norm": 6.25,
+      "learning_rate": 8.802581404685255e-06,
+      "loss": 1.65515366,
+      "memory(GiB)": 111.15,
+      "step": 20790,
+      "train_speed(iter/s)": 0.449277
+    },
+    {
+      "acc": 0.6288456,
+      "epoch": 0.5275240994419077,
+      "grad_norm": 5.46875,
+      "learning_rate": 8.8019004299273e-06,
+      "loss": 1.69230194,
+      "memory(GiB)": 111.15,
+      "step": 20795,
+      "train_speed(iter/s)": 0.449334
+    },
+    {
+      "acc": 0.64219809,
+      "epoch": 0.5276509386098427,
+      "grad_norm": 6.5,
+      "learning_rate": 8.801219287944788e-06,
+      "loss": 1.65222931,
+      "memory(GiB)": 111.15,
+      "step": 20800,
+      "train_speed(iter/s)": 0.449391
+    },
+    {
+      "epoch": 0.5276509386098427,
+      "eval_acc": 0.641331307440394,
+      "eval_loss": 1.619089126586914,
+      "eval_runtime": 112.423,
+      "eval_samples_per_second": 56.661,
+      "eval_steps_per_second": 28.331,
+      "step": 20800
+    },
+    {
+      "acc": 0.65076442,
+      "epoch": 0.5277777777777778,
+      "grad_norm": 5.8125,
+      "learning_rate": 8.800537978767683e-06,
+      "loss": 1.6274025,
+      "memory(GiB)": 111.15,
+      "step": 20805,
+      "train_speed(iter/s)": 0.448316
+    },
+    {
+      "acc": 0.66007919,
+      "epoch": 0.5279046169457129,
+      "grad_norm": 6.34375,
+      "learning_rate": 8.79985650242595e-06,
+      "loss": 1.62142105,
+      "memory(GiB)": 111.15,
+      "step": 20810,
+      "train_speed(iter/s)": 0.448373
+    },
+    {
+      "acc": 0.63672967,
+      "epoch": 0.5280314561136479,
+      "grad_norm": 4.84375,
+      "learning_rate": 8.79917485894956e-06,
+      "loss": 1.67950211,
+      "memory(GiB)": 111.15,
+      "step": 20815,
+      "train_speed(iter/s)": 0.44843
+    },
+    {
+      "acc": 0.64817281,
+      "epoch": 0.528158295281583,
+      "grad_norm": 4.8125,
+      "learning_rate": 8.798493048368498e-06,
+      "loss": 1.67589493,
+      "memory(GiB)": 111.15,
+      "step": 20820,
+      "train_speed(iter/s)": 0.448486
+    },
+    {
+      "acc": 0.6432302,
+      "epoch": 0.528285134449518,
+      "grad_norm": 4.4375,
+      "learning_rate": 8.797811070712754e-06,
+      "loss": 1.59743347,
+      "memory(GiB)": 111.15,
+      "step": 20825,
+      "train_speed(iter/s)": 0.448543
+    },
+    {
+      "acc": 0.64535456,
+      "epoch": 0.5284119736174531,
+      "grad_norm": 5.15625,
+      "learning_rate": 8.797128926012323e-06,
+      "loss": 1.69040871,
+      "memory(GiB)": 111.15,
+      "step": 20830,
+      "train_speed(iter/s)": 0.448599
+    },
+    {
+      "acc": 0.64974117,
+      "epoch": 0.5285388127853882,
+      "grad_norm": 6.5,
+      "learning_rate": 8.796446614297208e-06,
+      "loss": 1.59495621,
+      "memory(GiB)": 111.15,
+      "step": 20835,
+      "train_speed(iter/s)": 0.448656
+    },
+    {
+      "acc": 0.64675612,
+      "epoch": 0.5286656519533232,
+      "grad_norm": 5.65625,
+      "learning_rate": 8.795764135597421e-06,
+      "loss": 1.64179955,
+      "memory(GiB)": 111.15,
+      "step": 20840,
+      "train_speed(iter/s)": 0.448713
+    },
+    {
+      "acc": 0.64897699,
+      "epoch": 0.5287924911212583,
+      "grad_norm": 4.65625,
+      "learning_rate": 8.79508148994298e-06,
+      "loss": 1.64623413,
+      "memory(GiB)": 111.15,
+      "step": 20845,
+      "train_speed(iter/s)": 0.448769
+    },
+    {
+      "acc": 0.63817172,
+      "epoch": 0.5289193302891934,
+      "grad_norm": 5.34375,
+      "learning_rate": 8.794398677363913e-06,
+      "loss": 1.65751839,
+      "memory(GiB)": 111.15,
+      "step": 20850,
+      "train_speed(iter/s)": 0.448826
+    },
+    {
+      "acc": 0.66346025,
+      "epoch": 0.5290461694571283,
+      "grad_norm": 5.125,
+      "learning_rate": 8.79371569789025e-06,
+      "loss": 1.58686733,
+      "memory(GiB)": 111.15,
+      "step": 20855,
+      "train_speed(iter/s)": 0.448883
+    },
+    {
+      "acc": 0.65006056,
+      "epoch": 0.5291730086250634,
+      "grad_norm": 7.09375,
+      "learning_rate": 8.793032551552034e-06,
+      "loss": 1.64545231,
+      "memory(GiB)": 111.15,
+      "step": 20860,
+      "train_speed(iter/s)": 0.448939
+    },
+    {
+      "acc": 0.64323597,
+      "epoch": 0.5292998477929984,
+      "grad_norm": 5.03125,
+      "learning_rate": 8.792349238379311e-06,
+      "loss": 1.66735725,
+      "memory(GiB)": 111.15,
+      "step": 20865,
+      "train_speed(iter/s)": 0.448996
+    },
+    {
+      "acc": 0.62644434,
+      "epoch": 0.5294266869609335,
+      "grad_norm": 5.625,
+      "learning_rate": 8.791665758402137e-06,
+      "loss": 1.71982765,
+      "memory(GiB)": 111.15,
+      "step": 20870,
+      "train_speed(iter/s)": 0.449053
+    },
+    {
+      "acc": 0.66253901,
+      "epoch": 0.5295535261288686,
+      "grad_norm": 5.25,
+      "learning_rate": 8.790982111650574e-06,
+      "loss": 1.61684151,
+      "memory(GiB)": 111.15,
+      "step": 20875,
+      "train_speed(iter/s)": 0.44911
+    },
+    {
+      "acc": 0.6539969,
+      "epoch": 0.5296803652968036,
+      "grad_norm": 5.03125,
+      "learning_rate": 8.790298298154694e-06,
+      "loss": 1.58747787,
+      "memory(GiB)": 111.15,
+      "step": 20880,
+      "train_speed(iter/s)": 0.449167
+    },
+    {
+      "acc": 0.64132042,
+      "epoch": 0.5298072044647387,
+      "grad_norm": 4.59375,
+      "learning_rate": 8.78961431794457e-06,
+      "loss": 1.65248795,
+      "memory(GiB)": 111.15,
+      "step": 20885,
+      "train_speed(iter/s)": 0.449223
+    },
+    {
+      "acc": 0.6528657,
+      "epoch": 0.5299340436326738,
+      "grad_norm": 4.96875,
+      "learning_rate": 8.78893017105029e-06,
+      "loss": 1.64326172,
+      "memory(GiB)": 111.15,
+      "step": 20890,
+      "train_speed(iter/s)": 0.44928
+    },
+    {
+      "acc": 0.64660087,
+      "epoch": 0.5300608828006088,
+      "grad_norm": 5.375,
+      "learning_rate": 8.788245857501944e-06,
+      "loss": 1.6061327,
+      "memory(GiB)": 111.15,
+      "step": 20895,
+      "train_speed(iter/s)": 0.449336
+    },
+    {
+      "acc": 0.64356489,
+      "epoch": 0.5301877219685439,
+      "grad_norm": 5.59375,
+      "learning_rate": 8.787561377329633e-06,
+      "loss": 1.68568916,
+      "memory(GiB)": 111.15,
+      "step": 20900,
+      "train_speed(iter/s)": 0.449392
+    },
+    {
+      "epoch": 0.5301877219685439,
+      "eval_acc": 0.6413041525652793,
+      "eval_loss": 1.6189017295837402,
+      "eval_runtime": 113.5019,
+      "eval_samples_per_second": 56.122,
+      "eval_steps_per_second": 28.061,
+      "step": 20900
+    },
+    {
+      "acc": 0.65849266,
+      "epoch": 0.5303145611364789,
+      "grad_norm": 5.34375,
+      "learning_rate": 8.786876730563462e-06,
+      "loss": 1.63563976,
+      "memory(GiB)": 111.15,
+      "step": 20905,
+      "train_speed(iter/s)": 0.448311
+    },
+    {
+      "acc": 0.64602413,
+      "epoch": 0.530441400304414,
+      "grad_norm": 6.3125,
+      "learning_rate": 8.786191917233545e-06,
+      "loss": 1.63195114,
+      "memory(GiB)": 111.15,
+      "step": 20910,
+      "train_speed(iter/s)": 0.448367
+    },
+    {
+      "acc": 0.65451756,
+      "epoch": 0.5305682394723491,
+      "grad_norm": 5.25,
+      "learning_rate": 8.785506937370003e-06,
+      "loss": 1.5705514,
+      "memory(GiB)": 111.15,
+      "step": 20915,
+      "train_speed(iter/s)": 0.448423
+    },
+    {
+      "acc": 0.65763016,
+      "epoch": 0.5306950786402841,
+      "grad_norm": 5.53125,
+      "learning_rate": 8.784821791002965e-06,
+      "loss": 1.62078648,
+      "memory(GiB)": 111.15,
+      "step": 20920,
+      "train_speed(iter/s)": 0.448479
+    },
+    {
+      "acc": 0.65717974,
+      "epoch": 0.5308219178082192,
+      "grad_norm": 5.71875,
+      "learning_rate": 8.784136478162567e-06,
+      "loss": 1.66754303,
+      "memory(GiB)": 111.15,
+      "step": 20925,
+      "train_speed(iter/s)": 0.448536
+    },
+    {
+      "acc": 0.65587173,
+      "epoch": 0.5309487569761543,
+      "grad_norm": 6.0625,
+      "learning_rate": 8.783450998878951e-06,
+      "loss": 1.59382124,
+      "memory(GiB)": 111.15,
+      "step": 20930,
+      "train_speed(iter/s)": 0.448592
+    },
+    {
+      "acc": 0.64687381,
+      "epoch": 0.5310755961440893,
+      "grad_norm": 5.0,
+      "learning_rate": 8.78276535318227e-06,
+      "loss": 1.64621277,
+      "memory(GiB)": 111.15,
+      "step": 20935,
+      "train_speed(iter/s)": 0.448648
+    },
+    {
+      "acc": 0.62829041,
+      "epoch": 0.5312024353120244,
+      "grad_norm": 6.25,
+      "learning_rate": 8.782079541102678e-06,
+      "loss": 1.72944145,
+      "memory(GiB)": 111.15,
+      "step": 20940,
+      "train_speed(iter/s)": 0.448705
+    },
+    {
+      "acc": 0.64178171,
+      "epoch": 0.5313292744799594,
+      "grad_norm": 4.71875,
+      "learning_rate": 8.781393562670342e-06,
+      "loss": 1.64785919,
+      "memory(GiB)": 111.15,
+      "step": 20945,
+      "train_speed(iter/s)": 0.448761
+    },
+    {
+      "acc": 0.6356853,
+      "epoch": 0.5314561136478945,
+      "grad_norm": 4.6875,
+      "learning_rate": 8.780707417915436e-06,
+      "loss": 1.6767683,
+      "memory(GiB)": 111.15,
+      "step": 20950,
+      "train_speed(iter/s)": 0.448818
+    },
+    {
+      "acc": 0.65264988,
+      "epoch": 0.5315829528158296,
+      "grad_norm": 4.9375,
+      "learning_rate": 8.780021106868138e-06,
+      "loss": 1.52395315,
+      "memory(GiB)": 111.15,
+      "step": 20955,
+      "train_speed(iter/s)": 0.448875
+    },
+    {
+      "acc": 0.64251995,
+      "epoch": 0.5317097919837646,
+      "grad_norm": 5.9375,
+      "learning_rate": 8.779334629558633e-06,
+      "loss": 1.66696548,
+      "memory(GiB)": 111.15,
+      "step": 20960,
+      "train_speed(iter/s)": 0.448931
+    },
+    {
+      "acc": 0.64771004,
+      "epoch": 0.5318366311516997,
+      "grad_norm": 6.78125,
+      "learning_rate": 8.77864798601712e-06,
+      "loss": 1.67555008,
+      "memory(GiB)": 111.15,
+      "step": 20965,
+      "train_speed(iter/s)": 0.448988
+    },
+    {
+      "acc": 0.65576429,
+      "epoch": 0.5319634703196348,
+      "grad_norm": 5.03125,
+      "learning_rate": 8.777961176273795e-06,
+      "loss": 1.67485046,
+      "memory(GiB)": 111.15,
+      "step": 20970,
+      "train_speed(iter/s)": 0.449044
+    },
+    {
+      "acc": 0.6507534,
+      "epoch": 0.5320903094875697,
+      "grad_norm": 7.09375,
+      "learning_rate": 8.777274200358873e-06,
+      "loss": 1.68157063,
+      "memory(GiB)": 111.15,
+      "step": 20975,
+      "train_speed(iter/s)": 0.449101
+    },
+    {
+      "acc": 0.66317434,
+      "epoch": 0.5322171486555048,
+      "grad_norm": 5.25,
+      "learning_rate": 8.776587058302566e-06,
+      "loss": 1.63404465,
+      "memory(GiB)": 111.15,
+      "step": 20980,
+      "train_speed(iter/s)": 0.449158
+    },
+    {
+      "acc": 0.65576854,
+      "epoch": 0.5323439878234398,
+      "grad_norm": 4.78125,
+      "learning_rate": 8.7758997501351e-06,
+      "loss": 1.58851452,
+      "memory(GiB)": 111.15,
+      "step": 20985,
+      "train_speed(iter/s)": 0.449215
+    },
+    {
+      "acc": 0.65709839,
+      "epoch": 0.5324708269913749,
+      "grad_norm": 5.78125,
+      "learning_rate": 8.775212275886705e-06,
+      "loss": 1.61322861,
+      "memory(GiB)": 111.15,
+      "step": 20990,
+      "train_speed(iter/s)": 0.449272
+    },
+    {
+      "acc": 0.63026285,
+      "epoch": 0.53259766615931,
+      "grad_norm": 6.28125,
+      "learning_rate": 8.774524635587617e-06,
+      "loss": 1.68695755,
+      "memory(GiB)": 111.15,
+      "step": 20995,
+      "train_speed(iter/s)": 0.449328
+    },
+    {
+      "acc": 0.64821205,
+      "epoch": 0.532724505327245,
+      "grad_norm": 5.21875,
+      "learning_rate": 8.773836829268084e-06,
+      "loss": 1.64276276,
+      "memory(GiB)": 111.15,
+      "step": 21000,
+      "train_speed(iter/s)": 0.449385
+    },
+    {
+      "epoch": 0.532724505327245,
+      "eval_acc": 0.6414378381043057,
+      "eval_loss": 1.6187134981155396,
+      "eval_runtime": 112.3554,
+      "eval_samples_per_second": 56.695,
+      "eval_steps_per_second": 28.348,
+      "step": 21000
+    },
+    {
+      "acc": 0.64413548,
+      "epoch": 0.5328513444951801,
+      "grad_norm": 5.21875,
+      "learning_rate": 8.77314885695836e-06,
+      "loss": 1.61260548,
+      "memory(GiB)": 111.15,
+      "step": 21005,
+      "train_speed(iter/s)": 0.44832
+    },
+    {
+      "acc": 0.6422503,
+      "epoch": 0.5329781836631152,
+      "grad_norm": 5.34375,
+      "learning_rate": 8.772460718688702e-06,
+      "loss": 1.60806236,
+      "memory(GiB)": 111.15,
+      "step": 21010,
+      "train_speed(iter/s)": 0.448376
+    },
+    {
+      "acc": 0.66154575,
+      "epoch": 0.5331050228310502,
+      "grad_norm": 5.78125,
+      "learning_rate": 8.771772414489379e-06,
+      "loss": 1.59863758,
+      "memory(GiB)": 111.15,
+      "step": 21015,
+      "train_speed(iter/s)": 0.448433
+    },
+    {
+      "acc": 0.64426212,
+      "epoch": 0.5332318619989853,
+      "grad_norm": 5.34375,
+      "learning_rate": 8.771083944390665e-06,
+      "loss": 1.67122746,
+      "memory(GiB)": 111.15,
+      "step": 21020,
+      "train_speed(iter/s)": 0.448489
+    },
+    {
+      "acc": 0.64007883,
+      "epoch": 0.5333587011669203,
+      "grad_norm": 4.78125,
+      "learning_rate": 8.770395308422842e-06,
+      "loss": 1.6791275,
+      "memory(GiB)": 111.15,
+      "step": 21025,
+      "train_speed(iter/s)": 0.448545
+    },
+    {
+      "acc": 0.65491676,
+      "epoch": 0.5334855403348554,
+      "grad_norm": 5.71875,
+      "learning_rate": 8.769706506616201e-06,
+      "loss": 1.6276022,
+      "memory(GiB)": 111.15,
+      "step": 21030,
+      "train_speed(iter/s)": 0.448601
+    },
+    {
+      "acc": 0.65747156,
+      "epoch": 0.5336123795027905,
+      "grad_norm": 4.21875,
+      "learning_rate": 8.769017539001037e-06,
+      "loss": 1.60681477,
+      "memory(GiB)": 111.15,
+      "step": 21035,
+      "train_speed(iter/s)": 0.448658
+    },
+    {
+      "acc": 0.65258904,
+      "epoch": 0.5337392186707255,
+      "grad_norm": 5.71875,
+      "learning_rate": 8.768328405607655e-06,
+      "loss": 1.6443924,
+      "memory(GiB)": 111.15,
+      "step": 21040,
+      "train_speed(iter/s)": 0.448714
+    },
+    {
+      "acc": 0.6404851,
+      "epoch": 0.5338660578386606,
+      "grad_norm": 5.0625,
+      "learning_rate": 8.767639106466364e-06,
+      "loss": 1.70296516,
+      "memory(GiB)": 111.15,
+      "step": 21045,
+      "train_speed(iter/s)": 0.448771
+    },
+    {
+      "acc": 0.64972425,
+      "epoch": 0.5339928970065957,
+      "grad_norm": 4.78125,
+      "learning_rate": 8.766949641607484e-06,
+      "loss": 1.66417522,
+      "memory(GiB)": 111.15,
+      "step": 21050,
+      "train_speed(iter/s)": 0.448827
+    },
+    {
+      "acc": 0.65165977,
+      "epoch": 0.5341197361745307,
+      "grad_norm": 5.40625,
+      "learning_rate": 8.76626001106134e-06,
+      "loss": 1.64909611,
+      "memory(GiB)": 111.15,
+      "step": 21055,
+      "train_speed(iter/s)": 0.448883
+    },
+    {
+      "acc": 0.65665426,
+      "epoch": 0.5342465753424658,
+      "grad_norm": 5.3125,
+      "learning_rate": 8.765570214858268e-06,
+      "loss": 1.55610275,
+      "memory(GiB)": 111.15,
+      "step": 21060,
+      "train_speed(iter/s)": 0.44894
+    },
+    {
+      "acc": 0.6453784,
+      "epoch": 0.5343734145104008,
+      "grad_norm": 5.53125,
+      "learning_rate": 8.764880253028604e-06,
+      "loss": 1.60476646,
+      "memory(GiB)": 111.15,
+      "step": 21065,
+      "train_speed(iter/s)": 0.448996
+    },
+    {
+      "acc": 0.64591665,
+      "epoch": 0.5345002536783359,
+      "grad_norm": 4.3125,
+      "learning_rate": 8.764190125602698e-06,
+      "loss": 1.61555367,
+      "memory(GiB)": 111.15,
+      "step": 21070,
+      "train_speed(iter/s)": 0.449052
+    },
+    {
+      "acc": 0.65049481,
+      "epoch": 0.534627092846271,
+      "grad_norm": 5.6875,
+      "learning_rate": 8.763499832610904e-06,
+      "loss": 1.67644615,
+      "memory(GiB)": 111.15,
+      "step": 21075,
+      "train_speed(iter/s)": 0.449109
+    },
+    {
+      "acc": 0.66562624,
+      "epoch": 0.534753932014206,
+      "grad_norm": 4.71875,
+      "learning_rate": 8.762809374083585e-06,
+      "loss": 1.5890379,
+      "memory(GiB)": 111.15,
+      "step": 21080,
+      "train_speed(iter/s)": 0.449165
+    },
+    {
+      "acc": 0.6356905,
+      "epoch": 0.5348807711821411,
+      "grad_norm": 5.84375,
+      "learning_rate": 8.76211875005111e-06,
+      "loss": 1.68113041,
+      "memory(GiB)": 111.15,
+      "step": 21085,
+      "train_speed(iter/s)": 0.449221
+    },
+    {
+      "acc": 0.67540054,
+      "epoch": 0.5350076103500762,
+      "grad_norm": 6.9375,
+      "learning_rate": 8.761427960543854e-06,
+      "loss": 1.54257078,
+      "memory(GiB)": 111.15,
+      "step": 21090,
+      "train_speed(iter/s)": 0.449278
+    },
+    {
+      "acc": 0.65144091,
+      "epoch": 0.5351344495180111,
+      "grad_norm": 5.53125,
+      "learning_rate": 8.760737005592205e-06,
+      "loss": 1.63055687,
+      "memory(GiB)": 111.15,
+      "step": 21095,
+      "train_speed(iter/s)": 0.449334
+    },
+    {
+      "acc": 0.67670503,
+      "epoch": 0.5352612886859462,
+      "grad_norm": 4.5625,
+      "learning_rate": 8.760045885226551e-06,
+      "loss": 1.60595703,
+      "memory(GiB)": 111.15,
+      "step": 21100,
+      "train_speed(iter/s)": 0.449391
+    },
+    {
+      "epoch": 0.5352612886859462,
+      "eval_acc": 0.641429064990807,
+      "eval_loss": 1.6188441514968872,
+      "eval_runtime": 112.9751,
+      "eval_samples_per_second": 56.384,
+      "eval_steps_per_second": 28.192,
+      "step": 21100
+    },
+    {
+      "acc": 0.6564713,
+      "epoch": 0.5353881278538812,
+      "grad_norm": 5.78125,
+      "learning_rate": 8.759354599477293e-06,
+      "loss": 1.65448074,
+      "memory(GiB)": 111.15,
+      "step": 21105,
+      "train_speed(iter/s)": 0.448325
+    },
+    {
+      "acc": 0.6599041,
+      "epoch": 0.5355149670218163,
+      "grad_norm": 5.09375,
+      "learning_rate": 8.758663148374833e-06,
+      "loss": 1.55637674,
+      "memory(GiB)": 111.15,
+      "step": 21110,
+      "train_speed(iter/s)": 0.448381
+    },
+    {
+      "acc": 0.6574172,
+      "epoch": 0.5356418061897514,
+      "grad_norm": 5.125,
+      "learning_rate": 8.757971531949587e-06,
+      "loss": 1.64465446,
+      "memory(GiB)": 111.15,
+      "step": 21115,
+      "train_speed(iter/s)": 0.448438
+    },
+    {
+      "acc": 0.65212374,
+      "epoch": 0.5357686453576864,
+      "grad_norm": 4.59375,
+      "learning_rate": 8.757279750231977e-06,
+      "loss": 1.61003189,
+      "memory(GiB)": 111.15,
+      "step": 21120,
+      "train_speed(iter/s)": 0.448493
+    },
+    {
+      "acc": 0.65529203,
+      "epoch": 0.5358954845256215,
+      "grad_norm": 5.0,
+      "learning_rate": 8.756587803252426e-06,
+      "loss": 1.56732788,
+      "memory(GiB)": 111.15,
+      "step": 21125,
+      "train_speed(iter/s)": 0.44855
+    },
+    {
+      "acc": 0.65529928,
+      "epoch": 0.5360223236935566,
+      "grad_norm": 5.375,
+      "learning_rate": 8.755895691041373e-06,
+      "loss": 1.63084736,
+      "memory(GiB)": 111.15,
+      "step": 21130,
+      "train_speed(iter/s)": 0.448606
+    },
+    {
+      "acc": 0.65080814,
+      "epoch": 0.5361491628614916,
+      "grad_norm": 4.71875,
+      "learning_rate": 8.755203413629257e-06,
+      "loss": 1.63112736,
+      "memory(GiB)": 111.15,
+      "step": 21135,
+      "train_speed(iter/s)": 0.448662
+    },
+    {
+      "acc": 0.65512714,
+      "epoch": 0.5362760020294267,
+      "grad_norm": 5.03125,
+      "learning_rate": 8.75451097104653e-06,
+      "loss": 1.54782982,
+      "memory(GiB)": 111.15,
+      "step": 21140,
+      "train_speed(iter/s)": 0.448718
+    },
+    {
+      "acc": 0.65637674,
+      "epoch": 0.5364028411973617,
+      "grad_norm": 5.15625,
+      "learning_rate": 8.75381836332365e-06,
+      "loss": 1.68503704,
+      "memory(GiB)": 111.15,
+      "step": 21145,
+      "train_speed(iter/s)": 0.448775
+    },
+    {
+      "acc": 0.62897263,
+      "epoch": 0.5365296803652968,
+      "grad_norm": 5.0625,
+      "learning_rate": 8.753125590491077e-06,
+      "loss": 1.65831604,
+      "memory(GiB)": 111.15,
+      "step": 21150,
+      "train_speed(iter/s)": 0.448832
+    },
+    {
+      "acc": 0.65479326,
+      "epoch": 0.5366565195332319,
+      "grad_norm": 4.6875,
+      "learning_rate": 8.752432652579284e-06,
+      "loss": 1.58161373,
+      "memory(GiB)": 111.15,
+      "step": 21155,
+      "train_speed(iter/s)": 0.448888
+    },
+    {
+      "acc": 0.63825378,
+      "epoch": 0.5367833587011669,
+      "grad_norm": 6.125,
+      "learning_rate": 8.751739549618749e-06,
+      "loss": 1.67486458,
+      "memory(GiB)": 111.15,
+      "step": 21160,
+      "train_speed(iter/s)": 0.448945
+    },
+    {
+      "acc": 0.65549507,
+      "epoch": 0.536910197869102,
+      "grad_norm": 5.9375,
+      "learning_rate": 8.751046281639958e-06,
+      "loss": 1.59011288,
+      "memory(GiB)": 111.15,
+      "step": 21165,
+      "train_speed(iter/s)": 0.449002
+    },
+    {
+      "acc": 0.65477495,
+      "epoch": 0.5370370370370371,
+      "grad_norm": 4.75,
+      "learning_rate": 8.750352848673405e-06,
+      "loss": 1.64748192,
+      "memory(GiB)": 111.15,
+      "step": 21170,
+      "train_speed(iter/s)": 0.449058
+    },
+    {
+      "acc": 0.64258213,
+      "epoch": 0.5371638762049721,
+      "grad_norm": 5.46875,
+      "learning_rate": 8.749659250749589e-06,
+      "loss": 1.70933609,
+      "memory(GiB)": 111.15,
+      "step": 21175,
+      "train_speed(iter/s)": 0.449115
+    },
+    {
+      "acc": 0.66172342,
+      "epoch": 0.5372907153729072,
+      "grad_norm": 6.59375,
+      "learning_rate": 8.748965487899019e-06,
+      "loss": 1.60262756,
+      "memory(GiB)": 111.15,
+      "step": 21180,
+      "train_speed(iter/s)": 0.449172
+    },
+    {
+      "acc": 0.65072265,
+      "epoch": 0.5374175545408422,
+      "grad_norm": 6.0,
+      "learning_rate": 8.748271560152208e-06,
+      "loss": 1.58556461,
+      "memory(GiB)": 111.15,
+      "step": 21185,
+      "train_speed(iter/s)": 0.449229
+    },
+    {
+      "acc": 0.64545364,
+      "epoch": 0.5375443937087773,
+      "grad_norm": 5.25,
+      "learning_rate": 8.74757746753968e-06,
+      "loss": 1.65436459,
+      "memory(GiB)": 111.15,
+      "step": 21190,
+      "train_speed(iter/s)": 0.449286
+    },
+    {
+      "acc": 0.65416293,
+      "epoch": 0.5376712328767124,
+      "grad_norm": 5.59375,
+      "learning_rate": 8.746883210091963e-06,
+      "loss": 1.55474968,
+      "memory(GiB)": 111.15,
+      "step": 21195,
+      "train_speed(iter/s)": 0.449342
+    },
+    {
+      "acc": 0.67353969,
+      "epoch": 0.5377980720446474,
+      "grad_norm": 4.8125,
+      "learning_rate": 8.746188787839593e-06,
+      "loss": 1.51669235,
+      "memory(GiB)": 111.15,
+      "step": 21200,
+      "train_speed(iter/s)": 0.449399
+    },
+    {
+      "epoch": 0.5377980720446474,
+      "eval_acc": 0.6414624863755636,
+      "eval_loss": 1.6185083389282227,
+      "eval_runtime": 113.4933,
+      "eval_samples_per_second": 56.127,
+      "eval_steps_per_second": 28.063,
+      "step": 21200
+    },
+    {
+      "acc": 0.65435314,
+      "epoch": 0.5379249112125825,
+      "grad_norm": 4.96875,
+      "learning_rate": 8.745494200813116e-06,
+      "loss": 1.63672543,
+      "memory(GiB)": 111.15,
+      "step": 21205,
+      "train_speed(iter/s)": 0.448333
+    },
+    {
+      "acc": 0.64973392,
+      "epoch": 0.5380517503805176,
+      "grad_norm": 7.1875,
+      "learning_rate": 8.74479944904308e-06,
+      "loss": 1.6382412,
+      "memory(GiB)": 111.15,
+      "step": 21210,
+      "train_speed(iter/s)": 0.448388
+    },
+    {
+      "acc": 0.64351807,
+      "epoch": 0.5381785895484525,
+      "grad_norm": 5.15625,
+      "learning_rate": 8.744104532560047e-06,
+      "loss": 1.63959942,
+      "memory(GiB)": 111.15,
+      "step": 21215,
+      "train_speed(iter/s)": 0.448444
+    },
+    {
+      "acc": 0.63166356,
+      "epoch": 0.5383054287163876,
+      "grad_norm": 5.125,
+      "learning_rate": 8.74340945139458e-06,
+      "loss": 1.72402325,
+      "memory(GiB)": 111.15,
+      "step": 21220,
+      "train_speed(iter/s)": 0.448501
+    },
+    {
+      "acc": 0.64511433,
+      "epoch": 0.5384322678843226,
+      "grad_norm": 7.625,
+      "learning_rate": 8.742714205577251e-06,
+      "loss": 1.62924709,
+      "memory(GiB)": 111.15,
+      "step": 21225,
+      "train_speed(iter/s)": 0.448557
+    },
+    {
+      "acc": 0.66363907,
+      "epoch": 0.5385591070522577,
+      "grad_norm": 4.59375,
+      "learning_rate": 8.742018795138642e-06,
+      "loss": 1.52479753,
+      "memory(GiB)": 111.15,
+      "step": 21230,
+      "train_speed(iter/s)": 0.448613
+    },
+    {
+      "acc": 0.64408321,
+      "epoch": 0.5386859462201928,
+      "grad_norm": 5.21875,
+      "learning_rate": 8.74132322010934e-06,
+      "loss": 1.63178291,
+      "memory(GiB)": 111.15,
+      "step": 21235,
+      "train_speed(iter/s)": 0.448669
+    },
+    {
+      "acc": 0.64753532,
+      "epoch": 0.5388127853881278,
+      "grad_norm": 5.03125,
+      "learning_rate": 8.740627480519937e-06,
+      "loss": 1.61229305,
+      "memory(GiB)": 111.15,
+      "step": 21240,
+      "train_speed(iter/s)": 0.448725
+    },
+    {
+      "acc": 0.63910685,
+      "epoch": 0.5389396245560629,
+      "grad_norm": 5.75,
+      "learning_rate": 8.739931576401037e-06,
+      "loss": 1.64049377,
+      "memory(GiB)": 111.15,
+      "step": 21245,
+      "train_speed(iter/s)": 0.448781
+    },
+    {
+      "acc": 0.64502535,
+      "epoch": 0.539066463723998,
+      "grad_norm": 5.03125,
+      "learning_rate": 8.73923550778325e-06,
+      "loss": 1.56924877,
+      "memory(GiB)": 111.15,
+      "step": 21250,
+      "train_speed(iter/s)": 0.448838
+    },
+    {
+      "acc": 0.659025,
+      "epoch": 0.539193302891933,
+      "grad_norm": 5.5625,
+      "learning_rate": 8.73853927469719e-06,
+      "loss": 1.62700233,
+      "memory(GiB)": 111.15,
+      "step": 21255,
+      "train_speed(iter/s)": 0.448894
+    },
+    {
+      "acc": 0.64575987,
+      "epoch": 0.5393201420598681,
+      "grad_norm": 6.34375,
+      "learning_rate": 8.73784287717348e-06,
+      "loss": 1.63756599,
+      "memory(GiB)": 111.15,
+      "step": 21260,
+      "train_speed(iter/s)": 0.44895
+    },
+    {
+      "acc": 0.61788235,
+      "epoch": 0.5394469812278031,
+      "grad_norm": 5.15625,
+      "learning_rate": 8.737146315242755e-06,
+      "loss": 1.73394165,
+      "memory(GiB)": 111.15,
+      "step": 21265,
+      "train_speed(iter/s)": 0.449006
+    },
+    {
+      "acc": 0.64003401,
+      "epoch": 0.5395738203957382,
+      "grad_norm": 4.96875,
+      "learning_rate": 8.73644958893565e-06,
+      "loss": 1.66983051,
+      "memory(GiB)": 111.15,
+      "step": 21270,
+      "train_speed(iter/s)": 0.449063
+    },
+    {
+      "acc": 0.65364151,
+      "epoch": 0.5397006595636733,
+      "grad_norm": 4.59375,
+      "learning_rate": 8.735752698282807e-06,
+      "loss": 1.59463224,
+      "memory(GiB)": 111.15,
+      "step": 21275,
+      "train_speed(iter/s)": 0.449119
+    },
+    {
+      "acc": 0.66295061,
+      "epoch": 0.5398274987316083,
+      "grad_norm": 4.6875,
+      "learning_rate": 8.735055643314883e-06,
+      "loss": 1.6527977,
+      "memory(GiB)": 111.15,
+      "step": 21280,
+      "train_speed(iter/s)": 0.449176
+    },
+    {
+      "acc": 0.63985553,
+      "epoch": 0.5399543378995434,
+      "grad_norm": 5.0,
+      "learning_rate": 8.734358424062536e-06,
+      "loss": 1.65722961,
+      "memory(GiB)": 111.15,
+      "step": 21285,
+      "train_speed(iter/s)": 0.449232
+    },
+    {
+      "acc": 0.65584946,
+      "epoch": 0.5400811770674785,
+      "grad_norm": 4.6875,
+      "learning_rate": 8.733661040556433e-06,
+      "loss": 1.61240749,
+      "memory(GiB)": 111.15,
+      "step": 21290,
+      "train_speed(iter/s)": 0.449288
+    },
+    {
+      "acc": 0.63166947,
+      "epoch": 0.5402080162354135,
+      "grad_norm": 4.96875,
+      "learning_rate": 8.732963492827248e-06,
+      "loss": 1.65951557,
+      "memory(GiB)": 111.15,
+      "step": 21295,
+      "train_speed(iter/s)": 0.449344
+    },
+    {
+      "acc": 0.6415226,
+      "epoch": 0.5403348554033486,
+      "grad_norm": 5.09375,
+      "learning_rate": 8.732265780905661e-06,
+      "loss": 1.66189098,
+      "memory(GiB)": 111.15,
+      "step": 21300,
+      "train_speed(iter/s)": 0.4494
+    },
+    {
+      "epoch": 0.5403348554033486,
+      "eval_acc": 0.6415080230122945,
+      "eval_loss": 1.6184227466583252,
+      "eval_runtime": 112.8171,
+      "eval_samples_per_second": 56.463,
+      "eval_steps_per_second": 28.232,
+      "step": 21300
+    },
+    {
+      "acc": 0.63509102,
+      "epoch": 0.5404616945712836,
+      "grad_norm": 5.0625,
+      "learning_rate": 8.731567904822362e-06,
+      "loss": 1.69000988,
+      "memory(GiB)": 111.15,
+      "step": 21305,
+      "train_speed(iter/s)": 0.448345
+    },
+    {
+      "acc": 0.65575619,
+      "epoch": 0.5405885337392187,
+      "grad_norm": 4.84375,
+      "learning_rate": 8.730869864608047e-06,
+      "loss": 1.53732662,
+      "memory(GiB)": 111.15,
+      "step": 21310,
+      "train_speed(iter/s)": 0.4484
+    },
+    {
+      "acc": 0.63919606,
+      "epoch": 0.5407153729071538,
+      "grad_norm": 5.875,
+      "learning_rate": 8.730171660293418e-06,
+      "loss": 1.71072845,
+      "memory(GiB)": 111.15,
+      "step": 21315,
+      "train_speed(iter/s)": 0.448456
+    },
+    {
+      "acc": 0.64673743,
+      "epoch": 0.5408422120750888,
+      "grad_norm": 4.375,
+      "learning_rate": 8.729473291909185e-06,
+      "loss": 1.61375656,
+      "memory(GiB)": 111.15,
+      "step": 21320,
+      "train_speed(iter/s)": 0.448511
+    },
+    {
+      "acc": 0.63442211,
+      "epoch": 0.5409690512430239,
+      "grad_norm": 5.59375,
+      "learning_rate": 8.728774759486065e-06,
+      "loss": 1.65525875,
+      "memory(GiB)": 111.15,
+      "step": 21325,
+      "train_speed(iter/s)": 0.448567
+    },
+    {
+      "acc": 0.64127774,
+      "epoch": 0.541095890410959,
+      "grad_norm": 4.875,
+      "learning_rate": 8.728076063054786e-06,
+      "loss": 1.61144962,
+      "memory(GiB)": 111.15,
+      "step": 21330,
+      "train_speed(iter/s)": 0.448622
+    },
+    {
+      "acc": 0.63859606,
+      "epoch": 0.541222729578894,
+      "grad_norm": 5.4375,
+      "learning_rate": 8.727377202646074e-06,
+      "loss": 1.72243271,
+      "memory(GiB)": 111.15,
+      "step": 21335,
+      "train_speed(iter/s)": 0.448678
+    },
+    {
+      "acc": 0.65193329,
+      "epoch": 0.541349568746829,
+      "grad_norm": 7.1875,
+      "learning_rate": 8.726678178290673e-06,
+      "loss": 1.70639458,
+      "memory(GiB)": 111.15,
+      "step": 21340,
+      "train_speed(iter/s)": 0.448734
+    },
+    {
+      "acc": 0.6582664,
+      "epoch": 0.541476407914764,
+      "grad_norm": 6.0,
+      "learning_rate": 8.725978990019326e-06,
+      "loss": 1.6251358,
+      "memory(GiB)": 111.15,
+      "step": 21345,
+      "train_speed(iter/s)": 0.44879
+    },
+    {
+      "acc": 0.66223326,
+      "epoch": 0.5416032470826991,
+      "grad_norm": 4.75,
+      "learning_rate": 8.72527963786279e-06,
+      "loss": 1.60527573,
+      "memory(GiB)": 111.15,
+      "step": 21350,
+      "train_speed(iter/s)": 0.448847
+    },
+    {
+      "acc": 0.64534087,
+      "epoch": 0.5417300862506342,
+      "grad_norm": 4.75,
+      "learning_rate": 8.72458012185182e-06,
+      "loss": 1.70588951,
+      "memory(GiB)": 111.15,
+      "step": 21355,
+      "train_speed(iter/s)": 0.448902
+    },
+    {
+      "acc": 0.65666637,
+      "epoch": 0.5418569254185692,
+      "grad_norm": 5.125,
+      "learning_rate": 8.72388044201719e-06,
+      "loss": 1.62027893,
+      "memory(GiB)": 111.15,
+      "step": 21360,
+      "train_speed(iter/s)": 0.448958
+    },
+    {
+      "acc": 0.66579733,
+      "epoch": 0.5419837645865043,
+      "grad_norm": 5.5625,
+      "learning_rate": 8.723180598389671e-06,
+      "loss": 1.52226791,
+      "memory(GiB)": 111.15,
+      "step": 21365,
+      "train_speed(iter/s)": 0.449014
+    },
+    {
+      "acc": 0.64282513,
+      "epoch": 0.5421106037544394,
+      "grad_norm": 4.21875,
+      "learning_rate": 8.722480591000046e-06,
+      "loss": 1.66130066,
+      "memory(GiB)": 111.15,
+      "step": 21370,
+      "train_speed(iter/s)": 0.449069
+    },
+    {
+      "acc": 0.66804643,
+      "epoch": 0.5422374429223744,
+      "grad_norm": 7.3125,
+      "learning_rate": 8.721780419879106e-06,
+      "loss": 1.52520046,
+      "memory(GiB)": 111.15,
+      "step": 21375,
+      "train_speed(iter/s)": 0.449125
+    },
+    {
+      "acc": 0.64686227,
+      "epoch": 0.5423642820903095,
+      "grad_norm": 4.65625,
+      "learning_rate": 8.721080085057646e-06,
+      "loss": 1.70411835,
+      "memory(GiB)": 111.15,
+      "step": 21380,
+      "train_speed(iter/s)": 0.44918
+    },
+    {
+      "acc": 0.64346323,
+      "epoch": 0.5424911212582445,
+      "grad_norm": 8.125,
+      "learning_rate": 8.72037958656647e-06,
+      "loss": 1.72639179,
+      "memory(GiB)": 111.15,
+      "step": 21385,
+      "train_speed(iter/s)": 0.449235
+    },
+    {
+      "acc": 0.63702135,
+      "epoch": 0.5426179604261796,
+      "grad_norm": 5.0,
+      "learning_rate": 8.71967892443639e-06,
+      "loss": 1.68252773,
+      "memory(GiB)": 111.15,
+      "step": 21390,
+      "train_speed(iter/s)": 0.44929
+    },
+    {
+      "acc": 0.65590219,
+      "epoch": 0.5427447995941147,
+      "grad_norm": 6.125,
+      "learning_rate": 8.718978098698226e-06,
+      "loss": 1.61833954,
+      "memory(GiB)": 111.15,
+      "step": 21395,
+      "train_speed(iter/s)": 0.449345
+    },
+    {
+      "acc": 0.64735394,
+      "epoch": 0.5428716387620497,
+      "grad_norm": 5.59375,
+      "learning_rate": 8.718277109382799e-06,
+      "loss": 1.65964622,
+      "memory(GiB)": 111.15,
+      "step": 21400,
+      "train_speed(iter/s)": 0.449401
+    },
+    {
+      "epoch": 0.5428716387620497,
+      "eval_acc": 0.6414520421928271,
+      "eval_loss": 1.6185967922210693,
+      "eval_runtime": 113.4324,
+      "eval_samples_per_second": 56.157,
+      "eval_steps_per_second": 28.078,
+      "step": 21400
+    },
+    {
+      "acc": 0.65197897,
+      "epoch": 0.5429984779299848,
+      "grad_norm": 5.90625,
+      "learning_rate": 8.717575956520942e-06,
+      "loss": 1.70419254,
+      "memory(GiB)": 111.15,
+      "step": 21405,
+      "train_speed(iter/s)": 0.448345
+    },
+    {
+      "acc": 0.65799093,
+      "epoch": 0.5431253170979199,
+      "grad_norm": 4.6875,
+      "learning_rate": 8.716874640143498e-06,
+      "loss": 1.56585445,
+      "memory(GiB)": 111.15,
+      "step": 21410,
+      "train_speed(iter/s)": 0.448401
+    },
+    {
+      "acc": 0.64862471,
+      "epoch": 0.5432521562658549,
+      "grad_norm": 5.375,
+      "learning_rate": 8.716173160281315e-06,
+      "loss": 1.69135952,
+      "memory(GiB)": 111.15,
+      "step": 21415,
+      "train_speed(iter/s)": 0.448457
+    },
+    {
+      "acc": 0.62319837,
+      "epoch": 0.54337899543379,
+      "grad_norm": 6.9375,
+      "learning_rate": 8.715471516965242e-06,
+      "loss": 1.72462196,
+      "memory(GiB)": 111.15,
+      "step": 21420,
+      "train_speed(iter/s)": 0.448512
+    },
+    {
+      "acc": 0.64214258,
+      "epoch": 0.543505834601725,
+      "grad_norm": 5.28125,
+      "learning_rate": 8.714769710226144e-06,
+      "loss": 1.67238026,
+      "memory(GiB)": 111.15,
+      "step": 21425,
+      "train_speed(iter/s)": 0.448568
+    },
+    {
+      "acc": 0.65179844,
+      "epoch": 0.5436326737696601,
+      "grad_norm": 5.53125,
+      "learning_rate": 8.714067740094888e-06,
+      "loss": 1.66757545,
+      "memory(GiB)": 111.15,
+      "step": 21430,
+      "train_speed(iter/s)": 0.448623
+    },
+    {
+      "acc": 0.66279392,
+      "epoch": 0.5437595129375952,
+      "grad_norm": 7.3125,
+      "learning_rate": 8.713365606602353e-06,
+      "loss": 1.61598549,
+      "memory(GiB)": 111.15,
+      "step": 21435,
+      "train_speed(iter/s)": 0.448679
+    },
+    {
+      "acc": 0.67257566,
+      "epoch": 0.5438863521055302,
+      "grad_norm": 5.90625,
+      "learning_rate": 8.71266330977942e-06,
+      "loss": 1.51615486,
+      "memory(GiB)": 111.15,
+      "step": 21440,
+      "train_speed(iter/s)": 0.448734
+    },
+    {
+      "acc": 0.67364702,
+      "epoch": 0.5440131912734653,
+      "grad_norm": 4.59375,
+      "learning_rate": 8.711960849656975e-06,
+      "loss": 1.52702885,
+      "memory(GiB)": 111.15,
+      "step": 21445,
+      "train_speed(iter/s)": 0.44879
+    },
+    {
+      "acc": 0.64109325,
+      "epoch": 0.5441400304414004,
+      "grad_norm": 6.1875,
+      "learning_rate": 8.711258226265922e-06,
+      "loss": 1.65407009,
+      "memory(GiB)": 111.15,
+      "step": 21450,
+      "train_speed(iter/s)": 0.448845
+    },
+    {
+      "acc": 0.65185413,
+      "epoch": 0.5442668696093353,
+      "grad_norm": 5.71875,
+      "learning_rate": 8.710555439637163e-06,
+      "loss": 1.68535461,
+      "memory(GiB)": 111.15,
+      "step": 21455,
+      "train_speed(iter/s)": 0.448901
+    },
+    {
+      "acc": 0.64048719,
+      "epoch": 0.5443937087772704,
+      "grad_norm": 6.5625,
+      "learning_rate": 8.709852489801608e-06,
+      "loss": 1.61397476,
+      "memory(GiB)": 111.15,
+      "step": 21460,
+      "train_speed(iter/s)": 0.448957
+    },
+    {
+      "acc": 0.64465995,
+      "epoch": 0.5445205479452054,
+      "grad_norm": 5.9375,
+      "learning_rate": 8.709149376790177e-06,
+      "loss": 1.65963593,
+      "memory(GiB)": 111.15,
+      "step": 21465,
+      "train_speed(iter/s)": 0.449013
+    },
+    {
+      "acc": 0.64795084,
+      "epoch": 0.5446473871131405,
+      "grad_norm": 5.59375,
+      "learning_rate": 8.708446100633796e-06,
+      "loss": 1.650387,
+      "memory(GiB)": 111.15,
+      "step": 21470,
+      "train_speed(iter/s)": 0.449068
+    },
+    {
+      "acc": 0.6789876,
+      "epoch": 0.5447742262810756,
+      "grad_norm": 6.5625,
+      "learning_rate": 8.707742661363401e-06,
+      "loss": 1.51767635,
+      "memory(GiB)": 111.15,
+      "step": 21475,
+      "train_speed(iter/s)": 0.449124
+    },
+    {
+      "acc": 0.63189445,
+      "epoch": 0.5449010654490106,
+      "grad_norm": 6.25,
+      "learning_rate": 8.707039059009927e-06,
+      "loss": 1.72502632,
+      "memory(GiB)": 111.15,
+      "step": 21480,
+      "train_speed(iter/s)": 0.449179
+    },
+    {
+      "acc": 0.65762272,
+      "epoch": 0.5450279046169457,
+      "grad_norm": 6.28125,
+      "learning_rate": 8.706335293604326e-06,
+      "loss": 1.62317352,
+      "memory(GiB)": 111.15,
+      "step": 21485,
+      "train_speed(iter/s)": 0.449235
+    },
+    {
+      "acc": 0.6510149,
+      "epoch": 0.5451547437848808,
+      "grad_norm": 5.28125,
+      "learning_rate": 8.705631365177552e-06,
+      "loss": 1.67762375,
+      "memory(GiB)": 111.15,
+      "step": 21490,
+      "train_speed(iter/s)": 0.44929
+    },
+    {
+      "acc": 0.65279026,
+      "epoch": 0.5452815829528158,
+      "grad_norm": 5.90625,
+      "learning_rate": 8.704927273760563e-06,
+      "loss": 1.6031023,
+      "memory(GiB)": 111.15,
+      "step": 21495,
+      "train_speed(iter/s)": 0.449345
+    },
+    {
+      "acc": 0.64373107,
+      "epoch": 0.5454084221207509,
+      "grad_norm": 5.15625,
+      "learning_rate": 8.704223019384334e-06,
+      "loss": 1.64749565,
+      "memory(GiB)": 111.15,
+      "step": 21500,
+      "train_speed(iter/s)": 0.4494
+    },
+    {
+      "epoch": 0.5454084221207509,
+      "eval_acc": 0.6414470289851137,
+      "eval_loss": 1.6185108423233032,
+      "eval_runtime": 112.6306,
+      "eval_samples_per_second": 56.557,
+      "eval_steps_per_second": 28.278,
+      "step": 21500
+    },
+    {
+      "acc": 0.65766225,
+      "epoch": 0.5455352612886859,
+      "grad_norm": 6.1875,
+      "learning_rate": 8.703518602079836e-06,
+      "loss": 1.59496307,
+      "memory(GiB)": 111.15,
+      "step": 21505,
+      "train_speed(iter/s)": 0.448357
+    },
+    {
+      "acc": 0.64293242,
+      "epoch": 0.545662100456621,
+      "grad_norm": 5.21875,
+      "learning_rate": 8.702814021878057e-06,
+      "loss": 1.65087471,
+      "memory(GiB)": 111.15,
+      "step": 21510,
+      "train_speed(iter/s)": 0.448412
+    },
+    {
+      "acc": 0.64187841,
+      "epoch": 0.5457889396245561,
+      "grad_norm": 5.15625,
+      "learning_rate": 8.702109278809985e-06,
+      "loss": 1.69321899,
+      "memory(GiB)": 111.15,
+      "step": 21515,
+      "train_speed(iter/s)": 0.448467
+    },
+    {
+      "acc": 0.65694437,
+      "epoch": 0.5459157787924911,
+      "grad_norm": 4.5625,
+      "learning_rate": 8.70140437290662e-06,
+      "loss": 1.62741871,
+      "memory(GiB)": 111.15,
+      "step": 21520,
+      "train_speed(iter/s)": 0.448522
+    },
+    {
+      "acc": 0.64183903,
+      "epoch": 0.5460426179604262,
+      "grad_norm": 5.0,
+      "learning_rate": 8.700699304198963e-06,
+      "loss": 1.71159515,
+      "memory(GiB)": 111.15,
+      "step": 21525,
+      "train_speed(iter/s)": 0.448577
+    },
+    {
+      "acc": 0.64283943,
+      "epoch": 0.5461694571283613,
+      "grad_norm": 5.0,
+      "learning_rate": 8.699994072718026e-06,
+      "loss": 1.6746933,
+      "memory(GiB)": 111.15,
+      "step": 21530,
+      "train_speed(iter/s)": 0.448632
+    },
+    {
+      "acc": 0.65460281,
+      "epoch": 0.5462962962962963,
+      "grad_norm": 5.6875,
+      "learning_rate": 8.699288678494833e-06,
+      "loss": 1.58495493,
+      "memory(GiB)": 111.15,
+      "step": 21535,
+      "train_speed(iter/s)": 0.448687
+    },
+    {
+      "acc": 0.63359537,
+      "epoch": 0.5464231354642314,
+      "grad_norm": 4.9375,
+      "learning_rate": 8.698583121560407e-06,
+      "loss": 1.71243229,
+      "memory(GiB)": 111.15,
+      "step": 21540,
+      "train_speed(iter/s)": 0.448742
+    },
+    {
+      "acc": 0.64332933,
+      "epoch": 0.5465499746321664,
+      "grad_norm": 5.375,
+      "learning_rate": 8.697877401945784e-06,
+      "loss": 1.65145378,
+      "memory(GiB)": 111.15,
+      "step": 21545,
+      "train_speed(iter/s)": 0.448797
+    },
+    {
+      "acc": 0.65854306,
+      "epoch": 0.5466768138001015,
+      "grad_norm": 5.15625,
+      "learning_rate": 8.697171519682002e-06,
+      "loss": 1.58043222,
+      "memory(GiB)": 111.15,
+      "step": 21550,
+      "train_speed(iter/s)": 0.448853
+    },
+    {
+      "acc": 0.65405903,
+      "epoch": 0.5468036529680366,
+      "grad_norm": 4.65625,
+      "learning_rate": 8.696465474800109e-06,
+      "loss": 1.60827484,
+      "memory(GiB)": 111.15,
+      "step": 21555,
+      "train_speed(iter/s)": 0.448907
+    },
+    {
+      "acc": 0.65037785,
+      "epoch": 0.5469304921359716,
+      "grad_norm": 5.1875,
+      "learning_rate": 8.695759267331162e-06,
+      "loss": 1.67558422,
+      "memory(GiB)": 111.15,
+      "step": 21560,
+      "train_speed(iter/s)": 0.448963
+    },
+    {
+      "acc": 0.64573255,
+      "epoch": 0.5470573313039067,
+      "grad_norm": 4.5625,
+      "learning_rate": 8.69505289730622e-06,
+      "loss": 1.65096264,
+      "memory(GiB)": 111.15,
+      "step": 21565,
+      "train_speed(iter/s)": 0.449018
+    },
+    {
+      "acc": 0.66038427,
+      "epoch": 0.5471841704718418,
+      "grad_norm": 5.90625,
+      "learning_rate": 8.694346364756356e-06,
+      "loss": 1.60301628,
+      "memory(GiB)": 111.15,
+      "step": 21570,
+      "train_speed(iter/s)": 0.449073
+    },
+    {
+      "acc": 0.64575472,
+      "epoch": 0.5473110096397767,
+      "grad_norm": 4.78125,
+      "learning_rate": 8.693639669712645e-06,
+      "loss": 1.65813103,
+      "memory(GiB)": 111.15,
+      "step": 21575,
+      "train_speed(iter/s)": 0.449127
+    },
+    {
+      "acc": 0.65283532,
+      "epoch": 0.5474378488077118,
+      "grad_norm": 6.0625,
+      "learning_rate": 8.692932812206171e-06,
+      "loss": 1.60422668,
+      "memory(GiB)": 111.15,
+      "step": 21580,
+      "train_speed(iter/s)": 0.449183
+    },
+    {
+      "acc": 0.64126329,
+      "epoch": 0.5475646879756468,
+      "grad_norm": 4.96875,
+      "learning_rate": 8.692225792268023e-06,
+      "loss": 1.63855457,
+      "memory(GiB)": 111.15,
+      "step": 21585,
+      "train_speed(iter/s)": 0.449238
+    },
+    {
+      "acc": 0.6487524,
+      "epoch": 0.5476915271435819,
+      "grad_norm": 5.71875,
+      "learning_rate": 8.691518609929302e-06,
+      "loss": 1.66655159,
+      "memory(GiB)": 111.15,
+      "step": 21590,
+      "train_speed(iter/s)": 0.449293
+    },
+    {
+      "acc": 0.64873476,
+      "epoch": 0.547818366311517,
+      "grad_norm": 4.78125,
+      "learning_rate": 8.690811265221108e-06,
+      "loss": 1.63797951,
+      "memory(GiB)": 111.15,
+      "step": 21595,
+      "train_speed(iter/s)": 0.449348
+    },
+    {
+      "acc": 0.66307068,
+      "epoch": 0.547945205479452,
+      "grad_norm": 5.40625,
+      "learning_rate": 8.690103758174558e-06,
+      "loss": 1.6313242,
+      "memory(GiB)": 111.15,
+      "step": 21600,
+      "train_speed(iter/s)": 0.449403
+    },
+    {
+      "epoch": 0.547945205479452,
+      "eval_acc": 0.6415247337046728,
+      "eval_loss": 1.6186153888702393,
+      "eval_runtime": 112.6072,
+      "eval_samples_per_second": 56.568,
+      "eval_steps_per_second": 28.284,
+      "step": 21600
+    },
+    {
+      "acc": 0.62818432,
+      "epoch": 0.5480720446473871,
+      "grad_norm": 5.875,
+      "learning_rate": 8.68939608882077e-06,
+      "loss": 1.66409111,
+      "memory(GiB)": 111.15,
+      "step": 21605,
+      "train_speed(iter/s)": 0.448365
+    },
+    {
+      "acc": 0.63791056,
+      "epoch": 0.5481988838153222,
+      "grad_norm": 6.0,
+      "learning_rate": 8.688688257190869e-06,
+      "loss": 1.66916542,
+      "memory(GiB)": 111.15,
+      "step": 21610,
+      "train_speed(iter/s)": 0.44842
+    },
+    {
+      "acc": 0.66799312,
+      "epoch": 0.5483257229832572,
+      "grad_norm": 5.90625,
+      "learning_rate": 8.68798026331599e-06,
+      "loss": 1.54684944,
+      "memory(GiB)": 111.15,
+      "step": 21615,
+      "train_speed(iter/s)": 0.448475
+    },
+    {
+      "acc": 0.64481955,
+      "epoch": 0.5484525621511923,
+      "grad_norm": 5.09375,
+      "learning_rate": 8.687272107227274e-06,
+      "loss": 1.68513298,
+      "memory(GiB)": 111.15,
+      "step": 21620,
+      "train_speed(iter/s)": 0.448529
+    },
+    {
+      "acc": 0.63986416,
+      "epoch": 0.5485794013191273,
+      "grad_norm": 4.3125,
+      "learning_rate": 8.686563788955867e-06,
+      "loss": 1.6848093,
+      "memory(GiB)": 111.15,
+      "step": 21625,
+      "train_speed(iter/s)": 0.448584
+    },
+    {
+      "acc": 0.65453272,
+      "epoch": 0.5487062404870624,
+      "grad_norm": 5.125,
+      "learning_rate": 8.685855308532926e-06,
+      "loss": 1.6016346,
+      "memory(GiB)": 111.15,
+      "step": 21630,
+      "train_speed(iter/s)": 0.448639
+    },
+    {
+      "acc": 0.65434923,
+      "epoch": 0.5488330796549975,
+      "grad_norm": 6.53125,
+      "learning_rate": 8.685146665989613e-06,
+      "loss": 1.63238029,
+      "memory(GiB)": 111.15,
+      "step": 21635,
+      "train_speed(iter/s)": 0.448694
+    },
+    {
+      "acc": 0.63961763,
+      "epoch": 0.5489599188229325,
+      "grad_norm": 5.5625,
+      "learning_rate": 8.684437861357095e-06,
+      "loss": 1.63574715,
+      "memory(GiB)": 111.15,
+      "step": 21640,
+      "train_speed(iter/s)": 0.448749
+    },
+    {
+      "acc": 0.64578218,
+      "epoch": 0.5490867579908676,
+      "grad_norm": 5.40625,
+      "learning_rate": 8.683728894666551e-06,
+      "loss": 1.59146423,
+      "memory(GiB)": 111.15,
+      "step": 21645,
+      "train_speed(iter/s)": 0.448803
+    },
+    {
+      "acc": 0.64896693,
+      "epoch": 0.5492135971588027,
+      "grad_norm": 5.4375,
+      "learning_rate": 8.683019765949163e-06,
+      "loss": 1.64683819,
+      "memory(GiB)": 111.15,
+      "step": 21650,
+      "train_speed(iter/s)": 0.448858
+    },
+    {
+      "acc": 0.63846321,
+      "epoch": 0.5493404363267377,
+      "grad_norm": 5.4375,
+      "learning_rate": 8.682310475236123e-06,
+      "loss": 1.6304924,
+      "memory(GiB)": 111.15,
+      "step": 21655,
+      "train_speed(iter/s)": 0.448913
+    },
+    {
+      "acc": 0.64225903,
+      "epoch": 0.5494672754946728,
+      "grad_norm": 5.65625,
+      "learning_rate": 8.681601022558628e-06,
+      "loss": 1.6579977,
+      "memory(GiB)": 111.15,
+      "step": 21660,
+      "train_speed(iter/s)": 0.448967
+    },
+    {
+      "acc": 0.64812336,
+      "epoch": 0.5495941146626078,
+      "grad_norm": 5.0625,
+      "learning_rate": 8.680891407947882e-06,
+      "loss": 1.61439323,
+      "memory(GiB)": 111.15,
+      "step": 21665,
+      "train_speed(iter/s)": 0.449022
+    },
+    {
+      "acc": 0.64019709,
+      "epoch": 0.5497209538305429,
+      "grad_norm": 5.21875,
+      "learning_rate": 8.680181631435098e-06,
+      "loss": 1.73579063,
+      "memory(GiB)": 111.15,
+      "step": 21670,
+      "train_speed(iter/s)": 0.449077
+    },
+    {
+      "acc": 0.65300231,
+      "epoch": 0.549847792998478,
+      "grad_norm": 6.46875,
+      "learning_rate": 8.679471693051495e-06,
+      "loss": 1.62649555,
+      "memory(GiB)": 111.15,
+      "step": 21675,
+      "train_speed(iter/s)": 0.449131
+    },
+    {
+      "acc": 0.65462399,
+      "epoch": 0.549974632166413,
+      "grad_norm": 4.8125,
+      "learning_rate": 8.678761592828301e-06,
+      "loss": 1.61235466,
+      "memory(GiB)": 111.15,
+      "step": 21680,
+      "train_speed(iter/s)": 0.449186
+    },
+    {
+      "acc": 0.65373678,
+      "epoch": 0.5501014713343481,
+      "grad_norm": 5.0625,
+      "learning_rate": 8.678051330796746e-06,
+      "loss": 1.59236908,
+      "memory(GiB)": 111.15,
+      "step": 21685,
+      "train_speed(iter/s)": 0.44924
+    },
+    {
+      "acc": 0.63811288,
+      "epoch": 0.5502283105022832,
+      "grad_norm": 5.34375,
+      "learning_rate": 8.677340906988072e-06,
+      "loss": 1.64484406,
+      "memory(GiB)": 111.15,
+      "step": 21690,
+      "train_speed(iter/s)": 0.449295
+    },
+    {
+      "acc": 0.64998856,
+      "epoch": 0.5503551496702181,
+      "grad_norm": 5.5625,
+      "learning_rate": 8.676630321433528e-06,
+      "loss": 1.6078846,
+      "memory(GiB)": 111.15,
+      "step": 21695,
+      "train_speed(iter/s)": 0.449349
+    },
+    {
+      "acc": 0.6526998,
+      "epoch": 0.5504819888381532,
+      "grad_norm": 5.1875,
+      "learning_rate": 8.675919574164366e-06,
+      "loss": 1.63919621,
+      "memory(GiB)": 111.15,
+      "step": 21700,
+      "train_speed(iter/s)": 0.449403
+    },
+    {
+      "epoch": 0.5504819888381532,
+      "eval_acc": 0.6414553843313029,
+      "eval_loss": 1.6181838512420654,
+      "eval_runtime": 113.2487,
+      "eval_samples_per_second": 56.248,
+      "eval_steps_per_second": 28.124,
+      "step": 21700
+    },
+    {
+      "acc": 0.64598684,
+      "epoch": 0.5506088280060882,
+      "grad_norm": 4.53125,
+      "learning_rate": 8.675208665211851e-06,
+      "loss": 1.650103,
+      "memory(GiB)": 111.15,
+      "step": 21705,
+      "train_speed(iter/s)": 0.448363
+    },
+    {
+      "acc": 0.64461842,
+      "epoch": 0.5507356671740233,
+      "grad_norm": 6.59375,
+      "learning_rate": 8.674497594607249e-06,
+      "loss": 1.63999214,
+      "memory(GiB)": 111.15,
+      "step": 21710,
+      "train_speed(iter/s)": 0.448418
+    },
+    {
+      "acc": 0.64075575,
+      "epoch": 0.5508625063419584,
+      "grad_norm": 6.25,
+      "learning_rate": 8.673786362381837e-06,
+      "loss": 1.6681221,
+      "memory(GiB)": 111.15,
+      "step": 21715,
+      "train_speed(iter/s)": 0.448472
+    },
+    {
+      "acc": 0.64351091,
+      "epoch": 0.5509893455098934,
+      "grad_norm": 4.53125,
+      "learning_rate": 8.673074968566899e-06,
+      "loss": 1.59686279,
+      "memory(GiB)": 111.15,
+      "step": 21720,
+      "train_speed(iter/s)": 0.448526
+    },
+    {
+      "acc": 0.6282083,
+      "epoch": 0.5511161846778285,
+      "grad_norm": 5.78125,
+      "learning_rate": 8.672363413193724e-06,
+      "loss": 1.71565056,
+      "memory(GiB)": 111.15,
+      "step": 21725,
+      "train_speed(iter/s)": 0.44858
+    },
+    {
+      "acc": 0.65201092,
+      "epoch": 0.5512430238457636,
+      "grad_norm": 4.28125,
+      "learning_rate": 8.671651696293613e-06,
+      "loss": 1.60431442,
+      "memory(GiB)": 111.15,
+      "step": 21730,
+      "train_speed(iter/s)": 0.448635
+    },
+    {
+      "acc": 0.64553738,
+      "epoch": 0.5513698630136986,
+      "grad_norm": 5.59375,
+      "learning_rate": 8.670939817897865e-06,
+      "loss": 1.69724274,
+      "memory(GiB)": 111.15,
+      "step": 21735,
+      "train_speed(iter/s)": 0.44869
+    },
+    {
+      "acc": 0.63552837,
+      "epoch": 0.5514967021816337,
+      "grad_norm": 4.40625,
+      "learning_rate": 8.670227778037796e-06,
+      "loss": 1.67347488,
+      "memory(GiB)": 111.15,
+      "step": 21740,
+      "train_speed(iter/s)": 0.448744
+    },
+    {
+      "acc": 0.65271053,
+      "epoch": 0.5516235413495687,
+      "grad_norm": 5.75,
+      "learning_rate": 8.669515576744722e-06,
+      "loss": 1.63084335,
+      "memory(GiB)": 111.15,
+      "step": 21745,
+      "train_speed(iter/s)": 0.448798
+    },
+    {
+      "acc": 0.64041672,
+      "epoch": 0.5517503805175038,
+      "grad_norm": 5.5625,
+      "learning_rate": 8.66880321404997e-06,
+      "loss": 1.66839828,
+      "memory(GiB)": 111.15,
+      "step": 21750,
+      "train_speed(iter/s)": 0.448853
+    },
+    {
+      "acc": 0.66144991,
+      "epoch": 0.5518772196854389,
+      "grad_norm": 6.625,
+      "learning_rate": 8.668090689984872e-06,
+      "loss": 1.61604652,
+      "memory(GiB)": 111.15,
+      "step": 21755,
+      "train_speed(iter/s)": 0.448907
+    },
+    {
+      "acc": 0.64550562,
+      "epoch": 0.5520040588533739,
+      "grad_norm": 5.625,
+      "learning_rate": 8.667378004580769e-06,
+      "loss": 1.59961491,
+      "memory(GiB)": 111.15,
+      "step": 21760,
+      "train_speed(iter/s)": 0.448962
+    },
+    {
+      "acc": 0.65925922,
+      "epoch": 0.552130898021309,
+      "grad_norm": 5.09375,
+      "learning_rate": 8.666665157869007e-06,
+      "loss": 1.59329557,
+      "memory(GiB)": 111.15,
+      "step": 21765,
+      "train_speed(iter/s)": 0.449017
+    },
+    {
+      "acc": 0.64432983,
+      "epoch": 0.5522577371892441,
+      "grad_norm": 5.09375,
+      "learning_rate": 8.665952149880942e-06,
+      "loss": 1.63972282,
+      "memory(GiB)": 111.15,
+      "step": 21770,
+      "train_speed(iter/s)": 0.449071
+    },
+    {
+      "acc": 0.66100316,
+      "epoch": 0.5523845763571791,
+      "grad_norm": 5.28125,
+      "learning_rate": 8.665238980647934e-06,
+      "loss": 1.55054169,
+      "memory(GiB)": 111.15,
+      "step": 21775,
+      "train_speed(iter/s)": 0.449125
+    },
+    {
+      "acc": 0.64277029,
+      "epoch": 0.5525114155251142,
+      "grad_norm": 5.6875,
+      "learning_rate": 8.66452565020135e-06,
+      "loss": 1.65826988,
+      "memory(GiB)": 111.15,
+      "step": 21780,
+      "train_speed(iter/s)": 0.44918
+    },
+    {
+      "acc": 0.6481616,
+      "epoch": 0.5526382546930492,
+      "grad_norm": 5.875,
+      "learning_rate": 8.663812158572568e-06,
+      "loss": 1.66529732,
+      "memory(GiB)": 111.15,
+      "step": 21785,
+      "train_speed(iter/s)": 0.449234
+    },
+    {
+      "acc": 0.6515821,
+      "epoch": 0.5527650938609843,
+      "grad_norm": 6.71875,
+      "learning_rate": 8.663098505792971e-06,
+      "loss": 1.63503036,
+      "memory(GiB)": 111.15,
+      "step": 21790,
+      "train_speed(iter/s)": 0.449289
+    },
+    {
+      "acc": 0.63934832,
+      "epoch": 0.5528919330289194,
+      "grad_norm": 4.8125,
+      "learning_rate": 8.662384691893947e-06,
+      "loss": 1.59750223,
+      "memory(GiB)": 111.15,
+      "step": 21795,
+      "train_speed(iter/s)": 0.449343
+    },
+    {
+      "acc": 0.65262384,
+      "epoch": 0.5530187721968544,
+      "grad_norm": 4.96875,
+      "learning_rate": 8.661670716906889e-06,
+      "loss": 1.55680695,
+      "memory(GiB)": 111.15,
+      "step": 21800,
+      "train_speed(iter/s)": 0.449398
+    },
+    {
+      "epoch": 0.5530187721968544,
+      "eval_acc": 0.6415147072892458,
+      "eval_loss": 1.617859125137329,
+      "eval_runtime": 112.4774,
+      "eval_samples_per_second": 56.634,
+      "eval_steps_per_second": 28.317,
+      "step": 21800
+    },
+    {
+      "acc": 0.65217867,
+      "epoch": 0.5531456113647895,
+      "grad_norm": 5.03125,
+      "learning_rate": 8.66095658086321e-06,
+      "loss": 1.69379807,
+      "memory(GiB)": 111.15,
+      "step": 21805,
+      "train_speed(iter/s)": 0.448371
+    },
+    {
+      "acc": 0.64295325,
+      "epoch": 0.5532724505327246,
+      "grad_norm": 4.75,
+      "learning_rate": 8.660242283794312e-06,
+      "loss": 1.61960831,
+      "memory(GiB)": 111.15,
+      "step": 21810,
+      "train_speed(iter/s)": 0.448424
+    },
+    {
+      "acc": 0.64025841,
+      "epoch": 0.5533992897006595,
+      "grad_norm": 5.4375,
+      "learning_rate": 8.659527825731617e-06,
+      "loss": 1.67250557,
+      "memory(GiB)": 111.15,
+      "step": 21815,
+      "train_speed(iter/s)": 0.448478
+    },
+    {
+      "acc": 0.64501858,
+      "epoch": 0.5535261288685946,
+      "grad_norm": 6.0,
+      "learning_rate": 8.65881320670655e-06,
+      "loss": 1.6179039,
+      "memory(GiB)": 111.15,
+      "step": 21820,
+      "train_speed(iter/s)": 0.448532
+    },
+    {
+      "acc": 0.65232639,
+      "epoch": 0.5536529680365296,
+      "grad_norm": 5.34375,
+      "learning_rate": 8.658098426750543e-06,
+      "loss": 1.65876198,
+      "memory(GiB)": 111.15,
+      "step": 21825,
+      "train_speed(iter/s)": 0.448586
+    },
+    {
+      "acc": 0.63486843,
+      "epoch": 0.5537798072044647,
+      "grad_norm": 4.84375,
+      "learning_rate": 8.657383485895034e-06,
+      "loss": 1.68514462,
+      "memory(GiB)": 111.15,
+      "step": 21830,
+      "train_speed(iter/s)": 0.44864
+    },
+    {
+      "acc": 0.66327477,
+      "epoch": 0.5539066463723998,
+      "grad_norm": 5.5625,
+      "learning_rate": 8.656668384171472e-06,
+      "loss": 1.65839043,
+      "memory(GiB)": 111.15,
+      "step": 21835,
+      "train_speed(iter/s)": 0.448693
+    },
+    {
+      "acc": 0.6686954,
+      "epoch": 0.5540334855403348,
+      "grad_norm": 6.78125,
+      "learning_rate": 8.655953121611307e-06,
+      "loss": 1.61207428,
+      "memory(GiB)": 111.15,
+      "step": 21840,
+      "train_speed(iter/s)": 0.448748
+    },
+    {
+      "acc": 0.64476252,
+      "epoch": 0.5541603247082699,
+      "grad_norm": 4.90625,
+      "learning_rate": 8.655237698246002e-06,
+      "loss": 1.62890472,
+      "memory(GiB)": 111.15,
+      "step": 21845,
+      "train_speed(iter/s)": 0.448801
+    },
+    {
+      "acc": 0.65166183,
+      "epoch": 0.554287163876205,
+      "grad_norm": 5.375,
+      "learning_rate": 8.654522114107024e-06,
+      "loss": 1.60706635,
+      "memory(GiB)": 111.15,
+      "step": 21850,
+      "train_speed(iter/s)": 0.448855
+    },
+    {
+      "acc": 0.65330381,
+      "epoch": 0.55441400304414,
+      "grad_norm": 5.1875,
+      "learning_rate": 8.653806369225846e-06,
+      "loss": 1.63259983,
+      "memory(GiB)": 111.15,
+      "step": 21855,
+      "train_speed(iter/s)": 0.448909
+    },
+    {
+      "acc": 0.64125605,
+      "epoch": 0.5545408422120751,
+      "grad_norm": 5.125,
+      "learning_rate": 8.65309046363395e-06,
+      "loss": 1.61428738,
+      "memory(GiB)": 111.15,
+      "step": 21860,
+      "train_speed(iter/s)": 0.448963
+    },
+    {
+      "acc": 0.64313545,
+      "epoch": 0.5546676813800101,
+      "grad_norm": 5.28125,
+      "learning_rate": 8.652374397362828e-06,
+      "loss": 1.6119875,
+      "memory(GiB)": 111.15,
+      "step": 21865,
+      "train_speed(iter/s)": 0.449016
+    },
+    {
+      "acc": 0.65544415,
+      "epoch": 0.5547945205479452,
+      "grad_norm": 4.625,
+      "learning_rate": 8.651658170443972e-06,
+      "loss": 1.53138046,
+      "memory(GiB)": 111.15,
+      "step": 21870,
+      "train_speed(iter/s)": 0.44907
+    },
+    {
+      "acc": 0.65568943,
+      "epoch": 0.5549213597158803,
+      "grad_norm": 5.25,
+      "learning_rate": 8.650941782908886e-06,
+      "loss": 1.60263939,
+      "memory(GiB)": 111.15,
+      "step": 21875,
+      "train_speed(iter/s)": 0.449124
+    },
+    {
+      "acc": 0.65980635,
+      "epoch": 0.5550481988838153,
+      "grad_norm": 4.25,
+      "learning_rate": 8.65022523478908e-06,
+      "loss": 1.58667479,
+      "memory(GiB)": 111.15,
+      "step": 21880,
+      "train_speed(iter/s)": 0.449178
+    },
+    {
+      "acc": 0.65078554,
+      "epoch": 0.5551750380517504,
+      "grad_norm": 5.0625,
+      "learning_rate": 8.649508526116073e-06,
+      "loss": 1.60160217,
+      "memory(GiB)": 111.15,
+      "step": 21885,
+      "train_speed(iter/s)": 0.449232
+    },
+    {
+      "acc": 0.64540858,
+      "epoch": 0.5553018772196855,
+      "grad_norm": 5.5,
+      "learning_rate": 8.648791656921384e-06,
+      "loss": 1.59335032,
+      "memory(GiB)": 111.15,
+      "step": 21890,
+      "train_speed(iter/s)": 0.449286
+    },
+    {
+      "acc": 0.65057983,
+      "epoch": 0.5554287163876205,
+      "grad_norm": 4.6875,
+      "learning_rate": 8.648074627236549e-06,
+      "loss": 1.62528992,
+      "memory(GiB)": 111.15,
+      "step": 21895,
+      "train_speed(iter/s)": 0.44934
+    },
+    {
+      "acc": 0.64766092,
+      "epoch": 0.5555555555555556,
+      "grad_norm": 6.9375,
+      "learning_rate": 8.647357437093104e-06,
+      "loss": 1.62623539,
+      "memory(GiB)": 111.15,
+      "step": 21900,
+      "train_speed(iter/s)": 0.449393
+    },
+    {
+      "epoch": 0.5555555555555556,
+      "eval_acc": 0.6415218093335066,
+      "eval_loss": 1.6180626153945923,
+      "eval_runtime": 114.0246,
+      "eval_samples_per_second": 55.865,
+      "eval_steps_per_second": 27.933,
+      "step": 21900
+    },
+    {
+      "acc": 0.65119672,
+      "epoch": 0.5556823947234906,
+      "grad_norm": 4.96875,
+      "learning_rate": 8.646640086522595e-06,
+      "loss": 1.65577888,
+      "memory(GiB)": 111.15,
+      "step": 21905,
+      "train_speed(iter/s)": 0.448357
+    },
+    {
+      "acc": 0.64759688,
+      "epoch": 0.5558092338914257,
+      "grad_norm": 5.71875,
+      "learning_rate": 8.645922575556575e-06,
+      "loss": 1.70955887,
+      "memory(GiB)": 111.15,
+      "step": 21910,
+      "train_speed(iter/s)": 0.448411
+    },
+    {
+      "acc": 0.64674435,
+      "epoch": 0.5559360730593608,
+      "grad_norm": 4.8125,
+      "learning_rate": 8.645204904226601e-06,
+      "loss": 1.64823723,
+      "memory(GiB)": 111.15,
+      "step": 21915,
+      "train_speed(iter/s)": 0.448465
+    },
+    {
+      "acc": 0.65998111,
+      "epoch": 0.5560629122272958,
+      "grad_norm": 6.40625,
+      "learning_rate": 8.64448707256424e-06,
+      "loss": 1.5726203,
+      "memory(GiB)": 111.15,
+      "step": 21920,
+      "train_speed(iter/s)": 0.448519
+    },
+    {
+      "acc": 0.65379362,
+      "epoch": 0.5561897513952309,
+      "grad_norm": 4.53125,
+      "learning_rate": 8.643769080601067e-06,
+      "loss": 1.58335419,
+      "memory(GiB)": 111.15,
+      "step": 21925,
+      "train_speed(iter/s)": 0.448573
+    },
+    {
+      "acc": 0.66494131,
+      "epoch": 0.556316590563166,
+      "grad_norm": 5.78125,
+      "learning_rate": 8.643050928368661e-06,
+      "loss": 1.56656313,
+      "memory(GiB)": 111.15,
+      "step": 21930,
+      "train_speed(iter/s)": 0.448627
+    },
+    {
+      "acc": 0.66048045,
+      "epoch": 0.556443429731101,
+      "grad_norm": 5.75,
+      "learning_rate": 8.642332615898611e-06,
+      "loss": 1.61121655,
+      "memory(GiB)": 111.15,
+      "step": 21935,
+      "train_speed(iter/s)": 0.448681
+    },
+    {
+      "acc": 0.65159473,
+      "epoch": 0.556570268899036,
+      "grad_norm": 5.28125,
+      "learning_rate": 8.64161414322251e-06,
+      "loss": 1.57150555,
+      "memory(GiB)": 111.15,
+      "step": 21940,
+      "train_speed(iter/s)": 0.448735
+    },
+    {
+      "acc": 0.66407423,
+      "epoch": 0.556697108066971,
+      "grad_norm": 5.40625,
+      "learning_rate": 8.64089551037196e-06,
+      "loss": 1.59064198,
+      "memory(GiB)": 111.15,
+      "step": 21945,
+      "train_speed(iter/s)": 0.448789
+    },
+    {
+      "acc": 0.65001612,
+      "epoch": 0.5568239472349061,
+      "grad_norm": 4.65625,
+      "learning_rate": 8.640176717378573e-06,
+      "loss": 1.62269287,
+      "memory(GiB)": 111.15,
+      "step": 21950,
+      "train_speed(iter/s)": 0.448843
+    },
+    {
+      "acc": 0.65759926,
+      "epoch": 0.5569507864028412,
+      "grad_norm": 5.90625,
+      "learning_rate": 8.639457764273957e-06,
+      "loss": 1.65928764,
+      "memory(GiB)": 111.15,
+      "step": 21955,
+      "train_speed(iter/s)": 0.448897
+    },
+    {
+      "acc": 0.6348681,
+      "epoch": 0.5570776255707762,
+      "grad_norm": 5.4375,
+      "learning_rate": 8.638738651089744e-06,
+      "loss": 1.65712051,
+      "memory(GiB)": 111.15,
+      "step": 21960,
+      "train_speed(iter/s)": 0.448951
+    },
+    {
+      "acc": 0.63771477,
+      "epoch": 0.5572044647387113,
+      "grad_norm": 5.4375,
+      "learning_rate": 8.638019377857555e-06,
+      "loss": 1.66657715,
+      "memory(GiB)": 111.15,
+      "step": 21965,
+      "train_speed(iter/s)": 0.449006
+    },
+    {
+      "acc": 0.6475069,
+      "epoch": 0.5573313039066464,
+      "grad_norm": 6.53125,
+      "learning_rate": 8.637299944609034e-06,
+      "loss": 1.69087906,
+      "memory(GiB)": 111.15,
+      "step": 21970,
+      "train_speed(iter/s)": 0.44906
+    },
+    {
+      "acc": 0.65433645,
+      "epoch": 0.5574581430745814,
+      "grad_norm": 6.46875,
+      "learning_rate": 8.636580351375821e-06,
+      "loss": 1.64633293,
+      "memory(GiB)": 111.15,
+      "step": 21975,
+      "train_speed(iter/s)": 0.449114
+    },
+    {
+      "acc": 0.63579054,
+      "epoch": 0.5575849822425165,
+      "grad_norm": 6.28125,
+      "learning_rate": 8.635860598189569e-06,
+      "loss": 1.7326685,
+      "memory(GiB)": 111.15,
+      "step": 21980,
+      "train_speed(iter/s)": 0.449169
+    },
+    {
+      "acc": 0.63710442,
+      "epoch": 0.5577118214104515,
+      "grad_norm": 4.5625,
+      "learning_rate": 8.635140685081936e-06,
+      "loss": 1.69505692,
+      "memory(GiB)": 111.15,
+      "step": 21985,
+      "train_speed(iter/s)": 0.449223
+    },
+    {
+      "acc": 0.65159044,
+      "epoch": 0.5578386605783866,
+      "grad_norm": 5.8125,
+      "learning_rate": 8.634420612084583e-06,
+      "loss": 1.62598457,
+      "memory(GiB)": 111.15,
+      "step": 21990,
+      "train_speed(iter/s)": 0.449278
+    },
+    {
+      "acc": 0.6497632,
+      "epoch": 0.5579654997463217,
+      "grad_norm": 5.125,
+      "learning_rate": 8.633700379229187e-06,
+      "loss": 1.65549564,
+      "memory(GiB)": 111.15,
+      "step": 21995,
+      "train_speed(iter/s)": 0.449332
+    },
+    {
+      "acc": 0.64530687,
+      "epoch": 0.5580923389142567,
+      "grad_norm": 5.71875,
+      "learning_rate": 8.632979986547423e-06,
+      "loss": 1.69569473,
+      "memory(GiB)": 111.15,
+      "step": 22000,
+      "train_speed(iter/s)": 0.449386
+    },
+    {
+      "epoch": 0.5580923389142567,
+      "eval_acc": 0.6415071874776755,
+      "eval_loss": 1.6175004243850708,
+      "eval_runtime": 112.5564,
+      "eval_samples_per_second": 56.594,
+      "eval_steps_per_second": 28.297,
+      "step": 22000
+    },
+    {
+      "acc": 0.6449892,
+      "epoch": 0.5582191780821918,
+      "grad_norm": 4.9375,
+      "learning_rate": 8.632259434070982e-06,
+      "loss": 1.65703793,
+      "memory(GiB)": 111.15,
+      "step": 22005,
+      "train_speed(iter/s)": 0.448368
+    },
+    {
+      "acc": 0.66050978,
+      "epoch": 0.5583460172501269,
+      "grad_norm": 5.25,
+      "learning_rate": 8.631538721831551e-06,
+      "loss": 1.62177315,
+      "memory(GiB)": 111.15,
+      "step": 22010,
+      "train_speed(iter/s)": 0.448421
+    },
+    {
+      "acc": 0.64068317,
+      "epoch": 0.5584728564180619,
+      "grad_norm": 4.6875,
+      "learning_rate": 8.630817849860835e-06,
+      "loss": 1.72173977,
+      "memory(GiB)": 111.15,
+      "step": 22015,
+      "train_speed(iter/s)": 0.448475
+    },
+    {
+      "acc": 0.64966583,
+      "epoch": 0.558599695585997,
+      "grad_norm": 6.125,
+      "learning_rate": 8.63009681819054e-06,
+      "loss": 1.5987977,
+      "memory(GiB)": 111.15,
+      "step": 22020,
+      "train_speed(iter/s)": 0.448529
+    },
+    {
+      "acc": 0.63976583,
+      "epoch": 0.558726534753932,
+      "grad_norm": 5.25,
+      "learning_rate": 8.629375626852378e-06,
+      "loss": 1.61269588,
+      "memory(GiB)": 111.15,
+      "step": 22025,
+      "train_speed(iter/s)": 0.448583
+    },
+    {
+      "acc": 0.64208803,
+      "epoch": 0.5588533739218671,
+      "grad_norm": 4.40625,
+      "learning_rate": 8.628654275878074e-06,
+      "loss": 1.65279236,
+      "memory(GiB)": 111.15,
+      "step": 22030,
+      "train_speed(iter/s)": 0.448636
+    },
+    {
+      "acc": 0.65324855,
+      "epoch": 0.5589802130898022,
+      "grad_norm": 4.75,
+      "learning_rate": 8.627932765299353e-06,
+      "loss": 1.61902008,
+      "memory(GiB)": 111.15,
+      "step": 22035,
+      "train_speed(iter/s)": 0.44869
+    },
+    {
+      "acc": 0.65356035,
+      "epoch": 0.5591070522577372,
+      "grad_norm": 5.15625,
+      "learning_rate": 8.627211095147952e-06,
+      "loss": 1.57886372,
+      "memory(GiB)": 111.15,
+      "step": 22040,
+      "train_speed(iter/s)": 0.448744
+    },
+    {
+      "acc": 0.6650207,
+      "epoch": 0.5592338914256723,
+      "grad_norm": 5.8125,
+      "learning_rate": 8.626489265455614e-06,
+      "loss": 1.70296974,
+      "memory(GiB)": 111.15,
+      "step": 22045,
+      "train_speed(iter/s)": 0.448797
+    },
+    {
+      "acc": 0.64016476,
+      "epoch": 0.5593607305936074,
+      "grad_norm": 5.28125,
+      "learning_rate": 8.625767276254084e-06,
+      "loss": 1.68468399,
+      "memory(GiB)": 111.15,
+      "step": 22050,
+      "train_speed(iter/s)": 0.44885
+    },
+    {
+      "acc": 0.64022017,
+      "epoch": 0.5594875697615423,
+      "grad_norm": 5.21875,
+      "learning_rate": 8.625045127575123e-06,
+      "loss": 1.69359055,
+      "memory(GiB)": 111.15,
+      "step": 22055,
+      "train_speed(iter/s)": 0.448903
+    },
+    {
+      "acc": 0.65500741,
+      "epoch": 0.5596144089294774,
+      "grad_norm": 8.3125,
+      "learning_rate": 8.624322819450493e-06,
+      "loss": 1.68929501,
+      "memory(GiB)": 111.15,
+      "step": 22060,
+      "train_speed(iter/s)": 0.448957
+    },
+    {
+      "acc": 0.65873671,
+      "epoch": 0.5597412480974124,
+      "grad_norm": 6.4375,
+      "learning_rate": 8.623600351911962e-06,
+      "loss": 1.56352463,
+      "memory(GiB)": 111.15,
+      "step": 22065,
+      "train_speed(iter/s)": 0.44901
+    },
+    {
+      "acc": 0.65598564,
+      "epoch": 0.5598680872653475,
+      "grad_norm": 4.875,
+      "learning_rate": 8.622877724991312e-06,
+      "loss": 1.64914055,
+      "memory(GiB)": 111.15,
+      "step": 22070,
+      "train_speed(iter/s)": 0.449063
+    },
+    {
+      "acc": 0.65805092,
+      "epoch": 0.5599949264332826,
+      "grad_norm": 4.78125,
+      "learning_rate": 8.622154938720323e-06,
+      "loss": 1.55282898,
+      "memory(GiB)": 111.15,
+      "step": 22075,
+      "train_speed(iter/s)": 0.449117
+    },
+    {
+      "acc": 0.64300566,
+      "epoch": 0.5601217656012176,
+      "grad_norm": 5.0625,
+      "learning_rate": 8.621431993130787e-06,
+      "loss": 1.64658241,
+      "memory(GiB)": 111.15,
+      "step": 22080,
+      "train_speed(iter/s)": 0.449171
+    },
+    {
+      "acc": 0.66366014,
+      "epoch": 0.5602486047691527,
+      "grad_norm": 4.65625,
+      "learning_rate": 8.620708888254506e-06,
+      "loss": 1.59407072,
+      "memory(GiB)": 111.15,
+      "step": 22085,
+      "train_speed(iter/s)": 0.449224
+    },
+    {
+      "acc": 0.64669399,
+      "epoch": 0.5603754439370878,
+      "grad_norm": 5.34375,
+      "learning_rate": 8.619985624123282e-06,
+      "loss": 1.58780365,
+      "memory(GiB)": 111.15,
+      "step": 22090,
+      "train_speed(iter/s)": 0.449278
+    },
+    {
+      "acc": 0.66421733,
+      "epoch": 0.5605022831050228,
+      "grad_norm": 4.65625,
+      "learning_rate": 8.619262200768928e-06,
+      "loss": 1.56993999,
+      "memory(GiB)": 111.15,
+      "step": 22095,
+      "train_speed(iter/s)": 0.449331
+    },
+    {
+      "acc": 0.66410046,
+      "epoch": 0.5606291222729579,
+      "grad_norm": 4.75,
+      "learning_rate": 8.618538618223262e-06,
+      "loss": 1.60599079,
+      "memory(GiB)": 111.15,
+      "step": 22100,
+      "train_speed(iter/s)": 0.449384
+    },
+    {
+      "epoch": 0.5606291222729579,
+      "eval_acc": 0.6416133003742778,
+      "eval_loss": 1.6177424192428589,
+      "eval_runtime": 113.3842,
+      "eval_samples_per_second": 56.181,
+      "eval_steps_per_second": 28.09,
+      "step": 22100
+    },
+    {
+      "acc": 0.66068826,
+      "epoch": 0.5607559614408929,
+      "grad_norm": 5.59375,
+      "learning_rate": 8.617814876518114e-06,
+      "loss": 1.5905159,
+      "memory(GiB)": 111.15,
+      "step": 22105,
+      "train_speed(iter/s)": 0.448362
+    },
+    {
+      "acc": 0.65260277,
+      "epoch": 0.560882800608828,
+      "grad_norm": 7.15625,
+      "learning_rate": 8.617090975685314e-06,
+      "loss": 1.67046165,
+      "memory(GiB)": 111.15,
+      "step": 22110,
+      "train_speed(iter/s)": 0.448415
+    },
+    {
+      "acc": 0.64956598,
+      "epoch": 0.5610096397767631,
+      "grad_norm": 5.4375,
+      "learning_rate": 8.616366915756704e-06,
+      "loss": 1.61902237,
+      "memory(GiB)": 111.15,
+      "step": 22115,
+      "train_speed(iter/s)": 0.448468
+    },
+    {
+      "acc": 0.64977179,
+      "epoch": 0.5611364789446981,
+      "grad_norm": 4.71875,
+      "learning_rate": 8.615642696764131e-06,
+      "loss": 1.64774284,
+      "memory(GiB)": 111.15,
+      "step": 22120,
+      "train_speed(iter/s)": 0.44852
+    },
+    {
+      "acc": 0.65350876,
+      "epoch": 0.5612633181126332,
+      "grad_norm": 4.9375,
+      "learning_rate": 8.614918318739452e-06,
+      "loss": 1.64072514,
+      "memory(GiB)": 111.15,
+      "step": 22125,
+      "train_speed(iter/s)": 0.448573
+    },
+    {
+      "acc": 0.65520549,
+      "epoch": 0.5613901572805683,
+      "grad_norm": 5.84375,
+      "learning_rate": 8.614193781714522e-06,
+      "loss": 1.64116211,
+      "memory(GiB)": 111.15,
+      "step": 22130,
+      "train_speed(iter/s)": 0.448625
+    },
+    {
+      "acc": 0.63991742,
+      "epoch": 0.5615169964485033,
+      "grad_norm": 5.03125,
+      "learning_rate": 8.613469085721215e-06,
+      "loss": 1.64511681,
+      "memory(GiB)": 111.15,
+      "step": 22135,
+      "train_speed(iter/s)": 0.448678
+    },
+    {
+      "acc": 0.6484818,
+      "epoch": 0.5616438356164384,
+      "grad_norm": 5.46875,
+      "learning_rate": 8.612744230791406e-06,
+      "loss": 1.67967453,
+      "memory(GiB)": 111.15,
+      "step": 22140,
+      "train_speed(iter/s)": 0.448732
+    },
+    {
+      "acc": 0.65529613,
+      "epoch": 0.5617706747843734,
+      "grad_norm": 5.84375,
+      "learning_rate": 8.612019216956975e-06,
+      "loss": 1.57116394,
+      "memory(GiB)": 111.15,
+      "step": 22145,
+      "train_speed(iter/s)": 0.448785
+    },
+    {
+      "acc": 0.64280081,
+      "epoch": 0.5618975139523085,
+      "grad_norm": 5.03125,
+      "learning_rate": 8.611294044249811e-06,
+      "loss": 1.62599049,
+      "memory(GiB)": 111.15,
+      "step": 22150,
+      "train_speed(iter/s)": 0.448837
+    },
+    {
+      "acc": 0.64896355,
+      "epoch": 0.5620243531202436,
+      "grad_norm": 5.4375,
+      "learning_rate": 8.610568712701814e-06,
+      "loss": 1.61730423,
+      "memory(GiB)": 111.15,
+      "step": 22155,
+      "train_speed(iter/s)": 0.44889
+    },
+    {
+      "acc": 0.64281354,
+      "epoch": 0.5621511922881786,
+      "grad_norm": 4.75,
+      "learning_rate": 8.609843222344883e-06,
+      "loss": 1.6481041,
+      "memory(GiB)": 111.15,
+      "step": 22160,
+      "train_speed(iter/s)": 0.448943
+    },
+    {
+      "acc": 0.65657406,
+      "epoch": 0.5622780314561137,
+      "grad_norm": 4.9375,
+      "learning_rate": 8.609117573210931e-06,
+      "loss": 1.52045975,
+      "memory(GiB)": 111.15,
+      "step": 22165,
+      "train_speed(iter/s)": 0.448997
+    },
+    {
+      "acc": 0.6487792,
+      "epoch": 0.5624048706240488,
+      "grad_norm": 5.21875,
+      "learning_rate": 8.608391765331875e-06,
+      "loss": 1.60518799,
+      "memory(GiB)": 111.15,
+      "step": 22170,
+      "train_speed(iter/s)": 0.449051
+    },
+    {
+      "acc": 0.65609574,
+      "epoch": 0.5625317097919837,
+      "grad_norm": 5.0,
+      "learning_rate": 8.607665798739638e-06,
+      "loss": 1.62755928,
+      "memory(GiB)": 111.15,
+      "step": 22175,
+      "train_speed(iter/s)": 0.449104
+    },
+    {
+      "acc": 0.65439491,
+      "epoch": 0.5626585489599188,
+      "grad_norm": 5.6875,
+      "learning_rate": 8.606939673466153e-06,
+      "loss": 1.61549797,
+      "memory(GiB)": 111.15,
+      "step": 22180,
+      "train_speed(iter/s)": 0.449158
+    },
+    {
+      "acc": 0.65275669,
+      "epoch": 0.5627853881278538,
+      "grad_norm": 6.0625,
+      "learning_rate": 8.606213389543356e-06,
+      "loss": 1.61544914,
+      "memory(GiB)": 111.15,
+      "step": 22185,
+      "train_speed(iter/s)": 0.44921
+    },
+    {
+      "acc": 0.64597597,
+      "epoch": 0.5629122272957889,
+      "grad_norm": 5.875,
+      "learning_rate": 8.605486947003194e-06,
+      "loss": 1.68403969,
+      "memory(GiB)": 111.15,
+      "step": 22190,
+      "train_speed(iter/s)": 0.449263
+    },
+    {
+      "acc": 0.63549681,
+      "epoch": 0.563039066463724,
+      "grad_norm": 4.6875,
+      "learning_rate": 8.60476034587762e-06,
+      "loss": 1.70922699,
+      "memory(GiB)": 111.15,
+      "step": 22195,
+      "train_speed(iter/s)": 0.449316
+    },
+    {
+      "acc": 0.65520959,
+      "epoch": 0.563165905631659,
+      "grad_norm": 5.0625,
+      "learning_rate": 8.604033586198592e-06,
+      "loss": 1.62609882,
+      "memory(GiB)": 111.15,
+      "step": 22200,
+      "train_speed(iter/s)": 0.449369
+    },
+    {
+      "epoch": 0.563165905631659,
+      "eval_acc": 0.6416575837090802,
+      "eval_loss": 1.6172444820404053,
+      "eval_runtime": 113.0106,
+      "eval_samples_per_second": 56.366,
+      "eval_steps_per_second": 28.183,
+      "step": 22200
+    },
+    {
+      "acc": 0.63160825,
+      "epoch": 0.5632927447995941,
+      "grad_norm": 5.59375,
+      "learning_rate": 8.603306667998074e-06,
+      "loss": 1.69084473,
+      "memory(GiB)": 111.15,
+      "step": 22205,
+      "train_speed(iter/s)": 0.448356
+    },
+    {
+      "acc": 0.64282274,
+      "epoch": 0.5634195839675292,
+      "grad_norm": 5.3125,
+      "learning_rate": 8.602579591308043e-06,
+      "loss": 1.66867104,
+      "memory(GiB)": 111.15,
+      "step": 22210,
+      "train_speed(iter/s)": 0.44841
+    },
+    {
+      "acc": 0.62530069,
+      "epoch": 0.5635464231354642,
+      "grad_norm": 5.25,
+      "learning_rate": 8.601852356160476e-06,
+      "loss": 1.70241528,
+      "memory(GiB)": 111.15,
+      "step": 22215,
+      "train_speed(iter/s)": 0.448464
+    },
+    {
+      "acc": 0.65207691,
+      "epoch": 0.5636732623033993,
+      "grad_norm": 5.125,
+      "learning_rate": 8.60112496258736e-06,
+      "loss": 1.61646423,
+      "memory(GiB)": 111.15,
+      "step": 22220,
+      "train_speed(iter/s)": 0.448518
+    },
+    {
+      "acc": 0.63869324,
+      "epoch": 0.5638001014713343,
+      "grad_norm": 4.84375,
+      "learning_rate": 8.600397410620693e-06,
+      "loss": 1.69360142,
+      "memory(GiB)": 111.15,
+      "step": 22225,
+      "train_speed(iter/s)": 0.448573
+    },
+    {
+      "acc": 0.64192963,
+      "epoch": 0.5639269406392694,
+      "grad_norm": 5.375,
+      "learning_rate": 8.599669700292472e-06,
+      "loss": 1.62948952,
+      "memory(GiB)": 111.15,
+      "step": 22230,
+      "train_speed(iter/s)": 0.448627
+    },
+    {
+      "acc": 0.66415005,
+      "epoch": 0.5640537798072045,
+      "grad_norm": 5.34375,
+      "learning_rate": 8.598941831634707e-06,
+      "loss": 1.66025219,
+      "memory(GiB)": 111.15,
+      "step": 22235,
+      "train_speed(iter/s)": 0.44868
+    },
+    {
+      "acc": 0.63441296,
+      "epoch": 0.5641806189751395,
+      "grad_norm": 4.875,
+      "learning_rate": 8.598213804679412e-06,
+      "loss": 1.67426872,
+      "memory(GiB)": 111.15,
+      "step": 22240,
+      "train_speed(iter/s)": 0.448735
+    },
+    {
+      "acc": 0.63767633,
+      "epoch": 0.5643074581430746,
+      "grad_norm": 5.09375,
+      "learning_rate": 8.597485619458609e-06,
+      "loss": 1.6960762,
+      "memory(GiB)": 111.15,
+      "step": 22245,
+      "train_speed(iter/s)": 0.448789
+    },
+    {
+      "acc": 0.64811869,
+      "epoch": 0.5644342973110097,
+      "grad_norm": 5.28125,
+      "learning_rate": 8.596757276004327e-06,
+      "loss": 1.6553627,
+      "memory(GiB)": 111.15,
+      "step": 22250,
+      "train_speed(iter/s)": 0.448843
+    },
+    {
+      "acc": 0.66147666,
+      "epoch": 0.5645611364789447,
+      "grad_norm": 6.09375,
+      "learning_rate": 8.5960287743486e-06,
+      "loss": 1.71235046,
+      "memory(GiB)": 111.15,
+      "step": 22255,
+      "train_speed(iter/s)": 0.448897
+    },
+    {
+      "acc": 0.65288815,
+      "epoch": 0.5646879756468798,
+      "grad_norm": 5.0625,
+      "learning_rate": 8.595300114523473e-06,
+      "loss": 1.61886406,
+      "memory(GiB)": 111.15,
+      "step": 22260,
+      "train_speed(iter/s)": 0.448951
+    },
+    {
+      "acc": 0.64970703,
+      "epoch": 0.5648148148148148,
+      "grad_norm": 5.0,
+      "learning_rate": 8.594571296560997e-06,
+      "loss": 1.6917141,
+      "memory(GiB)": 111.15,
+      "step": 22265,
+      "train_speed(iter/s)": 0.449005
+    },
+    {
+      "acc": 0.63839378,
+      "epoch": 0.5649416539827499,
+      "grad_norm": 4.6875,
+      "learning_rate": 8.593842320493224e-06,
+      "loss": 1.7114809,
+      "memory(GiB)": 111.15,
+      "step": 22270,
+      "train_speed(iter/s)": 0.449059
+    },
+    {
+      "acc": 0.64240112,
+      "epoch": 0.565068493150685,
+      "grad_norm": 5.375,
+      "learning_rate": 8.593113186352222e-06,
+      "loss": 1.72098961,
+      "memory(GiB)": 111.15,
+      "step": 22275,
+      "train_speed(iter/s)": 0.449113
+    },
+    {
+      "acc": 0.62562671,
+      "epoch": 0.56519533231862,
+      "grad_norm": 5.625,
+      "learning_rate": 8.592383894170059e-06,
+      "loss": 1.70323963,
+      "memory(GiB)": 111.15,
+      "step": 22280,
+      "train_speed(iter/s)": 0.449168
+    },
+    {
+      "acc": 0.65794206,
+      "epoch": 0.5653221714865551,
+      "grad_norm": 4.40625,
+      "learning_rate": 8.591654443978815e-06,
+      "loss": 1.60898476,
+      "memory(GiB)": 111.15,
+      "step": 22285,
+      "train_speed(iter/s)": 0.449222
+    },
+    {
+      "acc": 0.64694977,
+      "epoch": 0.5654490106544902,
+      "grad_norm": 5.78125,
+      "learning_rate": 8.590924835810572e-06,
+      "loss": 1.64140549,
+      "memory(GiB)": 111.15,
+      "step": 22290,
+      "train_speed(iter/s)": 0.449276
+    },
+    {
+      "acc": 0.65422006,
+      "epoch": 0.5655758498224251,
+      "grad_norm": 5.6875,
+      "learning_rate": 8.590195069697423e-06,
+      "loss": 1.5948658,
+      "memory(GiB)": 111.15,
+      "step": 22295,
+      "train_speed(iter/s)": 0.449329
+    },
+    {
+      "acc": 0.63341599,
+      "epoch": 0.5657026889903602,
+      "grad_norm": 4.71875,
+      "learning_rate": 8.589465145671465e-06,
+      "loss": 1.65612602,
+      "memory(GiB)": 111.15,
+      "step": 22300,
+      "train_speed(iter/s)": 0.449383
+    },
+    {
+      "epoch": 0.5657026889903602,
+      "eval_acc": 0.6416592547783181,
+      "eval_loss": 1.6173070669174194,
+      "eval_runtime": 113.426,
+      "eval_samples_per_second": 56.16,
+      "eval_steps_per_second": 28.08,
+      "step": 22300
+    },
+    {
+      "acc": 0.64246044,
+      "epoch": 0.5658295281582952,
+      "grad_norm": 5.03125,
+      "learning_rate": 8.588735063764803e-06,
+      "loss": 1.6381649,
+      "memory(GiB)": 111.15,
+      "step": 22305,
+      "train_speed(iter/s)": 0.448371
+    },
+    {
+      "acc": 0.65128722,
+      "epoch": 0.5659563673262303,
+      "grad_norm": 4.78125,
+      "learning_rate": 8.588004824009552e-06,
+      "loss": 1.69805794,
+      "memory(GiB)": 111.15,
+      "step": 22310,
+      "train_speed(iter/s)": 0.448424
+    },
+    {
+      "acc": 0.64704413,
+      "epoch": 0.5660832064941654,
+      "grad_norm": 5.6875,
+      "learning_rate": 8.58727442643783e-06,
+      "loss": 1.68568592,
+      "memory(GiB)": 111.15,
+      "step": 22315,
+      "train_speed(iter/s)": 0.448477
+    },
+    {
+      "acc": 0.64012465,
+      "epoch": 0.5662100456621004,
+      "grad_norm": 5.875,
+      "learning_rate": 8.586543871081764e-06,
+      "loss": 1.64785061,
+      "memory(GiB)": 111.15,
+      "step": 22320,
+      "train_speed(iter/s)": 0.44853
+    },
+    {
+      "acc": 0.66402073,
+      "epoch": 0.5663368848300355,
+      "grad_norm": 5.03125,
+      "learning_rate": 8.585813157973482e-06,
+      "loss": 1.58720055,
+      "memory(GiB)": 111.15,
+      "step": 22325,
+      "train_speed(iter/s)": 0.448584
+    },
+    {
+      "acc": 0.63483982,
+      "epoch": 0.5664637239979706,
+      "grad_norm": 5.875,
+      "learning_rate": 8.58508228714513e-06,
+      "loss": 1.62102203,
+      "memory(GiB)": 111.15,
+      "step": 22330,
+      "train_speed(iter/s)": 0.448637
+    },
+    {
+      "acc": 0.65540876,
+      "epoch": 0.5665905631659056,
+      "grad_norm": 5.625,
+      "learning_rate": 8.584351258628852e-06,
+      "loss": 1.60909958,
+      "memory(GiB)": 111.15,
+      "step": 22335,
+      "train_speed(iter/s)": 0.44869
+    },
+    {
+      "acc": 0.67111187,
+      "epoch": 0.5667174023338407,
+      "grad_norm": 4.96875,
+      "learning_rate": 8.583620072456803e-06,
+      "loss": 1.4935689,
+      "memory(GiB)": 111.15,
+      "step": 22340,
+      "train_speed(iter/s)": 0.448744
+    },
+    {
+      "acc": 0.65512905,
+      "epoch": 0.5668442415017757,
+      "grad_norm": 5.15625,
+      "learning_rate": 8.582888728661142e-06,
+      "loss": 1.62110195,
+      "memory(GiB)": 111.15,
+      "step": 22345,
+      "train_speed(iter/s)": 0.448797
+    },
+    {
+      "acc": 0.63930717,
+      "epoch": 0.5669710806697108,
+      "grad_norm": 5.5,
+      "learning_rate": 8.582157227274042e-06,
+      "loss": 1.69590759,
+      "memory(GiB)": 111.15,
+      "step": 22350,
+      "train_speed(iter/s)": 0.44885
+    },
+    {
+      "acc": 0.65268154,
+      "epoch": 0.5670979198376459,
+      "grad_norm": 5.75,
+      "learning_rate": 8.581425568327671e-06,
+      "loss": 1.6368,
+      "memory(GiB)": 111.15,
+      "step": 22355,
+      "train_speed(iter/s)": 0.448904
+    },
+    {
+      "acc": 0.63447061,
+      "epoch": 0.5672247590055809,
+      "grad_norm": 5.1875,
+      "learning_rate": 8.580693751854215e-06,
+      "loss": 1.6950861,
+      "memory(GiB)": 111.15,
+      "step": 22360,
+      "train_speed(iter/s)": 0.448958
+    },
+    {
+      "acc": 0.64718428,
+      "epoch": 0.567351598173516,
+      "grad_norm": 4.875,
+      "learning_rate": 8.57996177788586e-06,
+      "loss": 1.62124672,
+      "memory(GiB)": 111.15,
+      "step": 22365,
+      "train_speed(iter/s)": 0.449011
+    },
+    {
+      "acc": 0.64119024,
+      "epoch": 0.5674784373414511,
+      "grad_norm": 6.6875,
+      "learning_rate": 8.579229646454803e-06,
+      "loss": 1.66817055,
+      "memory(GiB)": 111.15,
+      "step": 22370,
+      "train_speed(iter/s)": 0.449065
+    },
+    {
+      "acc": 0.66411924,
+      "epoch": 0.5676052765093861,
+      "grad_norm": 8.0,
+      "learning_rate": 8.578497357593246e-06,
+      "loss": 1.5580328,
+      "memory(GiB)": 111.15,
+      "step": 22375,
+      "train_speed(iter/s)": 0.449118
+    },
+    {
+      "acc": 0.66866922,
+      "epoch": 0.5677321156773212,
+      "grad_norm": 4.78125,
+      "learning_rate": 8.5777649113334e-06,
+      "loss": 1.51795311,
+      "memory(GiB)": 111.15,
+      "step": 22380,
+      "train_speed(iter/s)": 0.449171
+    },
+    {
+      "acc": 0.65471077,
+      "epoch": 0.5678589548452562,
+      "grad_norm": 5.21875,
+      "learning_rate": 8.577032307707476e-06,
+      "loss": 1.60868187,
+      "memory(GiB)": 111.15,
+      "step": 22385,
+      "train_speed(iter/s)": 0.449225
+    },
+    {
+      "acc": 0.63154197,
+      "epoch": 0.5679857940131913,
+      "grad_norm": 5.375,
+      "learning_rate": 8.576299546747704e-06,
+      "loss": 1.72208195,
+      "memory(GiB)": 111.15,
+      "step": 22390,
+      "train_speed(iter/s)": 0.449279
+    },
+    {
+      "acc": 0.65218801,
+      "epoch": 0.5681126331811264,
+      "grad_norm": 5.5,
+      "learning_rate": 8.575566628486309e-06,
+      "loss": 1.66326485,
+      "memory(GiB)": 111.15,
+      "step": 22395,
+      "train_speed(iter/s)": 0.449333
+    },
+    {
+      "acc": 0.63140669,
+      "epoch": 0.5682394723490614,
+      "grad_norm": 5.21875,
+      "learning_rate": 8.574833552955532e-06,
+      "loss": 1.68630066,
+      "memory(GiB)": 111.15,
+      "step": 22400,
+      "train_speed(iter/s)": 0.449386
+    },
+    {
+      "epoch": 0.5682394723490614,
+      "eval_acc": 0.6417323640574731,
+      "eval_loss": 1.6172221899032593,
+      "eval_runtime": 113.3766,
+      "eval_samples_per_second": 56.184,
+      "eval_steps_per_second": 28.092,
+      "step": 22400
+    },
+    {
+      "acc": 0.64658957,
+      "epoch": 0.5683663115169965,
+      "grad_norm": 4.75,
+      "learning_rate": 8.574100320187612e-06,
+      "loss": 1.67430744,
+      "memory(GiB)": 111.15,
+      "step": 22405,
+      "train_speed(iter/s)": 0.448379
+    },
+    {
+      "acc": 0.64948206,
+      "epoch": 0.5684931506849316,
+      "grad_norm": 5.46875,
+      "learning_rate": 8.573366930214807e-06,
+      "loss": 1.68807449,
+      "memory(GiB)": 111.15,
+      "step": 22410,
+      "train_speed(iter/s)": 0.448432
+    },
+    {
+      "acc": 0.62832184,
+      "epoch": 0.5686199898528665,
+      "grad_norm": 6.34375,
+      "learning_rate": 8.572633383069366e-06,
+      "loss": 1.70685921,
+      "memory(GiB)": 111.15,
+      "step": 22415,
+      "train_speed(iter/s)": 0.448485
+    },
+    {
+      "acc": 0.63756914,
+      "epoch": 0.5687468290208016,
+      "grad_norm": 7.625,
+      "learning_rate": 8.571899678783561e-06,
+      "loss": 1.68096962,
+      "memory(GiB)": 111.15,
+      "step": 22420,
+      "train_speed(iter/s)": 0.448539
+    },
+    {
+      "acc": 0.64998541,
+      "epoch": 0.5688736681887366,
+      "grad_norm": 5.21875,
+      "learning_rate": 8.57116581738966e-06,
+      "loss": 1.65005436,
+      "memory(GiB)": 111.15,
+      "step": 22425,
+      "train_speed(iter/s)": 0.448592
+    },
+    {
+      "acc": 0.66172194,
+      "epoch": 0.5690005073566717,
+      "grad_norm": 4.53125,
+      "learning_rate": 8.570431798919941e-06,
+      "loss": 1.5977953,
+      "memory(GiB)": 111.15,
+      "step": 22430,
+      "train_speed(iter/s)": 0.448646
+    },
+    {
+      "acc": 0.65763259,
+      "epoch": 0.5691273465246068,
+      "grad_norm": 6.03125,
+      "learning_rate": 8.569697623406692e-06,
+      "loss": 1.60664749,
+      "memory(GiB)": 111.15,
+      "step": 22435,
+      "train_speed(iter/s)": 0.448699
+    },
+    {
+      "acc": 0.6450788,
+      "epoch": 0.5692541856925418,
+      "grad_norm": 4.78125,
+      "learning_rate": 8.568963290882204e-06,
+      "loss": 1.63901882,
+      "memory(GiB)": 111.15,
+      "step": 22440,
+      "train_speed(iter/s)": 0.448751
+    },
+    {
+      "acc": 0.66275063,
+      "epoch": 0.5693810248604769,
+      "grad_norm": 5.125,
+      "learning_rate": 8.568228801378775e-06,
+      "loss": 1.57805367,
+      "memory(GiB)": 111.15,
+      "step": 22445,
+      "train_speed(iter/s)": 0.448754
+    },
+    {
+      "acc": 0.6560482,
+      "epoch": 0.569507864028412,
+      "grad_norm": 4.84375,
+      "learning_rate": 8.567494154928713e-06,
+      "loss": 1.62301979,
+      "memory(GiB)": 111.15,
+      "step": 22450,
+      "train_speed(iter/s)": 0.448807
+    },
+    {
+      "acc": 0.6308424,
+      "epoch": 0.569634703196347,
+      "grad_norm": 4.75,
+      "learning_rate": 8.566759351564332e-06,
+      "loss": 1.66219082,
+      "memory(GiB)": 111.15,
+      "step": 22455,
+      "train_speed(iter/s)": 0.44886
+    },
+    {
+      "acc": 0.63788114,
+      "epoch": 0.5697615423642821,
+      "grad_norm": 5.34375,
+      "learning_rate": 8.566024391317947e-06,
+      "loss": 1.68257294,
+      "memory(GiB)": 111.15,
+      "step": 22460,
+      "train_speed(iter/s)": 0.448913
+    },
+    {
+      "acc": 0.64462752,
+      "epoch": 0.5698883815322171,
+      "grad_norm": 6.25,
+      "learning_rate": 8.565289274221891e-06,
+      "loss": 1.6257555,
+      "memory(GiB)": 111.15,
+      "step": 22465,
+      "train_speed(iter/s)": 0.448966
+    },
+    {
+      "acc": 0.6583847,
+      "epoch": 0.5700152207001522,
+      "grad_norm": 4.8125,
+      "learning_rate": 8.564554000308493e-06,
+      "loss": 1.65703354,
+      "memory(GiB)": 111.15,
+      "step": 22470,
+      "train_speed(iter/s)": 0.449019
+    },
+    {
+      "acc": 0.64397178,
+      "epoch": 0.5701420598680873,
+      "grad_norm": 5.125,
+      "learning_rate": 8.563818569610096e-06,
+      "loss": 1.60081577,
+      "memory(GiB)": 111.15,
+      "step": 22475,
+      "train_speed(iter/s)": 0.449072
+    },
+    {
+      "acc": 0.64409456,
+      "epoch": 0.5702688990360223,
+      "grad_norm": 4.59375,
+      "learning_rate": 8.563082982159048e-06,
+      "loss": 1.61242104,
+      "memory(GiB)": 111.15,
+      "step": 22480,
+      "train_speed(iter/s)": 0.449124
+    },
+    {
+      "acc": 0.6533731,
+      "epoch": 0.5703957382039574,
+      "grad_norm": 5.625,
+      "learning_rate": 8.562347237987701e-06,
+      "loss": 1.65443459,
+      "memory(GiB)": 111.15,
+      "step": 22485,
+      "train_speed(iter/s)": 0.449178
+    },
+    {
+      "acc": 0.63084102,
+      "epoch": 0.5705225773718925,
+      "grad_norm": 5.875,
+      "learning_rate": 8.561611337128418e-06,
+      "loss": 1.69784279,
+      "memory(GiB)": 111.15,
+      "step": 22490,
+      "train_speed(iter/s)": 0.449231
+    },
+    {
+      "acc": 0.65532846,
+      "epoch": 0.5706494165398275,
+      "grad_norm": 5.4375,
+      "learning_rate": 8.560875279613568e-06,
+      "loss": 1.5812603,
+      "memory(GiB)": 111.15,
+      "step": 22495,
+      "train_speed(iter/s)": 0.449283
+    },
+    {
+      "acc": 0.63838091,
+      "epoch": 0.5707762557077626,
+      "grad_norm": 4.9375,
+      "learning_rate": 8.560139065475523e-06,
+      "loss": 1.6905674,
+      "memory(GiB)": 111.15,
+      "step": 22500,
+      "train_speed(iter/s)": 0.449336
+    },
+    {
+      "epoch": 0.5707762557077626,
+      "eval_acc": 0.6416266689281803,
+      "eval_loss": 1.6171903610229492,
+      "eval_runtime": 113.2988,
+      "eval_samples_per_second": 56.223,
+      "eval_steps_per_second": 28.112,
+      "step": 22500
+    },
+    {
+      "acc": 0.66312513,
+      "epoch": 0.5709030948756976,
+      "grad_norm": 6.21875,
+      "learning_rate": 8.559402694746671e-06,
+      "loss": 1.63613052,
+      "memory(GiB)": 111.15,
+      "step": 22505,
+      "train_speed(iter/s)": 0.448334
+    },
+    {
+      "acc": 0.65852509,
+      "epoch": 0.5710299340436327,
+      "grad_norm": 4.6875,
+      "learning_rate": 8.558666167459393e-06,
+      "loss": 1.56096802,
+      "memory(GiB)": 111.15,
+      "step": 22510,
+      "train_speed(iter/s)": 0.448387
+    },
+    {
+      "acc": 0.64104824,
+      "epoch": 0.5711567732115678,
+      "grad_norm": 4.75,
+      "learning_rate": 8.55792948364609e-06,
+      "loss": 1.76535168,
+      "memory(GiB)": 111.15,
+      "step": 22515,
+      "train_speed(iter/s)": 0.44844
+    },
+    {
+      "acc": 0.65806174,
+      "epoch": 0.5712836123795028,
+      "grad_norm": 5.53125,
+      "learning_rate": 8.557192643339164e-06,
+      "loss": 1.68294926,
+      "memory(GiB)": 111.15,
+      "step": 22520,
+      "train_speed(iter/s)": 0.448492
+    },
+    {
+      "acc": 0.66040201,
+      "epoch": 0.5714104515474379,
+      "grad_norm": 4.46875,
+      "learning_rate": 8.556455646571022e-06,
+      "loss": 1.63673515,
+      "memory(GiB)": 111.15,
+      "step": 22525,
+      "train_speed(iter/s)": 0.448545
+    },
+    {
+      "acc": 0.65729427,
+      "epoch": 0.571537290715373,
+      "grad_norm": 5.28125,
+      "learning_rate": 8.555718493374084e-06,
+      "loss": 1.66201191,
+      "memory(GiB)": 111.15,
+      "step": 22530,
+      "train_speed(iter/s)": 0.448597
+    },
+    {
+      "acc": 0.65802045,
+      "epoch": 0.571664129883308,
+      "grad_norm": 5.3125,
+      "learning_rate": 8.55498118378077e-06,
+      "loss": 1.63256683,
+      "memory(GiB)": 111.15,
+      "step": 22535,
+      "train_speed(iter/s)": 0.44865
+    },
+    {
+      "acc": 0.66980476,
+      "epoch": 0.571790969051243,
+      "grad_norm": 7.15625,
+      "learning_rate": 8.554243717823512e-06,
+      "loss": 1.55046024,
+      "memory(GiB)": 111.15,
+      "step": 22540,
+      "train_speed(iter/s)": 0.448703
+    },
+    {
+      "acc": 0.6528841,
+      "epoch": 0.571917808219178,
+      "grad_norm": 5.0625,
+      "learning_rate": 8.553506095534747e-06,
+      "loss": 1.65310478,
+      "memory(GiB)": 111.15,
+      "step": 22545,
+      "train_speed(iter/s)": 0.448756
+    },
+    {
+      "acc": 0.64879627,
+      "epoch": 0.5720446473871131,
+      "grad_norm": 5.34375,
+      "learning_rate": 8.55276831694692e-06,
+      "loss": 1.6077652,
+      "memory(GiB)": 111.15,
+      "step": 22550,
+      "train_speed(iter/s)": 0.448809
+    },
+    {
+      "acc": 0.65907993,
+      "epoch": 0.5721714865550482,
+      "grad_norm": 5.09375,
+      "learning_rate": 8.552030382092477e-06,
+      "loss": 1.65524654,
+      "memory(GiB)": 111.15,
+      "step": 22555,
+      "train_speed(iter/s)": 0.448861
+    },
+    {
+      "acc": 0.65631819,
+      "epoch": 0.5722983257229832,
+      "grad_norm": 5.3125,
+      "learning_rate": 8.551292291003884e-06,
+      "loss": 1.63572521,
+      "memory(GiB)": 111.15,
+      "step": 22560,
+      "train_speed(iter/s)": 0.448914
+    },
+    {
+      "acc": 0.64630833,
+      "epoch": 0.5724251648909183,
+      "grad_norm": 6.1875,
+      "learning_rate": 8.550554043713597e-06,
+      "loss": 1.66465282,
+      "memory(GiB)": 111.15,
+      "step": 22565,
+      "train_speed(iter/s)": 0.448967
+    },
+    {
+      "acc": 0.65757027,
+      "epoch": 0.5725520040588534,
+      "grad_norm": 4.8125,
+      "learning_rate": 8.549815640254092e-06,
+      "loss": 1.58013744,
+      "memory(GiB)": 111.15,
+      "step": 22570,
+      "train_speed(iter/s)": 0.44902
+    },
+    {
+      "acc": 0.65324035,
+      "epoch": 0.5726788432267884,
+      "grad_norm": 5.71875,
+      "learning_rate": 8.549077080657846e-06,
+      "loss": 1.61754456,
+      "memory(GiB)": 111.15,
+      "step": 22575,
+      "train_speed(iter/s)": 0.449073
+    },
+    {
+      "acc": 0.63606825,
+      "epoch": 0.5728056823947235,
+      "grad_norm": 6.09375,
+      "learning_rate": 8.548338364957345e-06,
+      "loss": 1.73468494,
+      "memory(GiB)": 111.15,
+      "step": 22580,
+      "train_speed(iter/s)": 0.449125
+    },
+    {
+      "acc": 0.64174061,
+      "epoch": 0.5729325215626585,
+      "grad_norm": 5.34375,
+      "learning_rate": 8.54759949318508e-06,
+      "loss": 1.67128468,
+      "memory(GiB)": 111.15,
+      "step": 22585,
+      "train_speed(iter/s)": 0.449178
+    },
+    {
+      "acc": 0.64967022,
+      "epoch": 0.5730593607305936,
+      "grad_norm": 4.5,
+      "learning_rate": 8.546860465373552e-06,
+      "loss": 1.60665512,
+      "memory(GiB)": 111.15,
+      "step": 22590,
+      "train_speed(iter/s)": 0.44923
+    },
+    {
+      "acc": 0.65209365,
+      "epoch": 0.5731861998985287,
+      "grad_norm": 5.375,
+      "learning_rate": 8.546121281555265e-06,
+      "loss": 1.60904064,
+      "memory(GiB)": 111.15,
+      "step": 22595,
+      "train_speed(iter/s)": 0.449283
+    },
+    {
+      "acc": 0.65247617,
+      "epoch": 0.5733130390664637,
+      "grad_norm": 5.3125,
+      "learning_rate": 8.54538194176273e-06,
+      "loss": 1.58401756,
+      "memory(GiB)": 111.15,
+      "step": 22600,
+      "train_speed(iter/s)": 0.449335
+    },
+    {
+      "epoch": 0.5733130390664637,
+      "eval_acc": 0.6416859918861233,
+      "eval_loss": 1.6170921325683594,
+      "eval_runtime": 113.5197,
+      "eval_samples_per_second": 56.114,
+      "eval_steps_per_second": 28.057,
+      "step": 22600
+    },
+    {
+      "acc": 0.64860497,
+      "epoch": 0.5734398782343988,
+      "grad_norm": 5.5,
+      "learning_rate": 8.544642446028469e-06,
+      "loss": 1.62943077,
+      "memory(GiB)": 111.15,
+      "step": 22605,
+      "train_speed(iter/s)": 0.448336
+    },
+    {
+      "acc": 0.62641735,
+      "epoch": 0.5735667174023339,
+      "grad_norm": 5.90625,
+      "learning_rate": 8.543902794385008e-06,
+      "loss": 1.75010757,
+      "memory(GiB)": 111.15,
+      "step": 22610,
+      "train_speed(iter/s)": 0.448388
+    },
+    {
+      "acc": 0.63823576,
+      "epoch": 0.5736935565702689,
+      "grad_norm": 5.34375,
+      "learning_rate": 8.543162986864879e-06,
+      "loss": 1.70020714,
+      "memory(GiB)": 111.15,
+      "step": 22615,
+      "train_speed(iter/s)": 0.44844
+    },
+    {
+      "acc": 0.66741915,
+      "epoch": 0.573820395738204,
+      "grad_norm": 5.375,
+      "learning_rate": 8.542423023500623e-06,
+      "loss": 1.55416565,
+      "memory(GiB)": 111.15,
+      "step": 22620,
+      "train_speed(iter/s)": 0.448492
+    },
+    {
+      "acc": 0.64599051,
+      "epoch": 0.573947234906139,
+      "grad_norm": 5.84375,
+      "learning_rate": 8.541682904324786e-06,
+      "loss": 1.65907574,
+      "memory(GiB)": 111.15,
+      "step": 22625,
+      "train_speed(iter/s)": 0.448544
+    },
+    {
+      "acc": 0.64371023,
+      "epoch": 0.5740740740740741,
+      "grad_norm": 5.3125,
+      "learning_rate": 8.540942629369923e-06,
+      "loss": 1.66133575,
+      "memory(GiB)": 111.15,
+      "step": 22630,
+      "train_speed(iter/s)": 0.448597
+    },
+    {
+      "acc": 0.62952118,
+      "epoch": 0.5742009132420092,
+      "grad_norm": 5.125,
+      "learning_rate": 8.540202198668595e-06,
+      "loss": 1.65495567,
+      "memory(GiB)": 111.15,
+      "step": 22635,
+      "train_speed(iter/s)": 0.448649
+    },
+    {
+      "acc": 0.65301991,
+      "epoch": 0.5743277524099442,
+      "grad_norm": 4.9375,
+      "learning_rate": 8.539461612253368e-06,
+      "loss": 1.60597878,
+      "memory(GiB)": 111.15,
+      "step": 22640,
+      "train_speed(iter/s)": 0.448701
+    },
+    {
+      "acc": 0.65432053,
+      "epoch": 0.5744545915778793,
+      "grad_norm": 5.53125,
+      "learning_rate": 8.538720870156816e-06,
+      "loss": 1.61701031,
+      "memory(GiB)": 111.15,
+      "step": 22645,
+      "train_speed(iter/s)": 0.448754
+    },
+    {
+      "acc": 0.6460824,
+      "epoch": 0.5745814307458144,
+      "grad_norm": 5.0625,
+      "learning_rate": 8.53797997241152e-06,
+      "loss": 1.58248577,
+      "memory(GiB)": 111.15,
+      "step": 22650,
+      "train_speed(iter/s)": 0.448806
+    },
+    {
+      "acc": 0.65653992,
+      "epoch": 0.5747082699137493,
+      "grad_norm": 6.375,
+      "learning_rate": 8.537238919050071e-06,
+      "loss": 1.62921295,
+      "memory(GiB)": 111.15,
+      "step": 22655,
+      "train_speed(iter/s)": 0.448859
+    },
+    {
+      "acc": 0.66215358,
+      "epoch": 0.5748351090816844,
+      "grad_norm": 5.21875,
+      "learning_rate": 8.53649771010506e-06,
+      "loss": 1.58402061,
+      "memory(GiB)": 111.15,
+      "step": 22660,
+      "train_speed(iter/s)": 0.448912
+    },
+    {
+      "acc": 0.64714689,
+      "epoch": 0.5749619482496194,
+      "grad_norm": 5.1875,
+      "learning_rate": 8.535756345609092e-06,
+      "loss": 1.62751808,
+      "memory(GiB)": 111.15,
+      "step": 22665,
+      "train_speed(iter/s)": 0.448965
+    },
+    {
+      "acc": 0.65618377,
+      "epoch": 0.5750887874175545,
+      "grad_norm": 5.96875,
+      "learning_rate": 8.535014825594772e-06,
+      "loss": 1.57740288,
+      "memory(GiB)": 111.15,
+      "step": 22670,
+      "train_speed(iter/s)": 0.449016
+    },
+    {
+      "acc": 0.65600424,
+      "epoch": 0.5752156265854896,
+      "grad_norm": 4.78125,
+      "learning_rate": 8.534273150094718e-06,
+      "loss": 1.6085495,
+      "memory(GiB)": 111.15,
+      "step": 22675,
+      "train_speed(iter/s)": 0.449068
+    },
+    {
+      "acc": 0.64013004,
+      "epoch": 0.5753424657534246,
+      "grad_norm": 7.0625,
+      "learning_rate": 8.533531319141552e-06,
+      "loss": 1.59036884,
+      "memory(GiB)": 111.15,
+      "step": 22680,
+      "train_speed(iter/s)": 0.449121
+    },
+    {
+      "acc": 0.63325386,
+      "epoch": 0.5754693049213597,
+      "grad_norm": 5.96875,
+      "learning_rate": 8.532789332767902e-06,
+      "loss": 1.70432053,
+      "memory(GiB)": 111.15,
+      "step": 22685,
+      "train_speed(iter/s)": 0.449173
+    },
+    {
+      "acc": 0.64312506,
+      "epoch": 0.5755961440892948,
+      "grad_norm": 5.5,
+      "learning_rate": 8.532047191006405e-06,
+      "loss": 1.60400963,
+      "memory(GiB)": 111.15,
+      "step": 22690,
+      "train_speed(iter/s)": 0.449226
+    },
+    {
+      "acc": 0.6396183,
+      "epoch": 0.5757229832572298,
+      "grad_norm": 4.1875,
+      "learning_rate": 8.531304893889702e-06,
+      "loss": 1.63361092,
+      "memory(GiB)": 111.15,
+      "step": 22695,
+      "train_speed(iter/s)": 0.449278
+    },
+    {
+      "acc": 0.64858456,
+      "epoch": 0.5758498224251649,
+      "grad_norm": 4.96875,
+      "learning_rate": 8.530562441450445e-06,
+      "loss": 1.67291737,
+      "memory(GiB)": 111.15,
+      "step": 22700,
+      "train_speed(iter/s)": 0.449331
+    },
+    {
+      "epoch": 0.5758498224251649,
+      "eval_acc": 0.641664685753341,
+      "eval_loss": 1.6171623468399048,
+      "eval_runtime": 113.3625,
+      "eval_samples_per_second": 56.191,
+      "eval_steps_per_second": 28.096,
+      "step": 22700
+    },
+    {
+      "acc": 0.64676156,
+      "epoch": 0.5759766615930999,
+      "grad_norm": 5.375,
+      "learning_rate": 8.529819833721289e-06,
+      "loss": 1.66137619,
+      "memory(GiB)": 111.15,
+      "step": 22705,
+      "train_speed(iter/s)": 0.448337
+    },
+    {
+      "acc": 0.6483366,
+      "epoch": 0.576103500761035,
+      "grad_norm": 5.6875,
+      "learning_rate": 8.529077070734896e-06,
+      "loss": 1.6777647,
+      "memory(GiB)": 111.15,
+      "step": 22710,
+      "train_speed(iter/s)": 0.44839
+    },
+    {
+      "acc": 0.64880776,
+      "epoch": 0.5762303399289701,
+      "grad_norm": 5.59375,
+      "learning_rate": 8.528334152523938e-06,
+      "loss": 1.71902847,
+      "memory(GiB)": 111.15,
+      "step": 22715,
+      "train_speed(iter/s)": 0.448442
+    },
+    {
+      "acc": 0.66875343,
+      "epoch": 0.5763571790969051,
+      "grad_norm": 5.5,
+      "learning_rate": 8.52759107912109e-06,
+      "loss": 1.55564499,
+      "memory(GiB)": 111.15,
+      "step": 22720,
+      "train_speed(iter/s)": 0.448494
+    },
+    {
+      "acc": 0.65794525,
+      "epoch": 0.5764840182648402,
+      "grad_norm": 5.15625,
+      "learning_rate": 8.526847850559037e-06,
+      "loss": 1.61092987,
+      "memory(GiB)": 111.15,
+      "step": 22725,
+      "train_speed(iter/s)": 0.448547
+    },
+    {
+      "acc": 0.64561043,
+      "epoch": 0.5766108574327753,
+      "grad_norm": 4.53125,
+      "learning_rate": 8.526104466870472e-06,
+      "loss": 1.66713066,
+      "memory(GiB)": 111.15,
+      "step": 22730,
+      "train_speed(iter/s)": 0.448599
+    },
+    {
+      "acc": 0.65492029,
+      "epoch": 0.5767376966007103,
+      "grad_norm": 4.84375,
+      "learning_rate": 8.525360928088087e-06,
+      "loss": 1.59742489,
+      "memory(GiB)": 111.15,
+      "step": 22735,
+      "train_speed(iter/s)": 0.448651
+    },
+    {
+      "acc": 0.65408688,
+      "epoch": 0.5768645357686454,
+      "grad_norm": 5.0,
+      "learning_rate": 8.524617234244588e-06,
+      "loss": 1.62485962,
+      "memory(GiB)": 111.15,
+      "step": 22740,
+      "train_speed(iter/s)": 0.448703
+    },
+    {
+      "acc": 0.65393391,
+      "epoch": 0.5769913749365804,
+      "grad_norm": 5.4375,
+      "learning_rate": 8.523873385372687e-06,
+      "loss": 1.51788921,
+      "memory(GiB)": 111.15,
+      "step": 22745,
+      "train_speed(iter/s)": 0.448756
+    },
+    {
+      "acc": 0.64614258,
+      "epoch": 0.5771182141045155,
+      "grad_norm": 5.53125,
+      "learning_rate": 8.523129381505104e-06,
+      "loss": 1.68877754,
+      "memory(GiB)": 111.15,
+      "step": 22750,
+      "train_speed(iter/s)": 0.448808
+    },
+    {
+      "acc": 0.66538067,
+      "epoch": 0.5772450532724506,
+      "grad_norm": 5.46875,
+      "learning_rate": 8.522385222674559e-06,
+      "loss": 1.58131733,
+      "memory(GiB)": 111.15,
+      "step": 22755,
+      "train_speed(iter/s)": 0.448861
+    },
+    {
+      "acc": 0.65494986,
+      "epoch": 0.5773718924403856,
+      "grad_norm": 5.09375,
+      "learning_rate": 8.521640908913787e-06,
+      "loss": 1.59285774,
+      "memory(GiB)": 111.15,
+      "step": 22760,
+      "train_speed(iter/s)": 0.448913
+    },
+    {
+      "acc": 0.65601053,
+      "epoch": 0.5774987316083207,
+      "grad_norm": 4.75,
+      "learning_rate": 8.520896440255524e-06,
+      "loss": 1.63625393,
+      "memory(GiB)": 111.15,
+      "step": 22765,
+      "train_speed(iter/s)": 0.448966
+    },
+    {
+      "acc": 0.66091948,
+      "epoch": 0.5776255707762558,
+      "grad_norm": 5.84375,
+      "learning_rate": 8.520151816732517e-06,
+      "loss": 1.61985817,
+      "memory(GiB)": 111.15,
+      "step": 22770,
+      "train_speed(iter/s)": 0.449019
+    },
+    {
+      "acc": 0.63584509,
+      "epoch": 0.5777524099441907,
+      "grad_norm": 5.84375,
+      "learning_rate": 8.519407038377515e-06,
+      "loss": 1.70364723,
+      "memory(GiB)": 111.15,
+      "step": 22775,
+      "train_speed(iter/s)": 0.449072
+    },
+    {
+      "acc": 0.64105492,
+      "epoch": 0.5778792491121258,
+      "grad_norm": 4.875,
+      "learning_rate": 8.518662105223279e-06,
+      "loss": 1.67169838,
+      "memory(GiB)": 111.15,
+      "step": 22780,
+      "train_speed(iter/s)": 0.449124
+    },
+    {
+      "acc": 0.64951859,
+      "epoch": 0.5780060882800608,
+      "grad_norm": 5.53125,
+      "learning_rate": 8.517917017302574e-06,
+      "loss": 1.65342693,
+      "memory(GiB)": 111.15,
+      "step": 22785,
+      "train_speed(iter/s)": 0.449177
+    },
+    {
+      "acc": 0.65126319,
+      "epoch": 0.5781329274479959,
+      "grad_norm": 4.90625,
+      "learning_rate": 8.517171774648172e-06,
+      "loss": 1.68535767,
+      "memory(GiB)": 111.15,
+      "step": 22790,
+      "train_speed(iter/s)": 0.449229
+    },
+    {
+      "acc": 0.64107819,
+      "epoch": 0.578259766615931,
+      "grad_norm": 5.0,
+      "learning_rate": 8.516426377292854e-06,
+      "loss": 1.65018005,
+      "memory(GiB)": 111.15,
+      "step": 22795,
+      "train_speed(iter/s)": 0.449282
+    },
+    {
+      "acc": 0.65371814,
+      "epoch": 0.578386605783866,
+      "grad_norm": 4.90625,
+      "learning_rate": 8.515680825269404e-06,
+      "loss": 1.58780766,
+      "memory(GiB)": 111.15,
+      "step": 22800,
+      "train_speed(iter/s)": 0.449334
+    },
+    {
+      "epoch": 0.578386605783866,
+      "eval_acc": 0.641727768617069,
+      "eval_loss": 1.6169254779815674,
+      "eval_runtime": 113.9417,
+      "eval_samples_per_second": 55.906,
+      "eval_steps_per_second": 27.953,
+      "step": 22800
+    },
+    {
+      "acc": 0.65021534,
+      "epoch": 0.5785134449518011,
+      "grad_norm": 5.125,
+      "learning_rate": 8.514935118610613e-06,
+      "loss": 1.70228157,
+      "memory(GiB)": 111.15,
+      "step": 22805,
+      "train_speed(iter/s)": 0.44834
+    },
+    {
+      "acc": 0.64636803,
+      "epoch": 0.5786402841197362,
+      "grad_norm": 4.9375,
+      "learning_rate": 8.514189257349283e-06,
+      "loss": 1.65145149,
+      "memory(GiB)": 111.15,
+      "step": 22810,
+      "train_speed(iter/s)": 0.448391
+    },
+    {
+      "acc": 0.65868373,
+      "epoch": 0.5787671232876712,
+      "grad_norm": 5.21875,
+      "learning_rate": 8.51344324151822e-06,
+      "loss": 1.59472599,
+      "memory(GiB)": 111.15,
+      "step": 22815,
+      "train_speed(iter/s)": 0.448444
+    },
+    {
+      "acc": 0.64171066,
+      "epoch": 0.5788939624556063,
+      "grad_norm": 5.40625,
+      "learning_rate": 8.512697071150235e-06,
+      "loss": 1.63051186,
+      "memory(GiB)": 111.15,
+      "step": 22820,
+      "train_speed(iter/s)": 0.448496
+    },
+    {
+      "acc": 0.65031738,
+      "epoch": 0.5790208016235413,
+      "grad_norm": 5.46875,
+      "learning_rate": 8.511950746278152e-06,
+      "loss": 1.51984921,
+      "memory(GiB)": 111.15,
+      "step": 22825,
+      "train_speed(iter/s)": 0.448548
+    },
+    {
+      "acc": 0.65141535,
+      "epoch": 0.5791476407914764,
+      "grad_norm": 5.5,
+      "learning_rate": 8.511204266934797e-06,
+      "loss": 1.6476284,
+      "memory(GiB)": 111.15,
+      "step": 22830,
+      "train_speed(iter/s)": 0.4486
+    },
+    {
+      "acc": 0.63654189,
+      "epoch": 0.5792744799594115,
+      "grad_norm": 4.875,
+      "learning_rate": 8.510457633152998e-06,
+      "loss": 1.72171936,
+      "memory(GiB)": 111.15,
+      "step": 22835,
+      "train_speed(iter/s)": 0.448652
+    },
+    {
+      "acc": 0.6446506,
+      "epoch": 0.5794013191273465,
+      "grad_norm": 4.6875,
+      "learning_rate": 8.509710844965602e-06,
+      "loss": 1.62229767,
+      "memory(GiB)": 111.15,
+      "step": 22840,
+      "train_speed(iter/s)": 0.448704
+    },
+    {
+      "acc": 0.64561481,
+      "epoch": 0.5795281582952816,
+      "grad_norm": 6.125,
+      "learning_rate": 8.508963902405451e-06,
+      "loss": 1.7096138,
+      "memory(GiB)": 111.15,
+      "step": 22845,
+      "train_speed(iter/s)": 0.448756
+    },
+    {
+      "acc": 0.65416088,
+      "epoch": 0.5796549974632167,
+      "grad_norm": 5.625,
+      "learning_rate": 8.508216805505403e-06,
+      "loss": 1.57666492,
+      "memory(GiB)": 111.15,
+      "step": 22850,
+      "train_speed(iter/s)": 0.448808
+    },
+    {
+      "acc": 0.65341306,
+      "epoch": 0.5797818366311517,
+      "grad_norm": 4.46875,
+      "learning_rate": 8.507469554298318e-06,
+      "loss": 1.64896297,
+      "memory(GiB)": 111.15,
+      "step": 22855,
+      "train_speed(iter/s)": 0.44886
+    },
+    {
+      "acc": 0.6590559,
+      "epoch": 0.5799086757990868,
+      "grad_norm": 5.1875,
+      "learning_rate": 8.506722148817061e-06,
+      "loss": 1.60996857,
+      "memory(GiB)": 111.15,
+      "step": 22860,
+      "train_speed(iter/s)": 0.448913
+    },
+    {
+      "acc": 0.65924034,
+      "epoch": 0.5800355149670218,
+      "grad_norm": 4.96875,
+      "learning_rate": 8.505974589094505e-06,
+      "loss": 1.5777216,
+      "memory(GiB)": 111.15,
+      "step": 22865,
+      "train_speed(iter/s)": 0.448965
+    },
+    {
+      "acc": 0.66034298,
+      "epoch": 0.5801623541349569,
+      "grad_norm": 4.59375,
+      "learning_rate": 8.505226875163537e-06,
+      "loss": 1.65821972,
+      "memory(GiB)": 111.15,
+      "step": 22870,
+      "train_speed(iter/s)": 0.449017
+    },
+    {
+      "acc": 0.65001822,
+      "epoch": 0.580289193302892,
+      "grad_norm": 6.09375,
+      "learning_rate": 8.50447900705704e-06,
+      "loss": 1.62131176,
+      "memory(GiB)": 111.15,
+      "step": 22875,
+      "train_speed(iter/s)": 0.44907
+    },
+    {
+      "acc": 0.6546391,
+      "epoch": 0.580416032470827,
+      "grad_norm": 3.953125,
+      "learning_rate": 8.503730984807911e-06,
+      "loss": 1.55963974,
+      "memory(GiB)": 111.15,
+      "step": 22880,
+      "train_speed(iter/s)": 0.449121
+    },
+    {
+      "acc": 0.66047559,
+      "epoch": 0.5805428716387621,
+      "grad_norm": 5.125,
+      "learning_rate": 8.502982808449049e-06,
+      "loss": 1.59342995,
+      "memory(GiB)": 111.15,
+      "step": 22885,
+      "train_speed(iter/s)": 0.449173
+    },
+    {
+      "acc": 0.6405695,
+      "epoch": 0.5806697108066972,
+      "grad_norm": 4.84375,
+      "learning_rate": 8.502234478013363e-06,
+      "loss": 1.70039139,
+      "memory(GiB)": 111.15,
+      "step": 22890,
+      "train_speed(iter/s)": 0.449224
+    },
+    {
+      "acc": 0.64677019,
+      "epoch": 0.5807965499746321,
+      "grad_norm": 5.625,
+      "learning_rate": 8.501485993533769e-06,
+      "loss": 1.65048904,
+      "memory(GiB)": 111.15,
+      "step": 22895,
+      "train_speed(iter/s)": 0.449276
+    },
+    {
+      "acc": 0.64078865,
+      "epoch": 0.5809233891425672,
+      "grad_norm": 5.65625,
+      "learning_rate": 8.500737355043188e-06,
+      "loss": 1.66476669,
+      "memory(GiB)": 111.15,
+      "step": 22900,
+      "train_speed(iter/s)": 0.449329
+    },
+    {
+      "epoch": 0.5809233891425672,
+      "eval_acc": 0.6417674565114675,
+      "eval_loss": 1.616979956626892,
+      "eval_runtime": 113.1979,
+      "eval_samples_per_second": 56.273,
+      "eval_steps_per_second": 28.137,
+      "step": 22900
+    },
+    {
+      "acc": 0.65174408,
+      "epoch": 0.5810502283105022,
+      "grad_norm": 5.09375,
+      "learning_rate": 8.499988562574549e-06,
+      "loss": 1.65789757,
+      "memory(GiB)": 111.15,
+      "step": 22905,
+      "train_speed(iter/s)": 0.448344
+    },
+    {
+      "acc": 0.65864687,
+      "epoch": 0.5811770674784373,
+      "grad_norm": 6.84375,
+      "learning_rate": 8.499239616160787e-06,
+      "loss": 1.67414875,
+      "memory(GiB)": 111.15,
+      "step": 22910,
+      "train_speed(iter/s)": 0.448395
+    },
+    {
+      "acc": 0.65856905,
+      "epoch": 0.5813039066463724,
+      "grad_norm": 5.71875,
+      "learning_rate": 8.498490515834841e-06,
+      "loss": 1.65093994,
+      "memory(GiB)": 111.15,
+      "step": 22915,
+      "train_speed(iter/s)": 0.448447
+    },
+    {
+      "acc": 0.64424419,
+      "epoch": 0.5814307458143074,
+      "grad_norm": 4.65625,
+      "learning_rate": 8.497741261629664e-06,
+      "loss": 1.66695518,
+      "memory(GiB)": 111.15,
+      "step": 22920,
+      "train_speed(iter/s)": 0.448498
+    },
+    {
+      "acc": 0.63767805,
+      "epoch": 0.5815575849822425,
+      "grad_norm": 5.0,
+      "learning_rate": 8.496991853578212e-06,
+      "loss": 1.61589241,
+      "memory(GiB)": 111.15,
+      "step": 22925,
+      "train_speed(iter/s)": 0.448549
+    },
+    {
+      "acc": 0.64332085,
+      "epoch": 0.5816844241501776,
+      "grad_norm": 5.125,
+      "learning_rate": 8.496242291713444e-06,
+      "loss": 1.64475555,
+      "memory(GiB)": 111.15,
+      "step": 22930,
+      "train_speed(iter/s)": 0.448601
+    },
+    {
+      "acc": 0.65772643,
+      "epoch": 0.5818112633181126,
+      "grad_norm": 5.9375,
+      "learning_rate": 8.495492576068329e-06,
+      "loss": 1.63704109,
+      "memory(GiB)": 111.15,
+      "step": 22935,
+      "train_speed(iter/s)": 0.448653
+    },
+    {
+      "acc": 0.64648299,
+      "epoch": 0.5819381024860477,
+      "grad_norm": 4.71875,
+      "learning_rate": 8.494742706675844e-06,
+      "loss": 1.6729866,
+      "memory(GiB)": 111.15,
+      "step": 22940,
+      "train_speed(iter/s)": 0.448705
+    },
+    {
+      "acc": 0.63135757,
+      "epoch": 0.5820649416539827,
+      "grad_norm": 5.46875,
+      "learning_rate": 8.493992683568975e-06,
+      "loss": 1.72170258,
+      "memory(GiB)": 111.15,
+      "step": 22945,
+      "train_speed(iter/s)": 0.448756
+    },
+    {
+      "acc": 0.64865956,
+      "epoch": 0.5821917808219178,
+      "grad_norm": 7.25,
+      "learning_rate": 8.493242506780705e-06,
+      "loss": 1.62676964,
+      "memory(GiB)": 111.15,
+      "step": 22950,
+      "train_speed(iter/s)": 0.448807
+    },
+    {
+      "acc": 0.63747301,
+      "epoch": 0.5823186199898529,
+      "grad_norm": 6.84375,
+      "learning_rate": 8.492492176344035e-06,
+      "loss": 1.71799946,
+      "memory(GiB)": 111.15,
+      "step": 22955,
+      "train_speed(iter/s)": 0.448859
+    },
+    {
+      "acc": 0.6577549,
+      "epoch": 0.5824454591577879,
+      "grad_norm": 4.5,
+      "learning_rate": 8.491741692291967e-06,
+      "loss": 1.63643093,
+      "memory(GiB)": 111.15,
+      "step": 22960,
+      "train_speed(iter/s)": 0.44891
+    },
+    {
+      "acc": 0.63073153,
+      "epoch": 0.582572298325723,
+      "grad_norm": 6.0625,
+      "learning_rate": 8.490991054657507e-06,
+      "loss": 1.71229973,
+      "memory(GiB)": 111.15,
+      "step": 22965,
+      "train_speed(iter/s)": 0.448962
+    },
+    {
+      "acc": 0.64680843,
+      "epoch": 0.5826991374936581,
+      "grad_norm": 5.59375,
+      "learning_rate": 8.490240263473677e-06,
+      "loss": 1.68589077,
+      "memory(GiB)": 111.15,
+      "step": 22970,
+      "train_speed(iter/s)": 0.449013
+    },
+    {
+      "acc": 0.64029617,
+      "epoch": 0.5828259766615931,
+      "grad_norm": 7.03125,
+      "learning_rate": 8.489489318773496e-06,
+      "loss": 1.69028931,
+      "memory(GiB)": 111.15,
+      "step": 22975,
+      "train_speed(iter/s)": 0.449065
+    },
+    {
+      "acc": 0.64373875,
+      "epoch": 0.5829528158295282,
+      "grad_norm": 5.875,
+      "learning_rate": 8.488738220589996e-06,
+      "loss": 1.70428772,
+      "memory(GiB)": 111.15,
+      "step": 22980,
+      "train_speed(iter/s)": 0.449117
+    },
+    {
+      "acc": 0.65748262,
+      "epoch": 0.5830796549974632,
+      "grad_norm": 4.65625,
+      "learning_rate": 8.487986968956212e-06,
+      "loss": 1.6044136,
+      "memory(GiB)": 111.15,
+      "step": 22985,
+      "train_speed(iter/s)": 0.449167
+    },
+    {
+      "acc": 0.65411463,
+      "epoch": 0.5832064941653983,
+      "grad_norm": 4.9375,
+      "learning_rate": 8.487235563905191e-06,
+      "loss": 1.62674599,
+      "memory(GiB)": 111.15,
+      "step": 22990,
+      "train_speed(iter/s)": 0.449219
+    },
+    {
+      "acc": 0.6492919,
+      "epoch": 0.5833333333333334,
+      "grad_norm": 5.59375,
+      "learning_rate": 8.486484005469977e-06,
+      "loss": 1.61151657,
+      "memory(GiB)": 111.15,
+      "step": 22995,
+      "train_speed(iter/s)": 0.44927
+    },
+    {
+      "acc": 0.65252037,
+      "epoch": 0.5834601725012684,
+      "grad_norm": 5.09375,
+      "learning_rate": 8.485732293683633e-06,
+      "loss": 1.61574993,
+      "memory(GiB)": 111.15,
+      "step": 23000,
+      "train_speed(iter/s)": 0.449321
+    },
+    {
+      "epoch": 0.5834601725012684,
+      "eval_acc": 0.6418175885886024,
+      "eval_loss": 1.6167993545532227,
+      "eval_runtime": 113.4155,
+      "eval_samples_per_second": 56.165,
+      "eval_steps_per_second": 28.083,
+      "step": 23000
+    },
+    {
+      "acc": 0.64447079,
+      "epoch": 0.5835870116692035,
+      "grad_norm": 6.0625,
+      "learning_rate": 8.48498042857922e-06,
+      "loss": 1.65015812,
+      "memory(GiB)": 111.15,
+      "step": 23005,
+      "train_speed(iter/s)": 0.448339
+    },
+    {
+      "acc": 0.64177294,
+      "epoch": 0.5837138508371386,
+      "grad_norm": 5.1875,
+      "learning_rate": 8.484228410189807e-06,
+      "loss": 1.64903984,
+      "memory(GiB)": 111.15,
+      "step": 23010,
+      "train_speed(iter/s)": 0.44839
+    },
+    {
+      "acc": 0.63060074,
+      "epoch": 0.5838406900050735,
+      "grad_norm": 5.28125,
+      "learning_rate": 8.483476238548473e-06,
+      "loss": 1.7434576,
+      "memory(GiB)": 111.15,
+      "step": 23015,
+      "train_speed(iter/s)": 0.448441
+    },
+    {
+      "acc": 0.64391851,
+      "epoch": 0.5839675291730086,
+      "grad_norm": 4.6875,
+      "learning_rate": 8.482723913688301e-06,
+      "loss": 1.68703537,
+      "memory(GiB)": 111.15,
+      "step": 23020,
+      "train_speed(iter/s)": 0.448492
+    },
+    {
+      "acc": 0.65755997,
+      "epoch": 0.5840943683409436,
+      "grad_norm": 6.0,
+      "learning_rate": 8.481971435642382e-06,
+      "loss": 1.62821465,
+      "memory(GiB)": 111.15,
+      "step": 23025,
+      "train_speed(iter/s)": 0.448543
+    },
+    {
+      "acc": 0.65561604,
+      "epoch": 0.5842212075088787,
+      "grad_norm": 4.96875,
+      "learning_rate": 8.481218804443814e-06,
+      "loss": 1.56975269,
+      "memory(GiB)": 111.15,
+      "step": 23030,
+      "train_speed(iter/s)": 0.448594
+    },
+    {
+      "acc": 0.64319868,
+      "epoch": 0.5843480466768138,
+      "grad_norm": 5.125,
+      "learning_rate": 8.480466020125701e-06,
+      "loss": 1.66576729,
+      "memory(GiB)": 111.15,
+      "step": 23035,
+      "train_speed(iter/s)": 0.448645
+    },
+    {
+      "acc": 0.64515586,
+      "epoch": 0.5844748858447488,
+      "grad_norm": 4.53125,
+      "learning_rate": 8.479713082721153e-06,
+      "loss": 1.66706657,
+      "memory(GiB)": 111.15,
+      "step": 23040,
+      "train_speed(iter/s)": 0.448697
+    },
+    {
+      "acc": 0.66678553,
+      "epoch": 0.5846017250126839,
+      "grad_norm": 5.5625,
+      "learning_rate": 8.478959992263288e-06,
+      "loss": 1.57800655,
+      "memory(GiB)": 111.15,
+      "step": 23045,
+      "train_speed(iter/s)": 0.448748
+    },
+    {
+      "acc": 0.64039135,
+      "epoch": 0.584728564180619,
+      "grad_norm": 5.375,
+      "learning_rate": 8.478206748785229e-06,
+      "loss": 1.69505196,
+      "memory(GiB)": 111.15,
+      "step": 23050,
+      "train_speed(iter/s)": 0.4488
+    },
+    {
+      "acc": 0.65463028,
+      "epoch": 0.584855403348554,
+      "grad_norm": 4.625,
+      "learning_rate": 8.477453352320108e-06,
+      "loss": 1.60908527,
+      "memory(GiB)": 111.15,
+      "step": 23055,
+      "train_speed(iter/s)": 0.448851
+    },
+    {
+      "acc": 0.65811958,
+      "epoch": 0.5849822425164891,
+      "grad_norm": 4.625,
+      "learning_rate": 8.476699802901066e-06,
+      "loss": 1.62840118,
+      "memory(GiB)": 111.15,
+      "step": 23060,
+      "train_speed(iter/s)": 0.448902
+    },
+    {
+      "acc": 0.65275822,
+      "epoch": 0.5851090816844241,
+      "grad_norm": 5.09375,
+      "learning_rate": 8.47594610056124e-06,
+      "loss": 1.583358,
+      "memory(GiB)": 111.15,
+      "step": 23065,
+      "train_speed(iter/s)": 0.448953
+    },
+    {
+      "acc": 0.6436883,
+      "epoch": 0.5852359208523592,
+      "grad_norm": 5.46875,
+      "learning_rate": 8.475192245333787e-06,
+      "loss": 1.64192963,
+      "memory(GiB)": 111.15,
+      "step": 23070,
+      "train_speed(iter/s)": 0.449003
+    },
+    {
+      "acc": 0.65111942,
+      "epoch": 0.5853627600202943,
+      "grad_norm": 6.0625,
+      "learning_rate": 8.474438237251864e-06,
+      "loss": 1.58304501,
+      "memory(GiB)": 111.15,
+      "step": 23075,
+      "train_speed(iter/s)": 0.449054
+    },
+    {
+      "acc": 0.65524702,
+      "epoch": 0.5854895991882293,
+      "grad_norm": 4.96875,
+      "learning_rate": 8.473684076348635e-06,
+      "loss": 1.57415161,
+      "memory(GiB)": 111.15,
+      "step": 23080,
+      "train_speed(iter/s)": 0.449105
+    },
+    {
+      "acc": 0.65172296,
+      "epoch": 0.5856164383561644,
+      "grad_norm": 5.75,
+      "learning_rate": 8.472929762657272e-06,
+      "loss": 1.6312933,
+      "memory(GiB)": 111.15,
+      "step": 23085,
+      "train_speed(iter/s)": 0.449156
+    },
+    {
+      "acc": 0.64948559,
+      "epoch": 0.5857432775240995,
+      "grad_norm": 5.3125,
+      "learning_rate": 8.472175296210952e-06,
+      "loss": 1.59882069,
+      "memory(GiB)": 111.15,
+      "step": 23090,
+      "train_speed(iter/s)": 0.449207
+    },
+    {
+      "acc": 0.64895229,
+      "epoch": 0.5858701166920345,
+      "grad_norm": 5.59375,
+      "learning_rate": 8.471420677042858e-06,
+      "loss": 1.6470335,
+      "memory(GiB)": 111.15,
+      "step": 23095,
+      "train_speed(iter/s)": 0.449257
+    },
+    {
+      "acc": 0.65352297,
+      "epoch": 0.5859969558599696,
+      "grad_norm": 5.46875,
+      "learning_rate": 8.470665905186188e-06,
+      "loss": 1.59021416,
+      "memory(GiB)": 111.15,
+      "step": 23100,
+      "train_speed(iter/s)": 0.449308
+    },
+    {
+      "epoch": 0.5859969558599696,
+      "eval_acc": 0.6417348706613298,
+      "eval_loss": 1.6167936325073242,
+      "eval_runtime": 113.2567,
+      "eval_samples_per_second": 56.244,
+      "eval_steps_per_second": 28.122,
+      "step": 23100
+    },
+    {
+      "acc": 0.64987774,
+      "epoch": 0.5861237950279046,
+      "grad_norm": 4.5,
+      "learning_rate": 8.469910980674134e-06,
+      "loss": 1.65329247,
+      "memory(GiB)": 111.15,
+      "step": 23105,
+      "train_speed(iter/s)": 0.448332
+    },
+    {
+      "acc": 0.67062922,
+      "epoch": 0.5862506341958397,
+      "grad_norm": 5.0,
+      "learning_rate": 8.469155903539903e-06,
+      "loss": 1.51398582,
+      "memory(GiB)": 111.15,
+      "step": 23110,
+      "train_speed(iter/s)": 0.448383
+    },
+    {
+      "acc": 0.64584312,
+      "epoch": 0.5863774733637748,
+      "grad_norm": 6.28125,
+      "learning_rate": 8.468400673816705e-06,
+      "loss": 1.67449303,
+      "memory(GiB)": 111.15,
+      "step": 23115,
+      "train_speed(iter/s)": 0.448433
+    },
+    {
+      "acc": 0.64628758,
+      "epoch": 0.5865043125317098,
+      "grad_norm": 5.84375,
+      "learning_rate": 8.467645291537763e-06,
+      "loss": 1.70548992,
+      "memory(GiB)": 111.15,
+      "step": 23120,
+      "train_speed(iter/s)": 0.448484
+    },
+    {
+      "acc": 0.64169273,
+      "epoch": 0.5866311516996449,
+      "grad_norm": 5.21875,
+      "learning_rate": 8.466889756736298e-06,
+      "loss": 1.60538406,
+      "memory(GiB)": 111.15,
+      "step": 23125,
+      "train_speed(iter/s)": 0.448535
+    },
+    {
+      "acc": 0.64222288,
+      "epoch": 0.58675799086758,
+      "grad_norm": 4.84375,
+      "learning_rate": 8.466134069445544e-06,
+      "loss": 1.63615074,
+      "memory(GiB)": 111.15,
+      "step": 23130,
+      "train_speed(iter/s)": 0.448586
+    },
+    {
+      "acc": 0.6410542,
+      "epoch": 0.586884830035515,
+      "grad_norm": 5.0,
+      "learning_rate": 8.465378229698737e-06,
+      "loss": 1.68404961,
+      "memory(GiB)": 111.15,
+      "step": 23135,
+      "train_speed(iter/s)": 0.448637
+    },
+    {
+      "acc": 0.63822732,
+      "epoch": 0.58701166920345,
+      "grad_norm": 5.15625,
+      "learning_rate": 8.464622237529123e-06,
+      "loss": 1.67564049,
+      "memory(GiB)": 111.15,
+      "step": 23140,
+      "train_speed(iter/s)": 0.448687
+    },
+    {
+      "acc": 0.6611187,
+      "epoch": 0.587138508371385,
+      "grad_norm": 5.5625,
+      "learning_rate": 8.463866092969958e-06,
+      "loss": 1.5383131,
+      "memory(GiB)": 111.15,
+      "step": 23145,
+      "train_speed(iter/s)": 0.448738
+    },
+    {
+      "acc": 0.6561348,
+      "epoch": 0.5872653475393201,
+      "grad_norm": 5.375,
+      "learning_rate": 8.463109796054495e-06,
+      "loss": 1.64392185,
+      "memory(GiB)": 111.15,
+      "step": 23150,
+      "train_speed(iter/s)": 0.448788
+    },
+    {
+      "acc": 0.64802809,
+      "epoch": 0.5873921867072552,
+      "grad_norm": 6.0625,
+      "learning_rate": 8.462353346815999e-06,
+      "loss": 1.62696209,
+      "memory(GiB)": 111.15,
+      "step": 23155,
+      "train_speed(iter/s)": 0.448839
+    },
+    {
+      "acc": 0.65053215,
+      "epoch": 0.5875190258751902,
+      "grad_norm": 5.5,
+      "learning_rate": 8.461596745287747e-06,
+      "loss": 1.62008381,
+      "memory(GiB)": 111.15,
+      "step": 23160,
+      "train_speed(iter/s)": 0.44889
+    },
+    {
+      "acc": 0.6399344,
+      "epoch": 0.5876458650431253,
+      "grad_norm": 5.15625,
+      "learning_rate": 8.460839991503016e-06,
+      "loss": 1.70293407,
+      "memory(GiB)": 111.15,
+      "step": 23165,
+      "train_speed(iter/s)": 0.44894
+    },
+    {
+      "acc": 0.66283607,
+      "epoch": 0.5877727042110604,
+      "grad_norm": 6.46875,
+      "learning_rate": 8.46008308549509e-06,
+      "loss": 1.56987171,
+      "memory(GiB)": 111.15,
+      "step": 23170,
+      "train_speed(iter/s)": 0.448991
+    },
+    {
+      "acc": 0.64818206,
+      "epoch": 0.5878995433789954,
+      "grad_norm": 5.5,
+      "learning_rate": 8.459326027297261e-06,
+      "loss": 1.60361042,
+      "memory(GiB)": 111.15,
+      "step": 23175,
+      "train_speed(iter/s)": 0.449042
+    },
+    {
+      "acc": 0.65253243,
+      "epoch": 0.5880263825469305,
+      "grad_norm": 5.84375,
+      "learning_rate": 8.45856881694283e-06,
+      "loss": 1.6228056,
+      "memory(GiB)": 111.15,
+      "step": 23180,
+      "train_speed(iter/s)": 0.449093
+    },
+    {
+      "acc": 0.65476165,
+      "epoch": 0.5881532217148655,
+      "grad_norm": 5.53125,
+      "learning_rate": 8.4578114544651e-06,
+      "loss": 1.58376656,
+      "memory(GiB)": 111.15,
+      "step": 23185,
+      "train_speed(iter/s)": 0.449144
+    },
+    {
+      "acc": 0.65313787,
+      "epoch": 0.5882800608828006,
+      "grad_norm": 5.28125,
+      "learning_rate": 8.457053939897385e-06,
+      "loss": 1.65006256,
+      "memory(GiB)": 111.15,
+      "step": 23190,
+      "train_speed(iter/s)": 0.449194
+    },
+    {
+      "acc": 0.66425161,
+      "epoch": 0.5884069000507357,
+      "grad_norm": 4.6875,
+      "learning_rate": 8.456296273273e-06,
+      "loss": 1.59740944,
+      "memory(GiB)": 111.15,
+      "step": 23195,
+      "train_speed(iter/s)": 0.449245
+    },
+    {
+      "acc": 0.65103226,
+      "epoch": 0.5885337392186707,
+      "grad_norm": 5.59375,
+      "learning_rate": 8.455538454625276e-06,
+      "loss": 1.63570061,
+      "memory(GiB)": 111.15,
+      "step": 23200,
+      "train_speed(iter/s)": 0.449295
+    },
+    {
+      "epoch": 0.5885337392186707,
+      "eval_acc": 0.6418238550982442,
+      "eval_loss": 1.6165494918823242,
+      "eval_runtime": 115.0647,
+      "eval_samples_per_second": 55.36,
+      "eval_steps_per_second": 27.68,
+      "step": 23200
+    },
+    {
+      "acc": 0.63927102,
+      "epoch": 0.5886605783866058,
+      "grad_norm": 5.9375,
+      "learning_rate": 8.454780483987544e-06,
+      "loss": 1.65435066,
+      "memory(GiB)": 111.15,
+      "step": 23205,
+      "train_speed(iter/s)": 0.448308
+    },
+    {
+      "acc": 0.65784788,
+      "epoch": 0.5887874175545409,
+      "grad_norm": 7.90625,
+      "learning_rate": 8.45402236139314e-06,
+      "loss": 1.60503693,
+      "memory(GiB)": 111.15,
+      "step": 23210,
+      "train_speed(iter/s)": 0.448358
+    },
+    {
+      "acc": 0.6503089,
+      "epoch": 0.5889142567224759,
+      "grad_norm": 5.03125,
+      "learning_rate": 8.453264086875411e-06,
+      "loss": 1.61936226,
+      "memory(GiB)": 111.15,
+      "step": 23215,
+      "train_speed(iter/s)": 0.448408
+    },
+    {
+      "acc": 0.64707217,
+      "epoch": 0.589041095890411,
+      "grad_norm": 6.0625,
+      "learning_rate": 8.452505660467713e-06,
+      "loss": 1.57188129,
+      "memory(GiB)": 111.15,
+      "step": 23220,
+      "train_speed(iter/s)": 0.448458
+    },
+    {
+      "acc": 0.65684462,
+      "epoch": 0.589167935058346,
+      "grad_norm": 6.8125,
+      "learning_rate": 8.451747082203398e-06,
+      "loss": 1.63755074,
+      "memory(GiB)": 111.15,
+      "step": 23225,
+      "train_speed(iter/s)": 0.448509
+    },
+    {
+      "acc": 0.66022835,
+      "epoch": 0.5892947742262811,
+      "grad_norm": 6.875,
+      "learning_rate": 8.450988352115838e-06,
+      "loss": 1.57754545,
+      "memory(GiB)": 111.15,
+      "step": 23230,
+      "train_speed(iter/s)": 0.44856
+    },
+    {
+      "acc": 0.64977036,
+      "epoch": 0.5894216133942162,
+      "grad_norm": 4.84375,
+      "learning_rate": 8.450229470238401e-06,
+      "loss": 1.61089973,
+      "memory(GiB)": 111.15,
+      "step": 23235,
+      "train_speed(iter/s)": 0.448611
+    },
+    {
+      "acc": 0.64307156,
+      "epoch": 0.5895484525621512,
+      "grad_norm": 6.5,
+      "learning_rate": 8.44947043660447e-06,
+      "loss": 1.64613953,
+      "memory(GiB)": 111.15,
+      "step": 23240,
+      "train_speed(iter/s)": 0.448661
+    },
+    {
+      "acc": 0.66351995,
+      "epoch": 0.5896752917300863,
+      "grad_norm": 5.71875,
+      "learning_rate": 8.448711251247425e-06,
+      "loss": 1.58214035,
+      "memory(GiB)": 111.15,
+      "step": 23245,
+      "train_speed(iter/s)": 0.448712
+    },
+    {
+      "acc": 0.65131969,
+      "epoch": 0.5898021308980214,
+      "grad_norm": 5.78125,
+      "learning_rate": 8.447951914200665e-06,
+      "loss": 1.62277603,
+      "memory(GiB)": 111.15,
+      "step": 23250,
+      "train_speed(iter/s)": 0.448762
+    },
+    {
+      "acc": 0.66434689,
+      "epoch": 0.5899289700659563,
+      "grad_norm": 5.1875,
+      "learning_rate": 8.447192425497583e-06,
+      "loss": 1.58982592,
+      "memory(GiB)": 111.15,
+      "step": 23255,
+      "train_speed(iter/s)": 0.448812
+    },
+    {
+      "acc": 0.66494951,
+      "epoch": 0.5900558092338914,
+      "grad_norm": 5.9375,
+      "learning_rate": 8.44643278517159e-06,
+      "loss": 1.56908293,
+      "memory(GiB)": 111.15,
+      "step": 23260,
+      "train_speed(iter/s)": 0.448862
+    },
+    {
+      "acc": 0.63575554,
+      "epoch": 0.5901826484018264,
+      "grad_norm": 5.0625,
+      "learning_rate": 8.445672993256095e-06,
+      "loss": 1.72937813,
+      "memory(GiB)": 111.15,
+      "step": 23265,
+      "train_speed(iter/s)": 0.448912
+    },
+    {
+      "acc": 0.63868203,
+      "epoch": 0.5903094875697615,
+      "grad_norm": 5.40625,
+      "learning_rate": 8.444913049784517e-06,
+      "loss": 1.69368629,
+      "memory(GiB)": 111.15,
+      "step": 23270,
+      "train_speed(iter/s)": 0.448962
+    },
+    {
+      "acc": 0.66530075,
+      "epoch": 0.5904363267376966,
+      "grad_norm": 5.53125,
+      "learning_rate": 8.444152954790285e-06,
+      "loss": 1.58076134,
+      "memory(GiB)": 111.15,
+      "step": 23275,
+      "train_speed(iter/s)": 0.449012
+    },
+    {
+      "acc": 0.65249124,
+      "epoch": 0.5905631659056316,
+      "grad_norm": 5.40625,
+      "learning_rate": 8.443392708306827e-06,
+      "loss": 1.64800987,
+      "memory(GiB)": 111.15,
+      "step": 23280,
+      "train_speed(iter/s)": 0.449062
+    },
+    {
+      "acc": 0.6551228,
+      "epoch": 0.5906900050735667,
+      "grad_norm": 6.15625,
+      "learning_rate": 8.442632310367585e-06,
+      "loss": 1.62363167,
+      "memory(GiB)": 111.15,
+      "step": 23285,
+      "train_speed(iter/s)": 0.449112
+    },
+    {
+      "acc": 0.65323839,
+      "epoch": 0.5908168442415018,
+      "grad_norm": 5.3125,
+      "learning_rate": 8.441871761006001e-06,
+      "loss": 1.60642662,
+      "memory(GiB)": 111.15,
+      "step": 23290,
+      "train_speed(iter/s)": 0.449162
+    },
+    {
+      "acc": 0.64363985,
+      "epoch": 0.5909436834094368,
+      "grad_norm": 6.28125,
+      "learning_rate": 8.441111060255533e-06,
+      "loss": 1.68104668,
+      "memory(GiB)": 111.15,
+      "step": 23295,
+      "train_speed(iter/s)": 0.449213
+    },
+    {
+      "acc": 0.62153292,
+      "epoch": 0.5910705225773719,
+      "grad_norm": 5.8125,
+      "learning_rate": 8.440350208149637e-06,
+      "loss": 1.76574135,
+      "memory(GiB)": 111.15,
+      "step": 23300,
+      "train_speed(iter/s)": 0.449262
+    },
+    {
+      "epoch": 0.5910705225773719,
+      "eval_acc": 0.6418326282117428,
+      "eval_loss": 1.616451621055603,
+      "eval_runtime": 113.5846,
+      "eval_samples_per_second": 56.082,
+      "eval_steps_per_second": 28.041,
+      "step": 23300
+    },
+    {
+      "acc": 0.65538616,
+      "epoch": 0.5911973617453069,
+      "grad_norm": 6.4375,
+      "learning_rate": 8.43958920472178e-06,
+      "loss": 1.63556728,
+      "memory(GiB)": 111.15,
+      "step": 23305,
+      "train_speed(iter/s)": 0.448292
+    },
+    {
+      "acc": 0.65255718,
+      "epoch": 0.591324200913242,
+      "grad_norm": 4.5625,
+      "learning_rate": 8.43882805000543e-06,
+      "loss": 1.63698425,
+      "memory(GiB)": 111.15,
+      "step": 23310,
+      "train_speed(iter/s)": 0.448342
+    },
+    {
+      "acc": 0.63830509,
+      "epoch": 0.5914510400811771,
+      "grad_norm": 5.25,
+      "learning_rate": 8.43806674403407e-06,
+      "loss": 1.67597847,
+      "memory(GiB)": 111.15,
+      "step": 23315,
+      "train_speed(iter/s)": 0.448393
+    },
+    {
+      "acc": 0.66265259,
+      "epoch": 0.5915778792491121,
+      "grad_norm": 5.5625,
+      "learning_rate": 8.437305286841187e-06,
+      "loss": 1.55787048,
+      "memory(GiB)": 111.15,
+      "step": 23320,
+      "train_speed(iter/s)": 0.448443
+    },
+    {
+      "acc": 0.66816235,
+      "epoch": 0.5917047184170472,
+      "grad_norm": 4.96875,
+      "learning_rate": 8.436543678460269e-06,
+      "loss": 1.60376701,
+      "memory(GiB)": 111.15,
+      "step": 23325,
+      "train_speed(iter/s)": 0.448493
+    },
+    {
+      "acc": 0.65872583,
+      "epoch": 0.5918315575849823,
+      "grad_norm": 6.40625,
+      "learning_rate": 8.435781918924817e-06,
+      "loss": 1.61508293,
+      "memory(GiB)": 111.15,
+      "step": 23330,
+      "train_speed(iter/s)": 0.448543
+    },
+    {
+      "acc": 0.660042,
+      "epoch": 0.5919583967529173,
+      "grad_norm": 5.5,
+      "learning_rate": 8.435020008268335e-06,
+      "loss": 1.57884369,
+      "memory(GiB)": 111.15,
+      "step": 23335,
+      "train_speed(iter/s)": 0.448593
+    },
+    {
+      "acc": 0.65065513,
+      "epoch": 0.5920852359208524,
+      "grad_norm": 5.875,
+      "learning_rate": 8.43425794652434e-06,
+      "loss": 1.60144958,
+      "memory(GiB)": 111.15,
+      "step": 23340,
+      "train_speed(iter/s)": 0.448644
+    },
+    {
+      "acc": 0.6374424,
+      "epoch": 0.5922120750887874,
+      "grad_norm": 4.84375,
+      "learning_rate": 8.433495733726345e-06,
+      "loss": 1.67704544,
+      "memory(GiB)": 111.15,
+      "step": 23345,
+      "train_speed(iter/s)": 0.448695
+    },
+    {
+      "acc": 0.64767418,
+      "epoch": 0.5923389142567225,
+      "grad_norm": 4.5,
+      "learning_rate": 8.43273336990788e-06,
+      "loss": 1.69231625,
+      "memory(GiB)": 111.15,
+      "step": 23350,
+      "train_speed(iter/s)": 0.448745
+    },
+    {
+      "acc": 0.65411224,
+      "epoch": 0.5924657534246576,
+      "grad_norm": 5.25,
+      "learning_rate": 8.431970855102475e-06,
+      "loss": 1.62895432,
+      "memory(GiB)": 111.15,
+      "step": 23355,
+      "train_speed(iter/s)": 0.448796
+    },
+    {
+      "acc": 0.65874577,
+      "epoch": 0.5925925925925926,
+      "grad_norm": 4.21875,
+      "learning_rate": 8.43120818934367e-06,
+      "loss": 1.58886738,
+      "memory(GiB)": 111.15,
+      "step": 23360,
+      "train_speed(iter/s)": 0.448846
+    },
+    {
+      "acc": 0.65032244,
+      "epoch": 0.5927194317605277,
+      "grad_norm": 5.53125,
+      "learning_rate": 8.430445372665008e-06,
+      "loss": 1.67244072,
+      "memory(GiB)": 111.15,
+      "step": 23365,
+      "train_speed(iter/s)": 0.448897
+    },
+    {
+      "acc": 0.64135933,
+      "epoch": 0.5928462709284628,
+      "grad_norm": 4.8125,
+      "learning_rate": 8.429682405100042e-06,
+      "loss": 1.69656372,
+      "memory(GiB)": 111.15,
+      "step": 23370,
+      "train_speed(iter/s)": 0.448948
+    },
+    {
+      "acc": 0.6627584,
+      "epoch": 0.5929731100963977,
+      "grad_norm": 5.4375,
+      "learning_rate": 8.428919286682333e-06,
+      "loss": 1.59113445,
+      "memory(GiB)": 111.15,
+      "step": 23375,
+      "train_speed(iter/s)": 0.448999
+    },
+    {
+      "acc": 0.66017408,
+      "epoch": 0.5930999492643328,
+      "grad_norm": 5.0,
+      "learning_rate": 8.428156017445443e-06,
+      "loss": 1.59972477,
+      "memory(GiB)": 111.15,
+      "step": 23380,
+      "train_speed(iter/s)": 0.449049
+    },
+    {
+      "acc": 0.64495106,
+      "epoch": 0.5932267884322678,
+      "grad_norm": 5.625,
+      "learning_rate": 8.427392597422947e-06,
+      "loss": 1.64710007,
+      "memory(GiB)": 111.15,
+      "step": 23385,
+      "train_speed(iter/s)": 0.4491
+    },
+    {
+      "acc": 0.64679041,
+      "epoch": 0.5933536276002029,
+      "grad_norm": 5.0,
+      "learning_rate": 8.426629026648423e-06,
+      "loss": 1.63350277,
+      "memory(GiB)": 111.15,
+      "step": 23390,
+      "train_speed(iter/s)": 0.449151
+    },
+    {
+      "acc": 0.64052677,
+      "epoch": 0.593480466768138,
+      "grad_norm": 6.21875,
+      "learning_rate": 8.425865305155455e-06,
+      "loss": 1.67144451,
+      "memory(GiB)": 111.15,
+      "step": 23395,
+      "train_speed(iter/s)": 0.449201
+    },
+    {
+      "acc": 0.65852709,
+      "epoch": 0.593607305936073,
+      "grad_norm": 5.6875,
+      "learning_rate": 8.425101432977636e-06,
+      "loss": 1.64728832,
+      "memory(GiB)": 111.15,
+      "step": 23400,
+      "train_speed(iter/s)": 0.449251
+    },
+    {
+      "epoch": 0.593607305936073,
+      "eval_acc": 0.641776229624966,
+      "eval_loss": 1.6166644096374512,
+      "eval_runtime": 113.154,
+      "eval_samples_per_second": 56.295,
+      "eval_steps_per_second": 28.147,
+      "step": 23400
+    },
+    {
+      "acc": 0.62818718,
+      "epoch": 0.5937341451040081,
+      "grad_norm": 5.40625,
+      "learning_rate": 8.424337410148562e-06,
+      "loss": 1.68228779,
+      "memory(GiB)": 111.15,
+      "step": 23405,
+      "train_speed(iter/s)": 0.448289
+    },
+    {
+      "acc": 0.63048315,
+      "epoch": 0.5938609842719432,
+      "grad_norm": 5.875,
+      "learning_rate": 8.423573236701842e-06,
+      "loss": 1.68827209,
+      "memory(GiB)": 111.15,
+      "step": 23410,
+      "train_speed(iter/s)": 0.448339
+    },
+    {
+      "acc": 0.64381137,
+      "epoch": 0.5939878234398782,
+      "grad_norm": 5.0625,
+      "learning_rate": 8.422808912671086e-06,
+      "loss": 1.67398682,
+      "memory(GiB)": 111.15,
+      "step": 23415,
+      "train_speed(iter/s)": 0.448389
+    },
+    {
+      "acc": 0.66279402,
+      "epoch": 0.5941146626078133,
+      "grad_norm": 4.28125,
+      "learning_rate": 8.422044438089911e-06,
+      "loss": 1.61469784,
+      "memory(GiB)": 111.15,
+      "step": 23420,
+      "train_speed(iter/s)": 0.448439
+    },
+    {
+      "acc": 0.6581779,
+      "epoch": 0.5942415017757483,
+      "grad_norm": 7.0625,
+      "learning_rate": 8.421279812991944e-06,
+      "loss": 1.61584778,
+      "memory(GiB)": 111.15,
+      "step": 23425,
+      "train_speed(iter/s)": 0.448489
+    },
+    {
+      "acc": 0.6525785,
+      "epoch": 0.5943683409436834,
+      "grad_norm": 4.65625,
+      "learning_rate": 8.420515037410817e-06,
+      "loss": 1.62470512,
+      "memory(GiB)": 111.15,
+      "step": 23430,
+      "train_speed(iter/s)": 0.448539
+    },
+    {
+      "acc": 0.64000359,
+      "epoch": 0.5944951801116185,
+      "grad_norm": 4.90625,
+      "learning_rate": 8.419750111380166e-06,
+      "loss": 1.60711708,
+      "memory(GiB)": 111.15,
+      "step": 23435,
+      "train_speed(iter/s)": 0.448589
+    },
+    {
+      "acc": 0.64769611,
+      "epoch": 0.5946220192795535,
+      "grad_norm": 5.3125,
+      "learning_rate": 8.418985034933637e-06,
+      "loss": 1.66046066,
+      "memory(GiB)": 111.15,
+      "step": 23440,
+      "train_speed(iter/s)": 0.44864
+    },
+    {
+      "acc": 0.65740738,
+      "epoch": 0.5947488584474886,
+      "grad_norm": 5.34375,
+      "learning_rate": 8.418219808104882e-06,
+      "loss": 1.58712006,
+      "memory(GiB)": 111.15,
+      "step": 23445,
+      "train_speed(iter/s)": 0.44869
+    },
+    {
+      "acc": 0.65048394,
+      "epoch": 0.5948756976154237,
+      "grad_norm": 5.5625,
+      "learning_rate": 8.417454430927559e-06,
+      "loss": 1.63169708,
+      "memory(GiB)": 111.15,
+      "step": 23450,
+      "train_speed(iter/s)": 0.448741
+    },
+    {
+      "acc": 0.64746399,
+      "epoch": 0.5950025367833587,
+      "grad_norm": 5.125,
+      "learning_rate": 8.41668890343533e-06,
+      "loss": 1.66768456,
+      "memory(GiB)": 111.15,
+      "step": 23455,
+      "train_speed(iter/s)": 0.448791
+    },
+    {
+      "acc": 0.63737059,
+      "epoch": 0.5951293759512938,
+      "grad_norm": 4.4375,
+      "learning_rate": 8.41592322566187e-06,
+      "loss": 1.69460106,
+      "memory(GiB)": 111.15,
+      "step": 23460,
+      "train_speed(iter/s)": 0.448841
+    },
+    {
+      "acc": 0.6488472,
+      "epoch": 0.5952562151192288,
+      "grad_norm": 5.71875,
+      "learning_rate": 8.415157397640857e-06,
+      "loss": 1.55209961,
+      "memory(GiB)": 111.15,
+      "step": 23465,
+      "train_speed(iter/s)": 0.448891
+    },
+    {
+      "acc": 0.64201517,
+      "epoch": 0.5953830542871639,
+      "grad_norm": 5.375,
+      "learning_rate": 8.414391419405972e-06,
+      "loss": 1.63962631,
+      "memory(GiB)": 111.15,
+      "step": 23470,
+      "train_speed(iter/s)": 0.448941
+    },
+    {
+      "acc": 0.6491375,
+      "epoch": 0.595509893455099,
+      "grad_norm": 5.875,
+      "learning_rate": 8.413625290990909e-06,
+      "loss": 1.6684721,
+      "memory(GiB)": 111.15,
+      "step": 23475,
+      "train_speed(iter/s)": 0.448992
+    },
+    {
+      "acc": 0.66506882,
+      "epoch": 0.595636732623034,
+      "grad_norm": 5.25,
+      "learning_rate": 8.412859012429365e-06,
+      "loss": 1.56786804,
+      "memory(GiB)": 111.15,
+      "step": 23480,
+      "train_speed(iter/s)": 0.449042
+    },
+    {
+      "acc": 0.65743551,
+      "epoch": 0.5957635717909691,
+      "grad_norm": 5.3125,
+      "learning_rate": 8.412092583755043e-06,
+      "loss": 1.61064625,
+      "memory(GiB)": 111.15,
+      "step": 23485,
+      "train_speed(iter/s)": 0.449092
+    },
+    {
+      "acc": 0.64781294,
+      "epoch": 0.5958904109589042,
+      "grad_norm": 5.1875,
+      "learning_rate": 8.411326005001658e-06,
+      "loss": 1.64092655,
+      "memory(GiB)": 111.15,
+      "step": 23490,
+      "train_speed(iter/s)": 0.449142
+    },
+    {
+      "acc": 0.64041772,
+      "epoch": 0.5960172501268391,
+      "grad_norm": 5.40625,
+      "learning_rate": 8.410559276202922e-06,
+      "loss": 1.6614193,
+      "memory(GiB)": 111.15,
+      "step": 23495,
+      "train_speed(iter/s)": 0.449192
+    },
+    {
+      "acc": 0.63829336,
+      "epoch": 0.5961440892947742,
+      "grad_norm": 4.5,
+      "learning_rate": 8.409792397392565e-06,
+      "loss": 1.64132404,
+      "memory(GiB)": 111.15,
+      "step": 23500,
+      "train_speed(iter/s)": 0.449242
+    },
+    {
+      "epoch": 0.5961440892947742,
+      "eval_acc": 0.6418731516407602,
+      "eval_loss": 1.6161493062973022,
+      "eval_runtime": 113.7131,
+      "eval_samples_per_second": 56.018,
+      "eval_steps_per_second": 28.009,
+      "step": 23500
+    },
+    {
+      "acc": 0.64420033,
+      "epoch": 0.5962709284627092,
+      "grad_norm": 5.9375,
+      "learning_rate": 8.40902536860431e-06,
+      "loss": 1.63698349,
+      "memory(GiB)": 111.15,
+      "step": 23505,
+      "train_speed(iter/s)": 0.448278
+    },
+    {
+      "acc": 0.6546133,
+      "epoch": 0.5963977676306443,
+      "grad_norm": 5.375,
+      "learning_rate": 8.408258189871904e-06,
+      "loss": 1.59954939,
+      "memory(GiB)": 111.15,
+      "step": 23510,
+      "train_speed(iter/s)": 0.448327
+    },
+    {
+      "acc": 0.66496115,
+      "epoch": 0.5965246067985794,
+      "grad_norm": 5.0625,
+      "learning_rate": 8.407490861229084e-06,
+      "loss": 1.63849277,
+      "memory(GiB)": 111.15,
+      "step": 23515,
+      "train_speed(iter/s)": 0.448377
+    },
+    {
+      "acc": 0.6422358,
+      "epoch": 0.5966514459665144,
+      "grad_norm": 6.4375,
+      "learning_rate": 8.406723382709603e-06,
+      "loss": 1.6848402,
+      "memory(GiB)": 111.15,
+      "step": 23520,
+      "train_speed(iter/s)": 0.448427
+    },
+    {
+      "acc": 0.66246252,
+      "epoch": 0.5967782851344495,
+      "grad_norm": 5.03125,
+      "learning_rate": 8.405955754347216e-06,
+      "loss": 1.64211864,
+      "memory(GiB)": 111.15,
+      "step": 23525,
+      "train_speed(iter/s)": 0.448476
+    },
+    {
+      "acc": 0.65280604,
+      "epoch": 0.5969051243023846,
+      "grad_norm": 5.09375,
+      "learning_rate": 8.40518797617569e-06,
+      "loss": 1.62443275,
+      "memory(GiB)": 111.15,
+      "step": 23530,
+      "train_speed(iter/s)": 0.448525
+    },
+    {
+      "acc": 0.66929989,
+      "epoch": 0.5970319634703196,
+      "grad_norm": 5.25,
+      "learning_rate": 8.404420048228794e-06,
+      "loss": 1.48864632,
+      "memory(GiB)": 111.15,
+      "step": 23535,
+      "train_speed(iter/s)": 0.448575
+    },
+    {
+      "acc": 0.63921747,
+      "epoch": 0.5971588026382547,
+      "grad_norm": 4.65625,
+      "learning_rate": 8.403651970540305e-06,
+      "loss": 1.68685303,
+      "memory(GiB)": 111.15,
+      "step": 23540,
+      "train_speed(iter/s)": 0.448625
+    },
+    {
+      "acc": 0.6429018,
+      "epoch": 0.5972856418061897,
+      "grad_norm": 5.5,
+      "learning_rate": 8.402883743144005e-06,
+      "loss": 1.60751457,
+      "memory(GiB)": 111.15,
+      "step": 23545,
+      "train_speed(iter/s)": 0.448675
+    },
+    {
+      "acc": 0.64981928,
+      "epoch": 0.5974124809741248,
+      "grad_norm": 5.5625,
+      "learning_rate": 8.402115366073686e-06,
+      "loss": 1.66617432,
+      "memory(GiB)": 111.15,
+      "step": 23550,
+      "train_speed(iter/s)": 0.448725
+    },
+    {
+      "acc": 0.64550829,
+      "epoch": 0.5975393201420599,
+      "grad_norm": 5.40625,
+      "learning_rate": 8.401346839363143e-06,
+      "loss": 1.61635437,
+      "memory(GiB)": 111.15,
+      "step": 23555,
+      "train_speed(iter/s)": 0.448775
+    },
+    {
+      "acc": 0.65077085,
+      "epoch": 0.5976661593099949,
+      "grad_norm": 5.4375,
+      "learning_rate": 8.40057816304618e-06,
+      "loss": 1.63702354,
+      "memory(GiB)": 111.15,
+      "step": 23560,
+      "train_speed(iter/s)": 0.448825
+    },
+    {
+      "acc": 0.64409399,
+      "epoch": 0.59779299847793,
+      "grad_norm": 6.5,
+      "learning_rate": 8.399809337156608e-06,
+      "loss": 1.6966114,
+      "memory(GiB)": 111.15,
+      "step": 23565,
+      "train_speed(iter/s)": 0.448875
+    },
+    {
+      "acc": 0.64371099,
+      "epoch": 0.5979198376458651,
+      "grad_norm": 4.96875,
+      "learning_rate": 8.39904036172824e-06,
+      "loss": 1.62886677,
+      "memory(GiB)": 111.15,
+      "step": 23570,
+      "train_speed(iter/s)": 0.448925
+    },
+    {
+      "acc": 0.64710007,
+      "epoch": 0.5980466768138001,
+      "grad_norm": 5.125,
+      "learning_rate": 8.398271236794904e-06,
+      "loss": 1.62430553,
+      "memory(GiB)": 111.15,
+      "step": 23575,
+      "train_speed(iter/s)": 0.448975
+    },
+    {
+      "acc": 0.64346023,
+      "epoch": 0.5981735159817352,
+      "grad_norm": 5.875,
+      "learning_rate": 8.397501962390427e-06,
+      "loss": 1.62991676,
+      "memory(GiB)": 111.15,
+      "step": 23580,
+      "train_speed(iter/s)": 0.449025
+    },
+    {
+      "acc": 0.6354207,
+      "epoch": 0.5983003551496702,
+      "grad_norm": 4.875,
+      "learning_rate": 8.396732538548642e-06,
+      "loss": 1.64980659,
+      "memory(GiB)": 111.15,
+      "step": 23585,
+      "train_speed(iter/s)": 0.449074
+    },
+    {
+      "acc": 0.65266747,
+      "epoch": 0.5984271943176053,
+      "grad_norm": 5.0,
+      "learning_rate": 8.395962965303397e-06,
+      "loss": 1.69421768,
+      "memory(GiB)": 111.15,
+      "step": 23590,
+      "train_speed(iter/s)": 0.449124
+    },
+    {
+      "acc": 0.66890898,
+      "epoch": 0.5985540334855404,
+      "grad_norm": 4.78125,
+      "learning_rate": 8.395193242688537e-06,
+      "loss": 1.60606575,
+      "memory(GiB)": 111.15,
+      "step": 23595,
+      "train_speed(iter/s)": 0.449174
+    },
+    {
+      "acc": 0.65181241,
+      "epoch": 0.5986808726534754,
+      "grad_norm": 5.21875,
+      "learning_rate": 8.394423370737922e-06,
+      "loss": 1.55499516,
+      "memory(GiB)": 111.15,
+      "step": 23600,
+      "train_speed(iter/s)": 0.449224
+    },
+    {
+      "epoch": 0.5986808726534754,
+      "eval_acc": 0.6419082440947547,
+      "eval_loss": 1.6160775423049927,
+      "eval_runtime": 112.9358,
+      "eval_samples_per_second": 56.404,
+      "eval_steps_per_second": 28.202,
+      "step": 23600
+    },
+    {
+      "acc": 0.65439949,
+      "epoch": 0.5988077118214105,
+      "grad_norm": 5.21875,
+      "learning_rate": 8.393653349485412e-06,
+      "loss": 1.59696865,
+      "memory(GiB)": 111.15,
+      "step": 23605,
+      "train_speed(iter/s)": 0.448271
+    },
+    {
+      "acc": 0.64576721,
+      "epoch": 0.5989345509893456,
+      "grad_norm": 6.375,
+      "learning_rate": 8.392883178964874e-06,
+      "loss": 1.66987896,
+      "memory(GiB)": 111.15,
+      "step": 23610,
+      "train_speed(iter/s)": 0.448321
+    },
+    {
+      "acc": 0.6554678,
+      "epoch": 0.5990613901572805,
+      "grad_norm": 5.625,
+      "learning_rate": 8.392112859210186e-06,
+      "loss": 1.60680008,
+      "memory(GiB)": 111.15,
+      "step": 23615,
+      "train_speed(iter/s)": 0.44837
+    },
+    {
+      "acc": 0.64539347,
+      "epoch": 0.5991882293252156,
+      "grad_norm": 5.21875,
+      "learning_rate": 8.391342390255232e-06,
+      "loss": 1.66131287,
+      "memory(GiB)": 111.15,
+      "step": 23620,
+      "train_speed(iter/s)": 0.44842
+    },
+    {
+      "acc": 0.64740324,
+      "epoch": 0.5993150684931506,
+      "grad_norm": 4.65625,
+      "learning_rate": 8.390571772133896e-06,
+      "loss": 1.64869537,
+      "memory(GiB)": 111.15,
+      "step": 23625,
+      "train_speed(iter/s)": 0.448469
+    },
+    {
+      "acc": 0.66083355,
+      "epoch": 0.5994419076610857,
+      "grad_norm": 5.625,
+      "learning_rate": 8.389801004880077e-06,
+      "loss": 1.60963573,
+      "memory(GiB)": 111.15,
+      "step": 23630,
+      "train_speed(iter/s)": 0.448519
+    },
+    {
+      "acc": 0.64124022,
+      "epoch": 0.5995687468290208,
+      "grad_norm": 5.15625,
+      "learning_rate": 8.389030088527675e-06,
+      "loss": 1.68125591,
+      "memory(GiB)": 111.15,
+      "step": 23635,
+      "train_speed(iter/s)": 0.448568
+    },
+    {
+      "acc": 0.64289541,
+      "epoch": 0.5996955859969558,
+      "grad_norm": 5.34375,
+      "learning_rate": 8.388259023110598e-06,
+      "loss": 1.68053303,
+      "memory(GiB)": 111.15,
+      "step": 23640,
+      "train_speed(iter/s)": 0.448618
+    },
+    {
+      "acc": 0.64912472,
+      "epoch": 0.5998224251648909,
+      "grad_norm": 4.875,
+      "learning_rate": 8.387487808662765e-06,
+      "loss": 1.63533363,
+      "memory(GiB)": 111.15,
+      "step": 23645,
+      "train_speed(iter/s)": 0.448667
+    },
+    {
+      "acc": 0.63560953,
+      "epoch": 0.599949264332826,
+      "grad_norm": 5.21875,
+      "learning_rate": 8.38671644521809e-06,
+      "loss": 1.67629261,
+      "memory(GiB)": 111.15,
+      "step": 23650,
+      "train_speed(iter/s)": 0.448717
+    },
+    {
+      "acc": 0.65077744,
+      "epoch": 0.600076103500761,
+      "grad_norm": 5.03125,
+      "learning_rate": 8.385944932810508e-06,
+      "loss": 1.64791584,
+      "memory(GiB)": 111.15,
+      "step": 23655,
+      "train_speed(iter/s)": 0.448766
+    },
+    {
+      "acc": 0.6605206,
+      "epoch": 0.6002029426686961,
+      "grad_norm": 5.40625,
+      "learning_rate": 8.385173271473948e-06,
+      "loss": 1.61464653,
+      "memory(GiB)": 111.15,
+      "step": 23660,
+      "train_speed(iter/s)": 0.448816
+    },
+    {
+      "acc": 0.64481888,
+      "epoch": 0.6003297818366311,
+      "grad_norm": 4.78125,
+      "learning_rate": 8.384401461242355e-06,
+      "loss": 1.68187256,
+      "memory(GiB)": 111.15,
+      "step": 23665,
+      "train_speed(iter/s)": 0.448865
+    },
+    {
+      "acc": 0.64898453,
+      "epoch": 0.6004566210045662,
+      "grad_norm": 6.0625,
+      "learning_rate": 8.383629502149678e-06,
+      "loss": 1.61226654,
+      "memory(GiB)": 111.15,
+      "step": 23670,
+      "train_speed(iter/s)": 0.448915
+    },
+    {
+      "acc": 0.64739227,
+      "epoch": 0.6005834601725013,
+      "grad_norm": 5.59375,
+      "learning_rate": 8.382857394229865e-06,
+      "loss": 1.61824398,
+      "memory(GiB)": 111.15,
+      "step": 23675,
+      "train_speed(iter/s)": 0.448964
+    },
+    {
+      "acc": 0.64616699,
+      "epoch": 0.6007102993404363,
+      "grad_norm": 5.3125,
+      "learning_rate": 8.382085137516883e-06,
+      "loss": 1.65122662,
+      "memory(GiB)": 111.15,
+      "step": 23680,
+      "train_speed(iter/s)": 0.449014
+    },
+    {
+      "acc": 0.66652431,
+      "epoch": 0.6008371385083714,
+      "grad_norm": 4.84375,
+      "learning_rate": 8.381312732044696e-06,
+      "loss": 1.60495186,
+      "memory(GiB)": 111.15,
+      "step": 23685,
+      "train_speed(iter/s)": 0.449064
+    },
+    {
+      "acc": 0.66459036,
+      "epoch": 0.6009639776763065,
+      "grad_norm": 5.9375,
+      "learning_rate": 8.380540177847278e-06,
+      "loss": 1.58745747,
+      "memory(GiB)": 111.15,
+      "step": 23690,
+      "train_speed(iter/s)": 0.449114
+    },
+    {
+      "acc": 0.63450336,
+      "epoch": 0.6010908168442415,
+      "grad_norm": 5.09375,
+      "learning_rate": 8.37976747495861e-06,
+      "loss": 1.71009655,
+      "memory(GiB)": 111.15,
+      "step": 23695,
+      "train_speed(iter/s)": 0.449164
+    },
+    {
+      "acc": 0.64483576,
+      "epoch": 0.6012176560121766,
+      "grad_norm": 6.59375,
+      "learning_rate": 8.378994623412679e-06,
+      "loss": 1.58282604,
+      "memory(GiB)": 111.15,
+      "step": 23700,
+      "train_speed(iter/s)": 0.449214
+    },
+    {
+      "epoch": 0.6012176560121766,
+      "eval_acc": 0.6419801000719813,
+      "eval_loss": 1.6157214641571045,
+      "eval_runtime": 113.2671,
+      "eval_samples_per_second": 56.239,
+      "eval_steps_per_second": 28.119,
+      "step": 23700
+    },
+    {
+      "acc": 0.63603334,
+      "epoch": 0.6013444951801116,
+      "grad_norm": 5.1875,
+      "learning_rate": 8.378221623243478e-06,
+      "loss": 1.64662209,
+      "memory(GiB)": 111.15,
+      "step": 23705,
+      "train_speed(iter/s)": 0.448263
+    },
+    {
+      "acc": 0.64660902,
+      "epoch": 0.6014713343480467,
+      "grad_norm": 4.75,
+      "learning_rate": 8.377448474485008e-06,
+      "loss": 1.57717714,
+      "memory(GiB)": 111.15,
+      "step": 23710,
+      "train_speed(iter/s)": 0.448312
+    },
+    {
+      "acc": 0.65618019,
+      "epoch": 0.6015981735159818,
+      "grad_norm": 4.625,
+      "learning_rate": 8.376675177171273e-06,
+      "loss": 1.63086014,
+      "memory(GiB)": 111.15,
+      "step": 23715,
+      "train_speed(iter/s)": 0.448362
+    },
+    {
+      "acc": 0.65910282,
+      "epoch": 0.6017250126839168,
+      "grad_norm": 5.0625,
+      "learning_rate": 8.375901731336292e-06,
+      "loss": 1.60130844,
+      "memory(GiB)": 111.15,
+      "step": 23720,
+      "train_speed(iter/s)": 0.448412
+    },
+    {
+      "acc": 0.65640688,
+      "epoch": 0.6018518518518519,
+      "grad_norm": 6.28125,
+      "learning_rate": 8.375128137014076e-06,
+      "loss": 1.61374168,
+      "memory(GiB)": 111.15,
+      "step": 23725,
+      "train_speed(iter/s)": 0.448462
+    },
+    {
+      "acc": 0.63872781,
+      "epoch": 0.601978691019787,
+      "grad_norm": 6.78125,
+      "learning_rate": 8.374354394238658e-06,
+      "loss": 1.73616867,
+      "memory(GiB)": 111.15,
+      "step": 23730,
+      "train_speed(iter/s)": 0.448512
+    },
+    {
+      "acc": 0.65630341,
+      "epoch": 0.602105530187722,
+      "grad_norm": 5.375,
+      "learning_rate": 8.373580503044068e-06,
+      "loss": 1.58801384,
+      "memory(GiB)": 111.15,
+      "step": 23735,
+      "train_speed(iter/s)": 0.448562
+    },
+    {
+      "acc": 0.65598059,
+      "epoch": 0.602232369355657,
+      "grad_norm": 6.90625,
+      "learning_rate": 8.372806463464347e-06,
+      "loss": 1.66198902,
+      "memory(GiB)": 111.15,
+      "step": 23740,
+      "train_speed(iter/s)": 0.448612
+    },
+    {
+      "acc": 0.66888008,
+      "epoch": 0.602359208523592,
+      "grad_norm": 5.4375,
+      "learning_rate": 8.372032275533538e-06,
+      "loss": 1.51733227,
+      "memory(GiB)": 111.15,
+      "step": 23745,
+      "train_speed(iter/s)": 0.448662
+    },
+    {
+      "acc": 0.64712029,
+      "epoch": 0.6024860476915271,
+      "grad_norm": 5.6875,
+      "learning_rate": 8.371257939285692e-06,
+      "loss": 1.6361578,
+      "memory(GiB)": 111.15,
+      "step": 23750,
+      "train_speed(iter/s)": 0.448713
+    },
+    {
+      "acc": 0.6643734,
+      "epoch": 0.6026128868594622,
+      "grad_norm": 5.53125,
+      "learning_rate": 8.370483454754873e-06,
+      "loss": 1.612043,
+      "memory(GiB)": 111.15,
+      "step": 23755,
+      "train_speed(iter/s)": 0.448763
+    },
+    {
+      "acc": 0.65706902,
+      "epoch": 0.6027397260273972,
+      "grad_norm": 4.90625,
+      "learning_rate": 8.369708821975144e-06,
+      "loss": 1.61559105,
+      "memory(GiB)": 111.15,
+      "step": 23760,
+      "train_speed(iter/s)": 0.448813
+    },
+    {
+      "acc": 0.66564808,
+      "epoch": 0.6028665651953323,
+      "grad_norm": 5.71875,
+      "learning_rate": 8.368934040980576e-06,
+      "loss": 1.56224689,
+      "memory(GiB)": 111.15,
+      "step": 23765,
+      "train_speed(iter/s)": 0.448863
+    },
+    {
+      "acc": 0.65637512,
+      "epoch": 0.6029934043632674,
+      "grad_norm": 5.875,
+      "learning_rate": 8.368159111805246e-06,
+      "loss": 1.68899155,
+      "memory(GiB)": 111.15,
+      "step": 23770,
+      "train_speed(iter/s)": 0.448914
+    },
+    {
+      "acc": 0.66560898,
+      "epoch": 0.6031202435312024,
+      "grad_norm": 4.59375,
+      "learning_rate": 8.367384034483242e-06,
+      "loss": 1.5762455,
+      "memory(GiB)": 111.15,
+      "step": 23775,
+      "train_speed(iter/s)": 0.448964
+    },
+    {
+      "acc": 0.65194826,
+      "epoch": 0.6032470826991375,
+      "grad_norm": 5.4375,
+      "learning_rate": 8.366608809048653e-06,
+      "loss": 1.67635307,
+      "memory(GiB)": 111.15,
+      "step": 23780,
+      "train_speed(iter/s)": 0.449014
+    },
+    {
+      "acc": 0.6362474,
+      "epoch": 0.6033739218670725,
+      "grad_norm": 6.15625,
+      "learning_rate": 8.365833435535579e-06,
+      "loss": 1.65092773,
+      "memory(GiB)": 111.15,
+      "step": 23785,
+      "train_speed(iter/s)": 0.449064
+    },
+    {
+      "acc": 0.65501471,
+      "epoch": 0.6035007610350076,
+      "grad_norm": 5.46875,
+      "learning_rate": 8.365057913978123e-06,
+      "loss": 1.68895664,
+      "memory(GiB)": 111.15,
+      "step": 23790,
+      "train_speed(iter/s)": 0.449113
+    },
+    {
+      "acc": 0.63755245,
+      "epoch": 0.6036276002029427,
+      "grad_norm": 6.0,
+      "learning_rate": 8.364282244410394e-06,
+      "loss": 1.72748241,
+      "memory(GiB)": 111.15,
+      "step": 23795,
+      "train_speed(iter/s)": 0.449163
+    },
+    {
+      "acc": 0.65550599,
+      "epoch": 0.6037544393708777,
+      "grad_norm": 4.4375,
+      "learning_rate": 8.363506426866513e-06,
+      "loss": 1.62264557,
+      "memory(GiB)": 111.15,
+      "step": 23800,
+      "train_speed(iter/s)": 0.449213
+    },
+    {
+      "epoch": 0.6037544393708777,
+      "eval_acc": 0.6420277255452594,
+      "eval_loss": 1.6157273054122925,
+      "eval_runtime": 112.6587,
+      "eval_samples_per_second": 56.542,
+      "eval_steps_per_second": 28.271,
+      "step": 23800
+    },
+    {
+      "acc": 0.64704466,
+      "epoch": 0.6038812785388128,
+      "grad_norm": 4.625,
+      "learning_rate": 8.362730461380602e-06,
+      "loss": 1.62869205,
+      "memory(GiB)": 111.15,
+      "step": 23805,
+      "train_speed(iter/s)": 0.448271
+    },
+    {
+      "acc": 0.6419909,
+      "epoch": 0.6040081177067479,
+      "grad_norm": 5.625,
+      "learning_rate": 8.361954347986793e-06,
+      "loss": 1.63328896,
+      "memory(GiB)": 111.15,
+      "step": 23810,
+      "train_speed(iter/s)": 0.44832
+    },
+    {
+      "acc": 0.6649404,
+      "epoch": 0.6041349568746829,
+      "grad_norm": 4.375,
+      "learning_rate": 8.36117808671922e-06,
+      "loss": 1.5370882,
+      "memory(GiB)": 111.15,
+      "step": 23815,
+      "train_speed(iter/s)": 0.44837
+    },
+    {
+      "acc": 0.64838963,
+      "epoch": 0.604261796042618,
+      "grad_norm": 4.90625,
+      "learning_rate": 8.36040167761203e-06,
+      "loss": 1.62437916,
+      "memory(GiB)": 111.15,
+      "step": 23820,
+      "train_speed(iter/s)": 0.44842
+    },
+    {
+      "acc": 0.64471788,
+      "epoch": 0.604388635210553,
+      "grad_norm": 5.5625,
+      "learning_rate": 8.359625120699368e-06,
+      "loss": 1.69578857,
+      "memory(GiB)": 111.15,
+      "step": 23825,
+      "train_speed(iter/s)": 0.44847
+    },
+    {
+      "acc": 0.65368986,
+      "epoch": 0.6045154743784881,
+      "grad_norm": 5.15625,
+      "learning_rate": 8.358848416015397e-06,
+      "loss": 1.58141546,
+      "memory(GiB)": 111.15,
+      "step": 23830,
+      "train_speed(iter/s)": 0.448519
+    },
+    {
+      "acc": 0.63312416,
+      "epoch": 0.6046423135464232,
+      "grad_norm": 4.625,
+      "learning_rate": 8.358071563594274e-06,
+      "loss": 1.68102283,
+      "memory(GiB)": 111.15,
+      "step": 23835,
+      "train_speed(iter/s)": 0.448569
+    },
+    {
+      "acc": 0.64522429,
+      "epoch": 0.6047691527143582,
+      "grad_norm": 5.25,
+      "learning_rate": 8.357294563470173e-06,
+      "loss": 1.63712883,
+      "memory(GiB)": 111.15,
+      "step": 23840,
+      "train_speed(iter/s)": 0.448619
+    },
+    {
+      "acc": 0.66373386,
+      "epoch": 0.6048959918822933,
+      "grad_norm": 5.5625,
+      "learning_rate": 8.356517415677267e-06,
+      "loss": 1.56209164,
+      "memory(GiB)": 111.15,
+      "step": 23845,
+      "train_speed(iter/s)": 0.448668
+    },
+    {
+      "acc": 0.63260403,
+      "epoch": 0.6050228310502284,
+      "grad_norm": 5.125,
+      "learning_rate": 8.355740120249739e-06,
+      "loss": 1.72288589,
+      "memory(GiB)": 111.15,
+      "step": 23850,
+      "train_speed(iter/s)": 0.448718
+    },
+    {
+      "acc": 0.63627009,
+      "epoch": 0.6051496702181633,
+      "grad_norm": 5.53125,
+      "learning_rate": 8.354962677221779e-06,
+      "loss": 1.6465107,
+      "memory(GiB)": 111.15,
+      "step": 23855,
+      "train_speed(iter/s)": 0.448767
+    },
+    {
+      "acc": 0.64391503,
+      "epoch": 0.6052765093860984,
+      "grad_norm": 5.21875,
+      "learning_rate": 8.35418508662758e-06,
+      "loss": 1.6186821,
+      "memory(GiB)": 111.15,
+      "step": 23860,
+      "train_speed(iter/s)": 0.448818
+    },
+    {
+      "acc": 0.64188638,
+      "epoch": 0.6054033485540334,
+      "grad_norm": 5.5,
+      "learning_rate": 8.353407348501346e-06,
+      "loss": 1.65964394,
+      "memory(GiB)": 111.15,
+      "step": 23865,
+      "train_speed(iter/s)": 0.448867
+    },
+    {
+      "acc": 0.64982538,
+      "epoch": 0.6055301877219685,
+      "grad_norm": 5.34375,
+      "learning_rate": 8.352629462877286e-06,
+      "loss": 1.63497505,
+      "memory(GiB)": 111.15,
+      "step": 23870,
+      "train_speed(iter/s)": 0.448917
+    },
+    {
+      "acc": 0.64089413,
+      "epoch": 0.6056570268899036,
+      "grad_norm": 5.46875,
+      "learning_rate": 8.351851429789613e-06,
+      "loss": 1.66134377,
+      "memory(GiB)": 111.15,
+      "step": 23875,
+      "train_speed(iter/s)": 0.448967
+    },
+    {
+      "acc": 0.63387203,
+      "epoch": 0.6057838660578386,
+      "grad_norm": 5.125,
+      "learning_rate": 8.35107324927255e-06,
+      "loss": 1.62418346,
+      "memory(GiB)": 111.15,
+      "step": 23880,
+      "train_speed(iter/s)": 0.449018
+    },
+    {
+      "acc": 0.64221153,
+      "epoch": 0.6059107052257737,
+      "grad_norm": 6.3125,
+      "learning_rate": 8.350294921360323e-06,
+      "loss": 1.68231888,
+      "memory(GiB)": 111.15,
+      "step": 23885,
+      "train_speed(iter/s)": 0.449068
+    },
+    {
+      "acc": 0.64223852,
+      "epoch": 0.6060375443937088,
+      "grad_norm": 5.03125,
+      "learning_rate": 8.349516446087168e-06,
+      "loss": 1.68805752,
+      "memory(GiB)": 111.15,
+      "step": 23890,
+      "train_speed(iter/s)": 0.449117
+    },
+    {
+      "acc": 0.63160515,
+      "epoch": 0.6061643835616438,
+      "grad_norm": 5.46875,
+      "learning_rate": 8.348737823487325e-06,
+      "loss": 1.6857523,
+      "memory(GiB)": 111.15,
+      "step": 23895,
+      "train_speed(iter/s)": 0.449167
+    },
+    {
+      "acc": 0.64534397,
+      "epoch": 0.6062912227295789,
+      "grad_norm": 5.46875,
+      "learning_rate": 8.347959053595042e-06,
+      "loss": 1.69602242,
+      "memory(GiB)": 111.15,
+      "step": 23900,
+      "train_speed(iter/s)": 0.449217
+    },
+    {
+      "epoch": 0.6062912227295789,
+      "eval_acc": 0.6419638071469125,
+      "eval_loss": 1.6155890226364136,
+      "eval_runtime": 113.5631,
+      "eval_samples_per_second": 56.092,
+      "eval_steps_per_second": 28.046,
+      "step": 23900
+    },
+    {
+      "acc": 0.63994799,
+      "epoch": 0.6064180618975139,
+      "grad_norm": 5.90625,
+      "learning_rate": 8.347180136444572e-06,
+      "loss": 1.69585075,
+      "memory(GiB)": 111.15,
+      "step": 23905,
+      "train_speed(iter/s)": 0.448272
+    },
+    {
+      "acc": 0.65492764,
+      "epoch": 0.606544901065449,
+      "grad_norm": 5.4375,
+      "learning_rate": 8.346401072070174e-06,
+      "loss": 1.63015194,
+      "memory(GiB)": 111.15,
+      "step": 23910,
+      "train_speed(iter/s)": 0.448321
+    },
+    {
+      "acc": 0.6284873,
+      "epoch": 0.6066717402333841,
+      "grad_norm": 5.625,
+      "learning_rate": 8.345621860506119e-06,
+      "loss": 1.69242439,
+      "memory(GiB)": 111.15,
+      "step": 23915,
+      "train_speed(iter/s)": 0.44837
+    },
+    {
+      "acc": 0.65389061,
+      "epoch": 0.6067985794013191,
+      "grad_norm": 5.6875,
+      "learning_rate": 8.344842501786675e-06,
+      "loss": 1.5634449,
+      "memory(GiB)": 111.15,
+      "step": 23920,
+      "train_speed(iter/s)": 0.44842
+    },
+    {
+      "acc": 0.63611941,
+      "epoch": 0.6069254185692542,
+      "grad_norm": 5.96875,
+      "learning_rate": 8.344062995946125e-06,
+      "loss": 1.71707325,
+      "memory(GiB)": 111.15,
+      "step": 23925,
+      "train_speed(iter/s)": 0.448469
+    },
+    {
+      "acc": 0.64097881,
+      "epoch": 0.6070522577371893,
+      "grad_norm": 5.25,
+      "learning_rate": 8.343283343018755e-06,
+      "loss": 1.66664677,
+      "memory(GiB)": 111.15,
+      "step": 23930,
+      "train_speed(iter/s)": 0.448518
+    },
+    {
+      "acc": 0.6466095,
+      "epoch": 0.6071790969051243,
+      "grad_norm": 5.28125,
+      "learning_rate": 8.342503543038855e-06,
+      "loss": 1.65252228,
+      "memory(GiB)": 111.15,
+      "step": 23935,
+      "train_speed(iter/s)": 0.448567
+    },
+    {
+      "acc": 0.64600081,
+      "epoch": 0.6073059360730594,
+      "grad_norm": 5.53125,
+      "learning_rate": 8.341723596040728e-06,
+      "loss": 1.70074825,
+      "memory(GiB)": 111.15,
+      "step": 23940,
+      "train_speed(iter/s)": 0.448616
+    },
+    {
+      "acc": 0.63149948,
+      "epoch": 0.6074327752409944,
+      "grad_norm": 5.09375,
+      "learning_rate": 8.340943502058675e-06,
+      "loss": 1.70064774,
+      "memory(GiB)": 111.15,
+      "step": 23945,
+      "train_speed(iter/s)": 0.448665
+    },
+    {
+      "acc": 0.64725795,
+      "epoch": 0.6075596144089295,
+      "grad_norm": 5.4375,
+      "learning_rate": 8.340163261127014e-06,
+      "loss": 1.68268623,
+      "memory(GiB)": 111.15,
+      "step": 23950,
+      "train_speed(iter/s)": 0.448715
+    },
+    {
+      "acc": 0.63979397,
+      "epoch": 0.6076864535768646,
+      "grad_norm": 5.375,
+      "learning_rate": 8.339382873280058e-06,
+      "loss": 1.67447395,
+      "memory(GiB)": 111.15,
+      "step": 23955,
+      "train_speed(iter/s)": 0.448764
+    },
+    {
+      "acc": 0.64614072,
+      "epoch": 0.6078132927447996,
+      "grad_norm": 4.8125,
+      "learning_rate": 8.338602338552136e-06,
+      "loss": 1.68541336,
+      "memory(GiB)": 111.15,
+      "step": 23960,
+      "train_speed(iter/s)": 0.448813
+    },
+    {
+      "acc": 0.64770303,
+      "epoch": 0.6079401319127347,
+      "grad_norm": 5.15625,
+      "learning_rate": 8.337821656977574e-06,
+      "loss": 1.6513298,
+      "memory(GiB)": 111.15,
+      "step": 23965,
+      "train_speed(iter/s)": 0.448863
+    },
+    {
+      "acc": 0.65554428,
+      "epoch": 0.6080669710806698,
+      "grad_norm": 5.0625,
+      "learning_rate": 8.337040828590715e-06,
+      "loss": 1.62814636,
+      "memory(GiB)": 111.15,
+      "step": 23970,
+      "train_speed(iter/s)": 0.448912
+    },
+    {
+      "acc": 0.64036188,
+      "epoch": 0.6081938102486047,
+      "grad_norm": 5.1875,
+      "learning_rate": 8.336259853425901e-06,
+      "loss": 1.63228836,
+      "memory(GiB)": 111.15,
+      "step": 23975,
+      "train_speed(iter/s)": 0.448962
+    },
+    {
+      "acc": 0.64361305,
+      "epoch": 0.6083206494165398,
+      "grad_norm": 5.1875,
+      "learning_rate": 8.335478731517484e-06,
+      "loss": 1.63008537,
+      "memory(GiB)": 111.15,
+      "step": 23980,
+      "train_speed(iter/s)": 0.449011
+    },
+    {
+      "acc": 0.63859744,
+      "epoch": 0.6084474885844748,
+      "grad_norm": 5.8125,
+      "learning_rate": 8.33469746289982e-06,
+      "loss": 1.66584663,
+      "memory(GiB)": 111.15,
+      "step": 23985,
+      "train_speed(iter/s)": 0.449061
+    },
+    {
+      "acc": 0.63884811,
+      "epoch": 0.6085743277524099,
+      "grad_norm": 5.46875,
+      "learning_rate": 8.333916047607274e-06,
+      "loss": 1.66823769,
+      "memory(GiB)": 111.15,
+      "step": 23990,
+      "train_speed(iter/s)": 0.44911
+    },
+    {
+      "acc": 0.65851912,
+      "epoch": 0.608701166920345,
+      "grad_norm": 6.65625,
+      "learning_rate": 8.333134485674214e-06,
+      "loss": 1.63489323,
+      "memory(GiB)": 111.15,
+      "step": 23995,
+      "train_speed(iter/s)": 0.44916
+    },
+    {
+      "acc": 0.63658485,
+      "epoch": 0.60882800608828,
+      "grad_norm": 5.34375,
+      "learning_rate": 8.33235277713502e-06,
+      "loss": 1.64930916,
+      "memory(GiB)": 111.15,
+      "step": 24000,
+      "train_speed(iter/s)": 0.44921
+    },
+    {
+      "epoch": 0.60882800608828,
+      "eval_acc": 0.6420373341933769,
+      "eval_loss": 1.6158993244171143,
+      "eval_runtime": 114.2562,
+      "eval_samples_per_second": 55.752,
+      "eval_steps_per_second": 27.876,
+      "step": 24000
+    },
+    {
+      "acc": 0.65650396,
+      "epoch": 0.6089548452562151,
+      "grad_norm": 6.8125,
+      "learning_rate": 8.33157092202407e-06,
+      "loss": 1.68729725,
+      "memory(GiB)": 111.15,
+      "step": 24005,
+      "train_speed(iter/s)": 0.448263
+    },
+    {
+      "acc": 0.64971142,
+      "epoch": 0.6090816844241502,
+      "grad_norm": 4.1875,
+      "learning_rate": 8.33078892037576e-06,
+      "loss": 1.64300747,
+      "memory(GiB)": 111.15,
+      "step": 24010,
+      "train_speed(iter/s)": 0.448312
+    },
+    {
+      "acc": 0.64831991,
+      "epoch": 0.6092085235920852,
+      "grad_norm": 6.1875,
+      "learning_rate": 8.33000677222448e-06,
+      "loss": 1.65981102,
+      "memory(GiB)": 111.15,
+      "step": 24015,
+      "train_speed(iter/s)": 0.448362
+    },
+    {
+      "acc": 0.64808822,
+      "epoch": 0.6093353627600203,
+      "grad_norm": 4.78125,
+      "learning_rate": 8.329224477604635e-06,
+      "loss": 1.62695045,
+      "memory(GiB)": 111.15,
+      "step": 24020,
+      "train_speed(iter/s)": 0.448411
+    },
+    {
+      "acc": 0.64259205,
+      "epoch": 0.6094622019279553,
+      "grad_norm": 5.4375,
+      "learning_rate": 8.328442036550633e-06,
+      "loss": 1.68496475,
+      "memory(GiB)": 111.15,
+      "step": 24025,
+      "train_speed(iter/s)": 0.448461
+    },
+    {
+      "acc": 0.65025859,
+      "epoch": 0.6095890410958904,
+      "grad_norm": 5.53125,
+      "learning_rate": 8.327659449096892e-06,
+      "loss": 1.5814291,
+      "memory(GiB)": 111.15,
+      "step": 24030,
+      "train_speed(iter/s)": 0.44851
+    },
+    {
+      "acc": 0.67203693,
+      "epoch": 0.6097158802638255,
+      "grad_norm": 6.0,
+      "learning_rate": 8.32687671527783e-06,
+      "loss": 1.56463842,
+      "memory(GiB)": 111.15,
+      "step": 24035,
+      "train_speed(iter/s)": 0.44856
+    },
+    {
+      "acc": 0.65068455,
+      "epoch": 0.6098427194317605,
+      "grad_norm": 5.34375,
+      "learning_rate": 8.326093835127878e-06,
+      "loss": 1.67745209,
+      "memory(GiB)": 111.15,
+      "step": 24040,
+      "train_speed(iter/s)": 0.448609
+    },
+    {
+      "acc": 0.64283671,
+      "epoch": 0.6099695585996956,
+      "grad_norm": 6.15625,
+      "learning_rate": 8.325310808681466e-06,
+      "loss": 1.64439754,
+      "memory(GiB)": 111.15,
+      "step": 24045,
+      "train_speed(iter/s)": 0.448659
+    },
+    {
+      "acc": 0.64999614,
+      "epoch": 0.6100963977676307,
+      "grad_norm": 5.71875,
+      "learning_rate": 8.32452763597304e-06,
+      "loss": 1.57233887,
+      "memory(GiB)": 111.15,
+      "step": 24050,
+      "train_speed(iter/s)": 0.448708
+    },
+    {
+      "acc": 0.63814769,
+      "epoch": 0.6102232369355657,
+      "grad_norm": 5.40625,
+      "learning_rate": 8.323744317037048e-06,
+      "loss": 1.57949219,
+      "memory(GiB)": 111.15,
+      "step": 24055,
+      "train_speed(iter/s)": 0.448758
+    },
+    {
+      "acc": 0.64196286,
+      "epoch": 0.6103500761035008,
+      "grad_norm": 4.59375,
+      "learning_rate": 8.322960851907937e-06,
+      "loss": 1.65290565,
+      "memory(GiB)": 111.15,
+      "step": 24060,
+      "train_speed(iter/s)": 0.448807
+    },
+    {
+      "acc": 0.63780303,
+      "epoch": 0.6104769152714358,
+      "grad_norm": 6.71875,
+      "learning_rate": 8.322177240620175e-06,
+      "loss": 1.68860435,
+      "memory(GiB)": 111.15,
+      "step": 24065,
+      "train_speed(iter/s)": 0.448857
+    },
+    {
+      "acc": 0.66063881,
+      "epoch": 0.6106037544393709,
+      "grad_norm": 5.59375,
+      "learning_rate": 8.321393483208224e-06,
+      "loss": 1.58395901,
+      "memory(GiB)": 111.15,
+      "step": 24070,
+      "train_speed(iter/s)": 0.448906
+    },
+    {
+      "acc": 0.65795722,
+      "epoch": 0.610730593607306,
+      "grad_norm": 5.21875,
+      "learning_rate": 8.32060957970656e-06,
+      "loss": 1.57965889,
+      "memory(GiB)": 111.15,
+      "step": 24075,
+      "train_speed(iter/s)": 0.448956
+    },
+    {
+      "acc": 0.64166441,
+      "epoch": 0.610857432775241,
+      "grad_norm": 4.90625,
+      "learning_rate": 8.319825530149661e-06,
+      "loss": 1.69460754,
+      "memory(GiB)": 111.15,
+      "step": 24080,
+      "train_speed(iter/s)": 0.449004
+    },
+    {
+      "acc": 0.64727421,
+      "epoch": 0.6109842719431761,
+      "grad_norm": 5.5,
+      "learning_rate": 8.319041334572012e-06,
+      "loss": 1.67683792,
+      "memory(GiB)": 111.15,
+      "step": 24085,
+      "train_speed(iter/s)": 0.449054
+    },
+    {
+      "acc": 0.64247022,
+      "epoch": 0.6111111111111112,
+      "grad_norm": 5.5625,
+      "learning_rate": 8.318256993008108e-06,
+      "loss": 1.67788887,
+      "memory(GiB)": 111.15,
+      "step": 24090,
+      "train_speed(iter/s)": 0.449103
+    },
+    {
+      "acc": 0.63213425,
+      "epoch": 0.6112379502790461,
+      "grad_norm": 5.09375,
+      "learning_rate": 8.317472505492446e-06,
+      "loss": 1.71761703,
+      "memory(GiB)": 111.15,
+      "step": 24095,
+      "train_speed(iter/s)": 0.449152
+    },
+    {
+      "acc": 0.66539721,
+      "epoch": 0.6113647894469812,
+      "grad_norm": 4.9375,
+      "learning_rate": 8.31668787205953e-06,
+      "loss": 1.54201641,
+      "memory(GiB)": 111.15,
+      "step": 24100,
+      "train_speed(iter/s)": 0.449202
+    },
+    {
+      "epoch": 0.6113647894469812,
+      "eval_acc": 0.6420168635952136,
+      "eval_loss": 1.6157805919647217,
+      "eval_runtime": 113.9775,
+      "eval_samples_per_second": 55.888,
+      "eval_steps_per_second": 27.944,
+      "step": 24100
+    },
+    {
+      "acc": 0.66001291,
+      "epoch": 0.6114916286149162,
+      "grad_norm": 4.59375,
+      "learning_rate": 8.315903092743876e-06,
+      "loss": 1.61317825,
+      "memory(GiB)": 111.15,
+      "step": 24105,
+      "train_speed(iter/s)": 0.448261
+    },
+    {
+      "acc": 0.66748753,
+      "epoch": 0.6116184677828513,
+      "grad_norm": 5.0625,
+      "learning_rate": 8.315118167579999e-06,
+      "loss": 1.62678337,
+      "memory(GiB)": 111.15,
+      "step": 24110,
+      "train_speed(iter/s)": 0.44831
+    },
+    {
+      "acc": 0.656071,
+      "epoch": 0.6117453069507864,
+      "grad_norm": 5.71875,
+      "learning_rate": 8.314333096602423e-06,
+      "loss": 1.58352661,
+      "memory(GiB)": 111.15,
+      "step": 24115,
+      "train_speed(iter/s)": 0.448359
+    },
+    {
+      "acc": 0.65408249,
+      "epoch": 0.6118721461187214,
+      "grad_norm": 5.3125,
+      "learning_rate": 8.313547879845682e-06,
+      "loss": 1.64884853,
+      "memory(GiB)": 111.15,
+      "step": 24120,
+      "train_speed(iter/s)": 0.448409
+    },
+    {
+      "acc": 0.63324099,
+      "epoch": 0.6119989852866565,
+      "grad_norm": 6.65625,
+      "learning_rate": 8.312762517344308e-06,
+      "loss": 1.69926701,
+      "memory(GiB)": 111.15,
+      "step": 24125,
+      "train_speed(iter/s)": 0.448458
+    },
+    {
+      "acc": 0.64043751,
+      "epoch": 0.6121258244545916,
+      "grad_norm": 5.90625,
+      "learning_rate": 8.311977009132851e-06,
+      "loss": 1.69693871,
+      "memory(GiB)": 111.15,
+      "step": 24130,
+      "train_speed(iter/s)": 0.448508
+    },
+    {
+      "acc": 0.65016484,
+      "epoch": 0.6122526636225266,
+      "grad_norm": 5.03125,
+      "learning_rate": 8.311191355245858e-06,
+      "loss": 1.65546303,
+      "memory(GiB)": 111.15,
+      "step": 24135,
+      "train_speed(iter/s)": 0.448557
+    },
+    {
+      "acc": 0.66069188,
+      "epoch": 0.6123795027904617,
+      "grad_norm": 4.53125,
+      "learning_rate": 8.310405555717884e-06,
+      "loss": 1.64879761,
+      "memory(GiB)": 111.15,
+      "step": 24140,
+      "train_speed(iter/s)": 0.448607
+    },
+    {
+      "acc": 0.6424634,
+      "epoch": 0.6125063419583967,
+      "grad_norm": 4.78125,
+      "learning_rate": 8.309619610583495e-06,
+      "loss": 1.68864899,
+      "memory(GiB)": 111.15,
+      "step": 24145,
+      "train_speed(iter/s)": 0.448655
+    },
+    {
+      "acc": 0.67724562,
+      "epoch": 0.6126331811263318,
+      "grad_norm": 5.125,
+      "learning_rate": 8.30883351987726e-06,
+      "loss": 1.58632383,
+      "memory(GiB)": 111.15,
+      "step": 24150,
+      "train_speed(iter/s)": 0.448705
+    },
+    {
+      "acc": 0.64657207,
+      "epoch": 0.6127600202942669,
+      "grad_norm": 6.875,
+      "learning_rate": 8.30804728363375e-06,
+      "loss": 1.6429966,
+      "memory(GiB)": 111.15,
+      "step": 24155,
+      "train_speed(iter/s)": 0.448754
+    },
+    {
+      "acc": 0.65886908,
+      "epoch": 0.6128868594622019,
+      "grad_norm": 6.90625,
+      "learning_rate": 8.307260901887556e-06,
+      "loss": 1.62525978,
+      "memory(GiB)": 111.15,
+      "step": 24160,
+      "train_speed(iter/s)": 0.448803
+    },
+    {
+      "acc": 0.65235424,
+      "epoch": 0.613013698630137,
+      "grad_norm": 4.71875,
+      "learning_rate": 8.306474374673259e-06,
+      "loss": 1.56023836,
+      "memory(GiB)": 111.15,
+      "step": 24165,
+      "train_speed(iter/s)": 0.448853
+    },
+    {
+      "acc": 0.65424767,
+      "epoch": 0.6131405377980721,
+      "grad_norm": 5.65625,
+      "learning_rate": 8.305687702025457e-06,
+      "loss": 1.6178524,
+      "memory(GiB)": 111.15,
+      "step": 24170,
+      "train_speed(iter/s)": 0.448902
+    },
+    {
+      "acc": 0.65057411,
+      "epoch": 0.6132673769660071,
+      "grad_norm": 5.375,
+      "learning_rate": 8.304900883978753e-06,
+      "loss": 1.60652695,
+      "memory(GiB)": 111.15,
+      "step": 24175,
+      "train_speed(iter/s)": 0.448952
+    },
+    {
+      "acc": 0.63827314,
+      "epoch": 0.6133942161339422,
+      "grad_norm": 5.0,
+      "learning_rate": 8.304113920567751e-06,
+      "loss": 1.68926163,
+      "memory(GiB)": 111.15,
+      "step": 24180,
+      "train_speed(iter/s)": 0.449001
+    },
+    {
+      "acc": 0.64826517,
+      "epoch": 0.6135210553018772,
+      "grad_norm": 4.90625,
+      "learning_rate": 8.303326811827066e-06,
+      "loss": 1.62731571,
+      "memory(GiB)": 111.15,
+      "step": 24185,
+      "train_speed(iter/s)": 0.449051
+    },
+    {
+      "acc": 0.64603887,
+      "epoch": 0.6136478944698123,
+      "grad_norm": 4.5625,
+      "learning_rate": 8.302539557791322e-06,
+      "loss": 1.64456406,
+      "memory(GiB)": 111.15,
+      "step": 24190,
+      "train_speed(iter/s)": 0.4491
+    },
+    {
+      "acc": 0.6352911,
+      "epoch": 0.6137747336377474,
+      "grad_norm": 4.90625,
+      "learning_rate": 8.301752158495141e-06,
+      "loss": 1.67170372,
+      "memory(GiB)": 111.15,
+      "step": 24195,
+      "train_speed(iter/s)": 0.449149
+    },
+    {
+      "acc": 0.64600053,
+      "epoch": 0.6139015728056824,
+      "grad_norm": 5.28125,
+      "learning_rate": 8.300964613973159e-06,
+      "loss": 1.64609451,
+      "memory(GiB)": 111.15,
+      "step": 24200,
+      "train_speed(iter/s)": 0.449199
+    },
+    {
+      "epoch": 0.6139015728056824,
+      "eval_acc": 0.6420356631241392,
+      "eval_loss": 1.6154577732086182,
+      "eval_runtime": 114.2357,
+      "eval_samples_per_second": 55.762,
+      "eval_steps_per_second": 27.881,
+      "step": 24200
+    },
+    {
+      "acc": 0.64543533,
+      "epoch": 0.6140284119736175,
+      "grad_norm": 5.0,
+      "learning_rate": 8.300176924260017e-06,
+      "loss": 1.62836208,
+      "memory(GiB)": 111.15,
+      "step": 24205,
+      "train_speed(iter/s)": 0.448259
+    },
+    {
+      "acc": 0.64406996,
+      "epoch": 0.6141552511415526,
+      "grad_norm": 5.25,
+      "learning_rate": 8.299389089390359e-06,
+      "loss": 1.64323082,
+      "memory(GiB)": 111.15,
+      "step": 24210,
+      "train_speed(iter/s)": 0.448308
+    },
+    {
+      "acc": 0.65264387,
+      "epoch": 0.6142820903094875,
+      "grad_norm": 4.625,
+      "learning_rate": 8.298601109398838e-06,
+      "loss": 1.61092548,
+      "memory(GiB)": 111.15,
+      "step": 24215,
+      "train_speed(iter/s)": 0.448356
+    },
+    {
+      "acc": 0.64476175,
+      "epoch": 0.6144089294774226,
+      "grad_norm": 4.34375,
+      "learning_rate": 8.297812984320113e-06,
+      "loss": 1.64497414,
+      "memory(GiB)": 111.15,
+      "step": 24220,
+      "train_speed(iter/s)": 0.448405
+    },
+    {
+      "acc": 0.64652634,
+      "epoch": 0.6145357686453576,
+      "grad_norm": 5.25,
+      "learning_rate": 8.297024714188851e-06,
+      "loss": 1.64502296,
+      "memory(GiB)": 111.15,
+      "step": 24225,
+      "train_speed(iter/s)": 0.448453
+    },
+    {
+      "acc": 0.64738159,
+      "epoch": 0.6146626078132927,
+      "grad_norm": 6.09375,
+      "learning_rate": 8.296236299039719e-06,
+      "loss": 1.67708092,
+      "memory(GiB)": 111.15,
+      "step": 24230,
+      "train_speed(iter/s)": 0.448501
+    },
+    {
+      "acc": 0.64694719,
+      "epoch": 0.6147894469812278,
+      "grad_norm": 5.0,
+      "learning_rate": 8.295447738907401e-06,
+      "loss": 1.57938786,
+      "memory(GiB)": 111.15,
+      "step": 24235,
+      "train_speed(iter/s)": 0.44855
+    },
+    {
+      "acc": 0.65093474,
+      "epoch": 0.6149162861491628,
+      "grad_norm": 4.71875,
+      "learning_rate": 8.294659033826576e-06,
+      "loss": 1.659021,
+      "memory(GiB)": 111.15,
+      "step": 24240,
+      "train_speed(iter/s)": 0.448598
+    },
+    {
+      "acc": 0.63814721,
+      "epoch": 0.6150431253170979,
+      "grad_norm": 5.96875,
+      "learning_rate": 8.293870183831937e-06,
+      "loss": 1.66376114,
+      "memory(GiB)": 111.15,
+      "step": 24245,
+      "train_speed(iter/s)": 0.448647
+    },
+    {
+      "acc": 0.65392866,
+      "epoch": 0.615169964485033,
+      "grad_norm": 5.9375,
+      "learning_rate": 8.293081188958183e-06,
+      "loss": 1.58644428,
+      "memory(GiB)": 111.15,
+      "step": 24250,
+      "train_speed(iter/s)": 0.448695
+    },
+    {
+      "acc": 0.65939302,
+      "epoch": 0.615296803652968,
+      "grad_norm": 5.28125,
+      "learning_rate": 8.292292049240014e-06,
+      "loss": 1.6149128,
+      "memory(GiB)": 111.15,
+      "step": 24255,
+      "train_speed(iter/s)": 0.448743
+    },
+    {
+      "acc": 0.63794746,
+      "epoch": 0.6154236428209031,
+      "grad_norm": 5.1875,
+      "learning_rate": 8.291502764712143e-06,
+      "loss": 1.66460171,
+      "memory(GiB)": 111.15,
+      "step": 24260,
+      "train_speed(iter/s)": 0.448792
+    },
+    {
+      "acc": 0.65251427,
+      "epoch": 0.6155504819888381,
+      "grad_norm": 5.28125,
+      "learning_rate": 8.290713335409284e-06,
+      "loss": 1.62063026,
+      "memory(GiB)": 111.15,
+      "step": 24265,
+      "train_speed(iter/s)": 0.448841
+    },
+    {
+      "acc": 0.65412669,
+      "epoch": 0.6156773211567732,
+      "grad_norm": 4.8125,
+      "learning_rate": 8.28992376136616e-06,
+      "loss": 1.60557213,
+      "memory(GiB)": 111.15,
+      "step": 24270,
+      "train_speed(iter/s)": 0.448889
+    },
+    {
+      "acc": 0.64345584,
+      "epoch": 0.6158041603247083,
+      "grad_norm": 5.15625,
+      "learning_rate": 8.289134042617502e-06,
+      "loss": 1.68845482,
+      "memory(GiB)": 111.15,
+      "step": 24275,
+      "train_speed(iter/s)": 0.448937
+    },
+    {
+      "acc": 0.65022907,
+      "epoch": 0.6159309994926433,
+      "grad_norm": 5.25,
+      "learning_rate": 8.288344179198043e-06,
+      "loss": 1.62153625,
+      "memory(GiB)": 111.15,
+      "step": 24280,
+      "train_speed(iter/s)": 0.448985
+    },
+    {
+      "acc": 0.64560814,
+      "epoch": 0.6160578386605784,
+      "grad_norm": 5.25,
+      "learning_rate": 8.287554171142525e-06,
+      "loss": 1.64183178,
+      "memory(GiB)": 111.15,
+      "step": 24285,
+      "train_speed(iter/s)": 0.449034
+    },
+    {
+      "acc": 0.63403606,
+      "epoch": 0.6161846778285135,
+      "grad_norm": 4.9375,
+      "learning_rate": 8.2867640184857e-06,
+      "loss": 1.68773251,
+      "memory(GiB)": 111.15,
+      "step": 24290,
+      "train_speed(iter/s)": 0.449082
+    },
+    {
+      "acc": 0.63215141,
+      "epoch": 0.6163115169964485,
+      "grad_norm": 5.28125,
+      "learning_rate": 8.285973721262315e-06,
+      "loss": 1.6968544,
+      "memory(GiB)": 111.15,
+      "step": 24295,
+      "train_speed(iter/s)": 0.449131
+    },
+    {
+      "acc": 0.64754543,
+      "epoch": 0.6164383561643836,
+      "grad_norm": 4.875,
+      "learning_rate": 8.285183279507135e-06,
+      "loss": 1.61360664,
+      "memory(GiB)": 111.15,
+      "step": 24300,
+      "train_speed(iter/s)": 0.449179
+    },
+    {
+      "epoch": 0.6164383561643836,
+      "eval_acc": 0.6421121145417699,
+      "eval_loss": 1.615362524986267,
+      "eval_runtime": 114.7306,
+      "eval_samples_per_second": 55.521,
+      "eval_steps_per_second": 27.761,
+      "step": 24300
+    },
+    {
+      "acc": 0.63545208,
+      "epoch": 0.6165651953323186,
+      "grad_norm": 5.75,
+      "learning_rate": 8.28439269325493e-06,
+      "loss": 1.59305143,
+      "memory(GiB)": 111.15,
+      "step": 24305,
+      "train_speed(iter/s)": 0.448239
+    },
+    {
+      "acc": 0.64200306,
+      "epoch": 0.6166920345002537,
+      "grad_norm": 5.15625,
+      "learning_rate": 8.28360196254047e-06,
+      "loss": 1.70084648,
+      "memory(GiB)": 111.15,
+      "step": 24310,
+      "train_speed(iter/s)": 0.448288
+    },
+    {
+      "acc": 0.64844432,
+      "epoch": 0.6168188736681888,
+      "grad_norm": 5.75,
+      "learning_rate": 8.282811087398535e-06,
+      "loss": 1.63865623,
+      "memory(GiB)": 111.15,
+      "step": 24315,
+      "train_speed(iter/s)": 0.448336
+    },
+    {
+      "acc": 0.64279213,
+      "epoch": 0.6169457128361238,
+      "grad_norm": 6.3125,
+      "learning_rate": 8.282020067863911e-06,
+      "loss": 1.64153843,
+      "memory(GiB)": 111.15,
+      "step": 24320,
+      "train_speed(iter/s)": 0.448385
+    },
+    {
+      "acc": 0.66817284,
+      "epoch": 0.6170725520040589,
+      "grad_norm": 5.5625,
+      "learning_rate": 8.281228903971391e-06,
+      "loss": 1.57785645,
+      "memory(GiB)": 111.15,
+      "step": 24325,
+      "train_speed(iter/s)": 0.448434
+    },
+    {
+      "acc": 0.65765181,
+      "epoch": 0.617199391171994,
+      "grad_norm": 7.03125,
+      "learning_rate": 8.280437595755774e-06,
+      "loss": 1.53902664,
+      "memory(GiB)": 111.15,
+      "step": 24330,
+      "train_speed(iter/s)": 0.448483
+    },
+    {
+      "acc": 0.64277325,
+      "epoch": 0.617326230339929,
+      "grad_norm": 5.21875,
+      "learning_rate": 8.279646143251867e-06,
+      "loss": 1.55683289,
+      "memory(GiB)": 111.15,
+      "step": 24335,
+      "train_speed(iter/s)": 0.448532
+    },
+    {
+      "acc": 0.65317426,
+      "epoch": 0.617453069507864,
+      "grad_norm": 5.4375,
+      "learning_rate": 8.278854546494479e-06,
+      "loss": 1.65138187,
+      "memory(GiB)": 111.15,
+      "step": 24340,
+      "train_speed(iter/s)": 0.44858
+    },
+    {
+      "acc": 0.64930458,
+      "epoch": 0.617579908675799,
+      "grad_norm": 5.625,
+      "learning_rate": 8.27806280551843e-06,
+      "loss": 1.56441154,
+      "memory(GiB)": 111.15,
+      "step": 24345,
+      "train_speed(iter/s)": 0.448629
+    },
+    {
+      "acc": 0.64230733,
+      "epoch": 0.6177067478437341,
+      "grad_norm": 5.53125,
+      "learning_rate": 8.277270920358542e-06,
+      "loss": 1.61448326,
+      "memory(GiB)": 111.15,
+      "step": 24350,
+      "train_speed(iter/s)": 0.448678
+    },
+    {
+      "acc": 0.67030349,
+      "epoch": 0.6178335870116692,
+      "grad_norm": 5.0625,
+      "learning_rate": 8.276478891049649e-06,
+      "loss": 1.62374649,
+      "memory(GiB)": 111.15,
+      "step": 24355,
+      "train_speed(iter/s)": 0.448727
+    },
+    {
+      "acc": 0.66116638,
+      "epoch": 0.6179604261796042,
+      "grad_norm": 5.625,
+      "learning_rate": 8.275686717626584e-06,
+      "loss": 1.57728577,
+      "memory(GiB)": 111.15,
+      "step": 24360,
+      "train_speed(iter/s)": 0.448775
+    },
+    {
+      "acc": 0.65010004,
+      "epoch": 0.6180872653475393,
+      "grad_norm": 4.34375,
+      "learning_rate": 8.274894400124191e-06,
+      "loss": 1.61490211,
+      "memory(GiB)": 111.15,
+      "step": 24365,
+      "train_speed(iter/s)": 0.448824
+    },
+    {
+      "acc": 0.64460096,
+      "epoch": 0.6182141045154744,
+      "grad_norm": 5.25,
+      "learning_rate": 8.274101938577324e-06,
+      "loss": 1.6625782,
+      "memory(GiB)": 111.15,
+      "step": 24370,
+      "train_speed(iter/s)": 0.448873
+    },
+    {
+      "acc": 0.6566783,
+      "epoch": 0.6183409436834094,
+      "grad_norm": 6.65625,
+      "learning_rate": 8.273309333020834e-06,
+      "loss": 1.58700638,
+      "memory(GiB)": 111.15,
+      "step": 24375,
+      "train_speed(iter/s)": 0.448921
+    },
+    {
+      "acc": 0.65058284,
+      "epoch": 0.6184677828513445,
+      "grad_norm": 4.6875,
+      "learning_rate": 8.272516583489587e-06,
+      "loss": 1.6653183,
+      "memory(GiB)": 111.15,
+      "step": 24380,
+      "train_speed(iter/s)": 0.44897
+    },
+    {
+      "acc": 0.65957437,
+      "epoch": 0.6185946220192795,
+      "grad_norm": 5.5625,
+      "learning_rate": 8.271723690018448e-06,
+      "loss": 1.58668842,
+      "memory(GiB)": 111.15,
+      "step": 24385,
+      "train_speed(iter/s)": 0.449019
+    },
+    {
+      "acc": 0.63386369,
+      "epoch": 0.6187214611872146,
+      "grad_norm": 5.125,
+      "learning_rate": 8.270930652642295e-06,
+      "loss": 1.62891521,
+      "memory(GiB)": 111.15,
+      "step": 24390,
+      "train_speed(iter/s)": 0.449067
+    },
+    {
+      "acc": 0.63957849,
+      "epoch": 0.6188483003551497,
+      "grad_norm": 5.09375,
+      "learning_rate": 8.270137471396007e-06,
+      "loss": 1.65154495,
+      "memory(GiB)": 111.15,
+      "step": 24395,
+      "train_speed(iter/s)": 0.449116
+    },
+    {
+      "acc": 0.65384665,
+      "epoch": 0.6189751395230847,
+      "grad_norm": 4.46875,
+      "learning_rate": 8.269344146314475e-06,
+      "loss": 1.62977219,
+      "memory(GiB)": 111.15,
+      "step": 24400,
+      "train_speed(iter/s)": 0.449165
+    },
+    {
+      "epoch": 0.6189751395230847,
+      "eval_acc": 0.6421284074668386,
+      "eval_loss": 1.6152629852294922,
+      "eval_runtime": 113.4468,
+      "eval_samples_per_second": 56.15,
+      "eval_steps_per_second": 28.075,
+      "step": 24400
+    },
+    {
+      "acc": 0.64319849,
+      "epoch": 0.6191019786910198,
+      "grad_norm": 5.53125,
+      "learning_rate": 8.26855067743259e-06,
+      "loss": 1.68319054,
+      "memory(GiB)": 111.15,
+      "step": 24405,
+      "train_speed(iter/s)": 0.44824
+    },
+    {
+      "acc": 0.65194054,
+      "epoch": 0.6192288178589549,
+      "grad_norm": 5.0625,
+      "learning_rate": 8.267757064785254e-06,
+      "loss": 1.62091312,
+      "memory(GiB)": 111.15,
+      "step": 24410,
+      "train_speed(iter/s)": 0.448289
+    },
+    {
+      "acc": 0.65029297,
+      "epoch": 0.6193556570268899,
+      "grad_norm": 5.78125,
+      "learning_rate": 8.26696330840737e-06,
+      "loss": 1.63800316,
+      "memory(GiB)": 111.15,
+      "step": 24415,
+      "train_speed(iter/s)": 0.448338
+    },
+    {
+      "acc": 0.66730137,
+      "epoch": 0.619482496194825,
+      "grad_norm": 5.21875,
+      "learning_rate": 8.266169408333856e-06,
+      "loss": 1.58976936,
+      "memory(GiB)": 111.15,
+      "step": 24420,
+      "train_speed(iter/s)": 0.448387
+    },
+    {
+      "acc": 0.65076752,
+      "epoch": 0.61960933536276,
+      "grad_norm": 5.375,
+      "learning_rate": 8.265375364599629e-06,
+      "loss": 1.62822857,
+      "memory(GiB)": 111.15,
+      "step": 24425,
+      "train_speed(iter/s)": 0.448436
+    },
+    {
+      "acc": 0.65382295,
+      "epoch": 0.6197361745306951,
+      "grad_norm": 6.9375,
+      "learning_rate": 8.264581177239615e-06,
+      "loss": 1.6179678,
+      "memory(GiB)": 111.15,
+      "step": 24430,
+      "train_speed(iter/s)": 0.448486
+    },
+    {
+      "acc": 0.66210556,
+      "epoch": 0.6198630136986302,
+      "grad_norm": 5.65625,
+      "learning_rate": 8.263786846288745e-06,
+      "loss": 1.5630352,
+      "memory(GiB)": 111.15,
+      "step": 24435,
+      "train_speed(iter/s)": 0.448535
+    },
+    {
+      "acc": 0.65581779,
+      "epoch": 0.6199898528665652,
+      "grad_norm": 6.21875,
+      "learning_rate": 8.262992371781956e-06,
+      "loss": 1.60925026,
+      "memory(GiB)": 111.15,
+      "step": 24440,
+      "train_speed(iter/s)": 0.448585
+    },
+    {
+      "acc": 0.62915201,
+      "epoch": 0.6201166920345003,
+      "grad_norm": 4.96875,
+      "learning_rate": 8.262197753754195e-06,
+      "loss": 1.69937286,
+      "memory(GiB)": 111.15,
+      "step": 24445,
+      "train_speed(iter/s)": 0.448635
+    },
+    {
+      "acc": 0.6406374,
+      "epoch": 0.6202435312024354,
+      "grad_norm": 5.65625,
+      "learning_rate": 8.261402992240414e-06,
+      "loss": 1.69906044,
+      "memory(GiB)": 111.15,
+      "step": 24450,
+      "train_speed(iter/s)": 0.448684
+    },
+    {
+      "acc": 0.64919839,
+      "epoch": 0.6203703703703703,
+      "grad_norm": 6.28125,
+      "learning_rate": 8.260608087275566e-06,
+      "loss": 1.67895451,
+      "memory(GiB)": 111.15,
+      "step": 24455,
+      "train_speed(iter/s)": 0.448733
+    },
+    {
+      "acc": 0.65254116,
+      "epoch": 0.6204972095383054,
+      "grad_norm": 4.78125,
+      "learning_rate": 8.259813038894617e-06,
+      "loss": 1.65591583,
+      "memory(GiB)": 111.15,
+      "step": 24460,
+      "train_speed(iter/s)": 0.448782
+    },
+    {
+      "acc": 0.65182519,
+      "epoch": 0.6206240487062404,
+      "grad_norm": 4.90625,
+      "learning_rate": 8.259017847132538e-06,
+      "loss": 1.60837059,
+      "memory(GiB)": 111.15,
+      "step": 24465,
+      "train_speed(iter/s)": 0.448831
+    },
+    {
+      "acc": 0.64760332,
+      "epoch": 0.6207508878741755,
+      "grad_norm": 5.875,
+      "learning_rate": 8.258222512024303e-06,
+      "loss": 1.68212013,
+      "memory(GiB)": 111.15,
+      "step": 24470,
+      "train_speed(iter/s)": 0.448881
+    },
+    {
+      "acc": 0.65729432,
+      "epoch": 0.6208777270421106,
+      "grad_norm": 4.625,
+      "learning_rate": 8.257427033604894e-06,
+      "loss": 1.54912157,
+      "memory(GiB)": 111.15,
+      "step": 24475,
+      "train_speed(iter/s)": 0.44893
+    },
+    {
+      "acc": 0.63597445,
+      "epoch": 0.6210045662100456,
+      "grad_norm": 5.09375,
+      "learning_rate": 8.256631411909305e-06,
+      "loss": 1.68532867,
+      "memory(GiB)": 111.15,
+      "step": 24480,
+      "train_speed(iter/s)": 0.448979
+    },
+    {
+      "acc": 0.64554701,
+      "epoch": 0.6211314053779807,
+      "grad_norm": 5.5,
+      "learning_rate": 8.25583564697252e-06,
+      "loss": 1.54473982,
+      "memory(GiB)": 111.15,
+      "step": 24485,
+      "train_speed(iter/s)": 0.449027
+    },
+    {
+      "acc": 0.65068507,
+      "epoch": 0.6212582445459158,
+      "grad_norm": 5.40625,
+      "learning_rate": 8.255039738829552e-06,
+      "loss": 1.63337288,
+      "memory(GiB)": 111.15,
+      "step": 24490,
+      "train_speed(iter/s)": 0.449076
+    },
+    {
+      "acc": 0.64778237,
+      "epoch": 0.6213850837138508,
+      "grad_norm": 5.5625,
+      "learning_rate": 8.254243687515402e-06,
+      "loss": 1.61975174,
+      "memory(GiB)": 111.15,
+      "step": 24495,
+      "train_speed(iter/s)": 0.449125
+    },
+    {
+      "acc": 0.64725237,
+      "epoch": 0.6215119228817859,
+      "grad_norm": 5.65625,
+      "learning_rate": 8.253447493065085e-06,
+      "loss": 1.65691872,
+      "memory(GiB)": 111.15,
+      "step": 24500,
+      "train_speed(iter/s)": 0.449174
+    },
+    {
+      "epoch": 0.6215119228817859,
+      "eval_acc": 0.6420816175281795,
+      "eval_loss": 1.615227460861206,
+      "eval_runtime": 112.0447,
+      "eval_samples_per_second": 56.852,
+      "eval_steps_per_second": 28.426,
+      "step": 24500
+    },
+    {
+      "acc": 0.64350023,
+      "epoch": 0.6216387620497209,
+      "grad_norm": 5.625,
+      "learning_rate": 8.252651155513622e-06,
+      "loss": 1.65579357,
+      "memory(GiB)": 111.15,
+      "step": 24505,
+      "train_speed(iter/s)": 0.448265
+    },
+    {
+      "acc": 0.63125229,
+      "epoch": 0.621765601217656,
+      "grad_norm": 5.3125,
+      "learning_rate": 8.251854674896039e-06,
+      "loss": 1.72449112,
+      "memory(GiB)": 111.15,
+      "step": 24510,
+      "train_speed(iter/s)": 0.448313
+    },
+    {
+      "acc": 0.64305048,
+      "epoch": 0.6218924403855911,
+      "grad_norm": 5.3125,
+      "learning_rate": 8.251058051247368e-06,
+      "loss": 1.65257721,
+      "memory(GiB)": 111.15,
+      "step": 24515,
+      "train_speed(iter/s)": 0.448361
+    },
+    {
+      "acc": 0.65995722,
+      "epoch": 0.6220192795535261,
+      "grad_norm": 5.375,
+      "learning_rate": 8.250261284602651e-06,
+      "loss": 1.59693956,
+      "memory(GiB)": 111.15,
+      "step": 24520,
+      "train_speed(iter/s)": 0.44841
+    },
+    {
+      "acc": 0.65359645,
+      "epoch": 0.6221461187214612,
+      "grad_norm": 5.21875,
+      "learning_rate": 8.249464374996932e-06,
+      "loss": 1.63125591,
+      "memory(GiB)": 111.15,
+      "step": 24525,
+      "train_speed(iter/s)": 0.448458
+    },
+    {
+      "acc": 0.64554834,
+      "epoch": 0.6222729578893963,
+      "grad_norm": 5.3125,
+      "learning_rate": 8.24866732246526e-06,
+      "loss": 1.66055832,
+      "memory(GiB)": 111.15,
+      "step": 24530,
+      "train_speed(iter/s)": 0.448507
+    },
+    {
+      "acc": 0.64384832,
+      "epoch": 0.6223997970573313,
+      "grad_norm": 6.1875,
+      "learning_rate": 8.247870127042695e-06,
+      "loss": 1.62322044,
+      "memory(GiB)": 111.15,
+      "step": 24535,
+      "train_speed(iter/s)": 0.448556
+    },
+    {
+      "acc": 0.63472824,
+      "epoch": 0.6225266362252664,
+      "grad_norm": 5.875,
+      "learning_rate": 8.247072788764302e-06,
+      "loss": 1.63904152,
+      "memory(GiB)": 111.15,
+      "step": 24540,
+      "train_speed(iter/s)": 0.448605
+    },
+    {
+      "acc": 0.63686657,
+      "epoch": 0.6226534753932014,
+      "grad_norm": 4.96875,
+      "learning_rate": 8.246275307665147e-06,
+      "loss": 1.67584839,
+      "memory(GiB)": 111.15,
+      "step": 24545,
+      "train_speed(iter/s)": 0.448653
+    },
+    {
+      "acc": 0.65850101,
+      "epoch": 0.6227803145611365,
+      "grad_norm": 5.40625,
+      "learning_rate": 8.245477683780316e-06,
+      "loss": 1.55479746,
+      "memory(GiB)": 111.15,
+      "step": 24550,
+      "train_speed(iter/s)": 0.448702
+    },
+    {
+      "acc": 0.65098324,
+      "epoch": 0.6229071537290716,
+      "grad_norm": 5.3125,
+      "learning_rate": 8.244679917144883e-06,
+      "loss": 1.63133011,
+      "memory(GiB)": 111.15,
+      "step": 24555,
+      "train_speed(iter/s)": 0.448751
+    },
+    {
+      "acc": 0.63788128,
+      "epoch": 0.6230339928970066,
+      "grad_norm": 5.59375,
+      "learning_rate": 8.243882007793941e-06,
+      "loss": 1.71023464,
+      "memory(GiB)": 111.15,
+      "step": 24560,
+      "train_speed(iter/s)": 0.448799
+    },
+    {
+      "acc": 0.65203543,
+      "epoch": 0.6231608320649417,
+      "grad_norm": 5.53125,
+      "learning_rate": 8.243083955762588e-06,
+      "loss": 1.62124748,
+      "memory(GiB)": 111.15,
+      "step": 24565,
+      "train_speed(iter/s)": 0.448848
+    },
+    {
+      "acc": 0.65106983,
+      "epoch": 0.6232876712328768,
+      "grad_norm": 5.875,
+      "learning_rate": 8.24228576108592e-06,
+      "loss": 1.63046703,
+      "memory(GiB)": 111.15,
+      "step": 24570,
+      "train_speed(iter/s)": 0.448897
+    },
+    {
+      "acc": 0.65519886,
+      "epoch": 0.6234145104008117,
+      "grad_norm": 5.875,
+      "learning_rate": 8.24148742379905e-06,
+      "loss": 1.56613674,
+      "memory(GiB)": 111.15,
+      "step": 24575,
+      "train_speed(iter/s)": 0.448946
+    },
+    {
+      "acc": 0.64988289,
+      "epoch": 0.6235413495687468,
+      "grad_norm": 5.1875,
+      "learning_rate": 8.240688943937092e-06,
+      "loss": 1.63868408,
+      "memory(GiB)": 111.15,
+      "step": 24580,
+      "train_speed(iter/s)": 0.448994
+    },
+    {
+      "acc": 0.65359159,
+      "epoch": 0.6236681887366818,
+      "grad_norm": 5.875,
+      "learning_rate": 8.239890321535163e-06,
+      "loss": 1.63639545,
+      "memory(GiB)": 111.15,
+      "step": 24585,
+      "train_speed(iter/s)": 0.449043
+    },
+    {
+      "acc": 0.64441786,
+      "epoch": 0.6237950279046169,
+      "grad_norm": 5.5,
+      "learning_rate": 8.239091556628395e-06,
+      "loss": 1.66438198,
+      "memory(GiB)": 111.15,
+      "step": 24590,
+      "train_speed(iter/s)": 0.449091
+    },
+    {
+      "acc": 0.64209185,
+      "epoch": 0.623921867072552,
+      "grad_norm": 5.5,
+      "learning_rate": 8.238292649251918e-06,
+      "loss": 1.66698036,
+      "memory(GiB)": 111.15,
+      "step": 24595,
+      "train_speed(iter/s)": 0.44914
+    },
+    {
+      "acc": 0.65982246,
+      "epoch": 0.624048706240487,
+      "grad_norm": 4.6875,
+      "learning_rate": 8.237493599440871e-06,
+      "loss": 1.60147877,
+      "memory(GiB)": 111.15,
+      "step": 24600,
+      "train_speed(iter/s)": 0.449189
+    },
+    {
+      "epoch": 0.624048706240487,
+      "eval_acc": 0.6421455359265265,
+      "eval_loss": 1.6150586605072021,
+      "eval_runtime": 114.561,
+      "eval_samples_per_second": 55.604,
+      "eval_steps_per_second": 27.802,
+      "step": 24600
+    },
+    {
+      "acc": 0.63105469,
+      "epoch": 0.6241755454084221,
+      "grad_norm": 5.4375,
+      "learning_rate": 8.236694407230402e-06,
+      "loss": 1.75528755,
+      "memory(GiB)": 111.15,
+      "step": 24605,
+      "train_speed(iter/s)": 0.448262
+    },
+    {
+      "acc": 0.66373043,
+      "epoch": 0.6243023845763572,
+      "grad_norm": 5.3125,
+      "learning_rate": 8.235895072655664e-06,
+      "loss": 1.52104988,
+      "memory(GiB)": 111.15,
+      "step": 24610,
+      "train_speed(iter/s)": 0.44831
+    },
+    {
+      "acc": 0.64703484,
+      "epoch": 0.6244292237442922,
+      "grad_norm": 5.78125,
+      "learning_rate": 8.235095595751809e-06,
+      "loss": 1.66627674,
+      "memory(GiB)": 111.15,
+      "step": 24615,
+      "train_speed(iter/s)": 0.448359
+    },
+    {
+      "acc": 0.66195703,
+      "epoch": 0.6245560629122273,
+      "grad_norm": 5.40625,
+      "learning_rate": 8.23429597655401e-06,
+      "loss": 1.58856335,
+      "memory(GiB)": 111.15,
+      "step": 24620,
+      "train_speed(iter/s)": 0.448406
+    },
+    {
+      "acc": 0.62617679,
+      "epoch": 0.6246829020801623,
+      "grad_norm": 5.59375,
+      "learning_rate": 8.233496215097433e-06,
+      "loss": 1.6893734,
+      "memory(GiB)": 111.15,
+      "step": 24625,
+      "train_speed(iter/s)": 0.448454
+    },
+    {
+      "acc": 0.64955873,
+      "epoch": 0.6248097412480974,
+      "grad_norm": 5.375,
+      "learning_rate": 8.232696311417256e-06,
+      "loss": 1.58007202,
+      "memory(GiB)": 111.15,
+      "step": 24630,
+      "train_speed(iter/s)": 0.448502
+    },
+    {
+      "acc": 0.64064445,
+      "epoch": 0.6249365804160325,
+      "grad_norm": 6.1875,
+      "learning_rate": 8.231896265548662e-06,
+      "loss": 1.67542267,
+      "memory(GiB)": 111.15,
+      "step": 24635,
+      "train_speed(iter/s)": 0.448549
+    },
+    {
+      "acc": 0.64979734,
+      "epoch": 0.6250634195839675,
+      "grad_norm": 5.09375,
+      "learning_rate": 8.231096077526841e-06,
+      "loss": 1.66190338,
+      "memory(GiB)": 111.15,
+      "step": 24640,
+      "train_speed(iter/s)": 0.448597
+    },
+    {
+      "acc": 0.6658618,
+      "epoch": 0.6251902587519026,
+      "grad_norm": 5.125,
+      "learning_rate": 8.230295747386988e-06,
+      "loss": 1.6023468,
+      "memory(GiB)": 111.15,
+      "step": 24645,
+      "train_speed(iter/s)": 0.448645
+    },
+    {
+      "acc": 0.65771971,
+      "epoch": 0.6253170979198377,
+      "grad_norm": 5.375,
+      "learning_rate": 8.229495275164307e-06,
+      "loss": 1.54776373,
+      "memory(GiB)": 111.15,
+      "step": 24650,
+      "train_speed(iter/s)": 0.448693
+    },
+    {
+      "acc": 0.65152493,
+      "epoch": 0.6254439370877727,
+      "grad_norm": 5.875,
+      "learning_rate": 8.228694660894003e-06,
+      "loss": 1.68634052,
+      "memory(GiB)": 111.15,
+      "step": 24655,
+      "train_speed(iter/s)": 0.448741
+    },
+    {
+      "acc": 0.65895205,
+      "epoch": 0.6255707762557078,
+      "grad_norm": 5.4375,
+      "learning_rate": 8.227893904611295e-06,
+      "loss": 1.57311916,
+      "memory(GiB)": 111.15,
+      "step": 24660,
+      "train_speed(iter/s)": 0.448789
+    },
+    {
+      "acc": 0.65322676,
+      "epoch": 0.6256976154236428,
+      "grad_norm": 4.65625,
+      "learning_rate": 8.2270930063514e-06,
+      "loss": 1.60488739,
+      "memory(GiB)": 111.15,
+      "step": 24665,
+      "train_speed(iter/s)": 0.448837
+    },
+    {
+      "acc": 0.64790897,
+      "epoch": 0.6258244545915779,
+      "grad_norm": 5.3125,
+      "learning_rate": 8.226291966149549e-06,
+      "loss": 1.69035683,
+      "memory(GiB)": 111.15,
+      "step": 24670,
+      "train_speed(iter/s)": 0.448885
+    },
+    {
+      "acc": 0.65753794,
+      "epoch": 0.625951293759513,
+      "grad_norm": 5.21875,
+      "learning_rate": 8.225490784040971e-06,
+      "loss": 1.57754707,
+      "memory(GiB)": 111.15,
+      "step": 24675,
+      "train_speed(iter/s)": 0.448932
+    },
+    {
+      "acc": 0.6441834,
+      "epoch": 0.626078132927448,
+      "grad_norm": 5.9375,
+      "learning_rate": 8.224689460060908e-06,
+      "loss": 1.65963898,
+      "memory(GiB)": 111.15,
+      "step": 24680,
+      "train_speed(iter/s)": 0.44898
+    },
+    {
+      "acc": 0.66411753,
+      "epoch": 0.6262049720953831,
+      "grad_norm": 5.15625,
+      "learning_rate": 8.223887994244604e-06,
+      "loss": 1.58518963,
+      "memory(GiB)": 111.15,
+      "step": 24685,
+      "train_speed(iter/s)": 0.449028
+    },
+    {
+      "acc": 0.65664158,
+      "epoch": 0.6263318112633182,
+      "grad_norm": 5.21875,
+      "learning_rate": 8.223086386627314e-06,
+      "loss": 1.59518318,
+      "memory(GiB)": 111.15,
+      "step": 24690,
+      "train_speed(iter/s)": 0.449076
+    },
+    {
+      "acc": 0.66993484,
+      "epoch": 0.6264586504312532,
+      "grad_norm": 5.5625,
+      "learning_rate": 8.222284637244296e-06,
+      "loss": 1.57162247,
+      "memory(GiB)": 111.15,
+      "step": 24695,
+      "train_speed(iter/s)": 0.449124
+    },
+    {
+      "acc": 0.65790186,
+      "epoch": 0.6265854895991883,
+      "grad_norm": 4.5,
+      "learning_rate": 8.221482746130811e-06,
+      "loss": 1.5776968,
+      "memory(GiB)": 111.15,
+      "step": 24700,
+      "train_speed(iter/s)": 0.449173
+    },
+    {
+      "epoch": 0.6265854895991883,
+      "eval_acc": 0.6421304963033859,
+      "eval_loss": 1.614924669265747,
+      "eval_runtime": 114.1418,
+      "eval_samples_per_second": 55.808,
+      "eval_steps_per_second": 27.904,
+      "step": 24700
+    },
+    {
+      "acc": 0.64822178,
+      "epoch": 0.6267123287671232,
+      "grad_norm": 5.3125,
+      "learning_rate": 8.220680713322131e-06,
+      "loss": 1.64028664,
+      "memory(GiB)": 111.15,
+      "step": 24705,
+      "train_speed(iter/s)": 0.448253
+    },
+    {
+      "acc": 0.64937296,
+      "epoch": 0.6268391679350583,
+      "grad_norm": 4.90625,
+      "learning_rate": 8.219878538853537e-06,
+      "loss": 1.64805965,
+      "memory(GiB)": 111.15,
+      "step": 24710,
+      "train_speed(iter/s)": 0.4483
+    },
+    {
+      "acc": 0.63956256,
+      "epoch": 0.6269660071029934,
+      "grad_norm": 4.75,
+      "learning_rate": 8.219076222760307e-06,
+      "loss": 1.68880081,
+      "memory(GiB)": 111.15,
+      "step": 24715,
+      "train_speed(iter/s)": 0.448347
+    },
+    {
+      "acc": 0.63150253,
+      "epoch": 0.6270928462709284,
+      "grad_norm": 4.78125,
+      "learning_rate": 8.218273765077734e-06,
+      "loss": 1.64123192,
+      "memory(GiB)": 111.15,
+      "step": 24720,
+      "train_speed(iter/s)": 0.448394
+    },
+    {
+      "acc": 0.64997406,
+      "epoch": 0.6272196854388635,
+      "grad_norm": 5.125,
+      "learning_rate": 8.21747116584111e-06,
+      "loss": 1.61530857,
+      "memory(GiB)": 111.15,
+      "step": 24725,
+      "train_speed(iter/s)": 0.448442
+    },
+    {
+      "acc": 0.6392477,
+      "epoch": 0.6273465246067986,
+      "grad_norm": 4.75,
+      "learning_rate": 8.21666842508574e-06,
+      "loss": 1.59267149,
+      "memory(GiB)": 111.15,
+      "step": 24730,
+      "train_speed(iter/s)": 0.448489
+    },
+    {
+      "acc": 0.64898,
+      "epoch": 0.6274733637747336,
+      "grad_norm": 6.1875,
+      "learning_rate": 8.215865542846932e-06,
+      "loss": 1.72334042,
+      "memory(GiB)": 111.15,
+      "step": 24735,
+      "train_speed(iter/s)": 0.448537
+    },
+    {
+      "acc": 0.63713641,
+      "epoch": 0.6276002029426687,
+      "grad_norm": 5.46875,
+      "learning_rate": 8.215062519160002e-06,
+      "loss": 1.66728516,
+      "memory(GiB)": 111.15,
+      "step": 24740,
+      "train_speed(iter/s)": 0.448585
+    },
+    {
+      "acc": 0.65354347,
+      "epoch": 0.6277270421106037,
+      "grad_norm": 5.46875,
+      "learning_rate": 8.214259354060263e-06,
+      "loss": 1.65049953,
+      "memory(GiB)": 111.15,
+      "step": 24745,
+      "train_speed(iter/s)": 0.448632
+    },
+    {
+      "acc": 0.64345884,
+      "epoch": 0.6278538812785388,
+      "grad_norm": 6.28125,
+      "learning_rate": 8.21345604758305e-06,
+      "loss": 1.6189003,
+      "memory(GiB)": 111.15,
+      "step": 24750,
+      "train_speed(iter/s)": 0.448679
+    },
+    {
+      "acc": 0.65353503,
+      "epoch": 0.6279807204464739,
+      "grad_norm": 4.71875,
+      "learning_rate": 8.212652599763693e-06,
+      "loss": 1.59570761,
+      "memory(GiB)": 111.15,
+      "step": 24755,
+      "train_speed(iter/s)": 0.448727
+    },
+    {
+      "acc": 0.64034443,
+      "epoch": 0.6281075596144089,
+      "grad_norm": 6.96875,
+      "learning_rate": 8.211849010637532e-06,
+      "loss": 1.67312393,
+      "memory(GiB)": 111.15,
+      "step": 24760,
+      "train_speed(iter/s)": 0.448775
+    },
+    {
+      "acc": 0.63686047,
+      "epoch": 0.628234398782344,
+      "grad_norm": 5.1875,
+      "learning_rate": 8.211045280239908e-06,
+      "loss": 1.60019341,
+      "memory(GiB)": 111.15,
+      "step": 24765,
+      "train_speed(iter/s)": 0.448822
+    },
+    {
+      "acc": 0.64352894,
+      "epoch": 0.6283612379502791,
+      "grad_norm": 5.40625,
+      "learning_rate": 8.210241408606182e-06,
+      "loss": 1.58856125,
+      "memory(GiB)": 111.15,
+      "step": 24770,
+      "train_speed(iter/s)": 0.44887
+    },
+    {
+      "acc": 0.65654764,
+      "epoch": 0.6284880771182141,
+      "grad_norm": 5.65625,
+      "learning_rate": 8.2094373957717e-06,
+      "loss": 1.65181389,
+      "memory(GiB)": 111.15,
+      "step": 24775,
+      "train_speed(iter/s)": 0.448917
+    },
+    {
+      "acc": 0.64211187,
+      "epoch": 0.6286149162861492,
+      "grad_norm": 5.34375,
+      "learning_rate": 8.208633241771836e-06,
+      "loss": 1.65398216,
+      "memory(GiB)": 111.15,
+      "step": 24780,
+      "train_speed(iter/s)": 0.448965
+    },
+    {
+      "acc": 0.65252814,
+      "epoch": 0.6287417554540842,
+      "grad_norm": 5.28125,
+      "learning_rate": 8.207828946641956e-06,
+      "loss": 1.63055496,
+      "memory(GiB)": 111.15,
+      "step": 24785,
+      "train_speed(iter/s)": 0.449012
+    },
+    {
+      "acc": 0.66257081,
+      "epoch": 0.6288685946220193,
+      "grad_norm": 4.53125,
+      "learning_rate": 8.207024510417436e-06,
+      "loss": 1.62453251,
+      "memory(GiB)": 111.15,
+      "step": 24790,
+      "train_speed(iter/s)": 0.44906
+    },
+    {
+      "acc": 0.64790735,
+      "epoch": 0.6289954337899544,
+      "grad_norm": 5.90625,
+      "learning_rate": 8.20621993313366e-06,
+      "loss": 1.66902485,
+      "memory(GiB)": 111.15,
+      "step": 24795,
+      "train_speed(iter/s)": 0.449107
+    },
+    {
+      "acc": 0.65533366,
+      "epoch": 0.6291222729578894,
+      "grad_norm": 5.21875,
+      "learning_rate": 8.205415214826018e-06,
+      "loss": 1.76335373,
+      "memory(GiB)": 111.15,
+      "step": 24800,
+      "train_speed(iter/s)": 0.449155
+    },
+    {
+      "epoch": 0.6291222729578894,
+      "eval_acc": 0.6421630821535237,
+      "eval_loss": 1.6146864891052246,
+      "eval_runtime": 113.0313,
+      "eval_samples_per_second": 56.356,
+      "eval_steps_per_second": 28.178,
+      "step": 24800
+    },
+    {
+      "acc": 0.64455194,
+      "epoch": 0.6292491121258245,
+      "grad_norm": 4.90625,
+      "learning_rate": 8.204610355529901e-06,
+      "loss": 1.64725723,
+      "memory(GiB)": 111.15,
+      "step": 24805,
+      "train_speed(iter/s)": 0.448248
+    },
+    {
+      "acc": 0.6361043,
+      "epoch": 0.6293759512937596,
+      "grad_norm": 4.84375,
+      "learning_rate": 8.203805355280715e-06,
+      "loss": 1.64709473,
+      "memory(GiB)": 111.15,
+      "step": 24810,
+      "train_speed(iter/s)": 0.448296
+    },
+    {
+      "acc": 0.64780111,
+      "epoch": 0.6295027904616946,
+      "grad_norm": 4.8125,
+      "learning_rate": 8.203000214113865e-06,
+      "loss": 1.68123569,
+      "memory(GiB)": 111.15,
+      "step": 24815,
+      "train_speed(iter/s)": 0.448343
+    },
+    {
+      "acc": 0.65505977,
+      "epoch": 0.6296296296296297,
+      "grad_norm": 5.03125,
+      "learning_rate": 8.202194932064767e-06,
+      "loss": 1.61248169,
+      "memory(GiB)": 111.15,
+      "step": 24820,
+      "train_speed(iter/s)": 0.448391
+    },
+    {
+      "acc": 0.64617968,
+      "epoch": 0.6297564687975646,
+      "grad_norm": 6.09375,
+      "learning_rate": 8.201389509168836e-06,
+      "loss": 1.66658134,
+      "memory(GiB)": 111.15,
+      "step": 24825,
+      "train_speed(iter/s)": 0.448438
+    },
+    {
+      "acc": 0.62642918,
+      "epoch": 0.6298833079654997,
+      "grad_norm": 6.09375,
+      "learning_rate": 8.200583945461502e-06,
+      "loss": 1.6690279,
+      "memory(GiB)": 111.15,
+      "step": 24830,
+      "train_speed(iter/s)": 0.448486
+    },
+    {
+      "acc": 0.65200763,
+      "epoch": 0.6300101471334348,
+      "grad_norm": 5.40625,
+      "learning_rate": 8.199778240978197e-06,
+      "loss": 1.58610277,
+      "memory(GiB)": 111.15,
+      "step": 24835,
+      "train_speed(iter/s)": 0.448533
+    },
+    {
+      "acc": 0.62820039,
+      "epoch": 0.6301369863013698,
+      "grad_norm": 5.8125,
+      "learning_rate": 8.19897239575436e-06,
+      "loss": 1.69679184,
+      "memory(GiB)": 111.15,
+      "step": 24840,
+      "train_speed(iter/s)": 0.448582
+    },
+    {
+      "acc": 0.63861303,
+      "epoch": 0.6302638254693049,
+      "grad_norm": 4.59375,
+      "learning_rate": 8.198166409825434e-06,
+      "loss": 1.69984512,
+      "memory(GiB)": 111.15,
+      "step": 24845,
+      "train_speed(iter/s)": 0.44863
+    },
+    {
+      "acc": 0.64915924,
+      "epoch": 0.63039066463724,
+      "grad_norm": 6.0625,
+      "learning_rate": 8.19736028322687e-06,
+      "loss": 1.61700306,
+      "memory(GiB)": 111.15,
+      "step": 24850,
+      "train_speed(iter/s)": 0.448678
+    },
+    {
+      "acc": 0.64389763,
+      "epoch": 0.630517503805175,
+      "grad_norm": 5.0,
+      "learning_rate": 8.196554015994126e-06,
+      "loss": 1.65045681,
+      "memory(GiB)": 111.15,
+      "step": 24855,
+      "train_speed(iter/s)": 0.448726
+    },
+    {
+      "acc": 0.65448847,
+      "epoch": 0.6306443429731101,
+      "grad_norm": 5.75,
+      "learning_rate": 8.195747608162665e-06,
+      "loss": 1.64016132,
+      "memory(GiB)": 111.15,
+      "step": 24860,
+      "train_speed(iter/s)": 0.448774
+    },
+    {
+      "acc": 0.64733167,
+      "epoch": 0.6307711821410451,
+      "grad_norm": 4.8125,
+      "learning_rate": 8.194941059767957e-06,
+      "loss": 1.632831,
+      "memory(GiB)": 111.15,
+      "step": 24865,
+      "train_speed(iter/s)": 0.448822
+    },
+    {
+      "acc": 0.63943119,
+      "epoch": 0.6308980213089802,
+      "grad_norm": 5.46875,
+      "learning_rate": 8.194134370845474e-06,
+      "loss": 1.63394527,
+      "memory(GiB)": 111.15,
+      "step": 24870,
+      "train_speed(iter/s)": 0.448871
+    },
+    {
+      "acc": 0.6489212,
+      "epoch": 0.6310248604769153,
+      "grad_norm": 6.15625,
+      "learning_rate": 8.193327541430703e-06,
+      "loss": 1.70312233,
+      "memory(GiB)": 111.15,
+      "step": 24875,
+      "train_speed(iter/s)": 0.448918
+    },
+    {
+      "acc": 0.64567485,
+      "epoch": 0.6311516996448503,
+      "grad_norm": 5.3125,
+      "learning_rate": 8.192520571559128e-06,
+      "loss": 1.64940224,
+      "memory(GiB)": 111.15,
+      "step": 24880,
+      "train_speed(iter/s)": 0.448966
+    },
+    {
+      "acc": 0.65717254,
+      "epoch": 0.6312785388127854,
+      "grad_norm": 6.03125,
+      "learning_rate": 8.191713461266246e-06,
+      "loss": 1.65217781,
+      "memory(GiB)": 111.15,
+      "step": 24885,
+      "train_speed(iter/s)": 0.449014
+    },
+    {
+      "acc": 0.64579906,
+      "epoch": 0.6314053779807205,
+      "grad_norm": 5.28125,
+      "learning_rate": 8.190906210587555e-06,
+      "loss": 1.65746593,
+      "memory(GiB)": 111.15,
+      "step": 24890,
+      "train_speed(iter/s)": 0.449062
+    },
+    {
+      "acc": 0.65276146,
+      "epoch": 0.6315322171486555,
+      "grad_norm": 4.96875,
+      "learning_rate": 8.190098819558562e-06,
+      "loss": 1.57652779,
+      "memory(GiB)": 111.15,
+      "step": 24895,
+      "train_speed(iter/s)": 0.44911
+    },
+    {
+      "acc": 0.64430218,
+      "epoch": 0.6316590563165906,
+      "grad_norm": 4.5,
+      "learning_rate": 8.189291288214782e-06,
+      "loss": 1.6269062,
+      "memory(GiB)": 111.15,
+      "step": 24900,
+      "train_speed(iter/s)": 0.449158
+    },
+    {
+      "epoch": 0.6316590563165906,
+      "eval_acc": 0.64215054913424,
+      "eval_loss": 1.6153156757354736,
+      "eval_runtime": 113.9187,
+      "eval_samples_per_second": 55.917,
+      "eval_steps_per_second": 27.959,
+      "step": 24900
+    },
+    {
+      "acc": 0.64274473,
+      "epoch": 0.6317858954845256,
+      "grad_norm": 4.3125,
+      "learning_rate": 8.18848361659173e-06,
+      "loss": 1.63923054,
+      "memory(GiB)": 111.15,
+      "step": 24905,
+      "train_speed(iter/s)": 0.448247
+    },
+    {
+      "acc": 0.66719494,
+      "epoch": 0.6319127346524607,
+      "grad_norm": 5.4375,
+      "learning_rate": 8.187675804724935e-06,
+      "loss": 1.60533104,
+      "memory(GiB)": 111.15,
+      "step": 24910,
+      "train_speed(iter/s)": 0.448294
+    },
+    {
+      "acc": 0.64727278,
+      "epoch": 0.6320395738203958,
+      "grad_norm": 5.125,
+      "learning_rate": 8.186867852649925e-06,
+      "loss": 1.62624588,
+      "memory(GiB)": 111.15,
+      "step": 24915,
+      "train_speed(iter/s)": 0.448341
+    },
+    {
+      "acc": 0.65123062,
+      "epoch": 0.6321664129883308,
+      "grad_norm": 5.25,
+      "learning_rate": 8.186059760402238e-06,
+      "loss": 1.65888672,
+      "memory(GiB)": 111.15,
+      "step": 24920,
+      "train_speed(iter/s)": 0.448388
+    },
+    {
+      "acc": 0.65739236,
+      "epoch": 0.6322932521562659,
+      "grad_norm": 5.34375,
+      "learning_rate": 8.185251528017419e-06,
+      "loss": 1.62798195,
+      "memory(GiB)": 111.15,
+      "step": 24925,
+      "train_speed(iter/s)": 0.448435
+    },
+    {
+      "acc": 0.64424782,
+      "epoch": 0.632420091324201,
+      "grad_norm": 5.5625,
+      "learning_rate": 8.184443155531016e-06,
+      "loss": 1.63872452,
+      "memory(GiB)": 111.15,
+      "step": 24930,
+      "train_speed(iter/s)": 0.448483
+    },
+    {
+      "acc": 0.65128002,
+      "epoch": 0.632546930492136,
+      "grad_norm": 5.0625,
+      "learning_rate": 8.183634642978586e-06,
+      "loss": 1.65350571,
+      "memory(GiB)": 111.15,
+      "step": 24935,
+      "train_speed(iter/s)": 0.44853
+    },
+    {
+      "acc": 0.64950018,
+      "epoch": 0.632673769660071,
+      "grad_norm": 6.125,
+      "learning_rate": 8.18282599039569e-06,
+      "loss": 1.62527161,
+      "memory(GiB)": 111.15,
+      "step": 24940,
+      "train_speed(iter/s)": 0.448577
+    },
+    {
+      "acc": 0.64705515,
+      "epoch": 0.632800608828006,
+      "grad_norm": 5.90625,
+      "learning_rate": 8.182017197817898e-06,
+      "loss": 1.68726654,
+      "memory(GiB)": 111.15,
+      "step": 24945,
+      "train_speed(iter/s)": 0.448625
+    },
+    {
+      "acc": 0.65741043,
+      "epoch": 0.6329274479959411,
+      "grad_norm": 5.21875,
+      "learning_rate": 8.181208265280782e-06,
+      "loss": 1.62450294,
+      "memory(GiB)": 111.15,
+      "step": 24950,
+      "train_speed(iter/s)": 0.448671
+    },
+    {
+      "acc": 0.63850965,
+      "epoch": 0.6330542871638762,
+      "grad_norm": 5.28125,
+      "learning_rate": 8.180399192819923e-06,
+      "loss": 1.71565781,
+      "memory(GiB)": 111.15,
+      "step": 24955,
+      "train_speed(iter/s)": 0.448718
+    },
+    {
+      "acc": 0.64313908,
+      "epoch": 0.6331811263318112,
+      "grad_norm": 6.1875,
+      "learning_rate": 8.17958998047091e-06,
+      "loss": 1.64225006,
+      "memory(GiB)": 111.15,
+      "step": 24960,
+      "train_speed(iter/s)": 0.448766
+    },
+    {
+      "acc": 0.65503531,
+      "epoch": 0.6333079654997463,
+      "grad_norm": 6.3125,
+      "learning_rate": 8.178780628269332e-06,
+      "loss": 1.57361002,
+      "memory(GiB)": 111.15,
+      "step": 24965,
+      "train_speed(iter/s)": 0.448813
+    },
+    {
+      "acc": 0.64624314,
+      "epoch": 0.6334348046676814,
+      "grad_norm": 5.03125,
+      "learning_rate": 8.177971136250788e-06,
+      "loss": 1.70225239,
+      "memory(GiB)": 111.15,
+      "step": 24970,
+      "train_speed(iter/s)": 0.44886
+    },
+    {
+      "acc": 0.64975262,
+      "epoch": 0.6335616438356164,
+      "grad_norm": 4.84375,
+      "learning_rate": 8.177161504450887e-06,
+      "loss": 1.63090858,
+      "memory(GiB)": 111.15,
+      "step": 24975,
+      "train_speed(iter/s)": 0.448907
+    },
+    {
+      "acc": 0.63992052,
+      "epoch": 0.6336884830035515,
+      "grad_norm": 5.03125,
+      "learning_rate": 8.176351732905239e-06,
+      "loss": 1.71269741,
+      "memory(GiB)": 111.15,
+      "step": 24980,
+      "train_speed(iter/s)": 0.448954
+    },
+    {
+      "acc": 0.65621042,
+      "epoch": 0.6338153221714865,
+      "grad_norm": 5.5625,
+      "learning_rate": 8.175541821649459e-06,
+      "loss": 1.64829102,
+      "memory(GiB)": 111.15,
+      "step": 24985,
+      "train_speed(iter/s)": 0.449001
+    },
+    {
+      "acc": 0.67137823,
+      "epoch": 0.6339421613394216,
+      "grad_norm": 5.6875,
+      "learning_rate": 8.174731770719173e-06,
+      "loss": 1.5600666,
+      "memory(GiB)": 111.15,
+      "step": 24990,
+      "train_speed(iter/s)": 0.449048
+    },
+    {
+      "acc": 0.647223,
+      "epoch": 0.6340690005073567,
+      "grad_norm": 4.9375,
+      "learning_rate": 8.173921580150008e-06,
+      "loss": 1.639254,
+      "memory(GiB)": 111.15,
+      "step": 24995,
+      "train_speed(iter/s)": 0.449096
+    },
+    {
+      "acc": 0.64199047,
+      "epoch": 0.6341958396752917,
+      "grad_norm": 5.71875,
+      "learning_rate": 8.173111249977602e-06,
+      "loss": 1.69705372,
+      "memory(GiB)": 111.15,
+      "step": 25000,
+      "train_speed(iter/s)": 0.449143
+    },
+    {
+      "epoch": 0.6341958396752917,
+      "eval_acc": 0.6420661601377295,
+      "eval_loss": 1.6147788763046265,
+      "eval_runtime": 113.9107,
+      "eval_samples_per_second": 55.921,
+      "eval_steps_per_second": 27.961,
+      "step": 25000
+    },
+    {
+      "acc": 0.66102285,
+      "epoch": 0.6343226788432268,
+      "grad_norm": 5.40625,
+      "learning_rate": 8.172300780237596e-06,
+      "loss": 1.56731091,
+      "memory(GiB)": 111.15,
+      "step": 25005,
+      "train_speed(iter/s)": 0.448236
+    },
+    {
+      "acc": 0.64904962,
+      "epoch": 0.6344495180111619,
+      "grad_norm": 5.5,
+      "learning_rate": 8.171490170965639e-06,
+      "loss": 1.59657936,
+      "memory(GiB)": 111.15,
+      "step": 25010,
+      "train_speed(iter/s)": 0.448284
+    },
+    {
+      "acc": 0.66357908,
+      "epoch": 0.6345763571790969,
+      "grad_norm": 5.875,
+      "learning_rate": 8.170679422197385e-06,
+      "loss": 1.55304871,
+      "memory(GiB)": 111.15,
+      "step": 25015,
+      "train_speed(iter/s)": 0.448331
+    },
+    {
+      "acc": 0.64722466,
+      "epoch": 0.634703196347032,
+      "grad_norm": 5.6875,
+      "learning_rate": 8.169868533968493e-06,
+      "loss": 1.62319908,
+      "memory(GiB)": 111.15,
+      "step": 25020,
+      "train_speed(iter/s)": 0.448379
+    },
+    {
+      "acc": 0.63708782,
+      "epoch": 0.634830035514967,
+      "grad_norm": 4.65625,
+      "learning_rate": 8.16905750631463e-06,
+      "loss": 1.66490021,
+      "memory(GiB)": 111.15,
+      "step": 25025,
+      "train_speed(iter/s)": 0.448426
+    },
+    {
+      "acc": 0.66393471,
+      "epoch": 0.6349568746829021,
+      "grad_norm": 6.34375,
+      "learning_rate": 8.168246339271471e-06,
+      "loss": 1.61631336,
+      "memory(GiB)": 111.15,
+      "step": 25030,
+      "train_speed(iter/s)": 0.448473
+    },
+    {
+      "acc": 0.63253698,
+      "epoch": 0.6350837138508372,
+      "grad_norm": 4.9375,
+      "learning_rate": 8.16743503287469e-06,
+      "loss": 1.64849377,
+      "memory(GiB)": 111.15,
+      "step": 25035,
+      "train_speed(iter/s)": 0.44852
+    },
+    {
+      "acc": 0.64529724,
+      "epoch": 0.6352105530187722,
+      "grad_norm": 5.6875,
+      "learning_rate": 8.166623587159978e-06,
+      "loss": 1.57249537,
+      "memory(GiB)": 111.15,
+      "step": 25040,
+      "train_speed(iter/s)": 0.448568
+    },
+    {
+      "acc": 0.65153241,
+      "epoch": 0.6353373921867073,
+      "grad_norm": 5.59375,
+      "learning_rate": 8.16581200216302e-06,
+      "loss": 1.61163254,
+      "memory(GiB)": 111.15,
+      "step": 25045,
+      "train_speed(iter/s)": 0.448615
+    },
+    {
+      "acc": 0.64610701,
+      "epoch": 0.6354642313546424,
+      "grad_norm": 4.75,
+      "learning_rate": 8.165000277919517e-06,
+      "loss": 1.66350708,
+      "memory(GiB)": 111.15,
+      "step": 25050,
+      "train_speed(iter/s)": 0.448663
+    },
+    {
+      "acc": 0.65383902,
+      "epoch": 0.6355910705225774,
+      "grad_norm": 5.5625,
+      "learning_rate": 8.16418841446517e-06,
+      "loss": 1.60010834,
+      "memory(GiB)": 111.15,
+      "step": 25055,
+      "train_speed(iter/s)": 0.44871
+    },
+    {
+      "acc": 0.64665141,
+      "epoch": 0.6357179096905125,
+      "grad_norm": 4.8125,
+      "learning_rate": 8.163376411835691e-06,
+      "loss": 1.5940299,
+      "memory(GiB)": 111.15,
+      "step": 25060,
+      "train_speed(iter/s)": 0.448758
+    },
+    {
+      "acc": 0.66407509,
+      "epoch": 0.6358447488584474,
+      "grad_norm": 4.5,
+      "learning_rate": 8.162564270066793e-06,
+      "loss": 1.5231823,
+      "memory(GiB)": 111.15,
+      "step": 25065,
+      "train_speed(iter/s)": 0.448806
+    },
+    {
+      "acc": 0.64939265,
+      "epoch": 0.6359715880263825,
+      "grad_norm": 5.6875,
+      "learning_rate": 8.1617519891942e-06,
+      "loss": 1.64153442,
+      "memory(GiB)": 111.15,
+      "step": 25070,
+      "train_speed(iter/s)": 0.448853
+    },
+    {
+      "acc": 0.6522121,
+      "epoch": 0.6360984271943176,
+      "grad_norm": 5.5625,
+      "learning_rate": 8.160939569253637e-06,
+      "loss": 1.58080626,
+      "memory(GiB)": 111.15,
+      "step": 25075,
+      "train_speed(iter/s)": 0.448901
+    },
+    {
+      "acc": 0.65004058,
+      "epoch": 0.6362252663622526,
+      "grad_norm": 5.15625,
+      "learning_rate": 8.160127010280838e-06,
+      "loss": 1.63753471,
+      "memory(GiB)": 111.15,
+      "step": 25080,
+      "train_speed(iter/s)": 0.448948
+    },
+    {
+      "acc": 0.64070101,
+      "epoch": 0.6363521055301877,
+      "grad_norm": 6.5625,
+      "learning_rate": 8.159314312311546e-06,
+      "loss": 1.69272919,
+      "memory(GiB)": 111.15,
+      "step": 25085,
+      "train_speed(iter/s)": 0.448996
+    },
+    {
+      "acc": 0.63848009,
+      "epoch": 0.6364789446981228,
+      "grad_norm": 5.25,
+      "learning_rate": 8.158501475381505e-06,
+      "loss": 1.67859955,
+      "memory(GiB)": 111.15,
+      "step": 25090,
+      "train_speed(iter/s)": 0.449043
+    },
+    {
+      "acc": 0.64950032,
+      "epoch": 0.6366057838660578,
+      "grad_norm": 5.03125,
+      "learning_rate": 8.157688499526466e-06,
+      "loss": 1.56578875,
+      "memory(GiB)": 111.15,
+      "step": 25095,
+      "train_speed(iter/s)": 0.44909
+    },
+    {
+      "acc": 0.65237565,
+      "epoch": 0.6367326230339929,
+      "grad_norm": 5.09375,
+      "learning_rate": 8.15687538478219e-06,
+      "loss": 1.64658051,
+      "memory(GiB)": 111.15,
+      "step": 25100,
+      "train_speed(iter/s)": 0.449137
+    },
+    {
+      "epoch": 0.6367326230339929,
+      "eval_acc": 0.6422332670615125,
+      "eval_loss": 1.6146001815795898,
+      "eval_runtime": 112.4745,
+      "eval_samples_per_second": 56.635,
+      "eval_steps_per_second": 28.318,
+      "step": 25100
+    },
+    {
+      "acc": 0.63391418,
+      "epoch": 0.6368594622019279,
+      "grad_norm": 5.59375,
+      "learning_rate": 8.156062131184439e-06,
+      "loss": 1.68686485,
+      "memory(GiB)": 111.15,
+      "step": 25105,
+      "train_speed(iter/s)": 0.448246
+    },
+    {
+      "acc": 0.6507432,
+      "epoch": 0.636986301369863,
+      "grad_norm": 5.84375,
+      "learning_rate": 8.155248738768986e-06,
+      "loss": 1.65502472,
+      "memory(GiB)": 111.15,
+      "step": 25110,
+      "train_speed(iter/s)": 0.448293
+    },
+    {
+      "acc": 0.66088276,
+      "epoch": 0.6371131405377981,
+      "grad_norm": 5.3125,
+      "learning_rate": 8.154435207571606e-06,
+      "loss": 1.55605249,
+      "memory(GiB)": 111.15,
+      "step": 25115,
+      "train_speed(iter/s)": 0.44834
+    },
+    {
+      "acc": 0.64329348,
+      "epoch": 0.6372399797057331,
+      "grad_norm": 7.1875,
+      "learning_rate": 8.153621537628083e-06,
+      "loss": 1.59533501,
+      "memory(GiB)": 111.15,
+      "step": 25120,
+      "train_speed(iter/s)": 0.448387
+    },
+    {
+      "acc": 0.6480298,
+      "epoch": 0.6373668188736682,
+      "grad_norm": 6.21875,
+      "learning_rate": 8.152807728974203e-06,
+      "loss": 1.59587269,
+      "memory(GiB)": 111.15,
+      "step": 25125,
+      "train_speed(iter/s)": 0.448434
+    },
+    {
+      "acc": 0.66501017,
+      "epoch": 0.6374936580416033,
+      "grad_norm": 6.34375,
+      "learning_rate": 8.151993781645765e-06,
+      "loss": 1.60118752,
+      "memory(GiB)": 111.15,
+      "step": 25130,
+      "train_speed(iter/s)": 0.448481
+    },
+    {
+      "acc": 0.63164458,
+      "epoch": 0.6376204972095383,
+      "grad_norm": 7.4375,
+      "learning_rate": 8.151179695678565e-06,
+      "loss": 1.68535767,
+      "memory(GiB)": 111.15,
+      "step": 25135,
+      "train_speed(iter/s)": 0.448528
+    },
+    {
+      "acc": 0.663834,
+      "epoch": 0.6377473363774734,
+      "grad_norm": 5.03125,
+      "learning_rate": 8.150365471108414e-06,
+      "loss": 1.56416922,
+      "memory(GiB)": 111.15,
+      "step": 25140,
+      "train_speed(iter/s)": 0.448574
+    },
+    {
+      "acc": 0.63921051,
+      "epoch": 0.6378741755454084,
+      "grad_norm": 4.90625,
+      "learning_rate": 8.149551107971125e-06,
+      "loss": 1.69376488,
+      "memory(GiB)": 111.15,
+      "step": 25145,
+      "train_speed(iter/s)": 0.448621
+    },
+    {
+      "acc": 0.63716726,
+      "epoch": 0.6380010147133435,
+      "grad_norm": 5.25,
+      "learning_rate": 8.148736606302517e-06,
+      "loss": 1.69583054,
+      "memory(GiB)": 111.15,
+      "step": 25150,
+      "train_speed(iter/s)": 0.448668
+    },
+    {
+      "acc": 0.63453145,
+      "epoch": 0.6381278538812786,
+      "grad_norm": 5.53125,
+      "learning_rate": 8.147921966138412e-06,
+      "loss": 1.68752117,
+      "memory(GiB)": 111.15,
+      "step": 25155,
+      "train_speed(iter/s)": 0.448714
+    },
+    {
+      "acc": 0.67142248,
+      "epoch": 0.6382546930492136,
+      "grad_norm": 4.46875,
+      "learning_rate": 8.147107187514647e-06,
+      "loss": 1.55762539,
+      "memory(GiB)": 111.15,
+      "step": 25160,
+      "train_speed(iter/s)": 0.448761
+    },
+    {
+      "acc": 0.65803041,
+      "epoch": 0.6383815322171487,
+      "grad_norm": 4.5625,
+      "learning_rate": 8.146292270467056e-06,
+      "loss": 1.52209463,
+      "memory(GiB)": 111.15,
+      "step": 25165,
+      "train_speed(iter/s)": 0.448807
+    },
+    {
+      "acc": 0.65684171,
+      "epoch": 0.6385083713850838,
+      "grad_norm": 5.375,
+      "learning_rate": 8.145477215031486e-06,
+      "loss": 1.60488758,
+      "memory(GiB)": 111.15,
+      "step": 25170,
+      "train_speed(iter/s)": 0.448854
+    },
+    {
+      "acc": 0.6499114,
+      "epoch": 0.6386352105530188,
+      "grad_norm": 6.0,
+      "learning_rate": 8.144662021243782e-06,
+      "loss": 1.56386786,
+      "memory(GiB)": 111.15,
+      "step": 25175,
+      "train_speed(iter/s)": 0.4489
+    },
+    {
+      "acc": 0.6411643,
+      "epoch": 0.6387620497209539,
+      "grad_norm": 5.0,
+      "learning_rate": 8.143846689139805e-06,
+      "loss": 1.66774864,
+      "memory(GiB)": 111.15,
+      "step": 25180,
+      "train_speed(iter/s)": 0.448947
+    },
+    {
+      "acc": 0.64126363,
+      "epoch": 0.6388888888888888,
+      "grad_norm": 4.65625,
+      "learning_rate": 8.143031218755411e-06,
+      "loss": 1.66498585,
+      "memory(GiB)": 111.15,
+      "step": 25185,
+      "train_speed(iter/s)": 0.448993
+    },
+    {
+      "acc": 0.62882071,
+      "epoch": 0.6390157280568239,
+      "grad_norm": 5.65625,
+      "learning_rate": 8.142215610126474e-06,
+      "loss": 1.70018044,
+      "memory(GiB)": 111.15,
+      "step": 25190,
+      "train_speed(iter/s)": 0.44904
+    },
+    {
+      "acc": 0.66710491,
+      "epoch": 0.639142567224759,
+      "grad_norm": 5.34375,
+      "learning_rate": 8.141399863288863e-06,
+      "loss": 1.60788517,
+      "memory(GiB)": 111.15,
+      "step": 25195,
+      "train_speed(iter/s)": 0.449086
+    },
+    {
+      "acc": 0.64333487,
+      "epoch": 0.639269406392694,
+      "grad_norm": 5.03125,
+      "learning_rate": 8.140583978278463e-06,
+      "loss": 1.63184509,
+      "memory(GiB)": 111.15,
+      "step": 25200,
+      "train_speed(iter/s)": 0.449133
+    },
+    {
+      "epoch": 0.639269406392694,
+      "eval_acc": 0.6422750437924583,
+      "eval_loss": 1.6144720315933228,
+      "eval_runtime": 114.5331,
+      "eval_samples_per_second": 55.617,
+      "eval_steps_per_second": 27.809,
+      "step": 25200
+    },
+    {
+      "acc": 0.66849899,
+      "epoch": 0.6393962455606291,
+      "grad_norm": 4.5625,
+      "learning_rate": 8.139767955131157e-06,
+      "loss": 1.47731323,
+      "memory(GiB)": 111.15,
+      "step": 25205,
+      "train_speed(iter/s)": 0.448228
+    },
+    {
+      "acc": 0.66981125,
+      "epoch": 0.6395230847285642,
+      "grad_norm": 5.03125,
+      "learning_rate": 8.138951793882838e-06,
+      "loss": 1.56193562,
+      "memory(GiB)": 111.15,
+      "step": 25210,
+      "train_speed(iter/s)": 0.448274
+    },
+    {
+      "acc": 0.66646719,
+      "epoch": 0.6396499238964992,
+      "grad_norm": 5.28125,
+      "learning_rate": 8.138135494569405e-06,
+      "loss": 1.58883667,
+      "memory(GiB)": 111.15,
+      "step": 25215,
+      "train_speed(iter/s)": 0.448321
+    },
+    {
+      "acc": 0.65175028,
+      "epoch": 0.6397767630644343,
+      "grad_norm": 5.59375,
+      "learning_rate": 8.137319057226763e-06,
+      "loss": 1.57053032,
+      "memory(GiB)": 111.15,
+      "step": 25220,
+      "train_speed(iter/s)": 0.448367
+    },
+    {
+      "acc": 0.65277653,
+      "epoch": 0.6399036022323693,
+      "grad_norm": 4.5,
+      "learning_rate": 8.136502481890821e-06,
+      "loss": 1.63260155,
+      "memory(GiB)": 111.15,
+      "step": 25225,
+      "train_speed(iter/s)": 0.448413
+    },
+    {
+      "acc": 0.65161858,
+      "epoch": 0.6400304414003044,
+      "grad_norm": 6.46875,
+      "learning_rate": 8.135685768597496e-06,
+      "loss": 1.62139053,
+      "memory(GiB)": 111.15,
+      "step": 25230,
+      "train_speed(iter/s)": 0.44846
+    },
+    {
+      "acc": 0.6460598,
+      "epoch": 0.6401572805682395,
+      "grad_norm": 4.84375,
+      "learning_rate": 8.134868917382713e-06,
+      "loss": 1.57758598,
+      "memory(GiB)": 111.15,
+      "step": 25235,
+      "train_speed(iter/s)": 0.448506
+    },
+    {
+      "acc": 0.64111748,
+      "epoch": 0.6402841197361745,
+      "grad_norm": 5.03125,
+      "learning_rate": 8.134051928282396e-06,
+      "loss": 1.64872055,
+      "memory(GiB)": 111.15,
+      "step": 25240,
+      "train_speed(iter/s)": 0.448552
+    },
+    {
+      "acc": 0.65597315,
+      "epoch": 0.6404109589041096,
+      "grad_norm": 5.0,
+      "learning_rate": 8.133234801332484e-06,
+      "loss": 1.6460474,
+      "memory(GiB)": 111.15,
+      "step": 25245,
+      "train_speed(iter/s)": 0.448599
+    },
+    {
+      "acc": 0.65668058,
+      "epoch": 0.6405377980720447,
+      "grad_norm": 5.125,
+      "learning_rate": 8.132417536568918e-06,
+      "loss": 1.56980152,
+      "memory(GiB)": 111.15,
+      "step": 25250,
+      "train_speed(iter/s)": 0.448645
+    },
+    {
+      "acc": 0.62802076,
+      "epoch": 0.6406646372399797,
+      "grad_norm": 5.0625,
+      "learning_rate": 8.131600134027641e-06,
+      "loss": 1.70628281,
+      "memory(GiB)": 111.15,
+      "step": 25255,
+      "train_speed(iter/s)": 0.448641
+    },
+    {
+      "acc": 0.64581118,
+      "epoch": 0.6407914764079148,
+      "grad_norm": 4.84375,
+      "learning_rate": 8.13078259374461e-06,
+      "loss": 1.62270813,
+      "memory(GiB)": 111.15,
+      "step": 25260,
+      "train_speed(iter/s)": 0.448687
+    },
+    {
+      "acc": 0.63924856,
+      "epoch": 0.6409183155758498,
+      "grad_norm": 5.84375,
+      "learning_rate": 8.129964915755781e-06,
+      "loss": 1.65237961,
+      "memory(GiB)": 111.15,
+      "step": 25265,
+      "train_speed(iter/s)": 0.448734
+    },
+    {
+      "acc": 0.66460958,
+      "epoch": 0.6410451547437849,
+      "grad_norm": 4.4375,
+      "learning_rate": 8.129147100097122e-06,
+      "loss": 1.54580479,
+      "memory(GiB)": 111.15,
+      "step": 25270,
+      "train_speed(iter/s)": 0.44878
+    },
+    {
+      "acc": 0.65604186,
+      "epoch": 0.64117199391172,
+      "grad_norm": 5.34375,
+      "learning_rate": 8.128329146804604e-06,
+      "loss": 1.6217186,
+      "memory(GiB)": 111.15,
+      "step": 25275,
+      "train_speed(iter/s)": 0.448827
+    },
+    {
+      "acc": 0.65051589,
+      "epoch": 0.641298833079655,
+      "grad_norm": 5.21875,
+      "learning_rate": 8.127511055914201e-06,
+      "loss": 1.59140387,
+      "memory(GiB)": 111.15,
+      "step": 25280,
+      "train_speed(iter/s)": 0.448874
+    },
+    {
+      "acc": 0.66991301,
+      "epoch": 0.6414256722475901,
+      "grad_norm": 5.6875,
+      "learning_rate": 8.1266928274619e-06,
+      "loss": 1.59676704,
+      "memory(GiB)": 111.15,
+      "step": 25285,
+      "train_speed(iter/s)": 0.448921
+    },
+    {
+      "acc": 0.65021882,
+      "epoch": 0.6415525114155252,
+      "grad_norm": 5.0,
+      "learning_rate": 8.125874461483687e-06,
+      "loss": 1.62409973,
+      "memory(GiB)": 111.15,
+      "step": 25290,
+      "train_speed(iter/s)": 0.448967
+    },
+    {
+      "acc": 0.62484035,
+      "epoch": 0.6416793505834602,
+      "grad_norm": 5.21875,
+      "learning_rate": 8.12505595801556e-06,
+      "loss": 1.70603123,
+      "memory(GiB)": 111.15,
+      "step": 25295,
+      "train_speed(iter/s)": 0.449014
+    },
+    {
+      "acc": 0.6335062,
+      "epoch": 0.6418061897513953,
+      "grad_norm": 7.71875,
+      "learning_rate": 8.12423731709352e-06,
+      "loss": 1.72106781,
+      "memory(GiB)": 111.15,
+      "step": 25300,
+      "train_speed(iter/s)": 0.44906
+    },
+    {
+      "epoch": 0.6418061897513953,
+      "eval_acc": 0.6422846524405758,
+      "eval_loss": 1.6143816709518433,
+      "eval_runtime": 113.8136,
+      "eval_samples_per_second": 55.969,
+      "eval_steps_per_second": 27.984,
+      "step": 25300
+    },
+    {
+      "acc": 0.64162898,
+      "epoch": 0.6419330289193302,
+      "grad_norm": 4.9375,
+      "learning_rate": 8.123418538753573e-06,
+      "loss": 1.59354877,
+      "memory(GiB)": 111.15,
+      "step": 25305,
+      "train_speed(iter/s)": 0.448165
+    },
+    {
+      "acc": 0.65647416,
+      "epoch": 0.6420598680872653,
+      "grad_norm": 6.0625,
+      "learning_rate": 8.122599623031735e-06,
+      "loss": 1.58887157,
+      "memory(GiB)": 111.15,
+      "step": 25310,
+      "train_speed(iter/s)": 0.448211
+    },
+    {
+      "acc": 0.64369383,
+      "epoch": 0.6421867072552004,
+      "grad_norm": 4.625,
+      "learning_rate": 8.121780569964024e-06,
+      "loss": 1.60995808,
+      "memory(GiB)": 111.15,
+      "step": 25315,
+      "train_speed(iter/s)": 0.448257
+    },
+    {
+      "acc": 0.65754333,
+      "epoch": 0.6423135464231354,
+      "grad_norm": 5.25,
+      "learning_rate": 8.120961379586466e-06,
+      "loss": 1.61866016,
+      "memory(GiB)": 111.15,
+      "step": 25320,
+      "train_speed(iter/s)": 0.448304
+    },
+    {
+      "acc": 0.64092803,
+      "epoch": 0.6424403855910705,
+      "grad_norm": 5.3125,
+      "learning_rate": 8.120142051935092e-06,
+      "loss": 1.69172668,
+      "memory(GiB)": 111.15,
+      "step": 25325,
+      "train_speed(iter/s)": 0.44835
+    },
+    {
+      "acc": 0.62302303,
+      "epoch": 0.6425672247590056,
+      "grad_norm": 5.90625,
+      "learning_rate": 8.11932258704594e-06,
+      "loss": 1.75324974,
+      "memory(GiB)": 111.15,
+      "step": 25330,
+      "train_speed(iter/s)": 0.448395
+    },
+    {
+      "acc": 0.62923098,
+      "epoch": 0.6426940639269406,
+      "grad_norm": 7.09375,
+      "learning_rate": 8.118502984955053e-06,
+      "loss": 1.74558086,
+      "memory(GiB)": 111.15,
+      "step": 25335,
+      "train_speed(iter/s)": 0.448441
+    },
+    {
+      "acc": 0.64373865,
+      "epoch": 0.6428209030948757,
+      "grad_norm": 5.40625,
+      "learning_rate": 8.117683245698483e-06,
+      "loss": 1.65544014,
+      "memory(GiB)": 111.15,
+      "step": 25340,
+      "train_speed(iter/s)": 0.448488
+    },
+    {
+      "acc": 0.65083966,
+      "epoch": 0.6429477422628107,
+      "grad_norm": 5.375,
+      "learning_rate": 8.116863369312283e-06,
+      "loss": 1.66050835,
+      "memory(GiB)": 111.15,
+      "step": 25345,
+      "train_speed(iter/s)": 0.448534
+    },
+    {
+      "acc": 0.65403724,
+      "epoch": 0.6430745814307458,
+      "grad_norm": 5.4375,
+      "learning_rate": 8.116043355832518e-06,
+      "loss": 1.65070534,
+      "memory(GiB)": 111.15,
+      "step": 25350,
+      "train_speed(iter/s)": 0.448581
+    },
+    {
+      "acc": 0.64204597,
+      "epoch": 0.6432014205986809,
+      "grad_norm": 4.34375,
+      "learning_rate": 8.115223205295253e-06,
+      "loss": 1.63095093,
+      "memory(GiB)": 111.15,
+      "step": 25355,
+      "train_speed(iter/s)": 0.448627
+    },
+    {
+      "acc": 0.65409422,
+      "epoch": 0.6433282597666159,
+      "grad_norm": 6.125,
+      "learning_rate": 8.114402917736563e-06,
+      "loss": 1.64258766,
+      "memory(GiB)": 111.15,
+      "step": 25360,
+      "train_speed(iter/s)": 0.448674
+    },
+    {
+      "acc": 0.6532855,
+      "epoch": 0.643455098934551,
+      "grad_norm": 5.78125,
+      "learning_rate": 8.113582493192529e-06,
+      "loss": 1.59929485,
+      "memory(GiB)": 111.15,
+      "step": 25365,
+      "train_speed(iter/s)": 0.44872
+    },
+    {
+      "acc": 0.66132126,
+      "epoch": 0.6435819381024861,
+      "grad_norm": 5.5625,
+      "learning_rate": 8.112761931699235e-06,
+      "loss": 1.65522804,
+      "memory(GiB)": 111.15,
+      "step": 25370,
+      "train_speed(iter/s)": 0.448767
+    },
+    {
+      "acc": 0.6460021,
+      "epoch": 0.6437087772704211,
+      "grad_norm": 5.4375,
+      "learning_rate": 8.111941233292772e-06,
+      "loss": 1.67019958,
+      "memory(GiB)": 111.15,
+      "step": 25375,
+      "train_speed(iter/s)": 0.448814
+    },
+    {
+      "acc": 0.66555166,
+      "epoch": 0.6438356164383562,
+      "grad_norm": 6.125,
+      "learning_rate": 8.111120398009243e-06,
+      "loss": 1.59681482,
+      "memory(GiB)": 111.15,
+      "step": 25380,
+      "train_speed(iter/s)": 0.44886
+    },
+    {
+      "acc": 0.63871188,
+      "epoch": 0.6439624556062912,
+      "grad_norm": 5.15625,
+      "learning_rate": 8.110299425884745e-06,
+      "loss": 1.67221985,
+      "memory(GiB)": 111.15,
+      "step": 25385,
+      "train_speed(iter/s)": 0.448906
+    },
+    {
+      "acc": 0.64048529,
+      "epoch": 0.6440892947742263,
+      "grad_norm": 4.875,
+      "learning_rate": 8.109478316955394e-06,
+      "loss": 1.71570053,
+      "memory(GiB)": 111.15,
+      "step": 25390,
+      "train_speed(iter/s)": 0.448952
+    },
+    {
+      "acc": 0.64274487,
+      "epoch": 0.6442161339421614,
+      "grad_norm": 4.96875,
+      "learning_rate": 8.108657071257304e-06,
+      "loss": 1.67503834,
+      "memory(GiB)": 111.15,
+      "step": 25395,
+      "train_speed(iter/s)": 0.448999
+    },
+    {
+      "acc": 0.64238253,
+      "epoch": 0.6443429731100964,
+      "grad_norm": 5.5,
+      "learning_rate": 8.107835688826598e-06,
+      "loss": 1.67036705,
+      "memory(GiB)": 111.15,
+      "step": 25400,
+      "train_speed(iter/s)": 0.449045
+    },
+    {
+      "epoch": 0.6443429731100964,
+      "eval_acc": 0.6422240761807044,
+      "eval_loss": 1.6145817041397095,
+      "eval_runtime": 113.4903,
+      "eval_samples_per_second": 56.128,
+      "eval_steps_per_second": 28.064,
+      "step": 25400
+    },
+    {
+      "acc": 0.66519203,
+      "epoch": 0.6444698122780315,
+      "grad_norm": 4.6875,
+      "learning_rate": 8.1070141696994e-06,
+      "loss": 1.60821724,
+      "memory(GiB)": 111.15,
+      "step": 25405,
+      "train_speed(iter/s)": 0.448156
+    },
+    {
+      "acc": 0.65472312,
+      "epoch": 0.6445966514459666,
+      "grad_norm": 5.375,
+      "learning_rate": 8.106192513911849e-06,
+      "loss": 1.60691814,
+      "memory(GiB)": 111.15,
+      "step": 25410,
+      "train_speed(iter/s)": 0.448202
+    },
+    {
+      "acc": 0.64731035,
+      "epoch": 0.6447234906139016,
+      "grad_norm": 4.90625,
+      "learning_rate": 8.105370721500083e-06,
+      "loss": 1.7259182,
+      "memory(GiB)": 111.15,
+      "step": 25415,
+      "train_speed(iter/s)": 0.448248
+    },
+    {
+      "acc": 0.65094666,
+      "epoch": 0.6448503297818367,
+      "grad_norm": 5.0,
+      "learning_rate": 8.104548792500246e-06,
+      "loss": 1.59813118,
+      "memory(GiB)": 111.15,
+      "step": 25420,
+      "train_speed(iter/s)": 0.448294
+    },
+    {
+      "acc": 0.64835467,
+      "epoch": 0.6449771689497716,
+      "grad_norm": 5.40625,
+      "learning_rate": 8.103726726948495e-06,
+      "loss": 1.66234684,
+      "memory(GiB)": 111.15,
+      "step": 25425,
+      "train_speed(iter/s)": 0.448341
+    },
+    {
+      "acc": 0.65083532,
+      "epoch": 0.6451040081177067,
+      "grad_norm": 4.59375,
+      "learning_rate": 8.102904524880985e-06,
+      "loss": 1.66054497,
+      "memory(GiB)": 111.15,
+      "step": 25430,
+      "train_speed(iter/s)": 0.448387
+    },
+    {
+      "acc": 0.63968124,
+      "epoch": 0.6452308472856418,
+      "grad_norm": 5.0,
+      "learning_rate": 8.10208218633388e-06,
+      "loss": 1.65318108,
+      "memory(GiB)": 111.15,
+      "step": 25435,
+      "train_speed(iter/s)": 0.448433
+    },
+    {
+      "acc": 0.64405375,
+      "epoch": 0.6453576864535768,
+      "grad_norm": 6.0,
+      "learning_rate": 8.10125971134335e-06,
+      "loss": 1.67444611,
+      "memory(GiB)": 111.15,
+      "step": 25440,
+      "train_speed(iter/s)": 0.44848
+    },
+    {
+      "acc": 0.64455309,
+      "epoch": 0.6454845256215119,
+      "grad_norm": 5.4375,
+      "learning_rate": 8.100437099945572e-06,
+      "loss": 1.61682014,
+      "memory(GiB)": 111.15,
+      "step": 25445,
+      "train_speed(iter/s)": 0.448526
+    },
+    {
+      "acc": 0.65455694,
+      "epoch": 0.645611364789447,
+      "grad_norm": 4.59375,
+      "learning_rate": 8.099614352176727e-06,
+      "loss": 1.56520061,
+      "memory(GiB)": 111.15,
+      "step": 25450,
+      "train_speed(iter/s)": 0.448572
+    },
+    {
+      "acc": 0.65275202,
+      "epoch": 0.645738203957382,
+      "grad_norm": 5.40625,
+      "learning_rate": 8.098791468073007e-06,
+      "loss": 1.64330025,
+      "memory(GiB)": 111.15,
+      "step": 25455,
+      "train_speed(iter/s)": 0.448618
+    },
+    {
+      "acc": 0.65771189,
+      "epoch": 0.6458650431253171,
+      "grad_norm": 6.34375,
+      "learning_rate": 8.097968447670601e-06,
+      "loss": 1.59385395,
+      "memory(GiB)": 111.15,
+      "step": 25460,
+      "train_speed(iter/s)": 0.448665
+    },
+    {
+      "acc": 0.65540133,
+      "epoch": 0.6459918822932521,
+      "grad_norm": 6.125,
+      "learning_rate": 8.09714529100571e-06,
+      "loss": 1.61375885,
+      "memory(GiB)": 111.15,
+      "step": 25465,
+      "train_speed(iter/s)": 0.448711
+    },
+    {
+      "acc": 0.65138292,
+      "epoch": 0.6461187214611872,
+      "grad_norm": 5.96875,
+      "learning_rate": 8.096321998114545e-06,
+      "loss": 1.63932648,
+      "memory(GiB)": 111.15,
+      "step": 25470,
+      "train_speed(iter/s)": 0.448757
+    },
+    {
+      "acc": 0.6624577,
+      "epoch": 0.6462455606291223,
+      "grad_norm": 6.28125,
+      "learning_rate": 8.09549856903331e-06,
+      "loss": 1.55449047,
+      "memory(GiB)": 111.15,
+      "step": 25475,
+      "train_speed(iter/s)": 0.448803
+    },
+    {
+      "acc": 0.63620672,
+      "epoch": 0.6463723997970573,
+      "grad_norm": 5.0,
+      "learning_rate": 8.094675003798232e-06,
+      "loss": 1.67134361,
+      "memory(GiB)": 111.15,
+      "step": 25480,
+      "train_speed(iter/s)": 0.448849
+    },
+    {
+      "acc": 0.66873422,
+      "epoch": 0.6464992389649924,
+      "grad_norm": 6.25,
+      "learning_rate": 8.093851302445528e-06,
+      "loss": 1.5526825,
+      "memory(GiB)": 111.15,
+      "step": 25485,
+      "train_speed(iter/s)": 0.448895
+    },
+    {
+      "acc": 0.65198755,
+      "epoch": 0.6466260781329275,
+      "grad_norm": 5.03125,
+      "learning_rate": 8.093027465011431e-06,
+      "loss": 1.5978735,
+      "memory(GiB)": 111.15,
+      "step": 25490,
+      "train_speed(iter/s)": 0.448942
+    },
+    {
+      "acc": 0.65398464,
+      "epoch": 0.6467529173008625,
+      "grad_norm": 4.96875,
+      "learning_rate": 8.092203491532178e-06,
+      "loss": 1.60472717,
+      "memory(GiB)": 111.15,
+      "step": 25495,
+      "train_speed(iter/s)": 0.448988
+    },
+    {
+      "acc": 0.65068512,
+      "epoch": 0.6468797564687976,
+      "grad_norm": 5.21875,
+      "learning_rate": 8.091379382044009e-06,
+      "loss": 1.66947441,
+      "memory(GiB)": 111.15,
+      "step": 25500,
+      "train_speed(iter/s)": 0.449034
+    },
+    {
+      "epoch": 0.6468797564687976,
+      "eval_acc": 0.6422520665904381,
+      "eval_loss": 1.614400863647461,
+      "eval_runtime": 113.6548,
+      "eval_samples_per_second": 56.047,
+      "eval_steps_per_second": 28.023,
+      "step": 25500
+    },
+    {
+      "acc": 0.65688868,
+      "epoch": 0.6470065956367326,
+      "grad_norm": 6.0625,
+      "learning_rate": 8.090555136583172e-06,
+      "loss": 1.59176197,
+      "memory(GiB)": 111.15,
+      "step": 25505,
+      "train_speed(iter/s)": 0.448147
+    },
+    {
+      "acc": 0.64921751,
+      "epoch": 0.6471334348046677,
+      "grad_norm": 5.25,
+      "learning_rate": 8.089730755185921e-06,
+      "loss": 1.62365608,
+      "memory(GiB)": 111.15,
+      "step": 25510,
+      "train_speed(iter/s)": 0.448193
+    },
+    {
+      "acc": 0.64324703,
+      "epoch": 0.6472602739726028,
+      "grad_norm": 5.3125,
+      "learning_rate": 8.088906237888517e-06,
+      "loss": 1.6427784,
+      "memory(GiB)": 111.15,
+      "step": 25515,
+      "train_speed(iter/s)": 0.448238
+    },
+    {
+      "acc": 0.64541678,
+      "epoch": 0.6473871131405378,
+      "grad_norm": 4.84375,
+      "learning_rate": 8.088081584727228e-06,
+      "loss": 1.60653896,
+      "memory(GiB)": 111.15,
+      "step": 25520,
+      "train_speed(iter/s)": 0.448284
+    },
+    {
+      "acc": 0.63972807,
+      "epoch": 0.6475139523084729,
+      "grad_norm": 6.40625,
+      "learning_rate": 8.08725679573832e-06,
+      "loss": 1.62352257,
+      "memory(GiB)": 111.15,
+      "step": 25525,
+      "train_speed(iter/s)": 0.44833
+    },
+    {
+      "acc": 0.65983524,
+      "epoch": 0.647640791476408,
+      "grad_norm": 5.0625,
+      "learning_rate": 8.086431870958078e-06,
+      "loss": 1.57216702,
+      "memory(GiB)": 111.15,
+      "step": 25530,
+      "train_speed(iter/s)": 0.448376
+    },
+    {
+      "acc": 0.64312534,
+      "epoch": 0.647767630644343,
+      "grad_norm": 4.375,
+      "learning_rate": 8.085606810422781e-06,
+      "loss": 1.65218964,
+      "memory(GiB)": 111.15,
+      "step": 25535,
+      "train_speed(iter/s)": 0.448422
+    },
+    {
+      "acc": 0.64134121,
+      "epoch": 0.647894469812278,
+      "grad_norm": 5.65625,
+      "learning_rate": 8.08478161416872e-06,
+      "loss": 1.69889946,
+      "memory(GiB)": 111.15,
+      "step": 25540,
+      "train_speed(iter/s)": 0.448468
+    },
+    {
+      "acc": 0.65057154,
+      "epoch": 0.648021308980213,
+      "grad_norm": 5.03125,
+      "learning_rate": 8.083956282232192e-06,
+      "loss": 1.66884556,
+      "memory(GiB)": 111.15,
+      "step": 25545,
+      "train_speed(iter/s)": 0.448514
+    },
+    {
+      "acc": 0.64467421,
+      "epoch": 0.6481481481481481,
+      "grad_norm": 5.875,
+      "learning_rate": 8.083130814649498e-06,
+      "loss": 1.59348049,
+      "memory(GiB)": 111.15,
+      "step": 25550,
+      "train_speed(iter/s)": 0.448559
+    },
+    {
+      "acc": 0.67037735,
+      "epoch": 0.6482749873160832,
+      "grad_norm": 5.875,
+      "learning_rate": 8.082305211456943e-06,
+      "loss": 1.5313797,
+      "memory(GiB)": 111.15,
+      "step": 25555,
+      "train_speed(iter/s)": 0.448606
+    },
+    {
+      "acc": 0.64469061,
+      "epoch": 0.6484018264840182,
+      "grad_norm": 4.84375,
+      "learning_rate": 8.081479472690846e-06,
+      "loss": 1.66899948,
+      "memory(GiB)": 111.15,
+      "step": 25560,
+      "train_speed(iter/s)": 0.448651
+    },
+    {
+      "acc": 0.64559317,
+      "epoch": 0.6485286656519533,
+      "grad_norm": 4.4375,
+      "learning_rate": 8.080653598387522e-06,
+      "loss": 1.56335545,
+      "memory(GiB)": 111.15,
+      "step": 25565,
+      "train_speed(iter/s)": 0.448697
+    },
+    {
+      "acc": 0.66758184,
+      "epoch": 0.6486555048198884,
+      "grad_norm": 5.8125,
+      "learning_rate": 8.0798275885833e-06,
+      "loss": 1.57728138,
+      "memory(GiB)": 111.15,
+      "step": 25570,
+      "train_speed(iter/s)": 0.448743
+    },
+    {
+      "acc": 0.65168467,
+      "epoch": 0.6487823439878234,
+      "grad_norm": 5.40625,
+      "learning_rate": 8.07900144331451e-06,
+      "loss": 1.56445971,
+      "memory(GiB)": 111.15,
+      "step": 25575,
+      "train_speed(iter/s)": 0.448788
+    },
+    {
+      "acc": 0.65222054,
+      "epoch": 0.6489091831557585,
+      "grad_norm": 5.9375,
+      "learning_rate": 8.07817516261749e-06,
+      "loss": 1.61443195,
+      "memory(GiB)": 111.15,
+      "step": 25580,
+      "train_speed(iter/s)": 0.448834
+    },
+    {
+      "acc": 0.65001545,
+      "epoch": 0.6490360223236935,
+      "grad_norm": 4.84375,
+      "learning_rate": 8.077348746528583e-06,
+      "loss": 1.59643841,
+      "memory(GiB)": 111.15,
+      "step": 25585,
+      "train_speed(iter/s)": 0.44888
+    },
+    {
+      "acc": 0.65492501,
+      "epoch": 0.6491628614916286,
+      "grad_norm": 4.84375,
+      "learning_rate": 8.076522195084139e-06,
+      "loss": 1.57444572,
+      "memory(GiB)": 111.15,
+      "step": 25590,
+      "train_speed(iter/s)": 0.448926
+    },
+    {
+      "acc": 0.65835314,
+      "epoch": 0.6492897006595637,
+      "grad_norm": 4.6875,
+      "learning_rate": 8.075695508320512e-06,
+      "loss": 1.64909401,
+      "memory(GiB)": 111.15,
+      "step": 25595,
+      "train_speed(iter/s)": 0.448972
+    },
+    {
+      "acc": 0.64032898,
+      "epoch": 0.6494165398274987,
+      "grad_norm": 6.34375,
+      "learning_rate": 8.074868686274065e-06,
+      "loss": 1.71772232,
+      "memory(GiB)": 111.15,
+      "step": 25600,
+      "train_speed(iter/s)": 0.449018
+    },
+    {
+      "epoch": 0.6494165398274987,
+      "eval_acc": 0.6423159849887851,
+      "eval_loss": 1.6143243312835693,
+      "eval_runtime": 113.9109,
+      "eval_samples_per_second": 55.921,
+      "eval_steps_per_second": 27.96,
+      "step": 25600
+    },
+    {
+      "acc": 0.66195016,
+      "epoch": 0.6495433789954338,
+      "grad_norm": 5.625,
+      "learning_rate": 8.074041728981166e-06,
+      "loss": 1.56921539,
+      "memory(GiB)": 111.15,
+      "step": 25605,
+      "train_speed(iter/s)": 0.448133
+    },
+    {
+      "acc": 0.65274968,
+      "epoch": 0.6496702181633689,
+      "grad_norm": 5.0,
+      "learning_rate": 8.073214636478186e-06,
+      "loss": 1.59697227,
+      "memory(GiB)": 111.15,
+      "step": 25610,
+      "train_speed(iter/s)": 0.44818
+    },
+    {
+      "acc": 0.65663395,
+      "epoch": 0.6497970573313039,
+      "grad_norm": 7.375,
+      "learning_rate": 8.072387408801506e-06,
+      "loss": 1.6655735,
+      "memory(GiB)": 111.15,
+      "step": 25615,
+      "train_speed(iter/s)": 0.448226
+    },
+    {
+      "acc": 0.64439588,
+      "epoch": 0.649923896499239,
+      "grad_norm": 4.71875,
+      "learning_rate": 8.07156004598751e-06,
+      "loss": 1.63851318,
+      "memory(GiB)": 111.15,
+      "step": 25620,
+      "train_speed(iter/s)": 0.448272
+    },
+    {
+      "acc": 0.65031786,
+      "epoch": 0.650050735667174,
+      "grad_norm": 5.1875,
+      "learning_rate": 8.07073254807259e-06,
+      "loss": 1.60623093,
+      "memory(GiB)": 111.15,
+      "step": 25625,
+      "train_speed(iter/s)": 0.448318
+    },
+    {
+      "acc": 0.64127941,
+      "epoch": 0.6501775748351091,
+      "grad_norm": 4.6875,
+      "learning_rate": 8.069904915093144e-06,
+      "loss": 1.65174904,
+      "memory(GiB)": 111.15,
+      "step": 25630,
+      "train_speed(iter/s)": 0.448364
+    },
+    {
+      "acc": 0.63821106,
+      "epoch": 0.6503044140030442,
+      "grad_norm": 4.4375,
+      "learning_rate": 8.069077147085571e-06,
+      "loss": 1.61451721,
+      "memory(GiB)": 111.15,
+      "step": 25635,
+      "train_speed(iter/s)": 0.44841
+    },
+    {
+      "acc": 0.65962601,
+      "epoch": 0.6504312531709792,
+      "grad_norm": 5.5,
+      "learning_rate": 8.068249244086283e-06,
+      "loss": 1.60972652,
+      "memory(GiB)": 111.15,
+      "step": 25640,
+      "train_speed(iter/s)": 0.448456
+    },
+    {
+      "acc": 0.63471899,
+      "epoch": 0.6505580923389143,
+      "grad_norm": 5.5,
+      "learning_rate": 8.067421206131696e-06,
+      "loss": 1.7025568,
+      "memory(GiB)": 111.15,
+      "step": 25645,
+      "train_speed(iter/s)": 0.448501
+    },
+    {
+      "acc": 0.63853784,
+      "epoch": 0.6506849315068494,
+      "grad_norm": 5.625,
+      "learning_rate": 8.06659303325823e-06,
+      "loss": 1.63815269,
+      "memory(GiB)": 111.15,
+      "step": 25650,
+      "train_speed(iter/s)": 0.448548
+    },
+    {
+      "acc": 0.64889979,
+      "epoch": 0.6508117706747844,
+      "grad_norm": 5.15625,
+      "learning_rate": 8.06576472550231e-06,
+      "loss": 1.67945194,
+      "memory(GiB)": 111.15,
+      "step": 25655,
+      "train_speed(iter/s)": 0.448593
+    },
+    {
+      "acc": 0.64380674,
+      "epoch": 0.6509386098427195,
+      "grad_norm": 5.34375,
+      "learning_rate": 8.064936282900368e-06,
+      "loss": 1.63129807,
+      "memory(GiB)": 111.15,
+      "step": 25660,
+      "train_speed(iter/s)": 0.448639
+    },
+    {
+      "acc": 0.6471302,
+      "epoch": 0.6510654490106544,
+      "grad_norm": 5.9375,
+      "learning_rate": 8.064107705488846e-06,
+      "loss": 1.60866394,
+      "memory(GiB)": 111.15,
+      "step": 25665,
+      "train_speed(iter/s)": 0.448685
+    },
+    {
+      "acc": 0.65062513,
+      "epoch": 0.6511922881785895,
+      "grad_norm": 5.6875,
+      "learning_rate": 8.063278993304188e-06,
+      "loss": 1.57072515,
+      "memory(GiB)": 111.15,
+      "step": 25670,
+      "train_speed(iter/s)": 0.448731
+    },
+    {
+      "acc": 0.64598055,
+      "epoch": 0.6513191273465246,
+      "grad_norm": 6.3125,
+      "learning_rate": 8.06245014638284e-06,
+      "loss": 1.6252985,
+      "memory(GiB)": 111.15,
+      "step": 25675,
+      "train_speed(iter/s)": 0.448777
+    },
+    {
+      "acc": 0.66055613,
+      "epoch": 0.6514459665144596,
+      "grad_norm": 6.34375,
+      "learning_rate": 8.061621164761266e-06,
+      "loss": 1.54991283,
+      "memory(GiB)": 111.15,
+      "step": 25680,
+      "train_speed(iter/s)": 0.448823
+    },
+    {
+      "acc": 0.64463511,
+      "epoch": 0.6515728056823947,
+      "grad_norm": 5.4375,
+      "learning_rate": 8.06079204847592e-06,
+      "loss": 1.60334682,
+      "memory(GiB)": 111.15,
+      "step": 25685,
+      "train_speed(iter/s)": 0.448868
+    },
+    {
+      "acc": 0.64333115,
+      "epoch": 0.6516996448503298,
+      "grad_norm": 4.65625,
+      "learning_rate": 8.059962797563277e-06,
+      "loss": 1.58990459,
+      "memory(GiB)": 111.15,
+      "step": 25690,
+      "train_speed(iter/s)": 0.448914
+    },
+    {
+      "acc": 0.65165014,
+      "epoch": 0.6518264840182648,
+      "grad_norm": 4.46875,
+      "learning_rate": 8.059133412059808e-06,
+      "loss": 1.59367733,
+      "memory(GiB)": 111.15,
+      "step": 25695,
+      "train_speed(iter/s)": 0.44896
+    },
+    {
+      "acc": 0.65217199,
+      "epoch": 0.6519533231861999,
+      "grad_norm": 5.28125,
+      "learning_rate": 8.058303892001993e-06,
+      "loss": 1.6195612,
+      "memory(GiB)": 111.15,
+      "step": 25700,
+      "train_speed(iter/s)": 0.449006
+    },
+    {
+      "epoch": 0.6519533231861999,
+      "eval_acc": 0.6422708661193637,
+      "eval_loss": 1.6139781475067139,
+      "eval_runtime": 113.9052,
+      "eval_samples_per_second": 55.924,
+      "eval_steps_per_second": 27.962,
+      "step": 25700
+    },
+    {
+      "acc": 0.64697795,
+      "epoch": 0.6520801623541349,
+      "grad_norm": 5.5625,
+      "learning_rate": 8.057474237426318e-06,
+      "loss": 1.5952507,
+      "memory(GiB)": 111.15,
+      "step": 25705,
+      "train_speed(iter/s)": 0.448125
+    },
+    {
+      "acc": 0.63727083,
+      "epoch": 0.65220700152207,
+      "grad_norm": 5.15625,
+      "learning_rate": 8.056644448369275e-06,
+      "loss": 1.7091753,
+      "memory(GiB)": 111.15,
+      "step": 25710,
+      "train_speed(iter/s)": 0.448171
+    },
+    {
+      "acc": 0.63986816,
+      "epoch": 0.6523338406900051,
+      "grad_norm": 4.78125,
+      "learning_rate": 8.055814524867364e-06,
+      "loss": 1.69963837,
+      "memory(GiB)": 111.15,
+      "step": 25715,
+      "train_speed(iter/s)": 0.448218
+    },
+    {
+      "acc": 0.6435585,
+      "epoch": 0.6524606798579401,
+      "grad_norm": 5.6875,
+      "learning_rate": 8.054984466957085e-06,
+      "loss": 1.69991112,
+      "memory(GiB)": 111.15,
+      "step": 25720,
+      "train_speed(iter/s)": 0.448265
+    },
+    {
+      "acc": 0.6611845,
+      "epoch": 0.6525875190258752,
+      "grad_norm": 5.0,
+      "learning_rate": 8.05415427467495e-06,
+      "loss": 1.49158974,
+      "memory(GiB)": 111.15,
+      "step": 25725,
+      "train_speed(iter/s)": 0.448311
+    },
+    {
+      "acc": 0.65234733,
+      "epoch": 0.6527143581938103,
+      "grad_norm": 4.96875,
+      "learning_rate": 8.053323948057477e-06,
+      "loss": 1.64783707,
+      "memory(GiB)": 111.15,
+      "step": 25730,
+      "train_speed(iter/s)": 0.448357
+    },
+    {
+      "acc": 0.63713412,
+      "epoch": 0.6528411973617453,
+      "grad_norm": 5.21875,
+      "learning_rate": 8.052493487141183e-06,
+      "loss": 1.66128464,
+      "memory(GiB)": 111.15,
+      "step": 25735,
+      "train_speed(iter/s)": 0.448404
+    },
+    {
+      "acc": 0.64546366,
+      "epoch": 0.6529680365296804,
+      "grad_norm": 5.09375,
+      "learning_rate": 8.051662891962594e-06,
+      "loss": 1.62852325,
+      "memory(GiB)": 111.15,
+      "step": 25740,
+      "train_speed(iter/s)": 0.44845
+    },
+    {
+      "acc": 0.65301733,
+      "epoch": 0.6530948756976154,
+      "grad_norm": 4.75,
+      "learning_rate": 8.05083216255825e-06,
+      "loss": 1.63335819,
+      "memory(GiB)": 111.15,
+      "step": 25745,
+      "train_speed(iter/s)": 0.448496
+    },
+    {
+      "acc": 0.65266104,
+      "epoch": 0.6532217148655505,
+      "grad_norm": 4.84375,
+      "learning_rate": 8.050001298964685e-06,
+      "loss": 1.67435913,
+      "memory(GiB)": 111.15,
+      "step": 25750,
+      "train_speed(iter/s)": 0.448543
+    },
+    {
+      "acc": 0.65955648,
+      "epoch": 0.6533485540334856,
+      "grad_norm": 5.46875,
+      "learning_rate": 8.049170301218445e-06,
+      "loss": 1.66154099,
+      "memory(GiB)": 111.15,
+      "step": 25755,
+      "train_speed(iter/s)": 0.448589
+    },
+    {
+      "acc": 0.66046896,
+      "epoch": 0.6534753932014206,
+      "grad_norm": 6.09375,
+      "learning_rate": 8.048339169356085e-06,
+      "loss": 1.60851879,
+      "memory(GiB)": 111.15,
+      "step": 25760,
+      "train_speed(iter/s)": 0.448636
+    },
+    {
+      "acc": 0.66982365,
+      "epoch": 0.6536022323693557,
+      "grad_norm": 4.9375,
+      "learning_rate": 8.047507903414155e-06,
+      "loss": 1.54360275,
+      "memory(GiB)": 111.15,
+      "step": 25765,
+      "train_speed(iter/s)": 0.448682
+    },
+    {
+      "acc": 0.66849079,
+      "epoch": 0.6537290715372908,
+      "grad_norm": 5.0,
+      "learning_rate": 8.046676503429222e-06,
+      "loss": 1.55382681,
+      "memory(GiB)": 111.15,
+      "step": 25770,
+      "train_speed(iter/s)": 0.448729
+    },
+    {
+      "acc": 0.65166116,
+      "epoch": 0.6538559107052258,
+      "grad_norm": 5.5,
+      "learning_rate": 8.045844969437855e-06,
+      "loss": 1.61276741,
+      "memory(GiB)": 111.15,
+      "step": 25775,
+      "train_speed(iter/s)": 0.448775
+    },
+    {
+      "acc": 0.63842721,
+      "epoch": 0.6539827498731609,
+      "grad_norm": 5.4375,
+      "learning_rate": 8.045013301476625e-06,
+      "loss": 1.62988701,
+      "memory(GiB)": 111.15,
+      "step": 25780,
+      "train_speed(iter/s)": 0.448821
+    },
+    {
+      "acc": 0.65300555,
+      "epoch": 0.6541095890410958,
+      "grad_norm": 4.46875,
+      "learning_rate": 8.044181499582117e-06,
+      "loss": 1.63524551,
+      "memory(GiB)": 111.15,
+      "step": 25785,
+      "train_speed(iter/s)": 0.448868
+    },
+    {
+      "acc": 0.65854082,
+      "epoch": 0.6542364282090309,
+      "grad_norm": 5.46875,
+      "learning_rate": 8.043349563790917e-06,
+      "loss": 1.64527779,
+      "memory(GiB)": 111.15,
+      "step": 25790,
+      "train_speed(iter/s)": 0.448914
+    },
+    {
+      "acc": 0.65147352,
+      "epoch": 0.654363267376966,
+      "grad_norm": 5.25,
+      "learning_rate": 8.042517494139612e-06,
+      "loss": 1.66203117,
+      "memory(GiB)": 111.15,
+      "step": 25795,
+      "train_speed(iter/s)": 0.448961
+    },
+    {
+      "acc": 0.65452523,
+      "epoch": 0.654490106544901,
+      "grad_norm": 4.84375,
+      "learning_rate": 8.041685290664806e-06,
+      "loss": 1.57043362,
+      "memory(GiB)": 111.15,
+      "step": 25800,
+      "train_speed(iter/s)": 0.449007
+    },
+    {
+      "epoch": 0.654490106544901,
+      "eval_acc": 0.6423293535426877,
+      "eval_loss": 1.6140364408493042,
+      "eval_runtime": 113.4341,
+      "eval_samples_per_second": 56.156,
+      "eval_steps_per_second": 28.078,
+      "step": 25800
+    },
+    {
+      "acc": 0.64233599,
+      "epoch": 0.6546169457128361,
+      "grad_norm": 4.9375,
+      "learning_rate": 8.0408529534031e-06,
+      "loss": 1.59457197,
+      "memory(GiB)": 111.15,
+      "step": 25805,
+      "train_speed(iter/s)": 0.448134
+    },
+    {
+      "acc": 0.6470438,
+      "epoch": 0.6547437848807712,
+      "grad_norm": 4.8125,
+      "learning_rate": 8.040020482391105e-06,
+      "loss": 1.58700294,
+      "memory(GiB)": 111.15,
+      "step": 25810,
+      "train_speed(iter/s)": 0.44818
+    },
+    {
+      "acc": 0.68016114,
+      "epoch": 0.6548706240487062,
+      "grad_norm": 5.09375,
+      "learning_rate": 8.039187877665435e-06,
+      "loss": 1.50465231,
+      "memory(GiB)": 111.15,
+      "step": 25815,
+      "train_speed(iter/s)": 0.448226
+    },
+    {
+      "acc": 0.65454764,
+      "epoch": 0.6549974632166413,
+      "grad_norm": 6.96875,
+      "learning_rate": 8.038355139262716e-06,
+      "loss": 1.59597073,
+      "memory(GiB)": 111.15,
+      "step": 25820,
+      "train_speed(iter/s)": 0.448272
+    },
+    {
+      "acc": 0.66752234,
+      "epoch": 0.6551243023845763,
+      "grad_norm": 5.6875,
+      "learning_rate": 8.037522267219571e-06,
+      "loss": 1.58674889,
+      "memory(GiB)": 111.15,
+      "step": 25825,
+      "train_speed(iter/s)": 0.448318
+    },
+    {
+      "acc": 0.6382863,
+      "epoch": 0.6552511415525114,
+      "grad_norm": 5.34375,
+      "learning_rate": 8.036689261572636e-06,
+      "loss": 1.63378983,
+      "memory(GiB)": 111.15,
+      "step": 25830,
+      "train_speed(iter/s)": 0.448365
+    },
+    {
+      "acc": 0.64015913,
+      "epoch": 0.6553779807204465,
+      "grad_norm": 6.5,
+      "learning_rate": 8.035856122358548e-06,
+      "loss": 1.69332047,
+      "memory(GiB)": 111.15,
+      "step": 25835,
+      "train_speed(iter/s)": 0.448411
+    },
+    {
+      "acc": 0.64647026,
+      "epoch": 0.6555048198883815,
+      "grad_norm": 4.90625,
+      "learning_rate": 8.035022849613954e-06,
+      "loss": 1.65143471,
+      "memory(GiB)": 111.15,
+      "step": 25840,
+      "train_speed(iter/s)": 0.448458
+    },
+    {
+      "acc": 0.6527626,
+      "epoch": 0.6556316590563166,
+      "grad_norm": 5.875,
+      "learning_rate": 8.034189443375505e-06,
+      "loss": 1.65209656,
+      "memory(GiB)": 111.15,
+      "step": 25845,
+      "train_speed(iter/s)": 0.448504
+    },
+    {
+      "acc": 0.65280967,
+      "epoch": 0.6557584982242517,
+      "grad_norm": 5.25,
+      "learning_rate": 8.033355903679858e-06,
+      "loss": 1.59163551,
+      "memory(GiB)": 111.15,
+      "step": 25850,
+      "train_speed(iter/s)": 0.44855
+    },
+    {
+      "acc": 0.659128,
+      "epoch": 0.6558853373921867,
+      "grad_norm": 5.875,
+      "learning_rate": 8.032522230563676e-06,
+      "loss": 1.66483002,
+      "memory(GiB)": 111.15,
+      "step": 25855,
+      "train_speed(iter/s)": 0.448597
+    },
+    {
+      "acc": 0.64467721,
+      "epoch": 0.6560121765601218,
+      "grad_norm": 6.09375,
+      "learning_rate": 8.031688424063625e-06,
+      "loss": 1.61489983,
+      "memory(GiB)": 111.15,
+      "step": 25860,
+      "train_speed(iter/s)": 0.448643
+    },
+    {
+      "acc": 0.64759479,
+      "epoch": 0.6561390157280568,
+      "grad_norm": 5.5625,
+      "learning_rate": 8.030854484216381e-06,
+      "loss": 1.65349693,
+      "memory(GiB)": 111.15,
+      "step": 25865,
+      "train_speed(iter/s)": 0.448689
+    },
+    {
+      "acc": 0.64728861,
+      "epoch": 0.6562658548959919,
+      "grad_norm": 4.59375,
+      "learning_rate": 8.030020411058627e-06,
+      "loss": 1.66470413,
+      "memory(GiB)": 111.15,
+      "step": 25870,
+      "train_speed(iter/s)": 0.448735
+    },
+    {
+      "acc": 0.65999928,
+      "epoch": 0.656392694063927,
+      "grad_norm": 5.65625,
+      "learning_rate": 8.029186204627049e-06,
+      "loss": 1.59315844,
+      "memory(GiB)": 111.15,
+      "step": 25875,
+      "train_speed(iter/s)": 0.448781
+    },
+    {
+      "acc": 0.64395471,
+      "epoch": 0.656519533231862,
+      "grad_norm": 6.90625,
+      "learning_rate": 8.028351864958335e-06,
+      "loss": 1.61719456,
+      "memory(GiB)": 111.15,
+      "step": 25880,
+      "train_speed(iter/s)": 0.448828
+    },
+    {
+      "acc": 0.66763391,
+      "epoch": 0.6566463723997971,
+      "grad_norm": 5.4375,
+      "learning_rate": 8.027517392089185e-06,
+      "loss": 1.5679944,
+      "memory(GiB)": 111.15,
+      "step": 25885,
+      "train_speed(iter/s)": 0.448873
+    },
+    {
+      "acc": 0.64639921,
+      "epoch": 0.6567732115677322,
+      "grad_norm": 5.875,
+      "learning_rate": 8.026682786056304e-06,
+      "loss": 1.65703278,
+      "memory(GiB)": 111.15,
+      "step": 25890,
+      "train_speed(iter/s)": 0.448919
+    },
+    {
+      "acc": 0.62948933,
+      "epoch": 0.6569000507356672,
+      "grad_norm": 4.53125,
+      "learning_rate": 8.025848046896401e-06,
+      "loss": 1.71914291,
+      "memory(GiB)": 111.15,
+      "step": 25895,
+      "train_speed(iter/s)": 0.448965
+    },
+    {
+      "acc": 0.651717,
+      "epoch": 0.6570268899036023,
+      "grad_norm": 5.4375,
+      "learning_rate": 8.02501317464619e-06,
+      "loss": 1.64855537,
+      "memory(GiB)": 111.15,
+      "step": 25900,
+      "train_speed(iter/s)": 0.449011
+    },
+    {
+      "epoch": 0.6570268899036023,
+      "eval_acc": 0.6422796392328622,
+      "eval_loss": 1.61420738697052,
+      "eval_runtime": 114.0496,
+      "eval_samples_per_second": 55.853,
+      "eval_steps_per_second": 27.926,
+      "step": 25900
+    },
+    {
+      "acc": 0.65029802,
+      "epoch": 0.6571537290715372,
+      "grad_norm": 6.84375,
+      "learning_rate": 8.024178169342396e-06,
+      "loss": 1.69455376,
+      "memory(GiB)": 111.15,
+      "step": 25905,
+      "train_speed(iter/s)": 0.448136
+    },
+    {
+      "acc": 0.65199099,
+      "epoch": 0.6572805682394723,
+      "grad_norm": 5.34375,
+      "learning_rate": 8.023343031021744e-06,
+      "loss": 1.62866764,
+      "memory(GiB)": 111.15,
+      "step": 25910,
+      "train_speed(iter/s)": 0.448181
+    },
+    {
+      "acc": 0.64826579,
+      "epoch": 0.6574074074074074,
+      "grad_norm": 4.75,
+      "learning_rate": 8.022507759720966e-06,
+      "loss": 1.61901627,
+      "memory(GiB)": 111.15,
+      "step": 25915,
+      "train_speed(iter/s)": 0.448227
+    },
+    {
+      "acc": 0.65236654,
+      "epoch": 0.6575342465753424,
+      "grad_norm": 5.3125,
+      "learning_rate": 8.021672355476802e-06,
+      "loss": 1.67185726,
+      "memory(GiB)": 111.15,
+      "step": 25920,
+      "train_speed(iter/s)": 0.448273
+    },
+    {
+      "acc": 0.6442853,
+      "epoch": 0.6576610857432775,
+      "grad_norm": 5.03125,
+      "learning_rate": 8.020836818325997e-06,
+      "loss": 1.60283241,
+      "memory(GiB)": 111.15,
+      "step": 25925,
+      "train_speed(iter/s)": 0.448318
+    },
+    {
+      "acc": 0.65298371,
+      "epoch": 0.6577879249112126,
+      "grad_norm": 7.1875,
+      "learning_rate": 8.020001148305304e-06,
+      "loss": 1.59266806,
+      "memory(GiB)": 111.15,
+      "step": 25930,
+      "train_speed(iter/s)": 0.448364
+    },
+    {
+      "acc": 0.67037945,
+      "epoch": 0.6579147640791476,
+      "grad_norm": 5.78125,
+      "learning_rate": 8.019165345451475e-06,
+      "loss": 1.57959309,
+      "memory(GiB)": 111.15,
+      "step": 25935,
+      "train_speed(iter/s)": 0.44841
+    },
+    {
+      "acc": 0.6629024,
+      "epoch": 0.6580416032470827,
+      "grad_norm": 6.625,
+      "learning_rate": 8.018329409801276e-06,
+      "loss": 1.61035194,
+      "memory(GiB)": 111.15,
+      "step": 25940,
+      "train_speed(iter/s)": 0.448456
+    },
+    {
+      "acc": 0.65397105,
+      "epoch": 0.6581684424150177,
+      "grad_norm": 5.03125,
+      "learning_rate": 8.017493341391471e-06,
+      "loss": 1.59367628,
+      "memory(GiB)": 111.15,
+      "step": 25945,
+      "train_speed(iter/s)": 0.448502
+    },
+    {
+      "acc": 0.64936762,
+      "epoch": 0.6582952815829528,
+      "grad_norm": 5.125,
+      "learning_rate": 8.016657140258839e-06,
+      "loss": 1.57363319,
+      "memory(GiB)": 111.15,
+      "step": 25950,
+      "train_speed(iter/s)": 0.448548
+    },
+    {
+      "acc": 0.65408335,
+      "epoch": 0.6584221207508879,
+      "grad_norm": 5.78125,
+      "learning_rate": 8.015820806440157e-06,
+      "loss": 1.63827991,
+      "memory(GiB)": 111.15,
+      "step": 25955,
+      "train_speed(iter/s)": 0.448594
+    },
+    {
+      "acc": 0.62544222,
+      "epoch": 0.6585489599188229,
+      "grad_norm": 5.25,
+      "learning_rate": 8.014984339972211e-06,
+      "loss": 1.61633873,
+      "memory(GiB)": 111.15,
+      "step": 25960,
+      "train_speed(iter/s)": 0.44864
+    },
+    {
+      "acc": 0.65522795,
+      "epoch": 0.658675799086758,
+      "grad_norm": 5.03125,
+      "learning_rate": 8.014147740891793e-06,
+      "loss": 1.63047123,
+      "memory(GiB)": 111.15,
+      "step": 25965,
+      "train_speed(iter/s)": 0.448685
+    },
+    {
+      "acc": 0.65415854,
+      "epoch": 0.6588026382546931,
+      "grad_norm": 6.71875,
+      "learning_rate": 8.0133110092357e-06,
+      "loss": 1.58265972,
+      "memory(GiB)": 111.15,
+      "step": 25970,
+      "train_speed(iter/s)": 0.448732
+    },
+    {
+      "acc": 0.65792809,
+      "epoch": 0.6589294774226281,
+      "grad_norm": 5.3125,
+      "learning_rate": 8.012474145040737e-06,
+      "loss": 1.70031681,
+      "memory(GiB)": 111.15,
+      "step": 25975,
+      "train_speed(iter/s)": 0.448777
+    },
+    {
+      "acc": 0.650741,
+      "epoch": 0.6590563165905632,
+      "grad_norm": 5.15625,
+      "learning_rate": 8.01163714834371e-06,
+      "loss": 1.63954201,
+      "memory(GiB)": 111.15,
+      "step": 25980,
+      "train_speed(iter/s)": 0.448823
+    },
+    {
+      "acc": 0.64753981,
+      "epoch": 0.6591831557584982,
+      "grad_norm": 6.25,
+      "learning_rate": 8.010800019181433e-06,
+      "loss": 1.68878403,
+      "memory(GiB)": 111.15,
+      "step": 25985,
+      "train_speed(iter/s)": 0.448869
+    },
+    {
+      "acc": 0.64774389,
+      "epoch": 0.6593099949264333,
+      "grad_norm": 5.15625,
+      "learning_rate": 8.009962757590732e-06,
+      "loss": 1.6271656,
+      "memory(GiB)": 111.15,
+      "step": 25990,
+      "train_speed(iter/s)": 0.448914
+    },
+    {
+      "acc": 0.65323577,
+      "epoch": 0.6594368340943684,
+      "grad_norm": 4.78125,
+      "learning_rate": 8.00912536360843e-06,
+      "loss": 1.62697315,
+      "memory(GiB)": 111.15,
+      "step": 25995,
+      "train_speed(iter/s)": 0.44896
+    },
+    {
+      "acc": 0.65433664,
+      "epoch": 0.6595636732623034,
+      "grad_norm": 6.0625,
+      "learning_rate": 8.008287837271359e-06,
+      "loss": 1.5888093,
+      "memory(GiB)": 111.15,
+      "step": 26000,
+      "train_speed(iter/s)": 0.449005
+    },
+    {
+      "epoch": 0.6595636732623034,
+      "eval_acc": 0.6422558264962231,
+      "eval_loss": 1.613673448562622,
+      "eval_runtime": 113.0658,
+      "eval_samples_per_second": 56.339,
+      "eval_steps_per_second": 28.169,
+      "step": 26000
+    },
+    {
+      "acc": 0.65878649,
+      "epoch": 0.6596905124302385,
+      "grad_norm": 5.5625,
+      "learning_rate": 8.007450178616356e-06,
+      "loss": 1.56436157,
+      "memory(GiB)": 111.15,
+      "step": 26005,
+      "train_speed(iter/s)": 0.448141
+    },
+    {
+      "acc": 0.64537811,
+      "epoch": 0.6598173515981736,
+      "grad_norm": 5.09375,
+      "learning_rate": 8.00661238768027e-06,
+      "loss": 1.62054863,
+      "memory(GiB)": 111.15,
+      "step": 26010,
+      "train_speed(iter/s)": 0.448187
+    },
+    {
+      "acc": 0.64779925,
+      "epoch": 0.6599441907661086,
+      "grad_norm": 5.75,
+      "learning_rate": 8.005774464499947e-06,
+      "loss": 1.62803993,
+      "memory(GiB)": 111.15,
+      "step": 26015,
+      "train_speed(iter/s)": 0.448233
+    },
+    {
+      "acc": 0.63961244,
+      "epoch": 0.6600710299340437,
+      "grad_norm": 4.90625,
+      "learning_rate": 8.004936409112243e-06,
+      "loss": 1.62620773,
+      "memory(GiB)": 111.15,
+      "step": 26020,
+      "train_speed(iter/s)": 0.448279
+    },
+    {
+      "acc": 0.64943361,
+      "epoch": 0.6601978691019786,
+      "grad_norm": 4.9375,
+      "learning_rate": 8.004098221554018e-06,
+      "loss": 1.64074631,
+      "memory(GiB)": 111.15,
+      "step": 26025,
+      "train_speed(iter/s)": 0.448325
+    },
+    {
+      "acc": 0.65786648,
+      "epoch": 0.6603247082699137,
+      "grad_norm": 4.40625,
+      "learning_rate": 8.003259901862143e-06,
+      "loss": 1.61132622,
+      "memory(GiB)": 111.15,
+      "step": 26030,
+      "train_speed(iter/s)": 0.44837
+    },
+    {
+      "acc": 0.64131036,
+      "epoch": 0.6604515474378488,
+      "grad_norm": 5.125,
+      "learning_rate": 8.002421450073488e-06,
+      "loss": 1.61688519,
+      "memory(GiB)": 111.15,
+      "step": 26035,
+      "train_speed(iter/s)": 0.448415
+    },
+    {
+      "acc": 0.65050335,
+      "epoch": 0.6605783866057838,
+      "grad_norm": 5.78125,
+      "learning_rate": 8.001582866224932e-06,
+      "loss": 1.59697428,
+      "memory(GiB)": 111.15,
+      "step": 26040,
+      "train_speed(iter/s)": 0.44846
+    },
+    {
+      "acc": 0.65930552,
+      "epoch": 0.6607052257737189,
+      "grad_norm": 5.46875,
+      "learning_rate": 8.000744150353362e-06,
+      "loss": 1.65636311,
+      "memory(GiB)": 111.15,
+      "step": 26045,
+      "train_speed(iter/s)": 0.448506
+    },
+    {
+      "acc": 0.65093937,
+      "epoch": 0.660832064941654,
+      "grad_norm": 5.375,
+      "learning_rate": 7.999905302495667e-06,
+      "loss": 1.65364189,
+      "memory(GiB)": 111.15,
+      "step": 26050,
+      "train_speed(iter/s)": 0.448551
+    },
+    {
+      "acc": 0.65470271,
+      "epoch": 0.660958904109589,
+      "grad_norm": 5.40625,
+      "learning_rate": 7.999066322688743e-06,
+      "loss": 1.60443764,
+      "memory(GiB)": 111.15,
+      "step": 26055,
+      "train_speed(iter/s)": 0.448597
+    },
+    {
+      "acc": 0.6540926,
+      "epoch": 0.6610857432775241,
+      "grad_norm": 6.0,
+      "learning_rate": 7.998227210969491e-06,
+      "loss": 1.67997704,
+      "memory(GiB)": 111.15,
+      "step": 26060,
+      "train_speed(iter/s)": 0.448642
+    },
+    {
+      "acc": 0.65886192,
+      "epoch": 0.6612125824454591,
+      "grad_norm": 5.375,
+      "learning_rate": 7.997387967374821e-06,
+      "loss": 1.62640514,
+      "memory(GiB)": 111.15,
+      "step": 26065,
+      "train_speed(iter/s)": 0.448687
+    },
+    {
+      "acc": 0.63969588,
+      "epoch": 0.6613394216133942,
+      "grad_norm": 6.34375,
+      "learning_rate": 7.996548591941647e-06,
+      "loss": 1.68916245,
+      "memory(GiB)": 111.15,
+      "step": 26070,
+      "train_speed(iter/s)": 0.448733
+    },
+    {
+      "acc": 0.64784498,
+      "epoch": 0.6614662607813293,
+      "grad_norm": 6.59375,
+      "learning_rate": 7.995709084706884e-06,
+      "loss": 1.6145565,
+      "memory(GiB)": 111.15,
+      "step": 26075,
+      "train_speed(iter/s)": 0.448778
+    },
+    {
+      "acc": 0.63520079,
+      "epoch": 0.6615930999492643,
+      "grad_norm": 4.9375,
+      "learning_rate": 7.994869445707463e-06,
+      "loss": 1.66923103,
+      "memory(GiB)": 111.15,
+      "step": 26080,
+      "train_speed(iter/s)": 0.448823
+    },
+    {
+      "acc": 0.64625702,
+      "epoch": 0.6617199391171994,
+      "grad_norm": 5.09375,
+      "learning_rate": 7.994029674980313e-06,
+      "loss": 1.60941048,
+      "memory(GiB)": 111.15,
+      "step": 26085,
+      "train_speed(iter/s)": 0.448868
+    },
+    {
+      "acc": 0.66076159,
+      "epoch": 0.6618467782851345,
+      "grad_norm": 4.90625,
+      "learning_rate": 7.99318977256237e-06,
+      "loss": 1.58558264,
+      "memory(GiB)": 111.15,
+      "step": 26090,
+      "train_speed(iter/s)": 0.448914
+    },
+    {
+      "acc": 0.6447669,
+      "epoch": 0.6619736174530695,
+      "grad_norm": 4.28125,
+      "learning_rate": 7.992349738490576e-06,
+      "loss": 1.64601479,
+      "memory(GiB)": 111.15,
+      "step": 26095,
+      "train_speed(iter/s)": 0.448959
+    },
+    {
+      "acc": 0.66230564,
+      "epoch": 0.6621004566210046,
+      "grad_norm": 5.9375,
+      "learning_rate": 7.991509572801883e-06,
+      "loss": 1.59785137,
+      "memory(GiB)": 111.15,
+      "step": 26100,
+      "train_speed(iter/s)": 0.449004
+    },
+    {
+      "epoch": 0.6621004566210046,
+      "eval_acc": 0.6422600041693177,
+      "eval_loss": 1.6139650344848633,
+      "eval_runtime": 114.2115,
+      "eval_samples_per_second": 55.774,
+      "eval_steps_per_second": 27.887,
+      "step": 26100
+    },
+    {
+      "acc": 0.64322872,
+      "epoch": 0.6622272957889396,
+      "grad_norm": 4.46875,
+      "learning_rate": 7.990669275533241e-06,
+      "loss": 1.65127258,
+      "memory(GiB)": 111.15,
+      "step": 26105,
+      "train_speed(iter/s)": 0.448133
+    },
+    {
+      "acc": 0.63818436,
+      "epoch": 0.6623541349568747,
+      "grad_norm": 5.34375,
+      "learning_rate": 7.989828846721613e-06,
+      "loss": 1.66477165,
+      "memory(GiB)": 111.15,
+      "step": 26110,
+      "train_speed(iter/s)": 0.448177
+    },
+    {
+      "acc": 0.6419591,
+      "epoch": 0.6624809741248098,
+      "grad_norm": 4.9375,
+      "learning_rate": 7.98898828640396e-06,
+      "loss": 1.62112045,
+      "memory(GiB)": 111.15,
+      "step": 26115,
+      "train_speed(iter/s)": 0.448222
+    },
+    {
+      "acc": 0.64322033,
+      "epoch": 0.6626078132927448,
+      "grad_norm": 5.6875,
+      "learning_rate": 7.988147594617262e-06,
+      "loss": 1.65018234,
+      "memory(GiB)": 111.15,
+      "step": 26120,
+      "train_speed(iter/s)": 0.448266
+    },
+    {
+      "acc": 0.65331054,
+      "epoch": 0.6627346524606799,
+      "grad_norm": 4.90625,
+      "learning_rate": 7.987306771398489e-06,
+      "loss": 1.57978554,
+      "memory(GiB)": 111.15,
+      "step": 26125,
+      "train_speed(iter/s)": 0.448311
+    },
+    {
+      "acc": 0.6595263,
+      "epoch": 0.662861491628615,
+      "grad_norm": 5.59375,
+      "learning_rate": 7.986465816784628e-06,
+      "loss": 1.63917027,
+      "memory(GiB)": 111.15,
+      "step": 26130,
+      "train_speed(iter/s)": 0.448356
+    },
+    {
+      "acc": 0.64352474,
+      "epoch": 0.66298833079655,
+      "grad_norm": 4.6875,
+      "learning_rate": 7.985624730812667e-06,
+      "loss": 1.64071693,
+      "memory(GiB)": 111.15,
+      "step": 26135,
+      "train_speed(iter/s)": 0.448401
+    },
+    {
+      "acc": 0.64296012,
+      "epoch": 0.663115169964485,
+      "grad_norm": 6.09375,
+      "learning_rate": 7.984783513519601e-06,
+      "loss": 1.66208496,
+      "memory(GiB)": 111.15,
+      "step": 26140,
+      "train_speed(iter/s)": 0.448446
+    },
+    {
+      "acc": 0.64663854,
+      "epoch": 0.66324200913242,
+      "grad_norm": 5.71875,
+      "learning_rate": 7.98394216494243e-06,
+      "loss": 1.71035271,
+      "memory(GiB)": 111.15,
+      "step": 26145,
+      "train_speed(iter/s)": 0.44849
+    },
+    {
+      "acc": 0.6500186,
+      "epoch": 0.6633688483003551,
+      "grad_norm": 5.65625,
+      "learning_rate": 7.983100685118157e-06,
+      "loss": 1.663764,
+      "memory(GiB)": 111.15,
+      "step": 26150,
+      "train_speed(iter/s)": 0.448535
+    },
+    {
+      "acc": 0.65422521,
+      "epoch": 0.6634956874682902,
+      "grad_norm": 4.65625,
+      "learning_rate": 7.9822590740838e-06,
+      "loss": 1.56751575,
+      "memory(GiB)": 111.15,
+      "step": 26155,
+      "train_speed(iter/s)": 0.44858
+    },
+    {
+      "acc": 0.65565071,
+      "epoch": 0.6636225266362252,
+      "grad_norm": 4.875,
+      "learning_rate": 7.981417331876373e-06,
+      "loss": 1.58145561,
+      "memory(GiB)": 111.15,
+      "step": 26160,
+      "train_speed(iter/s)": 0.448625
+    },
+    {
+      "acc": 0.64795103,
+      "epoch": 0.6637493658041603,
+      "grad_norm": 4.8125,
+      "learning_rate": 7.980575458532901e-06,
+      "loss": 1.67585697,
+      "memory(GiB)": 111.15,
+      "step": 26165,
+      "train_speed(iter/s)": 0.44867
+    },
+    {
+      "acc": 0.64814091,
+      "epoch": 0.6638762049720954,
+      "grad_norm": 4.96875,
+      "learning_rate": 7.979733454090415e-06,
+      "loss": 1.63946495,
+      "memory(GiB)": 111.15,
+      "step": 26170,
+      "train_speed(iter/s)": 0.448715
+    },
+    {
+      "acc": 0.63238964,
+      "epoch": 0.6640030441400304,
+      "grad_norm": 5.6875,
+      "learning_rate": 7.978891318585947e-06,
+      "loss": 1.58985157,
+      "memory(GiB)": 111.15,
+      "step": 26175,
+      "train_speed(iter/s)": 0.44876
+    },
+    {
+      "acc": 0.65480785,
+      "epoch": 0.6641298833079655,
+      "grad_norm": 6.03125,
+      "learning_rate": 7.978049052056537e-06,
+      "loss": 1.65804634,
+      "memory(GiB)": 111.15,
+      "step": 26180,
+      "train_speed(iter/s)": 0.448804
+    },
+    {
+      "acc": 0.64617519,
+      "epoch": 0.6642567224759005,
+      "grad_norm": 5.75,
+      "learning_rate": 7.977206654539235e-06,
+      "loss": 1.64199295,
+      "memory(GiB)": 111.15,
+      "step": 26185,
+      "train_speed(iter/s)": 0.44885
+    },
+    {
+      "acc": 0.64133253,
+      "epoch": 0.6643835616438356,
+      "grad_norm": 4.9375,
+      "learning_rate": 7.976364126071092e-06,
+      "loss": 1.66103058,
+      "memory(GiB)": 111.15,
+      "step": 26190,
+      "train_speed(iter/s)": 0.448895
+    },
+    {
+      "acc": 0.62299881,
+      "epoch": 0.6645104008117707,
+      "grad_norm": 5.5,
+      "learning_rate": 7.975521466689166e-06,
+      "loss": 1.7413538,
+      "memory(GiB)": 111.15,
+      "step": 26195,
+      "train_speed(iter/s)": 0.448939
+    },
+    {
+      "acc": 0.64067678,
+      "epoch": 0.6646372399797057,
+      "grad_norm": 6.21875,
+      "learning_rate": 7.974678676430523e-06,
+      "loss": 1.62885437,
+      "memory(GiB)": 111.15,
+      "step": 26200,
+      "train_speed(iter/s)": 0.448984
+    },
+    {
+      "epoch": 0.6646372399797057,
+      "eval_acc": 0.6423928541737252,
+      "eval_loss": 1.61385977268219,
+      "eval_runtime": 113.1833,
+      "eval_samples_per_second": 56.28,
+      "eval_steps_per_second": 28.14,
+      "step": 26200
+    },
+    {
+      "acc": 0.66259947,
+      "epoch": 0.6647640791476408,
+      "grad_norm": 4.84375,
+      "learning_rate": 7.97383575533223e-06,
+      "loss": 1.56478291,
+      "memory(GiB)": 111.15,
+      "step": 26205,
+      "train_speed(iter/s)": 0.448125
+    },
+    {
+      "acc": 0.63975019,
+      "epoch": 0.6648909183155759,
+      "grad_norm": 5.125,
+      "learning_rate": 7.972992703431362e-06,
+      "loss": 1.59772549,
+      "memory(GiB)": 111.15,
+      "step": 26210,
+      "train_speed(iter/s)": 0.44817
+    },
+    {
+      "acc": 0.64407434,
+      "epoch": 0.6650177574835109,
+      "grad_norm": 5.75,
+      "learning_rate": 7.972149520765e-06,
+      "loss": 1.66438007,
+      "memory(GiB)": 111.15,
+      "step": 26215,
+      "train_speed(iter/s)": 0.448214
+    },
+    {
+      "acc": 0.64254656,
+      "epoch": 0.665144596651446,
+      "grad_norm": 5.125,
+      "learning_rate": 7.971306207370236e-06,
+      "loss": 1.64627686,
+      "memory(GiB)": 111.15,
+      "step": 26220,
+      "train_speed(iter/s)": 0.448259
+    },
+    {
+      "acc": 0.6550066,
+      "epoch": 0.665271435819381,
+      "grad_norm": 5.1875,
+      "learning_rate": 7.970462763284157e-06,
+      "loss": 1.62422829,
+      "memory(GiB)": 111.15,
+      "step": 26225,
+      "train_speed(iter/s)": 0.448304
+    },
+    {
+      "acc": 0.64689207,
+      "epoch": 0.6653982749873161,
+      "grad_norm": 5.71875,
+      "learning_rate": 7.969619188543865e-06,
+      "loss": 1.67792549,
+      "memory(GiB)": 111.15,
+      "step": 26230,
+      "train_speed(iter/s)": 0.448349
+    },
+    {
+      "acc": 0.648768,
+      "epoch": 0.6655251141552512,
+      "grad_norm": 5.9375,
+      "learning_rate": 7.968775483186462e-06,
+      "loss": 1.63606644,
+      "memory(GiB)": 111.15,
+      "step": 26235,
+      "train_speed(iter/s)": 0.448394
+    },
+    {
+      "acc": 0.66898346,
+      "epoch": 0.6656519533231862,
+      "grad_norm": 5.0,
+      "learning_rate": 7.967931647249058e-06,
+      "loss": 1.55273266,
+      "memory(GiB)": 111.15,
+      "step": 26240,
+      "train_speed(iter/s)": 0.44844
+    },
+    {
+      "acc": 0.63613982,
+      "epoch": 0.6657787924911213,
+      "grad_norm": 6.09375,
+      "learning_rate": 7.967087680768768e-06,
+      "loss": 1.62639103,
+      "memory(GiB)": 111.15,
+      "step": 26245,
+      "train_speed(iter/s)": 0.448485
+    },
+    {
+      "acc": 0.65079765,
+      "epoch": 0.6659056316590564,
+      "grad_norm": 5.1875,
+      "learning_rate": 7.966243583782718e-06,
+      "loss": 1.66153755,
+      "memory(GiB)": 111.15,
+      "step": 26250,
+      "train_speed(iter/s)": 0.448529
+    },
+    {
+      "acc": 0.64202251,
+      "epoch": 0.6660324708269914,
+      "grad_norm": 4.96875,
+      "learning_rate": 7.96539935632803e-06,
+      "loss": 1.65456772,
+      "memory(GiB)": 111.15,
+      "step": 26255,
+      "train_speed(iter/s)": 0.448574
+    },
+    {
+      "acc": 0.6477788,
+      "epoch": 0.6661593099949265,
+      "grad_norm": 5.53125,
+      "learning_rate": 7.964554998441839e-06,
+      "loss": 1.62010269,
+      "memory(GiB)": 111.15,
+      "step": 26260,
+      "train_speed(iter/s)": 0.44862
+    },
+    {
+      "acc": 0.66394501,
+      "epoch": 0.6662861491628614,
+      "grad_norm": 5.4375,
+      "learning_rate": 7.963710510161282e-06,
+      "loss": 1.60302467,
+      "memory(GiB)": 111.15,
+      "step": 26265,
+      "train_speed(iter/s)": 0.448665
+    },
+    {
+      "acc": 0.66264076,
+      "epoch": 0.6664129883307965,
+      "grad_norm": 5.125,
+      "learning_rate": 7.962865891523508e-06,
+      "loss": 1.58006821,
+      "memory(GiB)": 111.15,
+      "step": 26270,
+      "train_speed(iter/s)": 0.448709
+    },
+    {
+      "acc": 0.64388304,
+      "epoch": 0.6665398274987316,
+      "grad_norm": 6.0625,
+      "learning_rate": 7.96202114256566e-06,
+      "loss": 1.72715912,
+      "memory(GiB)": 111.15,
+      "step": 26275,
+      "train_speed(iter/s)": 0.448753
+    },
+    {
+      "acc": 0.64347038,
+      "epoch": 0.6666666666666666,
+      "grad_norm": 5.0625,
+      "learning_rate": 7.961176263324902e-06,
+      "loss": 1.6466835,
+      "memory(GiB)": 111.15,
+      "step": 26280,
+      "train_speed(iter/s)": 0.448798
+    },
+    {
+      "acc": 0.64383249,
+      "epoch": 0.6667935058346017,
+      "grad_norm": 5.09375,
+      "learning_rate": 7.960331253838387e-06,
+      "loss": 1.61689262,
+      "memory(GiB)": 111.15,
+      "step": 26285,
+      "train_speed(iter/s)": 0.448843
+    },
+    {
+      "acc": 0.6438941,
+      "epoch": 0.6669203450025368,
+      "grad_norm": 4.375,
+      "learning_rate": 7.95948611414329e-06,
+      "loss": 1.61037636,
+      "memory(GiB)": 111.15,
+      "step": 26290,
+      "train_speed(iter/s)": 0.448888
+    },
+    {
+      "acc": 0.64680853,
+      "epoch": 0.6670471841704718,
+      "grad_norm": 5.59375,
+      "learning_rate": 7.958640844276776e-06,
+      "loss": 1.69050045,
+      "memory(GiB)": 111.15,
+      "step": 26295,
+      "train_speed(iter/s)": 0.448932
+    },
+    {
+      "acc": 0.63537717,
+      "epoch": 0.6671740233384069,
+      "grad_norm": 5.15625,
+      "learning_rate": 7.957795444276033e-06,
+      "loss": 1.67635078,
+      "memory(GiB)": 111.15,
+      "step": 26300,
+      "train_speed(iter/s)": 0.448977
+    },
+    {
+      "epoch": 0.6671740233384069,
+      "eval_acc": 0.6423264291715215,
+      "eval_loss": 1.614088535308838,
+      "eval_runtime": 114.6096,
+      "eval_samples_per_second": 55.58,
+      "eval_steps_per_second": 27.79,
+      "step": 26300
+    },
+    {
+      "acc": 0.64826775,
+      "epoch": 0.6673008625063419,
+      "grad_norm": 5.90625,
+      "learning_rate": 7.956949914178239e-06,
+      "loss": 1.60827026,
+      "memory(GiB)": 111.15,
+      "step": 26305,
+      "train_speed(iter/s)": 0.448111
+    },
+    {
+      "acc": 0.6521327,
+      "epoch": 0.667427701674277,
+      "grad_norm": 5.5,
+      "learning_rate": 7.956104254020587e-06,
+      "loss": 1.57084045,
+      "memory(GiB)": 111.15,
+      "step": 26310,
+      "train_speed(iter/s)": 0.448156
+    },
+    {
+      "acc": 0.65590334,
+      "epoch": 0.6675545408422121,
+      "grad_norm": 5.03125,
+      "learning_rate": 7.95525846384027e-06,
+      "loss": 1.62026176,
+      "memory(GiB)": 111.15,
+      "step": 26315,
+      "train_speed(iter/s)": 0.448201
+    },
+    {
+      "acc": 0.65590239,
+      "epoch": 0.6676813800101471,
+      "grad_norm": 4.09375,
+      "learning_rate": 7.954412543674493e-06,
+      "loss": 1.57253399,
+      "memory(GiB)": 111.15,
+      "step": 26320,
+      "train_speed(iter/s)": 0.448245
+    },
+    {
+      "acc": 0.64606524,
+      "epoch": 0.6678082191780822,
+      "grad_norm": 5.875,
+      "learning_rate": 7.95356649356046e-06,
+      "loss": 1.6988472,
+      "memory(GiB)": 111.15,
+      "step": 26325,
+      "train_speed(iter/s)": 0.44829
+    },
+    {
+      "acc": 0.63687487,
+      "epoch": 0.6679350583460173,
+      "grad_norm": 6.28125,
+      "learning_rate": 7.952720313535387e-06,
+      "loss": 1.67288494,
+      "memory(GiB)": 111.15,
+      "step": 26330,
+      "train_speed(iter/s)": 0.448335
+    },
+    {
+      "acc": 0.64349661,
+      "epoch": 0.6680618975139523,
+      "grad_norm": 5.0625,
+      "learning_rate": 7.951874003636492e-06,
+      "loss": 1.70083122,
+      "memory(GiB)": 111.15,
+      "step": 26335,
+      "train_speed(iter/s)": 0.44838
+    },
+    {
+      "acc": 0.65932612,
+      "epoch": 0.6681887366818874,
+      "grad_norm": 4.4375,
+      "learning_rate": 7.951027563901e-06,
+      "loss": 1.53188019,
+      "memory(GiB)": 111.15,
+      "step": 26340,
+      "train_speed(iter/s)": 0.448424
+    },
+    {
+      "acc": 0.63367157,
+      "epoch": 0.6683155758498224,
+      "grad_norm": 6.875,
+      "learning_rate": 7.950180994366138e-06,
+      "loss": 1.69134884,
+      "memory(GiB)": 111.15,
+      "step": 26345,
+      "train_speed(iter/s)": 0.448469
+    },
+    {
+      "acc": 0.67218637,
+      "epoch": 0.6684424150177575,
+      "grad_norm": 5.4375,
+      "learning_rate": 7.949334295069147e-06,
+      "loss": 1.53318348,
+      "memory(GiB)": 111.15,
+      "step": 26350,
+      "train_speed(iter/s)": 0.448514
+    },
+    {
+      "acc": 0.64261093,
+      "epoch": 0.6685692541856926,
+      "grad_norm": 6.15625,
+      "learning_rate": 7.948487466047263e-06,
+      "loss": 1.68601704,
+      "memory(GiB)": 111.15,
+      "step": 26355,
+      "train_speed(iter/s)": 0.448559
+    },
+    {
+      "acc": 0.64814944,
+      "epoch": 0.6686960933536276,
+      "grad_norm": 6.53125,
+      "learning_rate": 7.947640507337737e-06,
+      "loss": 1.62900391,
+      "memory(GiB)": 111.15,
+      "step": 26360,
+      "train_speed(iter/s)": 0.448604
+    },
+    {
+      "acc": 0.63021793,
+      "epoch": 0.6688229325215627,
+      "grad_norm": 5.40625,
+      "learning_rate": 7.946793418977821e-06,
+      "loss": 1.62759018,
+      "memory(GiB)": 111.15,
+      "step": 26365,
+      "train_speed(iter/s)": 0.448648
+    },
+    {
+      "acc": 0.63412657,
+      "epoch": 0.6689497716894978,
+      "grad_norm": 5.03125,
+      "learning_rate": 7.945946201004775e-06,
+      "loss": 1.64692326,
+      "memory(GiB)": 111.15,
+      "step": 26370,
+      "train_speed(iter/s)": 0.448693
+    },
+    {
+      "acc": 0.63767157,
+      "epoch": 0.6690766108574328,
+      "grad_norm": 4.875,
+      "learning_rate": 7.945098853455862e-06,
+      "loss": 1.62972565,
+      "memory(GiB)": 111.15,
+      "step": 26375,
+      "train_speed(iter/s)": 0.448738
+    },
+    {
+      "acc": 0.66610022,
+      "epoch": 0.6692034500253679,
+      "grad_norm": 4.25,
+      "learning_rate": 7.944251376368352e-06,
+      "loss": 1.58844299,
+      "memory(GiB)": 111.15,
+      "step": 26380,
+      "train_speed(iter/s)": 0.448783
+    },
+    {
+      "acc": 0.64082756,
+      "epoch": 0.6693302891933028,
+      "grad_norm": 5.28125,
+      "learning_rate": 7.943403769779523e-06,
+      "loss": 1.68669739,
+      "memory(GiB)": 111.15,
+      "step": 26385,
+      "train_speed(iter/s)": 0.448827
+    },
+    {
+      "acc": 0.64510326,
+      "epoch": 0.6694571283612379,
+      "grad_norm": 6.15625,
+      "learning_rate": 7.942556033726654e-06,
+      "loss": 1.70049896,
+      "memory(GiB)": 111.15,
+      "step": 26390,
+      "train_speed(iter/s)": 0.448872
+    },
+    {
+      "acc": 0.66431866,
+      "epoch": 0.669583967529173,
+      "grad_norm": 5.0,
+      "learning_rate": 7.941708168247033e-06,
+      "loss": 1.63441162,
+      "memory(GiB)": 111.15,
+      "step": 26395,
+      "train_speed(iter/s)": 0.448917
+    },
+    {
+      "acc": 0.65343018,
+      "epoch": 0.669710806697108,
+      "grad_norm": 5.28125,
+      "learning_rate": 7.940860173377952e-06,
+      "loss": 1.64482536,
+      "memory(GiB)": 111.15,
+      "step": 26400,
+      "train_speed(iter/s)": 0.448961
+    },
+    {
+      "epoch": 0.669710806697108,
+      "eval_acc": 0.6423489886062321,
+      "eval_loss": 1.6135584115982056,
+      "eval_runtime": 113.5281,
+      "eval_samples_per_second": 56.109,
+      "eval_steps_per_second": 28.055,
+      "step": 26400
+    },
+    {
+      "acc": 0.65042486,
+      "epoch": 0.6698376458650431,
+      "grad_norm": 5.625,
+      "learning_rate": 7.940012049156711e-06,
+      "loss": 1.63586922,
+      "memory(GiB)": 111.15,
+      "step": 26405,
+      "train_speed(iter/s)": 0.448107
+    },
+    {
+      "acc": 0.65657606,
+      "epoch": 0.6699644850329782,
+      "grad_norm": 4.59375,
+      "learning_rate": 7.939163795620614e-06,
+      "loss": 1.6177639,
+      "memory(GiB)": 111.15,
+      "step": 26410,
+      "train_speed(iter/s)": 0.448152
+    },
+    {
+      "acc": 0.6422039,
+      "epoch": 0.6700913242009132,
+      "grad_norm": 5.71875,
+      "learning_rate": 7.938315412806971e-06,
+      "loss": 1.66981678,
+      "memory(GiB)": 111.15,
+      "step": 26415,
+      "train_speed(iter/s)": 0.448197
+    },
+    {
+      "acc": 0.66614051,
+      "epoch": 0.6702181633688483,
+      "grad_norm": 5.21875,
+      "learning_rate": 7.937466900753098e-06,
+      "loss": 1.5737752,
+      "memory(GiB)": 111.15,
+      "step": 26420,
+      "train_speed(iter/s)": 0.448242
+    },
+    {
+      "acc": 0.64501114,
+      "epoch": 0.6703450025367833,
+      "grad_norm": 6.34375,
+      "learning_rate": 7.936618259496316e-06,
+      "loss": 1.65295448,
+      "memory(GiB)": 111.15,
+      "step": 26425,
+      "train_speed(iter/s)": 0.448287
+    },
+    {
+      "acc": 0.64946413,
+      "epoch": 0.6704718417047184,
+      "grad_norm": 5.3125,
+      "learning_rate": 7.935769489073952e-06,
+      "loss": 1.63194351,
+      "memory(GiB)": 111.15,
+      "step": 26430,
+      "train_speed(iter/s)": 0.448332
+    },
+    {
+      "acc": 0.6600729,
+      "epoch": 0.6705986808726535,
+      "grad_norm": 5.25,
+      "learning_rate": 7.934920589523336e-06,
+      "loss": 1.52198572,
+      "memory(GiB)": 111.15,
+      "step": 26435,
+      "train_speed(iter/s)": 0.448377
+    },
+    {
+      "acc": 0.64333868,
+      "epoch": 0.6707255200405885,
+      "grad_norm": 5.15625,
+      "learning_rate": 7.934071560881812e-06,
+      "loss": 1.68957062,
+      "memory(GiB)": 111.15,
+      "step": 26440,
+      "train_speed(iter/s)": 0.448422
+    },
+    {
+      "acc": 0.65825977,
+      "epoch": 0.6708523592085236,
+      "grad_norm": 5.125,
+      "learning_rate": 7.93322240318672e-06,
+      "loss": 1.57723999,
+      "memory(GiB)": 111.15,
+      "step": 26445,
+      "train_speed(iter/s)": 0.448467
+    },
+    {
+      "acc": 0.65111303,
+      "epoch": 0.6709791983764587,
+      "grad_norm": 4.9375,
+      "learning_rate": 7.93237311647541e-06,
+      "loss": 1.65557365,
+      "memory(GiB)": 111.15,
+      "step": 26450,
+      "train_speed(iter/s)": 0.448512
+    },
+    {
+      "acc": 0.66194887,
+      "epoch": 0.6711060375443937,
+      "grad_norm": 5.25,
+      "learning_rate": 7.93152370078524e-06,
+      "loss": 1.52688656,
+      "memory(GiB)": 111.15,
+      "step": 26455,
+      "train_speed(iter/s)": 0.448556
+    },
+    {
+      "acc": 0.65077381,
+      "epoch": 0.6712328767123288,
+      "grad_norm": 4.6875,
+      "learning_rate": 7.930674156153569e-06,
+      "loss": 1.59578094,
+      "memory(GiB)": 111.15,
+      "step": 26460,
+      "train_speed(iter/s)": 0.448602
+    },
+    {
+      "acc": 0.64809856,
+      "epoch": 0.6713597158802638,
+      "grad_norm": 4.96875,
+      "learning_rate": 7.929824482617763e-06,
+      "loss": 1.65049095,
+      "memory(GiB)": 111.15,
+      "step": 26465,
+      "train_speed(iter/s)": 0.448646
+    },
+    {
+      "acc": 0.64169469,
+      "epoch": 0.6714865550481989,
+      "grad_norm": 6.5625,
+      "learning_rate": 7.928974680215196e-06,
+      "loss": 1.71370316,
+      "memory(GiB)": 111.15,
+      "step": 26470,
+      "train_speed(iter/s)": 0.448692
+    },
+    {
+      "acc": 0.63013306,
+      "epoch": 0.671613394216134,
+      "grad_norm": 5.15625,
+      "learning_rate": 7.928124748983244e-06,
+      "loss": 1.67696419,
+      "memory(GiB)": 111.15,
+      "step": 26475,
+      "train_speed(iter/s)": 0.448737
+    },
+    {
+      "acc": 0.63988948,
+      "epoch": 0.671740233384069,
+      "grad_norm": 6.125,
+      "learning_rate": 7.927274688959294e-06,
+      "loss": 1.70424595,
+      "memory(GiB)": 111.15,
+      "step": 26480,
+      "train_speed(iter/s)": 0.448782
+    },
+    {
+      "acc": 0.64109745,
+      "epoch": 0.6718670725520041,
+      "grad_norm": 6.3125,
+      "learning_rate": 7.926424500180734e-06,
+      "loss": 1.69590225,
+      "memory(GiB)": 111.15,
+      "step": 26485,
+      "train_speed(iter/s)": 0.448827
+    },
+    {
+      "acc": 0.67884693,
+      "epoch": 0.6719939117199392,
+      "grad_norm": 5.59375,
+      "learning_rate": 7.92557418268496e-06,
+      "loss": 1.56500874,
+      "memory(GiB)": 111.15,
+      "step": 26490,
+      "train_speed(iter/s)": 0.448872
+    },
+    {
+      "acc": 0.65196943,
+      "epoch": 0.6721207508878742,
+      "grad_norm": 4.9375,
+      "learning_rate": 7.92472373650937e-06,
+      "loss": 1.60157528,
+      "memory(GiB)": 111.15,
+      "step": 26495,
+      "train_speed(iter/s)": 0.448917
+    },
+    {
+      "acc": 0.6288106,
+      "epoch": 0.6722475900558093,
+      "grad_norm": 4.71875,
+      "learning_rate": 7.923873161691373e-06,
+      "loss": 1.71914501,
+      "memory(GiB)": 111.15,
+      "step": 26500,
+      "train_speed(iter/s)": 0.448961
+    },
+    {
+      "epoch": 0.6722475900558093,
+      "eval_acc": 0.6423748901794185,
+      "eval_loss": 1.613545298576355,
+      "eval_runtime": 113.8464,
+      "eval_samples_per_second": 55.953,
+      "eval_steps_per_second": 27.976,
+      "step": 26500
+    },
+    {
+      "acc": 0.6656064,
+      "epoch": 0.6723744292237442,
+      "grad_norm": 5.3125,
+      "learning_rate": 7.923022458268379e-06,
+      "loss": 1.57511806,
+      "memory(GiB)": 111.15,
+      "step": 26505,
+      "train_speed(iter/s)": 0.448107
+    },
+    {
+      "acc": 0.6608655,
+      "epoch": 0.6725012683916793,
+      "grad_norm": 5.34375,
+      "learning_rate": 7.922171626277809e-06,
+      "loss": 1.63352432,
+      "memory(GiB)": 111.15,
+      "step": 26510,
+      "train_speed(iter/s)": 0.448152
+    },
+    {
+      "acc": 0.64728012,
+      "epoch": 0.6726281075596144,
+      "grad_norm": 4.3125,
+      "learning_rate": 7.921320665757081e-06,
+      "loss": 1.60305367,
+      "memory(GiB)": 111.15,
+      "step": 26515,
+      "train_speed(iter/s)": 0.448196
+    },
+    {
+      "acc": 0.65221214,
+      "epoch": 0.6727549467275494,
+      "grad_norm": 5.65625,
+      "learning_rate": 7.920469576743631e-06,
+      "loss": 1.58747787,
+      "memory(GiB)": 111.15,
+      "step": 26520,
+      "train_speed(iter/s)": 0.448241
+    },
+    {
+      "acc": 0.65201778,
+      "epoch": 0.6728817858954845,
+      "grad_norm": 5.90625,
+      "learning_rate": 7.919618359274888e-06,
+      "loss": 1.64219704,
+      "memory(GiB)": 111.15,
+      "step": 26525,
+      "train_speed(iter/s)": 0.448286
+    },
+    {
+      "acc": 0.6585989,
+      "epoch": 0.6730086250634196,
+      "grad_norm": 5.96875,
+      "learning_rate": 7.918767013388295e-06,
+      "loss": 1.65853882,
+      "memory(GiB)": 111.15,
+      "step": 26530,
+      "train_speed(iter/s)": 0.44833
+    },
+    {
+      "acc": 0.63881874,
+      "epoch": 0.6731354642313546,
+      "grad_norm": 5.46875,
+      "learning_rate": 7.917915539121297e-06,
+      "loss": 1.66516647,
+      "memory(GiB)": 111.15,
+      "step": 26535,
+      "train_speed(iter/s)": 0.448375
+    },
+    {
+      "acc": 0.62412648,
+      "epoch": 0.6732623033992897,
+      "grad_norm": 4.9375,
+      "learning_rate": 7.917063936511347e-06,
+      "loss": 1.7445303,
+      "memory(GiB)": 111.15,
+      "step": 26540,
+      "train_speed(iter/s)": 0.448419
+    },
+    {
+      "acc": 0.63924494,
+      "epoch": 0.6733891425672247,
+      "grad_norm": 6.03125,
+      "learning_rate": 7.9162122055959e-06,
+      "loss": 1.67609749,
+      "memory(GiB)": 111.15,
+      "step": 26545,
+      "train_speed(iter/s)": 0.448464
+    },
+    {
+      "acc": 0.65716681,
+      "epoch": 0.6735159817351598,
+      "grad_norm": 5.4375,
+      "learning_rate": 7.91536034641242e-06,
+      "loss": 1.61700439,
+      "memory(GiB)": 111.15,
+      "step": 26550,
+      "train_speed(iter/s)": 0.448508
+    },
+    {
+      "acc": 0.64531746,
+      "epoch": 0.6736428209030949,
+      "grad_norm": 8.4375,
+      "learning_rate": 7.914508358998376e-06,
+      "loss": 1.67286625,
+      "memory(GiB)": 111.15,
+      "step": 26555,
+      "train_speed(iter/s)": 0.448553
+    },
+    {
+      "acc": 0.66955552,
+      "epoch": 0.6737696600710299,
+      "grad_norm": 5.34375,
+      "learning_rate": 7.913656243391243e-06,
+      "loss": 1.5655899,
+      "memory(GiB)": 111.15,
+      "step": 26560,
+      "train_speed(iter/s)": 0.448598
+    },
+    {
+      "acc": 0.64335737,
+      "epoch": 0.673896499238965,
+      "grad_norm": 5.09375,
+      "learning_rate": 7.9128039996285e-06,
+      "loss": 1.61546822,
+      "memory(GiB)": 111.15,
+      "step": 26565,
+      "train_speed(iter/s)": 0.448643
+    },
+    {
+      "acc": 0.63856525,
+      "epoch": 0.6740233384069001,
+      "grad_norm": 4.8125,
+      "learning_rate": 7.911951627747633e-06,
+      "loss": 1.66797123,
+      "memory(GiB)": 111.15,
+      "step": 26570,
+      "train_speed(iter/s)": 0.448687
+    },
+    {
+      "acc": 0.63949847,
+      "epoch": 0.6741501775748351,
+      "grad_norm": 5.5625,
+      "learning_rate": 7.91109912778613e-06,
+      "loss": 1.68856239,
+      "memory(GiB)": 111.15,
+      "step": 26575,
+      "train_speed(iter/s)": 0.448732
+    },
+    {
+      "acc": 0.64839354,
+      "epoch": 0.6742770167427702,
+      "grad_norm": 4.84375,
+      "learning_rate": 7.910246499781492e-06,
+      "loss": 1.61389961,
+      "memory(GiB)": 111.15,
+      "step": 26580,
+      "train_speed(iter/s)": 0.448776
+    },
+    {
+      "acc": 0.64089952,
+      "epoch": 0.6744038559107052,
+      "grad_norm": 5.0625,
+      "learning_rate": 7.90939374377122e-06,
+      "loss": 1.683288,
+      "memory(GiB)": 111.15,
+      "step": 26585,
+      "train_speed(iter/s)": 0.448821
+    },
+    {
+      "acc": 0.64676743,
+      "epoch": 0.6745306950786403,
+      "grad_norm": 4.8125,
+      "learning_rate": 7.908540859792821e-06,
+      "loss": 1.58397045,
+      "memory(GiB)": 111.15,
+      "step": 26590,
+      "train_speed(iter/s)": 0.448865
+    },
+    {
+      "acc": 0.65355453,
+      "epoch": 0.6746575342465754,
+      "grad_norm": 5.40625,
+      "learning_rate": 7.907687847883809e-06,
+      "loss": 1.5775692,
+      "memory(GiB)": 111.15,
+      "step": 26595,
+      "train_speed(iter/s)": 0.44891
+    },
+    {
+      "acc": 0.64727859,
+      "epoch": 0.6747843734145104,
+      "grad_norm": 5.6875,
+      "learning_rate": 7.906834708081703e-06,
+      "loss": 1.62429276,
+      "memory(GiB)": 111.15,
+      "step": 26600,
+      "train_speed(iter/s)": 0.448954
+    },
+    {
+      "epoch": 0.6747843734145104,
+      "eval_acc": 0.6424104004007224,
+      "eval_loss": 1.6134413480758667,
+      "eval_runtime": 113.9327,
+      "eval_samples_per_second": 55.91,
+      "eval_steps_per_second": 27.955,
+      "step": 26600
+    },
+    {
+      "acc": 0.65623484,
+      "epoch": 0.6749112125824455,
+      "grad_norm": 5.5,
+      "learning_rate": 7.90598144042403e-06,
+      "loss": 1.61602821,
+      "memory(GiB)": 111.15,
+      "step": 26605,
+      "train_speed(iter/s)": 0.448103
+    },
+    {
+      "acc": 0.65157695,
+      "epoch": 0.6750380517503806,
+      "grad_norm": 5.90625,
+      "learning_rate": 7.905128044948318e-06,
+      "loss": 1.64370155,
+      "memory(GiB)": 111.15,
+      "step": 26610,
+      "train_speed(iter/s)": 0.448147
+    },
+    {
+      "acc": 0.63859291,
+      "epoch": 0.6751648909183156,
+      "grad_norm": 4.5625,
+      "learning_rate": 7.904274521692104e-06,
+      "loss": 1.67388058,
+      "memory(GiB)": 111.15,
+      "step": 26615,
+      "train_speed(iter/s)": 0.448191
+    },
+    {
+      "acc": 0.64978991,
+      "epoch": 0.6752917300862507,
+      "grad_norm": 5.0625,
+      "learning_rate": 7.90342087069293e-06,
+      "loss": 1.6262394,
+      "memory(GiB)": 111.15,
+      "step": 26620,
+      "train_speed(iter/s)": 0.448235
+    },
+    {
+      "acc": 0.64784198,
+      "epoch": 0.6754185692541856,
+      "grad_norm": 5.28125,
+      "learning_rate": 7.902567091988343e-06,
+      "loss": 1.5625349,
+      "memory(GiB)": 111.15,
+      "step": 26625,
+      "train_speed(iter/s)": 0.448279
+    },
+    {
+      "acc": 0.6521122,
+      "epoch": 0.6755454084221207,
+      "grad_norm": 5.8125,
+      "learning_rate": 7.901713185615898e-06,
+      "loss": 1.64546432,
+      "memory(GiB)": 111.15,
+      "step": 26630,
+      "train_speed(iter/s)": 0.448323
+    },
+    {
+      "acc": 0.64371786,
+      "epoch": 0.6756722475900558,
+      "grad_norm": 5.8125,
+      "learning_rate": 7.90085915161315e-06,
+      "loss": 1.63861961,
+      "memory(GiB)": 111.15,
+      "step": 26635,
+      "train_speed(iter/s)": 0.448368
+    },
+    {
+      "acc": 0.64883447,
+      "epoch": 0.6757990867579908,
+      "grad_norm": 4.84375,
+      "learning_rate": 7.900004990017667e-06,
+      "loss": 1.66120853,
+      "memory(GiB)": 111.15,
+      "step": 26640,
+      "train_speed(iter/s)": 0.448412
+    },
+    {
+      "acc": 0.63555164,
+      "epoch": 0.6759259259259259,
+      "grad_norm": 6.3125,
+      "learning_rate": 7.899150700867014e-06,
+      "loss": 1.71150475,
+      "memory(GiB)": 111.15,
+      "step": 26645,
+      "train_speed(iter/s)": 0.448456
+    },
+    {
+      "acc": 0.64265041,
+      "epoch": 0.676052765093861,
+      "grad_norm": 5.5625,
+      "learning_rate": 7.898296284198772e-06,
+      "loss": 1.60275421,
+      "memory(GiB)": 111.15,
+      "step": 26650,
+      "train_speed(iter/s)": 0.448501
+    },
+    {
+      "acc": 0.65254798,
+      "epoch": 0.676179604261796,
+      "grad_norm": 5.8125,
+      "learning_rate": 7.897441740050518e-06,
+      "loss": 1.65432892,
+      "memory(GiB)": 111.15,
+      "step": 26655,
+      "train_speed(iter/s)": 0.448545
+    },
+    {
+      "acc": 0.62976899,
+      "epoch": 0.6763064434297311,
+      "grad_norm": 4.84375,
+      "learning_rate": 7.89658706845984e-06,
+      "loss": 1.65171547,
+      "memory(GiB)": 111.15,
+      "step": 26660,
+      "train_speed(iter/s)": 0.44859
+    },
+    {
+      "acc": 0.64569702,
+      "epoch": 0.6764332825976661,
+      "grad_norm": 5.40625,
+      "learning_rate": 7.89573226946433e-06,
+      "loss": 1.63700142,
+      "memory(GiB)": 111.15,
+      "step": 26665,
+      "train_speed(iter/s)": 0.448634
+    },
+    {
+      "acc": 0.64668894,
+      "epoch": 0.6765601217656012,
+      "grad_norm": 6.53125,
+      "learning_rate": 7.89487734310159e-06,
+      "loss": 1.65378914,
+      "memory(GiB)": 111.15,
+      "step": 26670,
+      "train_speed(iter/s)": 0.448679
+    },
+    {
+      "acc": 0.64808354,
+      "epoch": 0.6766869609335363,
+      "grad_norm": 4.90625,
+      "learning_rate": 7.894022289409216e-06,
+      "loss": 1.62835331,
+      "memory(GiB)": 111.15,
+      "step": 26675,
+      "train_speed(iter/s)": 0.448723
+    },
+    {
+      "acc": 0.63534608,
+      "epoch": 0.6768138001014713,
+      "grad_norm": 4.53125,
+      "learning_rate": 7.893167108424822e-06,
+      "loss": 1.68508072,
+      "memory(GiB)": 111.15,
+      "step": 26680,
+      "train_speed(iter/s)": 0.448767
+    },
+    {
+      "acc": 0.6540844,
+      "epoch": 0.6769406392694064,
+      "grad_norm": 5.25,
+      "learning_rate": 7.89231180018602e-06,
+      "loss": 1.55906868,
+      "memory(GiB)": 111.15,
+      "step": 26685,
+      "train_speed(iter/s)": 0.448812
+    },
+    {
+      "acc": 0.65094805,
+      "epoch": 0.6770674784373415,
+      "grad_norm": 5.3125,
+      "learning_rate": 7.891456364730434e-06,
+      "loss": 1.65201187,
+      "memory(GiB)": 111.15,
+      "step": 26690,
+      "train_speed(iter/s)": 0.448856
+    },
+    {
+      "acc": 0.64199886,
+      "epoch": 0.6771943176052765,
+      "grad_norm": 5.0625,
+      "learning_rate": 7.890600802095686e-06,
+      "loss": 1.70462055,
+      "memory(GiB)": 111.15,
+      "step": 26695,
+      "train_speed(iter/s)": 0.448901
+    },
+    {
+      "acc": 0.64379416,
+      "epoch": 0.6773211567732116,
+      "grad_norm": 5.875,
+      "learning_rate": 7.889745112319411e-06,
+      "loss": 1.5928628,
+      "memory(GiB)": 111.15,
+      "step": 26700,
+      "train_speed(iter/s)": 0.448946
+    },
+    {
+      "epoch": 0.6773211567732116,
+      "eval_acc": 0.642385334362155,
+      "eval_loss": 1.6135154962539673,
+      "eval_runtime": 113.3143,
+      "eval_samples_per_second": 56.215,
+      "eval_steps_per_second": 28.108,
+      "step": 26700
+    },
+    {
+      "acc": 0.64770875,
+      "epoch": 0.6774479959411466,
+      "grad_norm": 4.875,
+      "learning_rate": 7.888889295439244e-06,
+      "loss": 1.63203945,
+      "memory(GiB)": 111.15,
+      "step": 26705,
+      "train_speed(iter/s)": 0.448102
+    },
+    {
+      "acc": 0.64732485,
+      "epoch": 0.6775748351090817,
+      "grad_norm": 5.46875,
+      "learning_rate": 7.888033351492827e-06,
+      "loss": 1.65415421,
+      "memory(GiB)": 111.15,
+      "step": 26710,
+      "train_speed(iter/s)": 0.448147
+    },
+    {
+      "acc": 0.63932056,
+      "epoch": 0.6777016742770168,
+      "grad_norm": 4.96875,
+      "learning_rate": 7.887177280517808e-06,
+      "loss": 1.70096416,
+      "memory(GiB)": 111.15,
+      "step": 26715,
+      "train_speed(iter/s)": 0.448191
+    },
+    {
+      "acc": 0.65437183,
+      "epoch": 0.6778285134449518,
+      "grad_norm": 5.625,
+      "learning_rate": 7.886321082551845e-06,
+      "loss": 1.57246151,
+      "memory(GiB)": 111.15,
+      "step": 26720,
+      "train_speed(iter/s)": 0.448236
+    },
+    {
+      "acc": 0.66651793,
+      "epoch": 0.6779553526128869,
+      "grad_norm": 5.34375,
+      "learning_rate": 7.88546475763259e-06,
+      "loss": 1.58562231,
+      "memory(GiB)": 111.15,
+      "step": 26725,
+      "train_speed(iter/s)": 0.448279
+    },
+    {
+      "acc": 0.65972404,
+      "epoch": 0.678082191780822,
+      "grad_norm": 4.34375,
+      "learning_rate": 7.884608305797716e-06,
+      "loss": 1.58518448,
+      "memory(GiB)": 111.15,
+      "step": 26730,
+      "train_speed(iter/s)": 0.448323
+    },
+    {
+      "acc": 0.63886676,
+      "epoch": 0.678209030948757,
+      "grad_norm": 4.8125,
+      "learning_rate": 7.883751727084888e-06,
+      "loss": 1.66441574,
+      "memory(GiB)": 111.15,
+      "step": 26735,
+      "train_speed(iter/s)": 0.448368
+    },
+    {
+      "acc": 0.6452435,
+      "epoch": 0.678335870116692,
+      "grad_norm": 5.0,
+      "learning_rate": 7.882895021531784e-06,
+      "loss": 1.68922691,
+      "memory(GiB)": 111.15,
+      "step": 26740,
+      "train_speed(iter/s)": 0.448412
+    },
+    {
+      "acc": 0.64843884,
+      "epoch": 0.678462709284627,
+      "grad_norm": 5.96875,
+      "learning_rate": 7.882038189176085e-06,
+      "loss": 1.64935036,
+      "memory(GiB)": 111.15,
+      "step": 26745,
+      "train_speed(iter/s)": 0.448457
+    },
+    {
+      "acc": 0.65742407,
+      "epoch": 0.6785895484525621,
+      "grad_norm": 5.25,
+      "learning_rate": 7.881181230055481e-06,
+      "loss": 1.61824284,
+      "memory(GiB)": 111.15,
+      "step": 26750,
+      "train_speed(iter/s)": 0.448501
+    },
+    {
+      "acc": 0.65716667,
+      "epoch": 0.6787163876204972,
+      "grad_norm": 8.9375,
+      "learning_rate": 7.880324144207663e-06,
+      "loss": 1.61386299,
+      "memory(GiB)": 111.15,
+      "step": 26755,
+      "train_speed(iter/s)": 0.448545
+    },
+    {
+      "acc": 0.65877094,
+      "epoch": 0.6788432267884322,
+      "grad_norm": 5.15625,
+      "learning_rate": 7.879466931670328e-06,
+      "loss": 1.67288265,
+      "memory(GiB)": 111.15,
+      "step": 26760,
+      "train_speed(iter/s)": 0.44859
+    },
+    {
+      "acc": 0.63891597,
+      "epoch": 0.6789700659563673,
+      "grad_norm": 6.28125,
+      "learning_rate": 7.878609592481182e-06,
+      "loss": 1.74146385,
+      "memory(GiB)": 111.15,
+      "step": 26765,
+      "train_speed(iter/s)": 0.448634
+    },
+    {
+      "acc": 0.65627451,
+      "epoch": 0.6790969051243024,
+      "grad_norm": 5.34375,
+      "learning_rate": 7.877752126677933e-06,
+      "loss": 1.63038044,
+      "memory(GiB)": 111.15,
+      "step": 26770,
+      "train_speed(iter/s)": 0.448678
+    },
+    {
+      "acc": 0.66876287,
+      "epoch": 0.6792237442922374,
+      "grad_norm": 5.0625,
+      "learning_rate": 7.876894534298298e-06,
+      "loss": 1.49921303,
+      "memory(GiB)": 111.15,
+      "step": 26775,
+      "train_speed(iter/s)": 0.448723
+    },
+    {
+      "acc": 0.65520697,
+      "epoch": 0.6793505834601725,
+      "grad_norm": 5.53125,
+      "learning_rate": 7.87603681538e-06,
+      "loss": 1.5803936,
+      "memory(GiB)": 111.15,
+      "step": 26780,
+      "train_speed(iter/s)": 0.448767
+    },
+    {
+      "acc": 0.6327745,
+      "epoch": 0.6794774226281075,
+      "grad_norm": 5.53125,
+      "learning_rate": 7.875178969960757e-06,
+      "loss": 1.74032516,
+      "memory(GiB)": 111.15,
+      "step": 26785,
+      "train_speed(iter/s)": 0.448811
+    },
+    {
+      "acc": 0.64561715,
+      "epoch": 0.6796042617960426,
+      "grad_norm": 4.71875,
+      "learning_rate": 7.87432099807831e-06,
+      "loss": 1.66211128,
+      "memory(GiB)": 111.15,
+      "step": 26790,
+      "train_speed(iter/s)": 0.448855
+    },
+    {
+      "acc": 0.64776425,
+      "epoch": 0.6797311009639777,
+      "grad_norm": 5.3125,
+      "learning_rate": 7.87346289977039e-06,
+      "loss": 1.65970154,
+      "memory(GiB)": 111.15,
+      "step": 26795,
+      "train_speed(iter/s)": 0.448899
+    },
+    {
+      "acc": 0.66038513,
+      "epoch": 0.6798579401319127,
+      "grad_norm": 5.53125,
+      "learning_rate": 7.872604675074745e-06,
+      "loss": 1.6227478,
+      "memory(GiB)": 111.15,
+      "step": 26800,
+      "train_speed(iter/s)": 0.448944
+    },
+    {
+      "epoch": 0.6798579401319127,
+      "eval_acc": 0.6423523307447079,
+      "eval_loss": 1.6134400367736816,
+      "eval_runtime": 113.7079,
+      "eval_samples_per_second": 56.021,
+      "eval_steps_per_second": 28.01,
+      "step": 26800
+    },
+    {
+      "acc": 0.63957696,
+      "epoch": 0.6799847792998478,
+      "grad_norm": 5.59375,
+      "learning_rate": 7.871746324029119e-06,
+      "loss": 1.61455307,
+      "memory(GiB)": 111.15,
+      "step": 26805,
+      "train_speed(iter/s)": 0.4481
+    },
+    {
+      "acc": 0.65515013,
+      "epoch": 0.6801116184677829,
+      "grad_norm": 5.34375,
+      "learning_rate": 7.87088784667127e-06,
+      "loss": 1.60473118,
+      "memory(GiB)": 111.15,
+      "step": 26810,
+      "train_speed(iter/s)": 0.448144
+    },
+    {
+      "acc": 0.62987185,
+      "epoch": 0.6802384576357179,
+      "grad_norm": 5.1875,
+      "learning_rate": 7.870029243038955e-06,
+      "loss": 1.71166191,
+      "memory(GiB)": 111.15,
+      "step": 26815,
+      "train_speed(iter/s)": 0.448188
+    },
+    {
+      "acc": 0.63865252,
+      "epoch": 0.680365296803653,
+      "grad_norm": 5.5,
+      "learning_rate": 7.869170513169941e-06,
+      "loss": 1.66307049,
+      "memory(GiB)": 111.15,
+      "step": 26820,
+      "train_speed(iter/s)": 0.448232
+    },
+    {
+      "acc": 0.62583017,
+      "epoch": 0.680492135971588,
+      "grad_norm": 5.09375,
+      "learning_rate": 7.868311657101996e-06,
+      "loss": 1.6472187,
+      "memory(GiB)": 111.15,
+      "step": 26825,
+      "train_speed(iter/s)": 0.448277
+    },
+    {
+      "acc": 0.64459772,
+      "epoch": 0.6806189751395231,
+      "grad_norm": 6.8125,
+      "learning_rate": 7.8674526748729e-06,
+      "loss": 1.66756802,
+      "memory(GiB)": 111.15,
+      "step": 26830,
+      "train_speed(iter/s)": 0.448321
+    },
+    {
+      "acc": 0.67718077,
+      "epoch": 0.6807458143074582,
+      "grad_norm": 6.1875,
+      "learning_rate": 7.866593566520432e-06,
+      "loss": 1.53802967,
+      "memory(GiB)": 111.15,
+      "step": 26835,
+      "train_speed(iter/s)": 0.448365
+    },
+    {
+      "acc": 0.65185323,
+      "epoch": 0.6808726534753932,
+      "grad_norm": 5.09375,
+      "learning_rate": 7.865734332082382e-06,
+      "loss": 1.68677731,
+      "memory(GiB)": 111.15,
+      "step": 26840,
+      "train_speed(iter/s)": 0.448409
+    },
+    {
+      "acc": 0.66086502,
+      "epoch": 0.6809994926433283,
+      "grad_norm": 6.21875,
+      "learning_rate": 7.86487497159654e-06,
+      "loss": 1.56068201,
+      "memory(GiB)": 111.15,
+      "step": 26845,
+      "train_speed(iter/s)": 0.448453
+    },
+    {
+      "acc": 0.64579043,
+      "epoch": 0.6811263318112634,
+      "grad_norm": 5.125,
+      "learning_rate": 7.864015485100706e-06,
+      "loss": 1.6240345,
+      "memory(GiB)": 111.15,
+      "step": 26850,
+      "train_speed(iter/s)": 0.448497
+    },
+    {
+      "acc": 0.64868155,
+      "epoch": 0.6812531709791984,
+      "grad_norm": 5.21875,
+      "learning_rate": 7.863155872632685e-06,
+      "loss": 1.56953449,
+      "memory(GiB)": 111.15,
+      "step": 26855,
+      "train_speed(iter/s)": 0.448541
+    },
+    {
+      "acc": 0.65022974,
+      "epoch": 0.6813800101471335,
+      "grad_norm": 5.90625,
+      "learning_rate": 7.862296134230287e-06,
+      "loss": 1.59436302,
+      "memory(GiB)": 111.15,
+      "step": 26860,
+      "train_speed(iter/s)": 0.448585
+    },
+    {
+      "acc": 0.64992528,
+      "epoch": 0.6815068493150684,
+      "grad_norm": 5.625,
+      "learning_rate": 7.861436269931322e-06,
+      "loss": 1.61498337,
+      "memory(GiB)": 111.15,
+      "step": 26865,
+      "train_speed(iter/s)": 0.44863
+    },
+    {
+      "acc": 0.66036196,
+      "epoch": 0.6816336884830035,
+      "grad_norm": 5.03125,
+      "learning_rate": 7.860576279773617e-06,
+      "loss": 1.57613449,
+      "memory(GiB)": 111.15,
+      "step": 26870,
+      "train_speed(iter/s)": 0.448674
+    },
+    {
+      "acc": 0.65069032,
+      "epoch": 0.6817605276509386,
+      "grad_norm": 5.9375,
+      "learning_rate": 7.859716163794995e-06,
+      "loss": 1.59818935,
+      "memory(GiB)": 111.15,
+      "step": 26875,
+      "train_speed(iter/s)": 0.448718
+    },
+    {
+      "acc": 0.65535021,
+      "epoch": 0.6818873668188736,
+      "grad_norm": 3.953125,
+      "learning_rate": 7.858855922033289e-06,
+      "loss": 1.60890255,
+      "memory(GiB)": 111.15,
+      "step": 26880,
+      "train_speed(iter/s)": 0.448762
+    },
+    {
+      "acc": 0.64086466,
+      "epoch": 0.6820142059868087,
+      "grad_norm": 5.625,
+      "learning_rate": 7.857995554526334e-06,
+      "loss": 1.69791813,
+      "memory(GiB)": 111.15,
+      "step": 26885,
+      "train_speed(iter/s)": 0.448805
+    },
+    {
+      "acc": 0.64264765,
+      "epoch": 0.6821410451547438,
+      "grad_norm": 5.21875,
+      "learning_rate": 7.857135061311977e-06,
+      "loss": 1.65953407,
+      "memory(GiB)": 111.15,
+      "step": 26890,
+      "train_speed(iter/s)": 0.448849
+    },
+    {
+      "acc": 0.64729986,
+      "epoch": 0.6822678843226788,
+      "grad_norm": 5.34375,
+      "learning_rate": 7.856274442428062e-06,
+      "loss": 1.69646416,
+      "memory(GiB)": 111.15,
+      "step": 26895,
+      "train_speed(iter/s)": 0.448893
+    },
+    {
+      "acc": 0.63907433,
+      "epoch": 0.6823947234906139,
+      "grad_norm": 5.625,
+      "learning_rate": 7.855413697912446e-06,
+      "loss": 1.64591579,
+      "memory(GiB)": 111.15,
+      "step": 26900,
+      "train_speed(iter/s)": 0.448938
+    },
+    {
+      "epoch": 0.6823947234906139,
+      "eval_acc": 0.6423581794870402,
+      "eval_loss": 1.6130332946777344,
+      "eval_runtime": 113.5839,
+      "eval_samples_per_second": 56.082,
+      "eval_steps_per_second": 28.041,
+      "step": 26900
+    },
+    {
+      "acc": 0.64576931,
+      "epoch": 0.6825215626585489,
+      "grad_norm": 5.0625,
+      "learning_rate": 7.854552827802987e-06,
+      "loss": 1.63153954,
+      "memory(GiB)": 111.15,
+      "step": 26905,
+      "train_speed(iter/s)": 0.448099
+    },
+    {
+      "acc": 0.66078296,
+      "epoch": 0.682648401826484,
+      "grad_norm": 7.03125,
+      "learning_rate": 7.853691832137547e-06,
+      "loss": 1.62020683,
+      "memory(GiB)": 111.15,
+      "step": 26910,
+      "train_speed(iter/s)": 0.448143
+    },
+    {
+      "acc": 0.66204648,
+      "epoch": 0.6827752409944191,
+      "grad_norm": 4.71875,
+      "learning_rate": 7.852830710954003e-06,
+      "loss": 1.59321594,
+      "memory(GiB)": 111.15,
+      "step": 26915,
+      "train_speed(iter/s)": 0.448186
+    },
+    {
+      "acc": 0.6484396,
+      "epoch": 0.6829020801623541,
+      "grad_norm": 5.65625,
+      "learning_rate": 7.851969464290226e-06,
+      "loss": 1.65079956,
+      "memory(GiB)": 111.15,
+      "step": 26920,
+      "train_speed(iter/s)": 0.448231
+    },
+    {
+      "acc": 0.65205269,
+      "epoch": 0.6830289193302892,
+      "grad_norm": 6.03125,
+      "learning_rate": 7.851108092184099e-06,
+      "loss": 1.61463928,
+      "memory(GiB)": 111.15,
+      "step": 26925,
+      "train_speed(iter/s)": 0.448274
+    },
+    {
+      "acc": 0.65546541,
+      "epoch": 0.6831557584982243,
+      "grad_norm": 5.09375,
+      "learning_rate": 7.850246594673508e-06,
+      "loss": 1.62870216,
+      "memory(GiB)": 111.15,
+      "step": 26930,
+      "train_speed(iter/s)": 0.448319
+    },
+    {
+      "acc": 0.64578185,
+      "epoch": 0.6832825976661593,
+      "grad_norm": 6.375,
+      "learning_rate": 7.849384971796346e-06,
+      "loss": 1.69458237,
+      "memory(GiB)": 111.15,
+      "step": 26935,
+      "train_speed(iter/s)": 0.448362
+    },
+    {
+      "acc": 0.6530632,
+      "epoch": 0.6834094368340944,
+      "grad_norm": 5.3125,
+      "learning_rate": 7.848523223590514e-06,
+      "loss": 1.63932724,
+      "memory(GiB)": 111.15,
+      "step": 26940,
+      "train_speed(iter/s)": 0.448406
+    },
+    {
+      "acc": 0.64247379,
+      "epoch": 0.6835362760020294,
+      "grad_norm": 6.1875,
+      "learning_rate": 7.84766135009391e-06,
+      "loss": 1.66448975,
+      "memory(GiB)": 111.15,
+      "step": 26945,
+      "train_speed(iter/s)": 0.44845
+    },
+    {
+      "acc": 0.64360042,
+      "epoch": 0.6836631151699645,
+      "grad_norm": 4.625,
+      "learning_rate": 7.846799351344447e-06,
+      "loss": 1.66257973,
+      "memory(GiB)": 111.15,
+      "step": 26950,
+      "train_speed(iter/s)": 0.448494
+    },
+    {
+      "acc": 0.66403136,
+      "epoch": 0.6837899543378996,
+      "grad_norm": 5.3125,
+      "learning_rate": 7.845937227380038e-06,
+      "loss": 1.60891495,
+      "memory(GiB)": 111.15,
+      "step": 26955,
+      "train_speed(iter/s)": 0.448538
+    },
+    {
+      "acc": 0.63398666,
+      "epoch": 0.6839167935058346,
+      "grad_norm": 5.03125,
+      "learning_rate": 7.845074978238604e-06,
+      "loss": 1.68343029,
+      "memory(GiB)": 111.15,
+      "step": 26960,
+      "train_speed(iter/s)": 0.448582
+    },
+    {
+      "acc": 0.65639954,
+      "epoch": 0.6840436326737697,
+      "grad_norm": 5.34375,
+      "learning_rate": 7.84421260395807e-06,
+      "loss": 1.65233269,
+      "memory(GiB)": 111.15,
+      "step": 26965,
+      "train_speed(iter/s)": 0.448626
+    },
+    {
+      "acc": 0.64712787,
+      "epoch": 0.6841704718417048,
+      "grad_norm": 5.40625,
+      "learning_rate": 7.84335010457637e-06,
+      "loss": 1.62664108,
+      "memory(GiB)": 111.15,
+      "step": 26970,
+      "train_speed(iter/s)": 0.44867
+    },
+    {
+      "acc": 0.65759664,
+      "epoch": 0.6842973110096398,
+      "grad_norm": 6.15625,
+      "learning_rate": 7.842487480131435e-06,
+      "loss": 1.54200048,
+      "memory(GiB)": 111.15,
+      "step": 26975,
+      "train_speed(iter/s)": 0.448714
+    },
+    {
+      "acc": 0.64696722,
+      "epoch": 0.6844241501775749,
+      "grad_norm": 5.78125,
+      "learning_rate": 7.84162473066121e-06,
+      "loss": 1.7127739,
+      "memory(GiB)": 111.15,
+      "step": 26980,
+      "train_speed(iter/s)": 0.448757
+    },
+    {
+      "acc": 0.65742331,
+      "epoch": 0.6845509893455098,
+      "grad_norm": 5.09375,
+      "learning_rate": 7.840761856203642e-06,
+      "loss": 1.51608372,
+      "memory(GiB)": 111.15,
+      "step": 26985,
+      "train_speed(iter/s)": 0.448801
+    },
+    {
+      "acc": 0.639674,
+      "epoch": 0.6846778285134449,
+      "grad_norm": 4.8125,
+      "learning_rate": 7.839898856796685e-06,
+      "loss": 1.6932888,
+      "memory(GiB)": 111.15,
+      "step": 26990,
+      "train_speed(iter/s)": 0.448845
+    },
+    {
+      "acc": 0.63679085,
+      "epoch": 0.68480466768138,
+      "grad_norm": 5.53125,
+      "learning_rate": 7.839035732478297e-06,
+      "loss": 1.67074261,
+      "memory(GiB)": 111.15,
+      "step": 26995,
+      "train_speed(iter/s)": 0.448889
+    },
+    {
+      "acc": 0.64877386,
+      "epoch": 0.684931506849315,
+      "grad_norm": 5.34375,
+      "learning_rate": 7.838172483286441e-06,
+      "loss": 1.66660309,
+      "memory(GiB)": 111.15,
+      "step": 27000,
+      "train_speed(iter/s)": 0.448933
+    },
+    {
+      "epoch": 0.684931506849315,
+      "eval_acc": 0.6423155672214755,
+      "eval_loss": 1.6131644248962402,
+      "eval_runtime": 113.7174,
+      "eval_samples_per_second": 56.016,
+      "eval_steps_per_second": 28.008,
+      "step": 27000
+    },
+    {
+      "acc": 0.66580801,
+      "epoch": 0.6850583460172501,
+      "grad_norm": 4.78125,
+      "learning_rate": 7.83730910925909e-06,
+      "loss": 1.59387274,
+      "memory(GiB)": 111.15,
+      "step": 27005,
+      "train_speed(iter/s)": 0.448095
+    },
+    {
+      "acc": 0.64784317,
+      "epoch": 0.6851851851851852,
+      "grad_norm": 4.8125,
+      "learning_rate": 7.836445610434215e-06,
+      "loss": 1.61885738,
+      "memory(GiB)": 111.15,
+      "step": 27010,
+      "train_speed(iter/s)": 0.448139
+    },
+    {
+      "acc": 0.64943123,
+      "epoch": 0.6853120243531202,
+      "grad_norm": 5.59375,
+      "learning_rate": 7.835581986849799e-06,
+      "loss": 1.65475311,
+      "memory(GiB)": 111.15,
+      "step": 27015,
+      "train_speed(iter/s)": 0.448183
+    },
+    {
+      "acc": 0.64305878,
+      "epoch": 0.6854388635210553,
+      "grad_norm": 5.25,
+      "learning_rate": 7.834718238543827e-06,
+      "loss": 1.64459915,
+      "memory(GiB)": 111.15,
+      "step": 27020,
+      "train_speed(iter/s)": 0.448226
+    },
+    {
+      "acc": 0.63771305,
+      "epoch": 0.6855657026889903,
+      "grad_norm": 4.78125,
+      "learning_rate": 7.833854365554289e-06,
+      "loss": 1.66105194,
+      "memory(GiB)": 111.15,
+      "step": 27025,
+      "train_speed(iter/s)": 0.44827
+    },
+    {
+      "acc": 0.64167442,
+      "epoch": 0.6856925418569254,
+      "grad_norm": 4.5625,
+      "learning_rate": 7.832990367919186e-06,
+      "loss": 1.6878067,
+      "memory(GiB)": 111.15,
+      "step": 27030,
+      "train_speed(iter/s)": 0.448314
+    },
+    {
+      "acc": 0.654426,
+      "epoch": 0.6858193810248605,
+      "grad_norm": 6.375,
+      "learning_rate": 7.832126245676518e-06,
+      "loss": 1.61333237,
+      "memory(GiB)": 111.15,
+      "step": 27035,
+      "train_speed(iter/s)": 0.448358
+    },
+    {
+      "acc": 0.64580555,
+      "epoch": 0.6859462201927955,
+      "grad_norm": 6.375,
+      "learning_rate": 7.831261998864293e-06,
+      "loss": 1.61481285,
+      "memory(GiB)": 111.15,
+      "step": 27040,
+      "train_speed(iter/s)": 0.448402
+    },
+    {
+      "acc": 0.6532577,
+      "epoch": 0.6860730593607306,
+      "grad_norm": 5.1875,
+      "learning_rate": 7.830397627520526e-06,
+      "loss": 1.66595478,
+      "memory(GiB)": 111.15,
+      "step": 27045,
+      "train_speed(iter/s)": 0.448445
+    },
+    {
+      "acc": 0.63900938,
+      "epoch": 0.6861998985286657,
+      "grad_norm": 5.40625,
+      "learning_rate": 7.82953313168323e-06,
+      "loss": 1.65289955,
+      "memory(GiB)": 111.15,
+      "step": 27050,
+      "train_speed(iter/s)": 0.448489
+    },
+    {
+      "acc": 0.6438591,
+      "epoch": 0.6863267376966007,
+      "grad_norm": 5.65625,
+      "learning_rate": 7.828668511390439e-06,
+      "loss": 1.59794827,
+      "memory(GiB)": 111.15,
+      "step": 27055,
+      "train_speed(iter/s)": 0.448532
+    },
+    {
+      "acc": 0.64391241,
+      "epoch": 0.6864535768645358,
+      "grad_norm": 5.0,
+      "learning_rate": 7.827803766680176e-06,
+      "loss": 1.62259674,
+      "memory(GiB)": 111.15,
+      "step": 27060,
+      "train_speed(iter/s)": 0.448576
+    },
+    {
+      "acc": 0.64617891,
+      "epoch": 0.6865804160324708,
+      "grad_norm": 6.15625,
+      "learning_rate": 7.826938897590477e-06,
+      "loss": 1.62988701,
+      "memory(GiB)": 111.15,
+      "step": 27065,
+      "train_speed(iter/s)": 0.448619
+    },
+    {
+      "acc": 0.66058416,
+      "epoch": 0.6867072552004059,
+      "grad_norm": 5.0625,
+      "learning_rate": 7.826073904159384e-06,
+      "loss": 1.56282501,
+      "memory(GiB)": 111.15,
+      "step": 27070,
+      "train_speed(iter/s)": 0.448662
+    },
+    {
+      "acc": 0.65731859,
+      "epoch": 0.686834094368341,
+      "grad_norm": 4.96875,
+      "learning_rate": 7.825208786424944e-06,
+      "loss": 1.63133621,
+      "memory(GiB)": 111.15,
+      "step": 27075,
+      "train_speed(iter/s)": 0.448705
+    },
+    {
+      "acc": 0.62951365,
+      "epoch": 0.686960933536276,
+      "grad_norm": 6.28125,
+      "learning_rate": 7.824343544425207e-06,
+      "loss": 1.71893883,
+      "memory(GiB)": 111.15,
+      "step": 27080,
+      "train_speed(iter/s)": 0.448749
+    },
+    {
+      "acc": 0.65072365,
+      "epoch": 0.6870877727042111,
+      "grad_norm": 4.53125,
+      "learning_rate": 7.823478178198234e-06,
+      "loss": 1.61609783,
+      "memory(GiB)": 111.15,
+      "step": 27085,
+      "train_speed(iter/s)": 0.448792
+    },
+    {
+      "acc": 0.65851603,
+      "epoch": 0.6872146118721462,
+      "grad_norm": 4.9375,
+      "learning_rate": 7.822612687782083e-06,
+      "loss": 1.57316074,
+      "memory(GiB)": 111.15,
+      "step": 27090,
+      "train_speed(iter/s)": 0.448836
+    },
+    {
+      "acc": 0.65838842,
+      "epoch": 0.6873414510400812,
+      "grad_norm": 5.53125,
+      "learning_rate": 7.821747073214823e-06,
+      "loss": 1.55784245,
+      "memory(GiB)": 111.15,
+      "step": 27095,
+      "train_speed(iter/s)": 0.448879
+    },
+    {
+      "acc": 0.65382214,
+      "epoch": 0.6874682902080163,
+      "grad_norm": 4.75,
+      "learning_rate": 7.820881334534529e-06,
+      "loss": 1.57903633,
+      "memory(GiB)": 111.15,
+      "step": 27100,
+      "train_speed(iter/s)": 0.448923
+    },
+    {
+      "epoch": 0.6874682902080163,
+      "eval_acc": 0.6423468997696848,
+      "eval_loss": 1.6130595207214355,
+      "eval_runtime": 113.2734,
+      "eval_samples_per_second": 56.236,
+      "eval_steps_per_second": 28.118,
+      "step": 27100
+    },
+    {
+      "acc": 0.6600296,
+      "epoch": 0.6875951293759512,
+      "grad_norm": 4.96875,
+      "learning_rate": 7.820015471779278e-06,
+      "loss": 1.5554739,
+      "memory(GiB)": 111.15,
+      "step": 27105,
+      "train_speed(iter/s)": 0.448092
+    },
+    {
+      "acc": 0.66325703,
+      "epoch": 0.6877219685438863,
+      "grad_norm": 5.53125,
+      "learning_rate": 7.819149484987159e-06,
+      "loss": 1.59647732,
+      "memory(GiB)": 111.15,
+      "step": 27110,
+      "train_speed(iter/s)": 0.448135
+    },
+    {
+      "acc": 0.66047325,
+      "epoch": 0.6878488077118214,
+      "grad_norm": 4.625,
+      "learning_rate": 7.818283374196259e-06,
+      "loss": 1.58700552,
+      "memory(GiB)": 111.15,
+      "step": 27115,
+      "train_speed(iter/s)": 0.448179
+    },
+    {
+      "acc": 0.65124817,
+      "epoch": 0.6879756468797564,
+      "grad_norm": 5.40625,
+      "learning_rate": 7.817417139444671e-06,
+      "loss": 1.66482372,
+      "memory(GiB)": 111.15,
+      "step": 27120,
+      "train_speed(iter/s)": 0.448223
+    },
+    {
+      "acc": 0.63304548,
+      "epoch": 0.6881024860476915,
+      "grad_norm": 5.84375,
+      "learning_rate": 7.8165507807705e-06,
+      "loss": 1.7174902,
+      "memory(GiB)": 111.15,
+      "step": 27125,
+      "train_speed(iter/s)": 0.448266
+    },
+    {
+      "acc": 0.63934455,
+      "epoch": 0.6882293252156266,
+      "grad_norm": 5.34375,
+      "learning_rate": 7.81568429821185e-06,
+      "loss": 1.69177895,
+      "memory(GiB)": 111.15,
+      "step": 27130,
+      "train_speed(iter/s)": 0.44831
+    },
+    {
+      "acc": 0.65429296,
+      "epoch": 0.6883561643835616,
+      "grad_norm": 5.59375,
+      "learning_rate": 7.814817691806834e-06,
+      "loss": 1.67952614,
+      "memory(GiB)": 111.15,
+      "step": 27135,
+      "train_speed(iter/s)": 0.448353
+    },
+    {
+      "acc": 0.65168266,
+      "epoch": 0.6884830035514967,
+      "grad_norm": 5.3125,
+      "learning_rate": 7.813950961593569e-06,
+      "loss": 1.63514843,
+      "memory(GiB)": 111.15,
+      "step": 27140,
+      "train_speed(iter/s)": 0.448396
+    },
+    {
+      "acc": 0.63961034,
+      "epoch": 0.6886098427194317,
+      "grad_norm": 4.46875,
+      "learning_rate": 7.813084107610175e-06,
+      "loss": 1.62346745,
+      "memory(GiB)": 111.15,
+      "step": 27145,
+      "train_speed(iter/s)": 0.44844
+    },
+    {
+      "acc": 0.65446038,
+      "epoch": 0.6887366818873668,
+      "grad_norm": 5.03125,
+      "learning_rate": 7.812217129894785e-06,
+      "loss": 1.52882929,
+      "memory(GiB)": 111.15,
+      "step": 27150,
+      "train_speed(iter/s)": 0.448483
+    },
+    {
+      "acc": 0.65641894,
+      "epoch": 0.6888635210553019,
+      "grad_norm": 5.15625,
+      "learning_rate": 7.811350028485531e-06,
+      "loss": 1.58613987,
+      "memory(GiB)": 111.15,
+      "step": 27155,
+      "train_speed(iter/s)": 0.448526
+    },
+    {
+      "acc": 0.65418739,
+      "epoch": 0.6889903602232369,
+      "grad_norm": 5.84375,
+      "learning_rate": 7.810482803420549e-06,
+      "loss": 1.58340473,
+      "memory(GiB)": 111.15,
+      "step": 27160,
+      "train_speed(iter/s)": 0.44857
+    },
+    {
+      "acc": 0.64442277,
+      "epoch": 0.689117199391172,
+      "grad_norm": 5.4375,
+      "learning_rate": 7.809615454737984e-06,
+      "loss": 1.64776516,
+      "memory(GiB)": 111.15,
+      "step": 27165,
+      "train_speed(iter/s)": 0.448613
+    },
+    {
+      "acc": 0.6372869,
+      "epoch": 0.6892440385591071,
+      "grad_norm": 4.84375,
+      "learning_rate": 7.808747982475991e-06,
+      "loss": 1.66596298,
+      "memory(GiB)": 111.15,
+      "step": 27170,
+      "train_speed(iter/s)": 0.448657
+    },
+    {
+      "acc": 0.63553753,
+      "epoch": 0.6893708777270421,
+      "grad_norm": 6.71875,
+      "learning_rate": 7.807880386672718e-06,
+      "loss": 1.68006096,
+      "memory(GiB)": 111.15,
+      "step": 27175,
+      "train_speed(iter/s)": 0.448701
+    },
+    {
+      "acc": 0.63246098,
+      "epoch": 0.6894977168949772,
+      "grad_norm": 5.59375,
+      "learning_rate": 7.807012667366332e-06,
+      "loss": 1.69895325,
+      "memory(GiB)": 111.15,
+      "step": 27180,
+      "train_speed(iter/s)": 0.448744
+    },
+    {
+      "acc": 0.64890976,
+      "epoch": 0.6896245560629122,
+      "grad_norm": 6.4375,
+      "learning_rate": 7.806144824594994e-06,
+      "loss": 1.64491673,
+      "memory(GiB)": 111.15,
+      "step": 27185,
+      "train_speed(iter/s)": 0.448788
+    },
+    {
+      "acc": 0.64255495,
+      "epoch": 0.6897513952308473,
+      "grad_norm": 5.46875,
+      "learning_rate": 7.805276858396879e-06,
+      "loss": 1.64829903,
+      "memory(GiB)": 111.15,
+      "step": 27190,
+      "train_speed(iter/s)": 0.448832
+    },
+    {
+      "acc": 0.65521183,
+      "epoch": 0.6898782343987824,
+      "grad_norm": 5.125,
+      "learning_rate": 7.804408768810164e-06,
+      "loss": 1.61088448,
+      "memory(GiB)": 111.15,
+      "step": 27195,
+      "train_speed(iter/s)": 0.448875
+    },
+    {
+      "acc": 0.6437953,
+      "epoch": 0.6900050735667174,
+      "grad_norm": 5.46875,
+      "learning_rate": 7.80354055587303e-06,
+      "loss": 1.72474499,
+      "memory(GiB)": 111.15,
+      "step": 27200,
+      "train_speed(iter/s)": 0.448919
+    },
+    {
+      "epoch": 0.6900050735667174,
+      "eval_acc": 0.6424300354642669,
+      "eval_loss": 1.6128261089324951,
+      "eval_runtime": 114.06,
+      "eval_samples_per_second": 55.848,
+      "eval_steps_per_second": 27.924,
+      "step": 27200
+    },
+    {
+      "acc": 0.64334044,
+      "epoch": 0.6901319127346525,
+      "grad_norm": 5.28125,
+      "learning_rate": 7.802672219623665e-06,
+      "loss": 1.63186874,
+      "memory(GiB)": 111.15,
+      "step": 27205,
+      "train_speed(iter/s)": 0.448085
+    },
+    {
+      "acc": 0.66239381,
+      "epoch": 0.6902587519025876,
+      "grad_norm": 5.84375,
+      "learning_rate": 7.801803760100264e-06,
+      "loss": 1.6322197,
+      "memory(GiB)": 111.15,
+      "step": 27210,
+      "train_speed(iter/s)": 0.448128
+    },
+    {
+      "acc": 0.64245625,
+      "epoch": 0.6903855910705226,
+      "grad_norm": 6.71875,
+      "learning_rate": 7.800935177341022e-06,
+      "loss": 1.59839554,
+      "memory(GiB)": 111.15,
+      "step": 27215,
+      "train_speed(iter/s)": 0.448172
+    },
+    {
+      "acc": 0.66313972,
+      "epoch": 0.6905124302384577,
+      "grad_norm": 5.15625,
+      "learning_rate": 7.800066471384149e-06,
+      "loss": 1.61726418,
+      "memory(GiB)": 111.15,
+      "step": 27220,
+      "train_speed(iter/s)": 0.448214
+    },
+    {
+      "acc": 0.6621943,
+      "epoch": 0.6906392694063926,
+      "grad_norm": 5.09375,
+      "learning_rate": 7.799197642267848e-06,
+      "loss": 1.62828674,
+      "memory(GiB)": 111.15,
+      "step": 27225,
+      "train_speed(iter/s)": 0.448258
+    },
+    {
+      "acc": 0.64925089,
+      "epoch": 0.6907661085743277,
+      "grad_norm": 4.78125,
+      "learning_rate": 7.79832869003034e-06,
+      "loss": 1.60706367,
+      "memory(GiB)": 111.15,
+      "step": 27230,
+      "train_speed(iter/s)": 0.448301
+    },
+    {
+      "acc": 0.65675955,
+      "epoch": 0.6908929477422628,
+      "grad_norm": 5.5625,
+      "learning_rate": 7.797459614709842e-06,
+      "loss": 1.64934464,
+      "memory(GiB)": 111.15,
+      "step": 27235,
+      "train_speed(iter/s)": 0.448344
+    },
+    {
+      "acc": 0.64912891,
+      "epoch": 0.6910197869101978,
+      "grad_norm": 5.53125,
+      "learning_rate": 7.796590416344578e-06,
+      "loss": 1.61923523,
+      "memory(GiB)": 111.15,
+      "step": 27240,
+      "train_speed(iter/s)": 0.448387
+    },
+    {
+      "acc": 0.64007111,
+      "epoch": 0.6911466260781329,
+      "grad_norm": 5.40625,
+      "learning_rate": 7.795721094972783e-06,
+      "loss": 1.70615559,
+      "memory(GiB)": 111.15,
+      "step": 27245,
+      "train_speed(iter/s)": 0.44843
+    },
+    {
+      "acc": 0.63446789,
+      "epoch": 0.691273465246068,
+      "grad_norm": 5.6875,
+      "learning_rate": 7.794851650632693e-06,
+      "loss": 1.73550949,
+      "memory(GiB)": 111.15,
+      "step": 27250,
+      "train_speed(iter/s)": 0.448474
+    },
+    {
+      "acc": 0.65848227,
+      "epoch": 0.691400304414003,
+      "grad_norm": 4.6875,
+      "learning_rate": 7.793982083362548e-06,
+      "loss": 1.51315727,
+      "memory(GiB)": 111.15,
+      "step": 27255,
+      "train_speed(iter/s)": 0.448517
+    },
+    {
+      "acc": 0.66465425,
+      "epoch": 0.6915271435819381,
+      "grad_norm": 6.25,
+      "learning_rate": 7.7931123932006e-06,
+      "loss": 1.59119492,
+      "memory(GiB)": 111.15,
+      "step": 27260,
+      "train_speed(iter/s)": 0.44856
+    },
+    {
+      "acc": 0.64187422,
+      "epoch": 0.6916539827498731,
+      "grad_norm": 5.03125,
+      "learning_rate": 7.792242580185095e-06,
+      "loss": 1.61752701,
+      "memory(GiB)": 111.15,
+      "step": 27265,
+      "train_speed(iter/s)": 0.448603
+    },
+    {
+      "acc": 0.65111341,
+      "epoch": 0.6917808219178082,
+      "grad_norm": 7.84375,
+      "learning_rate": 7.791372644354295e-06,
+      "loss": 1.58319283,
+      "memory(GiB)": 111.15,
+      "step": 27270,
+      "train_speed(iter/s)": 0.448647
+    },
+    {
+      "acc": 0.64268608,
+      "epoch": 0.6919076610857433,
+      "grad_norm": 5.46875,
+      "learning_rate": 7.790502585746464e-06,
+      "loss": 1.65260468,
+      "memory(GiB)": 111.15,
+      "step": 27275,
+      "train_speed(iter/s)": 0.44869
+    },
+    {
+      "acc": 0.65899243,
+      "epoch": 0.6920345002536783,
+      "grad_norm": 5.3125,
+      "learning_rate": 7.789632404399872e-06,
+      "loss": 1.57038841,
+      "memory(GiB)": 111.15,
+      "step": 27280,
+      "train_speed(iter/s)": 0.448733
+    },
+    {
+      "acc": 0.64838166,
+      "epoch": 0.6921613394216134,
+      "grad_norm": 6.0625,
+      "learning_rate": 7.788762100352791e-06,
+      "loss": 1.62661648,
+      "memory(GiB)": 111.15,
+      "step": 27285,
+      "train_speed(iter/s)": 0.448776
+    },
+    {
+      "acc": 0.66353436,
+      "epoch": 0.6922881785895485,
+      "grad_norm": 5.09375,
+      "learning_rate": 7.787891673643501e-06,
+      "loss": 1.59445438,
+      "memory(GiB)": 111.15,
+      "step": 27290,
+      "train_speed(iter/s)": 0.448818
+    },
+    {
+      "acc": 0.64245696,
+      "epoch": 0.6924150177574835,
+      "grad_norm": 5.96875,
+      "learning_rate": 7.78702112431029e-06,
+      "loss": 1.65724201,
+      "memory(GiB)": 111.15,
+      "step": 27295,
+      "train_speed(iter/s)": 0.448862
+    },
+    {
+      "acc": 0.65120373,
+      "epoch": 0.6925418569254186,
+      "grad_norm": 5.34375,
+      "learning_rate": 7.786150452391446e-06,
+      "loss": 1.59369106,
+      "memory(GiB)": 111.15,
+      "step": 27300,
+      "train_speed(iter/s)": 0.448905
+    },
+    {
+      "epoch": 0.6925418569254186,
+      "eval_acc": 0.6423878409660118,
+      "eval_loss": 1.612882375717163,
+      "eval_runtime": 114.6265,
+      "eval_samples_per_second": 55.572,
+      "eval_steps_per_second": 27.786,
+      "step": 27300
+    },
+    {
+      "acc": 0.66089926,
+      "epoch": 0.6926686960933536,
+      "grad_norm": 5.34375,
+      "learning_rate": 7.785279657925265e-06,
+      "loss": 1.57625294,
+      "memory(GiB)": 111.15,
+      "step": 27305,
+      "train_speed(iter/s)": 0.44807
+    },
+    {
+      "acc": 0.6380579,
+      "epoch": 0.6927955352612887,
+      "grad_norm": 4.875,
+      "learning_rate": 7.784408740950051e-06,
+      "loss": 1.65558128,
+      "memory(GiB)": 111.15,
+      "step": 27310,
+      "train_speed(iter/s)": 0.448113
+    },
+    {
+      "acc": 0.66649084,
+      "epoch": 0.6929223744292238,
+      "grad_norm": 5.71875,
+      "learning_rate": 7.783537701504109e-06,
+      "loss": 1.60381908,
+      "memory(GiB)": 111.15,
+      "step": 27315,
+      "train_speed(iter/s)": 0.448156
+    },
+    {
+      "acc": 0.65498495,
+      "epoch": 0.6930492135971588,
+      "grad_norm": 5.03125,
+      "learning_rate": 7.782666539625749e-06,
+      "loss": 1.6545229,
+      "memory(GiB)": 111.15,
+      "step": 27320,
+      "train_speed(iter/s)": 0.448199
+    },
+    {
+      "acc": 0.6586226,
+      "epoch": 0.6931760527650939,
+      "grad_norm": 5.78125,
+      "learning_rate": 7.781795255353293e-06,
+      "loss": 1.57397137,
+      "memory(GiB)": 111.15,
+      "step": 27325,
+      "train_speed(iter/s)": 0.448242
+    },
+    {
+      "acc": 0.66413288,
+      "epoch": 0.693302891933029,
+      "grad_norm": 5.4375,
+      "learning_rate": 7.780923848725061e-06,
+      "loss": 1.58822441,
+      "memory(GiB)": 111.15,
+      "step": 27330,
+      "train_speed(iter/s)": 0.448285
+    },
+    {
+      "acc": 0.64076443,
+      "epoch": 0.693429731100964,
+      "grad_norm": 4.90625,
+      "learning_rate": 7.780052319779382e-06,
+      "loss": 1.61288414,
+      "memory(GiB)": 111.15,
+      "step": 27335,
+      "train_speed(iter/s)": 0.448328
+    },
+    {
+      "acc": 0.64450464,
+      "epoch": 0.693556570268899,
+      "grad_norm": 4.9375,
+      "learning_rate": 7.779180668554591e-06,
+      "loss": 1.69561844,
+      "memory(GiB)": 111.15,
+      "step": 27340,
+      "train_speed(iter/s)": 0.448371
+    },
+    {
+      "acc": 0.66133704,
+      "epoch": 0.693683409436834,
+      "grad_norm": 5.125,
+      "learning_rate": 7.778308895089024e-06,
+      "loss": 1.58780937,
+      "memory(GiB)": 111.15,
+      "step": 27345,
+      "train_speed(iter/s)": 0.448415
+    },
+    {
+      "acc": 0.66322408,
+      "epoch": 0.6938102486047691,
+      "grad_norm": 5.3125,
+      "learning_rate": 7.77743699942103e-06,
+      "loss": 1.59558506,
+      "memory(GiB)": 111.15,
+      "step": 27350,
+      "train_speed(iter/s)": 0.448458
+    },
+    {
+      "acc": 0.66435289,
+      "epoch": 0.6939370877727042,
+      "grad_norm": 5.71875,
+      "learning_rate": 7.776564981588955e-06,
+      "loss": 1.59251385,
+      "memory(GiB)": 111.15,
+      "step": 27355,
+      "train_speed(iter/s)": 0.448502
+    },
+    {
+      "acc": 0.64788933,
+      "epoch": 0.6940639269406392,
+      "grad_norm": 6.1875,
+      "learning_rate": 7.775692841631154e-06,
+      "loss": 1.72122841,
+      "memory(GiB)": 111.15,
+      "step": 27360,
+      "train_speed(iter/s)": 0.448545
+    },
+    {
+      "acc": 0.64346743,
+      "epoch": 0.6941907661085743,
+      "grad_norm": 4.15625,
+      "learning_rate": 7.774820579585993e-06,
+      "loss": 1.64558296,
+      "memory(GiB)": 111.15,
+      "step": 27365,
+      "train_speed(iter/s)": 0.448588
+    },
+    {
+      "acc": 0.65252762,
+      "epoch": 0.6943176052765094,
+      "grad_norm": 5.0625,
+      "learning_rate": 7.773948195491831e-06,
+      "loss": 1.58605566,
+      "memory(GiB)": 111.15,
+      "step": 27370,
+      "train_speed(iter/s)": 0.448632
+    },
+    {
+      "acc": 0.64322672,
+      "epoch": 0.6944444444444444,
+      "grad_norm": 5.5625,
+      "learning_rate": 7.773075689387044e-06,
+      "loss": 1.70017815,
+      "memory(GiB)": 111.15,
+      "step": 27375,
+      "train_speed(iter/s)": 0.448676
+    },
+    {
+      "acc": 0.6585835,
+      "epoch": 0.6945712836123795,
+      "grad_norm": 6.28125,
+      "learning_rate": 7.772203061310008e-06,
+      "loss": 1.60125523,
+      "memory(GiB)": 111.15,
+      "step": 27380,
+      "train_speed(iter/s)": 0.448719
+    },
+    {
+      "acc": 0.64209185,
+      "epoch": 0.6946981227803145,
+      "grad_norm": 5.15625,
+      "learning_rate": 7.771330311299104e-06,
+      "loss": 1.72223206,
+      "memory(GiB)": 111.15,
+      "step": 27385,
+      "train_speed(iter/s)": 0.448763
+    },
+    {
+      "acc": 0.64728494,
+      "epoch": 0.6948249619482496,
+      "grad_norm": 4.5625,
+      "learning_rate": 7.770457439392719e-06,
+      "loss": 1.66091709,
+      "memory(GiB)": 111.15,
+      "step": 27390,
+      "train_speed(iter/s)": 0.448806
+    },
+    {
+      "acc": 0.63640733,
+      "epoch": 0.6949518011161847,
+      "grad_norm": 4.71875,
+      "learning_rate": 7.769584445629247e-06,
+      "loss": 1.73308144,
+      "memory(GiB)": 111.15,
+      "step": 27395,
+      "train_speed(iter/s)": 0.448848
+    },
+    {
+      "acc": 0.64614906,
+      "epoch": 0.6950786402841197,
+      "grad_norm": 6.375,
+      "learning_rate": 7.768711330047087e-06,
+      "loss": 1.61098747,
+      "memory(GiB)": 111.15,
+      "step": 27400,
+      "train_speed(iter/s)": 0.448892
+    },
+    {
+      "epoch": 0.6950786402841197,
+      "eval_acc": 0.6423740546447996,
+      "eval_loss": 1.6128815412521362,
+      "eval_runtime": 113.7269,
+      "eval_samples_per_second": 56.011,
+      "eval_steps_per_second": 28.006,
+      "step": 27400
+    },
+    {
+      "acc": 0.65466757,
+      "epoch": 0.6952054794520548,
+      "grad_norm": 5.53125,
+      "learning_rate": 7.767838092684638e-06,
+      "loss": 1.65315247,
+      "memory(GiB)": 111.15,
+      "step": 27405,
+      "train_speed(iter/s)": 0.448067
+    },
+    {
+      "acc": 0.66523895,
+      "epoch": 0.6953323186199899,
+      "grad_norm": 4.09375,
+      "learning_rate": 7.766964733580316e-06,
+      "loss": 1.53610964,
+      "memory(GiB)": 111.15,
+      "step": 27410,
+      "train_speed(iter/s)": 0.448109
+    },
+    {
+      "acc": 0.65682898,
+      "epoch": 0.6954591577879249,
+      "grad_norm": 4.8125,
+      "learning_rate": 7.76609125277253e-06,
+      "loss": 1.61778183,
+      "memory(GiB)": 111.15,
+      "step": 27415,
+      "train_speed(iter/s)": 0.448153
+    },
+    {
+      "acc": 0.64641399,
+      "epoch": 0.69558599695586,
+      "grad_norm": 7.5,
+      "learning_rate": 7.7652176502997e-06,
+      "loss": 1.60407753,
+      "memory(GiB)": 111.15,
+      "step": 27420,
+      "train_speed(iter/s)": 0.448195
+    },
+    {
+      "acc": 0.66008792,
+      "epoch": 0.695712836123795,
+      "grad_norm": 5.34375,
+      "learning_rate": 7.764343926200254e-06,
+      "loss": 1.55034218,
+      "memory(GiB)": 111.15,
+      "step": 27425,
+      "train_speed(iter/s)": 0.448238
+    },
+    {
+      "acc": 0.64974041,
+      "epoch": 0.6958396752917301,
+      "grad_norm": 5.03125,
+      "learning_rate": 7.763470080512617e-06,
+      "loss": 1.6393898,
+      "memory(GiB)": 111.15,
+      "step": 27430,
+      "train_speed(iter/s)": 0.448281
+    },
+    {
+      "acc": 0.64724865,
+      "epoch": 0.6959665144596652,
+      "grad_norm": 6.46875,
+      "learning_rate": 7.762596113275229e-06,
+      "loss": 1.62379246,
+      "memory(GiB)": 111.15,
+      "step": 27435,
+      "train_speed(iter/s)": 0.448324
+    },
+    {
+      "acc": 0.64981194,
+      "epoch": 0.6960933536276002,
+      "grad_norm": 6.59375,
+      "learning_rate": 7.761722024526533e-06,
+      "loss": 1.66894455,
+      "memory(GiB)": 111.15,
+      "step": 27440,
+      "train_speed(iter/s)": 0.448368
+    },
+    {
+      "acc": 0.65776367,
+      "epoch": 0.6962201927955353,
+      "grad_norm": 5.09375,
+      "learning_rate": 7.760847814304969e-06,
+      "loss": 1.62574844,
+      "memory(GiB)": 111.15,
+      "step": 27445,
+      "train_speed(iter/s)": 0.448411
+    },
+    {
+      "acc": 0.64897532,
+      "epoch": 0.6963470319634704,
+      "grad_norm": 8.5625,
+      "learning_rate": 7.759973482648992e-06,
+      "loss": 1.6074688,
+      "memory(GiB)": 111.15,
+      "step": 27450,
+      "train_speed(iter/s)": 0.448454
+    },
+    {
+      "acc": 0.64874029,
+      "epoch": 0.6964738711314054,
+      "grad_norm": 4.65625,
+      "learning_rate": 7.75909902959706e-06,
+      "loss": 1.67528343,
+      "memory(GiB)": 111.15,
+      "step": 27455,
+      "train_speed(iter/s)": 0.448497
+    },
+    {
+      "acc": 0.63151455,
+      "epoch": 0.6966007102993405,
+      "grad_norm": 5.125,
+      "learning_rate": 7.758224455187632e-06,
+      "loss": 1.69375534,
+      "memory(GiB)": 111.15,
+      "step": 27460,
+      "train_speed(iter/s)": 0.44854
+    },
+    {
+      "acc": 0.64292421,
+      "epoch": 0.6967275494672754,
+      "grad_norm": 5.4375,
+      "learning_rate": 7.75734975945918e-06,
+      "loss": 1.70451317,
+      "memory(GiB)": 111.15,
+      "step": 27465,
+      "train_speed(iter/s)": 0.448583
+    },
+    {
+      "acc": 0.64648781,
+      "epoch": 0.6968543886352105,
+      "grad_norm": 6.1875,
+      "learning_rate": 7.756474942450174e-06,
+      "loss": 1.65056171,
+      "memory(GiB)": 111.15,
+      "step": 27470,
+      "train_speed(iter/s)": 0.448626
+    },
+    {
+      "acc": 0.6621109,
+      "epoch": 0.6969812278031456,
+      "grad_norm": 6.21875,
+      "learning_rate": 7.755600004199094e-06,
+      "loss": 1.57999783,
+      "memory(GiB)": 111.15,
+      "step": 27475,
+      "train_speed(iter/s)": 0.448669
+    },
+    {
+      "acc": 0.65615435,
+      "epoch": 0.6971080669710806,
+      "grad_norm": 5.84375,
+      "learning_rate": 7.754724944744423e-06,
+      "loss": 1.63501034,
+      "memory(GiB)": 111.15,
+      "step": 27480,
+      "train_speed(iter/s)": 0.448712
+    },
+    {
+      "acc": 0.65436749,
+      "epoch": 0.6972349061390157,
+      "grad_norm": 5.6875,
+      "learning_rate": 7.753849764124648e-06,
+      "loss": 1.6761858,
+      "memory(GiB)": 111.15,
+      "step": 27485,
+      "train_speed(iter/s)": 0.448755
+    },
+    {
+      "acc": 0.64499607,
+      "epoch": 0.6973617453069508,
+      "grad_norm": 5.4375,
+      "learning_rate": 7.752974462378268e-06,
+      "loss": 1.68089008,
+      "memory(GiB)": 111.15,
+      "step": 27490,
+      "train_speed(iter/s)": 0.448798
+    },
+    {
+      "acc": 0.64656434,
+      "epoch": 0.6974885844748858,
+      "grad_norm": 4.71875,
+      "learning_rate": 7.752099039543778e-06,
+      "loss": 1.64931545,
+      "memory(GiB)": 111.15,
+      "step": 27495,
+      "train_speed(iter/s)": 0.448841
+    },
+    {
+      "acc": 0.64883447,
+      "epoch": 0.6976154236428209,
+      "grad_norm": 5.21875,
+      "learning_rate": 7.751223495659685e-06,
+      "loss": 1.59872494,
+      "memory(GiB)": 111.15,
+      "step": 27500,
+      "train_speed(iter/s)": 0.448885
+    },
+    {
+      "epoch": 0.6976154236428209,
+      "eval_acc": 0.6424300354642669,
+      "eval_loss": 1.613012671470642,
+      "eval_runtime": 113.4648,
+      "eval_samples_per_second": 56.141,
+      "eval_steps_per_second": 28.07,
+      "step": 27500
+    },
+    {
+      "acc": 0.65321102,
+      "epoch": 0.6977422628107559,
+      "grad_norm": 4.8125,
+      "learning_rate": 7.7503478307645e-06,
+      "loss": 1.62668114,
+      "memory(GiB)": 111.15,
+      "step": 27505,
+      "train_speed(iter/s)": 0.448064
+    },
+    {
+      "acc": 0.6624752,
+      "epoch": 0.697869101978691,
+      "grad_norm": 4.96875,
+      "learning_rate": 7.74947204489674e-06,
+      "loss": 1.58785324,
+      "memory(GiB)": 111.15,
+      "step": 27510,
+      "train_speed(iter/s)": 0.448107
+    },
+    {
+      "acc": 0.64432735,
+      "epoch": 0.6979959411466261,
+      "grad_norm": 5.625,
+      "learning_rate": 7.748596138094922e-06,
+      "loss": 1.69139557,
+      "memory(GiB)": 111.15,
+      "step": 27515,
+      "train_speed(iter/s)": 0.44815
+    },
+    {
+      "acc": 0.62034159,
+      "epoch": 0.6981227803145611,
+      "grad_norm": 5.8125,
+      "learning_rate": 7.747720110397573e-06,
+      "loss": 1.68548203,
+      "memory(GiB)": 111.15,
+      "step": 27520,
+      "train_speed(iter/s)": 0.448193
+    },
+    {
+      "acc": 0.65265794,
+      "epoch": 0.6982496194824962,
+      "grad_norm": 5.25,
+      "learning_rate": 7.746843961843226e-06,
+      "loss": 1.68045044,
+      "memory(GiB)": 111.15,
+      "step": 27525,
+      "train_speed(iter/s)": 0.448236
+    },
+    {
+      "acc": 0.66274924,
+      "epoch": 0.6983764586504313,
+      "grad_norm": 5.1875,
+      "learning_rate": 7.74596769247042e-06,
+      "loss": 1.58748817,
+      "memory(GiB)": 111.15,
+      "step": 27530,
+      "train_speed(iter/s)": 0.448279
+    },
+    {
+      "acc": 0.65341997,
+      "epoch": 0.6985032978183663,
+      "grad_norm": 5.59375,
+      "learning_rate": 7.745091302317694e-06,
+      "loss": 1.61613235,
+      "memory(GiB)": 111.15,
+      "step": 27535,
+      "train_speed(iter/s)": 0.448323
+    },
+    {
+      "acc": 0.65679498,
+      "epoch": 0.6986301369863014,
+      "grad_norm": 5.65625,
+      "learning_rate": 7.744214791423597e-06,
+      "loss": 1.65667725,
+      "memory(GiB)": 111.15,
+      "step": 27540,
+      "train_speed(iter/s)": 0.448367
+    },
+    {
+      "acc": 0.63040023,
+      "epoch": 0.6987569761542364,
+      "grad_norm": 5.34375,
+      "learning_rate": 7.74333815982668e-06,
+      "loss": 1.670965,
+      "memory(GiB)": 111.15,
+      "step": 27545,
+      "train_speed(iter/s)": 0.44841
+    },
+    {
+      "acc": 0.64400167,
+      "epoch": 0.6988838153221715,
+      "grad_norm": 4.875,
+      "learning_rate": 7.742461407565504e-06,
+      "loss": 1.61446953,
+      "memory(GiB)": 111.15,
+      "step": 27550,
+      "train_speed(iter/s)": 0.448454
+    },
+    {
+      "acc": 0.65236917,
+      "epoch": 0.6990106544901066,
+      "grad_norm": 4.84375,
+      "learning_rate": 7.741584534678632e-06,
+      "loss": 1.64871922,
+      "memory(GiB)": 111.15,
+      "step": 27555,
+      "train_speed(iter/s)": 0.448497
+    },
+    {
+      "acc": 0.65684319,
+      "epoch": 0.6991374936580416,
+      "grad_norm": 4.78125,
+      "learning_rate": 7.74070754120463e-06,
+      "loss": 1.6314106,
+      "memory(GiB)": 111.15,
+      "step": 27560,
+      "train_speed(iter/s)": 0.44854
+    },
+    {
+      "acc": 0.65072422,
+      "epoch": 0.6992643328259767,
+      "grad_norm": 5.3125,
+      "learning_rate": 7.739830427182073e-06,
+      "loss": 1.66485519,
+      "memory(GiB)": 111.15,
+      "step": 27565,
+      "train_speed(iter/s)": 0.448584
+    },
+    {
+      "acc": 0.65733271,
+      "epoch": 0.6993911719939118,
+      "grad_norm": 5.71875,
+      "learning_rate": 7.738953192649544e-06,
+      "loss": 1.63601112,
+      "memory(GiB)": 111.15,
+      "step": 27570,
+      "train_speed(iter/s)": 0.448627
+    },
+    {
+      "acc": 0.64282942,
+      "epoch": 0.6995180111618468,
+      "grad_norm": 5.1875,
+      "learning_rate": 7.738075837645625e-06,
+      "loss": 1.63813763,
+      "memory(GiB)": 111.15,
+      "step": 27575,
+      "train_speed(iter/s)": 0.448671
+    },
+    {
+      "acc": 0.65217743,
+      "epoch": 0.6996448503297819,
+      "grad_norm": 5.90625,
+      "learning_rate": 7.737198362208904e-06,
+      "loss": 1.65303917,
+      "memory(GiB)": 111.15,
+      "step": 27580,
+      "train_speed(iter/s)": 0.448714
+    },
+    {
+      "acc": 0.65220785,
+      "epoch": 0.6997716894977168,
+      "grad_norm": 5.71875,
+      "learning_rate": 7.736320766377978e-06,
+      "loss": 1.689048,
+      "memory(GiB)": 111.15,
+      "step": 27585,
+      "train_speed(iter/s)": 0.448757
+    },
+    {
+      "acc": 0.63506594,
+      "epoch": 0.6998985286656519,
+      "grad_norm": 5.09375,
+      "learning_rate": 7.735443050191452e-06,
+      "loss": 1.59329052,
+      "memory(GiB)": 111.15,
+      "step": 27590,
+      "train_speed(iter/s)": 0.4488
+    },
+    {
+      "acc": 0.64802408,
+      "epoch": 0.700025367833587,
+      "grad_norm": 4.75,
+      "learning_rate": 7.734565213687923e-06,
+      "loss": 1.58202076,
+      "memory(GiB)": 111.15,
+      "step": 27595,
+      "train_speed(iter/s)": 0.448843
+    },
+    {
+      "acc": 0.64828405,
+      "epoch": 0.700152207001522,
+      "grad_norm": 4.71875,
+      "learning_rate": 7.733687256906009e-06,
+      "loss": 1.65334358,
+      "memory(GiB)": 111.15,
+      "step": 27600,
+      "train_speed(iter/s)": 0.448887
+    },
+    {
+      "epoch": 0.700152207001522,
+      "eval_acc": 0.6423769790159658,
+      "eval_loss": 1.612640380859375,
+      "eval_runtime": 112.9447,
+      "eval_samples_per_second": 56.399,
+      "eval_steps_per_second": 28.2,
+      "step": 27600
+    },
+    {
+      "acc": 0.65701203,
+      "epoch": 0.7002790461694571,
+      "grad_norm": 4.65625,
+      "learning_rate": 7.732809179884324e-06,
+      "loss": 1.61926041,
+      "memory(GiB)": 111.15,
+      "step": 27605,
+      "train_speed(iter/s)": 0.448073
+    },
+    {
+      "acc": 0.65285063,
+      "epoch": 0.7004058853373922,
+      "grad_norm": 5.71875,
+      "learning_rate": 7.73193098266149e-06,
+      "loss": 1.60494995,
+      "memory(GiB)": 111.15,
+      "step": 27610,
+      "train_speed(iter/s)": 0.448117
+    },
+    {
+      "acc": 0.63638062,
+      "epoch": 0.7005327245053272,
+      "grad_norm": 6.40625,
+      "learning_rate": 7.731052665276135e-06,
+      "loss": 1.68978424,
+      "memory(GiB)": 111.15,
+      "step": 27615,
+      "train_speed(iter/s)": 0.44816
+    },
+    {
+      "acc": 0.6664186,
+      "epoch": 0.7006595636732623,
+      "grad_norm": 5.96875,
+      "learning_rate": 7.730174227766892e-06,
+      "loss": 1.61118469,
+      "memory(GiB)": 111.15,
+      "step": 27620,
+      "train_speed(iter/s)": 0.448203
+    },
+    {
+      "acc": 0.65710602,
+      "epoch": 0.7007864028411973,
+      "grad_norm": 6.09375,
+      "learning_rate": 7.729295670172394e-06,
+      "loss": 1.61265182,
+      "memory(GiB)": 111.15,
+      "step": 27625,
+      "train_speed(iter/s)": 0.448246
+    },
+    {
+      "acc": 0.65566854,
+      "epoch": 0.7009132420091324,
+      "grad_norm": 5.875,
+      "learning_rate": 7.728416992531287e-06,
+      "loss": 1.62226486,
+      "memory(GiB)": 111.15,
+      "step": 27630,
+      "train_speed(iter/s)": 0.448289
+    },
+    {
+      "acc": 0.64823942,
+      "epoch": 0.7010400811770675,
+      "grad_norm": 6.03125,
+      "learning_rate": 7.72753819488222e-06,
+      "loss": 1.65574074,
+      "memory(GiB)": 111.15,
+      "step": 27635,
+      "train_speed(iter/s)": 0.448332
+    },
+    {
+      "acc": 0.65435743,
+      "epoch": 0.7011669203450025,
+      "grad_norm": 4.875,
+      "learning_rate": 7.726659277263848e-06,
+      "loss": 1.59657249,
+      "memory(GiB)": 111.15,
+      "step": 27640,
+      "train_speed(iter/s)": 0.448375
+    },
+    {
+      "acc": 0.64979696,
+      "epoch": 0.7012937595129376,
+      "grad_norm": 8.625,
+      "learning_rate": 7.725780239714824e-06,
+      "loss": 1.66448498,
+      "memory(GiB)": 111.15,
+      "step": 27645,
+      "train_speed(iter/s)": 0.448418
+    },
+    {
+      "acc": 0.64664135,
+      "epoch": 0.7014205986808727,
+      "grad_norm": 5.34375,
+      "learning_rate": 7.724901082273817e-06,
+      "loss": 1.60405827,
+      "memory(GiB)": 111.15,
+      "step": 27650,
+      "train_speed(iter/s)": 0.44846
+    },
+    {
+      "acc": 0.65254378,
+      "epoch": 0.7015474378488077,
+      "grad_norm": 5.875,
+      "learning_rate": 7.724021804979493e-06,
+      "loss": 1.63061714,
+      "memory(GiB)": 111.15,
+      "step": 27655,
+      "train_speed(iter/s)": 0.448503
+    },
+    {
+      "acc": 0.65203714,
+      "epoch": 0.7016742770167428,
+      "grad_norm": 4.9375,
+      "learning_rate": 7.723142407870532e-06,
+      "loss": 1.63688908,
+      "memory(GiB)": 111.15,
+      "step": 27660,
+      "train_speed(iter/s)": 0.448546
+    },
+    {
+      "acc": 0.66981001,
+      "epoch": 0.7018011161846778,
+      "grad_norm": 5.15625,
+      "learning_rate": 7.722262890985605e-06,
+      "loss": 1.65540314,
+      "memory(GiB)": 111.15,
+      "step": 27665,
+      "train_speed(iter/s)": 0.448589
+    },
+    {
+      "acc": 0.64271383,
+      "epoch": 0.7019279553526129,
+      "grad_norm": 5.3125,
+      "learning_rate": 7.721383254363407e-06,
+      "loss": 1.65850601,
+      "memory(GiB)": 111.15,
+      "step": 27670,
+      "train_speed(iter/s)": 0.448632
+    },
+    {
+      "acc": 0.6683012,
+      "epoch": 0.702054794520548,
+      "grad_norm": 5.03125,
+      "learning_rate": 7.72050349804262e-06,
+      "loss": 1.54100981,
+      "memory(GiB)": 111.15,
+      "step": 27675,
+      "train_speed(iter/s)": 0.448674
+    },
+    {
+      "acc": 0.65183206,
+      "epoch": 0.702181633688483,
+      "grad_norm": 4.90625,
+      "learning_rate": 7.719623622061943e-06,
+      "loss": 1.59268093,
+      "memory(GiB)": 111.15,
+      "step": 27680,
+      "train_speed(iter/s)": 0.448717
+    },
+    {
+      "acc": 0.63978047,
+      "epoch": 0.7023084728564181,
+      "grad_norm": 5.34375,
+      "learning_rate": 7.718743626460076e-06,
+      "loss": 1.68547707,
+      "memory(GiB)": 111.15,
+      "step": 27685,
+      "train_speed(iter/s)": 0.44876
+    },
+    {
+      "acc": 0.66569538,
+      "epoch": 0.7024353120243532,
+      "grad_norm": 5.0,
+      "learning_rate": 7.71786351127573e-06,
+      "loss": 1.56865406,
+      "memory(GiB)": 111.15,
+      "step": 27690,
+      "train_speed(iter/s)": 0.448802
+    },
+    {
+      "acc": 0.64319062,
+      "epoch": 0.7025621511922882,
+      "grad_norm": 5.5,
+      "learning_rate": 7.71698327654761e-06,
+      "loss": 1.62170734,
+      "memory(GiB)": 111.15,
+      "step": 27695,
+      "train_speed(iter/s)": 0.448845
+    },
+    {
+      "acc": 0.64652147,
+      "epoch": 0.7026889903602233,
+      "grad_norm": 5.65625,
+      "learning_rate": 7.716102922314435e-06,
+      "loss": 1.62374401,
+      "memory(GiB)": 111.15,
+      "step": 27700,
+      "train_speed(iter/s)": 0.448887
+    },
+    {
+      "epoch": 0.7026889903602233,
+      "eval_acc": 0.6424655456855708,
+      "eval_loss": 1.6128194332122803,
+      "eval_runtime": 113.0536,
+      "eval_samples_per_second": 56.345,
+      "eval_steps_per_second": 28.172,
+      "step": 27700
+    },
+    {
+      "acc": 0.62849774,
+      "epoch": 0.7028158295281582,
+      "grad_norm": 5.4375,
+      "learning_rate": 7.715222448614926e-06,
+      "loss": 1.71739712,
+      "memory(GiB)": 111.15,
+      "step": 27705,
+      "train_speed(iter/s)": 0.448076
+    },
+    {
+      "acc": 0.65747905,
+      "epoch": 0.7029426686960933,
+      "grad_norm": 6.4375,
+      "learning_rate": 7.714341855487812e-06,
+      "loss": 1.63962307,
+      "memory(GiB)": 111.15,
+      "step": 27710,
+      "train_speed(iter/s)": 0.448119
+    },
+    {
+      "acc": 0.64330645,
+      "epoch": 0.7030695078640284,
+      "grad_norm": 4.875,
+      "learning_rate": 7.713461142971824e-06,
+      "loss": 1.62593231,
+      "memory(GiB)": 111.15,
+      "step": 27715,
+      "train_speed(iter/s)": 0.448161
+    },
+    {
+      "acc": 0.6624094,
+      "epoch": 0.7031963470319634,
+      "grad_norm": 5.25,
+      "learning_rate": 7.712580311105701e-06,
+      "loss": 1.60742302,
+      "memory(GiB)": 111.15,
+      "step": 27720,
+      "train_speed(iter/s)": 0.448204
+    },
+    {
+      "acc": 0.65381608,
+      "epoch": 0.7033231861998985,
+      "grad_norm": 4.96875,
+      "learning_rate": 7.711699359928184e-06,
+      "loss": 1.54453707,
+      "memory(GiB)": 111.15,
+      "step": 27725,
+      "train_speed(iter/s)": 0.448247
+    },
+    {
+      "acc": 0.65976238,
+      "epoch": 0.7034500253678336,
+      "grad_norm": 6.15625,
+      "learning_rate": 7.710818289478024e-06,
+      "loss": 1.60643024,
+      "memory(GiB)": 111.15,
+      "step": 27730,
+      "train_speed(iter/s)": 0.44829
+    },
+    {
+      "acc": 0.64964495,
+      "epoch": 0.7035768645357686,
+      "grad_norm": 5.15625,
+      "learning_rate": 7.709937099793971e-06,
+      "loss": 1.63145523,
+      "memory(GiB)": 111.15,
+      "step": 27735,
+      "train_speed(iter/s)": 0.448333
+    },
+    {
+      "acc": 0.6379662,
+      "epoch": 0.7037037037037037,
+      "grad_norm": 6.0,
+      "learning_rate": 7.709055790914787e-06,
+      "loss": 1.64742413,
+      "memory(GiB)": 111.15,
+      "step": 27740,
+      "train_speed(iter/s)": 0.448376
+    },
+    {
+      "acc": 0.65004673,
+      "epoch": 0.7038305428716387,
+      "grad_norm": 5.59375,
+      "learning_rate": 7.708174362879234e-06,
+      "loss": 1.63490238,
+      "memory(GiB)": 111.15,
+      "step": 27745,
+      "train_speed(iter/s)": 0.448419
+    },
+    {
+      "acc": 0.64052091,
+      "epoch": 0.7039573820395738,
+      "grad_norm": 5.21875,
+      "learning_rate": 7.70729281572608e-06,
+      "loss": 1.68704548,
+      "memory(GiB)": 111.15,
+      "step": 27750,
+      "train_speed(iter/s)": 0.448461
+    },
+    {
+      "acc": 0.63486443,
+      "epoch": 0.7040842212075089,
+      "grad_norm": 5.09375,
+      "learning_rate": 7.706411149494102e-06,
+      "loss": 1.69436321,
+      "memory(GiB)": 111.15,
+      "step": 27755,
+      "train_speed(iter/s)": 0.448504
+    },
+    {
+      "acc": 0.65157528,
+      "epoch": 0.7042110603754439,
+      "grad_norm": 5.84375,
+      "learning_rate": 7.705529364222079e-06,
+      "loss": 1.67440033,
+      "memory(GiB)": 111.15,
+      "step": 27760,
+      "train_speed(iter/s)": 0.448548
+    },
+    {
+      "acc": 0.65212708,
+      "epoch": 0.704337899543379,
+      "grad_norm": 5.8125,
+      "learning_rate": 7.704647459948793e-06,
+      "loss": 1.59622679,
+      "memory(GiB)": 111.15,
+      "step": 27765,
+      "train_speed(iter/s)": 0.448591
+    },
+    {
+      "acc": 0.6448103,
+      "epoch": 0.7044647387113141,
+      "grad_norm": 5.15625,
+      "learning_rate": 7.703765436713038e-06,
+      "loss": 1.62515888,
+      "memory(GiB)": 111.15,
+      "step": 27770,
+      "train_speed(iter/s)": 0.448634
+    },
+    {
+      "acc": 0.66771221,
+      "epoch": 0.7045915778792491,
+      "grad_norm": 5.71875,
+      "learning_rate": 7.702883294553607e-06,
+      "loss": 1.57454319,
+      "memory(GiB)": 111.15,
+      "step": 27775,
+      "train_speed(iter/s)": 0.448676
+    },
+    {
+      "acc": 0.65548706,
+      "epoch": 0.7047184170471842,
+      "grad_norm": 4.9375,
+      "learning_rate": 7.702001033509302e-06,
+      "loss": 1.55681686,
+      "memory(GiB)": 111.15,
+      "step": 27780,
+      "train_speed(iter/s)": 0.448719
+    },
+    {
+      "acc": 0.63695726,
+      "epoch": 0.7048452562151192,
+      "grad_norm": 4.46875,
+      "learning_rate": 7.701118653618927e-06,
+      "loss": 1.65198708,
+      "memory(GiB)": 111.15,
+      "step": 27785,
+      "train_speed(iter/s)": 0.448762
+    },
+    {
+      "acc": 0.63980789,
+      "epoch": 0.7049720953830543,
+      "grad_norm": 5.5,
+      "learning_rate": 7.700236154921294e-06,
+      "loss": 1.62068043,
+      "memory(GiB)": 111.15,
+      "step": 27790,
+      "train_speed(iter/s)": 0.448805
+    },
+    {
+      "acc": 0.64066372,
+      "epoch": 0.7050989345509894,
+      "grad_norm": 4.78125,
+      "learning_rate": 7.699353537455222e-06,
+      "loss": 1.66257553,
+      "memory(GiB)": 111.15,
+      "step": 27795,
+      "train_speed(iter/s)": 0.448847
+    },
+    {
+      "acc": 0.64247928,
+      "epoch": 0.7052257737189244,
+      "grad_norm": 4.9375,
+      "learning_rate": 7.698470801259526e-06,
+      "loss": 1.69301281,
+      "memory(GiB)": 111.15,
+      "step": 27800,
+      "train_speed(iter/s)": 0.44889
+    },
+    {
+      "epoch": 0.7052257737189244,
+      "eval_acc": 0.642561632166746,
+      "eval_loss": 1.6123883724212646,
+      "eval_runtime": 113.381,
+      "eval_samples_per_second": 56.182,
+      "eval_steps_per_second": 28.091,
+      "step": 27800
+    },
+    {
+      "acc": 0.65677185,
+      "epoch": 0.7053526128868595,
+      "grad_norm": 5.3125,
+      "learning_rate": 7.697587946373037e-06,
+      "loss": 1.64699707,
+      "memory(GiB)": 111.15,
+      "step": 27805,
+      "train_speed(iter/s)": 0.44808
+    },
+    {
+      "acc": 0.64685812,
+      "epoch": 0.7054794520547946,
+      "grad_norm": 4.75,
+      "learning_rate": 7.696704972834589e-06,
+      "loss": 1.62361298,
+      "memory(GiB)": 111.15,
+      "step": 27810,
+      "train_speed(iter/s)": 0.448122
+    },
+    {
+      "acc": 0.65574903,
+      "epoch": 0.7056062912227296,
+      "grad_norm": 5.21875,
+      "learning_rate": 7.695821880683012e-06,
+      "loss": 1.63915443,
+      "memory(GiB)": 111.15,
+      "step": 27815,
+      "train_speed(iter/s)": 0.448164
+    },
+    {
+      "acc": 0.64726295,
+      "epoch": 0.7057331303906647,
+      "grad_norm": 5.96875,
+      "learning_rate": 7.694938669957156e-06,
+      "loss": 1.60624313,
+      "memory(GiB)": 111.15,
+      "step": 27820,
+      "train_speed(iter/s)": 0.448207
+    },
+    {
+      "acc": 0.65158129,
+      "epoch": 0.7058599695585996,
+      "grad_norm": 5.65625,
+      "learning_rate": 7.694055340695862e-06,
+      "loss": 1.60712566,
+      "memory(GiB)": 111.15,
+      "step": 27825,
+      "train_speed(iter/s)": 0.448249
+    },
+    {
+      "acc": 0.65932217,
+      "epoch": 0.7059868087265347,
+      "grad_norm": 6.46875,
+      "learning_rate": 7.693171892937991e-06,
+      "loss": 1.60267754,
+      "memory(GiB)": 111.15,
+      "step": 27830,
+      "train_speed(iter/s)": 0.448292
+    },
+    {
+      "acc": 0.64953151,
+      "epoch": 0.7061136478944698,
+      "grad_norm": 4.96875,
+      "learning_rate": 7.692288326722393e-06,
+      "loss": 1.66166725,
+      "memory(GiB)": 111.15,
+      "step": 27835,
+      "train_speed(iter/s)": 0.448334
+    },
+    {
+      "acc": 0.6479702,
+      "epoch": 0.7062404870624048,
+      "grad_norm": 5.6875,
+      "learning_rate": 7.691404642087933e-06,
+      "loss": 1.59075546,
+      "memory(GiB)": 111.15,
+      "step": 27840,
+      "train_speed(iter/s)": 0.448376
+    },
+    {
+      "acc": 0.66386023,
+      "epoch": 0.7063673262303399,
+      "grad_norm": 5.96875,
+      "learning_rate": 7.690520839073484e-06,
+      "loss": 1.60875931,
+      "memory(GiB)": 111.15,
+      "step": 27845,
+      "train_speed(iter/s)": 0.448418
+    },
+    {
+      "acc": 0.64657288,
+      "epoch": 0.706494165398275,
+      "grad_norm": 5.875,
+      "learning_rate": 7.689636917717913e-06,
+      "loss": 1.64208755,
+      "memory(GiB)": 111.15,
+      "step": 27850,
+      "train_speed(iter/s)": 0.448461
+    },
+    {
+      "acc": 0.65228872,
+      "epoch": 0.70662100456621,
+      "grad_norm": 5.125,
+      "learning_rate": 7.688752878060103e-06,
+      "loss": 1.64844742,
+      "memory(GiB)": 111.15,
+      "step": 27855,
+      "train_speed(iter/s)": 0.448503
+    },
+    {
+      "acc": 0.64434052,
+      "epoch": 0.7067478437341451,
+      "grad_norm": 4.78125,
+      "learning_rate": 7.687868720138939e-06,
+      "loss": 1.60672302,
+      "memory(GiB)": 111.15,
+      "step": 27860,
+      "train_speed(iter/s)": 0.448546
+    },
+    {
+      "acc": 0.65063162,
+      "epoch": 0.7068746829020801,
+      "grad_norm": 5.84375,
+      "learning_rate": 7.686984443993304e-06,
+      "loss": 1.6598362,
+      "memory(GiB)": 111.15,
+      "step": 27865,
+      "train_speed(iter/s)": 0.448589
+    },
+    {
+      "acc": 0.64606781,
+      "epoch": 0.7070015220700152,
+      "grad_norm": 5.28125,
+      "learning_rate": 7.6861000496621e-06,
+      "loss": 1.65954094,
+      "memory(GiB)": 111.15,
+      "step": 27870,
+      "train_speed(iter/s)": 0.448631
+    },
+    {
+      "acc": 0.65370607,
+      "epoch": 0.7071283612379503,
+      "grad_norm": 5.5625,
+      "learning_rate": 7.685215537184223e-06,
+      "loss": 1.68233528,
+      "memory(GiB)": 111.15,
+      "step": 27875,
+      "train_speed(iter/s)": 0.448674
+    },
+    {
+      "acc": 0.6516818,
+      "epoch": 0.7072552004058853,
+      "grad_norm": 5.71875,
+      "learning_rate": 7.684330906598577e-06,
+      "loss": 1.69651756,
+      "memory(GiB)": 111.15,
+      "step": 27880,
+      "train_speed(iter/s)": 0.448717
+    },
+    {
+      "acc": 0.66169562,
+      "epoch": 0.7073820395738204,
+      "grad_norm": 5.1875,
+      "learning_rate": 7.683446157944075e-06,
+      "loss": 1.60417862,
+      "memory(GiB)": 111.15,
+      "step": 27885,
+      "train_speed(iter/s)": 0.448759
+    },
+    {
+      "acc": 0.64415512,
+      "epoch": 0.7075088787417555,
+      "grad_norm": 5.4375,
+      "learning_rate": 7.682561291259628e-06,
+      "loss": 1.68880672,
+      "memory(GiB)": 111.15,
+      "step": 27890,
+      "train_speed(iter/s)": 0.448801
+    },
+    {
+      "acc": 0.64884696,
+      "epoch": 0.7076357179096905,
+      "grad_norm": 5.21875,
+      "learning_rate": 7.681676306584159e-06,
+      "loss": 1.60524559,
+      "memory(GiB)": 111.15,
+      "step": 27895,
+      "train_speed(iter/s)": 0.448843
+    },
+    {
+      "acc": 0.64571161,
+      "epoch": 0.7077625570776256,
+      "grad_norm": 5.78125,
+      "learning_rate": 7.680791203956594e-06,
+      "loss": 1.59074707,
+      "memory(GiB)": 111.15,
+      "step": 27900,
+      "train_speed(iter/s)": 0.448886
+    },
+    {
+      "epoch": 0.7077625570776256,
+      "eval_acc": 0.642483091912568,
+      "eval_loss": 1.6126298904418945,
+      "eval_runtime": 114.4726,
+      "eval_samples_per_second": 55.646,
+      "eval_steps_per_second": 27.823,
+      "step": 27900
+    },
+    {
+      "acc": 0.64305725,
+      "epoch": 0.7078893962455606,
+      "grad_norm": 5.53125,
+      "learning_rate": 7.679905983415861e-06,
+      "loss": 1.67776833,
+      "memory(GiB)": 111.15,
+      "step": 27905,
+      "train_speed(iter/s)": 0.44807
+    },
+    {
+      "acc": 0.65947766,
+      "epoch": 0.7080162354134957,
+      "grad_norm": 4.96875,
+      "learning_rate": 7.6790206450009e-06,
+      "loss": 1.64223366,
+      "memory(GiB)": 111.15,
+      "step": 27910,
+      "train_speed(iter/s)": 0.448112
+    },
+    {
+      "acc": 0.63835707,
+      "epoch": 0.7081430745814308,
+      "grad_norm": 5.125,
+      "learning_rate": 7.678135188750648e-06,
+      "loss": 1.6498661,
+      "memory(GiB)": 111.15,
+      "step": 27915,
+      "train_speed(iter/s)": 0.448154
+    },
+    {
+      "acc": 0.64710779,
+      "epoch": 0.7082699137493658,
+      "grad_norm": 5.21875,
+      "learning_rate": 7.677249614704057e-06,
+      "loss": 1.61492062,
+      "memory(GiB)": 111.15,
+      "step": 27920,
+      "train_speed(iter/s)": 0.448196
+    },
+    {
+      "acc": 0.66124034,
+      "epoch": 0.7083967529173009,
+      "grad_norm": 4.9375,
+      "learning_rate": 7.676363922900073e-06,
+      "loss": 1.58523006,
+      "memory(GiB)": 111.15,
+      "step": 27925,
+      "train_speed(iter/s)": 0.448238
+    },
+    {
+      "acc": 0.63368821,
+      "epoch": 0.708523592085236,
+      "grad_norm": 5.71875,
+      "learning_rate": 7.675478113377653e-06,
+      "loss": 1.70831585,
+      "memory(GiB)": 111.15,
+      "step": 27930,
+      "train_speed(iter/s)": 0.44828
+    },
+    {
+      "acc": 0.6531642,
+      "epoch": 0.708650431253171,
+      "grad_norm": 5.96875,
+      "learning_rate": 7.674592186175762e-06,
+      "loss": 1.57435207,
+      "memory(GiB)": 111.15,
+      "step": 27935,
+      "train_speed(iter/s)": 0.448322
+    },
+    {
+      "acc": 0.65839481,
+      "epoch": 0.708777270421106,
+      "grad_norm": 4.8125,
+      "learning_rate": 7.673706141333365e-06,
+      "loss": 1.54583817,
+      "memory(GiB)": 111.15,
+      "step": 27940,
+      "train_speed(iter/s)": 0.448364
+    },
+    {
+      "acc": 0.64479866,
+      "epoch": 0.708904109589041,
+      "grad_norm": 5.0625,
+      "learning_rate": 7.672819978889435e-06,
+      "loss": 1.65067425,
+      "memory(GiB)": 111.15,
+      "step": 27945,
+      "train_speed(iter/s)": 0.448407
+    },
+    {
+      "acc": 0.6499074,
+      "epoch": 0.7090309487569761,
+      "grad_norm": 5.9375,
+      "learning_rate": 7.67193369888295e-06,
+      "loss": 1.67257614,
+      "memory(GiB)": 111.15,
+      "step": 27950,
+      "train_speed(iter/s)": 0.448449
+    },
+    {
+      "acc": 0.66732044,
+      "epoch": 0.7091577879249112,
+      "grad_norm": 5.21875,
+      "learning_rate": 7.67104730135289e-06,
+      "loss": 1.56769314,
+      "memory(GiB)": 111.15,
+      "step": 27955,
+      "train_speed(iter/s)": 0.448491
+    },
+    {
+      "acc": 0.6578423,
+      "epoch": 0.7092846270928462,
+      "grad_norm": 5.46875,
+      "learning_rate": 7.670160786338246e-06,
+      "loss": 1.65622368,
+      "memory(GiB)": 111.15,
+      "step": 27960,
+      "train_speed(iter/s)": 0.448533
+    },
+    {
+      "acc": 0.6560832,
+      "epoch": 0.7094114662607813,
+      "grad_norm": 5.375,
+      "learning_rate": 7.669274153878006e-06,
+      "loss": 1.60550156,
+      "memory(GiB)": 111.15,
+      "step": 27965,
+      "train_speed(iter/s)": 0.448575
+    },
+    {
+      "acc": 0.64362154,
+      "epoch": 0.7095383054287164,
+      "grad_norm": 4.9375,
+      "learning_rate": 7.668387404011176e-06,
+      "loss": 1.67298965,
+      "memory(GiB)": 111.15,
+      "step": 27970,
+      "train_speed(iter/s)": 0.448617
+    },
+    {
+      "acc": 0.64360952,
+      "epoch": 0.7096651445966514,
+      "grad_norm": 5.5625,
+      "learning_rate": 7.667500536776748e-06,
+      "loss": 1.69110069,
+      "memory(GiB)": 111.15,
+      "step": 27975,
+      "train_speed(iter/s)": 0.448659
+    },
+    {
+      "acc": 0.64224939,
+      "epoch": 0.7097919837645865,
+      "grad_norm": 4.6875,
+      "learning_rate": 7.666613552213742e-06,
+      "loss": 1.63325043,
+      "memory(GiB)": 111.15,
+      "step": 27980,
+      "train_speed(iter/s)": 0.448701
+    },
+    {
+      "acc": 0.65375295,
+      "epoch": 0.7099188229325215,
+      "grad_norm": 5.625,
+      "learning_rate": 7.665726450361165e-06,
+      "loss": 1.59965725,
+      "memory(GiB)": 111.15,
+      "step": 27985,
+      "train_speed(iter/s)": 0.448743
+    },
+    {
+      "acc": 0.65635514,
+      "epoch": 0.7100456621004566,
+      "grad_norm": 4.5,
+      "learning_rate": 7.664839231258036e-06,
+      "loss": 1.62208977,
+      "memory(GiB)": 111.15,
+      "step": 27990,
+      "train_speed(iter/s)": 0.448784
+    },
+    {
+      "acc": 0.65990105,
+      "epoch": 0.7101725012683917,
+      "grad_norm": 5.75,
+      "learning_rate": 7.663951894943383e-06,
+      "loss": 1.64975014,
+      "memory(GiB)": 111.15,
+      "step": 27995,
+      "train_speed(iter/s)": 0.448827
+    },
+    {
+      "acc": 0.64638233,
+      "epoch": 0.7102993404363267,
+      "grad_norm": 5.84375,
+      "learning_rate": 7.66306444145623e-06,
+      "loss": 1.64090233,
+      "memory(GiB)": 111.15,
+      "step": 28000,
+      "train_speed(iter/s)": 0.448868
+    },
+    {
+      "epoch": 0.7102993404363267,
+      "eval_acc": 0.6424709766605937,
+      "eval_loss": 1.6125950813293457,
+      "eval_runtime": 114.4806,
+      "eval_samples_per_second": 55.643,
+      "eval_steps_per_second": 27.821,
+      "step": 28000
+    },
+    {
+      "acc": 0.63968534,
+      "epoch": 0.7104261796042618,
+      "grad_norm": 5.84375,
+      "learning_rate": 7.662176870835614e-06,
+      "loss": 1.66435966,
+      "memory(GiB)": 111.15,
+      "step": 28005,
+      "train_speed(iter/s)": 0.448055
+    },
+    {
+      "acc": 0.66160889,
+      "epoch": 0.7105530187721969,
+      "grad_norm": 5.0,
+      "learning_rate": 7.661289183120572e-06,
+      "loss": 1.59238281,
+      "memory(GiB)": 111.15,
+      "step": 28010,
+      "train_speed(iter/s)": 0.448097
+    },
+    {
+      "acc": 0.65534248,
+      "epoch": 0.7106798579401319,
+      "grad_norm": 5.71875,
+      "learning_rate": 7.66040137835015e-06,
+      "loss": 1.65107002,
+      "memory(GiB)": 111.15,
+      "step": 28015,
+      "train_speed(iter/s)": 0.448138
+    },
+    {
+      "acc": 0.62199397,
+      "epoch": 0.710806697108067,
+      "grad_norm": 4.84375,
+      "learning_rate": 7.659513456563399e-06,
+      "loss": 1.71907349,
+      "memory(GiB)": 111.15,
+      "step": 28020,
+      "train_speed(iter/s)": 0.44818
+    },
+    {
+      "acc": 0.66341181,
+      "epoch": 0.710933536276002,
+      "grad_norm": 5.25,
+      "learning_rate": 7.658625417799372e-06,
+      "loss": 1.61953506,
+      "memory(GiB)": 111.15,
+      "step": 28025,
+      "train_speed(iter/s)": 0.448222
+    },
+    {
+      "acc": 0.65338049,
+      "epoch": 0.7110603754439371,
+      "grad_norm": 4.9375,
+      "learning_rate": 7.657737262097128e-06,
+      "loss": 1.59846611,
+      "memory(GiB)": 111.15,
+      "step": 28030,
+      "train_speed(iter/s)": 0.448263
+    },
+    {
+      "acc": 0.65676594,
+      "epoch": 0.7111872146118722,
+      "grad_norm": 4.96875,
+      "learning_rate": 7.656848989495733e-06,
+      "loss": 1.59982052,
+      "memory(GiB)": 111.15,
+      "step": 28035,
+      "train_speed(iter/s)": 0.448304
+    },
+    {
+      "acc": 0.66353145,
+      "epoch": 0.7113140537798072,
+      "grad_norm": 5.4375,
+      "learning_rate": 7.65596060003426e-06,
+      "loss": 1.65233459,
+      "memory(GiB)": 111.15,
+      "step": 28040,
+      "train_speed(iter/s)": 0.448346
+    },
+    {
+      "acc": 0.63607554,
+      "epoch": 0.7114408929477423,
+      "grad_norm": 7.59375,
+      "learning_rate": 7.655072093751779e-06,
+      "loss": 1.71882477,
+      "memory(GiB)": 111.15,
+      "step": 28045,
+      "train_speed(iter/s)": 0.448388
+    },
+    {
+      "acc": 0.65272174,
+      "epoch": 0.7115677321156774,
+      "grad_norm": 6.03125,
+      "learning_rate": 7.654183470687375e-06,
+      "loss": 1.65077343,
+      "memory(GiB)": 111.15,
+      "step": 28050,
+      "train_speed(iter/s)": 0.44843
+    },
+    {
+      "acc": 0.66287422,
+      "epoch": 0.7116945712836124,
+      "grad_norm": 5.40625,
+      "learning_rate": 7.653294730880131e-06,
+      "loss": 1.6063942,
+      "memory(GiB)": 111.15,
+      "step": 28055,
+      "train_speed(iter/s)": 0.448472
+    },
+    {
+      "acc": 0.65929871,
+      "epoch": 0.7118214104515475,
+      "grad_norm": 5.625,
+      "learning_rate": 7.65240587436914e-06,
+      "loss": 1.5426405,
+      "memory(GiB)": 111.15,
+      "step": 28060,
+      "train_speed(iter/s)": 0.448514
+    },
+    {
+      "acc": 0.64724331,
+      "epoch": 0.7119482496194824,
+      "grad_norm": 4.90625,
+      "learning_rate": 7.651516901193494e-06,
+      "loss": 1.68215637,
+      "memory(GiB)": 111.15,
+      "step": 28065,
+      "train_speed(iter/s)": 0.448556
+    },
+    {
+      "acc": 0.66206102,
+      "epoch": 0.7120750887874175,
+      "grad_norm": 5.5,
+      "learning_rate": 7.650627811392298e-06,
+      "loss": 1.55513611,
+      "memory(GiB)": 111.15,
+      "step": 28070,
+      "train_speed(iter/s)": 0.448597
+    },
+    {
+      "acc": 0.63644247,
+      "epoch": 0.7122019279553526,
+      "grad_norm": 5.1875,
+      "learning_rate": 7.649738605004658e-06,
+      "loss": 1.64522476,
+      "memory(GiB)": 111.15,
+      "step": 28075,
+      "train_speed(iter/s)": 0.448639
+    },
+    {
+      "acc": 0.66124306,
+      "epoch": 0.7123287671232876,
+      "grad_norm": 4.9375,
+      "learning_rate": 7.648849282069682e-06,
+      "loss": 1.50599651,
+      "memory(GiB)": 111.15,
+      "step": 28080,
+      "train_speed(iter/s)": 0.448681
+    },
+    {
+      "acc": 0.65081091,
+      "epoch": 0.7124556062912227,
+      "grad_norm": 4.84375,
+      "learning_rate": 7.647959842626489e-06,
+      "loss": 1.653162,
+      "memory(GiB)": 111.15,
+      "step": 28085,
+      "train_speed(iter/s)": 0.448723
+    },
+    {
+      "acc": 0.64328694,
+      "epoch": 0.7125824454591578,
+      "grad_norm": 5.21875,
+      "learning_rate": 7.6470702867142e-06,
+      "loss": 1.63627319,
+      "memory(GiB)": 111.15,
+      "step": 28090,
+      "train_speed(iter/s)": 0.448765
+    },
+    {
+      "acc": 0.63722239,
+      "epoch": 0.7127092846270928,
+      "grad_norm": 5.09375,
+      "learning_rate": 7.646180614371941e-06,
+      "loss": 1.66458702,
+      "memory(GiB)": 111.15,
+      "step": 28095,
+      "train_speed(iter/s)": 0.448807
+    },
+    {
+      "acc": 0.64690638,
+      "epoch": 0.7128361237950279,
+      "grad_norm": 6.8125,
+      "learning_rate": 7.645290825638845e-06,
+      "loss": 1.66203022,
+      "memory(GiB)": 111.15,
+      "step": 28100,
+      "train_speed(iter/s)": 0.448848
+    },
+    {
+      "epoch": 0.7128361237950279,
+      "eval_acc": 0.6425566189590325,
+      "eval_loss": 1.6122413873672485,
+      "eval_runtime": 113.1054,
+      "eval_samples_per_second": 56.319,
+      "eval_steps_per_second": 28.16,
+      "step": 28100
+    },
+    {
+      "acc": 0.64906578,
+      "epoch": 0.7129629629629629,
+      "grad_norm": 6.4375,
+      "learning_rate": 7.644400920554048e-06,
+      "loss": 1.63195,
+      "memory(GiB)": 111.15,
+      "step": 28105,
+      "train_speed(iter/s)": 0.448048
+    },
+    {
+      "acc": 0.65014777,
+      "epoch": 0.713089802130898,
+      "grad_norm": 4.71875,
+      "learning_rate": 7.64351089915669e-06,
+      "loss": 1.67783909,
+      "memory(GiB)": 111.15,
+      "step": 28110,
+      "train_speed(iter/s)": 0.44809
+    },
+    {
+      "acc": 0.67413301,
+      "epoch": 0.7132166412988331,
+      "grad_norm": 5.28125,
+      "learning_rate": 7.642620761485921e-06,
+      "loss": 1.53314724,
+      "memory(GiB)": 111.15,
+      "step": 28115,
+      "train_speed(iter/s)": 0.448132
+    },
+    {
+      "acc": 0.65261507,
+      "epoch": 0.7133434804667681,
+      "grad_norm": 5.15625,
+      "learning_rate": 7.641730507580896e-06,
+      "loss": 1.62534885,
+      "memory(GiB)": 111.15,
+      "step": 28120,
+      "train_speed(iter/s)": 0.448174
+    },
+    {
+      "acc": 0.6371027,
+      "epoch": 0.7134703196347032,
+      "grad_norm": 4.90625,
+      "learning_rate": 7.640840137480763e-06,
+      "loss": 1.69881382,
+      "memory(GiB)": 111.15,
+      "step": 28125,
+      "train_speed(iter/s)": 0.448215
+    },
+    {
+      "acc": 0.64986377,
+      "epoch": 0.7135971588026383,
+      "grad_norm": 5.21875,
+      "learning_rate": 7.639949651224697e-06,
+      "loss": 1.58542967,
+      "memory(GiB)": 111.15,
+      "step": 28130,
+      "train_speed(iter/s)": 0.448258
+    },
+    {
+      "acc": 0.63611469,
+      "epoch": 0.7137239979705733,
+      "grad_norm": 5.375,
+      "learning_rate": 7.639059048851853e-06,
+      "loss": 1.69374542,
+      "memory(GiB)": 111.15,
+      "step": 28135,
+      "train_speed(iter/s)": 0.4483
+    },
+    {
+      "acc": 0.66080828,
+      "epoch": 0.7138508371385084,
+      "grad_norm": 5.0625,
+      "learning_rate": 7.638168330401412e-06,
+      "loss": 1.56179647,
+      "memory(GiB)": 111.15,
+      "step": 28140,
+      "train_speed(iter/s)": 0.448342
+    },
+    {
+      "acc": 0.64395189,
+      "epoch": 0.7139776763064434,
+      "grad_norm": 6.4375,
+      "learning_rate": 7.637277495912548e-06,
+      "loss": 1.63141632,
+      "memory(GiB)": 111.15,
+      "step": 28145,
+      "train_speed(iter/s)": 0.448384
+    },
+    {
+      "acc": 0.65748024,
+      "epoch": 0.7141045154743785,
+      "grad_norm": 4.90625,
+      "learning_rate": 7.636386545424447e-06,
+      "loss": 1.54546852,
+      "memory(GiB)": 111.15,
+      "step": 28150,
+      "train_speed(iter/s)": 0.448426
+    },
+    {
+      "acc": 0.64391646,
+      "epoch": 0.7142313546423136,
+      "grad_norm": 5.4375,
+      "learning_rate": 7.635495478976294e-06,
+      "loss": 1.63982773,
+      "memory(GiB)": 111.15,
+      "step": 28155,
+      "train_speed(iter/s)": 0.448468
+    },
+    {
+      "acc": 0.64258366,
+      "epoch": 0.7143581938102486,
+      "grad_norm": 6.09375,
+      "learning_rate": 7.634604296607285e-06,
+      "loss": 1.74375839,
+      "memory(GiB)": 111.15,
+      "step": 28160,
+      "train_speed(iter/s)": 0.44851
+    },
+    {
+      "acc": 0.65149736,
+      "epoch": 0.7144850329781837,
+      "grad_norm": 5.09375,
+      "learning_rate": 7.633712998356612e-06,
+      "loss": 1.55160713,
+      "memory(GiB)": 111.15,
+      "step": 28165,
+      "train_speed(iter/s)": 0.448552
+    },
+    {
+      "acc": 0.64023647,
+      "epoch": 0.7146118721461188,
+      "grad_norm": 5.875,
+      "learning_rate": 7.632821584263486e-06,
+      "loss": 1.68535461,
+      "memory(GiB)": 111.15,
+      "step": 28170,
+      "train_speed(iter/s)": 0.448594
+    },
+    {
+      "acc": 0.65281858,
+      "epoch": 0.7147387113140538,
+      "grad_norm": 5.15625,
+      "learning_rate": 7.631930054367112e-06,
+      "loss": 1.63781471,
+      "memory(GiB)": 111.15,
+      "step": 28175,
+      "train_speed(iter/s)": 0.448637
+    },
+    {
+      "acc": 0.65719037,
+      "epoch": 0.7148655504819889,
+      "grad_norm": 4.78125,
+      "learning_rate": 7.631038408706703e-06,
+      "loss": 1.58153877,
+      "memory(GiB)": 111.15,
+      "step": 28180,
+      "train_speed(iter/s)": 0.448679
+    },
+    {
+      "acc": 0.64706383,
+      "epoch": 0.7149923896499238,
+      "grad_norm": 5.375,
+      "learning_rate": 7.630146647321476e-06,
+      "loss": 1.60407104,
+      "memory(GiB)": 111.15,
+      "step": 28185,
+      "train_speed(iter/s)": 0.448721
+    },
+    {
+      "acc": 0.64396887,
+      "epoch": 0.7151192288178589,
+      "grad_norm": 4.75,
+      "learning_rate": 7.62925477025066e-06,
+      "loss": 1.68766193,
+      "memory(GiB)": 111.15,
+      "step": 28190,
+      "train_speed(iter/s)": 0.448763
+    },
+    {
+      "acc": 0.64180174,
+      "epoch": 0.715246067985794,
+      "grad_norm": 5.34375,
+      "learning_rate": 7.628362777533479e-06,
+      "loss": 1.70164719,
+      "memory(GiB)": 111.15,
+      "step": 28195,
+      "train_speed(iter/s)": 0.448805
+    },
+    {
+      "acc": 0.64566021,
+      "epoch": 0.715372907153729,
+      "grad_norm": 5.46875,
+      "learning_rate": 7.627470669209169e-06,
+      "loss": 1.64249153,
+      "memory(GiB)": 111.15,
+      "step": 28200,
+      "train_speed(iter/s)": 0.448847
+    },
+    {
+      "epoch": 0.715372907153729,
+      "eval_acc": 0.6425633032359838,
+      "eval_loss": 1.6124693155288696,
+      "eval_runtime": 114.8212,
+      "eval_samples_per_second": 55.478,
+      "eval_steps_per_second": 27.739,
+      "step": 28200
+    },
+    {
+      "acc": 0.65479898,
+      "epoch": 0.7154997463216641,
+      "grad_norm": 5.125,
+      "learning_rate": 7.626578445316968e-06,
+      "loss": 1.58418045,
+      "memory(GiB)": 111.15,
+      "step": 28205,
+      "train_speed(iter/s)": 0.448038
+    },
+    {
+      "acc": 0.6456512,
+      "epoch": 0.7156265854895992,
+      "grad_norm": 5.375,
+      "learning_rate": 7.62568610589612e-06,
+      "loss": 1.63546104,
+      "memory(GiB)": 111.15,
+      "step": 28210,
+      "train_speed(iter/s)": 0.448079
+    },
+    {
+      "acc": 0.64035544,
+      "epoch": 0.7157534246575342,
+      "grad_norm": 7.15625,
+      "learning_rate": 7.624793650985873e-06,
+      "loss": 1.68172932,
+      "memory(GiB)": 111.15,
+      "step": 28215,
+      "train_speed(iter/s)": 0.448121
+    },
+    {
+      "acc": 0.63746405,
+      "epoch": 0.7158802638254693,
+      "grad_norm": 5.25,
+      "learning_rate": 7.6239010806254835e-06,
+      "loss": 1.64677353,
+      "memory(GiB)": 111.15,
+      "step": 28220,
+      "train_speed(iter/s)": 0.448163
+    },
+    {
+      "acc": 0.64205542,
+      "epoch": 0.7160071029934043,
+      "grad_norm": 5.53125,
+      "learning_rate": 7.6230083948542084e-06,
+      "loss": 1.66778622,
+      "memory(GiB)": 111.15,
+      "step": 28225,
+      "train_speed(iter/s)": 0.448204
+    },
+    {
+      "acc": 0.66347704,
+      "epoch": 0.7161339421613394,
+      "grad_norm": 5.21875,
+      "learning_rate": 7.622115593711314e-06,
+      "loss": 1.5568841,
+      "memory(GiB)": 111.15,
+      "step": 28230,
+      "train_speed(iter/s)": 0.448245
+    },
+    {
+      "acc": 0.64962559,
+      "epoch": 0.7162607813292745,
+      "grad_norm": 4.6875,
+      "learning_rate": 7.62122267723607e-06,
+      "loss": 1.60519352,
+      "memory(GiB)": 111.15,
+      "step": 28235,
+      "train_speed(iter/s)": 0.448287
+    },
+    {
+      "acc": 0.65822978,
+      "epoch": 0.7163876204972095,
+      "grad_norm": 4.625,
+      "learning_rate": 7.620329645467748e-06,
+      "loss": 1.54508667,
+      "memory(GiB)": 111.15,
+      "step": 28240,
+      "train_speed(iter/s)": 0.448328
+    },
+    {
+      "acc": 0.63690476,
+      "epoch": 0.7165144596651446,
+      "grad_norm": 5.46875,
+      "learning_rate": 7.61943649844563e-06,
+      "loss": 1.73837929,
+      "memory(GiB)": 111.15,
+      "step": 28245,
+      "train_speed(iter/s)": 0.44837
+    },
+    {
+      "acc": 0.64081907,
+      "epoch": 0.7166412988330797,
+      "grad_norm": 5.0625,
+      "learning_rate": 7.618543236209001e-06,
+      "loss": 1.66744194,
+      "memory(GiB)": 111.15,
+      "step": 28250,
+      "train_speed(iter/s)": 0.448412
+    },
+    {
+      "acc": 0.64322939,
+      "epoch": 0.7167681380010147,
+      "grad_norm": 5.15625,
+      "learning_rate": 7.617649858797147e-06,
+      "loss": 1.65141373,
+      "memory(GiB)": 111.15,
+      "step": 28255,
+      "train_speed(iter/s)": 0.448453
+    },
+    {
+      "acc": 0.65029678,
+      "epoch": 0.7168949771689498,
+      "grad_norm": 5.1875,
+      "learning_rate": 7.616756366249367e-06,
+      "loss": 1.64547672,
+      "memory(GiB)": 111.15,
+      "step": 28260,
+      "train_speed(iter/s)": 0.448495
+    },
+    {
+      "acc": 0.63830051,
+      "epoch": 0.7170218163368848,
+      "grad_norm": 4.59375,
+      "learning_rate": 7.6158627586049586e-06,
+      "loss": 1.68375931,
+      "memory(GiB)": 111.15,
+      "step": 28265,
+      "train_speed(iter/s)": 0.448537
+    },
+    {
+      "acc": 0.65948009,
+      "epoch": 0.7171486555048199,
+      "grad_norm": 5.53125,
+      "learning_rate": 7.614969035903228e-06,
+      "loss": 1.58789034,
+      "memory(GiB)": 111.15,
+      "step": 28270,
+      "train_speed(iter/s)": 0.448578
+    },
+    {
+      "acc": 0.65647483,
+      "epoch": 0.717275494672755,
+      "grad_norm": 5.09375,
+      "learning_rate": 7.614075198183482e-06,
+      "loss": 1.54205141,
+      "memory(GiB)": 111.15,
+      "step": 28275,
+      "train_speed(iter/s)": 0.44862
+    },
+    {
+      "acc": 0.64715729,
+      "epoch": 0.71740233384069,
+      "grad_norm": 7.34375,
+      "learning_rate": 7.6131812454850406e-06,
+      "loss": 1.63954468,
+      "memory(GiB)": 111.15,
+      "step": 28280,
+      "train_speed(iter/s)": 0.448662
+    },
+    {
+      "acc": 0.65084963,
+      "epoch": 0.7175291730086251,
+      "grad_norm": 5.28125,
+      "learning_rate": 7.612287177847219e-06,
+      "loss": 1.64505577,
+      "memory(GiB)": 111.15,
+      "step": 28285,
+      "train_speed(iter/s)": 0.448703
+    },
+    {
+      "acc": 0.65606089,
+      "epoch": 0.7176560121765602,
+      "grad_norm": 5.0,
+      "learning_rate": 7.611392995309345e-06,
+      "loss": 1.60830936,
+      "memory(GiB)": 111.15,
+      "step": 28290,
+      "train_speed(iter/s)": 0.448745
+    },
+    {
+      "acc": 0.65350919,
+      "epoch": 0.7177828513444952,
+      "grad_norm": 6.15625,
+      "learning_rate": 7.610498697910748e-06,
+      "loss": 1.59084845,
+      "memory(GiB)": 111.15,
+      "step": 28295,
+      "train_speed(iter/s)": 0.448787
+    },
+    {
+      "acc": 0.65306807,
+      "epoch": 0.7179096905124303,
+      "grad_norm": 4.78125,
+      "learning_rate": 7.609604285690762e-06,
+      "loss": 1.60806999,
+      "memory(GiB)": 111.15,
+      "step": 28300,
+      "train_speed(iter/s)": 0.448829
+    },
+    {
+      "epoch": 0.7179096905124303,
+      "eval_acc": 0.6425374016627975,
+      "eval_loss": 1.6123080253601074,
+      "eval_runtime": 113.7948,
+      "eval_samples_per_second": 55.978,
+      "eval_steps_per_second": 27.989,
+      "step": 28300
+    },
+    {
+      "acc": 0.66678743,
+      "epoch": 0.7180365296803652,
+      "grad_norm": 5.6875,
+      "learning_rate": 7.608709758688731e-06,
+      "loss": 1.57819805,
+      "memory(GiB)": 111.15,
+      "step": 28305,
+      "train_speed(iter/s)": 0.448029
+    },
+    {
+      "acc": 0.64170251,
+      "epoch": 0.7181633688483003,
+      "grad_norm": 5.28125,
+      "learning_rate": 7.607815116943995e-06,
+      "loss": 1.60779572,
+      "memory(GiB)": 111.15,
+      "step": 28310,
+      "train_speed(iter/s)": 0.448071
+    },
+    {
+      "acc": 0.65149889,
+      "epoch": 0.7182902080162354,
+      "grad_norm": 4.90625,
+      "learning_rate": 7.606920360495908e-06,
+      "loss": 1.57017336,
+      "memory(GiB)": 111.15,
+      "step": 28315,
+      "train_speed(iter/s)": 0.448112
+    },
+    {
+      "acc": 0.63614807,
+      "epoch": 0.7184170471841704,
+      "grad_norm": 4.84375,
+      "learning_rate": 7.6060254893838255e-06,
+      "loss": 1.68340302,
+      "memory(GiB)": 111.15,
+      "step": 28320,
+      "train_speed(iter/s)": 0.448154
+    },
+    {
+      "acc": 0.63547826,
+      "epoch": 0.7185438863521055,
+      "grad_norm": 5.09375,
+      "learning_rate": 7.6051305036471065e-06,
+      "loss": 1.65224915,
+      "memory(GiB)": 111.15,
+      "step": 28325,
+      "train_speed(iter/s)": 0.448196
+    },
+    {
+      "acc": 0.6584866,
+      "epoch": 0.7186707255200406,
+      "grad_norm": 5.5625,
+      "learning_rate": 7.604235403325117e-06,
+      "loss": 1.56153555,
+      "memory(GiB)": 111.15,
+      "step": 28330,
+      "train_speed(iter/s)": 0.448237
+    },
+    {
+      "acc": 0.64270077,
+      "epoch": 0.7187975646879756,
+      "grad_norm": 5.46875,
+      "learning_rate": 7.603340188457227e-06,
+      "loss": 1.64957943,
+      "memory(GiB)": 111.15,
+      "step": 28335,
+      "train_speed(iter/s)": 0.448279
+    },
+    {
+      "acc": 0.64315095,
+      "epoch": 0.7189244038559107,
+      "grad_norm": 5.03125,
+      "learning_rate": 7.602444859082814e-06,
+      "loss": 1.65805264,
+      "memory(GiB)": 111.15,
+      "step": 28340,
+      "train_speed(iter/s)": 0.44832
+    },
+    {
+      "acc": 0.64658608,
+      "epoch": 0.7190512430238457,
+      "grad_norm": 5.6875,
+      "learning_rate": 7.601549415241254e-06,
+      "loss": 1.64475327,
+      "memory(GiB)": 111.15,
+      "step": 28345,
+      "train_speed(iter/s)": 0.448362
+    },
+    {
+      "acc": 0.65261307,
+      "epoch": 0.7191780821917808,
+      "grad_norm": 6.40625,
+      "learning_rate": 7.6006538569719375e-06,
+      "loss": 1.60732746,
+      "memory(GiB)": 111.15,
+      "step": 28350,
+      "train_speed(iter/s)": 0.448404
+    },
+    {
+      "acc": 0.64100513,
+      "epoch": 0.7193049213597159,
+      "grad_norm": 5.4375,
+      "learning_rate": 7.599758184314252e-06,
+      "loss": 1.64776955,
+      "memory(GiB)": 111.15,
+      "step": 28355,
+      "train_speed(iter/s)": 0.448445
+    },
+    {
+      "acc": 0.64474869,
+      "epoch": 0.7194317605276509,
+      "grad_norm": 5.75,
+      "learning_rate": 7.598862397307596e-06,
+      "loss": 1.65211258,
+      "memory(GiB)": 111.15,
+      "step": 28360,
+      "train_speed(iter/s)": 0.448487
+    },
+    {
+      "acc": 0.68190455,
+      "epoch": 0.719558599695586,
+      "grad_norm": 5.125,
+      "learning_rate": 7.597966495991368e-06,
+      "loss": 1.5192728,
+      "memory(GiB)": 111.15,
+      "step": 28365,
+      "train_speed(iter/s)": 0.448528
+    },
+    {
+      "acc": 0.65800877,
+      "epoch": 0.7196854388635211,
+      "grad_norm": 5.21875,
+      "learning_rate": 7.597070480404974e-06,
+      "loss": 1.52145252,
+      "memory(GiB)": 111.15,
+      "step": 28370,
+      "train_speed(iter/s)": 0.44857
+    },
+    {
+      "acc": 0.64715986,
+      "epoch": 0.7198122780314561,
+      "grad_norm": 4.8125,
+      "learning_rate": 7.596174350587826e-06,
+      "loss": 1.62580719,
+      "memory(GiB)": 111.15,
+      "step": 28375,
+      "train_speed(iter/s)": 0.448612
+    },
+    {
+      "acc": 0.63876915,
+      "epoch": 0.7199391171993912,
+      "grad_norm": 4.8125,
+      "learning_rate": 7.595278106579339e-06,
+      "loss": 1.6495079,
+      "memory(GiB)": 111.15,
+      "step": 28380,
+      "train_speed(iter/s)": 0.448653
+    },
+    {
+      "acc": 0.65382843,
+      "epoch": 0.7200659563673262,
+      "grad_norm": 5.625,
+      "learning_rate": 7.594381748418933e-06,
+      "loss": 1.59350777,
+      "memory(GiB)": 111.15,
+      "step": 28385,
+      "train_speed(iter/s)": 0.448695
+    },
+    {
+      "acc": 0.6486764,
+      "epoch": 0.7201927955352613,
+      "grad_norm": 4.875,
+      "learning_rate": 7.593485276146035e-06,
+      "loss": 1.59397182,
+      "memory(GiB)": 111.15,
+      "step": 28390,
+      "train_speed(iter/s)": 0.448736
+    },
+    {
+      "acc": 0.6717227,
+      "epoch": 0.7203196347031964,
+      "grad_norm": 8.125,
+      "learning_rate": 7.592588689800077e-06,
+      "loss": 1.61176147,
+      "memory(GiB)": 111.15,
+      "step": 28395,
+      "train_speed(iter/s)": 0.448778
+    },
+    {
+      "acc": 0.63578296,
+      "epoch": 0.7204464738711314,
+      "grad_norm": 5.40625,
+      "learning_rate": 7.591691989420491e-06,
+      "loss": 1.6722311,
+      "memory(GiB)": 111.15,
+      "step": 28400,
+      "train_speed(iter/s)": 0.44882
+    },
+    {
+      "epoch": 0.7204464738711314,
+      "eval_acc": 0.6424601147105479,
+      "eval_loss": 1.6121509075164795,
+      "eval_runtime": 113.4385,
+      "eval_samples_per_second": 56.154,
+      "eval_steps_per_second": 28.077,
+      "step": 28400
+    },
+    {
+      "acc": 0.66399651,
+      "epoch": 0.7205733130390665,
+      "grad_norm": 5.4375,
+      "learning_rate": 7.590795175046721e-06,
+      "loss": 1.57033453,
+      "memory(GiB)": 111.15,
+      "step": 28405,
+      "train_speed(iter/s)": 0.448026
+    },
+    {
+      "acc": 0.64412985,
+      "epoch": 0.7207001522070016,
+      "grad_norm": 5.875,
+      "learning_rate": 7.5898982467182125e-06,
+      "loss": 1.59988861,
+      "memory(GiB)": 111.15,
+      "step": 28410,
+      "train_speed(iter/s)": 0.448067
+    },
+    {
+      "acc": 0.64197264,
+      "epoch": 0.7208269913749366,
+      "grad_norm": 6.1875,
+      "learning_rate": 7.589001204474416e-06,
+      "loss": 1.6344862,
+      "memory(GiB)": 111.15,
+      "step": 28415,
+      "train_speed(iter/s)": 0.448109
+    },
+    {
+      "acc": 0.6310739,
+      "epoch": 0.7209538305428717,
+      "grad_norm": 4.96875,
+      "learning_rate": 7.588104048354787e-06,
+      "loss": 1.64502983,
+      "memory(GiB)": 111.15,
+      "step": 28420,
+      "train_speed(iter/s)": 0.44815
+    },
+    {
+      "acc": 0.64789295,
+      "epoch": 0.7210806697108066,
+      "grad_norm": 5.625,
+      "learning_rate": 7.587206778398788e-06,
+      "loss": 1.62225685,
+      "memory(GiB)": 111.15,
+      "step": 28425,
+      "train_speed(iter/s)": 0.448192
+    },
+    {
+      "acc": 0.66442051,
+      "epoch": 0.7212075088787417,
+      "grad_norm": 6.96875,
+      "learning_rate": 7.586309394645882e-06,
+      "loss": 1.54275627,
+      "memory(GiB)": 111.15,
+      "step": 28430,
+      "train_speed(iter/s)": 0.448234
+    },
+    {
+      "acc": 0.66298304,
+      "epoch": 0.7213343480466768,
+      "grad_norm": 5.59375,
+      "learning_rate": 7.585411897135544e-06,
+      "loss": 1.54224701,
+      "memory(GiB)": 111.15,
+      "step": 28435,
+      "train_speed(iter/s)": 0.448275
+    },
+    {
+      "acc": 0.64935732,
+      "epoch": 0.7214611872146118,
+      "grad_norm": 6.375,
+      "learning_rate": 7.584514285907245e-06,
+      "loss": 1.55328608,
+      "memory(GiB)": 111.15,
+      "step": 28440,
+      "train_speed(iter/s)": 0.448317
+    },
+    {
+      "acc": 0.66264,
+      "epoch": 0.7215880263825469,
+      "grad_norm": 5.53125,
+      "learning_rate": 7.583616561000471e-06,
+      "loss": 1.57036123,
+      "memory(GiB)": 111.15,
+      "step": 28445,
+      "train_speed(iter/s)": 0.448359
+    },
+    {
+      "acc": 0.63986869,
+      "epoch": 0.721714865550482,
+      "grad_norm": 4.78125,
+      "learning_rate": 7.582718722454705e-06,
+      "loss": 1.67435951,
+      "memory(GiB)": 111.15,
+      "step": 28450,
+      "train_speed(iter/s)": 0.4484
+    },
+    {
+      "acc": 0.64611959,
+      "epoch": 0.721841704718417,
+      "grad_norm": 5.28125,
+      "learning_rate": 7.581820770309438e-06,
+      "loss": 1.66436386,
+      "memory(GiB)": 111.15,
+      "step": 28455,
+      "train_speed(iter/s)": 0.448441
+    },
+    {
+      "acc": 0.67084503,
+      "epoch": 0.7219685438863521,
+      "grad_norm": 5.4375,
+      "learning_rate": 7.580922704604168e-06,
+      "loss": 1.56290293,
+      "memory(GiB)": 111.15,
+      "step": 28460,
+      "train_speed(iter/s)": 0.448482
+    },
+    {
+      "acc": 0.63449221,
+      "epoch": 0.7220953830542871,
+      "grad_norm": 5.21875,
+      "learning_rate": 7.5800245253783935e-06,
+      "loss": 1.64534607,
+      "memory(GiB)": 111.15,
+      "step": 28465,
+      "train_speed(iter/s)": 0.448524
+    },
+    {
+      "acc": 0.63529181,
+      "epoch": 0.7222222222222222,
+      "grad_norm": 5.375,
+      "learning_rate": 7.579126232671621e-06,
+      "loss": 1.63519974,
+      "memory(GiB)": 111.15,
+      "step": 28470,
+      "train_speed(iter/s)": 0.448566
+    },
+    {
+      "acc": 0.65685205,
+      "epoch": 0.7223490613901573,
+      "grad_norm": 6.53125,
+      "learning_rate": 7.578227826523361e-06,
+      "loss": 1.68714848,
+      "memory(GiB)": 111.15,
+      "step": 28475,
+      "train_speed(iter/s)": 0.448607
+    },
+    {
+      "acc": 0.66871223,
+      "epoch": 0.7224759005580923,
+      "grad_norm": 4.9375,
+      "learning_rate": 7.577329306973132e-06,
+      "loss": 1.59263325,
+      "memory(GiB)": 111.15,
+      "step": 28480,
+      "train_speed(iter/s)": 0.448648
+    },
+    {
+      "acc": 0.66050787,
+      "epoch": 0.7226027397260274,
+      "grad_norm": 5.3125,
+      "learning_rate": 7.576430674060452e-06,
+      "loss": 1.5566246,
+      "memory(GiB)": 111.15,
+      "step": 28485,
+      "train_speed(iter/s)": 0.44869
+    },
+    {
+      "acc": 0.63799086,
+      "epoch": 0.7227295788939625,
+      "grad_norm": 5.40625,
+      "learning_rate": 7.575531927824849e-06,
+      "loss": 1.68423576,
+      "memory(GiB)": 111.15,
+      "step": 28490,
+      "train_speed(iter/s)": 0.448731
+    },
+    {
+      "acc": 0.65548592,
+      "epoch": 0.7228564180618975,
+      "grad_norm": 5.78125,
+      "learning_rate": 7.574633068305852e-06,
+      "loss": 1.66707268,
+      "memory(GiB)": 111.15,
+      "step": 28495,
+      "train_speed(iter/s)": 0.448772
+    },
+    {
+      "acc": 0.64841318,
+      "epoch": 0.7229832572298326,
+      "grad_norm": 6.3125,
+      "learning_rate": 7.5737340955429995e-06,
+      "loss": 1.66877174,
+      "memory(GiB)": 111.15,
+      "step": 28500,
+      "train_speed(iter/s)": 0.448814
+    },
+    {
+      "epoch": 0.7229832572298326,
+      "eval_acc": 0.6425607966321271,
+      "eval_loss": 1.6121740341186523,
+      "eval_runtime": 113.36,
+      "eval_samples_per_second": 56.193,
+      "eval_steps_per_second": 28.096,
+      "step": 28500
+    },
+    {
+      "acc": 0.65799932,
+      "epoch": 0.7231100963977676,
+      "grad_norm": 5.125,
+      "learning_rate": 7.572835009575828e-06,
+      "loss": 1.5571414,
+      "memory(GiB)": 111.15,
+      "step": 28505,
+      "train_speed(iter/s)": 0.448023
+    },
+    {
+      "acc": 0.65211072,
+      "epoch": 0.7232369355657027,
+      "grad_norm": 6.46875,
+      "learning_rate": 7.571935810443886e-06,
+      "loss": 1.63289719,
+      "memory(GiB)": 111.15,
+      "step": 28510,
+      "train_speed(iter/s)": 0.448065
+    },
+    {
+      "acc": 0.66095533,
+      "epoch": 0.7233637747336378,
+      "grad_norm": 4.625,
+      "learning_rate": 7.571036498186727e-06,
+      "loss": 1.57812681,
+      "memory(GiB)": 111.15,
+      "step": 28515,
+      "train_speed(iter/s)": 0.448107
+    },
+    {
+      "acc": 0.6423419,
+      "epoch": 0.7234906139015728,
+      "grad_norm": 5.96875,
+      "learning_rate": 7.570137072843902e-06,
+      "loss": 1.66683178,
+      "memory(GiB)": 111.15,
+      "step": 28520,
+      "train_speed(iter/s)": 0.448148
+    },
+    {
+      "acc": 0.64330883,
+      "epoch": 0.7236174530695079,
+      "grad_norm": 5.75,
+      "learning_rate": 7.569237534454974e-06,
+      "loss": 1.65316982,
+      "memory(GiB)": 111.15,
+      "step": 28525,
+      "train_speed(iter/s)": 0.44819
+    },
+    {
+      "acc": 0.63790483,
+      "epoch": 0.723744292237443,
+      "grad_norm": 5.25,
+      "learning_rate": 7.568337883059509e-06,
+      "loss": 1.66292934,
+      "memory(GiB)": 111.15,
+      "step": 28530,
+      "train_speed(iter/s)": 0.448231
+    },
+    {
+      "acc": 0.64760857,
+      "epoch": 0.723871131405378,
+      "grad_norm": 5.71875,
+      "learning_rate": 7.567438118697077e-06,
+      "loss": 1.66241817,
+      "memory(GiB)": 111.15,
+      "step": 28535,
+      "train_speed(iter/s)": 0.448271
+    },
+    {
+      "acc": 0.64841928,
+      "epoch": 0.723997970573313,
+      "grad_norm": 5.90625,
+      "learning_rate": 7.566538241407253e-06,
+      "loss": 1.58126583,
+      "memory(GiB)": 111.15,
+      "step": 28540,
+      "train_speed(iter/s)": 0.448313
+    },
+    {
+      "acc": 0.64039202,
+      "epoch": 0.724124809741248,
+      "grad_norm": 4.90625,
+      "learning_rate": 7.565638251229617e-06,
+      "loss": 1.6442791,
+      "memory(GiB)": 111.15,
+      "step": 28545,
+      "train_speed(iter/s)": 0.448354
+    },
+    {
+      "acc": 0.66028471,
+      "epoch": 0.7242516489091831,
+      "grad_norm": 5.15625,
+      "learning_rate": 7.5647381482037585e-06,
+      "loss": 1.56645098,
+      "memory(GiB)": 111.15,
+      "step": 28550,
+      "train_speed(iter/s)": 0.448395
+    },
+    {
+      "acc": 0.65618877,
+      "epoch": 0.7243784880771182,
+      "grad_norm": 4.71875,
+      "learning_rate": 7.563837932369264e-06,
+      "loss": 1.62528687,
+      "memory(GiB)": 111.15,
+      "step": 28555,
+      "train_speed(iter/s)": 0.448436
+    },
+    {
+      "acc": 0.64975863,
+      "epoch": 0.7245053272450532,
+      "grad_norm": 5.375,
+      "learning_rate": 7.562937603765732e-06,
+      "loss": 1.58730507,
+      "memory(GiB)": 111.15,
+      "step": 28560,
+      "train_speed(iter/s)": 0.448477
+    },
+    {
+      "acc": 0.64938073,
+      "epoch": 0.7246321664129883,
+      "grad_norm": 5.1875,
+      "learning_rate": 7.562037162432761e-06,
+      "loss": 1.61337662,
+      "memory(GiB)": 111.15,
+      "step": 28565,
+      "train_speed(iter/s)": 0.448518
+    },
+    {
+      "acc": 0.63914542,
+      "epoch": 0.7247590055809234,
+      "grad_norm": 5.4375,
+      "learning_rate": 7.561136608409956e-06,
+      "loss": 1.59878969,
+      "memory(GiB)": 111.15,
+      "step": 28570,
+      "train_speed(iter/s)": 0.448559
+    },
+    {
+      "acc": 0.636871,
+      "epoch": 0.7248858447488584,
+      "grad_norm": 5.125,
+      "learning_rate": 7.560235941736929e-06,
+      "loss": 1.72807541,
+      "memory(GiB)": 111.15,
+      "step": 28575,
+      "train_speed(iter/s)": 0.4486
+    },
+    {
+      "acc": 0.64130535,
+      "epoch": 0.7250126839167935,
+      "grad_norm": 5.5625,
+      "learning_rate": 7.559335162453294e-06,
+      "loss": 1.67029533,
+      "memory(GiB)": 111.15,
+      "step": 28580,
+      "train_speed(iter/s)": 0.448641
+    },
+    {
+      "acc": 0.65966034,
+      "epoch": 0.7251395230847285,
+      "grad_norm": 6.75,
+      "learning_rate": 7.558434270598672e-06,
+      "loss": 1.59847355,
+      "memory(GiB)": 111.15,
+      "step": 28585,
+      "train_speed(iter/s)": 0.448682
+    },
+    {
+      "acc": 0.64996829,
+      "epoch": 0.7252663622526636,
+      "grad_norm": 5.46875,
+      "learning_rate": 7.5575332662126885e-06,
+      "loss": 1.62838821,
+      "memory(GiB)": 111.15,
+      "step": 28590,
+      "train_speed(iter/s)": 0.448724
+    },
+    {
+      "acc": 0.65180893,
+      "epoch": 0.7253932014205987,
+      "grad_norm": 5.09375,
+      "learning_rate": 7.556632149334975e-06,
+      "loss": 1.56949768,
+      "memory(GiB)": 111.15,
+      "step": 28595,
+      "train_speed(iter/s)": 0.448765
+    },
+    {
+      "acc": 0.65328817,
+      "epoch": 0.7255200405885337,
+      "grad_norm": 4.96875,
+      "learning_rate": 7.555730920005163e-06,
+      "loss": 1.56504173,
+      "memory(GiB)": 111.15,
+      "step": 28600,
+      "train_speed(iter/s)": 0.448805
+    },
+    {
+      "epoch": 0.7255200405885337,
+      "eval_acc": 0.6426138530804282,
+      "eval_loss": 1.6121642589569092,
+      "eval_runtime": 113.5938,
+      "eval_samples_per_second": 56.077,
+      "eval_steps_per_second": 28.039,
+      "step": 28600
+    },
+    {
+      "acc": 0.61114445,
+      "epoch": 0.7256468797564688,
+      "grad_norm": 6.0625,
+      "learning_rate": 7.554829578262894e-06,
+      "loss": 1.71723938,
+      "memory(GiB)": 111.15,
+      "step": 28605,
+      "train_speed(iter/s)": 0.448016
+    },
+    {
+      "acc": 0.65944786,
+      "epoch": 0.7257737189244039,
+      "grad_norm": 7.03125,
+      "learning_rate": 7.5539281241478155e-06,
+      "loss": 1.64690819,
+      "memory(GiB)": 111.15,
+      "step": 28610,
+      "train_speed(iter/s)": 0.448057
+    },
+    {
+      "acc": 0.66694994,
+      "epoch": 0.7259005580923389,
+      "grad_norm": 4.875,
+      "learning_rate": 7.5530265576995756e-06,
+      "loss": 1.56313114,
+      "memory(GiB)": 111.15,
+      "step": 28615,
+      "train_speed(iter/s)": 0.448099
+    },
+    {
+      "acc": 0.64592142,
+      "epoch": 0.726027397260274,
+      "grad_norm": 4.84375,
+      "learning_rate": 7.552124878957829e-06,
+      "loss": 1.62813339,
+      "memory(GiB)": 111.15,
+      "step": 28620,
+      "train_speed(iter/s)": 0.44814
+    },
+    {
+      "acc": 0.64444695,
+      "epoch": 0.726154236428209,
+      "grad_norm": 5.46875,
+      "learning_rate": 7.551223087962234e-06,
+      "loss": 1.65249825,
+      "memory(GiB)": 111.15,
+      "step": 28625,
+      "train_speed(iter/s)": 0.44818
+    },
+    {
+      "acc": 0.66640916,
+      "epoch": 0.7262810755961441,
+      "grad_norm": 4.875,
+      "learning_rate": 7.55032118475246e-06,
+      "loss": 1.55896797,
+      "memory(GiB)": 111.15,
+      "step": 28630,
+      "train_speed(iter/s)": 0.448221
+    },
+    {
+      "acc": 0.64687228,
+      "epoch": 0.7264079147640792,
+      "grad_norm": 4.40625,
+      "learning_rate": 7.549419169368171e-06,
+      "loss": 1.64751015,
+      "memory(GiB)": 111.15,
+      "step": 28635,
+      "train_speed(iter/s)": 0.448262
+    },
+    {
+      "acc": 0.63368607,
+      "epoch": 0.7265347539320142,
+      "grad_norm": 5.375,
+      "learning_rate": 7.548517041849048e-06,
+      "loss": 1.67703037,
+      "memory(GiB)": 111.15,
+      "step": 28640,
+      "train_speed(iter/s)": 0.448304
+    },
+    {
+      "acc": 0.65365939,
+      "epoch": 0.7266615930999493,
+      "grad_norm": 5.03125,
+      "learning_rate": 7.547614802234764e-06,
+      "loss": 1.60639496,
+      "memory(GiB)": 111.15,
+      "step": 28645,
+      "train_speed(iter/s)": 0.448345
+    },
+    {
+      "acc": 0.66404791,
+      "epoch": 0.7267884322678844,
+      "grad_norm": 4.59375,
+      "learning_rate": 7.546712450565008e-06,
+      "loss": 1.66870461,
+      "memory(GiB)": 111.15,
+      "step": 28650,
+      "train_speed(iter/s)": 0.448386
+    },
+    {
+      "acc": 0.66565199,
+      "epoch": 0.7269152714358194,
+      "grad_norm": 4.4375,
+      "learning_rate": 7.545809986879469e-06,
+      "loss": 1.5006628,
+      "memory(GiB)": 111.15,
+      "step": 28655,
+      "train_speed(iter/s)": 0.448427
+    },
+    {
+      "acc": 0.65227356,
+      "epoch": 0.7270421106037545,
+      "grad_norm": 6.28125,
+      "learning_rate": 7.5449074112178385e-06,
+      "loss": 1.63367996,
+      "memory(GiB)": 111.15,
+      "step": 28660,
+      "train_speed(iter/s)": 0.448468
+    },
+    {
+      "acc": 0.65384545,
+      "epoch": 0.7271689497716894,
+      "grad_norm": 6.09375,
+      "learning_rate": 7.54400472361982e-06,
+      "loss": 1.6893116,
+      "memory(GiB)": 111.15,
+      "step": 28665,
+      "train_speed(iter/s)": 0.448509
+    },
+    {
+      "acc": 0.63634276,
+      "epoch": 0.7272957889396245,
+      "grad_norm": 5.3125,
+      "learning_rate": 7.543101924125115e-06,
+      "loss": 1.64826126,
+      "memory(GiB)": 111.15,
+      "step": 28670,
+      "train_speed(iter/s)": 0.44855
+    },
+    {
+      "acc": 0.64760866,
+      "epoch": 0.7274226281075596,
+      "grad_norm": 6.0625,
+      "learning_rate": 7.542199012773432e-06,
+      "loss": 1.70191269,
+      "memory(GiB)": 111.15,
+      "step": 28675,
+      "train_speed(iter/s)": 0.448592
+    },
+    {
+      "acc": 0.65282965,
+      "epoch": 0.7275494672754946,
+      "grad_norm": 5.53125,
+      "learning_rate": 7.541295989604488e-06,
+      "loss": 1.65911636,
+      "memory(GiB)": 111.15,
+      "step": 28680,
+      "train_speed(iter/s)": 0.448633
+    },
+    {
+      "acc": 0.66410999,
+      "epoch": 0.7276763064434297,
+      "grad_norm": 5.75,
+      "learning_rate": 7.540392854657999e-06,
+      "loss": 1.55660191,
+      "memory(GiB)": 111.15,
+      "step": 28685,
+      "train_speed(iter/s)": 0.448673
+    },
+    {
+      "acc": 0.6553587,
+      "epoch": 0.7278031456113648,
+      "grad_norm": 6.53125,
+      "learning_rate": 7.539489607973691e-06,
+      "loss": 1.61225548,
+      "memory(GiB)": 111.15,
+      "step": 28690,
+      "train_speed(iter/s)": 0.448715
+    },
+    {
+      "acc": 0.64829378,
+      "epoch": 0.7279299847792998,
+      "grad_norm": 6.1875,
+      "learning_rate": 7.5385862495912905e-06,
+      "loss": 1.69893894,
+      "memory(GiB)": 111.15,
+      "step": 28695,
+      "train_speed(iter/s)": 0.448756
+    },
+    {
+      "acc": 0.64756513,
+      "epoch": 0.7280568239472349,
+      "grad_norm": 6.5625,
+      "learning_rate": 7.537682779550537e-06,
+      "loss": 1.65732765,
+      "memory(GiB)": 111.15,
+      "step": 28700,
+      "train_speed(iter/s)": 0.448797
+    },
+    {
+      "epoch": 0.7280568239472349,
+      "eval_acc": 0.6425060691145882,
+      "eval_loss": 1.6122620105743408,
+      "eval_runtime": 114.3034,
+      "eval_samples_per_second": 55.729,
+      "eval_steps_per_second": 27.864,
+      "step": 28700
+    },
+    {
+      "acc": 0.63390226,
+      "epoch": 0.7281836631151699,
+      "grad_norm": 5.96875,
+      "learning_rate": 7.536779197891159e-06,
+      "loss": 1.67917728,
+      "memory(GiB)": 111.15,
+      "step": 28705,
+      "train_speed(iter/s)": 0.448005
+    },
+    {
+      "acc": 0.65839176,
+      "epoch": 0.728310502283105,
+      "grad_norm": 5.125,
+      "learning_rate": 7.535875504652912e-06,
+      "loss": 1.59147072,
+      "memory(GiB)": 111.15,
+      "step": 28710,
+      "train_speed(iter/s)": 0.448046
+    },
+    {
+      "acc": 0.64969254,
+      "epoch": 0.7284373414510401,
+      "grad_norm": 5.40625,
+      "learning_rate": 7.534971699875534e-06,
+      "loss": 1.64550285,
+      "memory(GiB)": 111.15,
+      "step": 28715,
+      "train_speed(iter/s)": 0.448087
+    },
+    {
+      "acc": 0.6503583,
+      "epoch": 0.7285641806189751,
+      "grad_norm": 5.0625,
+      "learning_rate": 7.534067783598784e-06,
+      "loss": 1.57519283,
+      "memory(GiB)": 111.15,
+      "step": 28720,
+      "train_speed(iter/s)": 0.448128
+    },
+    {
+      "acc": 0.63005486,
+      "epoch": 0.7286910197869102,
+      "grad_norm": 4.9375,
+      "learning_rate": 7.533163755862419e-06,
+      "loss": 1.6385788,
+      "memory(GiB)": 111.15,
+      "step": 28725,
+      "train_speed(iter/s)": 0.448169
+    },
+    {
+      "acc": 0.64552927,
+      "epoch": 0.7288178589548453,
+      "grad_norm": 5.3125,
+      "learning_rate": 7.5322596167062035e-06,
+      "loss": 1.63371735,
+      "memory(GiB)": 111.15,
+      "step": 28730,
+      "train_speed(iter/s)": 0.44821
+    },
+    {
+      "acc": 0.65613108,
+      "epoch": 0.7289446981227803,
+      "grad_norm": 5.25,
+      "learning_rate": 7.5313553661699035e-06,
+      "loss": 1.59916019,
+      "memory(GiB)": 111.15,
+      "step": 28735,
+      "train_speed(iter/s)": 0.448251
+    },
+    {
+      "acc": 0.66204209,
+      "epoch": 0.7290715372907154,
+      "grad_norm": 5.25,
+      "learning_rate": 7.530451004293292e-06,
+      "loss": 1.5459074,
+      "memory(GiB)": 111.15,
+      "step": 28740,
+      "train_speed(iter/s)": 0.448291
+    },
+    {
+      "acc": 0.64189644,
+      "epoch": 0.7291983764586504,
+      "grad_norm": 5.25,
+      "learning_rate": 7.5295465311161485e-06,
+      "loss": 1.62375145,
+      "memory(GiB)": 111.15,
+      "step": 28745,
+      "train_speed(iter/s)": 0.448332
+    },
+    {
+      "acc": 0.65440636,
+      "epoch": 0.7293252156265855,
+      "grad_norm": 5.1875,
+      "learning_rate": 7.5286419466782546e-06,
+      "loss": 1.57633038,
+      "memory(GiB)": 111.15,
+      "step": 28750,
+      "train_speed(iter/s)": 0.448374
+    },
+    {
+      "acc": 0.65195608,
+      "epoch": 0.7294520547945206,
+      "grad_norm": 10.625,
+      "learning_rate": 7.527737251019399e-06,
+      "loss": 1.63205013,
+      "memory(GiB)": 111.15,
+      "step": 28755,
+      "train_speed(iter/s)": 0.448415
+    },
+    {
+      "acc": 0.63041224,
+      "epoch": 0.7295788939624556,
+      "grad_norm": 5.5625,
+      "learning_rate": 7.526832444179373e-06,
+      "loss": 1.69073105,
+      "memory(GiB)": 111.15,
+      "step": 28760,
+      "train_speed(iter/s)": 0.448456
+    },
+    {
+      "acc": 0.65096483,
+      "epoch": 0.7297057331303907,
+      "grad_norm": 5.78125,
+      "learning_rate": 7.525927526197974e-06,
+      "loss": 1.64330444,
+      "memory(GiB)": 111.15,
+      "step": 28765,
+      "train_speed(iter/s)": 0.448497
+    },
+    {
+      "acc": 0.63903933,
+      "epoch": 0.7298325722983258,
+      "grad_norm": 4.84375,
+      "learning_rate": 7.5250224971150065e-06,
+      "loss": 1.68053226,
+      "memory(GiB)": 111.15,
+      "step": 28770,
+      "train_speed(iter/s)": 0.448538
+    },
+    {
+      "acc": 0.65885854,
+      "epoch": 0.7299594114662608,
+      "grad_norm": 4.71875,
+      "learning_rate": 7.524117356970275e-06,
+      "loss": 1.61209373,
+      "memory(GiB)": 111.15,
+      "step": 28775,
+      "train_speed(iter/s)": 0.448579
+    },
+    {
+      "acc": 0.6475595,
+      "epoch": 0.7300862506341959,
+      "grad_norm": 5.53125,
+      "learning_rate": 7.523212105803594e-06,
+      "loss": 1.72454376,
+      "memory(GiB)": 111.15,
+      "step": 28780,
+      "train_speed(iter/s)": 0.44862
+    },
+    {
+      "acc": 0.65413156,
+      "epoch": 0.7302130898021308,
+      "grad_norm": 6.0625,
+      "learning_rate": 7.522306743654777e-06,
+      "loss": 1.6006443,
+      "memory(GiB)": 111.15,
+      "step": 28785,
+      "train_speed(iter/s)": 0.448661
+    },
+    {
+      "acc": 0.65561514,
+      "epoch": 0.7303399289700659,
+      "grad_norm": 5.09375,
+      "learning_rate": 7.521401270563651e-06,
+      "loss": 1.64150925,
+      "memory(GiB)": 111.15,
+      "step": 28790,
+      "train_speed(iter/s)": 0.448702
+    },
+    {
+      "acc": 0.64167252,
+      "epoch": 0.730466768138001,
+      "grad_norm": 5.09375,
+      "learning_rate": 7.520495686570037e-06,
+      "loss": 1.61857758,
+      "memory(GiB)": 111.15,
+      "step": 28795,
+      "train_speed(iter/s)": 0.448743
+    },
+    {
+      "acc": 0.67071457,
+      "epoch": 0.730593607305936,
+      "grad_norm": 5.78125,
+      "learning_rate": 7.5195899917137716e-06,
+      "loss": 1.57240067,
+      "memory(GiB)": 111.15,
+      "step": 28800,
+      "train_speed(iter/s)": 0.448784
+    },
+    {
+      "epoch": 0.730593607305936,
+      "eval_acc": 0.6425641387706027,
+      "eval_loss": 1.6117708683013916,
+      "eval_runtime": 113.217,
+      "eval_samples_per_second": 56.264,
+      "eval_steps_per_second": 28.132,
+      "step": 28800
+    },
+    {
+      "acc": 0.63813877,
+      "epoch": 0.7307204464738711,
+      "grad_norm": 6.28125,
+      "learning_rate": 7.518684186034688e-06,
+      "loss": 1.6111351,
+      "memory(GiB)": 111.15,
+      "step": 28805,
+      "train_speed(iter/s)": 0.448003
+    },
+    {
+      "acc": 0.65908251,
+      "epoch": 0.7308472856418062,
+      "grad_norm": 4.21875,
+      "learning_rate": 7.51777826957263e-06,
+      "loss": 1.60618057,
+      "memory(GiB)": 111.15,
+      "step": 28810,
+      "train_speed(iter/s)": 0.448043
+    },
+    {
+      "acc": 0.64603691,
+      "epoch": 0.7309741248097412,
+      "grad_norm": 5.4375,
+      "learning_rate": 7.516872242367441e-06,
+      "loss": 1.62057095,
+      "memory(GiB)": 111.15,
+      "step": 28815,
+      "train_speed(iter/s)": 0.448084
+    },
+    {
+      "acc": 0.64925823,
+      "epoch": 0.7311009639776763,
+      "grad_norm": 5.59375,
+      "learning_rate": 7.5159661044589745e-06,
+      "loss": 1.6780262,
+      "memory(GiB)": 111.15,
+      "step": 28820,
+      "train_speed(iter/s)": 0.448124
+    },
+    {
+      "acc": 0.65560055,
+      "epoch": 0.7312278031456113,
+      "grad_norm": 6.8125,
+      "learning_rate": 7.515059855887087e-06,
+      "loss": 1.58768425,
+      "memory(GiB)": 111.15,
+      "step": 28825,
+      "train_speed(iter/s)": 0.448165
+    },
+    {
+      "acc": 0.65048513,
+      "epoch": 0.7313546423135464,
+      "grad_norm": 6.0625,
+      "learning_rate": 7.514153496691636e-06,
+      "loss": 1.5634676,
+      "memory(GiB)": 111.15,
+      "step": 28830,
+      "train_speed(iter/s)": 0.448205
+    },
+    {
+      "acc": 0.65686302,
+      "epoch": 0.7314814814814815,
+      "grad_norm": 5.125,
+      "learning_rate": 7.513247026912491e-06,
+      "loss": 1.52791634,
+      "memory(GiB)": 111.15,
+      "step": 28835,
+      "train_speed(iter/s)": 0.448246
+    },
+    {
+      "acc": 0.65599265,
+      "epoch": 0.7316083206494165,
+      "grad_norm": 6.1875,
+      "learning_rate": 7.512340446589521e-06,
+      "loss": 1.61348724,
+      "memory(GiB)": 111.15,
+      "step": 28840,
+      "train_speed(iter/s)": 0.448287
+    },
+    {
+      "acc": 0.66059461,
+      "epoch": 0.7317351598173516,
+      "grad_norm": 4.46875,
+      "learning_rate": 7.5114337557625985e-06,
+      "loss": 1.58489389,
+      "memory(GiB)": 111.15,
+      "step": 28845,
+      "train_speed(iter/s)": 0.448327
+    },
+    {
+      "acc": 0.66765442,
+      "epoch": 0.7318619989852867,
+      "grad_norm": 5.59375,
+      "learning_rate": 7.510526954471611e-06,
+      "loss": 1.55083761,
+      "memory(GiB)": 111.15,
+      "step": 28850,
+      "train_speed(iter/s)": 0.448367
+    },
+    {
+      "acc": 0.64093938,
+      "epoch": 0.7319888381532217,
+      "grad_norm": 6.0625,
+      "learning_rate": 7.509620042756436e-06,
+      "loss": 1.66986313,
+      "memory(GiB)": 111.15,
+      "step": 28855,
+      "train_speed(iter/s)": 0.448407
+    },
+    {
+      "acc": 0.63565588,
+      "epoch": 0.7321156773211568,
+      "grad_norm": 5.40625,
+      "learning_rate": 7.508713020656968e-06,
+      "loss": 1.70329933,
+      "memory(GiB)": 111.15,
+      "step": 28860,
+      "train_speed(iter/s)": 0.448448
+    },
+    {
+      "acc": 0.64402924,
+      "epoch": 0.7322425164890918,
+      "grad_norm": 5.40625,
+      "learning_rate": 7.5078058882131e-06,
+      "loss": 1.67820892,
+      "memory(GiB)": 111.15,
+      "step": 28865,
+      "train_speed(iter/s)": 0.448488
+    },
+    {
+      "acc": 0.64130983,
+      "epoch": 0.7323693556570269,
+      "grad_norm": 5.09375,
+      "learning_rate": 7.506898645464733e-06,
+      "loss": 1.66814671,
+      "memory(GiB)": 111.15,
+      "step": 28870,
+      "train_speed(iter/s)": 0.448528
+    },
+    {
+      "acc": 0.65724506,
+      "epoch": 0.732496194824962,
+      "grad_norm": 5.46875,
+      "learning_rate": 7.505991292451772e-06,
+      "loss": 1.57002106,
+      "memory(GiB)": 111.15,
+      "step": 28875,
+      "train_speed(iter/s)": 0.448569
+    },
+    {
+      "acc": 0.64488659,
+      "epoch": 0.732623033992897,
+      "grad_norm": 4.4375,
+      "learning_rate": 7.505083829214125e-06,
+      "loss": 1.68583183,
+      "memory(GiB)": 111.15,
+      "step": 28880,
+      "train_speed(iter/s)": 0.44861
+    },
+    {
+      "acc": 0.6449666,
+      "epoch": 0.7327498731608321,
+      "grad_norm": 4.46875,
+      "learning_rate": 7.5041762557917065e-06,
+      "loss": 1.69428749,
+      "memory(GiB)": 111.15,
+      "step": 28885,
+      "train_speed(iter/s)": 0.44865
+    },
+    {
+      "acc": 0.646942,
+      "epoch": 0.7328767123287672,
+      "grad_norm": 4.8125,
+      "learning_rate": 7.5032685722244355e-06,
+      "loss": 1.703228,
+      "memory(GiB)": 111.15,
+      "step": 28890,
+      "train_speed(iter/s)": 0.44869
+    },
+    {
+      "acc": 0.63872261,
+      "epoch": 0.7330035514967022,
+      "grad_norm": 5.625,
+      "learning_rate": 7.502360778552238e-06,
+      "loss": 1.63986874,
+      "memory(GiB)": 111.15,
+      "step": 28895,
+      "train_speed(iter/s)": 0.448731
+    },
+    {
+      "acc": 0.63908596,
+      "epoch": 0.7331303906646373,
+      "grad_norm": 5.21875,
+      "learning_rate": 7.5014528748150405e-06,
+      "loss": 1.65397987,
+      "memory(GiB)": 111.15,
+      "step": 28900,
+      "train_speed(iter/s)": 0.448771
+    },
+    {
+      "epoch": 0.7331303906646373,
+      "eval_acc": 0.642639336886305,
+      "eval_loss": 1.611669659614563,
+      "eval_runtime": 114.3263,
+      "eval_samples_per_second": 55.718,
+      "eval_steps_per_second": 27.859,
+      "step": 28900
+    },
+    {
+      "acc": 0.64146466,
+      "epoch": 0.7332572298325722,
+      "grad_norm": 5.75,
+      "learning_rate": 7.5005448610527765e-06,
+      "loss": 1.61881313,
+      "memory(GiB)": 111.15,
+      "step": 28905,
+      "train_speed(iter/s)": 0.447985
+    },
+    {
+      "acc": 0.66403112,
+      "epoch": 0.7333840690005073,
+      "grad_norm": 5.0625,
+      "learning_rate": 7.499636737305386e-06,
+      "loss": 1.54060307,
+      "memory(GiB)": 111.15,
+      "step": 28910,
+      "train_speed(iter/s)": 0.448026
+    },
+    {
+      "acc": 0.6755578,
+      "epoch": 0.7335109081684424,
+      "grad_norm": 5.8125,
+      "learning_rate": 7.498728503612811e-06,
+      "loss": 1.55732183,
+      "memory(GiB)": 111.15,
+      "step": 28915,
+      "train_speed(iter/s)": 0.448066
+    },
+    {
+      "acc": 0.65447311,
+      "epoch": 0.7336377473363774,
+      "grad_norm": 6.1875,
+      "learning_rate": 7.497820160015002e-06,
+      "loss": 1.63697777,
+      "memory(GiB)": 111.15,
+      "step": 28920,
+      "train_speed(iter/s)": 0.448107
+    },
+    {
+      "acc": 0.63372879,
+      "epoch": 0.7337645865043125,
+      "grad_norm": 4.65625,
+      "learning_rate": 7.496911706551908e-06,
+      "loss": 1.66858215,
+      "memory(GiB)": 111.15,
+      "step": 28925,
+      "train_speed(iter/s)": 0.448148
+    },
+    {
+      "acc": 0.66220264,
+      "epoch": 0.7338914256722476,
+      "grad_norm": 5.59375,
+      "learning_rate": 7.496003143263492e-06,
+      "loss": 1.58180332,
+      "memory(GiB)": 111.15,
+      "step": 28930,
+      "train_speed(iter/s)": 0.448189
+    },
+    {
+      "acc": 0.64142022,
+      "epoch": 0.7340182648401826,
+      "grad_norm": 5.0,
+      "learning_rate": 7.495094470189712e-06,
+      "loss": 1.69146061,
+      "memory(GiB)": 111.15,
+      "step": 28935,
+      "train_speed(iter/s)": 0.448229
+    },
+    {
+      "acc": 0.63209128,
+      "epoch": 0.7341451040081177,
+      "grad_norm": 6.53125,
+      "learning_rate": 7.4941856873705376e-06,
+      "loss": 1.75993156,
+      "memory(GiB)": 111.15,
+      "step": 28940,
+      "train_speed(iter/s)": 0.44827
+    },
+    {
+      "acc": 0.6440074,
+      "epoch": 0.7342719431760527,
+      "grad_norm": 5.0,
+      "learning_rate": 7.493276794845941e-06,
+      "loss": 1.63935852,
+      "memory(GiB)": 111.15,
+      "step": 28945,
+      "train_speed(iter/s)": 0.448311
+    },
+    {
+      "acc": 0.6530499,
+      "epoch": 0.7343987823439878,
+      "grad_norm": 5.625,
+      "learning_rate": 7.4923677926559005e-06,
+      "loss": 1.56926403,
+      "memory(GiB)": 111.15,
+      "step": 28950,
+      "train_speed(iter/s)": 0.448352
+    },
+    {
+      "acc": 0.65737772,
+      "epoch": 0.7345256215119229,
+      "grad_norm": 5.15625,
+      "learning_rate": 7.491458680840396e-06,
+      "loss": 1.61017513,
+      "memory(GiB)": 111.15,
+      "step": 28955,
+      "train_speed(iter/s)": 0.448393
+    },
+    {
+      "acc": 0.64373407,
+      "epoch": 0.7346524606798579,
+      "grad_norm": 5.25,
+      "learning_rate": 7.490549459439415e-06,
+      "loss": 1.63315201,
+      "memory(GiB)": 111.15,
+      "step": 28960,
+      "train_speed(iter/s)": 0.448433
+    },
+    {
+      "acc": 0.64362264,
+      "epoch": 0.734779299847793,
+      "grad_norm": 4.125,
+      "learning_rate": 7.48964012849295e-06,
+      "loss": 1.62404308,
+      "memory(GiB)": 111.15,
+      "step": 28965,
+      "train_speed(iter/s)": 0.448475
+    },
+    {
+      "acc": 0.64284124,
+      "epoch": 0.7349061390157281,
+      "grad_norm": 5.53125,
+      "learning_rate": 7.488730688040995e-06,
+      "loss": 1.6445118,
+      "memory(GiB)": 111.15,
+      "step": 28970,
+      "train_speed(iter/s)": 0.448515
+    },
+    {
+      "acc": 0.64734693,
+      "epoch": 0.7350329781836631,
+      "grad_norm": 5.875,
+      "learning_rate": 7.487821138123554e-06,
+      "loss": 1.68403282,
+      "memory(GiB)": 111.15,
+      "step": 28975,
+      "train_speed(iter/s)": 0.448556
+    },
+    {
+      "acc": 0.67993135,
+      "epoch": 0.7351598173515982,
+      "grad_norm": 5.3125,
+      "learning_rate": 7.486911478780633e-06,
+      "loss": 1.53025417,
+      "memory(GiB)": 111.15,
+      "step": 28980,
+      "train_speed(iter/s)": 0.448597
+    },
+    {
+      "acc": 0.65746927,
+      "epoch": 0.7352866565195332,
+      "grad_norm": 5.09375,
+      "learning_rate": 7.4860017100522395e-06,
+      "loss": 1.59587278,
+      "memory(GiB)": 111.15,
+      "step": 28985,
+      "train_speed(iter/s)": 0.448637
+    },
+    {
+      "acc": 0.63873568,
+      "epoch": 0.7354134956874683,
+      "grad_norm": 6.4375,
+      "learning_rate": 7.485091831978394e-06,
+      "loss": 1.66829185,
+      "memory(GiB)": 111.15,
+      "step": 28990,
+      "train_speed(iter/s)": 0.448678
+    },
+    {
+      "acc": 0.65307674,
+      "epoch": 0.7355403348554034,
+      "grad_norm": 5.03125,
+      "learning_rate": 7.484181844599113e-06,
+      "loss": 1.67677422,
+      "memory(GiB)": 111.15,
+      "step": 28995,
+      "train_speed(iter/s)": 0.448719
+    },
+    {
+      "acc": 0.65499344,
+      "epoch": 0.7356671740233384,
+      "grad_norm": 5.71875,
+      "learning_rate": 7.483271747954425e-06,
+      "loss": 1.57612371,
+      "memory(GiB)": 111.15,
+      "step": 29000,
+      "train_speed(iter/s)": 0.44876
+    },
+    {
+      "epoch": 0.7356671740233384,
+      "eval_acc": 0.6425340595243217,
+      "eval_loss": 1.6114765405654907,
+      "eval_runtime": 114.3653,
+      "eval_samples_per_second": 55.699,
+      "eval_steps_per_second": 27.849,
+      "step": 29000
+    },
+    {
+      "acc": 0.64585381,
+      "epoch": 0.7357940131912735,
+      "grad_norm": 5.9375,
+      "learning_rate": 7.482361542084356e-06,
+      "loss": 1.62298241,
+      "memory(GiB)": 111.15,
+      "step": 29005,
+      "train_speed(iter/s)": 0.447976
+    },
+    {
+      "acc": 0.64721518,
+      "epoch": 0.7359208523592086,
+      "grad_norm": 4.34375,
+      "learning_rate": 7.481451227028946e-06,
+      "loss": 1.5576539,
+      "memory(GiB)": 111.15,
+      "step": 29010,
+      "train_speed(iter/s)": 0.448016
+    },
+    {
+      "acc": 0.66630187,
+      "epoch": 0.7360476915271436,
+      "grad_norm": 5.9375,
+      "learning_rate": 7.4805408028282316e-06,
+      "loss": 1.57110777,
+      "memory(GiB)": 111.15,
+      "step": 29015,
+      "train_speed(iter/s)": 0.448057
+    },
+    {
+      "acc": 0.65921688,
+      "epoch": 0.7361745306950787,
+      "grad_norm": 4.65625,
+      "learning_rate": 7.479630269522257e-06,
+      "loss": 1.60866165,
+      "memory(GiB)": 111.15,
+      "step": 29020,
+      "train_speed(iter/s)": 0.448097
+    },
+    {
+      "acc": 0.63960524,
+      "epoch": 0.7363013698630136,
+      "grad_norm": 5.59375,
+      "learning_rate": 7.478719627151073e-06,
+      "loss": 1.74650211,
+      "memory(GiB)": 111.15,
+      "step": 29025,
+      "train_speed(iter/s)": 0.448138
+    },
+    {
+      "acc": 0.64255228,
+      "epoch": 0.7364282090309487,
+      "grad_norm": 5.90625,
+      "learning_rate": 7.4778088757547325e-06,
+      "loss": 1.66784306,
+      "memory(GiB)": 111.15,
+      "step": 29030,
+      "train_speed(iter/s)": 0.448178
+    },
+    {
+      "acc": 0.65021229,
+      "epoch": 0.7365550481988838,
+      "grad_norm": 5.78125,
+      "learning_rate": 7.476898015373296e-06,
+      "loss": 1.67145271,
+      "memory(GiB)": 111.15,
+      "step": 29035,
+      "train_speed(iter/s)": 0.448218
+    },
+    {
+      "acc": 0.65701065,
+      "epoch": 0.7366818873668188,
+      "grad_norm": 5.125,
+      "learning_rate": 7.4759870460468256e-06,
+      "loss": 1.57578926,
+      "memory(GiB)": 111.15,
+      "step": 29040,
+      "train_speed(iter/s)": 0.448259
+    },
+    {
+      "acc": 0.64523315,
+      "epoch": 0.7368087265347539,
+      "grad_norm": 6.15625,
+      "learning_rate": 7.475075967815391e-06,
+      "loss": 1.61252975,
+      "memory(GiB)": 111.15,
+      "step": 29045,
+      "train_speed(iter/s)": 0.448299
+    },
+    {
+      "acc": 0.64708314,
+      "epoch": 0.736935565702689,
+      "grad_norm": 5.125,
+      "learning_rate": 7.474164780719064e-06,
+      "loss": 1.61332169,
+      "memory(GiB)": 111.15,
+      "step": 29050,
+      "train_speed(iter/s)": 0.44834
+    },
+    {
+      "acc": 0.64389343,
+      "epoch": 0.737062404870624,
+      "grad_norm": 6.03125,
+      "learning_rate": 7.473253484797924e-06,
+      "loss": 1.64670906,
+      "memory(GiB)": 111.15,
+      "step": 29055,
+      "train_speed(iter/s)": 0.44838
+    },
+    {
+      "acc": 0.66633196,
+      "epoch": 0.7371892440385591,
+      "grad_norm": 6.375,
+      "learning_rate": 7.4723420800920545e-06,
+      "loss": 1.59822044,
+      "memory(GiB)": 111.15,
+      "step": 29060,
+      "train_speed(iter/s)": 0.448421
+    },
+    {
+      "acc": 0.65356307,
+      "epoch": 0.7373160832064941,
+      "grad_norm": 5.125,
+      "learning_rate": 7.47143056664154e-06,
+      "loss": 1.60590496,
+      "memory(GiB)": 111.15,
+      "step": 29065,
+      "train_speed(iter/s)": 0.448462
+    },
+    {
+      "acc": 0.65235147,
+      "epoch": 0.7374429223744292,
+      "grad_norm": 5.5625,
+      "learning_rate": 7.470518944486476e-06,
+      "loss": 1.61864319,
+      "memory(GiB)": 111.15,
+      "step": 29070,
+      "train_speed(iter/s)": 0.448502
+    },
+    {
+      "acc": 0.64632368,
+      "epoch": 0.7375697615423643,
+      "grad_norm": 5.5625,
+      "learning_rate": 7.469607213666958e-06,
+      "loss": 1.6498661,
+      "memory(GiB)": 111.15,
+      "step": 29075,
+      "train_speed(iter/s)": 0.448543
+    },
+    {
+      "acc": 0.64858084,
+      "epoch": 0.7376966007102993,
+      "grad_norm": 5.875,
+      "learning_rate": 7.468695374223092e-06,
+      "loss": 1.61862907,
+      "memory(GiB)": 111.15,
+      "step": 29080,
+      "train_speed(iter/s)": 0.448583
+    },
+    {
+      "acc": 0.65040374,
+      "epoch": 0.7378234398782344,
+      "grad_norm": 4.6875,
+      "learning_rate": 7.4677834261949765e-06,
+      "loss": 1.63179932,
+      "memory(GiB)": 111.15,
+      "step": 29085,
+      "train_speed(iter/s)": 0.448624
+    },
+    {
+      "acc": 0.66974878,
+      "epoch": 0.7379502790461695,
+      "grad_norm": 5.5,
+      "learning_rate": 7.466871369622731e-06,
+      "loss": 1.53445778,
+      "memory(GiB)": 111.15,
+      "step": 29090,
+      "train_speed(iter/s)": 0.448665
+    },
+    {
+      "acc": 0.64431472,
+      "epoch": 0.7380771182141045,
+      "grad_norm": 5.9375,
+      "learning_rate": 7.465959204546469e-06,
+      "loss": 1.66033211,
+      "memory(GiB)": 111.15,
+      "step": 29095,
+      "train_speed(iter/s)": 0.448705
+    },
+    {
+      "acc": 0.64191065,
+      "epoch": 0.7382039573820396,
+      "grad_norm": 5.65625,
+      "learning_rate": 7.465046931006311e-06,
+      "loss": 1.66242256,
+      "memory(GiB)": 111.15,
+      "step": 29100,
+      "train_speed(iter/s)": 0.448746
+    },
+    {
+      "epoch": 0.7382039573820396,
+      "eval_acc": 0.6426297282381875,
+      "eval_loss": 1.6115998029708862,
+      "eval_runtime": 114.1449,
+      "eval_samples_per_second": 55.806,
+      "eval_steps_per_second": 27.903,
+      "step": 29100
+    },
+    {
+      "acc": 0.65629659,
+      "epoch": 0.7383307965499746,
+      "grad_norm": 5.28125,
+      "learning_rate": 7.464134549042383e-06,
+      "loss": 1.57267895,
+      "memory(GiB)": 111.15,
+      "step": 29105,
+      "train_speed(iter/s)": 0.447966
+    },
+    {
+      "acc": 0.65339622,
+      "epoch": 0.7384576357179097,
+      "grad_norm": 4.9375,
+      "learning_rate": 7.463222058694817e-06,
+      "loss": 1.64722328,
+      "memory(GiB)": 111.15,
+      "step": 29110,
+      "train_speed(iter/s)": 0.448006
+    },
+    {
+      "acc": 0.64759622,
+      "epoch": 0.7385844748858448,
+      "grad_norm": 4.6875,
+      "learning_rate": 7.462309460003747e-06,
+      "loss": 1.65577736,
+      "memory(GiB)": 111.15,
+      "step": 29115,
+      "train_speed(iter/s)": 0.448046
+    },
+    {
+      "acc": 0.64903812,
+      "epoch": 0.7387113140537798,
+      "grad_norm": 6.46875,
+      "learning_rate": 7.461396753009314e-06,
+      "loss": 1.64622383,
+      "memory(GiB)": 111.15,
+      "step": 29120,
+      "train_speed(iter/s)": 0.448087
+    },
+    {
+      "acc": 0.66136274,
+      "epoch": 0.7388381532217149,
+      "grad_norm": 5.03125,
+      "learning_rate": 7.460483937751662e-06,
+      "loss": 1.5687767,
+      "memory(GiB)": 111.15,
+      "step": 29125,
+      "train_speed(iter/s)": 0.448127
+    },
+    {
+      "acc": 0.64324884,
+      "epoch": 0.73896499238965,
+      "grad_norm": 4.90625,
+      "learning_rate": 7.45957101427094e-06,
+      "loss": 1.57087421,
+      "memory(GiB)": 111.15,
+      "step": 29130,
+      "train_speed(iter/s)": 0.448167
+    },
+    {
+      "acc": 0.64440498,
+      "epoch": 0.739091831557585,
+      "grad_norm": 4.90625,
+      "learning_rate": 7.458657982607303e-06,
+      "loss": 1.64942818,
+      "memory(GiB)": 111.15,
+      "step": 29135,
+      "train_speed(iter/s)": 0.448208
+    },
+    {
+      "acc": 0.64200516,
+      "epoch": 0.73921867072552,
+      "grad_norm": 6.1875,
+      "learning_rate": 7.457744842800913e-06,
+      "loss": 1.66835403,
+      "memory(GiB)": 111.15,
+      "step": 29140,
+      "train_speed(iter/s)": 0.448248
+    },
+    {
+      "acc": 0.63269348,
+      "epoch": 0.739345509893455,
+      "grad_norm": 5.5,
+      "learning_rate": 7.45683159489193e-06,
+      "loss": 1.71690826,
+      "memory(GiB)": 111.15,
+      "step": 29145,
+      "train_speed(iter/s)": 0.448288
+    },
+    {
+      "acc": 0.64072227,
+      "epoch": 0.7394723490613901,
+      "grad_norm": 5.90625,
+      "learning_rate": 7.455918238920526e-06,
+      "loss": 1.63409367,
+      "memory(GiB)": 111.15,
+      "step": 29150,
+      "train_speed(iter/s)": 0.448329
+    },
+    {
+      "acc": 0.64474344,
+      "epoch": 0.7395991882293252,
+      "grad_norm": 5.40625,
+      "learning_rate": 7.455004774926873e-06,
+      "loss": 1.65958672,
+      "memory(GiB)": 111.15,
+      "step": 29155,
+      "train_speed(iter/s)": 0.448369
+    },
+    {
+      "acc": 0.65025768,
+      "epoch": 0.7397260273972602,
+      "grad_norm": 7.0,
+      "learning_rate": 7.454091202951148e-06,
+      "loss": 1.60298309,
+      "memory(GiB)": 111.15,
+      "step": 29160,
+      "train_speed(iter/s)": 0.44841
+    },
+    {
+      "acc": 0.64391394,
+      "epoch": 0.7398528665651953,
+      "grad_norm": 5.875,
+      "learning_rate": 7.453177523033536e-06,
+      "loss": 1.62446022,
+      "memory(GiB)": 111.15,
+      "step": 29165,
+      "train_speed(iter/s)": 0.44845
+    },
+    {
+      "acc": 0.64198828,
+      "epoch": 0.7399797057331304,
+      "grad_norm": 6.34375,
+      "learning_rate": 7.452263735214223e-06,
+      "loss": 1.64020386,
+      "memory(GiB)": 111.15,
+      "step": 29170,
+      "train_speed(iter/s)": 0.448491
+    },
+    {
+      "acc": 0.65269241,
+      "epoch": 0.7401065449010654,
+      "grad_norm": 4.90625,
+      "learning_rate": 7.451349839533404e-06,
+      "loss": 1.65752068,
+      "memory(GiB)": 111.15,
+      "step": 29175,
+      "train_speed(iter/s)": 0.448531
+    },
+    {
+      "acc": 0.64224358,
+      "epoch": 0.7402333840690005,
+      "grad_norm": 5.375,
+      "learning_rate": 7.450435836031273e-06,
+      "loss": 1.59026737,
+      "memory(GiB)": 111.15,
+      "step": 29180,
+      "train_speed(iter/s)": 0.448572
+    },
+    {
+      "acc": 0.65218239,
+      "epoch": 0.7403602232369355,
+      "grad_norm": 5.21875,
+      "learning_rate": 7.449521724748034e-06,
+      "loss": 1.59969654,
+      "memory(GiB)": 111.15,
+      "step": 29185,
+      "train_speed(iter/s)": 0.448612
+    },
+    {
+      "acc": 0.6520628,
+      "epoch": 0.7404870624048706,
+      "grad_norm": 5.75,
+      "learning_rate": 7.4486075057238936e-06,
+      "loss": 1.57663403,
+      "memory(GiB)": 111.15,
+      "step": 29190,
+      "train_speed(iter/s)": 0.448653
+    },
+    {
+      "acc": 0.65496516,
+      "epoch": 0.7406139015728057,
+      "grad_norm": 5.40625,
+      "learning_rate": 7.447693178999062e-06,
+      "loss": 1.65670128,
+      "memory(GiB)": 111.15,
+      "step": 29195,
+      "train_speed(iter/s)": 0.448693
+    },
+    {
+      "acc": 0.64273338,
+      "epoch": 0.7407407407407407,
+      "grad_norm": 5.75,
+      "learning_rate": 7.446778744613759e-06,
+      "loss": 1.64350891,
+      "memory(GiB)": 111.15,
+      "step": 29200,
+      "train_speed(iter/s)": 0.448733
+    },
+    {
+      "epoch": 0.7407407407407407,
+      "eval_acc": 0.6426380835843767,
+      "eval_loss": 1.6114305257797241,
+      "eval_runtime": 113.0035,
+      "eval_samples_per_second": 56.37,
+      "eval_steps_per_second": 28.185,
+      "step": 29200
+    },
+    {
+      "acc": 0.66264858,
+      "epoch": 0.7408675799086758,
+      "grad_norm": 5.125,
+      "learning_rate": 7.445864202608198e-06,
+      "loss": 1.56495304,
+      "memory(GiB)": 111.15,
+      "step": 29205,
+      "train_speed(iter/s)": 0.447964
+    },
+    {
+      "acc": 0.6416831,
+      "epoch": 0.7409944190766109,
+      "grad_norm": 5.90625,
+      "learning_rate": 7.444949553022613e-06,
+      "loss": 1.61845398,
+      "memory(GiB)": 111.15,
+      "step": 29210,
+      "train_speed(iter/s)": 0.448004
+    },
+    {
+      "acc": 0.65138731,
+      "epoch": 0.7411212582445459,
+      "grad_norm": 5.96875,
+      "learning_rate": 7.444034795897229e-06,
+      "loss": 1.59268589,
+      "memory(GiB)": 111.15,
+      "step": 29215,
+      "train_speed(iter/s)": 0.448044
+    },
+    {
+      "acc": 0.66728354,
+      "epoch": 0.741248097412481,
+      "grad_norm": 5.25,
+      "learning_rate": 7.443119931272285e-06,
+      "loss": 1.59935894,
+      "memory(GiB)": 111.15,
+      "step": 29220,
+      "train_speed(iter/s)": 0.448085
+    },
+    {
+      "acc": 0.6589582,
+      "epoch": 0.741374936580416,
+      "grad_norm": 5.53125,
+      "learning_rate": 7.442204959188016e-06,
+      "loss": 1.60165405,
+      "memory(GiB)": 111.15,
+      "step": 29225,
+      "train_speed(iter/s)": 0.448125
+    },
+    {
+      "acc": 0.6432857,
+      "epoch": 0.7415017757483511,
+      "grad_norm": 5.21875,
+      "learning_rate": 7.4412898796846724e-06,
+      "loss": 1.65292816,
+      "memory(GiB)": 111.15,
+      "step": 29230,
+      "train_speed(iter/s)": 0.448165
+    },
+    {
+      "acc": 0.6655982,
+      "epoch": 0.7416286149162862,
+      "grad_norm": 5.03125,
+      "learning_rate": 7.440374692802497e-06,
+      "loss": 1.58186235,
+      "memory(GiB)": 111.15,
+      "step": 29235,
+      "train_speed(iter/s)": 0.448206
+    },
+    {
+      "acc": 0.66162276,
+      "epoch": 0.7417554540842212,
+      "grad_norm": 5.96875,
+      "learning_rate": 7.439459398581747e-06,
+      "loss": 1.55382938,
+      "memory(GiB)": 111.15,
+      "step": 29240,
+      "train_speed(iter/s)": 0.448246
+    },
+    {
+      "acc": 0.65515318,
+      "epoch": 0.7418822932521563,
+      "grad_norm": 6.71875,
+      "learning_rate": 7.438543997062684e-06,
+      "loss": 1.53960314,
+      "memory(GiB)": 111.15,
+      "step": 29245,
+      "train_speed(iter/s)": 0.448286
+    },
+    {
+      "acc": 0.63221388,
+      "epoch": 0.7420091324200914,
+      "grad_norm": 5.25,
+      "learning_rate": 7.437628488285568e-06,
+      "loss": 1.61046371,
+      "memory(GiB)": 111.15,
+      "step": 29250,
+      "train_speed(iter/s)": 0.448327
+    },
+    {
+      "acc": 0.64691267,
+      "epoch": 0.7421359715880264,
+      "grad_norm": 4.65625,
+      "learning_rate": 7.4367128722906665e-06,
+      "loss": 1.60231438,
+      "memory(GiB)": 111.15,
+      "step": 29255,
+      "train_speed(iter/s)": 0.448367
+    },
+    {
+      "acc": 0.64576454,
+      "epoch": 0.7422628107559615,
+      "grad_norm": 5.40625,
+      "learning_rate": 7.435797149118255e-06,
+      "loss": 1.64953461,
+      "memory(GiB)": 111.15,
+      "step": 29260,
+      "train_speed(iter/s)": 0.448407
+    },
+    {
+      "acc": 0.64568243,
+      "epoch": 0.7423896499238964,
+      "grad_norm": 5.15625,
+      "learning_rate": 7.434881318808609e-06,
+      "loss": 1.63254986,
+      "memory(GiB)": 111.15,
+      "step": 29265,
+      "train_speed(iter/s)": 0.448448
+    },
+    {
+      "acc": 0.64882431,
+      "epoch": 0.7425164890918315,
+      "grad_norm": 4.96875,
+      "learning_rate": 7.433965381402013e-06,
+      "loss": 1.59137335,
+      "memory(GiB)": 111.15,
+      "step": 29270,
+      "train_speed(iter/s)": 0.448489
+    },
+    {
+      "acc": 0.65075922,
+      "epoch": 0.7426433282597666,
+      "grad_norm": 6.0625,
+      "learning_rate": 7.4330493369387514e-06,
+      "loss": 1.59557304,
+      "memory(GiB)": 111.15,
+      "step": 29275,
+      "train_speed(iter/s)": 0.448529
+    },
+    {
+      "acc": 0.63262119,
+      "epoch": 0.7427701674277016,
+      "grad_norm": 4.96875,
+      "learning_rate": 7.432133185459117e-06,
+      "loss": 1.60346889,
+      "memory(GiB)": 111.15,
+      "step": 29280,
+      "train_speed(iter/s)": 0.448569
+    },
+    {
+      "acc": 0.64509044,
+      "epoch": 0.7428970065956367,
+      "grad_norm": 5.53125,
+      "learning_rate": 7.431216927003406e-06,
+      "loss": 1.59330788,
+      "memory(GiB)": 111.15,
+      "step": 29285,
+      "train_speed(iter/s)": 0.44861
+    },
+    {
+      "acc": 0.65697455,
+      "epoch": 0.7430238457635718,
+      "grad_norm": 5.84375,
+      "learning_rate": 7.430300561611922e-06,
+      "loss": 1.56828794,
+      "memory(GiB)": 111.15,
+      "step": 29290,
+      "train_speed(iter/s)": 0.44865
+    },
+    {
+      "acc": 0.65387545,
+      "epoch": 0.7431506849315068,
+      "grad_norm": 4.84375,
+      "learning_rate": 7.429384089324967e-06,
+      "loss": 1.55713673,
+      "memory(GiB)": 111.15,
+      "step": 29295,
+      "train_speed(iter/s)": 0.44869
+    },
+    {
+      "acc": 0.64134035,
+      "epoch": 0.7432775240994419,
+      "grad_norm": 5.34375,
+      "learning_rate": 7.428467510182854e-06,
+      "loss": 1.63156509,
+      "memory(GiB)": 111.15,
+      "step": 29300,
+      "train_speed(iter/s)": 0.448731
+    },
+    {
+      "epoch": 0.7432775240994419,
+      "eval_acc": 0.6426790247807035,
+      "eval_loss": 1.6120020151138306,
+      "eval_runtime": 112.1652,
+      "eval_samples_per_second": 56.791,
+      "eval_steps_per_second": 28.396,
+      "step": 29300
+    },
+    {
+      "acc": 0.66511407,
+      "epoch": 0.7434043632673769,
+      "grad_norm": 5.3125,
+      "learning_rate": 7.427550824225896e-06,
+      "loss": 1.53677807,
+      "memory(GiB)": 111.15,
+      "step": 29305,
+      "train_speed(iter/s)": 0.44797
+    },
+    {
+      "acc": 0.65208721,
+      "epoch": 0.743531202435312,
+      "grad_norm": 6.125,
+      "learning_rate": 7.426634031494417e-06,
+      "loss": 1.64579105,
+      "memory(GiB)": 111.15,
+      "step": 29310,
+      "train_speed(iter/s)": 0.44801
+    },
+    {
+      "acc": 0.66410961,
+      "epoch": 0.7436580416032471,
+      "grad_norm": 5.625,
+      "learning_rate": 7.425717132028738e-06,
+      "loss": 1.54909515,
+      "memory(GiB)": 111.15,
+      "step": 29315,
+      "train_speed(iter/s)": 0.44805
+    },
+    {
+      "acc": 0.62959862,
+      "epoch": 0.7437848807711821,
+      "grad_norm": 5.125,
+      "learning_rate": 7.42480012586919e-06,
+      "loss": 1.70022736,
+      "memory(GiB)": 111.15,
+      "step": 29320,
+      "train_speed(iter/s)": 0.44809
+    },
+    {
+      "acc": 0.64820552,
+      "epoch": 0.7439117199391172,
+      "grad_norm": 5.59375,
+      "learning_rate": 7.423883013056106e-06,
+      "loss": 1.5664731,
+      "memory(GiB)": 111.15,
+      "step": 29325,
+      "train_speed(iter/s)": 0.44813
+    },
+    {
+      "acc": 0.64884439,
+      "epoch": 0.7440385591070523,
+      "grad_norm": 5.6875,
+      "learning_rate": 7.422965793629825e-06,
+      "loss": 1.60878658,
+      "memory(GiB)": 111.15,
+      "step": 29330,
+      "train_speed(iter/s)": 0.448169
+    },
+    {
+      "acc": 0.64543371,
+      "epoch": 0.7441653982749873,
+      "grad_norm": 6.5,
+      "learning_rate": 7.422048467630691e-06,
+      "loss": 1.67448158,
+      "memory(GiB)": 111.15,
+      "step": 29335,
+      "train_speed(iter/s)": 0.448209
+    },
+    {
+      "acc": 0.65076547,
+      "epoch": 0.7442922374429224,
+      "grad_norm": 5.21875,
+      "learning_rate": 7.421131035099052e-06,
+      "loss": 1.55163946,
+      "memory(GiB)": 111.15,
+      "step": 29340,
+      "train_speed(iter/s)": 0.448249
+    },
+    {
+      "acc": 0.65343723,
+      "epoch": 0.7444190766108574,
+      "grad_norm": 5.28125,
+      "learning_rate": 7.42021349607526e-06,
+      "loss": 1.59713478,
+      "memory(GiB)": 111.15,
+      "step": 29345,
+      "train_speed(iter/s)": 0.448289
+    },
+    {
+      "acc": 0.66814728,
+      "epoch": 0.7445459157787925,
+      "grad_norm": 4.375,
+      "learning_rate": 7.419295850599673e-06,
+      "loss": 1.49626923,
+      "memory(GiB)": 111.15,
+      "step": 29350,
+      "train_speed(iter/s)": 0.448329
+    },
+    {
+      "acc": 0.65309067,
+      "epoch": 0.7446727549467276,
+      "grad_norm": 5.9375,
+      "learning_rate": 7.418378098712653e-06,
+      "loss": 1.6198103,
+      "memory(GiB)": 111.15,
+      "step": 29355,
+      "train_speed(iter/s)": 0.448369
+    },
+    {
+      "acc": 0.63620911,
+      "epoch": 0.7447995941146626,
+      "grad_norm": 4.9375,
+      "learning_rate": 7.417460240454568e-06,
+      "loss": 1.75131035,
+      "memory(GiB)": 111.15,
+      "step": 29360,
+      "train_speed(iter/s)": 0.448409
+    },
+    {
+      "acc": 0.66232438,
+      "epoch": 0.7449264332825977,
+      "grad_norm": 5.375,
+      "learning_rate": 7.4165422758657865e-06,
+      "loss": 1.60025024,
+      "memory(GiB)": 111.15,
+      "step": 29365,
+      "train_speed(iter/s)": 0.44845
+    },
+    {
+      "acc": 0.65401545,
+      "epoch": 0.7450532724505328,
+      "grad_norm": 5.5,
+      "learning_rate": 7.415624204986689e-06,
+      "loss": 1.58204355,
+      "memory(GiB)": 111.15,
+      "step": 29370,
+      "train_speed(iter/s)": 0.44849
+    },
+    {
+      "acc": 0.64803619,
+      "epoch": 0.7451801116184678,
+      "grad_norm": 4.84375,
+      "learning_rate": 7.4147060278576525e-06,
+      "loss": 1.63326607,
+      "memory(GiB)": 111.15,
+      "step": 29375,
+      "train_speed(iter/s)": 0.44853
+    },
+    {
+      "acc": 0.65079765,
+      "epoch": 0.7453069507864029,
+      "grad_norm": 5.78125,
+      "learning_rate": 7.413787744519064e-06,
+      "loss": 1.61018982,
+      "memory(GiB)": 111.15,
+      "step": 29380,
+      "train_speed(iter/s)": 0.44857
+    },
+    {
+      "acc": 0.64109211,
+      "epoch": 0.7454337899543378,
+      "grad_norm": 5.15625,
+      "learning_rate": 7.412869355011314e-06,
+      "loss": 1.61877098,
+      "memory(GiB)": 111.15,
+      "step": 29385,
+      "train_speed(iter/s)": 0.44861
+    },
+    {
+      "acc": 0.64149733,
+      "epoch": 0.7455606291222729,
+      "grad_norm": 5.34375,
+      "learning_rate": 7.411950859374797e-06,
+      "loss": 1.67174187,
+      "memory(GiB)": 111.15,
+      "step": 29390,
+      "train_speed(iter/s)": 0.44865
+    },
+    {
+      "acc": 0.66227632,
+      "epoch": 0.745687468290208,
+      "grad_norm": 5.8125,
+      "learning_rate": 7.411032257649913e-06,
+      "loss": 1.65630989,
+      "memory(GiB)": 111.15,
+      "step": 29395,
+      "train_speed(iter/s)": 0.448691
+    },
+    {
+      "acc": 0.65377064,
+      "epoch": 0.745814307458143,
+      "grad_norm": 5.28125,
+      "learning_rate": 7.410113549877065e-06,
+      "loss": 1.59004078,
+      "memory(GiB)": 111.15,
+      "step": 29400,
+      "train_speed(iter/s)": 0.44873
+    },
+    {
+      "epoch": 0.745814307458143,
+      "eval_acc": 0.6426802780826318,
+      "eval_loss": 1.6115682125091553,
+      "eval_runtime": 113.8122,
+      "eval_samples_per_second": 55.969,
+      "eval_steps_per_second": 27.985,
+      "step": 29400
+    },
+    {
+      "acc": 0.63829079,
+      "epoch": 0.7459411466260781,
+      "grad_norm": 4.6875,
+      "learning_rate": 7.409194736096663e-06,
+      "loss": 1.63111629,
+      "memory(GiB)": 111.15,
+      "step": 29405,
+      "train_speed(iter/s)": 0.447962
+    },
+    {
+      "acc": 0.66006489,
+      "epoch": 0.7460679857940132,
+      "grad_norm": 5.5625,
+      "learning_rate": 7.408275816349121e-06,
+      "loss": 1.60469952,
+      "memory(GiB)": 111.15,
+      "step": 29410,
+      "train_speed(iter/s)": 0.448001
+    },
+    {
+      "acc": 0.64852786,
+      "epoch": 0.7461948249619482,
+      "grad_norm": 4.875,
+      "learning_rate": 7.4073567906748555e-06,
+      "loss": 1.60312099,
+      "memory(GiB)": 111.15,
+      "step": 29415,
+      "train_speed(iter/s)": 0.448041
+    },
+    {
+      "acc": 0.65310087,
+      "epoch": 0.7463216641298833,
+      "grad_norm": 4.9375,
+      "learning_rate": 7.406437659114291e-06,
+      "loss": 1.59351635,
+      "memory(GiB)": 111.15,
+      "step": 29420,
+      "train_speed(iter/s)": 0.448081
+    },
+    {
+      "acc": 0.64683132,
+      "epoch": 0.7464485032978183,
+      "grad_norm": 5.3125,
+      "learning_rate": 7.405518421707854e-06,
+      "loss": 1.65713463,
+      "memory(GiB)": 111.15,
+      "step": 29425,
+      "train_speed(iter/s)": 0.44812
+    },
+    {
+      "acc": 0.6504765,
+      "epoch": 0.7465753424657534,
+      "grad_norm": 5.4375,
+      "learning_rate": 7.404599078495977e-06,
+      "loss": 1.56935759,
+      "memory(GiB)": 111.15,
+      "step": 29430,
+      "train_speed(iter/s)": 0.44816
+    },
+    {
+      "acc": 0.65037112,
+      "epoch": 0.7467021816336885,
+      "grad_norm": 4.53125,
+      "learning_rate": 7.403679629519096e-06,
+      "loss": 1.66003571,
+      "memory(GiB)": 111.15,
+      "step": 29435,
+      "train_speed(iter/s)": 0.4482
+    },
+    {
+      "acc": 0.63711114,
+      "epoch": 0.7468290208016235,
+      "grad_norm": 5.1875,
+      "learning_rate": 7.402760074817654e-06,
+      "loss": 1.74275894,
+      "memory(GiB)": 111.15,
+      "step": 29440,
+      "train_speed(iter/s)": 0.44824
+    },
+    {
+      "acc": 0.67355967,
+      "epoch": 0.7469558599695586,
+      "grad_norm": 5.09375,
+      "learning_rate": 7.4018404144320955e-06,
+      "loss": 1.58881054,
+      "memory(GiB)": 111.15,
+      "step": 29445,
+      "train_speed(iter/s)": 0.44828
+    },
+    {
+      "acc": 0.65925965,
+      "epoch": 0.7470826991374937,
+      "grad_norm": 5.8125,
+      "learning_rate": 7.4009206484028735e-06,
+      "loss": 1.61961365,
+      "memory(GiB)": 111.15,
+      "step": 29450,
+      "train_speed(iter/s)": 0.44832
+    },
+    {
+      "acc": 0.65247531,
+      "epoch": 0.7472095383054287,
+      "grad_norm": 5.5,
+      "learning_rate": 7.400000776770441e-06,
+      "loss": 1.59361467,
+      "memory(GiB)": 111.15,
+      "step": 29455,
+      "train_speed(iter/s)": 0.44836
+    },
+    {
+      "acc": 0.64123402,
+      "epoch": 0.7473363774733638,
+      "grad_norm": 6.0625,
+      "learning_rate": 7.39908079957526e-06,
+      "loss": 1.63577023,
+      "memory(GiB)": 111.15,
+      "step": 29460,
+      "train_speed(iter/s)": 0.4484
+    },
+    {
+      "acc": 0.64594517,
+      "epoch": 0.7474632166412988,
+      "grad_norm": 7.15625,
+      "learning_rate": 7.398160716857794e-06,
+      "loss": 1.62455482,
+      "memory(GiB)": 111.15,
+      "step": 29465,
+      "train_speed(iter/s)": 0.448439
+    },
+    {
+      "acc": 0.65376158,
+      "epoch": 0.7475900558092339,
+      "grad_norm": 5.28125,
+      "learning_rate": 7.397240528658513e-06,
+      "loss": 1.59006748,
+      "memory(GiB)": 111.15,
+      "step": 29470,
+      "train_speed(iter/s)": 0.448479
+    },
+    {
+      "acc": 0.6520299,
+      "epoch": 0.747716894977169,
+      "grad_norm": 5.3125,
+      "learning_rate": 7.39632023501789e-06,
+      "loss": 1.62408829,
+      "memory(GiB)": 111.15,
+      "step": 29475,
+      "train_speed(iter/s)": 0.448519
+    },
+    {
+      "acc": 0.63823261,
+      "epoch": 0.747843734145104,
+      "grad_norm": 4.90625,
+      "learning_rate": 7.3953998359764036e-06,
+      "loss": 1.69240799,
+      "memory(GiB)": 111.15,
+      "step": 29480,
+      "train_speed(iter/s)": 0.448559
+    },
+    {
+      "acc": 0.64778252,
+      "epoch": 0.7479705733130391,
+      "grad_norm": 5.96875,
+      "learning_rate": 7.394479331574539e-06,
+      "loss": 1.64523525,
+      "memory(GiB)": 111.15,
+      "step": 29485,
+      "train_speed(iter/s)": 0.448599
+    },
+    {
+      "acc": 0.63866835,
+      "epoch": 0.7480974124809742,
+      "grad_norm": 4.875,
+      "learning_rate": 7.393558721852783e-06,
+      "loss": 1.69294891,
+      "memory(GiB)": 111.15,
+      "step": 29490,
+      "train_speed(iter/s)": 0.448639
+    },
+    {
+      "acc": 0.63603315,
+      "epoch": 0.7482242516489092,
+      "grad_norm": 5.75,
+      "learning_rate": 7.392638006851627e-06,
+      "loss": 1.6570961,
+      "memory(GiB)": 111.15,
+      "step": 29495,
+      "train_speed(iter/s)": 0.448678
+    },
+    {
+      "acc": 0.66273909,
+      "epoch": 0.7483510908168443,
+      "grad_norm": 5.40625,
+      "learning_rate": 7.391717186611569e-06,
+      "loss": 1.60712452,
+      "memory(GiB)": 111.15,
+      "step": 29500,
+      "train_speed(iter/s)": 0.448718
+    },
+    {
+      "epoch": 0.7483510908168443,
+      "eval_acc": 0.6425424148705109,
+      "eval_loss": 1.6116019487380981,
+      "eval_runtime": 114.9076,
+      "eval_samples_per_second": 55.436,
+      "eval_steps_per_second": 27.718,
+      "step": 29500
+    },
+    {
+      "acc": 0.65913205,
+      "epoch": 0.7484779299847792,
+      "grad_norm": 5.4375,
+      "learning_rate": 7.39079626117311e-06,
+      "loss": 1.58531246,
+      "memory(GiB)": 111.15,
+      "step": 29505,
+      "train_speed(iter/s)": 0.447944
+    },
+    {
+      "acc": 0.63766146,
+      "epoch": 0.7486047691527143,
+      "grad_norm": 5.65625,
+      "learning_rate": 7.3898752305767595e-06,
+      "loss": 1.6749897,
+      "memory(GiB)": 111.15,
+      "step": 29510,
+      "train_speed(iter/s)": 0.447984
+    },
+    {
+      "acc": 0.63315835,
+      "epoch": 0.7487316083206494,
+      "grad_norm": 4.96875,
+      "learning_rate": 7.3889540948630245e-06,
+      "loss": 1.65557556,
+      "memory(GiB)": 111.15,
+      "step": 29515,
+      "train_speed(iter/s)": 0.448023
+    },
+    {
+      "acc": 0.64826269,
+      "epoch": 0.7488584474885844,
+      "grad_norm": 6.25,
+      "learning_rate": 7.388032854072424e-06,
+      "loss": 1.60160694,
+      "memory(GiB)": 111.15,
+      "step": 29520,
+      "train_speed(iter/s)": 0.448063
+    },
+    {
+      "acc": 0.6403389,
+      "epoch": 0.7489852866565195,
+      "grad_norm": 5.59375,
+      "learning_rate": 7.387111508245476e-06,
+      "loss": 1.67040653,
+      "memory(GiB)": 111.15,
+      "step": 29525,
+      "train_speed(iter/s)": 0.448103
+    },
+    {
+      "acc": 0.6607872,
+      "epoch": 0.7491121258244546,
+      "grad_norm": 5.3125,
+      "learning_rate": 7.386190057422706e-06,
+      "loss": 1.51414986,
+      "memory(GiB)": 111.15,
+      "step": 29530,
+      "train_speed(iter/s)": 0.448142
+    },
+    {
+      "acc": 0.64716215,
+      "epoch": 0.7492389649923896,
+      "grad_norm": 5.0,
+      "learning_rate": 7.385268501644645e-06,
+      "loss": 1.61074123,
+      "memory(GiB)": 111.15,
+      "step": 29535,
+      "train_speed(iter/s)": 0.448181
+    },
+    {
+      "acc": 0.65388522,
+      "epoch": 0.7493658041603247,
+      "grad_norm": 5.21875,
+      "learning_rate": 7.384346840951824e-06,
+      "loss": 1.66741581,
+      "memory(GiB)": 111.15,
+      "step": 29540,
+      "train_speed(iter/s)": 0.448221
+    },
+    {
+      "acc": 0.6549139,
+      "epoch": 0.7494926433282597,
+      "grad_norm": 5.8125,
+      "learning_rate": 7.383425075384785e-06,
+      "loss": 1.57834387,
+      "memory(GiB)": 111.15,
+      "step": 29545,
+      "train_speed(iter/s)": 0.448261
+    },
+    {
+      "acc": 0.64871311,
+      "epoch": 0.7496194824961948,
+      "grad_norm": 5.21875,
+      "learning_rate": 7.382503204984069e-06,
+      "loss": 1.58654814,
+      "memory(GiB)": 111.15,
+      "step": 29550,
+      "train_speed(iter/s)": 0.4483
+    },
+    {
+      "acc": 0.64162226,
+      "epoch": 0.7497463216641299,
+      "grad_norm": 5.34375,
+      "learning_rate": 7.381581229790226e-06,
+      "loss": 1.58373375,
+      "memory(GiB)": 111.15,
+      "step": 29555,
+      "train_speed(iter/s)": 0.44834
+    },
+    {
+      "acc": 0.65455599,
+      "epoch": 0.7498731608320649,
+      "grad_norm": 5.59375,
+      "learning_rate": 7.380659149843806e-06,
+      "loss": 1.58460407,
+      "memory(GiB)": 111.15,
+      "step": 29560,
+      "train_speed(iter/s)": 0.44838
+    },
+    {
+      "acc": 0.64732928,
+      "epoch": 0.75,
+      "grad_norm": 4.8125,
+      "learning_rate": 7.379736965185369e-06,
+      "loss": 1.59611406,
+      "memory(GiB)": 111.15,
+      "step": 29565,
+      "train_speed(iter/s)": 0.44842
+    },
+    {
+      "acc": 0.6345233,
+      "epoch": 0.7501268391679351,
+      "grad_norm": 4.5625,
+      "learning_rate": 7.378814675855475e-06,
+      "loss": 1.70942955,
+      "memory(GiB)": 111.15,
+      "step": 29570,
+      "train_speed(iter/s)": 0.448459
+    },
+    {
+      "acc": 0.66387906,
+      "epoch": 0.7502536783358701,
+      "grad_norm": 5.875,
+      "learning_rate": 7.37789228189469e-06,
+      "loss": 1.59051838,
+      "memory(GiB)": 111.15,
+      "step": 29575,
+      "train_speed(iter/s)": 0.448499
+    },
+    {
+      "acc": 0.65322037,
+      "epoch": 0.7503805175038052,
+      "grad_norm": 4.625,
+      "learning_rate": 7.376969783343588e-06,
+      "loss": 1.60753441,
+      "memory(GiB)": 111.15,
+      "step": 29580,
+      "train_speed(iter/s)": 0.448539
+    },
+    {
+      "acc": 0.65544038,
+      "epoch": 0.7505073566717403,
+      "grad_norm": 5.625,
+      "learning_rate": 7.37604718024274e-06,
+      "loss": 1.56431484,
+      "memory(GiB)": 111.15,
+      "step": 29585,
+      "train_speed(iter/s)": 0.448542
+    },
+    {
+      "acc": 0.65853043,
+      "epoch": 0.7506341958396753,
+      "grad_norm": 6.125,
+      "learning_rate": 7.375124472632732e-06,
+      "loss": 1.65765018,
+      "memory(GiB)": 111.15,
+      "step": 29590,
+      "train_speed(iter/s)": 0.448582
+    },
+    {
+      "acc": 0.63557653,
+      "epoch": 0.7507610350076104,
+      "grad_norm": 4.9375,
+      "learning_rate": 7.374201660554142e-06,
+      "loss": 1.69352913,
+      "memory(GiB)": 111.15,
+      "step": 29595,
+      "train_speed(iter/s)": 0.448622
+    },
+    {
+      "acc": 0.64573288,
+      "epoch": 0.7508878741755454,
+      "grad_norm": 6.125,
+      "learning_rate": 7.373278744047565e-06,
+      "loss": 1.65005512,
+      "memory(GiB)": 111.15,
+      "step": 29600,
+      "train_speed(iter/s)": 0.448662
+    },
+    {
+      "epoch": 0.7508878741755454,
+      "eval_acc": 0.6426522876728982,
+      "eval_loss": 1.611423373222351,
+      "eval_runtime": 114.5153,
+      "eval_samples_per_second": 55.626,
+      "eval_steps_per_second": 27.813,
+      "step": 29600
+    },
+    {
+      "acc": 0.64399376,
+      "epoch": 0.7510147133434805,
+      "grad_norm": 6.6875,
+      "learning_rate": 7.372355723153593e-06,
+      "loss": 1.70458298,
+      "memory(GiB)": 111.15,
+      "step": 29605,
+      "train_speed(iter/s)": 0.447894
+    },
+    {
+      "acc": 0.63826246,
+      "epoch": 0.7511415525114156,
+      "grad_norm": 5.875,
+      "learning_rate": 7.371432597912824e-06,
+      "loss": 1.66380424,
+      "memory(GiB)": 111.15,
+      "step": 29610,
+      "train_speed(iter/s)": 0.447934
+    },
+    {
+      "acc": 0.65049663,
+      "epoch": 0.7512683916793506,
+      "grad_norm": 5.4375,
+      "learning_rate": 7.3705093683658616e-06,
+      "loss": 1.64381676,
+      "memory(GiB)": 111.15,
+      "step": 29615,
+      "train_speed(iter/s)": 0.447974
+    },
+    {
+      "acc": 0.65327501,
+      "epoch": 0.7513952308472857,
+      "grad_norm": 5.65625,
+      "learning_rate": 7.369586034553313e-06,
+      "loss": 1.64494114,
+      "memory(GiB)": 111.15,
+      "step": 29620,
+      "train_speed(iter/s)": 0.448014
+    },
+    {
+      "acc": 0.64212008,
+      "epoch": 0.7515220700152208,
+      "grad_norm": 5.75,
+      "learning_rate": 7.368662596515792e-06,
+      "loss": 1.71837444,
+      "memory(GiB)": 111.15,
+      "step": 29625,
+      "train_speed(iter/s)": 0.448053
+    },
+    {
+      "acc": 0.64545407,
+      "epoch": 0.7516489091831557,
+      "grad_norm": 5.90625,
+      "learning_rate": 7.367739054293914e-06,
+      "loss": 1.66051254,
+      "memory(GiB)": 111.15,
+      "step": 29630,
+      "train_speed(iter/s)": 0.448094
+    },
+    {
+      "acc": 0.64345474,
+      "epoch": 0.7517757483510908,
+      "grad_norm": 4.4375,
+      "learning_rate": 7.366815407928302e-06,
+      "loss": 1.61324348,
+      "memory(GiB)": 111.15,
+      "step": 29635,
+      "train_speed(iter/s)": 0.448134
+    },
+    {
+      "acc": 0.65344048,
+      "epoch": 0.7519025875190258,
+      "grad_norm": 4.875,
+      "learning_rate": 7.365891657459582e-06,
+      "loss": 1.60489197,
+      "memory(GiB)": 111.15,
+      "step": 29640,
+      "train_speed(iter/s)": 0.448174
+    },
+    {
+      "acc": 0.63664408,
+      "epoch": 0.7520294266869609,
+      "grad_norm": 5.53125,
+      "learning_rate": 7.3649678029283825e-06,
+      "loss": 1.68509712,
+      "memory(GiB)": 111.15,
+      "step": 29645,
+      "train_speed(iter/s)": 0.448214
+    },
+    {
+      "acc": 0.64011197,
+      "epoch": 0.752156265854896,
+      "grad_norm": 5.8125,
+      "learning_rate": 7.364043844375342e-06,
+      "loss": 1.68060188,
+      "memory(GiB)": 111.15,
+      "step": 29650,
+      "train_speed(iter/s)": 0.448254
+    },
+    {
+      "acc": 0.64152231,
+      "epoch": 0.752283105022831,
+      "grad_norm": 5.1875,
+      "learning_rate": 7.363119781841095e-06,
+      "loss": 1.65603142,
+      "memory(GiB)": 111.15,
+      "step": 29655,
+      "train_speed(iter/s)": 0.448294
+    },
+    {
+      "acc": 0.63718853,
+      "epoch": 0.7524099441907661,
+      "grad_norm": 4.96875,
+      "learning_rate": 7.362195615366293e-06,
+      "loss": 1.63750381,
+      "memory(GiB)": 111.15,
+      "step": 29660,
+      "train_speed(iter/s)": 0.448334
+    },
+    {
+      "acc": 0.6599865,
+      "epoch": 0.7525367833587012,
+      "grad_norm": 6.40625,
+      "learning_rate": 7.361271344991579e-06,
+      "loss": 1.57443857,
+      "memory(GiB)": 111.15,
+      "step": 29665,
+      "train_speed(iter/s)": 0.448374
+    },
+    {
+      "acc": 0.64805613,
+      "epoch": 0.7526636225266362,
+      "grad_norm": 4.96875,
+      "learning_rate": 7.36034697075761e-06,
+      "loss": 1.6416853,
+      "memory(GiB)": 111.15,
+      "step": 29670,
+      "train_speed(iter/s)": 0.448414
+    },
+    {
+      "acc": 0.65326385,
+      "epoch": 0.7527904616945713,
+      "grad_norm": 5.875,
+      "learning_rate": 7.359422492705043e-06,
+      "loss": 1.59165592,
+      "memory(GiB)": 111.15,
+      "step": 29675,
+      "train_speed(iter/s)": 0.448454
+    },
+    {
+      "acc": 0.65794597,
+      "epoch": 0.7529173008625063,
+      "grad_norm": 5.8125,
+      "learning_rate": 7.3584979108745405e-06,
+      "loss": 1.59165134,
+      "memory(GiB)": 111.15,
+      "step": 29680,
+      "train_speed(iter/s)": 0.448494
+    },
+    {
+      "acc": 0.65152845,
+      "epoch": 0.7530441400304414,
+      "grad_norm": 5.15625,
+      "learning_rate": 7.357573225306771e-06,
+      "loss": 1.61260643,
+      "memory(GiB)": 111.15,
+      "step": 29685,
+      "train_speed(iter/s)": 0.448534
+    },
+    {
+      "acc": 0.64984012,
+      "epoch": 0.7531709791983765,
+      "grad_norm": 6.21875,
+      "learning_rate": 7.356648436042404e-06,
+      "loss": 1.62704163,
+      "memory(GiB)": 111.15,
+      "step": 29690,
+      "train_speed(iter/s)": 0.448574
+    },
+    {
+      "acc": 0.64312568,
+      "epoch": 0.7532978183663115,
+      "grad_norm": 6.125,
+      "learning_rate": 7.355723543122118e-06,
+      "loss": 1.67074623,
+      "memory(GiB)": 111.15,
+      "step": 29695,
+      "train_speed(iter/s)": 0.448614
+    },
+    {
+      "acc": 0.66907072,
+      "epoch": 0.7534246575342466,
+      "grad_norm": 4.8125,
+      "learning_rate": 7.354798546586592e-06,
+      "loss": 1.52832975,
+      "memory(GiB)": 111.15,
+      "step": 29700,
+      "train_speed(iter/s)": 0.448654
+    },
+    {
+      "epoch": 0.7534246575342466,
+      "eval_acc": 0.6426936466365345,
+      "eval_loss": 1.6112762689590454,
+      "eval_runtime": 112.7957,
+      "eval_samples_per_second": 56.474,
+      "eval_steps_per_second": 28.237,
+      "step": 29700
+    },
+    {
+      "acc": 0.65637279,
+      "epoch": 0.7535514967021817,
+      "grad_norm": 5.4375,
+      "learning_rate": 7.353873446476512e-06,
+      "loss": 1.56464252,
+      "memory(GiB)": 111.15,
+      "step": 29705,
+      "train_speed(iter/s)": 0.4479
+    },
+    {
+      "acc": 0.65018182,
+      "epoch": 0.7536783358701167,
+      "grad_norm": 5.6875,
+      "learning_rate": 7.3529482428325705e-06,
+      "loss": 1.65220795,
+      "memory(GiB)": 111.15,
+      "step": 29710,
+      "train_speed(iter/s)": 0.447939
+    },
+    {
+      "acc": 0.64791107,
+      "epoch": 0.7538051750380518,
+      "grad_norm": 5.84375,
+      "learning_rate": 7.35202293569546e-06,
+      "loss": 1.64511318,
+      "memory(GiB)": 111.15,
+      "step": 29715,
+      "train_speed(iter/s)": 0.447979
+    },
+    {
+      "acc": 0.64803314,
+      "epoch": 0.7539320142059868,
+      "grad_norm": 4.5625,
+      "learning_rate": 7.351097525105878e-06,
+      "loss": 1.60299511,
+      "memory(GiB)": 111.15,
+      "step": 29720,
+      "train_speed(iter/s)": 0.448018
+    },
+    {
+      "acc": 0.64695387,
+      "epoch": 0.7540588533739219,
+      "grad_norm": 4.6875,
+      "learning_rate": 7.35017201110453e-06,
+      "loss": 1.55142221,
+      "memory(GiB)": 111.15,
+      "step": 29725,
+      "train_speed(iter/s)": 0.448057
+    },
+    {
+      "acc": 0.63772345,
+      "epoch": 0.754185692541857,
+      "grad_norm": 5.0,
+      "learning_rate": 7.349246393732126e-06,
+      "loss": 1.67036209,
+      "memory(GiB)": 111.15,
+      "step": 29730,
+      "train_speed(iter/s)": 0.448097
+    },
+    {
+      "acc": 0.64900789,
+      "epoch": 0.754312531709792,
+      "grad_norm": 5.71875,
+      "learning_rate": 7.3483206730293755e-06,
+      "loss": 1.63202858,
+      "memory(GiB)": 111.15,
+      "step": 29735,
+      "train_speed(iter/s)": 0.448136
+    },
+    {
+      "acc": 0.65556798,
+      "epoch": 0.7544393708777271,
+      "grad_norm": 5.25,
+      "learning_rate": 7.347394849036998e-06,
+      "loss": 1.61921959,
+      "memory(GiB)": 111.15,
+      "step": 29740,
+      "train_speed(iter/s)": 0.448176
+    },
+    {
+      "acc": 0.65656414,
+      "epoch": 0.7545662100456622,
+      "grad_norm": 4.96875,
+      "learning_rate": 7.346468921795714e-06,
+      "loss": 1.5492382,
+      "memory(GiB)": 111.15,
+      "step": 29745,
+      "train_speed(iter/s)": 0.448215
+    },
+    {
+      "acc": 0.6481123,
+      "epoch": 0.7546930492135971,
+      "grad_norm": 4.90625,
+      "learning_rate": 7.345542891346251e-06,
+      "loss": 1.64267769,
+      "memory(GiB)": 111.15,
+      "step": 29750,
+      "train_speed(iter/s)": 0.448255
+    },
+    {
+      "acc": 0.64709363,
+      "epoch": 0.7548198883815322,
+      "grad_norm": 5.3125,
+      "learning_rate": 7.344616757729341e-06,
+      "loss": 1.62819481,
+      "memory(GiB)": 111.15,
+      "step": 29755,
+      "train_speed(iter/s)": 0.448294
+    },
+    {
+      "acc": 0.65700607,
+      "epoch": 0.7549467275494672,
+      "grad_norm": 5.34375,
+      "learning_rate": 7.343690520985716e-06,
+      "loss": 1.64271355,
+      "memory(GiB)": 111.15,
+      "step": 29760,
+      "train_speed(iter/s)": 0.448334
+    },
+    {
+      "acc": 0.6434,
+      "epoch": 0.7550735667174023,
+      "grad_norm": 5.21875,
+      "learning_rate": 7.342764181156119e-06,
+      "loss": 1.61232777,
+      "memory(GiB)": 111.15,
+      "step": 29765,
+      "train_speed(iter/s)": 0.448374
+    },
+    {
+      "acc": 0.65307589,
+      "epoch": 0.7552004058853374,
+      "grad_norm": 4.875,
+      "learning_rate": 7.341837738281293e-06,
+      "loss": 1.61520882,
+      "memory(GiB)": 111.15,
+      "step": 29770,
+      "train_speed(iter/s)": 0.448413
+    },
+    {
+      "acc": 0.65553608,
+      "epoch": 0.7553272450532724,
+      "grad_norm": 7.875,
+      "learning_rate": 7.3409111924019885e-06,
+      "loss": 1.66322956,
+      "memory(GiB)": 111.15,
+      "step": 29775,
+      "train_speed(iter/s)": 0.448453
+    },
+    {
+      "acc": 0.64997621,
+      "epoch": 0.7554540842212075,
+      "grad_norm": 6.0625,
+      "learning_rate": 7.3399845435589574e-06,
+      "loss": 1.65032883,
+      "memory(GiB)": 111.15,
+      "step": 29780,
+      "train_speed(iter/s)": 0.448492
+    },
+    {
+      "acc": 0.6641778,
+      "epoch": 0.7555809233891426,
+      "grad_norm": 5.25,
+      "learning_rate": 7.33905779179296e-06,
+      "loss": 1.58568811,
+      "memory(GiB)": 111.15,
+      "step": 29785,
+      "train_speed(iter/s)": 0.448532
+    },
+    {
+      "acc": 0.64975443,
+      "epoch": 0.7557077625570776,
+      "grad_norm": 4.90625,
+      "learning_rate": 7.338130937144756e-06,
+      "loss": 1.6420784,
+      "memory(GiB)": 111.15,
+      "step": 29790,
+      "train_speed(iter/s)": 0.448571
+    },
+    {
+      "acc": 0.66121421,
+      "epoch": 0.7558346017250127,
+      "grad_norm": 4.75,
+      "learning_rate": 7.3372039796551156e-06,
+      "loss": 1.58178139,
+      "memory(GiB)": 111.15,
+      "step": 29795,
+      "train_speed(iter/s)": 0.448611
+    },
+    {
+      "acc": 0.64968777,
+      "epoch": 0.7559614408929477,
+      "grad_norm": 5.03125,
+      "learning_rate": 7.33627691936481e-06,
+      "loss": 1.64864197,
+      "memory(GiB)": 111.15,
+      "step": 29800,
+      "train_speed(iter/s)": 0.448651
+    },
+    {
+      "epoch": 0.7559614408929477,
+      "eval_acc": 0.6427467030848356,
+      "eval_loss": 1.6113356351852417,
+      "eval_runtime": 114.2308,
+      "eval_samples_per_second": 55.764,
+      "eval_steps_per_second": 27.882,
+      "step": 29800
+    },
+    {
+      "acc": 0.67684326,
+      "epoch": 0.7560882800608828,
+      "grad_norm": 4.1875,
+      "learning_rate": 7.335349756314614e-06,
+      "loss": 1.55186005,
+      "memory(GiB)": 111.15,
+      "step": 29805,
+      "train_speed(iter/s)": 0.447889
+    },
+    {
+      "acc": 0.64452791,
+      "epoch": 0.7562151192288179,
+      "grad_norm": 4.875,
+      "learning_rate": 7.33442249054531e-06,
+      "loss": 1.68445702,
+      "memory(GiB)": 111.15,
+      "step": 29810,
+      "train_speed(iter/s)": 0.447928
+    },
+    {
+      "acc": 0.6431283,
+      "epoch": 0.7563419583967529,
+      "grad_norm": 4.375,
+      "learning_rate": 7.33349512209768e-06,
+      "loss": 1.65035229,
+      "memory(GiB)": 111.15,
+      "step": 29815,
+      "train_speed(iter/s)": 0.447967
+    },
+    {
+      "acc": 0.64354343,
+      "epoch": 0.756468797564688,
+      "grad_norm": 5.5625,
+      "learning_rate": 7.332567651012518e-06,
+      "loss": 1.63578873,
+      "memory(GiB)": 111.15,
+      "step": 29820,
+      "train_speed(iter/s)": 0.448007
+    },
+    {
+      "acc": 0.65441008,
+      "epoch": 0.7565956367326231,
+      "grad_norm": 5.1875,
+      "learning_rate": 7.331640077330616e-06,
+      "loss": 1.61273174,
+      "memory(GiB)": 111.15,
+      "step": 29825,
+      "train_speed(iter/s)": 0.448046
+    },
+    {
+      "acc": 0.65694013,
+      "epoch": 0.7567224759005581,
+      "grad_norm": 5.53125,
+      "learning_rate": 7.330712401092773e-06,
+      "loss": 1.65111542,
+      "memory(GiB)": 111.15,
+      "step": 29830,
+      "train_speed(iter/s)": 0.448085
+    },
+    {
+      "acc": 0.64831715,
+      "epoch": 0.7568493150684932,
+      "grad_norm": 4.8125,
+      "learning_rate": 7.329784622339794e-06,
+      "loss": 1.61761227,
+      "memory(GiB)": 111.15,
+      "step": 29835,
+      "train_speed(iter/s)": 0.448124
+    },
+    {
+      "acc": 0.64092751,
+      "epoch": 0.7569761542364282,
+      "grad_norm": 6.125,
+      "learning_rate": 7.328856741112484e-06,
+      "loss": 1.66966381,
+      "memory(GiB)": 111.15,
+      "step": 29840,
+      "train_speed(iter/s)": 0.448164
+    },
+    {
+      "acc": 0.64216509,
+      "epoch": 0.7571029934043633,
+      "grad_norm": 5.90625,
+      "learning_rate": 7.327928757451659e-06,
+      "loss": 1.61722794,
+      "memory(GiB)": 111.15,
+      "step": 29845,
+      "train_speed(iter/s)": 0.448202
+    },
+    {
+      "acc": 0.66727724,
+      "epoch": 0.7572298325722984,
+      "grad_norm": 4.5,
+      "learning_rate": 7.3270006713981325e-06,
+      "loss": 1.54002466,
+      "memory(GiB)": 111.15,
+      "step": 29850,
+      "train_speed(iter/s)": 0.448242
+    },
+    {
+      "acc": 0.64765081,
+      "epoch": 0.7573566717402334,
+      "grad_norm": 5.1875,
+      "learning_rate": 7.326072482992728e-06,
+      "loss": 1.6719841,
+      "memory(GiB)": 111.15,
+      "step": 29855,
+      "train_speed(iter/s)": 0.448281
+    },
+    {
+      "acc": 0.63983617,
+      "epoch": 0.7574835109081685,
+      "grad_norm": 5.59375,
+      "learning_rate": 7.325144192276269e-06,
+      "loss": 1.66524811,
+      "memory(GiB)": 111.15,
+      "step": 29860,
+      "train_speed(iter/s)": 0.44832
+    },
+    {
+      "acc": 0.64262218,
+      "epoch": 0.7576103500761036,
+      "grad_norm": 5.90625,
+      "learning_rate": 7.324215799289588e-06,
+      "loss": 1.69362106,
+      "memory(GiB)": 111.15,
+      "step": 29865,
+      "train_speed(iter/s)": 0.44836
+    },
+    {
+      "acc": 0.66570525,
+      "epoch": 0.7577371892440385,
+      "grad_norm": 7.1875,
+      "learning_rate": 7.3232873040735194e-06,
+      "loss": 1.59484787,
+      "memory(GiB)": 111.15,
+      "step": 29870,
+      "train_speed(iter/s)": 0.448399
+    },
+    {
+      "acc": 0.64402337,
+      "epoch": 0.7578640284119736,
+      "grad_norm": 5.15625,
+      "learning_rate": 7.322358706668901e-06,
+      "loss": 1.6546608,
+      "memory(GiB)": 111.15,
+      "step": 29875,
+      "train_speed(iter/s)": 0.448438
+    },
+    {
+      "acc": 0.65233955,
+      "epoch": 0.7579908675799086,
+      "grad_norm": 4.75,
+      "learning_rate": 7.321430007116582e-06,
+      "loss": 1.63348522,
+      "memory(GiB)": 111.15,
+      "step": 29880,
+      "train_speed(iter/s)": 0.448477
+    },
+    {
+      "acc": 0.63426504,
+      "epoch": 0.7581177067478437,
+      "grad_norm": 6.25,
+      "learning_rate": 7.320501205457403e-06,
+      "loss": 1.69893074,
+      "memory(GiB)": 111.15,
+      "step": 29885,
+      "train_speed(iter/s)": 0.448516
+    },
+    {
+      "acc": 0.64417114,
+      "epoch": 0.7582445459157788,
+      "grad_norm": 6.0,
+      "learning_rate": 7.319572301732224e-06,
+      "loss": 1.60525341,
+      "memory(GiB)": 111.15,
+      "step": 29890,
+      "train_speed(iter/s)": 0.448556
+    },
+    {
+      "acc": 0.63854198,
+      "epoch": 0.7583713850837138,
+      "grad_norm": 4.53125,
+      "learning_rate": 7.3186432959818956e-06,
+      "loss": 1.65383415,
+      "memory(GiB)": 111.15,
+      "step": 29895,
+      "train_speed(iter/s)": 0.448595
+    },
+    {
+      "acc": 0.65765052,
+      "epoch": 0.7584982242516489,
+      "grad_norm": 5.34375,
+      "learning_rate": 7.317714188247285e-06,
+      "loss": 1.60192642,
+      "memory(GiB)": 111.15,
+      "step": 29900,
+      "train_speed(iter/s)": 0.448635
+    },
+    {
+      "epoch": 0.7584982242516489,
+      "eval_acc": 0.6426982420769385,
+      "eval_loss": 1.611272931098938,
+      "eval_runtime": 114.8233,
+      "eval_samples_per_second": 55.477,
+      "eval_steps_per_second": 27.738,
+      "step": 29900
+    },
+    {
+      "acc": 0.64634085,
+      "epoch": 0.758625063419584,
+      "grad_norm": 5.0625,
+      "learning_rate": 7.316784978569256e-06,
+      "loss": 1.65383759,
+      "memory(GiB)": 111.15,
+      "step": 29905,
+      "train_speed(iter/s)": 0.447872
+    },
+    {
+      "acc": 0.65898113,
+      "epoch": 0.758751902587519,
+      "grad_norm": 5.03125,
+      "learning_rate": 7.31585566698868e-06,
+      "loss": 1.49823742,
+      "memory(GiB)": 111.15,
+      "step": 29910,
+      "train_speed(iter/s)": 0.447911
+    },
+    {
+      "acc": 0.66311164,
+      "epoch": 0.7588787417554541,
+      "grad_norm": 5.78125,
+      "learning_rate": 7.314926253546433e-06,
+      "loss": 1.51500111,
+      "memory(GiB)": 111.15,
+      "step": 29915,
+      "train_speed(iter/s)": 0.44795
+    },
+    {
+      "acc": 0.65015774,
+      "epoch": 0.7590055809233891,
+      "grad_norm": 5.125,
+      "learning_rate": 7.313996738283393e-06,
+      "loss": 1.64286995,
+      "memory(GiB)": 111.15,
+      "step": 29920,
+      "train_speed(iter/s)": 0.447989
+    },
+    {
+      "acc": 0.65285101,
+      "epoch": 0.7591324200913242,
+      "grad_norm": 6.28125,
+      "learning_rate": 7.3130671212404455e-06,
+      "loss": 1.6490242,
+      "memory(GiB)": 111.15,
+      "step": 29925,
+      "train_speed(iter/s)": 0.448029
+    },
+    {
+      "acc": 0.65334873,
+      "epoch": 0.7592592592592593,
+      "grad_norm": 4.9375,
+      "learning_rate": 7.312137402458479e-06,
+      "loss": 1.6387249,
+      "memory(GiB)": 111.15,
+      "step": 29930,
+      "train_speed(iter/s)": 0.448068
+    },
+    {
+      "acc": 0.64803734,
+      "epoch": 0.7593860984271943,
+      "grad_norm": 4.75,
+      "learning_rate": 7.3112075819783864e-06,
+      "loss": 1.62522545,
+      "memory(GiB)": 111.15,
+      "step": 29935,
+      "train_speed(iter/s)": 0.448108
+    },
+    {
+      "acc": 0.6336606,
+      "epoch": 0.7595129375951294,
+      "grad_norm": 6.78125,
+      "learning_rate": 7.310277659841066e-06,
+      "loss": 1.74649258,
+      "memory(GiB)": 111.15,
+      "step": 29940,
+      "train_speed(iter/s)": 0.448147
+    },
+    {
+      "acc": 0.63511086,
+      "epoch": 0.7596397767630645,
+      "grad_norm": 4.90625,
+      "learning_rate": 7.309347636087418e-06,
+      "loss": 1.65225697,
+      "memory(GiB)": 111.15,
+      "step": 29945,
+      "train_speed(iter/s)": 0.448186
+    },
+    {
+      "acc": 0.63393641,
+      "epoch": 0.7597666159309995,
+      "grad_norm": 4.375,
+      "learning_rate": 7.308417510758353e-06,
+      "loss": 1.68019085,
+      "memory(GiB)": 111.15,
+      "step": 29950,
+      "train_speed(iter/s)": 0.448226
+    },
+    {
+      "acc": 0.63289709,
+      "epoch": 0.7598934550989346,
+      "grad_norm": 5.03125,
+      "learning_rate": 7.307487283894777e-06,
+      "loss": 1.72885895,
+      "memory(GiB)": 111.15,
+      "step": 29955,
+      "train_speed(iter/s)": 0.448265
+    },
+    {
+      "acc": 0.66571217,
+      "epoch": 0.7600202942668696,
+      "grad_norm": 5.0,
+      "learning_rate": 7.30655695553761e-06,
+      "loss": 1.52079039,
+      "memory(GiB)": 111.15,
+      "step": 29960,
+      "train_speed(iter/s)": 0.448305
+    },
+    {
+      "acc": 0.65741158,
+      "epoch": 0.7601471334348047,
+      "grad_norm": 5.5625,
+      "learning_rate": 7.305626525727769e-06,
+      "loss": 1.60763683,
+      "memory(GiB)": 111.15,
+      "step": 29965,
+      "train_speed(iter/s)": 0.448344
+    },
+    {
+      "acc": 0.64417782,
+      "epoch": 0.7602739726027398,
+      "grad_norm": 4.875,
+      "learning_rate": 7.30469599450618e-06,
+      "loss": 1.71989708,
+      "memory(GiB)": 111.15,
+      "step": 29970,
+      "train_speed(iter/s)": 0.448384
+    },
+    {
+      "acc": 0.65053682,
+      "epoch": 0.7604008117706748,
+      "grad_norm": 4.6875,
+      "learning_rate": 7.30376536191377e-06,
+      "loss": 1.62371521,
+      "memory(GiB)": 111.15,
+      "step": 29975,
+      "train_speed(iter/s)": 0.448423
+    },
+    {
+      "acc": 0.65328941,
+      "epoch": 0.7605276509386099,
+      "grad_norm": 4.5,
+      "learning_rate": 7.302834627991477e-06,
+      "loss": 1.63394432,
+      "memory(GiB)": 111.15,
+      "step": 29980,
+      "train_speed(iter/s)": 0.448462
+    },
+    {
+      "acc": 0.64684954,
+      "epoch": 0.760654490106545,
+      "grad_norm": 4.8125,
+      "learning_rate": 7.301903792780233e-06,
+      "loss": 1.67160091,
+      "memory(GiB)": 111.15,
+      "step": 29985,
+      "train_speed(iter/s)": 0.448501
+    },
+    {
+      "acc": 0.65974007,
+      "epoch": 0.76078132927448,
+      "grad_norm": 5.125,
+      "learning_rate": 7.300972856320984e-06,
+      "loss": 1.58969059,
+      "memory(GiB)": 111.15,
+      "step": 29990,
+      "train_speed(iter/s)": 0.448541
+    },
+    {
+      "acc": 0.64870405,
+      "epoch": 0.760908168442415,
+      "grad_norm": 5.5625,
+      "learning_rate": 7.3000418186546754e-06,
+      "loss": 1.63670921,
+      "memory(GiB)": 111.15,
+      "step": 29995,
+      "train_speed(iter/s)": 0.448581
+    },
+    {
+      "acc": 0.66252594,
+      "epoch": 0.76103500761035,
+      "grad_norm": 4.4375,
+      "learning_rate": 7.299110679822258e-06,
+      "loss": 1.54388256,
+      "memory(GiB)": 111.15,
+      "step": 30000,
+      "train_speed(iter/s)": 0.448621
+    },
+    {
+      "epoch": 0.76103500761035,
+      "eval_acc": 0.6426669095287292,
+      "eval_loss": 1.6111167669296265,
+      "eval_runtime": 112.9886,
+      "eval_samples_per_second": 56.377,
+      "eval_steps_per_second": 28.189,
+      "step": 30000
+    },
+    {
+      "acc": 0.64246559,
+      "epoch": 0.7611618467782851,
+      "grad_norm": 5.4375,
+      "learning_rate": 7.298179439864689e-06,
+      "loss": 1.66643944,
+      "memory(GiB)": 111.15,
+      "step": 30005,
+      "train_speed(iter/s)": 0.447873
+    },
+    {
+      "acc": 0.65696039,
+      "epoch": 0.7612886859462202,
+      "grad_norm": 4.78125,
+      "learning_rate": 7.297248098822926e-06,
+      "loss": 1.596068,
+      "memory(GiB)": 111.15,
+      "step": 30010,
+      "train_speed(iter/s)": 0.447912
+    },
+    {
+      "acc": 0.65419993,
+      "epoch": 0.7614155251141552,
+      "grad_norm": 4.625,
+      "learning_rate": 7.296316656737936e-06,
+      "loss": 1.62100105,
+      "memory(GiB)": 111.15,
+      "step": 30015,
+      "train_speed(iter/s)": 0.44795
+    },
+    {
+      "acc": 0.67120819,
+      "epoch": 0.7615423642820903,
+      "grad_norm": 4.96875,
+      "learning_rate": 7.295385113650689e-06,
+      "loss": 1.59611034,
+      "memory(GiB)": 111.15,
+      "step": 30020,
+      "train_speed(iter/s)": 0.447989
+    },
+    {
+      "acc": 0.6441031,
+      "epoch": 0.7616692034500254,
+      "grad_norm": 5.15625,
+      "learning_rate": 7.294453469602154e-06,
+      "loss": 1.61740303,
+      "memory(GiB)": 111.15,
+      "step": 30025,
+      "train_speed(iter/s)": 0.448028
+    },
+    {
+      "acc": 0.67082419,
+      "epoch": 0.7617960426179604,
+      "grad_norm": 4.75,
+      "learning_rate": 7.293521724633313e-06,
+      "loss": 1.5952342,
+      "memory(GiB)": 111.15,
+      "step": 30030,
+      "train_speed(iter/s)": 0.448067
+    },
+    {
+      "acc": 0.6465045,
+      "epoch": 0.7619228817858955,
+      "grad_norm": 5.09375,
+      "learning_rate": 7.2925898787851455e-06,
+      "loss": 1.63666,
+      "memory(GiB)": 111.15,
+      "step": 30035,
+      "train_speed(iter/s)": 0.448106
+    },
+    {
+      "acc": 0.65152845,
+      "epoch": 0.7620497209538305,
+      "grad_norm": 5.15625,
+      "learning_rate": 7.2916579320986415e-06,
+      "loss": 1.62414341,
+      "memory(GiB)": 111.15,
+      "step": 30040,
+      "train_speed(iter/s)": 0.448145
+    },
+    {
+      "acc": 0.65448036,
+      "epoch": 0.7621765601217656,
+      "grad_norm": 5.21875,
+      "learning_rate": 7.290725884614787e-06,
+      "loss": 1.66457996,
+      "memory(GiB)": 111.15,
+      "step": 30045,
+      "train_speed(iter/s)": 0.448184
+    },
+    {
+      "acc": 0.6500072,
+      "epoch": 0.7623033992897007,
+      "grad_norm": 4.90625,
+      "learning_rate": 7.2897937363745844e-06,
+      "loss": 1.60955658,
+      "memory(GiB)": 111.15,
+      "step": 30050,
+      "train_speed(iter/s)": 0.448223
+    },
+    {
+      "acc": 0.64587259,
+      "epoch": 0.7624302384576357,
+      "grad_norm": 6.21875,
+      "learning_rate": 7.2888614874190276e-06,
+      "loss": 1.63615265,
+      "memory(GiB)": 111.15,
+      "step": 30055,
+      "train_speed(iter/s)": 0.448262
+    },
+    {
+      "acc": 0.65153112,
+      "epoch": 0.7625570776255708,
+      "grad_norm": 5.59375,
+      "learning_rate": 7.287929137789124e-06,
+      "loss": 1.61883278,
+      "memory(GiB)": 111.15,
+      "step": 30060,
+      "train_speed(iter/s)": 0.448301
+    },
+    {
+      "acc": 0.66019835,
+      "epoch": 0.7626839167935059,
+      "grad_norm": 5.90625,
+      "learning_rate": 7.286996687525882e-06,
+      "loss": 1.63256721,
+      "memory(GiB)": 111.15,
+      "step": 30065,
+      "train_speed(iter/s)": 0.44834
+    },
+    {
+      "acc": 0.64206676,
+      "epoch": 0.7628107559614409,
+      "grad_norm": 4.8125,
+      "learning_rate": 7.2860641366703155e-06,
+      "loss": 1.6178894,
+      "memory(GiB)": 111.15,
+      "step": 30070,
+      "train_speed(iter/s)": 0.448379
+    },
+    {
+      "acc": 0.64384236,
+      "epoch": 0.762937595129376,
+      "grad_norm": 5.1875,
+      "learning_rate": 7.285131485263441e-06,
+      "loss": 1.64949455,
+      "memory(GiB)": 111.15,
+      "step": 30075,
+      "train_speed(iter/s)": 0.448417
+    },
+    {
+      "acc": 0.65056772,
+      "epoch": 0.763064434297311,
+      "grad_norm": 5.1875,
+      "learning_rate": 7.2841987333462815e-06,
+      "loss": 1.70610847,
+      "memory(GiB)": 111.15,
+      "step": 30080,
+      "train_speed(iter/s)": 0.448456
+    },
+    {
+      "acc": 0.65302486,
+      "epoch": 0.7631912734652461,
+      "grad_norm": 5.75,
+      "learning_rate": 7.283265880959863e-06,
+      "loss": 1.62368565,
+      "memory(GiB)": 111.15,
+      "step": 30085,
+      "train_speed(iter/s)": 0.448495
+    },
+    {
+      "acc": 0.64530873,
+      "epoch": 0.7633181126331812,
+      "grad_norm": 4.9375,
+      "learning_rate": 7.282332928145219e-06,
+      "loss": 1.62245865,
+      "memory(GiB)": 111.15,
+      "step": 30090,
+      "train_speed(iter/s)": 0.448535
+    },
+    {
+      "acc": 0.65086517,
+      "epoch": 0.7634449518011162,
+      "grad_norm": 5.25,
+      "learning_rate": 7.281399874943381e-06,
+      "loss": 1.5647274,
+      "memory(GiB)": 111.15,
+      "step": 30095,
+      "train_speed(iter/s)": 0.448573
+    },
+    {
+      "acc": 0.64655824,
+      "epoch": 0.7635717909690513,
+      "grad_norm": 5.8125,
+      "learning_rate": 7.280466721395393e-06,
+      "loss": 1.68896599,
+      "memory(GiB)": 111.15,
+      "step": 30100,
+      "train_speed(iter/s)": 0.448612
+    },
+    {
+      "epoch": 0.7635717909690513,
+      "eval_acc": 0.64278179553883,
+      "eval_loss": 1.6111350059509277,
+      "eval_runtime": 113.8017,
+      "eval_samples_per_second": 55.975,
+      "eval_steps_per_second": 27.987,
+      "step": 30100
+    },
+    {
+      "acc": 0.63785639,
+      "epoch": 0.7636986301369864,
+      "grad_norm": 4.78125,
+      "learning_rate": 7.279533467542295e-06,
+      "loss": 1.65344791,
+      "memory(GiB)": 111.15,
+      "step": 30105,
+      "train_speed(iter/s)": 0.447862
+    },
+    {
+      "acc": 0.64260335,
+      "epoch": 0.7638254693049213,
+      "grad_norm": 5.53125,
+      "learning_rate": 7.2786001134251385e-06,
+      "loss": 1.66452274,
+      "memory(GiB)": 111.15,
+      "step": 30110,
+      "train_speed(iter/s)": 0.4479
+    },
+    {
+      "acc": 0.65048285,
+      "epoch": 0.7639523084728564,
+      "grad_norm": 5.84375,
+      "learning_rate": 7.2776666590849744e-06,
+      "loss": 1.6166687,
+      "memory(GiB)": 111.15,
+      "step": 30115,
+      "train_speed(iter/s)": 0.447939
+    },
+    {
+      "acc": 0.6577178,
+      "epoch": 0.7640791476407914,
+      "grad_norm": 4.8125,
+      "learning_rate": 7.276733104562863e-06,
+      "loss": 1.60323982,
+      "memory(GiB)": 111.15,
+      "step": 30120,
+      "train_speed(iter/s)": 0.447978
+    },
+    {
+      "acc": 0.65243826,
+      "epoch": 0.7642059868087265,
+      "grad_norm": 4.84375,
+      "learning_rate": 7.275799449899865e-06,
+      "loss": 1.63850365,
+      "memory(GiB)": 111.15,
+      "step": 30125,
+      "train_speed(iter/s)": 0.448017
+    },
+    {
+      "acc": 0.65368385,
+      "epoch": 0.7643328259766616,
+      "grad_norm": 5.375,
+      "learning_rate": 7.274865695137046e-06,
+      "loss": 1.66626396,
+      "memory(GiB)": 111.15,
+      "step": 30130,
+      "train_speed(iter/s)": 0.448056
+    },
+    {
+      "acc": 0.6532546,
+      "epoch": 0.7644596651445966,
+      "grad_norm": 5.46875,
+      "learning_rate": 7.273931840315477e-06,
+      "loss": 1.61202908,
+      "memory(GiB)": 111.15,
+      "step": 30135,
+      "train_speed(iter/s)": 0.448095
+    },
+    {
+      "acc": 0.66442995,
+      "epoch": 0.7645865043125317,
+      "grad_norm": 4.8125,
+      "learning_rate": 7.272997885476234e-06,
+      "loss": 1.5684701,
+      "memory(GiB)": 111.15,
+      "step": 30140,
+      "train_speed(iter/s)": 0.448134
+    },
+    {
+      "acc": 0.63842745,
+      "epoch": 0.7647133434804668,
+      "grad_norm": 4.75,
+      "learning_rate": 7.272063830660395e-06,
+      "loss": 1.69974861,
+      "memory(GiB)": 111.15,
+      "step": 30145,
+      "train_speed(iter/s)": 0.448173
+    },
+    {
+      "acc": 0.65501518,
+      "epoch": 0.7648401826484018,
+      "grad_norm": 5.75,
+      "learning_rate": 7.271129675909046e-06,
+      "loss": 1.62374744,
+      "memory(GiB)": 111.15,
+      "step": 30150,
+      "train_speed(iter/s)": 0.448212
+    },
+    {
+      "acc": 0.66463337,
+      "epoch": 0.7649670218163369,
+      "grad_norm": 5.84375,
+      "learning_rate": 7.270195421263271e-06,
+      "loss": 1.53539562,
+      "memory(GiB)": 111.15,
+      "step": 30155,
+      "train_speed(iter/s)": 0.448251
+    },
+    {
+      "acc": 0.65181675,
+      "epoch": 0.7650938609842719,
+      "grad_norm": 5.125,
+      "learning_rate": 7.269261066764169e-06,
+      "loss": 1.61901569,
+      "memory(GiB)": 111.15,
+      "step": 30160,
+      "train_speed(iter/s)": 0.44829
+    },
+    {
+      "acc": 0.63298106,
+      "epoch": 0.765220700152207,
+      "grad_norm": 6.1875,
+      "learning_rate": 7.268326612452832e-06,
+      "loss": 1.63864021,
+      "memory(GiB)": 111.15,
+      "step": 30165,
+      "train_speed(iter/s)": 0.448328
+    },
+    {
+      "acc": 0.65076232,
+      "epoch": 0.7653475393201421,
+      "grad_norm": 5.71875,
+      "learning_rate": 7.267392058370364e-06,
+      "loss": 1.6069519,
+      "memory(GiB)": 111.15,
+      "step": 30170,
+      "train_speed(iter/s)": 0.448367
+    },
+    {
+      "acc": 0.65491314,
+      "epoch": 0.7654743784880771,
+      "grad_norm": 5.46875,
+      "learning_rate": 7.2664574045578685e-06,
+      "loss": 1.61631947,
+      "memory(GiB)": 111.15,
+      "step": 30175,
+      "train_speed(iter/s)": 0.448406
+    },
+    {
+      "acc": 0.65142212,
+      "epoch": 0.7656012176560122,
+      "grad_norm": 4.96875,
+      "learning_rate": 7.26552265105646e-06,
+      "loss": 1.65182323,
+      "memory(GiB)": 111.15,
+      "step": 30180,
+      "train_speed(iter/s)": 0.448445
+    },
+    {
+      "acc": 0.64304886,
+      "epoch": 0.7657280568239473,
+      "grad_norm": 5.0625,
+      "learning_rate": 7.264587797907248e-06,
+      "loss": 1.62409077,
+      "memory(GiB)": 111.15,
+      "step": 30185,
+      "train_speed(iter/s)": 0.448484
+    },
+    {
+      "acc": 0.65312738,
+      "epoch": 0.7658548959918823,
+      "grad_norm": 4.9375,
+      "learning_rate": 7.263652845151354e-06,
+      "loss": 1.5696826,
+      "memory(GiB)": 111.15,
+      "step": 30190,
+      "train_speed(iter/s)": 0.448522
+    },
+    {
+      "acc": 0.65120454,
+      "epoch": 0.7659817351598174,
+      "grad_norm": 5.71875,
+      "learning_rate": 7.262717792829903e-06,
+      "loss": 1.62431145,
+      "memory(GiB)": 111.15,
+      "step": 30195,
+      "train_speed(iter/s)": 0.448561
+    },
+    {
+      "acc": 0.6600009,
+      "epoch": 0.7661085743277524,
+      "grad_norm": 5.625,
+      "learning_rate": 7.261782640984021e-06,
+      "loss": 1.59343166,
+      "memory(GiB)": 111.15,
+      "step": 30200,
+      "train_speed(iter/s)": 0.448599
+    },
+    {
+      "epoch": 0.7661085743277524,
+      "eval_acc": 0.6426836202211075,
+      "eval_loss": 1.6109641790390015,
+      "eval_runtime": 112.9517,
+      "eval_samples_per_second": 56.396,
+      "eval_steps_per_second": 28.198,
+      "step": 30200
+    },
+    {
+      "acc": 0.6364152,
+      "epoch": 0.7662354134956875,
+      "grad_norm": 5.09375,
+      "learning_rate": 7.26084738965484e-06,
+      "loss": 1.69018402,
+      "memory(GiB)": 111.15,
+      "step": 30205,
+      "train_speed(iter/s)": 0.447857
+    },
+    {
+      "acc": 0.64831028,
+      "epoch": 0.7663622526636226,
+      "grad_norm": 5.5625,
+      "learning_rate": 7.2599120388834964e-06,
+      "loss": 1.65325546,
+      "memory(GiB)": 111.15,
+      "step": 30210,
+      "train_speed(iter/s)": 0.447896
+    },
+    {
+      "acc": 0.65875854,
+      "epoch": 0.7664890918315576,
+      "grad_norm": 5.5625,
+      "learning_rate": 7.258976588711133e-06,
+      "loss": 1.62519493,
+      "memory(GiB)": 111.15,
+      "step": 30215,
+      "train_speed(iter/s)": 0.447934
+    },
+    {
+      "acc": 0.6614954,
+      "epoch": 0.7666159309994927,
+      "grad_norm": 5.59375,
+      "learning_rate": 7.258041039178891e-06,
+      "loss": 1.57508144,
+      "memory(GiB)": 111.15,
+      "step": 30220,
+      "train_speed(iter/s)": 0.447973
+    },
+    {
+      "acc": 0.63735447,
+      "epoch": 0.7667427701674278,
+      "grad_norm": 5.78125,
+      "learning_rate": 7.257105390327925e-06,
+      "loss": 1.65613213,
+      "memory(GiB)": 111.15,
+      "step": 30225,
+      "train_speed(iter/s)": 0.448012
+    },
+    {
+      "acc": 0.65610299,
+      "epoch": 0.7668696093353627,
+      "grad_norm": 5.21875,
+      "learning_rate": 7.256169642199386e-06,
+      "loss": 1.5868084,
+      "memory(GiB)": 111.15,
+      "step": 30230,
+      "train_speed(iter/s)": 0.44805
+    },
+    {
+      "acc": 0.6431921,
+      "epoch": 0.7669964485032978,
+      "grad_norm": 5.25,
+      "learning_rate": 7.255233794834432e-06,
+      "loss": 1.65678825,
+      "memory(GiB)": 111.15,
+      "step": 30235,
+      "train_speed(iter/s)": 0.448089
+    },
+    {
+      "acc": 0.66883497,
+      "epoch": 0.7671232876712328,
+      "grad_norm": 5.75,
+      "learning_rate": 7.254297848274229e-06,
+      "loss": 1.53180084,
+      "memory(GiB)": 111.15,
+      "step": 30240,
+      "train_speed(iter/s)": 0.448127
+    },
+    {
+      "acc": 0.65240412,
+      "epoch": 0.7672501268391679,
+      "grad_norm": 6.15625,
+      "learning_rate": 7.25336180255994e-06,
+      "loss": 1.63762321,
+      "memory(GiB)": 111.15,
+      "step": 30245,
+      "train_speed(iter/s)": 0.448166
+    },
+    {
+      "acc": 0.64969745,
+      "epoch": 0.767376966007103,
+      "grad_norm": 4.65625,
+      "learning_rate": 7.25242565773274e-06,
+      "loss": 1.67601967,
+      "memory(GiB)": 111.15,
+      "step": 30250,
+      "train_speed(iter/s)": 0.448204
+    },
+    {
+      "acc": 0.64600344,
+      "epoch": 0.767503805175038,
+      "grad_norm": 5.0,
+      "learning_rate": 7.251489413833801e-06,
+      "loss": 1.63121719,
+      "memory(GiB)": 111.15,
+      "step": 30255,
+      "train_speed(iter/s)": 0.448243
+    },
+    {
+      "acc": 0.64322805,
+      "epoch": 0.7676306443429731,
+      "grad_norm": 5.4375,
+      "learning_rate": 7.250553070904307e-06,
+      "loss": 1.67427368,
+      "memory(GiB)": 111.15,
+      "step": 30260,
+      "train_speed(iter/s)": 0.448281
+    },
+    {
+      "acc": 0.65524769,
+      "epoch": 0.7677574835109082,
+      "grad_norm": 5.75,
+      "learning_rate": 7.2496166289854404e-06,
+      "loss": 1.58608332,
+      "memory(GiB)": 111.15,
+      "step": 30265,
+      "train_speed(iter/s)": 0.44832
+    },
+    {
+      "acc": 0.65058756,
+      "epoch": 0.7678843226788432,
+      "grad_norm": 5.21875,
+      "learning_rate": 7.24868008811839e-06,
+      "loss": 1.64924107,
+      "memory(GiB)": 111.15,
+      "step": 30270,
+      "train_speed(iter/s)": 0.448358
+    },
+    {
+      "acc": 0.65252647,
+      "epoch": 0.7680111618467783,
+      "grad_norm": 5.40625,
+      "learning_rate": 7.247743448344351e-06,
+      "loss": 1.62771244,
+      "memory(GiB)": 111.15,
+      "step": 30275,
+      "train_speed(iter/s)": 0.448397
+    },
+    {
+      "acc": 0.63750067,
+      "epoch": 0.7681380010147133,
+      "grad_norm": 4.8125,
+      "learning_rate": 7.246806709704519e-06,
+      "loss": 1.69692993,
+      "memory(GiB)": 111.15,
+      "step": 30280,
+      "train_speed(iter/s)": 0.448435
+    },
+    {
+      "acc": 0.64564075,
+      "epoch": 0.7682648401826484,
+      "grad_norm": 5.09375,
+      "learning_rate": 7.245869872240098e-06,
+      "loss": 1.69884911,
+      "memory(GiB)": 111.15,
+      "step": 30285,
+      "train_speed(iter/s)": 0.448474
+    },
+    {
+      "acc": 0.65779438,
+      "epoch": 0.7683916793505835,
+      "grad_norm": 5.46875,
+      "learning_rate": 7.244932935992292e-06,
+      "loss": 1.6648819,
+      "memory(GiB)": 111.15,
+      "step": 30290,
+      "train_speed(iter/s)": 0.448512
+    },
+    {
+      "acc": 0.65220356,
+      "epoch": 0.7685185185185185,
+      "grad_norm": 6.46875,
+      "learning_rate": 7.243995901002312e-06,
+      "loss": 1.68145103,
+      "memory(GiB)": 111.15,
+      "step": 30295,
+      "train_speed(iter/s)": 0.448551
+    },
+    {
+      "acc": 0.64849854,
+      "epoch": 0.7686453576864536,
+      "grad_norm": 5.6875,
+      "learning_rate": 7.243058767311374e-06,
+      "loss": 1.63159981,
+      "memory(GiB)": 111.15,
+      "step": 30300,
+      "train_speed(iter/s)": 0.44859
+    },
+    {
+      "epoch": 0.7686453576864536,
+      "eval_acc": 0.6426606430190873,
+      "eval_loss": 1.6111055612564087,
+      "eval_runtime": 114.4022,
+      "eval_samples_per_second": 55.681,
+      "eval_steps_per_second": 27.84,
+      "step": 30300
+    },
+    {
+      "acc": 0.66738143,
+      "epoch": 0.7687721968543887,
+      "grad_norm": 6.09375,
+      "learning_rate": 7.2421215349606955e-06,
+      "loss": 1.57330503,
+      "memory(GiB)": 111.15,
+      "step": 30305,
+      "train_speed(iter/s)": 0.44784
+    },
+    {
+      "acc": 0.65920448,
+      "epoch": 0.7688990360223237,
+      "grad_norm": 5.6875,
+      "learning_rate": 7.241184203991505e-06,
+      "loss": 1.52713652,
+      "memory(GiB)": 111.15,
+      "step": 30310,
+      "train_speed(iter/s)": 0.447878
+    },
+    {
+      "acc": 0.64299231,
+      "epoch": 0.7690258751902588,
+      "grad_norm": 5.65625,
+      "learning_rate": 7.240246774445024e-06,
+      "loss": 1.62029419,
+      "memory(GiB)": 111.15,
+      "step": 30315,
+      "train_speed(iter/s)": 0.447917
+    },
+    {
+      "acc": 0.65016432,
+      "epoch": 0.7691527143581938,
+      "grad_norm": 5.28125,
+      "learning_rate": 7.23930924636249e-06,
+      "loss": 1.62468147,
+      "memory(GiB)": 111.15,
+      "step": 30320,
+      "train_speed(iter/s)": 0.447956
+    },
+    {
+      "acc": 0.6469203,
+      "epoch": 0.7692795535261289,
+      "grad_norm": 5.09375,
+      "learning_rate": 7.238371619785134e-06,
+      "loss": 1.63639526,
+      "memory(GiB)": 111.15,
+      "step": 30325,
+      "train_speed(iter/s)": 0.447994
+    },
+    {
+      "acc": 0.64485559,
+      "epoch": 0.769406392694064,
+      "grad_norm": 5.3125,
+      "learning_rate": 7.237433894754205e-06,
+      "loss": 1.63096466,
+      "memory(GiB)": 111.15,
+      "step": 30330,
+      "train_speed(iter/s)": 0.448033
+    },
+    {
+      "acc": 0.64584804,
+      "epoch": 0.769533231861999,
+      "grad_norm": 5.53125,
+      "learning_rate": 7.23649607131094e-06,
+      "loss": 1.6668087,
+      "memory(GiB)": 111.15,
+      "step": 30335,
+      "train_speed(iter/s)": 0.448073
+    },
+    {
+      "acc": 0.65014143,
+      "epoch": 0.7696600710299341,
+      "grad_norm": 5.0,
+      "learning_rate": 7.235558149496595e-06,
+      "loss": 1.59731741,
+      "memory(GiB)": 111.15,
+      "step": 30340,
+      "train_speed(iter/s)": 0.448112
+    },
+    {
+      "acc": 0.66149254,
+      "epoch": 0.7697869101978692,
+      "grad_norm": 5.09375,
+      "learning_rate": 7.23462012935242e-06,
+      "loss": 1.59674988,
+      "memory(GiB)": 111.15,
+      "step": 30345,
+      "train_speed(iter/s)": 0.448151
+    },
+    {
+      "acc": 0.64201016,
+      "epoch": 0.7699137493658041,
+      "grad_norm": 5.125,
+      "learning_rate": 7.233682010919676e-06,
+      "loss": 1.6620018,
+      "memory(GiB)": 111.15,
+      "step": 30350,
+      "train_speed(iter/s)": 0.44819
+    },
+    {
+      "acc": 0.665131,
+      "epoch": 0.7700405885337392,
+      "grad_norm": 4.5,
+      "learning_rate": 7.2327437942396236e-06,
+      "loss": 1.59963169,
+      "memory(GiB)": 111.15,
+      "step": 30355,
+      "train_speed(iter/s)": 0.448229
+    },
+    {
+      "acc": 0.66392565,
+      "epoch": 0.7701674277016742,
+      "grad_norm": 5.75,
+      "learning_rate": 7.231805479353532e-06,
+      "loss": 1.56770182,
+      "memory(GiB)": 111.15,
+      "step": 30360,
+      "train_speed(iter/s)": 0.448268
+    },
+    {
+      "acc": 0.6601572,
+      "epoch": 0.7702942668696093,
+      "grad_norm": 4.96875,
+      "learning_rate": 7.2308670663026705e-06,
+      "loss": 1.64786453,
+      "memory(GiB)": 111.15,
+      "step": 30365,
+      "train_speed(iter/s)": 0.448307
+    },
+    {
+      "acc": 0.64040294,
+      "epoch": 0.7704211060375444,
+      "grad_norm": 4.625,
+      "learning_rate": 7.229928555128315e-06,
+      "loss": 1.67627544,
+      "memory(GiB)": 111.15,
+      "step": 30370,
+      "train_speed(iter/s)": 0.448346
+    },
+    {
+      "acc": 0.65747218,
+      "epoch": 0.7705479452054794,
+      "grad_norm": 5.5625,
+      "learning_rate": 7.228989945871745e-06,
+      "loss": 1.65121117,
+      "memory(GiB)": 111.15,
+      "step": 30375,
+      "train_speed(iter/s)": 0.448385
+    },
+    {
+      "acc": 0.64784069,
+      "epoch": 0.7706747843734145,
+      "grad_norm": 4.78125,
+      "learning_rate": 7.2280512385742475e-06,
+      "loss": 1.60855274,
+      "memory(GiB)": 111.15,
+      "step": 30380,
+      "train_speed(iter/s)": 0.448423
+    },
+    {
+      "acc": 0.65265765,
+      "epoch": 0.7708016235413496,
+      "grad_norm": 5.3125,
+      "learning_rate": 7.227112433277107e-06,
+      "loss": 1.60414352,
+      "memory(GiB)": 111.15,
+      "step": 30385,
+      "train_speed(iter/s)": 0.448462
+    },
+    {
+      "acc": 0.64870348,
+      "epoch": 0.7709284627092846,
+      "grad_norm": 5.78125,
+      "learning_rate": 7.2261735300216195e-06,
+      "loss": 1.64852905,
+      "memory(GiB)": 111.15,
+      "step": 30390,
+      "train_speed(iter/s)": 0.448501
+    },
+    {
+      "acc": 0.64650574,
+      "epoch": 0.7710553018772197,
+      "grad_norm": 5.875,
+      "learning_rate": 7.22523452884908e-06,
+      "loss": 1.66050949,
+      "memory(GiB)": 111.15,
+      "step": 30395,
+      "train_speed(iter/s)": 0.44854
+    },
+    {
+      "acc": 0.63345776,
+      "epoch": 0.7711821410451547,
+      "grad_norm": 5.40625,
+      "learning_rate": 7.224295429800792e-06,
+      "loss": 1.698559,
+      "memory(GiB)": 111.15,
+      "step": 30400,
+      "train_speed(iter/s)": 0.448578
+    },
+    {
+      "epoch": 0.7711821410451547,
+      "eval_acc": 0.6427107750962222,
+      "eval_loss": 1.6110895872116089,
+      "eval_runtime": 113.7505,
+      "eval_samples_per_second": 56.0,
+      "eval_steps_per_second": 28.0,
+      "step": 30400
+    },
+    {
+      "acc": 0.64281955,
+      "epoch": 0.7713089802130898,
+      "grad_norm": 5.0,
+      "learning_rate": 7.22335623291806e-06,
+      "loss": 1.67297974,
+      "memory(GiB)": 111.15,
+      "step": 30405,
+      "train_speed(iter/s)": 0.447835
+    },
+    {
+      "acc": 0.64722748,
+      "epoch": 0.7714358193810249,
+      "grad_norm": 4.59375,
+      "learning_rate": 7.222416938242194e-06,
+      "loss": 1.6641983,
+      "memory(GiB)": 111.15,
+      "step": 30410,
+      "train_speed(iter/s)": 0.447874
+    },
+    {
+      "acc": 0.66258779,
+      "epoch": 0.7715626585489599,
+      "grad_norm": 6.1875,
+      "learning_rate": 7.221477545814509e-06,
+      "loss": 1.53363323,
+      "memory(GiB)": 111.15,
+      "step": 30415,
+      "train_speed(iter/s)": 0.447913
+    },
+    {
+      "acc": 0.65373149,
+      "epoch": 0.771689497716895,
+      "grad_norm": 4.875,
+      "learning_rate": 7.220538055676323e-06,
+      "loss": 1.6405941,
+      "memory(GiB)": 111.15,
+      "step": 30420,
+      "train_speed(iter/s)": 0.447952
+    },
+    {
+      "acc": 0.64540758,
+      "epoch": 0.7718163368848301,
+      "grad_norm": 6.84375,
+      "learning_rate": 7.21959846786896e-06,
+      "loss": 1.59779587,
+      "memory(GiB)": 111.15,
+      "step": 30425,
+      "train_speed(iter/s)": 0.44799
+    },
+    {
+      "acc": 0.66007209,
+      "epoch": 0.7719431760527651,
+      "grad_norm": 5.71875,
+      "learning_rate": 7.218658782433746e-06,
+      "loss": 1.58770237,
+      "memory(GiB)": 111.15,
+      "step": 30430,
+      "train_speed(iter/s)": 0.448029
+    },
+    {
+      "acc": 0.65856233,
+      "epoch": 0.7720700152207002,
+      "grad_norm": 5.5,
+      "learning_rate": 7.217718999412013e-06,
+      "loss": 1.56408529,
+      "memory(GiB)": 111.15,
+      "step": 30435,
+      "train_speed(iter/s)": 0.448068
+    },
+    {
+      "acc": 0.6506496,
+      "epoch": 0.7721968543886352,
+      "grad_norm": 5.78125,
+      "learning_rate": 7.216779118845097e-06,
+      "loss": 1.64257507,
+      "memory(GiB)": 111.15,
+      "step": 30440,
+      "train_speed(iter/s)": 0.448106
+    },
+    {
+      "acc": 0.63714762,
+      "epoch": 0.7723236935565703,
+      "grad_norm": 5.59375,
+      "learning_rate": 7.215839140774339e-06,
+      "loss": 1.62282982,
+      "memory(GiB)": 111.15,
+      "step": 30445,
+      "train_speed(iter/s)": 0.448145
+    },
+    {
+      "acc": 0.65486498,
+      "epoch": 0.7724505327245054,
+      "grad_norm": 5.03125,
+      "learning_rate": 7.214899065241082e-06,
+      "loss": 1.66951561,
+      "memory(GiB)": 111.15,
+      "step": 30450,
+      "train_speed(iter/s)": 0.448184
+    },
+    {
+      "acc": 0.66500282,
+      "epoch": 0.7725773718924404,
+      "grad_norm": 6.65625,
+      "learning_rate": 7.213958892286674e-06,
+      "loss": 1.59347134,
+      "memory(GiB)": 111.15,
+      "step": 30455,
+      "train_speed(iter/s)": 0.448222
+    },
+    {
+      "acc": 0.64602823,
+      "epoch": 0.7727042110603755,
+      "grad_norm": 5.0625,
+      "learning_rate": 7.213018621952472e-06,
+      "loss": 1.5939188,
+      "memory(GiB)": 111.15,
+      "step": 30460,
+      "train_speed(iter/s)": 0.448261
+    },
+    {
+      "acc": 0.65890102,
+      "epoch": 0.7728310502283106,
+      "grad_norm": 5.3125,
+      "learning_rate": 7.212078254279828e-06,
+      "loss": 1.56410618,
+      "memory(GiB)": 111.15,
+      "step": 30465,
+      "train_speed(iter/s)": 0.4483
+    },
+    {
+      "acc": 0.63967867,
+      "epoch": 0.7729578893962455,
+      "grad_norm": 4.96875,
+      "learning_rate": 7.211137789310109e-06,
+      "loss": 1.66014519,
+      "memory(GiB)": 111.15,
+      "step": 30470,
+      "train_speed(iter/s)": 0.448339
+    },
+    {
+      "acc": 0.6699645,
+      "epoch": 0.7730847285641806,
+      "grad_norm": 5.03125,
+      "learning_rate": 7.2101972270846756e-06,
+      "loss": 1.55592957,
+      "memory(GiB)": 111.15,
+      "step": 30475,
+      "train_speed(iter/s)": 0.448377
+    },
+    {
+      "acc": 0.6681859,
+      "epoch": 0.7732115677321156,
+      "grad_norm": 4.75,
+      "learning_rate": 7.2092565676449e-06,
+      "loss": 1.51437483,
+      "memory(GiB)": 111.15,
+      "step": 30480,
+      "train_speed(iter/s)": 0.448416
+    },
+    {
+      "acc": 0.66867652,
+      "epoch": 0.7733384069000507,
+      "grad_norm": 6.03125,
+      "learning_rate": 7.208315811032158e-06,
+      "loss": 1.52819538,
+      "memory(GiB)": 111.15,
+      "step": 30485,
+      "train_speed(iter/s)": 0.448454
+    },
+    {
+      "acc": 0.65450106,
+      "epoch": 0.7734652460679858,
+      "grad_norm": 5.84375,
+      "learning_rate": 7.207374957287828e-06,
+      "loss": 1.60962296,
+      "memory(GiB)": 111.15,
+      "step": 30490,
+      "train_speed(iter/s)": 0.448493
+    },
+    {
+      "acc": 0.64216127,
+      "epoch": 0.7735920852359208,
+      "grad_norm": 5.8125,
+      "learning_rate": 7.2064340064532914e-06,
+      "loss": 1.65317688,
+      "memory(GiB)": 111.15,
+      "step": 30495,
+      "train_speed(iter/s)": 0.448532
+    },
+    {
+      "acc": 0.62308502,
+      "epoch": 0.7737189244038559,
+      "grad_norm": 5.21875,
+      "learning_rate": 7.205492958569936e-06,
+      "loss": 1.69645977,
+      "memory(GiB)": 111.15,
+      "step": 30500,
+      "train_speed(iter/s)": 0.448571
+    },
+    {
+      "epoch": 0.7737189244038559,
+      "eval_acc": 0.6427266502539817,
+      "eval_loss": 1.6109801530838013,
+      "eval_runtime": 113.7777,
+      "eval_samples_per_second": 55.986,
+      "eval_steps_per_second": 27.993,
+      "step": 30500
+    },
+    {
+      "acc": 0.6566534,
+      "epoch": 0.773845763571791,
+      "grad_norm": 4.78125,
+      "learning_rate": 7.204551813679154e-06,
+      "loss": 1.7154108,
+      "memory(GiB)": 111.15,
+      "step": 30505,
+      "train_speed(iter/s)": 0.44783
+    },
+    {
+      "acc": 0.63998847,
+      "epoch": 0.773972602739726,
+      "grad_norm": 5.59375,
+      "learning_rate": 7.2036105718223405e-06,
+      "loss": 1.68291721,
+      "memory(GiB)": 111.15,
+      "step": 30510,
+      "train_speed(iter/s)": 0.447869
+    },
+    {
+      "acc": 0.64690113,
+      "epoch": 0.7740994419076611,
+      "grad_norm": 5.65625,
+      "learning_rate": 7.202669233040896e-06,
+      "loss": 1.67814255,
+      "memory(GiB)": 111.15,
+      "step": 30515,
+      "train_speed(iter/s)": 0.447907
+    },
+    {
+      "acc": 0.65066261,
+      "epoch": 0.7742262810755961,
+      "grad_norm": 5.21875,
+      "learning_rate": 7.201727797376223e-06,
+      "loss": 1.67535095,
+      "memory(GiB)": 111.15,
+      "step": 30520,
+      "train_speed(iter/s)": 0.447945
+    },
+    {
+      "acc": 0.65824919,
+      "epoch": 0.7743531202435312,
+      "grad_norm": 5.1875,
+      "learning_rate": 7.200786264869732e-06,
+      "loss": 1.66223335,
+      "memory(GiB)": 111.15,
+      "step": 30525,
+      "train_speed(iter/s)": 0.447984
+    },
+    {
+      "acc": 0.6458724,
+      "epoch": 0.7744799594114663,
+      "grad_norm": 4.65625,
+      "learning_rate": 7.199844635562836e-06,
+      "loss": 1.59313221,
+      "memory(GiB)": 111.15,
+      "step": 30530,
+      "train_speed(iter/s)": 0.448022
+    },
+    {
+      "acc": 0.64443059,
+      "epoch": 0.7746067985794013,
+      "grad_norm": 4.375,
+      "learning_rate": 7.19890290949695e-06,
+      "loss": 1.66826172,
+      "memory(GiB)": 111.15,
+      "step": 30535,
+      "train_speed(iter/s)": 0.448061
+    },
+    {
+      "acc": 0.63160334,
+      "epoch": 0.7747336377473364,
+      "grad_norm": 5.125,
+      "learning_rate": 7.197961086713498e-06,
+      "loss": 1.65784283,
+      "memory(GiB)": 111.15,
+      "step": 30540,
+      "train_speed(iter/s)": 0.448099
+    },
+    {
+      "acc": 0.6425684,
+      "epoch": 0.7748604769152715,
+      "grad_norm": 5.84375,
+      "learning_rate": 7.197019167253904e-06,
+      "loss": 1.63749237,
+      "memory(GiB)": 111.15,
+      "step": 30545,
+      "train_speed(iter/s)": 0.448137
+    },
+    {
+      "acc": 0.65910654,
+      "epoch": 0.7749873160832065,
+      "grad_norm": 4.1875,
+      "learning_rate": 7.196077151159597e-06,
+      "loss": 1.60639668,
+      "memory(GiB)": 111.15,
+      "step": 30550,
+      "train_speed(iter/s)": 0.448175
+    },
+    {
+      "acc": 0.6543437,
+      "epoch": 0.7751141552511416,
+      "grad_norm": 5.21875,
+      "learning_rate": 7.195135038472013e-06,
+      "loss": 1.64946938,
+      "memory(GiB)": 111.15,
+      "step": 30555,
+      "train_speed(iter/s)": 0.448213
+    },
+    {
+      "acc": 0.6716464,
+      "epoch": 0.7752409944190766,
+      "grad_norm": 5.28125,
+      "learning_rate": 7.194192829232589e-06,
+      "loss": 1.61036377,
+      "memory(GiB)": 111.15,
+      "step": 30560,
+      "train_speed(iter/s)": 0.448251
+    },
+    {
+      "acc": 0.64679594,
+      "epoch": 0.7753678335870117,
+      "grad_norm": 6.5625,
+      "learning_rate": 7.1932505234827686e-06,
+      "loss": 1.62901974,
+      "memory(GiB)": 111.15,
+      "step": 30565,
+      "train_speed(iter/s)": 0.44829
+    },
+    {
+      "acc": 0.64860187,
+      "epoch": 0.7754946727549468,
+      "grad_norm": 5.3125,
+      "learning_rate": 7.192308121263998e-06,
+      "loss": 1.68528786,
+      "memory(GiB)": 111.15,
+      "step": 30570,
+      "train_speed(iter/s)": 0.448328
+    },
+    {
+      "acc": 0.66241741,
+      "epoch": 0.7756215119228818,
+      "grad_norm": 5.28125,
+      "learning_rate": 7.191365622617728e-06,
+      "loss": 1.59852791,
+      "memory(GiB)": 111.15,
+      "step": 30575,
+      "train_speed(iter/s)": 0.448366
+    },
+    {
+      "acc": 0.64901543,
+      "epoch": 0.7757483510908169,
+      "grad_norm": 4.75,
+      "learning_rate": 7.190423027585414e-06,
+      "loss": 1.66021786,
+      "memory(GiB)": 111.15,
+      "step": 30580,
+      "train_speed(iter/s)": 0.448404
+    },
+    {
+      "acc": 0.65245819,
+      "epoch": 0.775875190258752,
+      "grad_norm": 7.0625,
+      "learning_rate": 7.189480336208516e-06,
+      "loss": 1.61332855,
+      "memory(GiB)": 111.15,
+      "step": 30585,
+      "train_speed(iter/s)": 0.448442
+    },
+    {
+      "acc": 0.64749832,
+      "epoch": 0.776002029426687,
+      "grad_norm": 5.71875,
+      "learning_rate": 7.188537548528498e-06,
+      "loss": 1.61437302,
+      "memory(GiB)": 111.15,
+      "step": 30590,
+      "train_speed(iter/s)": 0.448481
+    },
+    {
+      "acc": 0.645225,
+      "epoch": 0.776128868594622,
+      "grad_norm": 5.28125,
+      "learning_rate": 7.187594664586826e-06,
+      "loss": 1.63506222,
+      "memory(GiB)": 111.15,
+      "step": 30595,
+      "train_speed(iter/s)": 0.448519
+    },
+    {
+      "acc": 0.64895506,
+      "epoch": 0.776255707762557,
+      "grad_norm": 4.71875,
+      "learning_rate": 7.186651684424975e-06,
+      "loss": 1.68785706,
+      "memory(GiB)": 111.15,
+      "step": 30600,
+      "train_speed(iter/s)": 0.448558
+    },
+    {
+      "epoch": 0.776255707762557,
+      "eval_acc": 0.6427826310734489,
+      "eval_loss": 1.6108895540237427,
+      "eval_runtime": 113.6054,
+      "eval_samples_per_second": 56.071,
+      "eval_steps_per_second": 28.036,
+      "step": 30600
+    },
+    {
+      "acc": 0.64584837,
+      "epoch": 0.7763825469304921,
+      "grad_norm": 7.0625,
+      "learning_rate": 7.185708608084418e-06,
+      "loss": 1.66216373,
+      "memory(GiB)": 111.15,
+      "step": 30605,
+      "train_speed(iter/s)": 0.447821
+    },
+    {
+      "acc": 0.65720558,
+      "epoch": 0.7765093860984272,
+      "grad_norm": 4.75,
+      "learning_rate": 7.184765435606642e-06,
+      "loss": 1.61251087,
+      "memory(GiB)": 111.15,
+      "step": 30610,
+      "train_speed(iter/s)": 0.447859
+    },
+    {
+      "acc": 0.66171293,
+      "epoch": 0.7766362252663622,
+      "grad_norm": 5.46875,
+      "learning_rate": 7.183822167033124e-06,
+      "loss": 1.64326477,
+      "memory(GiB)": 111.15,
+      "step": 30615,
+      "train_speed(iter/s)": 0.447897
+    },
+    {
+      "acc": 0.64777317,
+      "epoch": 0.7767630644342973,
+      "grad_norm": 5.5,
+      "learning_rate": 7.18287880240536e-06,
+      "loss": 1.62285957,
+      "memory(GiB)": 111.15,
+      "step": 30620,
+      "train_speed(iter/s)": 0.447936
+    },
+    {
+      "acc": 0.67557473,
+      "epoch": 0.7768899036022324,
+      "grad_norm": 6.1875,
+      "learning_rate": 7.1819353417648386e-06,
+      "loss": 1.56881609,
+      "memory(GiB)": 111.15,
+      "step": 30625,
+      "train_speed(iter/s)": 0.447974
+    },
+    {
+      "acc": 0.65477772,
+      "epoch": 0.7770167427701674,
+      "grad_norm": 5.15625,
+      "learning_rate": 7.180991785153059e-06,
+      "loss": 1.6469408,
+      "memory(GiB)": 111.15,
+      "step": 30630,
+      "train_speed(iter/s)": 0.448013
+    },
+    {
+      "acc": 0.65404816,
+      "epoch": 0.7771435819381025,
+      "grad_norm": 4.71875,
+      "learning_rate": 7.180048132611524e-06,
+      "loss": 1.57132282,
+      "memory(GiB)": 111.15,
+      "step": 30635,
+      "train_speed(iter/s)": 0.448051
+    },
+    {
+      "acc": 0.64483247,
+      "epoch": 0.7772704211060375,
+      "grad_norm": 8.0,
+      "learning_rate": 7.17910438418174e-06,
+      "loss": 1.59463215,
+      "memory(GiB)": 111.15,
+      "step": 30640,
+      "train_speed(iter/s)": 0.44809
+    },
+    {
+      "acc": 0.64406567,
+      "epoch": 0.7773972602739726,
+      "grad_norm": 5.5625,
+      "learning_rate": 7.178160539905214e-06,
+      "loss": 1.67310295,
+      "memory(GiB)": 111.15,
+      "step": 30645,
+      "train_speed(iter/s)": 0.448128
+    },
+    {
+      "acc": 0.65861564,
+      "epoch": 0.7775240994419077,
+      "grad_norm": 5.375,
+      "learning_rate": 7.1772165998234645e-06,
+      "loss": 1.58935957,
+      "memory(GiB)": 111.15,
+      "step": 30650,
+      "train_speed(iter/s)": 0.448166
+    },
+    {
+      "acc": 0.64089804,
+      "epoch": 0.7776509386098427,
+      "grad_norm": 4.71875,
+      "learning_rate": 7.176272563978007e-06,
+      "loss": 1.66168137,
+      "memory(GiB)": 111.15,
+      "step": 30655,
+      "train_speed(iter/s)": 0.448205
+    },
+    {
+      "acc": 0.64520826,
+      "epoch": 0.7777777777777778,
+      "grad_norm": 5.53125,
+      "learning_rate": 7.175328432410367e-06,
+      "loss": 1.63162804,
+      "memory(GiB)": 111.15,
+      "step": 30660,
+      "train_speed(iter/s)": 0.448243
+    },
+    {
+      "acc": 0.64064164,
+      "epoch": 0.7779046169457129,
+      "grad_norm": 5.71875,
+      "learning_rate": 7.17438420516207e-06,
+      "loss": 1.6610733,
+      "memory(GiB)": 111.15,
+      "step": 30665,
+      "train_speed(iter/s)": 0.448281
+    },
+    {
+      "acc": 0.6598896,
+      "epoch": 0.7780314561136479,
+      "grad_norm": 6.03125,
+      "learning_rate": 7.173439882274647e-06,
+      "loss": 1.58247375,
+      "memory(GiB)": 111.15,
+      "step": 30670,
+      "train_speed(iter/s)": 0.448319
+    },
+    {
+      "acc": 0.64924078,
+      "epoch": 0.778158295281583,
+      "grad_norm": 5.59375,
+      "learning_rate": 7.172495463789635e-06,
+      "loss": 1.6560524,
+      "memory(GiB)": 111.15,
+      "step": 30675,
+      "train_speed(iter/s)": 0.448358
+    },
+    {
+      "acc": 0.64951935,
+      "epoch": 0.778285134449518,
+      "grad_norm": 5.375,
+      "learning_rate": 7.171550949748574e-06,
+      "loss": 1.64118195,
+      "memory(GiB)": 111.15,
+      "step": 30680,
+      "train_speed(iter/s)": 0.448397
+    },
+    {
+      "acc": 0.65147104,
+      "epoch": 0.7784119736174531,
+      "grad_norm": 4.90625,
+      "learning_rate": 7.170606340193003e-06,
+      "loss": 1.60523338,
+      "memory(GiB)": 111.15,
+      "step": 30685,
+      "train_speed(iter/s)": 0.448435
+    },
+    {
+      "acc": 0.64675589,
+      "epoch": 0.7785388127853882,
+      "grad_norm": 5.4375,
+      "learning_rate": 7.1696616351644786e-06,
+      "loss": 1.6931942,
+      "memory(GiB)": 111.15,
+      "step": 30690,
+      "train_speed(iter/s)": 0.448474
+    },
+    {
+      "acc": 0.66326504,
+      "epoch": 0.7786656519533232,
+      "grad_norm": 5.5,
+      "learning_rate": 7.168716834704546e-06,
+      "loss": 1.62249146,
+      "memory(GiB)": 111.15,
+      "step": 30695,
+      "train_speed(iter/s)": 0.448512
+    },
+    {
+      "acc": 0.64857044,
+      "epoch": 0.7787924911212583,
+      "grad_norm": 5.125,
+      "learning_rate": 7.167771938854766e-06,
+      "loss": 1.65923405,
+      "memory(GiB)": 111.15,
+      "step": 30700,
+      "train_speed(iter/s)": 0.448551
+    },
+    {
+      "epoch": 0.7787924911212583,
+      "eval_acc": 0.6427930752561853,
+      "eval_loss": 1.6107133626937866,
+      "eval_runtime": 113.385,
+      "eval_samples_per_second": 56.18,
+      "eval_steps_per_second": 28.09,
+      "step": 30700
+    },
+    {
+      "acc": 0.64862461,
+      "epoch": 0.7789193302891934,
+      "grad_norm": 6.5625,
+      "learning_rate": 7.166826947656696e-06,
+      "loss": 1.69295807,
+      "memory(GiB)": 111.15,
+      "step": 30705,
+      "train_speed(iter/s)": 0.447818
+    },
+    {
+      "acc": 0.65006351,
+      "epoch": 0.7790461694571283,
+      "grad_norm": 4.6875,
+      "learning_rate": 7.165881861151904e-06,
+      "loss": 1.64642735,
+      "memory(GiB)": 111.15,
+      "step": 30710,
+      "train_speed(iter/s)": 0.447856
+    },
+    {
+      "acc": 0.6562645,
+      "epoch": 0.7791730086250634,
+      "grad_norm": 7.34375,
+      "learning_rate": 7.164936679381957e-06,
+      "loss": 1.626408,
+      "memory(GiB)": 111.15,
+      "step": 30715,
+      "train_speed(iter/s)": 0.447895
+    },
+    {
+      "acc": 0.65120454,
+      "epoch": 0.7792998477929984,
+      "grad_norm": 5.46875,
+      "learning_rate": 7.16399140238843e-06,
+      "loss": 1.68466225,
+      "memory(GiB)": 111.15,
+      "step": 30720,
+      "train_speed(iter/s)": 0.447934
+    },
+    {
+      "acc": 0.64600229,
+      "epoch": 0.7794266869609335,
+      "grad_norm": 4.75,
+      "learning_rate": 7.163046030212899e-06,
+      "loss": 1.65435352,
+      "memory(GiB)": 111.15,
+      "step": 30725,
+      "train_speed(iter/s)": 0.447972
+    },
+    {
+      "acc": 0.65804095,
+      "epoch": 0.7795535261288686,
+      "grad_norm": 5.09375,
+      "learning_rate": 7.1621005628969475e-06,
+      "loss": 1.56945915,
+      "memory(GiB)": 111.15,
+      "step": 30730,
+      "train_speed(iter/s)": 0.44801
+    },
+    {
+      "acc": 0.64205022,
+      "epoch": 0.7796803652968036,
+      "grad_norm": 6.03125,
+      "learning_rate": 7.161155000482159e-06,
+      "loss": 1.70678787,
+      "memory(GiB)": 111.15,
+      "step": 30735,
+      "train_speed(iter/s)": 0.448049
+    },
+    {
+      "acc": 0.63220692,
+      "epoch": 0.7798072044647387,
+      "grad_norm": 5.375,
+      "learning_rate": 7.160209343010125e-06,
+      "loss": 1.64246101,
+      "memory(GiB)": 111.15,
+      "step": 30740,
+      "train_speed(iter/s)": 0.448088
+    },
+    {
+      "acc": 0.63886237,
+      "epoch": 0.7799340436326738,
+      "grad_norm": 5.25,
+      "learning_rate": 7.1592635905224386e-06,
+      "loss": 1.70061092,
+      "memory(GiB)": 111.15,
+      "step": 30745,
+      "train_speed(iter/s)": 0.448126
+    },
+    {
+      "acc": 0.64097061,
+      "epoch": 0.7800608828006088,
+      "grad_norm": 5.875,
+      "learning_rate": 7.1583177430606995e-06,
+      "loss": 1.69046097,
+      "memory(GiB)": 111.15,
+      "step": 30750,
+      "train_speed(iter/s)": 0.448164
+    },
+    {
+      "acc": 0.64286985,
+      "epoch": 0.7801877219685439,
+      "grad_norm": 5.46875,
+      "learning_rate": 7.1573718006665095e-06,
+      "loss": 1.66496773,
+      "memory(GiB)": 111.15,
+      "step": 30755,
+      "train_speed(iter/s)": 0.448202
+    },
+    {
+      "acc": 0.63579836,
+      "epoch": 0.7803145611364789,
+      "grad_norm": 7.0,
+      "learning_rate": 7.156425763381477e-06,
+      "loss": 1.69531326,
+      "memory(GiB)": 111.15,
+      "step": 30760,
+      "train_speed(iter/s)": 0.44824
+    },
+    {
+      "acc": 0.65979061,
+      "epoch": 0.780441400304414,
+      "grad_norm": 5.5,
+      "learning_rate": 7.155479631247211e-06,
+      "loss": 1.60385361,
+      "memory(GiB)": 111.15,
+      "step": 30765,
+      "train_speed(iter/s)": 0.448278
+    },
+    {
+      "acc": 0.63736191,
+      "epoch": 0.7805682394723491,
+      "grad_norm": 5.09375,
+      "learning_rate": 7.154533404305327e-06,
+      "loss": 1.68179321,
+      "memory(GiB)": 111.15,
+      "step": 30770,
+      "train_speed(iter/s)": 0.448316
+    },
+    {
+      "acc": 0.6632256,
+      "epoch": 0.7806950786402841,
+      "grad_norm": 5.71875,
+      "learning_rate": 7.153587082597445e-06,
+      "loss": 1.50969067,
+      "memory(GiB)": 111.15,
+      "step": 30775,
+      "train_speed(iter/s)": 0.448355
+    },
+    {
+      "acc": 0.66346331,
+      "epoch": 0.7808219178082192,
+      "grad_norm": 5.09375,
+      "learning_rate": 7.152640666165187e-06,
+      "loss": 1.51963634,
+      "memory(GiB)": 111.15,
+      "step": 30780,
+      "train_speed(iter/s)": 0.448393
+    },
+    {
+      "acc": 0.65551224,
+      "epoch": 0.7809487569761543,
+      "grad_norm": 4.90625,
+      "learning_rate": 7.151694155050184e-06,
+      "loss": 1.57005634,
+      "memory(GiB)": 111.15,
+      "step": 30785,
+      "train_speed(iter/s)": 0.448431
+    },
+    {
+      "acc": 0.64438848,
+      "epoch": 0.7810755961440893,
+      "grad_norm": 4.84375,
+      "learning_rate": 7.150747549294064e-06,
+      "loss": 1.68739796,
+      "memory(GiB)": 111.15,
+      "step": 30790,
+      "train_speed(iter/s)": 0.44847
+    },
+    {
+      "acc": 0.65118885,
+      "epoch": 0.7812024353120244,
+      "grad_norm": 6.125,
+      "learning_rate": 7.149800848938464e-06,
+      "loss": 1.60922604,
+      "memory(GiB)": 111.15,
+      "step": 30795,
+      "train_speed(iter/s)": 0.448508
+    },
+    {
+      "acc": 0.63533068,
+      "epoch": 0.7813292744799594,
+      "grad_norm": 5.5,
+      "learning_rate": 7.1488540540250254e-06,
+      "loss": 1.67451897,
+      "memory(GiB)": 111.15,
+      "step": 30800,
+      "train_speed(iter/s)": 0.448546
+    },
+    {
+      "epoch": 0.7813292744799594,
+      "eval_acc": 0.6427663381483801,
+      "eval_loss": 1.6108155250549316,
+      "eval_runtime": 114.2335,
+      "eval_samples_per_second": 55.763,
+      "eval_steps_per_second": 27.881,
+      "step": 30800
+    },
+    {
+      "acc": 0.64741917,
+      "epoch": 0.7814561136478945,
+      "grad_norm": 5.0,
+      "learning_rate": 7.14790716459539e-06,
+      "loss": 1.62743549,
+      "memory(GiB)": 111.15,
+      "step": 30805,
+      "train_speed(iter/s)": 0.44781
+    },
+    {
+      "acc": 0.65753269,
+      "epoch": 0.7815829528158296,
+      "grad_norm": 5.0,
+      "learning_rate": 7.146960180691209e-06,
+      "loss": 1.57152958,
+      "memory(GiB)": 111.15,
+      "step": 30810,
+      "train_speed(iter/s)": 0.447847
+    },
+    {
+      "acc": 0.6423707,
+      "epoch": 0.7817097919837646,
+      "grad_norm": 5.59375,
+      "learning_rate": 7.146013102354133e-06,
+      "loss": 1.6205471,
+      "memory(GiB)": 111.15,
+      "step": 30815,
+      "train_speed(iter/s)": 0.447886
+    },
+    {
+      "acc": 0.66003194,
+      "epoch": 0.7818366311516997,
+      "grad_norm": 5.15625,
+      "learning_rate": 7.145065929625821e-06,
+      "loss": 1.57598858,
+      "memory(GiB)": 111.15,
+      "step": 30820,
+      "train_speed(iter/s)": 0.447924
+    },
+    {
+      "acc": 0.65117698,
+      "epoch": 0.7819634703196348,
+      "grad_norm": 5.125,
+      "learning_rate": 7.1441186625479304e-06,
+      "loss": 1.65818958,
+      "memory(GiB)": 111.15,
+      "step": 30825,
+      "train_speed(iter/s)": 0.447962
+    },
+    {
+      "acc": 0.63875875,
+      "epoch": 0.7820903094875697,
+      "grad_norm": 6.15625,
+      "learning_rate": 7.143171301162131e-06,
+      "loss": 1.67396126,
+      "memory(GiB)": 111.15,
+      "step": 30830,
+      "train_speed(iter/s)": 0.448
+    },
+    {
+      "acc": 0.62688546,
+      "epoch": 0.7822171486555048,
+      "grad_norm": 5.71875,
+      "learning_rate": 7.142223845510086e-06,
+      "loss": 1.74163609,
+      "memory(GiB)": 111.15,
+      "step": 30835,
+      "train_speed(iter/s)": 0.448038
+    },
+    {
+      "acc": 0.63917665,
+      "epoch": 0.7823439878234398,
+      "grad_norm": 6.0625,
+      "learning_rate": 7.1412762956334746e-06,
+      "loss": 1.66056442,
+      "memory(GiB)": 111.15,
+      "step": 30840,
+      "train_speed(iter/s)": 0.448077
+    },
+    {
+      "acc": 0.65063796,
+      "epoch": 0.7824708269913749,
+      "grad_norm": 4.59375,
+      "learning_rate": 7.140328651573969e-06,
+      "loss": 1.62079926,
+      "memory(GiB)": 111.15,
+      "step": 30845,
+      "train_speed(iter/s)": 0.448115
+    },
+    {
+      "acc": 0.64573078,
+      "epoch": 0.78259766615931,
+      "grad_norm": 5.15625,
+      "learning_rate": 7.139380913373255e-06,
+      "loss": 1.64585686,
+      "memory(GiB)": 111.15,
+      "step": 30850,
+      "train_speed(iter/s)": 0.448154
+    },
+    {
+      "acc": 0.6448422,
+      "epoch": 0.782724505327245,
+      "grad_norm": 4.9375,
+      "learning_rate": 7.138433081073017e-06,
+      "loss": 1.68308144,
+      "memory(GiB)": 111.15,
+      "step": 30855,
+      "train_speed(iter/s)": 0.448192
+    },
+    {
+      "acc": 0.66168218,
+      "epoch": 0.7828513444951801,
+      "grad_norm": 5.15625,
+      "learning_rate": 7.137485154714945e-06,
+      "loss": 1.58274536,
+      "memory(GiB)": 111.15,
+      "step": 30860,
+      "train_speed(iter/s)": 0.448231
+    },
+    {
+      "acc": 0.66205597,
+      "epoch": 0.7829781836631152,
+      "grad_norm": 5.0625,
+      "learning_rate": 7.1365371343407304e-06,
+      "loss": 1.61109924,
+      "memory(GiB)": 111.15,
+      "step": 30865,
+      "train_speed(iter/s)": 0.448269
+    },
+    {
+      "acc": 0.66781082,
+      "epoch": 0.7831050228310502,
+      "grad_norm": 5.6875,
+      "learning_rate": 7.135589019992076e-06,
+      "loss": 1.61279774,
+      "memory(GiB)": 111.15,
+      "step": 30870,
+      "train_speed(iter/s)": 0.448308
+    },
+    {
+      "acc": 0.66033773,
+      "epoch": 0.7832318619989853,
+      "grad_norm": 5.9375,
+      "learning_rate": 7.134640811710681e-06,
+      "loss": 1.60158863,
+      "memory(GiB)": 111.15,
+      "step": 30875,
+      "train_speed(iter/s)": 0.448346
+    },
+    {
+      "acc": 0.63533506,
+      "epoch": 0.7833587011669203,
+      "grad_norm": 6.0,
+      "learning_rate": 7.133692509538253e-06,
+      "loss": 1.62528992,
+      "memory(GiB)": 111.15,
+      "step": 30880,
+      "train_speed(iter/s)": 0.448384
+    },
+    {
+      "acc": 0.64281855,
+      "epoch": 0.7834855403348554,
+      "grad_norm": 5.46875,
+      "learning_rate": 7.132744113516502e-06,
+      "loss": 1.70961037,
+      "memory(GiB)": 111.15,
+      "step": 30885,
+      "train_speed(iter/s)": 0.448423
+    },
+    {
+      "acc": 0.6659873,
+      "epoch": 0.7836123795027905,
+      "grad_norm": 5.4375,
+      "learning_rate": 7.1317956236871436e-06,
+      "loss": 1.59920311,
+      "memory(GiB)": 111.15,
+      "step": 30890,
+      "train_speed(iter/s)": 0.448461
+    },
+    {
+      "acc": 0.66405911,
+      "epoch": 0.7837392186707255,
+      "grad_norm": 5.15625,
+      "learning_rate": 7.130847040091893e-06,
+      "loss": 1.60594406,
+      "memory(GiB)": 111.15,
+      "step": 30895,
+      "train_speed(iter/s)": 0.448499
+    },
+    {
+      "acc": 0.64323874,
+      "epoch": 0.7838660578386606,
+      "grad_norm": 5.25,
+      "learning_rate": 7.1298983627724795e-06,
+      "loss": 1.62966881,
+      "memory(GiB)": 111.15,
+      "step": 30900,
+      "train_speed(iter/s)": 0.448537
+    },
+    {
+      "epoch": 0.7838660578386606,
+      "eval_acc": 0.642777200098426,
+      "eval_loss": 1.610750436782837,
+      "eval_runtime": 111.3462,
+      "eval_samples_per_second": 57.209,
+      "eval_steps_per_second": 28.604,
+      "step": 30900
+    },
+    {
+      "acc": 0.63616338,
+      "epoch": 0.7839928970065957,
+      "grad_norm": 6.4375,
+      "learning_rate": 7.128949591770624e-06,
+      "loss": 1.70839043,
+      "memory(GiB)": 111.15,
+      "step": 30905,
+      "train_speed(iter/s)": 0.447822
+    },
+    {
+      "acc": 0.66298161,
+      "epoch": 0.7841197361745307,
+      "grad_norm": 5.3125,
+      "learning_rate": 7.128000727128063e-06,
+      "loss": 1.6531353,
+      "memory(GiB)": 111.15,
+      "step": 30910,
+      "train_speed(iter/s)": 0.44786
+    },
+    {
+      "acc": 0.64129581,
+      "epoch": 0.7842465753424658,
+      "grad_norm": 5.59375,
+      "learning_rate": 7.127051768886527e-06,
+      "loss": 1.66708755,
+      "memory(GiB)": 111.15,
+      "step": 30915,
+      "train_speed(iter/s)": 0.447899
+    },
+    {
+      "acc": 0.66942554,
+      "epoch": 0.7843734145104008,
+      "grad_norm": 5.8125,
+      "learning_rate": 7.126102717087758e-06,
+      "loss": 1.58191547,
+      "memory(GiB)": 111.15,
+      "step": 30920,
+      "train_speed(iter/s)": 0.447937
+    },
+    {
+      "acc": 0.64453368,
+      "epoch": 0.7845002536783359,
+      "grad_norm": 4.9375,
+      "learning_rate": 7.1251535717735e-06,
+      "loss": 1.67702789,
+      "memory(GiB)": 111.15,
+      "step": 30925,
+      "train_speed(iter/s)": 0.447975
+    },
+    {
+      "acc": 0.63794889,
+      "epoch": 0.784627092846271,
+      "grad_norm": 6.96875,
+      "learning_rate": 7.1242043329854995e-06,
+      "loss": 1.68617096,
+      "memory(GiB)": 111.15,
+      "step": 30930,
+      "train_speed(iter/s)": 0.448013
+    },
+    {
+      "acc": 0.64637618,
+      "epoch": 0.784753932014206,
+      "grad_norm": 5.5,
+      "learning_rate": 7.123255000765508e-06,
+      "loss": 1.62841606,
+      "memory(GiB)": 111.15,
+      "step": 30935,
+      "train_speed(iter/s)": 0.448052
+    },
+    {
+      "acc": 0.64883261,
+      "epoch": 0.7848807711821411,
+      "grad_norm": 6.1875,
+      "learning_rate": 7.122305575155283e-06,
+      "loss": 1.63535442,
+      "memory(GiB)": 111.15,
+      "step": 30940,
+      "train_speed(iter/s)": 0.44809
+    },
+    {
+      "acc": 0.65482521,
+      "epoch": 0.7850076103500762,
+      "grad_norm": 5.03125,
+      "learning_rate": 7.121356056196582e-06,
+      "loss": 1.6417881,
+      "memory(GiB)": 111.15,
+      "step": 30945,
+      "train_speed(iter/s)": 0.448128
+    },
+    {
+      "acc": 0.67526751,
+      "epoch": 0.7851344495180111,
+      "grad_norm": 4.625,
+      "learning_rate": 7.1204064439311715e-06,
+      "loss": 1.57394161,
+      "memory(GiB)": 111.15,
+      "step": 30950,
+      "train_speed(iter/s)": 0.448167
+    },
+    {
+      "acc": 0.65488586,
+      "epoch": 0.7852612886859462,
+      "grad_norm": 6.0625,
+      "learning_rate": 7.119456738400818e-06,
+      "loss": 1.57184706,
+      "memory(GiB)": 111.15,
+      "step": 30955,
+      "train_speed(iter/s)": 0.448205
+    },
+    {
+      "acc": 0.6617012,
+      "epoch": 0.7853881278538812,
+      "grad_norm": 5.21875,
+      "learning_rate": 7.118506939647295e-06,
+      "loss": 1.51508751,
+      "memory(GiB)": 111.15,
+      "step": 30960,
+      "train_speed(iter/s)": 0.448243
+    },
+    {
+      "acc": 0.64925838,
+      "epoch": 0.7855149670218163,
+      "grad_norm": 5.78125,
+      "learning_rate": 7.1175570477123776e-06,
+      "loss": 1.63446712,
+      "memory(GiB)": 111.15,
+      "step": 30965,
+      "train_speed(iter/s)": 0.448282
+    },
+    {
+      "acc": 0.64819326,
+      "epoch": 0.7856418061897514,
+      "grad_norm": 5.5,
+      "learning_rate": 7.116607062637848e-06,
+      "loss": 1.64832993,
+      "memory(GiB)": 111.15,
+      "step": 30970,
+      "train_speed(iter/s)": 0.44832
+    },
+    {
+      "acc": 0.65542517,
+      "epoch": 0.7857686453576864,
+      "grad_norm": 5.8125,
+      "learning_rate": 7.115656984465489e-06,
+      "loss": 1.58983278,
+      "memory(GiB)": 111.15,
+      "step": 30975,
+      "train_speed(iter/s)": 0.448358
+    },
+    {
+      "acc": 0.64042444,
+      "epoch": 0.7858954845256215,
+      "grad_norm": 5.71875,
+      "learning_rate": 7.114706813237091e-06,
+      "loss": 1.71252022,
+      "memory(GiB)": 111.15,
+      "step": 30980,
+      "train_speed(iter/s)": 0.448396
+    },
+    {
+      "acc": 0.65176029,
+      "epoch": 0.7860223236935566,
+      "grad_norm": 4.59375,
+      "learning_rate": 7.1137565489944445e-06,
+      "loss": 1.62491436,
+      "memory(GiB)": 111.15,
+      "step": 30985,
+      "train_speed(iter/s)": 0.448435
+    },
+    {
+      "acc": 0.65771918,
+      "epoch": 0.7861491628614916,
+      "grad_norm": 5.21875,
+      "learning_rate": 7.112806191779349e-06,
+      "loss": 1.59344769,
+      "memory(GiB)": 111.15,
+      "step": 30990,
+      "train_speed(iter/s)": 0.448473
+    },
+    {
+      "acc": 0.64596863,
+      "epoch": 0.7862760020294267,
+      "grad_norm": 5.21875,
+      "learning_rate": 7.111855741633603e-06,
+      "loss": 1.65545101,
+      "memory(GiB)": 111.15,
+      "step": 30995,
+      "train_speed(iter/s)": 0.448511
+    },
+    {
+      "acc": 0.65507011,
+      "epoch": 0.7864028411973617,
+      "grad_norm": 6.59375,
+      "learning_rate": 7.1109051985990145e-06,
+      "loss": 1.63063011,
+      "memory(GiB)": 111.15,
+      "step": 31000,
+      "train_speed(iter/s)": 0.448549
+    },
+    {
+      "epoch": 0.7864028411973617,
+      "eval_acc": 0.642796417394661,
+      "eval_loss": 1.6107975244522095,
+      "eval_runtime": 114.2363,
+      "eval_samples_per_second": 55.762,
+      "eval_steps_per_second": 27.881,
+      "step": 31000
+    },
+    {
+      "acc": 0.64518003,
+      "epoch": 0.7865296803652968,
+      "grad_norm": 4.625,
+      "learning_rate": 7.109954562717389e-06,
+      "loss": 1.64898396,
+      "memory(GiB)": 111.15,
+      "step": 31005,
+      "train_speed(iter/s)": 0.447818
+    },
+    {
+      "acc": 0.66206203,
+      "epoch": 0.7866565195332319,
+      "grad_norm": 6.09375,
+      "learning_rate": 7.109003834030543e-06,
+      "loss": 1.62006245,
+      "memory(GiB)": 111.15,
+      "step": 31010,
+      "train_speed(iter/s)": 0.447856
+    },
+    {
+      "acc": 0.66016941,
+      "epoch": 0.7867833587011669,
+      "grad_norm": 7.0,
+      "learning_rate": 7.108053012580291e-06,
+      "loss": 1.57476673,
+      "memory(GiB)": 111.15,
+      "step": 31015,
+      "train_speed(iter/s)": 0.447894
+    },
+    {
+      "acc": 0.64697161,
+      "epoch": 0.786910197869102,
+      "grad_norm": 4.9375,
+      "learning_rate": 7.107102098408457e-06,
+      "loss": 1.57776089,
+      "memory(GiB)": 111.15,
+      "step": 31020,
+      "train_speed(iter/s)": 0.447932
+    },
+    {
+      "acc": 0.65201693,
+      "epoch": 0.7870370370370371,
+      "grad_norm": 5.1875,
+      "learning_rate": 7.106151091556865e-06,
+      "loss": 1.63846264,
+      "memory(GiB)": 111.15,
+      "step": 31025,
+      "train_speed(iter/s)": 0.447969
+    },
+    {
+      "acc": 0.65150242,
+      "epoch": 0.7871638762049721,
+      "grad_norm": 5.09375,
+      "learning_rate": 7.105199992067344e-06,
+      "loss": 1.62783928,
+      "memory(GiB)": 111.15,
+      "step": 31030,
+      "train_speed(iter/s)": 0.448007
+    },
+    {
+      "acc": 0.64858766,
+      "epoch": 0.7872907153729072,
+      "grad_norm": 5.03125,
+      "learning_rate": 7.1042487999817275e-06,
+      "loss": 1.6289053,
+      "memory(GiB)": 111.15,
+      "step": 31035,
+      "train_speed(iter/s)": 0.448045
+    },
+    {
+      "acc": 0.65656414,
+      "epoch": 0.7874175545408422,
+      "grad_norm": 5.59375,
+      "learning_rate": 7.103297515341857e-06,
+      "loss": 1.59551468,
+      "memory(GiB)": 111.15,
+      "step": 31040,
+      "train_speed(iter/s)": 0.448083
+    },
+    {
+      "acc": 0.65150142,
+      "epoch": 0.7875443937087773,
+      "grad_norm": 6.09375,
+      "learning_rate": 7.1023461381895685e-06,
+      "loss": 1.61672211,
+      "memory(GiB)": 111.15,
+      "step": 31045,
+      "train_speed(iter/s)": 0.448121
+    },
+    {
+      "acc": 0.64974575,
+      "epoch": 0.7876712328767124,
+      "grad_norm": 5.03125,
+      "learning_rate": 7.1013946685667125e-06,
+      "loss": 1.63908215,
+      "memory(GiB)": 111.15,
+      "step": 31050,
+      "train_speed(iter/s)": 0.448159
+    },
+    {
+      "acc": 0.66036777,
+      "epoch": 0.7877980720446474,
+      "grad_norm": 6.0625,
+      "learning_rate": 7.100443106515135e-06,
+      "loss": 1.59898205,
+      "memory(GiB)": 111.15,
+      "step": 31055,
+      "train_speed(iter/s)": 0.448197
+    },
+    {
+      "acc": 0.66473131,
+      "epoch": 0.7879249112125825,
+      "grad_norm": 6.28125,
+      "learning_rate": 7.099491452076693e-06,
+      "loss": 1.62502632,
+      "memory(GiB)": 111.15,
+      "step": 31060,
+      "train_speed(iter/s)": 0.448235
+    },
+    {
+      "acc": 0.64832411,
+      "epoch": 0.7880517503805176,
+      "grad_norm": 7.84375,
+      "learning_rate": 7.098539705293242e-06,
+      "loss": 1.65329247,
+      "memory(GiB)": 111.15,
+      "step": 31065,
+      "train_speed(iter/s)": 0.448273
+    },
+    {
+      "acc": 0.64531212,
+      "epoch": 0.7881785895484525,
+      "grad_norm": 6.375,
+      "learning_rate": 7.097587866206647e-06,
+      "loss": 1.62400188,
+      "memory(GiB)": 111.15,
+      "step": 31070,
+      "train_speed(iter/s)": 0.448311
+    },
+    {
+      "acc": 0.66134143,
+      "epoch": 0.7883054287163876,
+      "grad_norm": 6.625,
+      "learning_rate": 7.096635934858772e-06,
+      "loss": 1.61105042,
+      "memory(GiB)": 111.15,
+      "step": 31075,
+      "train_speed(iter/s)": 0.448348
+    },
+    {
+      "acc": 0.65088539,
+      "epoch": 0.7884322678843226,
+      "grad_norm": 5.25,
+      "learning_rate": 7.095683911291488e-06,
+      "loss": 1.64476032,
+      "memory(GiB)": 111.15,
+      "step": 31080,
+      "train_speed(iter/s)": 0.448387
+    },
+    {
+      "acc": 0.64607506,
+      "epoch": 0.7885591070522577,
+      "grad_norm": 5.6875,
+      "learning_rate": 7.0947317955466686e-06,
+      "loss": 1.73367271,
+      "memory(GiB)": 111.15,
+      "step": 31085,
+      "train_speed(iter/s)": 0.448425
+    },
+    {
+      "acc": 0.64504452,
+      "epoch": 0.7886859462201928,
+      "grad_norm": 5.25,
+      "learning_rate": 7.093779587666193e-06,
+      "loss": 1.64341621,
+      "memory(GiB)": 111.15,
+      "step": 31090,
+      "train_speed(iter/s)": 0.448463
+    },
+    {
+      "acc": 0.65902405,
+      "epoch": 0.7888127853881278,
+      "grad_norm": 5.0625,
+      "learning_rate": 7.092827287691943e-06,
+      "loss": 1.56710167,
+      "memory(GiB)": 111.15,
+      "step": 31095,
+      "train_speed(iter/s)": 0.448501
+    },
+    {
+      "acc": 0.65478497,
+      "epoch": 0.7889396245560629,
+      "grad_norm": 5.40625,
+      "learning_rate": 7.091874895665806e-06,
+      "loss": 1.63734455,
+      "memory(GiB)": 111.15,
+      "step": 31100,
+      "train_speed(iter/s)": 0.448539
+    },
+    {
+      "epoch": 0.7889396245560629,
+      "eval_acc": 0.6429355339087103,
+      "eval_loss": 1.6107193231582642,
+      "eval_runtime": 114.0963,
+      "eval_samples_per_second": 55.83,
+      "eval_steps_per_second": 27.915,
+      "step": 31100
+    },
+    {
+      "acc": 0.65356402,
+      "epoch": 0.789066463723998,
+      "grad_norm": 6.34375,
+      "learning_rate": 7.09092241162967e-06,
+      "loss": 1.63494625,
+      "memory(GiB)": 111.15,
+      "step": 31105,
+      "train_speed(iter/s)": 0.447811
+    },
+    {
+      "acc": 0.65918703,
+      "epoch": 0.789193302891933,
+      "grad_norm": 4.90625,
+      "learning_rate": 7.089969835625432e-06,
+      "loss": 1.63414268,
+      "memory(GiB)": 111.15,
+      "step": 31110,
+      "train_speed(iter/s)": 0.447848
+    },
+    {
+      "acc": 0.63956089,
+      "epoch": 0.7893201420598681,
+      "grad_norm": 5.78125,
+      "learning_rate": 7.089017167694988e-06,
+      "loss": 1.65694809,
+      "memory(GiB)": 111.15,
+      "step": 31115,
+      "train_speed(iter/s)": 0.447886
+    },
+    {
+      "acc": 0.64109316,
+      "epoch": 0.7894469812278031,
+      "grad_norm": 5.5625,
+      "learning_rate": 7.088064407880244e-06,
+      "loss": 1.68776035,
+      "memory(GiB)": 111.15,
+      "step": 31120,
+      "train_speed(iter/s)": 0.447923
+    },
+    {
+      "acc": 0.65231352,
+      "epoch": 0.7895738203957382,
+      "grad_norm": 5.25,
+      "learning_rate": 7.087111556223103e-06,
+      "loss": 1.64642849,
+      "memory(GiB)": 111.15,
+      "step": 31125,
+      "train_speed(iter/s)": 0.447961
+    },
+    {
+      "acc": 0.64406476,
+      "epoch": 0.7897006595636733,
+      "grad_norm": 5.90625,
+      "learning_rate": 7.08615861276548e-06,
+      "loss": 1.67204704,
+      "memory(GiB)": 111.15,
+      "step": 31130,
+      "train_speed(iter/s)": 0.447999
+    },
+    {
+      "acc": 0.63983431,
+      "epoch": 0.7898274987316083,
+      "grad_norm": 4.8125,
+      "learning_rate": 7.085205577549285e-06,
+      "loss": 1.62904968,
+      "memory(GiB)": 111.15,
+      "step": 31135,
+      "train_speed(iter/s)": 0.448036
+    },
+    {
+      "acc": 0.65634842,
+      "epoch": 0.7899543378995434,
+      "grad_norm": 4.34375,
+      "learning_rate": 7.08425245061644e-06,
+      "loss": 1.61398563,
+      "memory(GiB)": 111.15,
+      "step": 31140,
+      "train_speed(iter/s)": 0.448074
+    },
+    {
+      "acc": 0.64045734,
+      "epoch": 0.7900811770674785,
+      "grad_norm": 5.125,
+      "learning_rate": 7.083299232008867e-06,
+      "loss": 1.66314354,
+      "memory(GiB)": 111.15,
+      "step": 31145,
+      "train_speed(iter/s)": 0.448111
+    },
+    {
+      "acc": 0.65300369,
+      "epoch": 0.7902080162354135,
+      "grad_norm": 5.59375,
+      "learning_rate": 7.082345921768492e-06,
+      "loss": 1.56575985,
+      "memory(GiB)": 111.15,
+      "step": 31150,
+      "train_speed(iter/s)": 0.448149
+    },
+    {
+      "acc": 0.65374107,
+      "epoch": 0.7903348554033486,
+      "grad_norm": 5.71875,
+      "learning_rate": 7.0813925199372455e-06,
+      "loss": 1.61517086,
+      "memory(GiB)": 111.15,
+      "step": 31155,
+      "train_speed(iter/s)": 0.448186
+    },
+    {
+      "acc": 0.62918968,
+      "epoch": 0.7904616945712836,
+      "grad_norm": 4.6875,
+      "learning_rate": 7.080439026557065e-06,
+      "loss": 1.64710522,
+      "memory(GiB)": 111.15,
+      "step": 31160,
+      "train_speed(iter/s)": 0.448224
+    },
+    {
+      "acc": 0.66331806,
+      "epoch": 0.7905885337392187,
+      "grad_norm": 4.53125,
+      "learning_rate": 7.079485441669887e-06,
+      "loss": 1.51792068,
+      "memory(GiB)": 111.15,
+      "step": 31165,
+      "train_speed(iter/s)": 0.448261
+    },
+    {
+      "acc": 0.63385506,
+      "epoch": 0.7907153729071538,
+      "grad_norm": 5.3125,
+      "learning_rate": 7.0785317653176534e-06,
+      "loss": 1.65183105,
+      "memory(GiB)": 111.15,
+      "step": 31170,
+      "train_speed(iter/s)": 0.448299
+    },
+    {
+      "acc": 0.63161554,
+      "epoch": 0.7908422120750888,
+      "grad_norm": 5.59375,
+      "learning_rate": 7.077577997542316e-06,
+      "loss": 1.67356949,
+      "memory(GiB)": 111.15,
+      "step": 31175,
+      "train_speed(iter/s)": 0.448336
+    },
+    {
+      "acc": 0.64063845,
+      "epoch": 0.7909690512430239,
+      "grad_norm": 5.59375,
+      "learning_rate": 7.0766241383858195e-06,
+      "loss": 1.74691181,
+      "memory(GiB)": 111.15,
+      "step": 31180,
+      "train_speed(iter/s)": 0.448374
+    },
+    {
+      "acc": 0.6450038,
+      "epoch": 0.791095890410959,
+      "grad_norm": 5.21875,
+      "learning_rate": 7.075670187890123e-06,
+      "loss": 1.64314842,
+      "memory(GiB)": 111.15,
+      "step": 31185,
+      "train_speed(iter/s)": 0.448412
+    },
+    {
+      "acc": 0.65761538,
+      "epoch": 0.791222729578894,
+      "grad_norm": 5.25,
+      "learning_rate": 7.0747161460971845e-06,
+      "loss": 1.612117,
+      "memory(GiB)": 111.15,
+      "step": 31190,
+      "train_speed(iter/s)": 0.44845
+    },
+    {
+      "acc": 0.64225979,
+      "epoch": 0.791349568746829,
+      "grad_norm": 6.21875,
+      "learning_rate": 7.073762013048966e-06,
+      "loss": 1.71116943,
+      "memory(GiB)": 111.15,
+      "step": 31195,
+      "train_speed(iter/s)": 0.448487
+    },
+    {
+      "acc": 0.64990358,
+      "epoch": 0.791476407914764,
+      "grad_norm": 5.21875,
+      "learning_rate": 7.072807788787437e-06,
+      "loss": 1.59435291,
+      "memory(GiB)": 111.15,
+      "step": 31200,
+      "train_speed(iter/s)": 0.448525
+    },
+    {
+      "epoch": 0.791476407914764,
+      "eval_acc": 0.6428122925524205,
+      "eval_loss": 1.610496163368225,
+      "eval_runtime": 113.6278,
+      "eval_samples_per_second": 56.06,
+      "eval_steps_per_second": 28.03,
+      "step": 31200
+    },
+    {
+      "acc": 0.6481596,
+      "epoch": 0.7916032470826991,
+      "grad_norm": 6.09375,
+      "learning_rate": 7.071853473354566e-06,
+      "loss": 1.64403172,
+      "memory(GiB)": 111.15,
+      "step": 31205,
+      "train_speed(iter/s)": 0.447802
+    },
+    {
+      "acc": 0.65084019,
+      "epoch": 0.7917300862506342,
+      "grad_norm": 4.78125,
+      "learning_rate": 7.070899066792329e-06,
+      "loss": 1.6133461,
+      "memory(GiB)": 111.15,
+      "step": 31210,
+      "train_speed(iter/s)": 0.44784
+    },
+    {
+      "acc": 0.65622911,
+      "epoch": 0.7918569254185692,
+      "grad_norm": 5.3125,
+      "learning_rate": 7.069944569142706e-06,
+      "loss": 1.60215988,
+      "memory(GiB)": 111.15,
+      "step": 31215,
+      "train_speed(iter/s)": 0.447878
+    },
+    {
+      "acc": 0.64859939,
+      "epoch": 0.7919837645865043,
+      "grad_norm": 5.90625,
+      "learning_rate": 7.068989980447679e-06,
+      "loss": 1.67581291,
+      "memory(GiB)": 111.15,
+      "step": 31220,
+      "train_speed(iter/s)": 0.447915
+    },
+    {
+      "acc": 0.65272231,
+      "epoch": 0.7921106037544394,
+      "grad_norm": 5.96875,
+      "learning_rate": 7.068035300749237e-06,
+      "loss": 1.6181881,
+      "memory(GiB)": 111.15,
+      "step": 31225,
+      "train_speed(iter/s)": 0.447953
+    },
+    {
+      "acc": 0.6427022,
+      "epoch": 0.7922374429223744,
+      "grad_norm": 4.71875,
+      "learning_rate": 7.067080530089366e-06,
+      "loss": 1.70042667,
+      "memory(GiB)": 111.15,
+      "step": 31230,
+      "train_speed(iter/s)": 0.44799
+    },
+    {
+      "acc": 0.64109869,
+      "epoch": 0.7923642820903095,
+      "grad_norm": 5.46875,
+      "learning_rate": 7.066125668510067e-06,
+      "loss": 1.68296776,
+      "memory(GiB)": 111.15,
+      "step": 31235,
+      "train_speed(iter/s)": 0.448028
+    },
+    {
+      "acc": 0.64118376,
+      "epoch": 0.7924911212582445,
+      "grad_norm": 5.40625,
+      "learning_rate": 7.065170716053336e-06,
+      "loss": 1.65491753,
+      "memory(GiB)": 111.15,
+      "step": 31240,
+      "train_speed(iter/s)": 0.448066
+    },
+    {
+      "acc": 0.64315076,
+      "epoch": 0.7926179604261796,
+      "grad_norm": 5.9375,
+      "learning_rate": 7.064215672761175e-06,
+      "loss": 1.65513268,
+      "memory(GiB)": 111.15,
+      "step": 31245,
+      "train_speed(iter/s)": 0.448104
+    },
+    {
+      "acc": 0.66230831,
+      "epoch": 0.7927447995941147,
+      "grad_norm": 4.90625,
+      "learning_rate": 7.063260538675594e-06,
+      "loss": 1.59357901,
+      "memory(GiB)": 111.15,
+      "step": 31250,
+      "train_speed(iter/s)": 0.448141
+    },
+    {
+      "acc": 0.65274773,
+      "epoch": 0.7928716387620497,
+      "grad_norm": 5.125,
+      "learning_rate": 7.062305313838601e-06,
+      "loss": 1.59322681,
+      "memory(GiB)": 111.15,
+      "step": 31255,
+      "train_speed(iter/s)": 0.448179
+    },
+    {
+      "acc": 0.64179802,
+      "epoch": 0.7929984779299848,
+      "grad_norm": 5.40625,
+      "learning_rate": 7.061349998292215e-06,
+      "loss": 1.69425545,
+      "memory(GiB)": 111.15,
+      "step": 31260,
+      "train_speed(iter/s)": 0.448217
+    },
+    {
+      "acc": 0.64792447,
+      "epoch": 0.7931253170979199,
+      "grad_norm": 5.3125,
+      "learning_rate": 7.060394592078452e-06,
+      "loss": 1.64353371,
+      "memory(GiB)": 111.15,
+      "step": 31265,
+      "train_speed(iter/s)": 0.448254
+    },
+    {
+      "acc": 0.64805927,
+      "epoch": 0.7932521562658549,
+      "grad_norm": 5.25,
+      "learning_rate": 7.0594390952393365e-06,
+      "loss": 1.63469429,
+      "memory(GiB)": 111.15,
+      "step": 31270,
+      "train_speed(iter/s)": 0.448292
+    },
+    {
+      "acc": 0.6365171,
+      "epoch": 0.79337899543379,
+      "grad_norm": 5.1875,
+      "learning_rate": 7.058483507816894e-06,
+      "loss": 1.66427002,
+      "memory(GiB)": 111.15,
+      "step": 31275,
+      "train_speed(iter/s)": 0.44833
+    },
+    {
+      "acc": 0.65665178,
+      "epoch": 0.793505834601725,
+      "grad_norm": 4.53125,
+      "learning_rate": 7.057527829853157e-06,
+      "loss": 1.58186893,
+      "memory(GiB)": 111.15,
+      "step": 31280,
+      "train_speed(iter/s)": 0.448368
+    },
+    {
+      "acc": 0.64379082,
+      "epoch": 0.7936326737696601,
+      "grad_norm": 6.4375,
+      "learning_rate": 7.056572061390159e-06,
+      "loss": 1.65864563,
+      "memory(GiB)": 111.15,
+      "step": 31285,
+      "train_speed(iter/s)": 0.448405
+    },
+    {
+      "acc": 0.63721948,
+      "epoch": 0.7937595129375952,
+      "grad_norm": 4.78125,
+      "learning_rate": 7.055616202469939e-06,
+      "loss": 1.66354313,
+      "memory(GiB)": 111.15,
+      "step": 31290,
+      "train_speed(iter/s)": 0.448443
+    },
+    {
+      "acc": 0.65148191,
+      "epoch": 0.7938863521055302,
+      "grad_norm": 6.34375,
+      "learning_rate": 7.054660253134543e-06,
+      "loss": 1.63543282,
+      "memory(GiB)": 111.15,
+      "step": 31295,
+      "train_speed(iter/s)": 0.448481
+    },
+    {
+      "acc": 0.64979401,
+      "epoch": 0.7940131912734653,
+      "grad_norm": 5.21875,
+      "learning_rate": 7.053704213426015e-06,
+      "loss": 1.70438004,
+      "memory(GiB)": 111.15,
+      "step": 31300,
+      "train_speed(iter/s)": 0.448519
+    },
+    {
+      "epoch": 0.7940131912734653,
+      "eval_acc": 0.6428298387794176,
+      "eval_loss": 1.6106901168823242,
+      "eval_runtime": 113.4291,
+      "eval_samples_per_second": 56.158,
+      "eval_steps_per_second": 28.079,
+      "step": 31300
+    },
+    {
+      "acc": 0.64462376,
+      "epoch": 0.7941400304414004,
+      "grad_norm": 5.34375,
+      "learning_rate": 7.052748083386406e-06,
+      "loss": 1.67642441,
+      "memory(GiB)": 111.15,
+      "step": 31305,
+      "train_speed(iter/s)": 0.447799
+    },
+    {
+      "acc": 0.66111736,
+      "epoch": 0.7942668696093353,
+      "grad_norm": 5.75,
+      "learning_rate": 7.051791863057772e-06,
+      "loss": 1.6098505,
+      "memory(GiB)": 111.15,
+      "step": 31310,
+      "train_speed(iter/s)": 0.447836
+    },
+    {
+      "acc": 0.64311485,
+      "epoch": 0.7943937087772704,
+      "grad_norm": 6.0,
+      "learning_rate": 7.050835552482171e-06,
+      "loss": 1.62449951,
+      "memory(GiB)": 111.15,
+      "step": 31315,
+      "train_speed(iter/s)": 0.447874
+    },
+    {
+      "acc": 0.65576372,
+      "epoch": 0.7945205479452054,
+      "grad_norm": 5.96875,
+      "learning_rate": 7.049879151701666e-06,
+      "loss": 1.6281929,
+      "memory(GiB)": 111.15,
+      "step": 31320,
+      "train_speed(iter/s)": 0.447912
+    },
+    {
+      "acc": 0.63418741,
+      "epoch": 0.7946473871131405,
+      "grad_norm": 5.4375,
+      "learning_rate": 7.048922660758324e-06,
+      "loss": 1.63147793,
+      "memory(GiB)": 111.15,
+      "step": 31325,
+      "train_speed(iter/s)": 0.447949
+    },
+    {
+      "acc": 0.6562851,
+      "epoch": 0.7947742262810756,
+      "grad_norm": 5.28125,
+      "learning_rate": 7.047966079694215e-06,
+      "loss": 1.55582857,
+      "memory(GiB)": 111.15,
+      "step": 31330,
+      "train_speed(iter/s)": 0.447986
+    },
+    {
+      "acc": 0.65491343,
+      "epoch": 0.7949010654490106,
+      "grad_norm": 6.03125,
+      "learning_rate": 7.047009408551414e-06,
+      "loss": 1.56434479,
+      "memory(GiB)": 111.15,
+      "step": 31335,
+      "train_speed(iter/s)": 0.448024
+    },
+    {
+      "acc": 0.64060459,
+      "epoch": 0.7950279046169457,
+      "grad_norm": 5.53125,
+      "learning_rate": 7.046052647372002e-06,
+      "loss": 1.64723206,
+      "memory(GiB)": 111.15,
+      "step": 31340,
+      "train_speed(iter/s)": 0.448061
+    },
+    {
+      "acc": 0.65123663,
+      "epoch": 0.7951547437848808,
+      "grad_norm": 5.78125,
+      "learning_rate": 7.045095796198057e-06,
+      "loss": 1.66899834,
+      "memory(GiB)": 111.15,
+      "step": 31345,
+      "train_speed(iter/s)": 0.448098
+    },
+    {
+      "acc": 0.63876448,
+      "epoch": 0.7952815829528158,
+      "grad_norm": 5.34375,
+      "learning_rate": 7.044138855071671e-06,
+      "loss": 1.75702152,
+      "memory(GiB)": 111.15,
+      "step": 31350,
+      "train_speed(iter/s)": 0.448136
+    },
+    {
+      "acc": 0.64831133,
+      "epoch": 0.7954084221207509,
+      "grad_norm": 5.78125,
+      "learning_rate": 7.043181824034929e-06,
+      "loss": 1.65338669,
+      "memory(GiB)": 111.15,
+      "step": 31355,
+      "train_speed(iter/s)": 0.448174
+    },
+    {
+      "acc": 0.66197309,
+      "epoch": 0.7955352612886859,
+      "grad_norm": 6.21875,
+      "learning_rate": 7.042224703129929e-06,
+      "loss": 1.59324617,
+      "memory(GiB)": 111.15,
+      "step": 31360,
+      "train_speed(iter/s)": 0.448212
+    },
+    {
+      "acc": 0.64458365,
+      "epoch": 0.795662100456621,
+      "grad_norm": 5.6875,
+      "learning_rate": 7.0412674923987705e-06,
+      "loss": 1.68621178,
+      "memory(GiB)": 111.15,
+      "step": 31365,
+      "train_speed(iter/s)": 0.44825
+    },
+    {
+      "acc": 0.65985699,
+      "epoch": 0.7957889396245561,
+      "grad_norm": 6.3125,
+      "learning_rate": 7.040310191883552e-06,
+      "loss": 1.55742931,
+      "memory(GiB)": 111.15,
+      "step": 31370,
+      "train_speed(iter/s)": 0.448287
+    },
+    {
+      "acc": 0.6507226,
+      "epoch": 0.7959157787924911,
+      "grad_norm": 5.25,
+      "learning_rate": 7.039352801626383e-06,
+      "loss": 1.60855865,
+      "memory(GiB)": 111.15,
+      "step": 31375,
+      "train_speed(iter/s)": 0.448325
+    },
+    {
+      "acc": 0.67202559,
+      "epoch": 0.7960426179604262,
+      "grad_norm": 5.21875,
+      "learning_rate": 7.0383953216693725e-06,
+      "loss": 1.48202114,
+      "memory(GiB)": 111.15,
+      "step": 31380,
+      "train_speed(iter/s)": 0.448364
+    },
+    {
+      "acc": 0.66186886,
+      "epoch": 0.7961694571283613,
+      "grad_norm": 5.625,
+      "learning_rate": 7.037437752054635e-06,
+      "loss": 1.64839172,
+      "memory(GiB)": 111.15,
+      "step": 31385,
+      "train_speed(iter/s)": 0.448401
+    },
+    {
+      "acc": 0.65394578,
+      "epoch": 0.7962962962962963,
+      "grad_norm": 5.75,
+      "learning_rate": 7.036480092824288e-06,
+      "loss": 1.60997868,
+      "memory(GiB)": 111.15,
+      "step": 31390,
+      "train_speed(iter/s)": 0.448439
+    },
+    {
+      "acc": 0.6463728,
+      "epoch": 0.7964231354642314,
+      "grad_norm": 5.6875,
+      "learning_rate": 7.035522344020455e-06,
+      "loss": 1.62575378,
+      "memory(GiB)": 111.15,
+      "step": 31395,
+      "train_speed(iter/s)": 0.448477
+    },
+    {
+      "acc": 0.63021846,
+      "epoch": 0.7965499746321664,
+      "grad_norm": 5.59375,
+      "learning_rate": 7.034564505685262e-06,
+      "loss": 1.60279312,
+      "memory(GiB)": 111.15,
+      "step": 31400,
+      "train_speed(iter/s)": 0.448514
+    },
+    {
+      "epoch": 0.7965499746321664,
+      "eval_acc": 0.6428628423968648,
+      "eval_loss": 1.610276699066162,
+      "eval_runtime": 112.9567,
+      "eval_samples_per_second": 56.393,
+      "eval_steps_per_second": 28.197,
+      "step": 31400
+    },
+    {
+      "acc": 0.64464951,
+      "epoch": 0.7966768138001015,
+      "grad_norm": 5.96875,
+      "learning_rate": 7.0336065778608365e-06,
+      "loss": 1.62779808,
+      "memory(GiB)": 111.15,
+      "step": 31405,
+      "train_speed(iter/s)": 0.447801
+    },
+    {
+      "acc": 0.66113567,
+      "epoch": 0.7968036529680366,
+      "grad_norm": 4.40625,
+      "learning_rate": 7.032648560589316e-06,
+      "loss": 1.57510586,
+      "memory(GiB)": 111.15,
+      "step": 31410,
+      "train_speed(iter/s)": 0.447839
+    },
+    {
+      "acc": 0.65662103,
+      "epoch": 0.7969304921359716,
+      "grad_norm": 5.75,
+      "learning_rate": 7.031690453912835e-06,
+      "loss": 1.57331696,
+      "memory(GiB)": 111.15,
+      "step": 31415,
+      "train_speed(iter/s)": 0.447877
+    },
+    {
+      "acc": 0.64789066,
+      "epoch": 0.7970573313039067,
+      "grad_norm": 6.53125,
+      "learning_rate": 7.030732257873539e-06,
+      "loss": 1.6587677,
+      "memory(GiB)": 111.15,
+      "step": 31420,
+      "train_speed(iter/s)": 0.447915
+    },
+    {
+      "acc": 0.65363169,
+      "epoch": 0.7971841704718418,
+      "grad_norm": 5.15625,
+      "learning_rate": 7.02977397251357e-06,
+      "loss": 1.62958221,
+      "memory(GiB)": 111.15,
+      "step": 31425,
+      "train_speed(iter/s)": 0.447953
+    },
+    {
+      "acc": 0.66571565,
+      "epoch": 0.7973110096397767,
+      "grad_norm": 4.6875,
+      "learning_rate": 7.028815597875081e-06,
+      "loss": 1.56579132,
+      "memory(GiB)": 111.15,
+      "step": 31430,
+      "train_speed(iter/s)": 0.447991
+    },
+    {
+      "acc": 0.63231802,
+      "epoch": 0.7974378488077118,
+      "grad_norm": 4.9375,
+      "learning_rate": 7.027857134000223e-06,
+      "loss": 1.67255478,
+      "memory(GiB)": 111.15,
+      "step": 31435,
+      "train_speed(iter/s)": 0.448029
+    },
+    {
+      "acc": 0.65727959,
+      "epoch": 0.7975646879756468,
+      "grad_norm": 6.1875,
+      "learning_rate": 7.026898580931154e-06,
+      "loss": 1.63699112,
+      "memory(GiB)": 111.15,
+      "step": 31440,
+      "train_speed(iter/s)": 0.448068
+    },
+    {
+      "acc": 0.66182232,
+      "epoch": 0.7976915271435819,
+      "grad_norm": 5.125,
+      "learning_rate": 7.025939938710037e-06,
+      "loss": 1.58103342,
+      "memory(GiB)": 111.15,
+      "step": 31445,
+      "train_speed(iter/s)": 0.448106
+    },
+    {
+      "acc": 0.626756,
+      "epoch": 0.797818366311517,
+      "grad_norm": 5.375,
+      "learning_rate": 7.024981207379036e-06,
+      "loss": 1.70124702,
+      "memory(GiB)": 111.15,
+      "step": 31450,
+      "train_speed(iter/s)": 0.448144
+    },
+    {
+      "acc": 0.63196211,
+      "epoch": 0.797945205479452,
+      "grad_norm": 5.4375,
+      "learning_rate": 7.02402238698032e-06,
+      "loss": 1.68358116,
+      "memory(GiB)": 111.15,
+      "step": 31455,
+      "train_speed(iter/s)": 0.448182
+    },
+    {
+      "acc": 0.64372854,
+      "epoch": 0.7980720446473871,
+      "grad_norm": 6.25,
+      "learning_rate": 7.023063477556064e-06,
+      "loss": 1.67916298,
+      "memory(GiB)": 111.15,
+      "step": 31460,
+      "train_speed(iter/s)": 0.44822
+    },
+    {
+      "acc": 0.65356493,
+      "epoch": 0.7981988838153222,
+      "grad_norm": 5.1875,
+      "learning_rate": 7.0221044791484424e-06,
+      "loss": 1.58596096,
+      "memory(GiB)": 111.15,
+      "step": 31465,
+      "train_speed(iter/s)": 0.448259
+    },
+    {
+      "acc": 0.64748917,
+      "epoch": 0.7983257229832572,
+      "grad_norm": 5.03125,
+      "learning_rate": 7.021145391799639e-06,
+      "loss": 1.60946789,
+      "memory(GiB)": 111.15,
+      "step": 31470,
+      "train_speed(iter/s)": 0.448297
+    },
+    {
+      "acc": 0.64902372,
+      "epoch": 0.7984525621511923,
+      "grad_norm": 4.9375,
+      "learning_rate": 7.020186215551837e-06,
+      "loss": 1.63870678,
+      "memory(GiB)": 111.15,
+      "step": 31475,
+      "train_speed(iter/s)": 0.448335
+    },
+    {
+      "acc": 0.65061336,
+      "epoch": 0.7985794013191273,
+      "grad_norm": 5.6875,
+      "learning_rate": 7.019226950447227e-06,
+      "loss": 1.61500988,
+      "memory(GiB)": 111.15,
+      "step": 31480,
+      "train_speed(iter/s)": 0.448373
+    },
+    {
+      "acc": 0.63138103,
+      "epoch": 0.7987062404870624,
+      "grad_norm": 5.53125,
+      "learning_rate": 7.018267596527998e-06,
+      "loss": 1.6874258,
+      "memory(GiB)": 111.15,
+      "step": 31485,
+      "train_speed(iter/s)": 0.448412
+    },
+    {
+      "acc": 0.66947923,
+      "epoch": 0.7988330796549975,
+      "grad_norm": 5.3125,
+      "learning_rate": 7.017308153836352e-06,
+      "loss": 1.5617588,
+      "memory(GiB)": 111.15,
+      "step": 31490,
+      "train_speed(iter/s)": 0.44845
+    },
+    {
+      "acc": 0.64681044,
+      "epoch": 0.7989599188229325,
+      "grad_norm": 4.875,
+      "learning_rate": 7.016348622414484e-06,
+      "loss": 1.66893044,
+      "memory(GiB)": 111.15,
+      "step": 31495,
+      "train_speed(iter/s)": 0.448488
+    },
+    {
+      "acc": 0.65383692,
+      "epoch": 0.7990867579908676,
+      "grad_norm": 4.90625,
+      "learning_rate": 7.015389002304604e-06,
+      "loss": 1.59984856,
+      "memory(GiB)": 111.15,
+      "step": 31500,
+      "train_speed(iter/s)": 0.448526
+    },
+    {
+      "epoch": 0.7990867579908676,
+      "eval_acc": 0.6429246719586644,
+      "eval_loss": 1.6103376150131226,
+      "eval_runtime": 112.6465,
+      "eval_samples_per_second": 56.549,
+      "eval_steps_per_second": 28.274,
+      "step": 31500
+    },
+    {
+      "acc": 0.66249008,
+      "epoch": 0.7992135971588027,
+      "grad_norm": 5.5,
+      "learning_rate": 7.014429293548916e-06,
+      "loss": 1.55225859,
+      "memory(GiB)": 111.15,
+      "step": 31505,
+      "train_speed(iter/s)": 0.447816
+    },
+    {
+      "acc": 0.65054154,
+      "epoch": 0.7993404363267377,
+      "grad_norm": 5.8125,
+      "learning_rate": 7.013469496189633e-06,
+      "loss": 1.64387569,
+      "memory(GiB)": 111.15,
+      "step": 31510,
+      "train_speed(iter/s)": 0.447854
+    },
+    {
+      "acc": 0.65694227,
+      "epoch": 0.7994672754946728,
+      "grad_norm": 5.46875,
+      "learning_rate": 7.012509610268974e-06,
+      "loss": 1.54886665,
+      "memory(GiB)": 111.15,
+      "step": 31515,
+      "train_speed(iter/s)": 0.447891
+    },
+    {
+      "acc": 0.6482636,
+      "epoch": 0.7995941146626078,
+      "grad_norm": 5.625,
+      "learning_rate": 7.011549635829156e-06,
+      "loss": 1.61335354,
+      "memory(GiB)": 111.15,
+      "step": 31520,
+      "train_speed(iter/s)": 0.447928
+    },
+    {
+      "acc": 0.63865757,
+      "epoch": 0.7997209538305429,
+      "grad_norm": 5.34375,
+      "learning_rate": 7.010589572912404e-06,
+      "loss": 1.61058369,
+      "memory(GiB)": 111.15,
+      "step": 31525,
+      "train_speed(iter/s)": 0.447965
+    },
+    {
+      "acc": 0.64044333,
+      "epoch": 0.799847792998478,
+      "grad_norm": 4.9375,
+      "learning_rate": 7.009629421560946e-06,
+      "loss": 1.68246002,
+      "memory(GiB)": 111.15,
+      "step": 31530,
+      "train_speed(iter/s)": 0.448003
+    },
+    {
+      "acc": 0.65134134,
+      "epoch": 0.799974632166413,
+      "grad_norm": 5.46875,
+      "learning_rate": 7.008669181817015e-06,
+      "loss": 1.6632349,
+      "memory(GiB)": 111.15,
+      "step": 31535,
+      "train_speed(iter/s)": 0.44804
+    },
+    {
+      "acc": 0.64692097,
+      "epoch": 0.8001014713343481,
+      "grad_norm": 5.15625,
+      "learning_rate": 7.007708853722844e-06,
+      "loss": 1.60725288,
+      "memory(GiB)": 111.15,
+      "step": 31540,
+      "train_speed(iter/s)": 0.448077
+    },
+    {
+      "acc": 0.63877325,
+      "epoch": 0.8002283105022832,
+      "grad_norm": 5.78125,
+      "learning_rate": 7.006748437320674e-06,
+      "loss": 1.76492195,
+      "memory(GiB)": 111.15,
+      "step": 31545,
+      "train_speed(iter/s)": 0.448114
+    },
+    {
+      "acc": 0.63140173,
+      "epoch": 0.8003551496702181,
+      "grad_norm": 4.96875,
+      "learning_rate": 7.005787932652749e-06,
+      "loss": 1.61773033,
+      "memory(GiB)": 111.15,
+      "step": 31550,
+      "train_speed(iter/s)": 0.448151
+    },
+    {
+      "acc": 0.63873987,
+      "epoch": 0.8004819888381532,
+      "grad_norm": 4.75,
+      "learning_rate": 7.0048273397613145e-06,
+      "loss": 1.69546909,
+      "memory(GiB)": 111.15,
+      "step": 31555,
+      "train_speed(iter/s)": 0.448189
+    },
+    {
+      "acc": 0.65602751,
+      "epoch": 0.8006088280060882,
+      "grad_norm": 5.3125,
+      "learning_rate": 7.003866658688624e-06,
+      "loss": 1.60963116,
+      "memory(GiB)": 111.15,
+      "step": 31560,
+      "train_speed(iter/s)": 0.448226
+    },
+    {
+      "acc": 0.64864664,
+      "epoch": 0.8007356671740233,
+      "grad_norm": 6.0625,
+      "learning_rate": 7.0029058894769295e-06,
+      "loss": 1.68241806,
+      "memory(GiB)": 111.15,
+      "step": 31565,
+      "train_speed(iter/s)": 0.448263
+    },
+    {
+      "acc": 0.64374285,
+      "epoch": 0.8008625063419584,
+      "grad_norm": 5.28125,
+      "learning_rate": 7.001945032168493e-06,
+      "loss": 1.63186874,
+      "memory(GiB)": 111.15,
+      "step": 31570,
+      "train_speed(iter/s)": 0.448301
+    },
+    {
+      "acc": 0.65160418,
+      "epoch": 0.8009893455098934,
+      "grad_norm": 5.3125,
+      "learning_rate": 7.000984086805575e-06,
+      "loss": 1.6174469,
+      "memory(GiB)": 111.15,
+      "step": 31575,
+      "train_speed(iter/s)": 0.448338
+    },
+    {
+      "acc": 0.64409556,
+      "epoch": 0.8011161846778285,
+      "grad_norm": 5.46875,
+      "learning_rate": 7.000023053430444e-06,
+      "loss": 1.6469429,
+      "memory(GiB)": 111.15,
+      "step": 31580,
+      "train_speed(iter/s)": 0.448375
+    },
+    {
+      "acc": 0.6415966,
+      "epoch": 0.8012430238457636,
+      "grad_norm": 6.3125,
+      "learning_rate": 6.999061932085369e-06,
+      "loss": 1.69104767,
+      "memory(GiB)": 111.15,
+      "step": 31585,
+      "train_speed(iter/s)": 0.448413
+    },
+    {
+      "acc": 0.65153656,
+      "epoch": 0.8013698630136986,
+      "grad_norm": 5.375,
+      "learning_rate": 6.9981007228126255e-06,
+      "loss": 1.54551964,
+      "memory(GiB)": 111.15,
+      "step": 31590,
+      "train_speed(iter/s)": 0.44845
+    },
+    {
+      "acc": 0.63518896,
+      "epoch": 0.8014967021816337,
+      "grad_norm": 5.1875,
+      "learning_rate": 6.997139425654491e-06,
+      "loss": 1.66448784,
+      "memory(GiB)": 111.15,
+      "step": 31595,
+      "train_speed(iter/s)": 0.448488
+    },
+    {
+      "acc": 0.66454706,
+      "epoch": 0.8016235413495687,
+      "grad_norm": 6.15625,
+      "learning_rate": 6.996178040653248e-06,
+      "loss": 1.51267223,
+      "memory(GiB)": 111.15,
+      "step": 31600,
+      "train_speed(iter/s)": 0.448525
+    },
+    {
+      "epoch": 0.8016235413495687,
+      "eval_acc": 0.642831092081346,
+      "eval_loss": 1.6102632284164429,
+      "eval_runtime": 113.3171,
+      "eval_samples_per_second": 56.214,
+      "eval_steps_per_second": 28.107,
+      "step": 31600
+    },
+    {
+      "acc": 0.66257629,
+      "epoch": 0.8017503805175038,
+      "grad_norm": 5.78125,
+      "learning_rate": 6.995216567851183e-06,
+      "loss": 1.57968321,
+      "memory(GiB)": 111.15,
+      "step": 31605,
+      "train_speed(iter/s)": 0.447814
+    },
+    {
+      "acc": 0.63492985,
+      "epoch": 0.8018772196854389,
+      "grad_norm": 5.5625,
+      "learning_rate": 6.994255007290585e-06,
+      "loss": 1.63558197,
+      "memory(GiB)": 111.15,
+      "step": 31610,
+      "train_speed(iter/s)": 0.447852
+    },
+    {
+      "acc": 0.65745273,
+      "epoch": 0.8020040588533739,
+      "grad_norm": 4.375,
+      "learning_rate": 6.993293359013747e-06,
+      "loss": 1.62971916,
+      "memory(GiB)": 111.15,
+      "step": 31615,
+      "train_speed(iter/s)": 0.447889
+    },
+    {
+      "acc": 0.62745018,
+      "epoch": 0.802130898021309,
+      "grad_norm": 5.125,
+      "learning_rate": 6.992331623062969e-06,
+      "loss": 1.69053936,
+      "memory(GiB)": 111.15,
+      "step": 31620,
+      "train_speed(iter/s)": 0.447927
+    },
+    {
+      "acc": 0.64743938,
+      "epoch": 0.8022577371892441,
+      "grad_norm": 5.125,
+      "learning_rate": 6.9913697994805505e-06,
+      "loss": 1.67083321,
+      "memory(GiB)": 111.15,
+      "step": 31625,
+      "train_speed(iter/s)": 0.447964
+    },
+    {
+      "acc": 0.6489357,
+      "epoch": 0.8023845763571791,
+      "grad_norm": 5.28125,
+      "learning_rate": 6.990407888308799e-06,
+      "loss": 1.5593338,
+      "memory(GiB)": 111.15,
+      "step": 31630,
+      "train_speed(iter/s)": 0.448002
+    },
+    {
+      "acc": 0.64411135,
+      "epoch": 0.8025114155251142,
+      "grad_norm": 4.59375,
+      "learning_rate": 6.98944588959002e-06,
+      "loss": 1.64494915,
+      "memory(GiB)": 111.15,
+      "step": 31635,
+      "train_speed(iter/s)": 0.44804
+    },
+    {
+      "acc": 0.64670315,
+      "epoch": 0.8026382546930492,
+      "grad_norm": 6.1875,
+      "learning_rate": 6.9884838033665305e-06,
+      "loss": 1.62156601,
+      "memory(GiB)": 111.15,
+      "step": 31640,
+      "train_speed(iter/s)": 0.448077
+    },
+    {
+      "acc": 0.63672462,
+      "epoch": 0.8027650938609843,
+      "grad_norm": 4.84375,
+      "learning_rate": 6.987521629680643e-06,
+      "loss": 1.69469833,
+      "memory(GiB)": 111.15,
+      "step": 31645,
+      "train_speed(iter/s)": 0.448114
+    },
+    {
+      "acc": 0.64447265,
+      "epoch": 0.8028919330289194,
+      "grad_norm": 5.21875,
+      "learning_rate": 6.9865593685746815e-06,
+      "loss": 1.67437134,
+      "memory(GiB)": 111.15,
+      "step": 31650,
+      "train_speed(iter/s)": 0.448152
+    },
+    {
+      "acc": 0.64424434,
+      "epoch": 0.8030187721968544,
+      "grad_norm": 5.1875,
+      "learning_rate": 6.98559702009097e-06,
+      "loss": 1.71344376,
+      "memory(GiB)": 111.15,
+      "step": 31655,
+      "train_speed(iter/s)": 0.448189
+    },
+    {
+      "acc": 0.65000815,
+      "epoch": 0.8031456113647895,
+      "grad_norm": 7.5,
+      "learning_rate": 6.984634584271836e-06,
+      "loss": 1.65807037,
+      "memory(GiB)": 111.15,
+      "step": 31660,
+      "train_speed(iter/s)": 0.448227
+    },
+    {
+      "acc": 0.64679241,
+      "epoch": 0.8032724505327246,
+      "grad_norm": 5.21875,
+      "learning_rate": 6.983672061159612e-06,
+      "loss": 1.62801151,
+      "memory(GiB)": 111.15,
+      "step": 31665,
+      "train_speed(iter/s)": 0.448264
+    },
+    {
+      "acc": 0.64746494,
+      "epoch": 0.8033992897006595,
+      "grad_norm": 5.78125,
+      "learning_rate": 6.982709450796636e-06,
+      "loss": 1.61684456,
+      "memory(GiB)": 111.15,
+      "step": 31670,
+      "train_speed(iter/s)": 0.448302
+    },
+    {
+      "acc": 0.63285832,
+      "epoch": 0.8035261288685946,
+      "grad_norm": 5.40625,
+      "learning_rate": 6.981746753225245e-06,
+      "loss": 1.70137234,
+      "memory(GiB)": 111.15,
+      "step": 31675,
+      "train_speed(iter/s)": 0.448339
+    },
+    {
+      "acc": 0.65130863,
+      "epoch": 0.8036529680365296,
+      "grad_norm": 5.84375,
+      "learning_rate": 6.980783968487783e-06,
+      "loss": 1.59011993,
+      "memory(GiB)": 111.15,
+      "step": 31680,
+      "train_speed(iter/s)": 0.448377
+    },
+    {
+      "acc": 0.62673101,
+      "epoch": 0.8037798072044647,
+      "grad_norm": 6.5,
+      "learning_rate": 6.9798210966266e-06,
+      "loss": 1.72415333,
+      "memory(GiB)": 111.15,
+      "step": 31685,
+      "train_speed(iter/s)": 0.448414
+    },
+    {
+      "acc": 0.63956404,
+      "epoch": 0.8039066463723998,
+      "grad_norm": 5.03125,
+      "learning_rate": 6.9788581376840455e-06,
+      "loss": 1.62628403,
+      "memory(GiB)": 111.15,
+      "step": 31690,
+      "train_speed(iter/s)": 0.448452
+    },
+    {
+      "acc": 0.65633068,
+      "epoch": 0.8040334855403348,
+      "grad_norm": 5.625,
+      "learning_rate": 6.977895091702474e-06,
+      "loss": 1.63948917,
+      "memory(GiB)": 111.15,
+      "step": 31695,
+      "train_speed(iter/s)": 0.44849
+    },
+    {
+      "acc": 0.6592926,
+      "epoch": 0.8041603247082699,
+      "grad_norm": 5.34375,
+      "learning_rate": 6.976931958724248e-06,
+      "loss": 1.56827097,
+      "memory(GiB)": 111.15,
+      "step": 31700,
+      "train_speed(iter/s)": 0.448527
+    },
+    {
+      "epoch": 0.8041603247082699,
+      "eval_acc": 0.6428361052890594,
+      "eval_loss": 1.6104809045791626,
+      "eval_runtime": 114.0309,
+      "eval_samples_per_second": 55.862,
+      "eval_steps_per_second": 27.931,
+      "step": 31700
+    },
+    {
+      "acc": 0.64247723,
+      "epoch": 0.804287163876205,
+      "grad_norm": 5.15625,
+      "learning_rate": 6.975968738791726e-06,
+      "loss": 1.67576675,
+      "memory(GiB)": 111.15,
+      "step": 31705,
+      "train_speed(iter/s)": 0.447813
+    },
+    {
+      "acc": 0.6379591,
+      "epoch": 0.80441400304414,
+      "grad_norm": 5.40625,
+      "learning_rate": 6.9750054319472785e-06,
+      "loss": 1.70365257,
+      "memory(GiB)": 111.15,
+      "step": 31710,
+      "train_speed(iter/s)": 0.44785
+    },
+    {
+      "acc": 0.66468825,
+      "epoch": 0.8045408422120751,
+      "grad_norm": 5.09375,
+      "learning_rate": 6.974042038233272e-06,
+      "loss": 1.61351738,
+      "memory(GiB)": 111.15,
+      "step": 31715,
+      "train_speed(iter/s)": 0.447887
+    },
+    {
+      "acc": 0.62934761,
+      "epoch": 0.8046676813800101,
+      "grad_norm": 5.3125,
+      "learning_rate": 6.9730785576920855e-06,
+      "loss": 1.75182533,
+      "memory(GiB)": 111.15,
+      "step": 31720,
+      "train_speed(iter/s)": 0.447924
+    },
+    {
+      "acc": 0.66422758,
+      "epoch": 0.8047945205479452,
+      "grad_norm": 5.28125,
+      "learning_rate": 6.972114990366094e-06,
+      "loss": 1.56667309,
+      "memory(GiB)": 111.15,
+      "step": 31725,
+      "train_speed(iter/s)": 0.447961
+    },
+    {
+      "acc": 0.62641339,
+      "epoch": 0.8049213597158803,
+      "grad_norm": 6.78125,
+      "learning_rate": 6.97115133629768e-06,
+      "loss": 1.61781559,
+      "memory(GiB)": 111.15,
+      "step": 31730,
+      "train_speed(iter/s)": 0.447998
+    },
+    {
+      "acc": 0.66205974,
+      "epoch": 0.8050481988838153,
+      "grad_norm": 4.90625,
+      "learning_rate": 6.970187595529229e-06,
+      "loss": 1.57347279,
+      "memory(GiB)": 111.15,
+      "step": 31735,
+      "train_speed(iter/s)": 0.448035
+    },
+    {
+      "acc": 0.64540377,
+      "epoch": 0.8051750380517504,
+      "grad_norm": 5.71875,
+      "learning_rate": 6.969223768103133e-06,
+      "loss": 1.69937973,
+      "memory(GiB)": 111.15,
+      "step": 31740,
+      "train_speed(iter/s)": 0.448072
+    },
+    {
+      "acc": 0.64445391,
+      "epoch": 0.8053018772196855,
+      "grad_norm": 5.03125,
+      "learning_rate": 6.968259854061783e-06,
+      "loss": 1.62817326,
+      "memory(GiB)": 111.15,
+      "step": 31745,
+      "train_speed(iter/s)": 0.448109
+    },
+    {
+      "acc": 0.6530035,
+      "epoch": 0.8054287163876205,
+      "grad_norm": 5.0,
+      "learning_rate": 6.967295853447578e-06,
+      "loss": 1.64273682,
+      "memory(GiB)": 111.15,
+      "step": 31750,
+      "train_speed(iter/s)": 0.448146
+    },
+    {
+      "acc": 0.65467186,
+      "epoch": 0.8055555555555556,
+      "grad_norm": 5.9375,
+      "learning_rate": 6.966331766302916e-06,
+      "loss": 1.63779221,
+      "memory(GiB)": 111.15,
+      "step": 31755,
+      "train_speed(iter/s)": 0.448183
+    },
+    {
+      "acc": 0.65035753,
+      "epoch": 0.8056823947234906,
+      "grad_norm": 5.125,
+      "learning_rate": 6.965367592670206e-06,
+      "loss": 1.61562119,
+      "memory(GiB)": 111.15,
+      "step": 31760,
+      "train_speed(iter/s)": 0.44822
+    },
+    {
+      "acc": 0.65400381,
+      "epoch": 0.8058092338914257,
+      "grad_norm": 5.78125,
+      "learning_rate": 6.964403332591854e-06,
+      "loss": 1.68322487,
+      "memory(GiB)": 111.15,
+      "step": 31765,
+      "train_speed(iter/s)": 0.448257
+    },
+    {
+      "acc": 0.64700384,
+      "epoch": 0.8059360730593608,
+      "grad_norm": 5.6875,
+      "learning_rate": 6.963438986110272e-06,
+      "loss": 1.62388287,
+      "memory(GiB)": 111.15,
+      "step": 31770,
+      "train_speed(iter/s)": 0.448294
+    },
+    {
+      "acc": 0.65799122,
+      "epoch": 0.8060629122272958,
+      "grad_norm": 5.96875,
+      "learning_rate": 6.962474553267877e-06,
+      "loss": 1.60779762,
+      "memory(GiB)": 111.15,
+      "step": 31775,
+      "train_speed(iter/s)": 0.448331
+    },
+    {
+      "acc": 0.63359766,
+      "epoch": 0.8061897513952309,
+      "grad_norm": 5.21875,
+      "learning_rate": 6.96151003410709e-06,
+      "loss": 1.73813095,
+      "memory(GiB)": 111.15,
+      "step": 31780,
+      "train_speed(iter/s)": 0.448368
+    },
+    {
+      "acc": 0.65172038,
+      "epoch": 0.806316590563166,
+      "grad_norm": 4.78125,
+      "learning_rate": 6.960545428670333e-06,
+      "loss": 1.66956406,
+      "memory(GiB)": 111.15,
+      "step": 31785,
+      "train_speed(iter/s)": 0.448405
+    },
+    {
+      "acc": 0.66390686,
+      "epoch": 0.806443429731101,
+      "grad_norm": 5.9375,
+      "learning_rate": 6.959580737000038e-06,
+      "loss": 1.57240562,
+      "memory(GiB)": 111.15,
+      "step": 31790,
+      "train_speed(iter/s)": 0.448442
+    },
+    {
+      "acc": 0.65922794,
+      "epoch": 0.806570268899036,
+      "grad_norm": 5.0,
+      "learning_rate": 6.95861595913863e-06,
+      "loss": 1.57239265,
+      "memory(GiB)": 111.15,
+      "step": 31795,
+      "train_speed(iter/s)": 0.448479
+    },
+    {
+      "acc": 0.67181396,
+      "epoch": 0.806697108066971,
+      "grad_norm": 4.59375,
+      "learning_rate": 6.95765109512855e-06,
+      "loss": 1.51912479,
+      "memory(GiB)": 111.15,
+      "step": 31800,
+      "train_speed(iter/s)": 0.448516
+    },
+    {
+      "epoch": 0.806697108066971,
+      "eval_acc": 0.6429405471164238,
+      "eval_loss": 1.610428810119629,
+      "eval_runtime": 114.744,
+      "eval_samples_per_second": 55.515,
+      "eval_steps_per_second": 27.757,
+      "step": 31800
+    },
+    {
+      "acc": 0.64618759,
+      "epoch": 0.8068239472349061,
+      "grad_norm": 5.6875,
+      "learning_rate": 6.956686145012233e-06,
+      "loss": 1.61521854,
+      "memory(GiB)": 111.15,
+      "step": 31805,
+      "train_speed(iter/s)": 0.4478
+    },
+    {
+      "acc": 0.64400768,
+      "epoch": 0.8069507864028412,
+      "grad_norm": 5.03125,
+      "learning_rate": 6.955721108832124e-06,
+      "loss": 1.62332096,
+      "memory(GiB)": 111.15,
+      "step": 31810,
+      "train_speed(iter/s)": 0.447836
+    },
+    {
+      "acc": 0.65436106,
+      "epoch": 0.8070776255707762,
+      "grad_norm": 5.625,
+      "learning_rate": 6.9547559866306695e-06,
+      "loss": 1.58100796,
+      "memory(GiB)": 111.15,
+      "step": 31815,
+      "train_speed(iter/s)": 0.447873
+    },
+    {
+      "acc": 0.65407009,
+      "epoch": 0.8072044647387113,
+      "grad_norm": 5.9375,
+      "learning_rate": 6.953790778450318e-06,
+      "loss": 1.62880211,
+      "memory(GiB)": 111.15,
+      "step": 31820,
+      "train_speed(iter/s)": 0.44791
+    },
+    {
+      "acc": 0.6432745,
+      "epoch": 0.8073313039066464,
+      "grad_norm": 5.90625,
+      "learning_rate": 6.9528254843335254e-06,
+      "loss": 1.63235779,
+      "memory(GiB)": 111.15,
+      "step": 31825,
+      "train_speed(iter/s)": 0.447947
+    },
+    {
+      "acc": 0.6581563,
+      "epoch": 0.8074581430745814,
+      "grad_norm": 5.46875,
+      "learning_rate": 6.95186010432275e-06,
+      "loss": 1.57537041,
+      "memory(GiB)": 111.15,
+      "step": 31830,
+      "train_speed(iter/s)": 0.447984
+    },
+    {
+      "acc": 0.64470692,
+      "epoch": 0.8075849822425165,
+      "grad_norm": 4.875,
+      "learning_rate": 6.950894638460452e-06,
+      "loss": 1.65555878,
+      "memory(GiB)": 111.15,
+      "step": 31835,
+      "train_speed(iter/s)": 0.448022
+    },
+    {
+      "acc": 0.64439201,
+      "epoch": 0.8077118214104515,
+      "grad_norm": 5.15625,
+      "learning_rate": 6.949929086789098e-06,
+      "loss": 1.64161129,
+      "memory(GiB)": 111.15,
+      "step": 31840,
+      "train_speed(iter/s)": 0.448059
+    },
+    {
+      "acc": 0.63912249,
+      "epoch": 0.8078386605783866,
+      "grad_norm": 4.71875,
+      "learning_rate": 6.948963449351156e-06,
+      "loss": 1.69429169,
+      "memory(GiB)": 111.15,
+      "step": 31845,
+      "train_speed(iter/s)": 0.448096
+    },
+    {
+      "acc": 0.6373486,
+      "epoch": 0.8079654997463217,
+      "grad_norm": 5.875,
+      "learning_rate": 6.947997726189102e-06,
+      "loss": 1.67736931,
+      "memory(GiB)": 111.15,
+      "step": 31850,
+      "train_speed(iter/s)": 0.448134
+    },
+    {
+      "acc": 0.64799404,
+      "epoch": 0.8080923389142567,
+      "grad_norm": 6.96875,
+      "learning_rate": 6.947031917345409e-06,
+      "loss": 1.67106133,
+      "memory(GiB)": 111.15,
+      "step": 31855,
+      "train_speed(iter/s)": 0.448171
+    },
+    {
+      "acc": 0.63622622,
+      "epoch": 0.8082191780821918,
+      "grad_norm": 5.6875,
+      "learning_rate": 6.946066022862561e-06,
+      "loss": 1.66762047,
+      "memory(GiB)": 111.15,
+      "step": 31860,
+      "train_speed(iter/s)": 0.448208
+    },
+    {
+      "acc": 0.65017257,
+      "epoch": 0.8083460172501269,
+      "grad_norm": 5.1875,
+      "learning_rate": 6.945100042783039e-06,
+      "loss": 1.68033905,
+      "memory(GiB)": 111.15,
+      "step": 31865,
+      "train_speed(iter/s)": 0.448245
+    },
+    {
+      "acc": 0.64822478,
+      "epoch": 0.8084728564180619,
+      "grad_norm": 5.375,
+      "learning_rate": 6.9441339771493345e-06,
+      "loss": 1.60199432,
+      "memory(GiB)": 111.15,
+      "step": 31870,
+      "train_speed(iter/s)": 0.448282
+    },
+    {
+      "acc": 0.65957184,
+      "epoch": 0.808599695585997,
+      "grad_norm": 5.3125,
+      "learning_rate": 6.943167826003937e-06,
+      "loss": 1.53220997,
+      "memory(GiB)": 111.15,
+      "step": 31875,
+      "train_speed(iter/s)": 0.44832
+    },
+    {
+      "acc": 0.65626011,
+      "epoch": 0.808726534753932,
+      "grad_norm": 4.8125,
+      "learning_rate": 6.942201589389344e-06,
+      "loss": 1.62029152,
+      "memory(GiB)": 111.15,
+      "step": 31880,
+      "train_speed(iter/s)": 0.448357
+    },
+    {
+      "acc": 0.66537304,
+      "epoch": 0.8088533739218671,
+      "grad_norm": 4.5625,
+      "learning_rate": 6.9412352673480525e-06,
+      "loss": 1.5949441,
+      "memory(GiB)": 111.15,
+      "step": 31885,
+      "train_speed(iter/s)": 0.448395
+    },
+    {
+      "acc": 0.63273411,
+      "epoch": 0.8089802130898022,
+      "grad_norm": 4.625,
+      "learning_rate": 6.940268859922566e-06,
+      "loss": 1.67406769,
+      "memory(GiB)": 111.15,
+      "step": 31890,
+      "train_speed(iter/s)": 0.448431
+    },
+    {
+      "acc": 0.65248775,
+      "epoch": 0.8091070522577372,
+      "grad_norm": 5.25,
+      "learning_rate": 6.939302367155394e-06,
+      "loss": 1.6192543,
+      "memory(GiB)": 111.15,
+      "step": 31895,
+      "train_speed(iter/s)": 0.448468
+    },
+    {
+      "acc": 0.63136826,
+      "epoch": 0.8092338914256723,
+      "grad_norm": 6.40625,
+      "learning_rate": 6.9383357890890454e-06,
+      "loss": 1.78237381,
+      "memory(GiB)": 111.15,
+      "step": 31900,
+      "train_speed(iter/s)": 0.448505
+    },
+    {
+      "epoch": 0.8092338914256723,
+      "eval_acc": 0.642909632335524,
+      "eval_loss": 1.610245943069458,
+      "eval_runtime": 113.5665,
+      "eval_samples_per_second": 56.09,
+      "eval_steps_per_second": 28.045,
+      "step": 31900
+    },
+    {
+      "acc": 0.63244495,
+      "epoch": 0.8093607305936074,
+      "grad_norm": 5.78125,
+      "learning_rate": 6.937369125766033e-06,
+      "loss": 1.66098251,
+      "memory(GiB)": 111.15,
+      "step": 31905,
+      "train_speed(iter/s)": 0.447799
+    },
+    {
+      "acc": 0.6472302,
+      "epoch": 0.8094875697615423,
+      "grad_norm": 5.65625,
+      "learning_rate": 6.936402377228879e-06,
+      "loss": 1.67172985,
+      "memory(GiB)": 111.15,
+      "step": 31910,
+      "train_speed(iter/s)": 0.447836
+    },
+    {
+      "acc": 0.64511914,
+      "epoch": 0.8096144089294774,
+      "grad_norm": 4.90625,
+      "learning_rate": 6.9354355435201015e-06,
+      "loss": 1.57840033,
+      "memory(GiB)": 111.15,
+      "step": 31915,
+      "train_speed(iter/s)": 0.447872
+    },
+    {
+      "acc": 0.64322915,
+      "epoch": 0.8097412480974124,
+      "grad_norm": 5.34375,
+      "learning_rate": 6.934468624682229e-06,
+      "loss": 1.6797924,
+      "memory(GiB)": 111.15,
+      "step": 31920,
+      "train_speed(iter/s)": 0.447909
+    },
+    {
+      "acc": 0.65080938,
+      "epoch": 0.8098680872653475,
+      "grad_norm": 5.53125,
+      "learning_rate": 6.933501620757789e-06,
+      "loss": 1.57485313,
+      "memory(GiB)": 111.15,
+      "step": 31925,
+      "train_speed(iter/s)": 0.447946
+    },
+    {
+      "acc": 0.65878,
+      "epoch": 0.8099949264332826,
+      "grad_norm": 4.90625,
+      "learning_rate": 6.932534531789317e-06,
+      "loss": 1.5632822,
+      "memory(GiB)": 111.15,
+      "step": 31930,
+      "train_speed(iter/s)": 0.447982
+    },
+    {
+      "acc": 0.64428167,
+      "epoch": 0.8101217656012176,
+      "grad_norm": 5.15625,
+      "learning_rate": 6.931567357819344e-06,
+      "loss": 1.62149239,
+      "memory(GiB)": 111.15,
+      "step": 31935,
+      "train_speed(iter/s)": 0.448019
+    },
+    {
+      "acc": 0.63154564,
+      "epoch": 0.8102486047691527,
+      "grad_norm": 5.03125,
+      "learning_rate": 6.930600098890419e-06,
+      "loss": 1.64114494,
+      "memory(GiB)": 111.15,
+      "step": 31940,
+      "train_speed(iter/s)": 0.448056
+    },
+    {
+      "acc": 0.63778973,
+      "epoch": 0.8103754439370878,
+      "grad_norm": 5.0625,
+      "learning_rate": 6.929632755045079e-06,
+      "loss": 1.64285583,
+      "memory(GiB)": 111.15,
+      "step": 31945,
+      "train_speed(iter/s)": 0.448093
+    },
+    {
+      "acc": 0.6517036,
+      "epoch": 0.8105022831050228,
+      "grad_norm": 7.53125,
+      "learning_rate": 6.9286653263258765e-06,
+      "loss": 1.64077339,
+      "memory(GiB)": 111.15,
+      "step": 31950,
+      "train_speed(iter/s)": 0.44813
+    },
+    {
+      "acc": 0.63462081,
+      "epoch": 0.8106291222729579,
+      "grad_norm": 5.5625,
+      "learning_rate": 6.927697812775363e-06,
+      "loss": 1.70597153,
+      "memory(GiB)": 111.15,
+      "step": 31955,
+      "train_speed(iter/s)": 0.448166
+    },
+    {
+      "acc": 0.63532829,
+      "epoch": 0.8107559614408929,
+      "grad_norm": 6.53125,
+      "learning_rate": 6.926730214436091e-06,
+      "loss": 1.69389038,
+      "memory(GiB)": 111.15,
+      "step": 31960,
+      "train_speed(iter/s)": 0.448203
+    },
+    {
+      "acc": 0.65800147,
+      "epoch": 0.810882800608828,
+      "grad_norm": 6.09375,
+      "learning_rate": 6.925762531350624e-06,
+      "loss": 1.61896172,
+      "memory(GiB)": 111.15,
+      "step": 31965,
+      "train_speed(iter/s)": 0.44824
+    },
+    {
+      "acc": 0.64313412,
+      "epoch": 0.8110096397767631,
+      "grad_norm": 6.28125,
+      "learning_rate": 6.924794763561522e-06,
+      "loss": 1.64976444,
+      "memory(GiB)": 111.15,
+      "step": 31970,
+      "train_speed(iter/s)": 0.448277
+    },
+    {
+      "acc": 0.64435272,
+      "epoch": 0.8111364789446981,
+      "grad_norm": 5.375,
+      "learning_rate": 6.923826911111353e-06,
+      "loss": 1.63263569,
+      "memory(GiB)": 111.15,
+      "step": 31975,
+      "train_speed(iter/s)": 0.448314
+    },
+    {
+      "acc": 0.65464978,
+      "epoch": 0.8112633181126332,
+      "grad_norm": 4.375,
+      "learning_rate": 6.922858974042688e-06,
+      "loss": 1.60467491,
+      "memory(GiB)": 111.15,
+      "step": 31980,
+      "train_speed(iter/s)": 0.448351
+    },
+    {
+      "acc": 0.66116729,
+      "epoch": 0.8113901572805683,
+      "grad_norm": 6.125,
+      "learning_rate": 6.921890952398098e-06,
+      "loss": 1.58285847,
+      "memory(GiB)": 111.15,
+      "step": 31985,
+      "train_speed(iter/s)": 0.448387
+    },
+    {
+      "acc": 0.64935994,
+      "epoch": 0.8115169964485033,
+      "grad_norm": 5.75,
+      "learning_rate": 6.920922846220166e-06,
+      "loss": 1.67587318,
+      "memory(GiB)": 111.15,
+      "step": 31990,
+      "train_speed(iter/s)": 0.448424
+    },
+    {
+      "acc": 0.63335123,
+      "epoch": 0.8116438356164384,
+      "grad_norm": 5.53125,
+      "learning_rate": 6.919954655551469e-06,
+      "loss": 1.63188457,
+      "memory(GiB)": 111.15,
+      "step": 31995,
+      "train_speed(iter/s)": 0.448461
+    },
+    {
+      "acc": 0.67098413,
+      "epoch": 0.8117706747843734,
+      "grad_norm": 5.0625,
+      "learning_rate": 6.918986380434594e-06,
+      "loss": 1.56689825,
+      "memory(GiB)": 111.15,
+      "step": 32000,
+      "train_speed(iter/s)": 0.448498
+    },
+    {
+      "epoch": 0.8117706747843734,
+      "eval_acc": 0.6430057188166992,
+      "eval_loss": 1.6101093292236328,
+      "eval_runtime": 114.0623,
+      "eval_samples_per_second": 55.847,
+      "eval_steps_per_second": 27.923,
+      "step": 32000
+    },
+    {
+      "acc": 0.65931153,
+      "epoch": 0.8118975139523085,
+      "grad_norm": 6.375,
+      "learning_rate": 6.918018020912132e-06,
+      "loss": 1.66122608,
+      "memory(GiB)": 111.15,
+      "step": 32005,
+      "train_speed(iter/s)": 0.447791
+    },
+    {
+      "acc": 0.66606636,
+      "epoch": 0.8120243531202436,
+      "grad_norm": 5.21875,
+      "learning_rate": 6.917049577026673e-06,
+      "loss": 1.57549,
+      "memory(GiB)": 111.15,
+      "step": 32010,
+      "train_speed(iter/s)": 0.447828
+    },
+    {
+      "acc": 0.65245199,
+      "epoch": 0.8121511922881786,
+      "grad_norm": 4.5,
+      "learning_rate": 6.916081048820815e-06,
+      "loss": 1.57656918,
+      "memory(GiB)": 111.15,
+      "step": 32015,
+      "train_speed(iter/s)": 0.447865
+    },
+    {
+      "acc": 0.65004497,
+      "epoch": 0.8122780314561137,
+      "grad_norm": 4.90625,
+      "learning_rate": 6.915112436337157e-06,
+      "loss": 1.63452911,
+      "memory(GiB)": 111.15,
+      "step": 32020,
+      "train_speed(iter/s)": 0.447901
+    },
+    {
+      "acc": 0.64325523,
+      "epoch": 0.8124048706240488,
+      "grad_norm": 5.09375,
+      "learning_rate": 6.914143739618305e-06,
+      "loss": 1.67313023,
+      "memory(GiB)": 111.15,
+      "step": 32025,
+      "train_speed(iter/s)": 0.447938
+    },
+    {
+      "acc": 0.67870016,
+      "epoch": 0.8125317097919837,
+      "grad_norm": 5.875,
+      "learning_rate": 6.913174958706865e-06,
+      "loss": 1.55473747,
+      "memory(GiB)": 111.15,
+      "step": 32030,
+      "train_speed(iter/s)": 0.447975
+    },
+    {
+      "acc": 0.64887376,
+      "epoch": 0.8126585489599188,
+      "grad_norm": 5.21875,
+      "learning_rate": 6.912206093645448e-06,
+      "loss": 1.64953308,
+      "memory(GiB)": 111.15,
+      "step": 32035,
+      "train_speed(iter/s)": 0.448012
+    },
+    {
+      "acc": 0.66025133,
+      "epoch": 0.8127853881278538,
+      "grad_norm": 7.65625,
+      "learning_rate": 6.91123714447667e-06,
+      "loss": 1.62360096,
+      "memory(GiB)": 111.15,
+      "step": 32040,
+      "train_speed(iter/s)": 0.448048
+    },
+    {
+      "acc": 0.64142513,
+      "epoch": 0.8129122272957889,
+      "grad_norm": 4.75,
+      "learning_rate": 6.910268111243149e-06,
+      "loss": 1.61002121,
+      "memory(GiB)": 111.15,
+      "step": 32045,
+      "train_speed(iter/s)": 0.448085
+    },
+    {
+      "acc": 0.63471193,
+      "epoch": 0.813039066463724,
+      "grad_norm": 5.84375,
+      "learning_rate": 6.909298993987508e-06,
+      "loss": 1.74754066,
+      "memory(GiB)": 111.15,
+      "step": 32050,
+      "train_speed(iter/s)": 0.448121
+    },
+    {
+      "acc": 0.6482111,
+      "epoch": 0.813165905631659,
+      "grad_norm": 4.40625,
+      "learning_rate": 6.908329792752373e-06,
+      "loss": 1.57019348,
+      "memory(GiB)": 111.15,
+      "step": 32055,
+      "train_speed(iter/s)": 0.448158
+    },
+    {
+      "acc": 0.65040941,
+      "epoch": 0.8132927447995941,
+      "grad_norm": 4.8125,
+      "learning_rate": 6.907360507580374e-06,
+      "loss": 1.64693375,
+      "memory(GiB)": 111.15,
+      "step": 32060,
+      "train_speed(iter/s)": 0.448195
+    },
+    {
+      "acc": 0.64002314,
+      "epoch": 0.8134195839675292,
+      "grad_norm": 5.03125,
+      "learning_rate": 6.9063911385141425e-06,
+      "loss": 1.63660316,
+      "memory(GiB)": 111.15,
+      "step": 32065,
+      "train_speed(iter/s)": 0.448232
+    },
+    {
+      "acc": 0.62601032,
+      "epoch": 0.8135464231354642,
+      "grad_norm": 5.15625,
+      "learning_rate": 6.9054216855963194e-06,
+      "loss": 1.64721909,
+      "memory(GiB)": 111.15,
+      "step": 32070,
+      "train_speed(iter/s)": 0.448269
+    },
+    {
+      "acc": 0.64120579,
+      "epoch": 0.8136732623033993,
+      "grad_norm": 5.96875,
+      "learning_rate": 6.904452148869541e-06,
+      "loss": 1.65252571,
+      "memory(GiB)": 111.15,
+      "step": 32075,
+      "train_speed(iter/s)": 0.448305
+    },
+    {
+      "acc": 0.64080791,
+      "epoch": 0.8138001014713343,
+      "grad_norm": 4.75,
+      "learning_rate": 6.903482528376457e-06,
+      "loss": 1.59783144,
+      "memory(GiB)": 111.15,
+      "step": 32080,
+      "train_speed(iter/s)": 0.448341
+    },
+    {
+      "acc": 0.64521198,
+      "epoch": 0.8139269406392694,
+      "grad_norm": 5.53125,
+      "learning_rate": 6.902512824159711e-06,
+      "loss": 1.68569107,
+      "memory(GiB)": 111.15,
+      "step": 32085,
+      "train_speed(iter/s)": 0.448378
+    },
+    {
+      "acc": 0.65083151,
+      "epoch": 0.8140537798072045,
+      "grad_norm": 5.28125,
+      "learning_rate": 6.901543036261957e-06,
+      "loss": 1.61486492,
+      "memory(GiB)": 111.15,
+      "step": 32090,
+      "train_speed(iter/s)": 0.448415
+    },
+    {
+      "acc": 0.63751502,
+      "epoch": 0.8141806189751395,
+      "grad_norm": 7.9375,
+      "learning_rate": 6.900573164725852e-06,
+      "loss": 1.71959343,
+      "memory(GiB)": 111.15,
+      "step": 32095,
+      "train_speed(iter/s)": 0.448452
+    },
+    {
+      "acc": 0.65948038,
+      "epoch": 0.8143074581430746,
+      "grad_norm": 5.625,
+      "learning_rate": 6.899603209594052e-06,
+      "loss": 1.61185646,
+      "memory(GiB)": 111.15,
+      "step": 32100,
+      "train_speed(iter/s)": 0.448488
+    },
+    {
+      "epoch": 0.8143074581430746,
+      "eval_acc": 0.6430199229052207,
+      "eval_loss": 1.6102267503738403,
+      "eval_runtime": 112.2979,
+      "eval_samples_per_second": 56.724,
+      "eval_steps_per_second": 28.362,
+      "step": 32100
+    },
+    {
+      "acc": 0.65387573,
+      "epoch": 0.8144342973110097,
+      "grad_norm": 3.78125,
+      "learning_rate": 6.898633170909224e-06,
+      "loss": 1.60829029,
+      "memory(GiB)": 111.15,
+      "step": 32105,
+      "train_speed(iter/s)": 0.447794
+    },
+    {
+      "acc": 0.65083055,
+      "epoch": 0.8145611364789447,
+      "grad_norm": 5.71875,
+      "learning_rate": 6.897663048714031e-06,
+      "loss": 1.62080517,
+      "memory(GiB)": 111.15,
+      "step": 32110,
+      "train_speed(iter/s)": 0.447832
+    },
+    {
+      "acc": 0.65785837,
+      "epoch": 0.8146879756468798,
+      "grad_norm": 5.0625,
+      "learning_rate": 6.896692843051145e-06,
+      "loss": 1.64479866,
+      "memory(GiB)": 111.15,
+      "step": 32115,
+      "train_speed(iter/s)": 0.447869
+    },
+    {
+      "acc": 0.65228848,
+      "epoch": 0.8148148148148148,
+      "grad_norm": 5.75,
+      "learning_rate": 6.895722553963239e-06,
+      "loss": 1.63371506,
+      "memory(GiB)": 111.15,
+      "step": 32120,
+      "train_speed(iter/s)": 0.447906
+    },
+    {
+      "acc": 0.65338068,
+      "epoch": 0.8149416539827499,
+      "grad_norm": 5.46875,
+      "learning_rate": 6.8947521814929915e-06,
+      "loss": 1.67630653,
+      "memory(GiB)": 111.15,
+      "step": 32125,
+      "train_speed(iter/s)": 0.447943
+    },
+    {
+      "acc": 0.63410273,
+      "epoch": 0.815068493150685,
+      "grad_norm": 6.90625,
+      "learning_rate": 6.8937817256830834e-06,
+      "loss": 1.75306816,
+      "memory(GiB)": 111.15,
+      "step": 32130,
+      "train_speed(iter/s)": 0.447981
+    },
+    {
+      "acc": 0.64836688,
+      "epoch": 0.81519533231862,
+      "grad_norm": 5.90625,
+      "learning_rate": 6.892811186576199e-06,
+      "loss": 1.64142876,
+      "memory(GiB)": 111.15,
+      "step": 32135,
+      "train_speed(iter/s)": 0.448018
+    },
+    {
+      "acc": 0.64785552,
+      "epoch": 0.8153221714865551,
+      "grad_norm": 5.375,
+      "learning_rate": 6.8918405642150295e-06,
+      "loss": 1.6485157,
+      "memory(GiB)": 111.15,
+      "step": 32140,
+      "train_speed(iter/s)": 0.448055
+    },
+    {
+      "acc": 0.64854913,
+      "epoch": 0.8154490106544902,
+      "grad_norm": 4.5,
+      "learning_rate": 6.890869858642264e-06,
+      "loss": 1.6303381,
+      "memory(GiB)": 111.15,
+      "step": 32145,
+      "train_speed(iter/s)": 0.448092
+    },
+    {
+      "acc": 0.64658766,
+      "epoch": 0.8155758498224251,
+      "grad_norm": 5.1875,
+      "learning_rate": 6.889899069900603e-06,
+      "loss": 1.66202736,
+      "memory(GiB)": 111.15,
+      "step": 32150,
+      "train_speed(iter/s)": 0.448129
+    },
+    {
+      "acc": 0.64655228,
+      "epoch": 0.8157026889903602,
+      "grad_norm": 5.46875,
+      "learning_rate": 6.888928198032741e-06,
+      "loss": 1.627285,
+      "memory(GiB)": 111.15,
+      "step": 32155,
+      "train_speed(iter/s)": 0.448166
+    },
+    {
+      "acc": 0.65543647,
+      "epoch": 0.8158295281582952,
+      "grad_norm": 6.4375,
+      "learning_rate": 6.887957243081384e-06,
+      "loss": 1.62440529,
+      "memory(GiB)": 111.15,
+      "step": 32160,
+      "train_speed(iter/s)": 0.448204
+    },
+    {
+      "acc": 0.65511284,
+      "epoch": 0.8159563673262303,
+      "grad_norm": 5.0,
+      "learning_rate": 6.886986205089237e-06,
+      "loss": 1.61765823,
+      "memory(GiB)": 111.15,
+      "step": 32165,
+      "train_speed(iter/s)": 0.448241
+    },
+    {
+      "acc": 0.64843044,
+      "epoch": 0.8160832064941654,
+      "grad_norm": 5.4375,
+      "learning_rate": 6.886015084099011e-06,
+      "loss": 1.6294775,
+      "memory(GiB)": 111.15,
+      "step": 32170,
+      "train_speed(iter/s)": 0.448278
+    },
+    {
+      "acc": 0.6519856,
+      "epoch": 0.8162100456621004,
+      "grad_norm": 5.4375,
+      "learning_rate": 6.885043880153424e-06,
+      "loss": 1.59830055,
+      "memory(GiB)": 111.15,
+      "step": 32175,
+      "train_speed(iter/s)": 0.448315
+    },
+    {
+      "acc": 0.66188107,
+      "epoch": 0.8163368848300355,
+      "grad_norm": 5.78125,
+      "learning_rate": 6.88407259329519e-06,
+      "loss": 1.55038738,
+      "memory(GiB)": 111.15,
+      "step": 32180,
+      "train_speed(iter/s)": 0.448353
+    },
+    {
+      "acc": 0.65805902,
+      "epoch": 0.8164637239979706,
+      "grad_norm": 5.1875,
+      "learning_rate": 6.883101223567031e-06,
+      "loss": 1.63716621,
+      "memory(GiB)": 111.15,
+      "step": 32185,
+      "train_speed(iter/s)": 0.44839
+    },
+    {
+      "acc": 0.65508947,
+      "epoch": 0.8165905631659056,
+      "grad_norm": 4.625,
+      "learning_rate": 6.882129771011674e-06,
+      "loss": 1.56608591,
+      "memory(GiB)": 111.15,
+      "step": 32190,
+      "train_speed(iter/s)": 0.448427
+    },
+    {
+      "acc": 0.66098647,
+      "epoch": 0.8167174023338407,
+      "grad_norm": 5.4375,
+      "learning_rate": 6.881158235671845e-06,
+      "loss": 1.52881451,
+      "memory(GiB)": 111.15,
+      "step": 32195,
+      "train_speed(iter/s)": 0.448464
+    },
+    {
+      "acc": 0.6498518,
+      "epoch": 0.8168442415017757,
+      "grad_norm": 5.40625,
+      "learning_rate": 6.8801866175902785e-06,
+      "loss": 1.60693474,
+      "memory(GiB)": 111.15,
+      "step": 32200,
+      "train_speed(iter/s)": 0.448501
+    },
+    {
+      "epoch": 0.8168442415017757,
+      "eval_acc": 0.6430090609551748,
+      "eval_loss": 1.6098793745040894,
+      "eval_runtime": 112.4846,
+      "eval_samples_per_second": 56.63,
+      "eval_steps_per_second": 28.315,
+      "step": 32200
+    },
+    {
+      "acc": 0.64329233,
+      "epoch": 0.8169710806697108,
+      "grad_norm": 5.09375,
+      "learning_rate": 6.87921491680971e-06,
+      "loss": 1.68426514,
+      "memory(GiB)": 111.15,
+      "step": 32205,
+      "train_speed(iter/s)": 0.447808
+    },
+    {
+      "acc": 0.65418148,
+      "epoch": 0.8170979198376459,
+      "grad_norm": 5.5625,
+      "learning_rate": 6.878243133372882e-06,
+      "loss": 1.58572884,
+      "memory(GiB)": 111.15,
+      "step": 32210,
+      "train_speed(iter/s)": 0.447844
+    },
+    {
+      "acc": 0.65189028,
+      "epoch": 0.8172247590055809,
+      "grad_norm": 5.53125,
+      "learning_rate": 6.877271267322532e-06,
+      "loss": 1.65421162,
+      "memory(GiB)": 111.15,
+      "step": 32215,
+      "train_speed(iter/s)": 0.44788
+    },
+    {
+      "acc": 0.63424625,
+      "epoch": 0.817351598173516,
+      "grad_norm": 4.4375,
+      "learning_rate": 6.876299318701412e-06,
+      "loss": 1.68095589,
+      "memory(GiB)": 111.15,
+      "step": 32220,
+      "train_speed(iter/s)": 0.447916
+    },
+    {
+      "acc": 0.64811325,
+      "epoch": 0.8174784373414511,
+      "grad_norm": 5.375,
+      "learning_rate": 6.875327287552269e-06,
+      "loss": 1.62843742,
+      "memory(GiB)": 111.15,
+      "step": 32225,
+      "train_speed(iter/s)": 0.447953
+    },
+    {
+      "acc": 0.64201808,
+      "epoch": 0.8176052765093861,
+      "grad_norm": 5.65625,
+      "learning_rate": 6.8743551739178615e-06,
+      "loss": 1.66659088,
+      "memory(GiB)": 111.15,
+      "step": 32230,
+      "train_speed(iter/s)": 0.447989
+    },
+    {
+      "acc": 0.64306602,
+      "epoch": 0.8177321156773212,
+      "grad_norm": 5.1875,
+      "learning_rate": 6.8733829778409425e-06,
+      "loss": 1.66120968,
+      "memory(GiB)": 111.15,
+      "step": 32235,
+      "train_speed(iter/s)": 0.448026
+    },
+    {
+      "acc": 0.66174555,
+      "epoch": 0.8178589548452562,
+      "grad_norm": 5.5,
+      "learning_rate": 6.872410699364278e-06,
+      "loss": 1.47891312,
+      "memory(GiB)": 111.15,
+      "step": 32240,
+      "train_speed(iter/s)": 0.448063
+    },
+    {
+      "acc": 0.64959626,
+      "epoch": 0.8179857940131913,
+      "grad_norm": 5.0,
+      "learning_rate": 6.8714383385306305e-06,
+      "loss": 1.64989433,
+      "memory(GiB)": 111.15,
+      "step": 32245,
+      "train_speed(iter/s)": 0.448099
+    },
+    {
+      "acc": 0.65615549,
+      "epoch": 0.8181126331811264,
+      "grad_norm": 4.34375,
+      "learning_rate": 6.870465895382769e-06,
+      "loss": 1.57974682,
+      "memory(GiB)": 111.15,
+      "step": 32250,
+      "train_speed(iter/s)": 0.448136
+    },
+    {
+      "acc": 0.66252422,
+      "epoch": 0.8182394723490614,
+      "grad_norm": 5.5,
+      "learning_rate": 6.869493369963468e-06,
+      "loss": 1.58807945,
+      "memory(GiB)": 111.15,
+      "step": 32255,
+      "train_speed(iter/s)": 0.448172
+    },
+    {
+      "acc": 0.64822531,
+      "epoch": 0.8183663115169965,
+      "grad_norm": 6.34375,
+      "learning_rate": 6.8685207623155e-06,
+      "loss": 1.62792683,
+      "memory(GiB)": 111.15,
+      "step": 32260,
+      "train_speed(iter/s)": 0.448209
+    },
+    {
+      "acc": 0.64095178,
+      "epoch": 0.8184931506849316,
+      "grad_norm": 5.03125,
+      "learning_rate": 6.867548072481649e-06,
+      "loss": 1.68384514,
+      "memory(GiB)": 111.15,
+      "step": 32265,
+      "train_speed(iter/s)": 0.448245
+    },
+    {
+      "acc": 0.62751408,
+      "epoch": 0.8186199898528665,
+      "grad_norm": 5.1875,
+      "learning_rate": 6.866575300504695e-06,
+      "loss": 1.63640022,
+      "memory(GiB)": 111.15,
+      "step": 32270,
+      "train_speed(iter/s)": 0.448282
+    },
+    {
+      "acc": 0.64976854,
+      "epoch": 0.8187468290208016,
+      "grad_norm": 6.6875,
+      "learning_rate": 6.865602446427424e-06,
+      "loss": 1.62372932,
+      "memory(GiB)": 111.15,
+      "step": 32275,
+      "train_speed(iter/s)": 0.448319
+    },
+    {
+      "acc": 0.64941311,
+      "epoch": 0.8188736681887366,
+      "grad_norm": 6.4375,
+      "learning_rate": 6.864629510292629e-06,
+      "loss": 1.65745926,
+      "memory(GiB)": 111.15,
+      "step": 32280,
+      "train_speed(iter/s)": 0.448356
+    },
+    {
+      "acc": 0.66120553,
+      "epoch": 0.8190005073566717,
+      "grad_norm": 4.125,
+      "learning_rate": 6.863656492143103e-06,
+      "loss": 1.56767559,
+      "memory(GiB)": 111.15,
+      "step": 32285,
+      "train_speed(iter/s)": 0.448392
+    },
+    {
+      "acc": 0.63920107,
+      "epoch": 0.8191273465246068,
+      "grad_norm": 6.78125,
+      "learning_rate": 6.862683392021644e-06,
+      "loss": 1.63457832,
+      "memory(GiB)": 111.15,
+      "step": 32290,
+      "train_speed(iter/s)": 0.448428
+    },
+    {
+      "acc": 0.66457024,
+      "epoch": 0.8192541856925418,
+      "grad_norm": 5.8125,
+      "learning_rate": 6.861710209971052e-06,
+      "loss": 1.50409756,
+      "memory(GiB)": 111.15,
+      "step": 32295,
+      "train_speed(iter/s)": 0.448465
+    },
+    {
+      "acc": 0.63537397,
+      "epoch": 0.8193810248604769,
+      "grad_norm": 4.875,
+      "learning_rate": 6.860736946034136e-06,
+      "loss": 1.68049278,
+      "memory(GiB)": 111.15,
+      "step": 32300,
+      "train_speed(iter/s)": 0.448501
+    },
+    {
+      "epoch": 0.8193810248604769,
+      "eval_acc": 0.6430128208609599,
+      "eval_loss": 1.6101309061050415,
+      "eval_runtime": 113.3191,
+      "eval_samples_per_second": 56.213,
+      "eval_steps_per_second": 28.106,
+      "step": 32300
+    },
+    {
+      "acc": 0.63649826,
+      "epoch": 0.819507864028412,
+      "grad_norm": 5.3125,
+      "learning_rate": 6.859763600253698e-06,
+      "loss": 1.74757595,
+      "memory(GiB)": 111.15,
+      "step": 32305,
+      "train_speed(iter/s)": 0.447805
+    },
+    {
+      "acc": 0.64740829,
+      "epoch": 0.819634703196347,
+      "grad_norm": 4.75,
+      "learning_rate": 6.858790172672556e-06,
+      "loss": 1.64428558,
+      "memory(GiB)": 111.15,
+      "step": 32310,
+      "train_speed(iter/s)": 0.447842
+    },
+    {
+      "acc": 0.6554275,
+      "epoch": 0.8197615423642821,
+      "grad_norm": 5.34375,
+      "learning_rate": 6.857816663333523e-06,
+      "loss": 1.6234087,
+      "memory(GiB)": 111.15,
+      "step": 32315,
+      "train_speed(iter/s)": 0.447878
+    },
+    {
+      "acc": 0.66094451,
+      "epoch": 0.8198883815322171,
+      "grad_norm": 7.4375,
+      "learning_rate": 6.856843072279418e-06,
+      "loss": 1.56929703,
+      "memory(GiB)": 111.15,
+      "step": 32320,
+      "train_speed(iter/s)": 0.447915
+    },
+    {
+      "acc": 0.64763412,
+      "epoch": 0.8200152207001522,
+      "grad_norm": 5.03125,
+      "learning_rate": 6.855869399553065e-06,
+      "loss": 1.68899479,
+      "memory(GiB)": 111.15,
+      "step": 32325,
+      "train_speed(iter/s)": 0.447951
+    },
+    {
+      "acc": 0.6500658,
+      "epoch": 0.8201420598680873,
+      "grad_norm": 6.71875,
+      "learning_rate": 6.85489564519729e-06,
+      "loss": 1.60307236,
+      "memory(GiB)": 111.15,
+      "step": 32330,
+      "train_speed(iter/s)": 0.447988
+    },
+    {
+      "acc": 0.66262226,
+      "epoch": 0.8202688990360223,
+      "grad_norm": 5.0625,
+      "learning_rate": 6.853921809254922e-06,
+      "loss": 1.60607357,
+      "memory(GiB)": 111.15,
+      "step": 32335,
+      "train_speed(iter/s)": 0.448025
+    },
+    {
+      "acc": 0.63533254,
+      "epoch": 0.8203957382039574,
+      "grad_norm": 5.84375,
+      "learning_rate": 6.852947891768796e-06,
+      "loss": 1.6254261,
+      "memory(GiB)": 111.15,
+      "step": 32340,
+      "train_speed(iter/s)": 0.448061
+    },
+    {
+      "acc": 0.67298594,
+      "epoch": 0.8205225773718925,
+      "grad_norm": 5.71875,
+      "learning_rate": 6.851973892781749e-06,
+      "loss": 1.54040718,
+      "memory(GiB)": 111.15,
+      "step": 32345,
+      "train_speed(iter/s)": 0.448098
+    },
+    {
+      "acc": 0.64756932,
+      "epoch": 0.8206494165398275,
+      "grad_norm": 5.53125,
+      "learning_rate": 6.850999812336623e-06,
+      "loss": 1.63710575,
+      "memory(GiB)": 111.15,
+      "step": 32350,
+      "train_speed(iter/s)": 0.448135
+    },
+    {
+      "acc": 0.64512329,
+      "epoch": 0.8207762557077626,
+      "grad_norm": 5.75,
+      "learning_rate": 6.850025650476259e-06,
+      "loss": 1.66190796,
+      "memory(GiB)": 111.15,
+      "step": 32355,
+      "train_speed(iter/s)": 0.448171
+    },
+    {
+      "acc": 0.6438077,
+      "epoch": 0.8209030948756976,
+      "grad_norm": 4.875,
+      "learning_rate": 6.849051407243509e-06,
+      "loss": 1.66104431,
+      "memory(GiB)": 111.15,
+      "step": 32360,
+      "train_speed(iter/s)": 0.448208
+    },
+    {
+      "acc": 0.64460835,
+      "epoch": 0.8210299340436327,
+      "grad_norm": 5.8125,
+      "learning_rate": 6.8480770826812205e-06,
+      "loss": 1.65248108,
+      "memory(GiB)": 111.15,
+      "step": 32365,
+      "train_speed(iter/s)": 0.448245
+    },
+    {
+      "acc": 0.64384751,
+      "epoch": 0.8211567732115678,
+      "grad_norm": 5.4375,
+      "learning_rate": 6.847102676832253e-06,
+      "loss": 1.67847061,
+      "memory(GiB)": 111.15,
+      "step": 32370,
+      "train_speed(iter/s)": 0.448281
+    },
+    {
+      "acc": 0.64187651,
+      "epoch": 0.8212836123795028,
+      "grad_norm": 5.96875,
+      "learning_rate": 6.8461281897394615e-06,
+      "loss": 1.64848404,
+      "memory(GiB)": 111.15,
+      "step": 32375,
+      "train_speed(iter/s)": 0.448318
+    },
+    {
+      "acc": 0.63397183,
+      "epoch": 0.8214104515474379,
+      "grad_norm": 5.71875,
+      "learning_rate": 6.845153621445711e-06,
+      "loss": 1.68159142,
+      "memory(GiB)": 111.15,
+      "step": 32380,
+      "train_speed(iter/s)": 0.448354
+    },
+    {
+      "acc": 0.65238295,
+      "epoch": 0.821537290715373,
+      "grad_norm": 5.28125,
+      "learning_rate": 6.844178971993866e-06,
+      "loss": 1.67321091,
+      "memory(GiB)": 111.15,
+      "step": 32385,
+      "train_speed(iter/s)": 0.448391
+    },
+    {
+      "acc": 0.66326227,
+      "epoch": 0.821664129883308,
+      "grad_norm": 5.46875,
+      "learning_rate": 6.843204241426797e-06,
+      "loss": 1.59882946,
+      "memory(GiB)": 111.15,
+      "step": 32390,
+      "train_speed(iter/s)": 0.448427
+    },
+    {
+      "acc": 0.66306458,
+      "epoch": 0.821790969051243,
+      "grad_norm": 4.5625,
+      "learning_rate": 6.842229429787375e-06,
+      "loss": 1.61632442,
+      "memory(GiB)": 111.15,
+      "step": 32395,
+      "train_speed(iter/s)": 0.448464
+    },
+    {
+      "acc": 0.65038009,
+      "epoch": 0.821917808219178,
+      "grad_norm": 4.875,
+      "learning_rate": 6.841254537118477e-06,
+      "loss": 1.5503458,
+      "memory(GiB)": 111.15,
+      "step": 32400,
+      "train_speed(iter/s)": 0.448501
+    },
+    {
+      "epoch": 0.821917808219178,
+      "eval_acc": 0.6429685375261575,
+      "eval_loss": 1.6100209951400757,
+      "eval_runtime": 112.7379,
+      "eval_samples_per_second": 56.503,
+      "eval_steps_per_second": 28.251,
+      "step": 32400
+    },
+    {
+      "acc": 0.63776364,
+      "epoch": 0.8220446473871131,
+      "grad_norm": 5.34375,
+      "learning_rate": 6.840279563462985e-06,
+      "loss": 1.72160969,
+      "memory(GiB)": 111.15,
+      "step": 32405,
+      "train_speed(iter/s)": 0.44781
+    },
+    {
+      "acc": 0.64764876,
+      "epoch": 0.8221714865550482,
+      "grad_norm": 5.40625,
+      "learning_rate": 6.839304508863781e-06,
+      "loss": 1.62405815,
+      "memory(GiB)": 111.15,
+      "step": 32410,
+      "train_speed(iter/s)": 0.447846
+    },
+    {
+      "acc": 0.65508089,
+      "epoch": 0.8222983257229832,
+      "grad_norm": 4.625,
+      "learning_rate": 6.838329373363753e-06,
+      "loss": 1.62292938,
+      "memory(GiB)": 111.15,
+      "step": 32415,
+      "train_speed(iter/s)": 0.447883
+    },
+    {
+      "acc": 0.65851521,
+      "epoch": 0.8224251648909183,
+      "grad_norm": 4.46875,
+      "learning_rate": 6.8373541570057924e-06,
+      "loss": 1.61938,
+      "memory(GiB)": 111.15,
+      "step": 32420,
+      "train_speed(iter/s)": 0.447919
+    },
+    {
+      "acc": 0.65963554,
+      "epoch": 0.8225520040588534,
+      "grad_norm": 5.75,
+      "learning_rate": 6.836378859832791e-06,
+      "loss": 1.64844246,
+      "memory(GiB)": 111.15,
+      "step": 32425,
+      "train_speed(iter/s)": 0.447955
+    },
+    {
+      "acc": 0.64661956,
+      "epoch": 0.8226788432267884,
+      "grad_norm": 4.6875,
+      "learning_rate": 6.83540348188765e-06,
+      "loss": 1.62796707,
+      "memory(GiB)": 111.15,
+      "step": 32430,
+      "train_speed(iter/s)": 0.447991
+    },
+    {
+      "acc": 0.65333099,
+      "epoch": 0.8228056823947235,
+      "grad_norm": 6.90625,
+      "learning_rate": 6.834428023213268e-06,
+      "loss": 1.58288517,
+      "memory(GiB)": 111.15,
+      "step": 32435,
+      "train_speed(iter/s)": 0.448028
+    },
+    {
+      "acc": 0.64179029,
+      "epoch": 0.8229325215626585,
+      "grad_norm": 4.4375,
+      "learning_rate": 6.833452483852554e-06,
+      "loss": 1.60386391,
+      "memory(GiB)": 111.15,
+      "step": 32440,
+      "train_speed(iter/s)": 0.448064
+    },
+    {
+      "acc": 0.65531411,
+      "epoch": 0.8230593607305936,
+      "grad_norm": 6.46875,
+      "learning_rate": 6.832476863848411e-06,
+      "loss": 1.62659531,
+      "memory(GiB)": 111.15,
+      "step": 32445,
+      "train_speed(iter/s)": 0.4481
+    },
+    {
+      "acc": 0.63803382,
+      "epoch": 0.8231861998985287,
+      "grad_norm": 5.90625,
+      "learning_rate": 6.831501163243756e-06,
+      "loss": 1.70130196,
+      "memory(GiB)": 111.15,
+      "step": 32450,
+      "train_speed(iter/s)": 0.448137
+    },
+    {
+      "acc": 0.63967266,
+      "epoch": 0.8233130390664637,
+      "grad_norm": 6.71875,
+      "learning_rate": 6.830525382081501e-06,
+      "loss": 1.69018707,
+      "memory(GiB)": 111.15,
+      "step": 32455,
+      "train_speed(iter/s)": 0.448173
+    },
+    {
+      "acc": 0.64958649,
+      "epoch": 0.8234398782343988,
+      "grad_norm": 4.59375,
+      "learning_rate": 6.829549520404568e-06,
+      "loss": 1.60736275,
+      "memory(GiB)": 111.15,
+      "step": 32460,
+      "train_speed(iter/s)": 0.44821
+    },
+    {
+      "acc": 0.66044745,
+      "epoch": 0.8235667174023339,
+      "grad_norm": 5.1875,
+      "learning_rate": 6.828573578255879e-06,
+      "loss": 1.56229744,
+      "memory(GiB)": 111.15,
+      "step": 32465,
+      "train_speed(iter/s)": 0.448246
+    },
+    {
+      "acc": 0.64875484,
+      "epoch": 0.8236935565702689,
+      "grad_norm": 4.96875,
+      "learning_rate": 6.82759755567836e-06,
+      "loss": 1.62134933,
+      "memory(GiB)": 111.15,
+      "step": 32470,
+      "train_speed(iter/s)": 0.448282
+    },
+    {
+      "acc": 0.64224496,
+      "epoch": 0.823820395738204,
+      "grad_norm": 5.46875,
+      "learning_rate": 6.826621452714941e-06,
+      "loss": 1.70467224,
+      "memory(GiB)": 111.15,
+      "step": 32475,
+      "train_speed(iter/s)": 0.448318
+    },
+    {
+      "acc": 0.64410958,
+      "epoch": 0.823947234906139,
+      "grad_norm": 4.875,
+      "learning_rate": 6.825645269408556e-06,
+      "loss": 1.62777939,
+      "memory(GiB)": 111.15,
+      "step": 32480,
+      "train_speed(iter/s)": 0.448354
+    },
+    {
+      "acc": 0.64841433,
+      "epoch": 0.8240740740740741,
+      "grad_norm": 5.625,
+      "learning_rate": 6.82466900580214e-06,
+      "loss": 1.59784231,
+      "memory(GiB)": 111.15,
+      "step": 32485,
+      "train_speed(iter/s)": 0.44839
+    },
+    {
+      "acc": 0.63771162,
+      "epoch": 0.8242009132420092,
+      "grad_norm": 5.25,
+      "learning_rate": 6.823692661938634e-06,
+      "loss": 1.66963768,
+      "memory(GiB)": 111.15,
+      "step": 32490,
+      "train_speed(iter/s)": 0.448427
+    },
+    {
+      "acc": 0.65454922,
+      "epoch": 0.8243277524099442,
+      "grad_norm": 5.96875,
+      "learning_rate": 6.822716237860984e-06,
+      "loss": 1.64312172,
+      "memory(GiB)": 111.15,
+      "step": 32495,
+      "train_speed(iter/s)": 0.448462
+    },
+    {
+      "acc": 0.65863819,
+      "epoch": 0.8244545915778793,
+      "grad_norm": 4.65625,
+      "learning_rate": 6.821739733612135e-06,
+      "loss": 1.58759604,
+      "memory(GiB)": 111.15,
+      "step": 32500,
+      "train_speed(iter/s)": 0.448498
+    },
+    {
+      "epoch": 0.8244545915778793,
+      "eval_acc": 0.6429163166124753,
+      "eval_loss": 1.6101748943328857,
+      "eval_runtime": 114.4078,
+      "eval_samples_per_second": 55.678,
+      "eval_steps_per_second": 27.839,
+      "step": 32500
+    },
+    {
+      "acc": 0.65006766,
+      "epoch": 0.8245814307458144,
+      "grad_norm": 5.9375,
+      "learning_rate": 6.820763149235039e-06,
+      "loss": 1.69699669,
+      "memory(GiB)": 111.15,
+      "step": 32505,
+      "train_speed(iter/s)": 0.447799
+    },
+    {
+      "acc": 0.65078034,
+      "epoch": 0.8247082699137493,
+      "grad_norm": 5.0,
+      "learning_rate": 6.819786484772652e-06,
+      "loss": 1.60453625,
+      "memory(GiB)": 111.15,
+      "step": 32510,
+      "train_speed(iter/s)": 0.447835
+    },
+    {
+      "acc": 0.61758137,
+      "epoch": 0.8248351090816844,
+      "grad_norm": 5.40625,
+      "learning_rate": 6.8188097402679275e-06,
+      "loss": 1.73696442,
+      "memory(GiB)": 111.15,
+      "step": 32515,
+      "train_speed(iter/s)": 0.447871
+    },
+    {
+      "acc": 0.65949969,
+      "epoch": 0.8249619482496194,
+      "grad_norm": 4.8125,
+      "learning_rate": 6.817832915763833e-06,
+      "loss": 1.5610321,
+      "memory(GiB)": 111.15,
+      "step": 32520,
+      "train_speed(iter/s)": 0.447907
+    },
+    {
+      "acc": 0.64406414,
+      "epoch": 0.8250887874175545,
+      "grad_norm": 4.75,
+      "learning_rate": 6.81685601130333e-06,
+      "loss": 1.64460735,
+      "memory(GiB)": 111.15,
+      "step": 32525,
+      "train_speed(iter/s)": 0.447943
+    },
+    {
+      "acc": 0.66168027,
+      "epoch": 0.8252156265854896,
+      "grad_norm": 6.21875,
+      "learning_rate": 6.8158790269293885e-06,
+      "loss": 1.57091646,
+      "memory(GiB)": 111.15,
+      "step": 32530,
+      "train_speed(iter/s)": 0.447979
+    },
+    {
+      "acc": 0.66214733,
+      "epoch": 0.8253424657534246,
+      "grad_norm": 6.1875,
+      "learning_rate": 6.8149019626849785e-06,
+      "loss": 1.53996449,
+      "memory(GiB)": 111.15,
+      "step": 32535,
+      "train_speed(iter/s)": 0.448015
+    },
+    {
+      "acc": 0.64911966,
+      "epoch": 0.8254693049213597,
+      "grad_norm": 5.03125,
+      "learning_rate": 6.813924818613079e-06,
+      "loss": 1.63346252,
+      "memory(GiB)": 111.15,
+      "step": 32540,
+      "train_speed(iter/s)": 0.448051
+    },
+    {
+      "acc": 0.66107364,
+      "epoch": 0.8255961440892948,
+      "grad_norm": 5.53125,
+      "learning_rate": 6.812947594756667e-06,
+      "loss": 1.66344757,
+      "memory(GiB)": 111.15,
+      "step": 32545,
+      "train_speed(iter/s)": 0.448087
+    },
+    {
+      "acc": 0.6637958,
+      "epoch": 0.8257229832572298,
+      "grad_norm": 5.1875,
+      "learning_rate": 6.811970291158725e-06,
+      "loss": 1.60018368,
+      "memory(GiB)": 111.15,
+      "step": 32550,
+      "train_speed(iter/s)": 0.448123
+    },
+    {
+      "acc": 0.64954395,
+      "epoch": 0.8258498224251649,
+      "grad_norm": 5.09375,
+      "learning_rate": 6.810992907862239e-06,
+      "loss": 1.64513016,
+      "memory(GiB)": 111.15,
+      "step": 32555,
+      "train_speed(iter/s)": 0.448159
+    },
+    {
+      "acc": 0.63043914,
+      "epoch": 0.8259766615930999,
+      "grad_norm": 5.84375,
+      "learning_rate": 6.810015444910202e-06,
+      "loss": 1.64187317,
+      "memory(GiB)": 111.15,
+      "step": 32560,
+      "train_speed(iter/s)": 0.448196
+    },
+    {
+      "acc": 0.65492306,
+      "epoch": 0.826103500761035,
+      "grad_norm": 6.34375,
+      "learning_rate": 6.809037902345603e-06,
+      "loss": 1.67356892,
+      "memory(GiB)": 111.15,
+      "step": 32565,
+      "train_speed(iter/s)": 0.448232
+    },
+    {
+      "acc": 0.64298658,
+      "epoch": 0.8262303399289701,
+      "grad_norm": 6.03125,
+      "learning_rate": 6.808060280211439e-06,
+      "loss": 1.5911211,
+      "memory(GiB)": 111.15,
+      "step": 32570,
+      "train_speed(iter/s)": 0.448268
+    },
+    {
+      "acc": 0.65569539,
+      "epoch": 0.8263571790969051,
+      "grad_norm": 5.5,
+      "learning_rate": 6.807082578550713e-06,
+      "loss": 1.59871149,
+      "memory(GiB)": 111.15,
+      "step": 32575,
+      "train_speed(iter/s)": 0.448304
+    },
+    {
+      "acc": 0.6435678,
+      "epoch": 0.8264840182648402,
+      "grad_norm": 5.125,
+      "learning_rate": 6.806104797406428e-06,
+      "loss": 1.62056847,
+      "memory(GiB)": 111.15,
+      "step": 32580,
+      "train_speed(iter/s)": 0.44834
+    },
+    {
+      "acc": 0.64942517,
+      "epoch": 0.8266108574327753,
+      "grad_norm": 5.3125,
+      "learning_rate": 6.805126936821588e-06,
+      "loss": 1.61817665,
+      "memory(GiB)": 111.15,
+      "step": 32585,
+      "train_speed(iter/s)": 0.448376
+    },
+    {
+      "acc": 0.64908605,
+      "epoch": 0.8267376966007103,
+      "grad_norm": 5.4375,
+      "learning_rate": 6.804148996839208e-06,
+      "loss": 1.63608322,
+      "memory(GiB)": 111.15,
+      "step": 32590,
+      "train_speed(iter/s)": 0.448412
+    },
+    {
+      "acc": 0.64975762,
+      "epoch": 0.8268645357686454,
+      "grad_norm": 5.28125,
+      "learning_rate": 6.803170977502298e-06,
+      "loss": 1.66273613,
+      "memory(GiB)": 111.15,
+      "step": 32595,
+      "train_speed(iter/s)": 0.448449
+    },
+    {
+      "acc": 0.65923128,
+      "epoch": 0.8269913749365804,
+      "grad_norm": 7.78125,
+      "learning_rate": 6.802192878853879e-06,
+      "loss": 1.62350521,
+      "memory(GiB)": 111.15,
+      "step": 32600,
+      "train_speed(iter/s)": 0.448485
+    },
+    {
+      "epoch": 0.8269913749365804,
+      "eval_acc": 0.6429121389393807,
+      "eval_loss": 1.6098910570144653,
+      "eval_runtime": 114.671,
+      "eval_samples_per_second": 55.55,
+      "eval_steps_per_second": 27.775,
+      "step": 32600
+    },
+    {
+      "acc": 0.65719733,
+      "epoch": 0.8271182141045155,
+      "grad_norm": 5.71875,
+      "learning_rate": 6.801214700936972e-06,
+      "loss": 1.54453564,
+      "memory(GiB)": 111.15,
+      "step": 32605,
+      "train_speed(iter/s)": 0.447786
+    },
+    {
+      "acc": 0.65681901,
+      "epoch": 0.8272450532724506,
+      "grad_norm": 5.25,
+      "learning_rate": 6.8002364437946e-06,
+      "loss": 1.61418667,
+      "memory(GiB)": 111.15,
+      "step": 32610,
+      "train_speed(iter/s)": 0.447822
+    },
+    {
+      "acc": 0.64888945,
+      "epoch": 0.8273718924403856,
+      "grad_norm": 5.84375,
+      "learning_rate": 6.799258107469792e-06,
+      "loss": 1.66314201,
+      "memory(GiB)": 111.15,
+      "step": 32615,
+      "train_speed(iter/s)": 0.447858
+    },
+    {
+      "acc": 0.65021448,
+      "epoch": 0.8274987316083207,
+      "grad_norm": 4.25,
+      "learning_rate": 6.798279692005578e-06,
+      "loss": 1.60341358,
+      "memory(GiB)": 111.15,
+      "step": 32620,
+      "train_speed(iter/s)": 0.447893
+    },
+    {
+      "acc": 0.65714846,
+      "epoch": 0.8276255707762558,
+      "grad_norm": 5.75,
+      "learning_rate": 6.7973011974449965e-06,
+      "loss": 1.5717104,
+      "memory(GiB)": 111.15,
+      "step": 32625,
+      "train_speed(iter/s)": 0.447928
+    },
+    {
+      "acc": 0.65262489,
+      "epoch": 0.8277524099441907,
+      "grad_norm": 6.0,
+      "learning_rate": 6.796322623831082e-06,
+      "loss": 1.56863785,
+      "memory(GiB)": 111.15,
+      "step": 32630,
+      "train_speed(iter/s)": 0.447964
+    },
+    {
+      "acc": 0.65096188,
+      "epoch": 0.8278792491121258,
+      "grad_norm": 5.625,
+      "learning_rate": 6.795343971206879e-06,
+      "loss": 1.58098469,
+      "memory(GiB)": 111.15,
+      "step": 32635,
+      "train_speed(iter/s)": 0.448
+    },
+    {
+      "acc": 0.65714645,
+      "epoch": 0.8280060882800608,
+      "grad_norm": 6.90625,
+      "learning_rate": 6.794365239615433e-06,
+      "loss": 1.60648766,
+      "memory(GiB)": 111.15,
+      "step": 32640,
+      "train_speed(iter/s)": 0.448036
+    },
+    {
+      "acc": 0.65380702,
+      "epoch": 0.8281329274479959,
+      "grad_norm": 4.4375,
+      "learning_rate": 6.793386429099792e-06,
+      "loss": 1.63176231,
+      "memory(GiB)": 111.15,
+      "step": 32645,
+      "train_speed(iter/s)": 0.448073
+    },
+    {
+      "acc": 0.65917969,
+      "epoch": 0.828259766615931,
+      "grad_norm": 4.6875,
+      "learning_rate": 6.79240753970301e-06,
+      "loss": 1.60385113,
+      "memory(GiB)": 111.15,
+      "step": 32650,
+      "train_speed(iter/s)": 0.448108
+    },
+    {
+      "acc": 0.64168706,
+      "epoch": 0.828386605783866,
+      "grad_norm": 5.03125,
+      "learning_rate": 6.791428571468139e-06,
+      "loss": 1.67332458,
+      "memory(GiB)": 111.15,
+      "step": 32655,
+      "train_speed(iter/s)": 0.448145
+    },
+    {
+      "acc": 0.63637853,
+      "epoch": 0.8285134449518011,
+      "grad_norm": 6.5625,
+      "learning_rate": 6.7904495244382454e-06,
+      "loss": 1.68497143,
+      "memory(GiB)": 111.15,
+      "step": 32660,
+      "train_speed(iter/s)": 0.448181
+    },
+    {
+      "acc": 0.64454956,
+      "epoch": 0.8286402841197362,
+      "grad_norm": 4.625,
+      "learning_rate": 6.789470398656385e-06,
+      "loss": 1.6971344,
+      "memory(GiB)": 111.15,
+      "step": 32665,
+      "train_speed(iter/s)": 0.448217
+    },
+    {
+      "acc": 0.65143733,
+      "epoch": 0.8287671232876712,
+      "grad_norm": 5.40625,
+      "learning_rate": 6.788491194165629e-06,
+      "loss": 1.62084446,
+      "memory(GiB)": 111.15,
+      "step": 32670,
+      "train_speed(iter/s)": 0.448253
+    },
+    {
+      "acc": 0.67059383,
+      "epoch": 0.8288939624556063,
+      "grad_norm": 5.34375,
+      "learning_rate": 6.787511911009044e-06,
+      "loss": 1.52378235,
+      "memory(GiB)": 111.15,
+      "step": 32675,
+      "train_speed(iter/s)": 0.448289
+    },
+    {
+      "acc": 0.63780518,
+      "epoch": 0.8290208016235413,
+      "grad_norm": 5.0625,
+      "learning_rate": 6.786532549229704e-06,
+      "loss": 1.6726038,
+      "memory(GiB)": 111.15,
+      "step": 32680,
+      "train_speed(iter/s)": 0.448325
+    },
+    {
+      "acc": 0.6582231,
+      "epoch": 0.8291476407914764,
+      "grad_norm": 5.15625,
+      "learning_rate": 6.785553108870686e-06,
+      "loss": 1.57881584,
+      "memory(GiB)": 111.15,
+      "step": 32685,
+      "train_speed(iter/s)": 0.448361
+    },
+    {
+      "acc": 0.63775282,
+      "epoch": 0.8292744799594115,
+      "grad_norm": 5.0,
+      "learning_rate": 6.784573589975072e-06,
+      "loss": 1.64340076,
+      "memory(GiB)": 111.15,
+      "step": 32690,
+      "train_speed(iter/s)": 0.448398
+    },
+    {
+      "acc": 0.63034964,
+      "epoch": 0.8294013191273465,
+      "grad_norm": 6.09375,
+      "learning_rate": 6.783593992585943e-06,
+      "loss": 1.69854774,
+      "memory(GiB)": 111.15,
+      "step": 32695,
+      "train_speed(iter/s)": 0.448433
+    },
+    {
+      "acc": 0.64613237,
+      "epoch": 0.8295281582952816,
+      "grad_norm": 5.21875,
+      "learning_rate": 6.7826143167463876e-06,
+      "loss": 1.66833515,
+      "memory(GiB)": 111.15,
+      "step": 32700,
+      "train_speed(iter/s)": 0.448469
+    },
+    {
+      "epoch": 0.8295281582952816,
+      "eval_acc": 0.6430086431878653,
+      "eval_loss": 1.6100075244903564,
+      "eval_runtime": 113.2712,
+      "eval_samples_per_second": 56.237,
+      "eval_steps_per_second": 28.118,
+      "step": 32700
+    },
+    {
+      "acc": 0.65465412,
+      "epoch": 0.8296549974632167,
+      "grad_norm": 4.9375,
+      "learning_rate": 6.781634562499495e-06,
+      "loss": 1.64357262,
+      "memory(GiB)": 111.15,
+      "step": 32705,
+      "train_speed(iter/s)": 0.447781
+    },
+    {
+      "acc": 0.65387259,
+      "epoch": 0.8297818366311517,
+      "grad_norm": 5.46875,
+      "learning_rate": 6.780654729888361e-06,
+      "loss": 1.6355978,
+      "memory(GiB)": 111.15,
+      "step": 32710,
+      "train_speed(iter/s)": 0.447817
+    },
+    {
+      "acc": 0.65253215,
+      "epoch": 0.8299086757990868,
+      "grad_norm": 6.875,
+      "learning_rate": 6.779674818956081e-06,
+      "loss": 1.63154449,
+      "memory(GiB)": 111.15,
+      "step": 32715,
+      "train_speed(iter/s)": 0.447852
+    },
+    {
+      "acc": 0.6314887,
+      "epoch": 0.8300355149670218,
+      "grad_norm": 5.75,
+      "learning_rate": 6.778694829745756e-06,
+      "loss": 1.64977112,
+      "memory(GiB)": 111.15,
+      "step": 32720,
+      "train_speed(iter/s)": 0.447888
+    },
+    {
+      "acc": 0.63668919,
+      "epoch": 0.8301623541349569,
+      "grad_norm": 5.34375,
+      "learning_rate": 6.777714762300492e-06,
+      "loss": 1.6203289,
+      "memory(GiB)": 111.15,
+      "step": 32725,
+      "train_speed(iter/s)": 0.447924
+    },
+    {
+      "acc": 0.66070194,
+      "epoch": 0.830289193302892,
+      "grad_norm": 5.15625,
+      "learning_rate": 6.776734616663397e-06,
+      "loss": 1.58673019,
+      "memory(GiB)": 111.15,
+      "step": 32730,
+      "train_speed(iter/s)": 0.44796
+    },
+    {
+      "acc": 0.66710291,
+      "epoch": 0.830416032470827,
+      "grad_norm": 4.96875,
+      "learning_rate": 6.77575439287758e-06,
+      "loss": 1.50803852,
+      "memory(GiB)": 111.15,
+      "step": 32735,
+      "train_speed(iter/s)": 0.447995
+    },
+    {
+      "acc": 0.64855824,
+      "epoch": 0.8305428716387621,
+      "grad_norm": 5.59375,
+      "learning_rate": 6.774774090986157e-06,
+      "loss": 1.6296299,
+      "memory(GiB)": 111.15,
+      "step": 32740,
+      "train_speed(iter/s)": 0.448031
+    },
+    {
+      "acc": 0.66819649,
+      "epoch": 0.8306697108066972,
+      "grad_norm": 5.03125,
+      "learning_rate": 6.773793711032244e-06,
+      "loss": 1.61443233,
+      "memory(GiB)": 111.15,
+      "step": 32745,
+      "train_speed(iter/s)": 0.448067
+    },
+    {
+      "acc": 0.64040546,
+      "epoch": 0.8307965499746321,
+      "grad_norm": 5.59375,
+      "learning_rate": 6.772813253058965e-06,
+      "loss": 1.65505238,
+      "memory(GiB)": 111.15,
+      "step": 32750,
+      "train_speed(iter/s)": 0.448102
+    },
+    {
+      "acc": 0.6573648,
+      "epoch": 0.8309233891425672,
+      "grad_norm": 6.0,
+      "learning_rate": 6.771832717109444e-06,
+      "loss": 1.62006741,
+      "memory(GiB)": 111.15,
+      "step": 32755,
+      "train_speed(iter/s)": 0.448137
+    },
+    {
+      "acc": 0.6478117,
+      "epoch": 0.8310502283105022,
+      "grad_norm": 4.6875,
+      "learning_rate": 6.77085210322681e-06,
+      "loss": 1.66119843,
+      "memory(GiB)": 111.15,
+      "step": 32760,
+      "train_speed(iter/s)": 0.448173
+    },
+    {
+      "acc": 0.63774009,
+      "epoch": 0.8311770674784373,
+      "grad_norm": 5.0625,
+      "learning_rate": 6.769871411454195e-06,
+      "loss": 1.65243301,
+      "memory(GiB)": 111.15,
+      "step": 32765,
+      "train_speed(iter/s)": 0.448208
+    },
+    {
+      "acc": 0.6276474,
+      "epoch": 0.8313039066463724,
+      "grad_norm": 5.3125,
+      "learning_rate": 6.768890641834732e-06,
+      "loss": 1.68650894,
+      "memory(GiB)": 111.15,
+      "step": 32770,
+      "train_speed(iter/s)": 0.448244
+    },
+    {
+      "acc": 0.64909286,
+      "epoch": 0.8314307458143074,
+      "grad_norm": 4.53125,
+      "learning_rate": 6.767909794411562e-06,
+      "loss": 1.63493137,
+      "memory(GiB)": 111.15,
+      "step": 32775,
+      "train_speed(iter/s)": 0.44828
+    },
+    {
+      "acc": 0.66092644,
+      "epoch": 0.8315575849822425,
+      "grad_norm": 7.5,
+      "learning_rate": 6.7669288692278256e-06,
+      "loss": 1.62956963,
+      "memory(GiB)": 111.15,
+      "step": 32780,
+      "train_speed(iter/s)": 0.448316
+    },
+    {
+      "acc": 0.64859414,
+      "epoch": 0.8316844241501776,
+      "grad_norm": 5.0625,
+      "learning_rate": 6.76594786632667e-06,
+      "loss": 1.55125647,
+      "memory(GiB)": 111.15,
+      "step": 32785,
+      "train_speed(iter/s)": 0.448351
+    },
+    {
+      "acc": 0.64908266,
+      "epoch": 0.8318112633181126,
+      "grad_norm": 5.375,
+      "learning_rate": 6.764966785751242e-06,
+      "loss": 1.64024887,
+      "memory(GiB)": 111.15,
+      "step": 32790,
+      "train_speed(iter/s)": 0.448386
+    },
+    {
+      "acc": 0.6502162,
+      "epoch": 0.8319381024860477,
+      "grad_norm": 4.9375,
+      "learning_rate": 6.763985627544693e-06,
+      "loss": 1.64023151,
+      "memory(GiB)": 111.15,
+      "step": 32795,
+      "train_speed(iter/s)": 0.448422
+    },
+    {
+      "acc": 0.63774815,
+      "epoch": 0.8320649416539827,
+      "grad_norm": 5.25,
+      "learning_rate": 6.763004391750183e-06,
+      "loss": 1.64442825,
+      "memory(GiB)": 111.15,
+      "step": 32800,
+      "train_speed(iter/s)": 0.448458
+    },
+    {
+      "epoch": 0.8320649416539827,
+      "eval_acc": 0.6430132386282694,
+      "eval_loss": 1.6097626686096191,
+      "eval_runtime": 114.6915,
+      "eval_samples_per_second": 55.54,
+      "eval_steps_per_second": 27.77,
+      "step": 32800
+    },
+    {
+      "acc": 0.65060616,
+      "epoch": 0.8321917808219178,
+      "grad_norm": 7.375,
+      "learning_rate": 6.762023078410867e-06,
+      "loss": 1.66409531,
+      "memory(GiB)": 111.15,
+      "step": 32805,
+      "train_speed(iter/s)": 0.447764
+    },
+    {
+      "acc": 0.65033741,
+      "epoch": 0.8323186199898529,
+      "grad_norm": 4.65625,
+      "learning_rate": 6.7610416875699095e-06,
+      "loss": 1.60913353,
+      "memory(GiB)": 111.15,
+      "step": 32810,
+      "train_speed(iter/s)": 0.447799
+    },
+    {
+      "acc": 0.66197157,
+      "epoch": 0.8324454591577879,
+      "grad_norm": 4.875,
+      "learning_rate": 6.760060219270476e-06,
+      "loss": 1.6297905,
+      "memory(GiB)": 111.15,
+      "step": 32815,
+      "train_speed(iter/s)": 0.447834
+    },
+    {
+      "acc": 0.66332273,
+      "epoch": 0.832572298325723,
+      "grad_norm": 5.1875,
+      "learning_rate": 6.759078673555736e-06,
+      "loss": 1.62605858,
+      "memory(GiB)": 111.15,
+      "step": 32820,
+      "train_speed(iter/s)": 0.44787
+    },
+    {
+      "acc": 0.64675913,
+      "epoch": 0.8326991374936581,
+      "grad_norm": 5.875,
+      "learning_rate": 6.758097050468862e-06,
+      "loss": 1.61459904,
+      "memory(GiB)": 111.15,
+      "step": 32825,
+      "train_speed(iter/s)": 0.447905
+    },
+    {
+      "acc": 0.65628443,
+      "epoch": 0.8328259766615931,
+      "grad_norm": 5.59375,
+      "learning_rate": 6.757115350053032e-06,
+      "loss": 1.66839905,
+      "memory(GiB)": 111.15,
+      "step": 32830,
+      "train_speed(iter/s)": 0.447904
+    },
+    {
+      "acc": 0.64399061,
+      "epoch": 0.8329528158295282,
+      "grad_norm": 4.84375,
+      "learning_rate": 6.756133572351422e-06,
+      "loss": 1.63957481,
+      "memory(GiB)": 111.15,
+      "step": 32835,
+      "train_speed(iter/s)": 0.44794
+    },
+    {
+      "acc": 0.65229459,
+      "epoch": 0.8330796549974632,
+      "grad_norm": 5.375,
+      "learning_rate": 6.755151717407218e-06,
+      "loss": 1.58449955,
+      "memory(GiB)": 111.15,
+      "step": 32840,
+      "train_speed(iter/s)": 0.447975
+    },
+    {
+      "acc": 0.64108706,
+      "epoch": 0.8332064941653983,
+      "grad_norm": 4.53125,
+      "learning_rate": 6.754169785263605e-06,
+      "loss": 1.69349861,
+      "memory(GiB)": 111.15,
+      "step": 32845,
+      "train_speed(iter/s)": 0.448011
+    },
+    {
+      "acc": 0.65346699,
+      "epoch": 0.8333333333333334,
+      "grad_norm": 6.21875,
+      "learning_rate": 6.753187775963773e-06,
+      "loss": 1.62150764,
+      "memory(GiB)": 111.15,
+      "step": 32850,
+      "train_speed(iter/s)": 0.448047
+    },
+    {
+      "acc": 0.65815678,
+      "epoch": 0.8334601725012684,
+      "grad_norm": 5.90625,
+      "learning_rate": 6.752205689550915e-06,
+      "loss": 1.56463375,
+      "memory(GiB)": 111.15,
+      "step": 32855,
+      "train_speed(iter/s)": 0.448082
+    },
+    {
+      "acc": 0.65201516,
+      "epoch": 0.8335870116692035,
+      "grad_norm": 5.0,
+      "learning_rate": 6.751223526068228e-06,
+      "loss": 1.62399406,
+      "memory(GiB)": 111.15,
+      "step": 32860,
+      "train_speed(iter/s)": 0.448118
+    },
+    {
+      "acc": 0.63955178,
+      "epoch": 0.8337138508371386,
+      "grad_norm": 5.0625,
+      "learning_rate": 6.75024128555891e-06,
+      "loss": 1.65600052,
+      "memory(GiB)": 111.15,
+      "step": 32865,
+      "train_speed(iter/s)": 0.448154
+    },
+    {
+      "acc": 0.64648237,
+      "epoch": 0.8338406900050735,
+      "grad_norm": 4.84375,
+      "learning_rate": 6.7492589680661695e-06,
+      "loss": 1.63914108,
+      "memory(GiB)": 111.15,
+      "step": 32870,
+      "train_speed(iter/s)": 0.44819
+    },
+    {
+      "acc": 0.64333458,
+      "epoch": 0.8339675291730086,
+      "grad_norm": 5.21875,
+      "learning_rate": 6.748276573633207e-06,
+      "loss": 1.66612473,
+      "memory(GiB)": 111.15,
+      "step": 32875,
+      "train_speed(iter/s)": 0.448225
+    },
+    {
+      "acc": 0.65232787,
+      "epoch": 0.8340943683409436,
+      "grad_norm": 5.09375,
+      "learning_rate": 6.747294102303237e-06,
+      "loss": 1.62393417,
+      "memory(GiB)": 111.15,
+      "step": 32880,
+      "train_speed(iter/s)": 0.448261
+    },
+    {
+      "acc": 0.66196537,
+      "epoch": 0.8342212075088787,
+      "grad_norm": 5.40625,
+      "learning_rate": 6.746311554119469e-06,
+      "loss": 1.58140163,
+      "memory(GiB)": 111.15,
+      "step": 32885,
+      "train_speed(iter/s)": 0.448296
+    },
+    {
+      "acc": 0.66298809,
+      "epoch": 0.8343480466768138,
+      "grad_norm": 5.875,
+      "learning_rate": 6.745328929125125e-06,
+      "loss": 1.58378067,
+      "memory(GiB)": 111.15,
+      "step": 32890,
+      "train_speed(iter/s)": 0.448332
+    },
+    {
+      "acc": 0.64894247,
+      "epoch": 0.8344748858447488,
+      "grad_norm": 5.375,
+      "learning_rate": 6.7443462273634195e-06,
+      "loss": 1.54763718,
+      "memory(GiB)": 111.15,
+      "step": 32895,
+      "train_speed(iter/s)": 0.448368
+    },
+    {
+      "acc": 0.64872894,
+      "epoch": 0.8346017250126839,
+      "grad_norm": 5.875,
+      "learning_rate": 6.74336344887758e-06,
+      "loss": 1.59882526,
+      "memory(GiB)": 111.15,
+      "step": 32900,
+      "train_speed(iter/s)": 0.448404
+    },
+    {
+      "epoch": 0.8346017250126839,
+      "eval_acc": 0.6430529265226679,
+      "eval_loss": 1.61006760597229,
+      "eval_runtime": 112.7572,
+      "eval_samples_per_second": 56.493,
+      "eval_steps_per_second": 28.247,
+      "step": 32900
+    },
+    {
+      "acc": 0.64996443,
+      "epoch": 0.834728564180619,
+      "grad_norm": 5.625,
+      "learning_rate": 6.742380593710834e-06,
+      "loss": 1.62278862,
+      "memory(GiB)": 111.15,
+      "step": 32905,
+      "train_speed(iter/s)": 0.447724
+    },
+    {
+      "acc": 0.64250236,
+      "epoch": 0.834855403348554,
+      "grad_norm": 5.96875,
+      "learning_rate": 6.7413976619064085e-06,
+      "loss": 1.68773212,
+      "memory(GiB)": 111.15,
+      "step": 32910,
+      "train_speed(iter/s)": 0.447759
+    },
+    {
+      "acc": 0.65227995,
+      "epoch": 0.8349822425164891,
+      "grad_norm": 5.40625,
+      "learning_rate": 6.74041465350754e-06,
+      "loss": 1.5280241,
+      "memory(GiB)": 111.15,
+      "step": 32915,
+      "train_speed(iter/s)": 0.447794
+    },
+    {
+      "acc": 0.66012201,
+      "epoch": 0.8351090816844241,
+      "grad_norm": 5.03125,
+      "learning_rate": 6.739431568557464e-06,
+      "loss": 1.53043833,
+      "memory(GiB)": 111.15,
+      "step": 32920,
+      "train_speed(iter/s)": 0.44783
+    },
+    {
+      "acc": 0.63174486,
+      "epoch": 0.8352359208523592,
+      "grad_norm": 5.0,
+      "learning_rate": 6.738448407099423e-06,
+      "loss": 1.71644936,
+      "memory(GiB)": 111.15,
+      "step": 32925,
+      "train_speed(iter/s)": 0.447865
+    },
+    {
+      "acc": 0.64693007,
+      "epoch": 0.8353627600202943,
+      "grad_norm": 5.59375,
+      "learning_rate": 6.737465169176658e-06,
+      "loss": 1.57929029,
+      "memory(GiB)": 111.15,
+      "step": 32930,
+      "train_speed(iter/s)": 0.4479
+    },
+    {
+      "acc": 0.64836311,
+      "epoch": 0.8354895991882293,
+      "grad_norm": 5.375,
+      "learning_rate": 6.736481854832418e-06,
+      "loss": 1.63191147,
+      "memory(GiB)": 111.15,
+      "step": 32935,
+      "train_speed(iter/s)": 0.447936
+    },
+    {
+      "acc": 0.64984336,
+      "epoch": 0.8356164383561644,
+      "grad_norm": 6.3125,
+      "learning_rate": 6.735498464109953e-06,
+      "loss": 1.61379204,
+      "memory(GiB)": 111.15,
+      "step": 32940,
+      "train_speed(iter/s)": 0.447971
+    },
+    {
+      "acc": 0.65568976,
+      "epoch": 0.8357432775240995,
+      "grad_norm": 6.25,
+      "learning_rate": 6.734514997052517e-06,
+      "loss": 1.58366652,
+      "memory(GiB)": 111.15,
+      "step": 32945,
+      "train_speed(iter/s)": 0.448007
+    },
+    {
+      "acc": 0.66102796,
+      "epoch": 0.8358701166920345,
+      "grad_norm": 6.21875,
+      "learning_rate": 6.733531453703368e-06,
+      "loss": 1.61800709,
+      "memory(GiB)": 111.15,
+      "step": 32950,
+      "train_speed(iter/s)": 0.448042
+    },
+    {
+      "acc": 0.6513133,
+      "epoch": 0.8359969558599696,
+      "grad_norm": 6.28125,
+      "learning_rate": 6.732547834105765e-06,
+      "loss": 1.55495281,
+      "memory(GiB)": 111.15,
+      "step": 32955,
+      "train_speed(iter/s)": 0.448078
+    },
+    {
+      "acc": 0.65970721,
+      "epoch": 0.8361237950279046,
+      "grad_norm": 5.59375,
+      "learning_rate": 6.731564138302975e-06,
+      "loss": 1.60372982,
+      "memory(GiB)": 111.15,
+      "step": 32960,
+      "train_speed(iter/s)": 0.448114
+    },
+    {
+      "acc": 0.65962839,
+      "epoch": 0.8362506341958397,
+      "grad_norm": 4.875,
+      "learning_rate": 6.730580366338261e-06,
+      "loss": 1.60945663,
+      "memory(GiB)": 111.15,
+      "step": 32965,
+      "train_speed(iter/s)": 0.448149
+    },
+    {
+      "acc": 0.66402388,
+      "epoch": 0.8363774733637748,
+      "grad_norm": 4.75,
+      "learning_rate": 6.729596518254897e-06,
+      "loss": 1.56634359,
+      "memory(GiB)": 111.15,
+      "step": 32970,
+      "train_speed(iter/s)": 0.448184
+    },
+    {
+      "acc": 0.64052973,
+      "epoch": 0.8365043125317098,
+      "grad_norm": 6.34375,
+      "learning_rate": 6.728612594096155e-06,
+      "loss": 1.61817017,
+      "memory(GiB)": 111.15,
+      "step": 32975,
+      "train_speed(iter/s)": 0.44822
+    },
+    {
+      "acc": 0.6338439,
+      "epoch": 0.8366311516996449,
+      "grad_norm": 4.59375,
+      "learning_rate": 6.727628593905315e-06,
+      "loss": 1.66176434,
+      "memory(GiB)": 111.15,
+      "step": 32980,
+      "train_speed(iter/s)": 0.448256
+    },
+    {
+      "acc": 0.66152577,
+      "epoch": 0.83675799086758,
+      "grad_norm": 5.71875,
+      "learning_rate": 6.726644517725655e-06,
+      "loss": 1.63252106,
+      "memory(GiB)": 111.15,
+      "step": 32985,
+      "train_speed(iter/s)": 0.448291
+    },
+    {
+      "acc": 0.62931762,
+      "epoch": 0.836884830035515,
+      "grad_norm": 6.0,
+      "learning_rate": 6.725660365600462e-06,
+      "loss": 1.70414371,
+      "memory(GiB)": 111.15,
+      "step": 32990,
+      "train_speed(iter/s)": 0.448326
+    },
+    {
+      "acc": 0.63023186,
+      "epoch": 0.83701166920345,
+      "grad_norm": 5.96875,
+      "learning_rate": 6.724676137573021e-06,
+      "loss": 1.66071396,
+      "memory(GiB)": 111.15,
+      "step": 32995,
+      "train_speed(iter/s)": 0.448362
+    },
+    {
+      "acc": 0.62570782,
+      "epoch": 0.837138508371385,
+      "grad_norm": 6.78125,
+      "learning_rate": 6.723691833686622e-06,
+      "loss": 1.65840912,
+      "memory(GiB)": 111.15,
+      "step": 33000,
+      "train_speed(iter/s)": 0.448397
+    },
+    {
+      "epoch": 0.837138508371385,
+      "eval_acc": 0.6430942854863041,
+      "eval_loss": 1.6098781824111938,
+      "eval_runtime": 113.3463,
+      "eval_samples_per_second": 56.199,
+      "eval_steps_per_second": 28.1,
+      "step": 33000
+    },
+    {
+      "acc": 0.64703274,
+      "epoch": 0.8372653475393201,
+      "grad_norm": 6.84375,
+      "learning_rate": 6.722707453984561e-06,
+      "loss": 1.65039902,
+      "memory(GiB)": 111.15,
+      "step": 33005,
+      "train_speed(iter/s)": 0.447716
+    },
+    {
+      "acc": 0.66382532,
+      "epoch": 0.8373921867072552,
+      "grad_norm": 5.625,
+      "learning_rate": 6.721722998510135e-06,
+      "loss": 1.64579926,
+      "memory(GiB)": 111.15,
+      "step": 33010,
+      "train_speed(iter/s)": 0.44775
+    },
+    {
+      "acc": 0.65656996,
+      "epoch": 0.8375190258751902,
+      "grad_norm": 5.0,
+      "learning_rate": 6.720738467306644e-06,
+      "loss": 1.58595943,
+      "memory(GiB)": 111.15,
+      "step": 33015,
+      "train_speed(iter/s)": 0.447786
+    },
+    {
+      "acc": 0.65878968,
+      "epoch": 0.8376458650431253,
+      "grad_norm": 5.09375,
+      "learning_rate": 6.719753860417394e-06,
+      "loss": 1.65688725,
+      "memory(GiB)": 111.15,
+      "step": 33020,
+      "train_speed(iter/s)": 0.447821
+    },
+    {
+      "acc": 0.64140415,
+      "epoch": 0.8377727042110604,
+      "grad_norm": 6.0625,
+      "learning_rate": 6.718769177885689e-06,
+      "loss": 1.67757874,
+      "memory(GiB)": 111.15,
+      "step": 33025,
+      "train_speed(iter/s)": 0.447856
+    },
+    {
+      "acc": 0.67006321,
+      "epoch": 0.8378995433789954,
+      "grad_norm": 4.75,
+      "learning_rate": 6.717784419754845e-06,
+      "loss": 1.52639618,
+      "memory(GiB)": 111.15,
+      "step": 33030,
+      "train_speed(iter/s)": 0.447892
+    },
+    {
+      "acc": 0.65474906,
+      "epoch": 0.8380263825469305,
+      "grad_norm": 5.46875,
+      "learning_rate": 6.71679958606817e-06,
+      "loss": 1.5921545,
+      "memory(GiB)": 111.15,
+      "step": 33035,
+      "train_speed(iter/s)": 0.447927
+    },
+    {
+      "acc": 0.63418345,
+      "epoch": 0.8381532217148655,
+      "grad_norm": 5.46875,
+      "learning_rate": 6.715814676868985e-06,
+      "loss": 1.68496685,
+      "memory(GiB)": 111.15,
+      "step": 33040,
+      "train_speed(iter/s)": 0.447962
+    },
+    {
+      "acc": 0.63637309,
+      "epoch": 0.8382800608828006,
+      "grad_norm": 4.8125,
+      "learning_rate": 6.714829692200611e-06,
+      "loss": 1.69638748,
+      "memory(GiB)": 111.15,
+      "step": 33045,
+      "train_speed(iter/s)": 0.447997
+    },
+    {
+      "acc": 0.64222589,
+      "epoch": 0.8384069000507357,
+      "grad_norm": 7.03125,
+      "learning_rate": 6.71384463210637e-06,
+      "loss": 1.70058556,
+      "memory(GiB)": 111.15,
+      "step": 33050,
+      "train_speed(iter/s)": 0.448033
+    },
+    {
+      "acc": 0.64808073,
+      "epoch": 0.8385337392186707,
+      "grad_norm": 5.15625,
+      "learning_rate": 6.7128594966295904e-06,
+      "loss": 1.60938702,
+      "memory(GiB)": 111.15,
+      "step": 33055,
+      "train_speed(iter/s)": 0.448068
+    },
+    {
+      "acc": 0.65790215,
+      "epoch": 0.8386605783866058,
+      "grad_norm": 5.71875,
+      "learning_rate": 6.711874285813602e-06,
+      "loss": 1.59583702,
+      "memory(GiB)": 111.15,
+      "step": 33060,
+      "train_speed(iter/s)": 0.448104
+    },
+    {
+      "acc": 0.65777206,
+      "epoch": 0.8387874175545409,
+      "grad_norm": 4.65625,
+      "learning_rate": 6.710888999701741e-06,
+      "loss": 1.63709354,
+      "memory(GiB)": 111.15,
+      "step": 33065,
+      "train_speed(iter/s)": 0.448139
+    },
+    {
+      "acc": 0.66115046,
+      "epoch": 0.8389142567224759,
+      "grad_norm": 5.40625,
+      "learning_rate": 6.7099036383373425e-06,
+      "loss": 1.56979275,
+      "memory(GiB)": 111.15,
+      "step": 33070,
+      "train_speed(iter/s)": 0.448174
+    },
+    {
+      "acc": 0.64699354,
+      "epoch": 0.839041095890411,
+      "grad_norm": 5.34375,
+      "learning_rate": 6.708918201763748e-06,
+      "loss": 1.65200806,
+      "memory(GiB)": 111.15,
+      "step": 33075,
+      "train_speed(iter/s)": 0.448209
+    },
+    {
+      "acc": 0.65511065,
+      "epoch": 0.839167935058346,
+      "grad_norm": 4.875,
+      "learning_rate": 6.707932690024302e-06,
+      "loss": 1.6356308,
+      "memory(GiB)": 111.15,
+      "step": 33080,
+      "train_speed(iter/s)": 0.448244
+    },
+    {
+      "acc": 0.6490922,
+      "epoch": 0.8392947742262811,
+      "grad_norm": 5.40625,
+      "learning_rate": 6.706947103162348e-06,
+      "loss": 1.61149139,
+      "memory(GiB)": 111.15,
+      "step": 33085,
+      "train_speed(iter/s)": 0.448279
+    },
+    {
+      "acc": 0.65337124,
+      "epoch": 0.8394216133942162,
+      "grad_norm": 5.6875,
+      "learning_rate": 6.7059614412212425e-06,
+      "loss": 1.67223358,
+      "memory(GiB)": 111.15,
+      "step": 33090,
+      "train_speed(iter/s)": 0.448315
+    },
+    {
+      "acc": 0.65159082,
+      "epoch": 0.8395484525621512,
+      "grad_norm": 5.0625,
+      "learning_rate": 6.704975704244334e-06,
+      "loss": 1.62722168,
+      "memory(GiB)": 111.15,
+      "step": 33095,
+      "train_speed(iter/s)": 0.44835
+    },
+    {
+      "acc": 0.64347687,
+      "epoch": 0.8396752917300863,
+      "grad_norm": 5.28125,
+      "learning_rate": 6.703989892274985e-06,
+      "loss": 1.68422127,
+      "memory(GiB)": 111.15,
+      "step": 33100,
+      "train_speed(iter/s)": 0.448385
+    },
+    {
+      "epoch": 0.8396752917300863,
+      "eval_acc": 0.6430800813977826,
+      "eval_loss": 1.6098905801773071,
+      "eval_runtime": 115.2119,
+      "eval_samples_per_second": 55.289,
+      "eval_steps_per_second": 27.645,
+      "step": 33100
+    },
+    {
+      "acc": 0.6633316,
+      "epoch": 0.8398021308980214,
+      "grad_norm": 6.25,
+      "learning_rate": 6.703004005356549e-06,
+      "loss": 1.58559914,
+      "memory(GiB)": 111.15,
+      "step": 33105,
+      "train_speed(iter/s)": 0.447694
+    },
+    {
+      "acc": 0.62422762,
+      "epoch": 0.8399289700659563,
+      "grad_norm": 6.15625,
+      "learning_rate": 6.7020180435323965e-06,
+      "loss": 1.68098927,
+      "memory(GiB)": 111.15,
+      "step": 33110,
+      "train_speed(iter/s)": 0.447729
+    },
+    {
+      "acc": 0.62980299,
+      "epoch": 0.8400558092338914,
+      "grad_norm": 5.4375,
+      "learning_rate": 6.701032006845889e-06,
+      "loss": 1.66067467,
+      "memory(GiB)": 111.15,
+      "step": 33115,
+      "train_speed(iter/s)": 0.447764
+    },
+    {
+      "acc": 0.66773529,
+      "epoch": 0.8401826484018264,
+      "grad_norm": 5.78125,
+      "learning_rate": 6.700045895340401e-06,
+      "loss": 1.56850796,
+      "memory(GiB)": 111.15,
+      "step": 33120,
+      "train_speed(iter/s)": 0.447799
+    },
+    {
+      "acc": 0.64705577,
+      "epoch": 0.8403094875697615,
+      "grad_norm": 8.0,
+      "learning_rate": 6.699059709059304e-06,
+      "loss": 1.66024208,
+      "memory(GiB)": 111.15,
+      "step": 33125,
+      "train_speed(iter/s)": 0.447835
+    },
+    {
+      "acc": 0.66956596,
+      "epoch": 0.8404363267376966,
+      "grad_norm": 5.25,
+      "learning_rate": 6.698073448045975e-06,
+      "loss": 1.6202116,
+      "memory(GiB)": 111.15,
+      "step": 33130,
+      "train_speed(iter/s)": 0.44787
+    },
+    {
+      "acc": 0.66566906,
+      "epoch": 0.8405631659056316,
+      "grad_norm": 5.0625,
+      "learning_rate": 6.697087112343795e-06,
+      "loss": 1.55232964,
+      "memory(GiB)": 111.15,
+      "step": 33135,
+      "train_speed(iter/s)": 0.447906
+    },
+    {
+      "acc": 0.63859696,
+      "epoch": 0.8406900050735667,
+      "grad_norm": 5.8125,
+      "learning_rate": 6.696100701996146e-06,
+      "loss": 1.70770493,
+      "memory(GiB)": 111.15,
+      "step": 33140,
+      "train_speed(iter/s)": 0.447941
+    },
+    {
+      "acc": 0.65811925,
+      "epoch": 0.8408168442415018,
+      "grad_norm": 5.8125,
+      "learning_rate": 6.6951142170464164e-06,
+      "loss": 1.58993721,
+      "memory(GiB)": 111.15,
+      "step": 33145,
+      "train_speed(iter/s)": 0.447977
+    },
+    {
+      "acc": 0.64766684,
+      "epoch": 0.8409436834094368,
+      "grad_norm": 5.5625,
+      "learning_rate": 6.694127657537995e-06,
+      "loss": 1.64419041,
+      "memory(GiB)": 111.15,
+      "step": 33150,
+      "train_speed(iter/s)": 0.448012
+    },
+    {
+      "acc": 0.64497776,
+      "epoch": 0.8410705225773719,
+      "grad_norm": 4.9375,
+      "learning_rate": 6.693141023514276e-06,
+      "loss": 1.6223114,
+      "memory(GiB)": 111.15,
+      "step": 33155,
+      "train_speed(iter/s)": 0.448047
+    },
+    {
+      "acc": 0.64539342,
+      "epoch": 0.8411973617453069,
+      "grad_norm": 5.375,
+      "learning_rate": 6.6921543150186555e-06,
+      "loss": 1.65548916,
+      "memory(GiB)": 111.15,
+      "step": 33160,
+      "train_speed(iter/s)": 0.448082
+    },
+    {
+      "acc": 0.65835824,
+      "epoch": 0.841324200913242,
+      "grad_norm": 5.15625,
+      "learning_rate": 6.691167532094531e-06,
+      "loss": 1.61784248,
+      "memory(GiB)": 111.15,
+      "step": 33165,
+      "train_speed(iter/s)": 0.448118
+    },
+    {
+      "acc": 0.6581017,
+      "epoch": 0.8414510400811771,
+      "grad_norm": 7.03125,
+      "learning_rate": 6.690180674785311e-06,
+      "loss": 1.70589447,
+      "memory(GiB)": 111.15,
+      "step": 33170,
+      "train_speed(iter/s)": 0.448153
+    },
+    {
+      "acc": 0.63799458,
+      "epoch": 0.8415778792491121,
+      "grad_norm": 5.1875,
+      "learning_rate": 6.689193743134397e-06,
+      "loss": 1.63857613,
+      "memory(GiB)": 111.15,
+      "step": 33175,
+      "train_speed(iter/s)": 0.448188
+    },
+    {
+      "acc": 0.64314218,
+      "epoch": 0.8417047184170472,
+      "grad_norm": 5.90625,
+      "learning_rate": 6.688206737185201e-06,
+      "loss": 1.6137516,
+      "memory(GiB)": 111.15,
+      "step": 33180,
+      "train_speed(iter/s)": 0.448224
+    },
+    {
+      "acc": 0.64059944,
+      "epoch": 0.8418315575849823,
+      "grad_norm": 5.78125,
+      "learning_rate": 6.687219656981135e-06,
+      "loss": 1.61017551,
+      "memory(GiB)": 111.15,
+      "step": 33185,
+      "train_speed(iter/s)": 0.44826
+    },
+    {
+      "acc": 0.67158375,
+      "epoch": 0.8419583967529173,
+      "grad_norm": 5.625,
+      "learning_rate": 6.686232502565616e-06,
+      "loss": 1.59326458,
+      "memory(GiB)": 111.15,
+      "step": 33190,
+      "train_speed(iter/s)": 0.448295
+    },
+    {
+      "acc": 0.65127487,
+      "epoch": 0.8420852359208524,
+      "grad_norm": 5.34375,
+      "learning_rate": 6.685245273982063e-06,
+      "loss": 1.66372623,
+      "memory(GiB)": 111.15,
+      "step": 33195,
+      "train_speed(iter/s)": 0.44833
+    },
+    {
+      "acc": 0.63178692,
+      "epoch": 0.8422120750887874,
+      "grad_norm": 5.59375,
+      "learning_rate": 6.684257971273899e-06,
+      "loss": 1.72483921,
+      "memory(GiB)": 111.15,
+      "step": 33200,
+      "train_speed(iter/s)": 0.448366
+    },
+    {
+      "epoch": 0.8422120750887874,
+      "eval_acc": 0.6430345447610517,
+      "eval_loss": 1.6096926927566528,
+      "eval_runtime": 114.2875,
+      "eval_samples_per_second": 55.737,
+      "eval_steps_per_second": 27.868,
+      "step": 33200
+    },
+    {
+      "acc": 0.65709572,
+      "epoch": 0.8423389142567225,
+      "grad_norm": 4.9375,
+      "learning_rate": 6.68327059448455e-06,
+      "loss": 1.59193382,
+      "memory(GiB)": 111.15,
+      "step": 33205,
+      "train_speed(iter/s)": 0.447683
+    },
+    {
+      "acc": 0.66269197,
+      "epoch": 0.8424657534246576,
+      "grad_norm": 6.28125,
+      "learning_rate": 6.682283143657444e-06,
+      "loss": 1.57913322,
+      "memory(GiB)": 111.15,
+      "step": 33210,
+      "train_speed(iter/s)": 0.447717
+    },
+    {
+      "acc": 0.64450436,
+      "epoch": 0.8425925925925926,
+      "grad_norm": 7.59375,
+      "learning_rate": 6.681295618836015e-06,
+      "loss": 1.69801826,
+      "memory(GiB)": 111.15,
+      "step": 33215,
+      "train_speed(iter/s)": 0.447752
+    },
+    {
+      "acc": 0.63954353,
+      "epoch": 0.8427194317605277,
+      "grad_norm": 4.9375,
+      "learning_rate": 6.680308020063699e-06,
+      "loss": 1.61760445,
+      "memory(GiB)": 111.15,
+      "step": 33220,
+      "train_speed(iter/s)": 0.447787
+    },
+    {
+      "acc": 0.64750366,
+      "epoch": 0.8428462709284628,
+      "grad_norm": 5.71875,
+      "learning_rate": 6.679320347383933e-06,
+      "loss": 1.65201035,
+      "memory(GiB)": 111.15,
+      "step": 33225,
+      "train_speed(iter/s)": 0.447822
+    },
+    {
+      "acc": 0.65556054,
+      "epoch": 0.8429731100963977,
+      "grad_norm": 6.90625,
+      "learning_rate": 6.678332600840161e-06,
+      "loss": 1.64039726,
+      "memory(GiB)": 111.15,
+      "step": 33230,
+      "train_speed(iter/s)": 0.447858
+    },
+    {
+      "acc": 0.66262279,
+      "epoch": 0.8430999492643328,
+      "grad_norm": 5.21875,
+      "learning_rate": 6.677344780475827e-06,
+      "loss": 1.57748775,
+      "memory(GiB)": 111.15,
+      "step": 33235,
+      "train_speed(iter/s)": 0.447893
+    },
+    {
+      "acc": 0.66933451,
+      "epoch": 0.8432267884322678,
+      "grad_norm": 4.96875,
+      "learning_rate": 6.676356886334383e-06,
+      "loss": 1.58385143,
+      "memory(GiB)": 111.15,
+      "step": 33240,
+      "train_speed(iter/s)": 0.447929
+    },
+    {
+      "acc": 0.63872638,
+      "epoch": 0.8433536276002029,
+      "grad_norm": 5.78125,
+      "learning_rate": 6.675368918459276e-06,
+      "loss": 1.69033852,
+      "memory(GiB)": 111.15,
+      "step": 33245,
+      "train_speed(iter/s)": 0.447964
+    },
+    {
+      "acc": 0.66944065,
+      "epoch": 0.843480466768138,
+      "grad_norm": 5.03125,
+      "learning_rate": 6.674380876893967e-06,
+      "loss": 1.54368095,
+      "memory(GiB)": 111.15,
+      "step": 33250,
+      "train_speed(iter/s)": 0.447999
+    },
+    {
+      "acc": 0.65621281,
+      "epoch": 0.843607305936073,
+      "grad_norm": 6.625,
+      "learning_rate": 6.673392761681908e-06,
+      "loss": 1.58544693,
+      "memory(GiB)": 111.15,
+      "step": 33255,
+      "train_speed(iter/s)": 0.448034
+    },
+    {
+      "acc": 0.66579866,
+      "epoch": 0.8437341451040081,
+      "grad_norm": 4.75,
+      "learning_rate": 6.672404572866566e-06,
+      "loss": 1.56401043,
+      "memory(GiB)": 111.15,
+      "step": 33260,
+      "train_speed(iter/s)": 0.448069
+    },
+    {
+      "acc": 0.65932899,
+      "epoch": 0.8438609842719432,
+      "grad_norm": 4.875,
+      "learning_rate": 6.671416310491406e-06,
+      "loss": 1.54996433,
+      "memory(GiB)": 111.15,
+      "step": 33265,
+      "train_speed(iter/s)": 0.448104
+    },
+    {
+      "acc": 0.63654847,
+      "epoch": 0.8439878234398782,
+      "grad_norm": 5.09375,
+      "learning_rate": 6.670427974599891e-06,
+      "loss": 1.68755684,
+      "memory(GiB)": 111.15,
+      "step": 33270,
+      "train_speed(iter/s)": 0.448139
+    },
+    {
+      "acc": 0.65346222,
+      "epoch": 0.8441146626078133,
+      "grad_norm": 6.5625,
+      "learning_rate": 6.669439565235498e-06,
+      "loss": 1.66946735,
+      "memory(GiB)": 111.15,
+      "step": 33275,
+      "train_speed(iter/s)": 0.448174
+    },
+    {
+      "acc": 0.64862328,
+      "epoch": 0.8442415017757483,
+      "grad_norm": 5.625,
+      "learning_rate": 6.668451082441698e-06,
+      "loss": 1.65061588,
+      "memory(GiB)": 111.15,
+      "step": 33280,
+      "train_speed(iter/s)": 0.448209
+    },
+    {
+      "acc": 0.63458776,
+      "epoch": 0.8443683409436834,
+      "grad_norm": 5.21875,
+      "learning_rate": 6.667462526261972e-06,
+      "loss": 1.66292915,
+      "memory(GiB)": 111.15,
+      "step": 33285,
+      "train_speed(iter/s)": 0.448244
+    },
+    {
+      "acc": 0.65645447,
+      "epoch": 0.8444951801116185,
+      "grad_norm": 4.4375,
+      "learning_rate": 6.666473896739798e-06,
+      "loss": 1.60450363,
+      "memory(GiB)": 111.15,
+      "step": 33290,
+      "train_speed(iter/s)": 0.448279
+    },
+    {
+      "acc": 0.6568069,
+      "epoch": 0.8446220192795535,
+      "grad_norm": 5.46875,
+      "learning_rate": 6.665485193918663e-06,
+      "loss": 1.62272491,
+      "memory(GiB)": 111.15,
+      "step": 33295,
+      "train_speed(iter/s)": 0.448315
+    },
+    {
+      "acc": 0.63424015,
+      "epoch": 0.8447488584474886,
+      "grad_norm": 5.9375,
+      "learning_rate": 6.664496417842053e-06,
+      "loss": 1.64584999,
+      "memory(GiB)": 111.15,
+      "step": 33300,
+      "train_speed(iter/s)": 0.44835
+    },
+    {
+      "epoch": 0.8447488584474886,
+      "eval_acc": 0.6430863479074245,
+      "eval_loss": 1.6098783016204834,
+      "eval_runtime": 114.3274,
+      "eval_samples_per_second": 55.717,
+      "eval_steps_per_second": 27.859,
+      "step": 33300
+    },
+    {
+      "acc": 0.65417161,
+      "epoch": 0.8448756976154237,
+      "grad_norm": 4.5625,
+      "learning_rate": 6.6635075685534566e-06,
+      "loss": 1.59129286,
+      "memory(GiB)": 111.15,
+      "step": 33305,
+      "train_speed(iter/s)": 0.447668
+    },
+    {
+      "acc": 0.6417614,
+      "epoch": 0.8450025367833587,
+      "grad_norm": 6.09375,
+      "learning_rate": 6.662518646096374e-06,
+      "loss": 1.64797993,
+      "memory(GiB)": 111.15,
+      "step": 33310,
+      "train_speed(iter/s)": 0.447703
+    },
+    {
+      "acc": 0.64793053,
+      "epoch": 0.8451293759512938,
+      "grad_norm": 4.53125,
+      "learning_rate": 6.661529650514296e-06,
+      "loss": 1.62770519,
+      "memory(GiB)": 111.15,
+      "step": 33315,
+      "train_speed(iter/s)": 0.447738
+    },
+    {
+      "acc": 0.64082332,
+      "epoch": 0.8452562151192288,
+      "grad_norm": 4.84375,
+      "learning_rate": 6.6605405818507274e-06,
+      "loss": 1.66928177,
+      "memory(GiB)": 111.15,
+      "step": 33320,
+      "train_speed(iter/s)": 0.447773
+    },
+    {
+      "acc": 0.63929791,
+      "epoch": 0.8453830542871639,
+      "grad_norm": 5.5625,
+      "learning_rate": 6.659551440149169e-06,
+      "loss": 1.62811127,
+      "memory(GiB)": 111.15,
+      "step": 33325,
+      "train_speed(iter/s)": 0.447808
+    },
+    {
+      "acc": 0.65722704,
+      "epoch": 0.845509893455099,
+      "grad_norm": 5.71875,
+      "learning_rate": 6.65856222545313e-06,
+      "loss": 1.5611187,
+      "memory(GiB)": 111.15,
+      "step": 33330,
+      "train_speed(iter/s)": 0.447844
+    },
+    {
+      "acc": 0.65442138,
+      "epoch": 0.845636732623034,
+      "grad_norm": 4.40625,
+      "learning_rate": 6.657572937806118e-06,
+      "loss": 1.62152672,
+      "memory(GiB)": 111.15,
+      "step": 33335,
+      "train_speed(iter/s)": 0.44788
+    },
+    {
+      "acc": 0.66389108,
+      "epoch": 0.8457635717909691,
+      "grad_norm": 4.9375,
+      "learning_rate": 6.656583577251649e-06,
+      "loss": 1.52432976,
+      "memory(GiB)": 111.15,
+      "step": 33340,
+      "train_speed(iter/s)": 0.447915
+    },
+    {
+      "acc": 0.63178072,
+      "epoch": 0.8458904109589042,
+      "grad_norm": 4.75,
+      "learning_rate": 6.655594143833237e-06,
+      "loss": 1.70309944,
+      "memory(GiB)": 111.15,
+      "step": 33345,
+      "train_speed(iter/s)": 0.447951
+    },
+    {
+      "acc": 0.64744501,
+      "epoch": 0.8460172501268391,
+      "grad_norm": 5.21875,
+      "learning_rate": 6.654604637594404e-06,
+      "loss": 1.63489761,
+      "memory(GiB)": 111.15,
+      "step": 33350,
+      "train_speed(iter/s)": 0.447986
+    },
+    {
+      "acc": 0.64361839,
+      "epoch": 0.8461440892947742,
+      "grad_norm": 5.46875,
+      "learning_rate": 6.653615058578672e-06,
+      "loss": 1.67503853,
+      "memory(GiB)": 111.15,
+      "step": 33355,
+      "train_speed(iter/s)": 0.448021
+    },
+    {
+      "acc": 0.66781349,
+      "epoch": 0.8462709284627092,
+      "grad_norm": 5.3125,
+      "learning_rate": 6.652625406829566e-06,
+      "loss": 1.57780266,
+      "memory(GiB)": 111.15,
+      "step": 33360,
+      "train_speed(iter/s)": 0.448057
+    },
+    {
+      "acc": 0.65137467,
+      "epoch": 0.8463977676306443,
+      "grad_norm": 5.84375,
+      "learning_rate": 6.651635682390616e-06,
+      "loss": 1.62241669,
+      "memory(GiB)": 111.15,
+      "step": 33365,
+      "train_speed(iter/s)": 0.448093
+    },
+    {
+      "acc": 0.65866723,
+      "epoch": 0.8465246067985794,
+      "grad_norm": 5.6875,
+      "learning_rate": 6.650645885305356e-06,
+      "loss": 1.61662235,
+      "memory(GiB)": 111.15,
+      "step": 33370,
+      "train_speed(iter/s)": 0.448129
+    },
+    {
+      "acc": 0.63742476,
+      "epoch": 0.8466514459665144,
+      "grad_norm": 6.6875,
+      "learning_rate": 6.649656015617319e-06,
+      "loss": 1.70518875,
+      "memory(GiB)": 111.15,
+      "step": 33375,
+      "train_speed(iter/s)": 0.448164
+    },
+    {
+      "acc": 0.64194765,
+      "epoch": 0.8467782851344495,
+      "grad_norm": 4.375,
+      "learning_rate": 6.648666073370046e-06,
+      "loss": 1.59113159,
+      "memory(GiB)": 111.15,
+      "step": 33380,
+      "train_speed(iter/s)": 0.4482
+    },
+    {
+      "acc": 0.65195837,
+      "epoch": 0.8469051243023846,
+      "grad_norm": 4.84375,
+      "learning_rate": 6.647676058607076e-06,
+      "loss": 1.63477859,
+      "memory(GiB)": 111.15,
+      "step": 33385,
+      "train_speed(iter/s)": 0.448235
+    },
+    {
+      "acc": 0.64590721,
+      "epoch": 0.8470319634703196,
+      "grad_norm": 5.8125,
+      "learning_rate": 6.64668597137196e-06,
+      "loss": 1.6787796,
+      "memory(GiB)": 111.15,
+      "step": 33390,
+      "train_speed(iter/s)": 0.448271
+    },
+    {
+      "acc": 0.66143999,
+      "epoch": 0.8471588026382547,
+      "grad_norm": 6.40625,
+      "learning_rate": 6.645695811708241e-06,
+      "loss": 1.61696777,
+      "memory(GiB)": 111.15,
+      "step": 33395,
+      "train_speed(iter/s)": 0.448307
+    },
+    {
+      "acc": 0.66040993,
+      "epoch": 0.8472856418061897,
+      "grad_norm": 5.09375,
+      "learning_rate": 6.644705579659474e-06,
+      "loss": 1.63563118,
+      "memory(GiB)": 111.15,
+      "step": 33400,
+      "train_speed(iter/s)": 0.448343
+    },
+    {
+      "epoch": 0.8472856418061897,
+      "eval_acc": 0.6430157452321261,
+      "eval_loss": 1.6097849607467651,
+      "eval_runtime": 113.3956,
+      "eval_samples_per_second": 56.175,
+      "eval_steps_per_second": 28.088,
+      "step": 33400
+    },
+    {
+      "acc": 0.65127106,
+      "epoch": 0.8474124809741248,
+      "grad_norm": 6.25,
+      "learning_rate": 6.643715275269212e-06,
+      "loss": 1.62248077,
+      "memory(GiB)": 111.15,
+      "step": 33405,
+      "train_speed(iter/s)": 0.447669
+    },
+    {
+      "acc": 0.6492054,
+      "epoch": 0.8475393201420599,
+      "grad_norm": 5.9375,
+      "learning_rate": 6.642724898581013e-06,
+      "loss": 1.65614929,
+      "memory(GiB)": 111.15,
+      "step": 33410,
+      "train_speed(iter/s)": 0.447705
+    },
+    {
+      "acc": 0.66185493,
+      "epoch": 0.8476661593099949,
+      "grad_norm": 5.375,
+      "learning_rate": 6.6417344496384394e-06,
+      "loss": 1.63182945,
+      "memory(GiB)": 111.15,
+      "step": 33415,
+      "train_speed(iter/s)": 0.44774
+    },
+    {
+      "acc": 0.61915178,
+      "epoch": 0.84779299847793,
+      "grad_norm": 4.21875,
+      "learning_rate": 6.640743928485054e-06,
+      "loss": 1.69921913,
+      "memory(GiB)": 111.15,
+      "step": 33420,
+      "train_speed(iter/s)": 0.447776
+    },
+    {
+      "acc": 0.65246449,
+      "epoch": 0.8479198376458651,
+      "grad_norm": 7.71875,
+      "learning_rate": 6.639753335164426e-06,
+      "loss": 1.67973499,
+      "memory(GiB)": 111.15,
+      "step": 33425,
+      "train_speed(iter/s)": 0.447811
+    },
+    {
+      "acc": 0.6490746,
+      "epoch": 0.8480466768138001,
+      "grad_norm": 5.3125,
+      "learning_rate": 6.638762669720126e-06,
+      "loss": 1.61516972,
+      "memory(GiB)": 111.15,
+      "step": 33430,
+      "train_speed(iter/s)": 0.447846
+    },
+    {
+      "acc": 0.66500316,
+      "epoch": 0.8481735159817352,
+      "grad_norm": 5.9375,
+      "learning_rate": 6.637771932195726e-06,
+      "loss": 1.56462555,
+      "memory(GiB)": 111.15,
+      "step": 33435,
+      "train_speed(iter/s)": 0.447881
+    },
+    {
+      "acc": 0.67313681,
+      "epoch": 0.8483003551496702,
+      "grad_norm": 5.125,
+      "learning_rate": 6.636781122634804e-06,
+      "loss": 1.60113678,
+      "memory(GiB)": 111.15,
+      "step": 33440,
+      "train_speed(iter/s)": 0.447916
+    },
+    {
+      "acc": 0.67301178,
+      "epoch": 0.8484271943176053,
+      "grad_norm": 4.625,
+      "learning_rate": 6.635790241080941e-06,
+      "loss": 1.47054367,
+      "memory(GiB)": 111.15,
+      "step": 33445,
+      "train_speed(iter/s)": 0.447951
+    },
+    {
+      "acc": 0.6498107,
+      "epoch": 0.8485540334855404,
+      "grad_norm": 5.34375,
+      "learning_rate": 6.634799287577721e-06,
+      "loss": 1.61631012,
+      "memory(GiB)": 111.15,
+      "step": 33450,
+      "train_speed(iter/s)": 0.447986
+    },
+    {
+      "acc": 0.66294231,
+      "epoch": 0.8486808726534754,
+      "grad_norm": 5.9375,
+      "learning_rate": 6.6338082621687286e-06,
+      "loss": 1.56814537,
+      "memory(GiB)": 111.15,
+      "step": 33455,
+      "train_speed(iter/s)": 0.448021
+    },
+    {
+      "acc": 0.64329062,
+      "epoch": 0.8488077118214105,
+      "grad_norm": 7.4375,
+      "learning_rate": 6.6328171648975545e-06,
+      "loss": 1.71611786,
+      "memory(GiB)": 111.15,
+      "step": 33460,
+      "train_speed(iter/s)": 0.448056
+    },
+    {
+      "acc": 0.66428714,
+      "epoch": 0.8489345509893456,
+      "grad_norm": 5.65625,
+      "learning_rate": 6.63182599580779e-06,
+      "loss": 1.579842,
+      "memory(GiB)": 111.15,
+      "step": 33465,
+      "train_speed(iter/s)": 0.448091
+    },
+    {
+      "acc": 0.65501623,
+      "epoch": 0.8490613901572805,
+      "grad_norm": 5.0,
+      "learning_rate": 6.630834754943036e-06,
+      "loss": 1.61677361,
+      "memory(GiB)": 111.15,
+      "step": 33470,
+      "train_speed(iter/s)": 0.448126
+    },
+    {
+      "acc": 0.65107756,
+      "epoch": 0.8491882293252156,
+      "grad_norm": 6.03125,
+      "learning_rate": 6.629843442346886e-06,
+      "loss": 1.62601814,
+      "memory(GiB)": 111.15,
+      "step": 33475,
+      "train_speed(iter/s)": 0.448162
+    },
+    {
+      "acc": 0.65384941,
+      "epoch": 0.8493150684931506,
+      "grad_norm": 6.125,
+      "learning_rate": 6.628852058062944e-06,
+      "loss": 1.64040565,
+      "memory(GiB)": 111.15,
+      "step": 33480,
+      "train_speed(iter/s)": 0.448197
+    },
+    {
+      "acc": 0.62846069,
+      "epoch": 0.8494419076610857,
+      "grad_norm": 4.84375,
+      "learning_rate": 6.627860602134818e-06,
+      "loss": 1.75492535,
+      "memory(GiB)": 111.15,
+      "step": 33485,
+      "train_speed(iter/s)": 0.448232
+    },
+    {
+      "acc": 0.63784924,
+      "epoch": 0.8495687468290208,
+      "grad_norm": 4.75,
+      "learning_rate": 6.626869074606113e-06,
+      "loss": 1.6860321,
+      "memory(GiB)": 111.15,
+      "step": 33490,
+      "train_speed(iter/s)": 0.448268
+    },
+    {
+      "acc": 0.6329545,
+      "epoch": 0.8496955859969558,
+      "grad_norm": 5.0625,
+      "learning_rate": 6.625877475520445e-06,
+      "loss": 1.69934692,
+      "memory(GiB)": 111.15,
+      "step": 33495,
+      "train_speed(iter/s)": 0.448303
+    },
+    {
+      "acc": 0.66101437,
+      "epoch": 0.8498224251648909,
+      "grad_norm": 5.46875,
+      "learning_rate": 6.624885804921425e-06,
+      "loss": 1.53357592,
+      "memory(GiB)": 111.15,
+      "step": 33500,
+      "train_speed(iter/s)": 0.448339
+    },
+    {
+      "epoch": 0.8498224251648909,
+      "eval_acc": 0.6430236828110059,
+      "eval_loss": 1.6096959114074707,
+      "eval_runtime": 113.2397,
+      "eval_samples_per_second": 56.252,
+      "eval_steps_per_second": 28.126,
+      "step": 33500
+    },
+    {
+      "acc": 0.65558043,
+      "epoch": 0.849949264332826,
+      "grad_norm": 6.40625,
+      "learning_rate": 6.623894062852673e-06,
+      "loss": 1.58202248,
+      "memory(GiB)": 111.15,
+      "step": 33505,
+      "train_speed(iter/s)": 0.447668
+    },
+    {
+      "acc": 0.67567086,
+      "epoch": 0.850076103500761,
+      "grad_norm": 4.59375,
+      "learning_rate": 6.62290224935781e-06,
+      "loss": 1.55376205,
+      "memory(GiB)": 111.15,
+      "step": 33510,
+      "train_speed(iter/s)": 0.447703
+    },
+    {
+      "acc": 0.65079336,
+      "epoch": 0.8502029426686961,
+      "grad_norm": 4.375,
+      "learning_rate": 6.621910364480461e-06,
+      "loss": 1.61496696,
+      "memory(GiB)": 111.15,
+      "step": 33515,
+      "train_speed(iter/s)": 0.447739
+    },
+    {
+      "acc": 0.65058041,
+      "epoch": 0.8503297818366311,
+      "grad_norm": 5.5625,
+      "learning_rate": 6.620918408264252e-06,
+      "loss": 1.66228218,
+      "memory(GiB)": 111.15,
+      "step": 33520,
+      "train_speed(iter/s)": 0.447774
+    },
+    {
+      "acc": 0.63595057,
+      "epoch": 0.8504566210045662,
+      "grad_norm": 5.09375,
+      "learning_rate": 6.6199263807528136e-06,
+      "loss": 1.70064678,
+      "memory(GiB)": 111.15,
+      "step": 33525,
+      "train_speed(iter/s)": 0.447809
+    },
+    {
+      "acc": 0.65302148,
+      "epoch": 0.8505834601725013,
+      "grad_norm": 5.53125,
+      "learning_rate": 6.618934281989783e-06,
+      "loss": 1.65606384,
+      "memory(GiB)": 111.15,
+      "step": 33530,
+      "train_speed(iter/s)": 0.447845
+    },
+    {
+      "acc": 0.64750624,
+      "epoch": 0.8507102993404363,
+      "grad_norm": 5.21875,
+      "learning_rate": 6.6179421120187915e-06,
+      "loss": 1.58632927,
+      "memory(GiB)": 111.15,
+      "step": 33535,
+      "train_speed(iter/s)": 0.44788
+    },
+    {
+      "acc": 0.66727066,
+      "epoch": 0.8508371385083714,
+      "grad_norm": 5.46875,
+      "learning_rate": 6.616949870883486e-06,
+      "loss": 1.54287758,
+      "memory(GiB)": 111.15,
+      "step": 33540,
+      "train_speed(iter/s)": 0.447915
+    },
+    {
+      "acc": 0.64481211,
+      "epoch": 0.8509639776763065,
+      "grad_norm": 5.9375,
+      "learning_rate": 6.615957558627503e-06,
+      "loss": 1.68597183,
+      "memory(GiB)": 111.15,
+      "step": 33545,
+      "train_speed(iter/s)": 0.447951
+    },
+    {
+      "acc": 0.65548801,
+      "epoch": 0.8510908168442415,
+      "grad_norm": 5.59375,
+      "learning_rate": 6.6149651752944945e-06,
+      "loss": 1.60086823,
+      "memory(GiB)": 111.15,
+      "step": 33550,
+      "train_speed(iter/s)": 0.447986
+    },
+    {
+      "acc": 0.64369044,
+      "epoch": 0.8512176560121766,
+      "grad_norm": 5.625,
+      "learning_rate": 6.613972720928105e-06,
+      "loss": 1.64105549,
+      "memory(GiB)": 111.15,
+      "step": 33555,
+      "train_speed(iter/s)": 0.448022
+    },
+    {
+      "acc": 0.65047326,
+      "epoch": 0.8513444951801116,
+      "grad_norm": 6.25,
+      "learning_rate": 6.61298019557199e-06,
+      "loss": 1.59020205,
+      "memory(GiB)": 111.15,
+      "step": 33560,
+      "train_speed(iter/s)": 0.448057
+    },
+    {
+      "acc": 0.67222328,
+      "epoch": 0.8514713343480467,
+      "grad_norm": 4.71875,
+      "learning_rate": 6.6119875992698045e-06,
+      "loss": 1.54036808,
+      "memory(GiB)": 111.15,
+      "step": 33565,
+      "train_speed(iter/s)": 0.448092
+    },
+    {
+      "acc": 0.65799875,
+      "epoch": 0.8515981735159818,
+      "grad_norm": 5.65625,
+      "learning_rate": 6.610994932065207e-06,
+      "loss": 1.5938921,
+      "memory(GiB)": 111.15,
+      "step": 33570,
+      "train_speed(iter/s)": 0.448128
+    },
+    {
+      "acc": 0.6477354,
+      "epoch": 0.8517250126839168,
+      "grad_norm": 5.46875,
+      "learning_rate": 6.610002194001861e-06,
+      "loss": 1.65589218,
+      "memory(GiB)": 111.15,
+      "step": 33575,
+      "train_speed(iter/s)": 0.448163
+    },
+    {
+      "acc": 0.65947609,
+      "epoch": 0.8518518518518519,
+      "grad_norm": 5.6875,
+      "learning_rate": 6.609009385123429e-06,
+      "loss": 1.54161491,
+      "memory(GiB)": 111.15,
+      "step": 33580,
+      "train_speed(iter/s)": 0.448198
+    },
+    {
+      "acc": 0.65867071,
+      "epoch": 0.851978691019787,
+      "grad_norm": 5.3125,
+      "learning_rate": 6.608016505473582e-06,
+      "loss": 1.628088,
+      "memory(GiB)": 111.15,
+      "step": 33585,
+      "train_speed(iter/s)": 0.448234
+    },
+    {
+      "acc": 0.64496975,
+      "epoch": 0.852105530187722,
+      "grad_norm": 5.8125,
+      "learning_rate": 6.60702355509599e-06,
+      "loss": 1.63381042,
+      "memory(GiB)": 111.15,
+      "step": 33590,
+      "train_speed(iter/s)": 0.448269
+    },
+    {
+      "acc": 0.65399361,
+      "epoch": 0.852232369355657,
+      "grad_norm": 4.90625,
+      "learning_rate": 6.606030534034326e-06,
+      "loss": 1.64799538,
+      "memory(GiB)": 111.15,
+      "step": 33595,
+      "train_speed(iter/s)": 0.448305
+    },
+    {
+      "acc": 0.64432917,
+      "epoch": 0.852359208523592,
+      "grad_norm": 5.03125,
+      "learning_rate": 6.6050374423322685e-06,
+      "loss": 1.68717976,
+      "memory(GiB)": 111.15,
+      "step": 33600,
+      "train_speed(iter/s)": 0.44834
+    },
+    {
+      "epoch": 0.852359208523592,
+      "eval_acc": 0.6430491666168827,
+      "eval_loss": 1.6097373962402344,
+      "eval_runtime": 113.468,
+      "eval_samples_per_second": 56.139,
+      "eval_steps_per_second": 28.07,
+      "step": 33600
+    },
+    {
+      "acc": 0.63243098,
+      "epoch": 0.8524860476915271,
+      "grad_norm": 5.875,
+      "learning_rate": 6.604044280033498e-06,
+      "loss": 1.685812,
+      "memory(GiB)": 111.15,
+      "step": 33605,
+      "train_speed(iter/s)": 0.44767
+    },
+    {
+      "acc": 0.64197149,
+      "epoch": 0.8526128868594622,
+      "grad_norm": 6.25,
+      "learning_rate": 6.6030510471817e-06,
+      "loss": 1.6759449,
+      "memory(GiB)": 111.15,
+      "step": 33610,
+      "train_speed(iter/s)": 0.447706
+    },
+    {
+      "acc": 0.63028383,
+      "epoch": 0.8527397260273972,
+      "grad_norm": 4.84375,
+      "learning_rate": 6.602057743820558e-06,
+      "loss": 1.7353054,
+      "memory(GiB)": 111.15,
+      "step": 33615,
+      "train_speed(iter/s)": 0.447741
+    },
+    {
+      "acc": 0.66099129,
+      "epoch": 0.8528665651953323,
+      "grad_norm": 7.625,
+      "learning_rate": 6.601064369993766e-06,
+      "loss": 1.55387506,
+      "memory(GiB)": 111.15,
+      "step": 33620,
+      "train_speed(iter/s)": 0.447776
+    },
+    {
+      "acc": 0.64724174,
+      "epoch": 0.8529934043632674,
+      "grad_norm": 4.9375,
+      "learning_rate": 6.600070925745012e-06,
+      "loss": 1.62212868,
+      "memory(GiB)": 111.15,
+      "step": 33625,
+      "train_speed(iter/s)": 0.447811
+    },
+    {
+      "acc": 0.64514408,
+      "epoch": 0.8531202435312024,
+      "grad_norm": 5.46875,
+      "learning_rate": 6.599077411117998e-06,
+      "loss": 1.67097015,
+      "memory(GiB)": 111.15,
+      "step": 33630,
+      "train_speed(iter/s)": 0.447846
+    },
+    {
+      "acc": 0.66402731,
+      "epoch": 0.8532470826991375,
+      "grad_norm": 5.1875,
+      "learning_rate": 6.598083826156418e-06,
+      "loss": 1.56577082,
+      "memory(GiB)": 111.15,
+      "step": 33635,
+      "train_speed(iter/s)": 0.447882
+    },
+    {
+      "acc": 0.65487385,
+      "epoch": 0.8533739218670725,
+      "grad_norm": 5.21875,
+      "learning_rate": 6.597090170903977e-06,
+      "loss": 1.63060265,
+      "memory(GiB)": 111.15,
+      "step": 33640,
+      "train_speed(iter/s)": 0.447917
+    },
+    {
+      "acc": 0.64574356,
+      "epoch": 0.8535007610350076,
+      "grad_norm": 7.0,
+      "learning_rate": 6.596096445404381e-06,
+      "loss": 1.62216644,
+      "memory(GiB)": 111.15,
+      "step": 33645,
+      "train_speed(iter/s)": 0.447952
+    },
+    {
+      "acc": 0.64172659,
+      "epoch": 0.8536276002029427,
+      "grad_norm": 5.21875,
+      "learning_rate": 6.595102649701336e-06,
+      "loss": 1.65510178,
+      "memory(GiB)": 111.15,
+      "step": 33650,
+      "train_speed(iter/s)": 0.447988
+    },
+    {
+      "acc": 0.64771619,
+      "epoch": 0.8537544393708777,
+      "grad_norm": 5.1875,
+      "learning_rate": 6.5941087838385545e-06,
+      "loss": 1.62130165,
+      "memory(GiB)": 111.15,
+      "step": 33655,
+      "train_speed(iter/s)": 0.448023
+    },
+    {
+      "acc": 0.66473866,
+      "epoch": 0.8538812785388128,
+      "grad_norm": 5.25,
+      "learning_rate": 6.593114847859752e-06,
+      "loss": 1.58470669,
+      "memory(GiB)": 111.15,
+      "step": 33660,
+      "train_speed(iter/s)": 0.448059
+    },
+    {
+      "acc": 0.64592905,
+      "epoch": 0.8540081177067479,
+      "grad_norm": 6.90625,
+      "learning_rate": 6.592120841808646e-06,
+      "loss": 1.67211609,
+      "memory(GiB)": 111.15,
+      "step": 33665,
+      "train_speed(iter/s)": 0.448094
+    },
+    {
+      "acc": 0.65438709,
+      "epoch": 0.8541349568746829,
+      "grad_norm": 4.90625,
+      "learning_rate": 6.5911267657289564e-06,
+      "loss": 1.60621834,
+      "memory(GiB)": 111.15,
+      "step": 33670,
+      "train_speed(iter/s)": 0.448129
+    },
+    {
+      "acc": 0.64332075,
+      "epoch": 0.854261796042618,
+      "grad_norm": 4.71875,
+      "learning_rate": 6.590132619664408e-06,
+      "loss": 1.61449375,
+      "memory(GiB)": 111.15,
+      "step": 33675,
+      "train_speed(iter/s)": 0.448164
+    },
+    {
+      "acc": 0.66235428,
+      "epoch": 0.854388635210553,
+      "grad_norm": 4.8125,
+      "learning_rate": 6.589138403658728e-06,
+      "loss": 1.59146252,
+      "memory(GiB)": 111.15,
+      "step": 33680,
+      "train_speed(iter/s)": 0.448199
+    },
+    {
+      "acc": 0.63562546,
+      "epoch": 0.8545154743784881,
+      "grad_norm": 5.34375,
+      "learning_rate": 6.588144117755645e-06,
+      "loss": 1.69099464,
+      "memory(GiB)": 111.15,
+      "step": 33685,
+      "train_speed(iter/s)": 0.448233
+    },
+    {
+      "acc": 0.6595715,
+      "epoch": 0.8546423135464232,
+      "grad_norm": 5.875,
+      "learning_rate": 6.5871497619988945e-06,
+      "loss": 1.62001686,
+      "memory(GiB)": 111.15,
+      "step": 33690,
+      "train_speed(iter/s)": 0.448269
+    },
+    {
+      "acc": 0.63432779,
+      "epoch": 0.8547691527143582,
+      "grad_norm": 4.9375,
+      "learning_rate": 6.586155336432211e-06,
+      "loss": 1.66417141,
+      "memory(GiB)": 111.15,
+      "step": 33695,
+      "train_speed(iter/s)": 0.448304
+    },
+    {
+      "acc": 0.66260719,
+      "epoch": 0.8548959918822933,
+      "grad_norm": 4.71875,
+      "learning_rate": 6.585160841099333e-06,
+      "loss": 1.53961687,
+      "memory(GiB)": 111.15,
+      "step": 33700,
+      "train_speed(iter/s)": 0.448339
+    },
+    {
+      "epoch": 0.8548959918822933,
+      "eval_acc": 0.6430299493206477,
+      "eval_loss": 1.6098220348358154,
+      "eval_runtime": 114.0828,
+      "eval_samples_per_second": 55.837,
+      "eval_steps_per_second": 27.918,
+      "step": 33700
+    },
+    {
+      "acc": 0.65671787,
+      "epoch": 0.8550228310502284,
+      "grad_norm": 5.46875,
+      "learning_rate": 6.584166276044005e-06,
+      "loss": 1.62164822,
+      "memory(GiB)": 111.15,
+      "step": 33705,
+      "train_speed(iter/s)": 0.447666
+    },
+    {
+      "acc": 0.63920784,
+      "epoch": 0.8551496702181633,
+      "grad_norm": 4.4375,
+      "learning_rate": 6.583171641309971e-06,
+      "loss": 1.68052139,
+      "memory(GiB)": 111.15,
+      "step": 33710,
+      "train_speed(iter/s)": 0.447701
+    },
+    {
+      "acc": 0.65373049,
+      "epoch": 0.8552765093860984,
+      "grad_norm": 6.09375,
+      "learning_rate": 6.58217693694098e-06,
+      "loss": 1.58439808,
+      "memory(GiB)": 111.15,
+      "step": 33715,
+      "train_speed(iter/s)": 0.447736
+    },
+    {
+      "acc": 0.6487236,
+      "epoch": 0.8554033485540334,
+      "grad_norm": 5.84375,
+      "learning_rate": 6.581182162980784e-06,
+      "loss": 1.60790405,
+      "memory(GiB)": 111.15,
+      "step": 33720,
+      "train_speed(iter/s)": 0.44777
+    },
+    {
+      "acc": 0.63687,
+      "epoch": 0.8555301877219685,
+      "grad_norm": 4.84375,
+      "learning_rate": 6.580187319473137e-06,
+      "loss": 1.69592552,
+      "memory(GiB)": 111.15,
+      "step": 33725,
+      "train_speed(iter/s)": 0.447805
+    },
+    {
+      "acc": 0.63249493,
+      "epoch": 0.8556570268899036,
+      "grad_norm": 5.0625,
+      "learning_rate": 6.579192406461796e-06,
+      "loss": 1.68351135,
+      "memory(GiB)": 111.15,
+      "step": 33730,
+      "train_speed(iter/s)": 0.44784
+    },
+    {
+      "acc": 0.64201794,
+      "epoch": 0.8557838660578386,
+      "grad_norm": 6.25,
+      "learning_rate": 6.5781974239905225e-06,
+      "loss": 1.69529018,
+      "memory(GiB)": 111.15,
+      "step": 33735,
+      "train_speed(iter/s)": 0.447874
+    },
+    {
+      "acc": 0.63101611,
+      "epoch": 0.8559107052257737,
+      "grad_norm": 6.03125,
+      "learning_rate": 6.57720237210308e-06,
+      "loss": 1.64155407,
+      "memory(GiB)": 111.15,
+      "step": 33740,
+      "train_speed(iter/s)": 0.44791
+    },
+    {
+      "acc": 0.6413847,
+      "epoch": 0.8560375443937088,
+      "grad_norm": 5.78125,
+      "learning_rate": 6.576207250843235e-06,
+      "loss": 1.60753651,
+      "memory(GiB)": 111.15,
+      "step": 33745,
+      "train_speed(iter/s)": 0.447945
+    },
+    {
+      "acc": 0.66926622,
+      "epoch": 0.8561643835616438,
+      "grad_norm": 5.0625,
+      "learning_rate": 6.575212060254759e-06,
+      "loss": 1.5810626,
+      "memory(GiB)": 111.15,
+      "step": 33750,
+      "train_speed(iter/s)": 0.447979
+    },
+    {
+      "acc": 0.65662031,
+      "epoch": 0.8562912227295789,
+      "grad_norm": 4.96875,
+      "learning_rate": 6.574216800381424e-06,
+      "loss": 1.6521246,
+      "memory(GiB)": 111.15,
+      "step": 33755,
+      "train_speed(iter/s)": 0.448014
+    },
+    {
+      "acc": 0.65657015,
+      "epoch": 0.8564180618975139,
+      "grad_norm": 6.21875,
+      "learning_rate": 6.573221471267005e-06,
+      "loss": 1.55959435,
+      "memory(GiB)": 111.15,
+      "step": 33760,
+      "train_speed(iter/s)": 0.448049
+    },
+    {
+      "acc": 0.65175214,
+      "epoch": 0.856544901065449,
+      "grad_norm": 4.78125,
+      "learning_rate": 6.572226072955281e-06,
+      "loss": 1.62210617,
+      "memory(GiB)": 111.15,
+      "step": 33765,
+      "train_speed(iter/s)": 0.448084
+    },
+    {
+      "acc": 0.67082224,
+      "epoch": 0.8566717402333841,
+      "grad_norm": 6.09375,
+      "learning_rate": 6.571230605490036e-06,
+      "loss": 1.56718063,
+      "memory(GiB)": 111.15,
+      "step": 33770,
+      "train_speed(iter/s)": 0.448119
+    },
+    {
+      "acc": 0.66851468,
+      "epoch": 0.8567985794013191,
+      "grad_norm": 5.5,
+      "learning_rate": 6.570235068915053e-06,
+      "loss": 1.55819979,
+      "memory(GiB)": 111.15,
+      "step": 33775,
+      "train_speed(iter/s)": 0.448154
+    },
+    {
+      "acc": 0.64724255,
+      "epoch": 0.8569254185692542,
+      "grad_norm": 5.21875,
+      "learning_rate": 6.569239463274122e-06,
+      "loss": 1.67202682,
+      "memory(GiB)": 111.15,
+      "step": 33780,
+      "train_speed(iter/s)": 0.448189
+    },
+    {
+      "acc": 0.63582888,
+      "epoch": 0.8570522577371893,
+      "grad_norm": 4.5,
+      "learning_rate": 6.568243788611033e-06,
+      "loss": 1.62125702,
+      "memory(GiB)": 111.15,
+      "step": 33785,
+      "train_speed(iter/s)": 0.448223
+    },
+    {
+      "acc": 0.65640116,
+      "epoch": 0.8571790969051243,
+      "grad_norm": 4.65625,
+      "learning_rate": 6.56724804496958e-06,
+      "loss": 1.59647884,
+      "memory(GiB)": 111.15,
+      "step": 33790,
+      "train_speed(iter/s)": 0.448258
+    },
+    {
+      "acc": 0.64559865,
+      "epoch": 0.8573059360730594,
+      "grad_norm": 4.59375,
+      "learning_rate": 6.566252232393561e-06,
+      "loss": 1.63756351,
+      "memory(GiB)": 111.15,
+      "step": 33795,
+      "train_speed(iter/s)": 0.448293
+    },
+    {
+      "acc": 0.65920854,
+      "epoch": 0.8574327752409944,
+      "grad_norm": 4.84375,
+      "learning_rate": 6.565256350926777e-06,
+      "loss": 1.59970531,
+      "memory(GiB)": 111.15,
+      "step": 33800,
+      "train_speed(iter/s)": 0.448328
+    },
+    {
+      "epoch": 0.8574327752409944,
+      "eval_acc": 0.643090525580519,
+      "eval_loss": 1.6096980571746826,
+      "eval_runtime": 113.8806,
+      "eval_samples_per_second": 55.936,
+      "eval_steps_per_second": 27.968,
+      "step": 33800
+    },
+    {
+      "acc": 0.66458426,
+      "epoch": 0.8575596144089295,
+      "grad_norm": 4.59375,
+      "learning_rate": 6.5642604006130286e-06,
+      "loss": 1.55669985,
+      "memory(GiB)": 111.15,
+      "step": 33805,
+      "train_speed(iter/s)": 0.44766
+    },
+    {
+      "acc": 0.64524298,
+      "epoch": 0.8576864535768646,
+      "grad_norm": 4.78125,
+      "learning_rate": 6.563264381496124e-06,
+      "loss": 1.7032629,
+      "memory(GiB)": 111.15,
+      "step": 33810,
+      "train_speed(iter/s)": 0.447694
+    },
+    {
+      "acc": 0.6447608,
+      "epoch": 0.8578132927447996,
+      "grad_norm": 7.46875,
+      "learning_rate": 6.562268293619872e-06,
+      "loss": 1.70825539,
+      "memory(GiB)": 111.15,
+      "step": 33815,
+      "train_speed(iter/s)": 0.447729
+    },
+    {
+      "acc": 0.6517633,
+      "epoch": 0.8579401319127347,
+      "grad_norm": 5.6875,
+      "learning_rate": 6.561272137028089e-06,
+      "loss": 1.63892555,
+      "memory(GiB)": 111.15,
+      "step": 33820,
+      "train_speed(iter/s)": 0.447764
+    },
+    {
+      "acc": 0.6431633,
+      "epoch": 0.8580669710806698,
+      "grad_norm": 5.34375,
+      "learning_rate": 6.560275911764582e-06,
+      "loss": 1.59136581,
+      "memory(GiB)": 111.15,
+      "step": 33825,
+      "train_speed(iter/s)": 0.447799
+    },
+    {
+      "acc": 0.65595384,
+      "epoch": 0.8581938102486047,
+      "grad_norm": 5.8125,
+      "learning_rate": 6.5592796178731776e-06,
+      "loss": 1.62723656,
+      "memory(GiB)": 111.15,
+      "step": 33830,
+      "train_speed(iter/s)": 0.447834
+    },
+    {
+      "acc": 0.63395481,
+      "epoch": 0.8583206494165398,
+      "grad_norm": 4.875,
+      "learning_rate": 6.5582832553976924e-06,
+      "loss": 1.62815971,
+      "memory(GiB)": 111.15,
+      "step": 33835,
+      "train_speed(iter/s)": 0.447869
+    },
+    {
+      "acc": 0.66568928,
+      "epoch": 0.8584474885844748,
+      "grad_norm": 4.5,
+      "learning_rate": 6.557286824381955e-06,
+      "loss": 1.5772296,
+      "memory(GiB)": 111.15,
+      "step": 33840,
+      "train_speed(iter/s)": 0.447904
+    },
+    {
+      "acc": 0.65601931,
+      "epoch": 0.8585743277524099,
+      "grad_norm": 6.71875,
+      "learning_rate": 6.556290324869786e-06,
+      "loss": 1.64466362,
+      "memory(GiB)": 111.15,
+      "step": 33845,
+      "train_speed(iter/s)": 0.447938
+    },
+    {
+      "acc": 0.65988665,
+      "epoch": 0.858701166920345,
+      "grad_norm": 5.21875,
+      "learning_rate": 6.555293756905024e-06,
+      "loss": 1.59397125,
+      "memory(GiB)": 111.15,
+      "step": 33850,
+      "train_speed(iter/s)": 0.447973
+    },
+    {
+      "acc": 0.65314541,
+      "epoch": 0.85882800608828,
+      "grad_norm": 4.90625,
+      "learning_rate": 6.554297120531497e-06,
+      "loss": 1.53464174,
+      "memory(GiB)": 111.15,
+      "step": 33855,
+      "train_speed(iter/s)": 0.448008
+    },
+    {
+      "acc": 0.64250631,
+      "epoch": 0.8589548452562151,
+      "grad_norm": 4.46875,
+      "learning_rate": 6.553300415793042e-06,
+      "loss": 1.65261078,
+      "memory(GiB)": 111.15,
+      "step": 33860,
+      "train_speed(iter/s)": 0.448042
+    },
+    {
+      "acc": 0.64237485,
+      "epoch": 0.8590816844241502,
+      "grad_norm": 4.96875,
+      "learning_rate": 6.552303642733502e-06,
+      "loss": 1.64660168,
+      "memory(GiB)": 111.15,
+      "step": 33865,
+      "train_speed(iter/s)": 0.448077
+    },
+    {
+      "acc": 0.65425329,
+      "epoch": 0.8592085235920852,
+      "grad_norm": 5.0625,
+      "learning_rate": 6.551306801396715e-06,
+      "loss": 1.64215279,
+      "memory(GiB)": 111.15,
+      "step": 33870,
+      "train_speed(iter/s)": 0.448112
+    },
+    {
+      "acc": 0.64815531,
+      "epoch": 0.8593353627600203,
+      "grad_norm": 5.375,
+      "learning_rate": 6.550309891826531e-06,
+      "loss": 1.57700758,
+      "memory(GiB)": 111.15,
+      "step": 33875,
+      "train_speed(iter/s)": 0.448147
+    },
+    {
+      "acc": 0.64734631,
+      "epoch": 0.8594622019279553,
+      "grad_norm": 5.75,
+      "learning_rate": 6.5493129140667955e-06,
+      "loss": 1.60265007,
+      "memory(GiB)": 111.15,
+      "step": 33880,
+      "train_speed(iter/s)": 0.448182
+    },
+    {
+      "acc": 0.63714714,
+      "epoch": 0.8595890410958904,
+      "grad_norm": 6.375,
+      "learning_rate": 6.54831586816136e-06,
+      "loss": 1.6706707,
+      "memory(GiB)": 111.15,
+      "step": 33885,
+      "train_speed(iter/s)": 0.448217
+    },
+    {
+      "acc": 0.65309372,
+      "epoch": 0.8597158802638255,
+      "grad_norm": 5.25,
+      "learning_rate": 6.54731875415408e-06,
+      "loss": 1.61687813,
+      "memory(GiB)": 111.15,
+      "step": 33890,
+      "train_speed(iter/s)": 0.448252
+    },
+    {
+      "acc": 0.65954657,
+      "epoch": 0.8598427194317605,
+      "grad_norm": 4.46875,
+      "learning_rate": 6.546321572088814e-06,
+      "loss": 1.57327976,
+      "memory(GiB)": 111.15,
+      "step": 33895,
+      "train_speed(iter/s)": 0.448286
+    },
+    {
+      "acc": 0.64983215,
+      "epoch": 0.8599695585996956,
+      "grad_norm": 5.03125,
+      "learning_rate": 6.545324322009421e-06,
+      "loss": 1.66807709,
+      "memory(GiB)": 111.15,
+      "step": 33900,
+      "train_speed(iter/s)": 0.448321
+    },
+    {
+      "epoch": 0.8599695585996956,
+      "eval_acc": 0.6430696372150462,
+      "eval_loss": 1.6096121072769165,
+      "eval_runtime": 114.2269,
+      "eval_samples_per_second": 55.766,
+      "eval_steps_per_second": 27.883,
+      "step": 33900
+    },
+    {
+      "acc": 0.66443129,
+      "epoch": 0.8600963977676307,
+      "grad_norm": 5.71875,
+      "learning_rate": 6.544327003959765e-06,
+      "loss": 1.57760592,
+      "memory(GiB)": 111.15,
+      "step": 33905,
+      "train_speed(iter/s)": 0.447653
+    },
+    {
+      "acc": 0.66145468,
+      "epoch": 0.8602232369355657,
+      "grad_norm": 5.375,
+      "learning_rate": 6.543329617983713e-06,
+      "loss": 1.64106712,
+      "memory(GiB)": 111.15,
+      "step": 33910,
+      "train_speed(iter/s)": 0.447688
+    },
+    {
+      "acc": 0.66133275,
+      "epoch": 0.8603500761035008,
+      "grad_norm": 5.40625,
+      "learning_rate": 6.5423321641251316e-06,
+      "loss": 1.64823666,
+      "memory(GiB)": 111.15,
+      "step": 33915,
+      "train_speed(iter/s)": 0.447723
+    },
+    {
+      "acc": 0.63717117,
+      "epoch": 0.8604769152714358,
+      "grad_norm": 6.0625,
+      "learning_rate": 6.541334642427898e-06,
+      "loss": 1.67163277,
+      "memory(GiB)": 111.15,
+      "step": 33920,
+      "train_speed(iter/s)": 0.447758
+    },
+    {
+      "acc": 0.64837456,
+      "epoch": 0.8606037544393709,
+      "grad_norm": 4.59375,
+      "learning_rate": 6.540337052935884e-06,
+      "loss": 1.58884373,
+      "memory(GiB)": 111.15,
+      "step": 33925,
+      "train_speed(iter/s)": 0.447793
+    },
+    {
+      "acc": 0.64843798,
+      "epoch": 0.860730593607306,
+      "grad_norm": 5.5625,
+      "learning_rate": 6.53933939569297e-06,
+      "loss": 1.64086437,
+      "memory(GiB)": 111.15,
+      "step": 33930,
+      "train_speed(iter/s)": 0.447828
+    },
+    {
+      "acc": 0.65010824,
+      "epoch": 0.860857432775241,
+      "grad_norm": 5.46875,
+      "learning_rate": 6.538341670743037e-06,
+      "loss": 1.65124435,
+      "memory(GiB)": 111.15,
+      "step": 33935,
+      "train_speed(iter/s)": 0.447863
+    },
+    {
+      "acc": 0.65677457,
+      "epoch": 0.8609842719431761,
+      "grad_norm": 5.625,
+      "learning_rate": 6.537343878129969e-06,
+      "loss": 1.62289085,
+      "memory(GiB)": 111.15,
+      "step": 33940,
+      "train_speed(iter/s)": 0.447898
+    },
+    {
+      "acc": 0.64079742,
+      "epoch": 0.8611111111111112,
+      "grad_norm": 6.1875,
+      "learning_rate": 6.5363460178976524e-06,
+      "loss": 1.671912,
+      "memory(GiB)": 111.15,
+      "step": 33945,
+      "train_speed(iter/s)": 0.447933
+    },
+    {
+      "acc": 0.64105024,
+      "epoch": 0.8612379502790461,
+      "grad_norm": 5.09375,
+      "learning_rate": 6.53534809008998e-06,
+      "loss": 1.66428261,
+      "memory(GiB)": 111.15,
+      "step": 33950,
+      "train_speed(iter/s)": 0.447968
+    },
+    {
+      "acc": 0.64861894,
+      "epoch": 0.8613647894469812,
+      "grad_norm": 4.6875,
+      "learning_rate": 6.534350094750843e-06,
+      "loss": 1.64753418,
+      "memory(GiB)": 111.15,
+      "step": 33955,
+      "train_speed(iter/s)": 0.448003
+    },
+    {
+      "acc": 0.64230828,
+      "epoch": 0.8614916286149162,
+      "grad_norm": 5.375,
+      "learning_rate": 6.5333520319241385e-06,
+      "loss": 1.64396248,
+      "memory(GiB)": 111.15,
+      "step": 33960,
+      "train_speed(iter/s)": 0.448038
+    },
+    {
+      "acc": 0.63586211,
+      "epoch": 0.8616184677828513,
+      "grad_norm": 6.0625,
+      "learning_rate": 6.532353901653765e-06,
+      "loss": 1.69052887,
+      "memory(GiB)": 111.15,
+      "step": 33965,
+      "train_speed(iter/s)": 0.448073
+    },
+    {
+      "acc": 0.64366751,
+      "epoch": 0.8617453069507864,
+      "grad_norm": 5.09375,
+      "learning_rate": 6.531355703983627e-06,
+      "loss": 1.68118172,
+      "memory(GiB)": 111.15,
+      "step": 33970,
+      "train_speed(iter/s)": 0.448108
+    },
+    {
+      "acc": 0.63940649,
+      "epoch": 0.8618721461187214,
+      "grad_norm": 5.5,
+      "learning_rate": 6.530357438957626e-06,
+      "loss": 1.66125145,
+      "memory(GiB)": 111.15,
+      "step": 33975,
+      "train_speed(iter/s)": 0.448143
+    },
+    {
+      "acc": 0.65495729,
+      "epoch": 0.8619989852866565,
+      "grad_norm": 5.84375,
+      "learning_rate": 6.529359106619675e-06,
+      "loss": 1.62696686,
+      "memory(GiB)": 111.15,
+      "step": 33980,
+      "train_speed(iter/s)": 0.448178
+    },
+    {
+      "acc": 0.64230642,
+      "epoch": 0.8621258244545916,
+      "grad_norm": 4.75,
+      "learning_rate": 6.528360707013681e-06,
+      "loss": 1.65546036,
+      "memory(GiB)": 111.15,
+      "step": 33985,
+      "train_speed(iter/s)": 0.448213
+    },
+    {
+      "acc": 0.66767263,
+      "epoch": 0.8622526636225266,
+      "grad_norm": 6.6875,
+      "learning_rate": 6.52736224018356e-06,
+      "loss": 1.64611168,
+      "memory(GiB)": 111.15,
+      "step": 33990,
+      "train_speed(iter/s)": 0.448248
+    },
+    {
+      "acc": 0.65848632,
+      "epoch": 0.8623795027904617,
+      "grad_norm": 4.6875,
+      "learning_rate": 6.526363706173227e-06,
+      "loss": 1.66232738,
+      "memory(GiB)": 111.15,
+      "step": 33995,
+      "train_speed(iter/s)": 0.448283
+    },
+    {
+      "acc": 0.66594439,
+      "epoch": 0.8625063419583967,
+      "grad_norm": 5.375,
+      "learning_rate": 6.525365105026605e-06,
+      "loss": 1.5234683,
+      "memory(GiB)": 111.15,
+      "step": 34000,
+      "train_speed(iter/s)": 0.448318
+    },
+    {
+      "epoch": 0.8625063419583967,
+      "eval_acc": 0.6430855123728055,
+      "eval_loss": 1.6095094680786133,
+      "eval_runtime": 113.9048,
+      "eval_samples_per_second": 55.924,
+      "eval_steps_per_second": 27.962,
+      "step": 34000
+    },
+    {
+      "acc": 0.67361836,
+      "epoch": 0.8626331811263318,
+      "grad_norm": 5.5,
+      "learning_rate": 6.524366436787615e-06,
+      "loss": 1.51645641,
+      "memory(GiB)": 111.15,
+      "step": 34005,
+      "train_speed(iter/s)": 0.447654
+    },
+    {
+      "acc": 0.65412579,
+      "epoch": 0.8627600202942669,
+      "grad_norm": 5.03125,
+      "learning_rate": 6.523367701500183e-06,
+      "loss": 1.6312912,
+      "memory(GiB)": 111.15,
+      "step": 34010,
+      "train_speed(iter/s)": 0.447688
+    },
+    {
+      "acc": 0.6508791,
+      "epoch": 0.8628868594622019,
+      "grad_norm": 4.96875,
+      "learning_rate": 6.5223688992082375e-06,
+      "loss": 1.60583305,
+      "memory(GiB)": 111.15,
+      "step": 34015,
+      "train_speed(iter/s)": 0.447723
+    },
+    {
+      "acc": 0.64036684,
+      "epoch": 0.863013698630137,
+      "grad_norm": 6.15625,
+      "learning_rate": 6.521370029955713e-06,
+      "loss": 1.66815567,
+      "memory(GiB)": 111.15,
+      "step": 34020,
+      "train_speed(iter/s)": 0.447757
+    },
+    {
+      "acc": 0.63880415,
+      "epoch": 0.8631405377980721,
+      "grad_norm": 5.0,
+      "learning_rate": 6.520371093786541e-06,
+      "loss": 1.70974808,
+      "memory(GiB)": 111.15,
+      "step": 34025,
+      "train_speed(iter/s)": 0.447792
+    },
+    {
+      "acc": 0.66748142,
+      "epoch": 0.8632673769660071,
+      "grad_norm": 6.53125,
+      "learning_rate": 6.51937209074466e-06,
+      "loss": 1.57717495,
+      "memory(GiB)": 111.15,
+      "step": 34030,
+      "train_speed(iter/s)": 0.447827
+    },
+    {
+      "acc": 0.64719415,
+      "epoch": 0.8633942161339422,
+      "grad_norm": 5.375,
+      "learning_rate": 6.51837302087401e-06,
+      "loss": 1.60572033,
+      "memory(GiB)": 111.15,
+      "step": 34035,
+      "train_speed(iter/s)": 0.447861
+    },
+    {
+      "acc": 0.64406948,
+      "epoch": 0.8635210553018772,
+      "grad_norm": 6.71875,
+      "learning_rate": 6.517373884218539e-06,
+      "loss": 1.67631607,
+      "memory(GiB)": 111.15,
+      "step": 34040,
+      "train_speed(iter/s)": 0.447896
+    },
+    {
+      "acc": 0.64681015,
+      "epoch": 0.8636478944698123,
+      "grad_norm": 5.71875,
+      "learning_rate": 6.5163746808221865e-06,
+      "loss": 1.66889915,
+      "memory(GiB)": 111.15,
+      "step": 34045,
+      "train_speed(iter/s)": 0.447931
+    },
+    {
+      "acc": 0.6349124,
+      "epoch": 0.8637747336377474,
+      "grad_norm": 4.53125,
+      "learning_rate": 6.515375410728907e-06,
+      "loss": 1.62266026,
+      "memory(GiB)": 111.15,
+      "step": 34050,
+      "train_speed(iter/s)": 0.447966
+    },
+    {
+      "acc": 0.65088034,
+      "epoch": 0.8639015728056824,
+      "grad_norm": 4.4375,
+      "learning_rate": 6.51437607398265e-06,
+      "loss": 1.62683144,
+      "memory(GiB)": 111.15,
+      "step": 34055,
+      "train_speed(iter/s)": 0.448
+    },
+    {
+      "acc": 0.66499357,
+      "epoch": 0.8640284119736175,
+      "grad_norm": 6.1875,
+      "learning_rate": 6.513376670627374e-06,
+      "loss": 1.61137257,
+      "memory(GiB)": 111.15,
+      "step": 34060,
+      "train_speed(iter/s)": 0.448035
+    },
+    {
+      "acc": 0.63947821,
+      "epoch": 0.8641552511415526,
+      "grad_norm": 7.40625,
+      "learning_rate": 6.512377200707033e-06,
+      "loss": 1.68223114,
+      "memory(GiB)": 111.15,
+      "step": 34065,
+      "train_speed(iter/s)": 0.44807
+    },
+    {
+      "acc": 0.65389161,
+      "epoch": 0.8642820903094875,
+      "grad_norm": 6.03125,
+      "learning_rate": 6.511377664265591e-06,
+      "loss": 1.6292366,
+      "memory(GiB)": 111.15,
+      "step": 34070,
+      "train_speed(iter/s)": 0.448105
+    },
+    {
+      "acc": 0.65306759,
+      "epoch": 0.8644089294774226,
+      "grad_norm": 4.90625,
+      "learning_rate": 6.510378061347013e-06,
+      "loss": 1.62874413,
+      "memory(GiB)": 111.15,
+      "step": 34075,
+      "train_speed(iter/s)": 0.448139
+    },
+    {
+      "acc": 0.64595814,
+      "epoch": 0.8645357686453576,
+      "grad_norm": 6.21875,
+      "learning_rate": 6.509378391995264e-06,
+      "loss": 1.66335678,
+      "memory(GiB)": 111.15,
+      "step": 34080,
+      "train_speed(iter/s)": 0.448174
+    },
+    {
+      "acc": 0.64070282,
+      "epoch": 0.8646626078132927,
+      "grad_norm": 4.40625,
+      "learning_rate": 6.508378656254314e-06,
+      "loss": 1.70875092,
+      "memory(GiB)": 111.15,
+      "step": 34085,
+      "train_speed(iter/s)": 0.448209
+    },
+    {
+      "acc": 0.66133313,
+      "epoch": 0.8647894469812278,
+      "grad_norm": 5.0625,
+      "learning_rate": 6.507378854168136e-06,
+      "loss": 1.57960548,
+      "memory(GiB)": 111.15,
+      "step": 34090,
+      "train_speed(iter/s)": 0.448243
+    },
+    {
+      "acc": 0.64189892,
+      "epoch": 0.8649162861491628,
+      "grad_norm": 5.21875,
+      "learning_rate": 6.506378985780707e-06,
+      "loss": 1.6196991,
+      "memory(GiB)": 111.15,
+      "step": 34095,
+      "train_speed(iter/s)": 0.448278
+    },
+    {
+      "acc": 0.66332951,
+      "epoch": 0.8650431253170979,
+      "grad_norm": 5.375,
+      "learning_rate": 6.505379051136004e-06,
+      "loss": 1.60023766,
+      "memory(GiB)": 111.15,
+      "step": 34100,
+      "train_speed(iter/s)": 0.448313
+    },
+    {
+      "epoch": 0.8650431253170979,
+      "eval_acc": 0.6430529265226679,
+      "eval_loss": 1.609708547592163,
+      "eval_runtime": 113.2478,
+      "eval_samples_per_second": 56.248,
+      "eval_steps_per_second": 28.124,
+      "step": 34100
+    },
+    {
+      "acc": 0.65595145,
+      "epoch": 0.865169964485033,
+      "grad_norm": 5.125,
+      "learning_rate": 6.504379050278009e-06,
+      "loss": 1.59937859,
+      "memory(GiB)": 111.15,
+      "step": 34105,
+      "train_speed(iter/s)": 0.447654
+    },
+    {
+      "acc": 0.63419781,
+      "epoch": 0.865296803652968,
+      "grad_norm": 5.4375,
+      "learning_rate": 6.503378983250707e-06,
+      "loss": 1.72474403,
+      "memory(GiB)": 111.15,
+      "step": 34110,
+      "train_speed(iter/s)": 0.447689
+    },
+    {
+      "acc": 0.6487473,
+      "epoch": 0.8654236428209031,
+      "grad_norm": 7.03125,
+      "learning_rate": 6.5023788500980855e-06,
+      "loss": 1.62384415,
+      "memory(GiB)": 111.15,
+      "step": 34115,
+      "train_speed(iter/s)": 0.447723
+    },
+    {
+      "acc": 0.64523125,
+      "epoch": 0.8655504819888381,
+      "grad_norm": 4.96875,
+      "learning_rate": 6.501378650864135e-06,
+      "loss": 1.64504051,
+      "memory(GiB)": 111.15,
+      "step": 34120,
+      "train_speed(iter/s)": 0.447758
+    },
+    {
+      "acc": 0.64977465,
+      "epoch": 0.8656773211567732,
+      "grad_norm": 5.4375,
+      "learning_rate": 6.500378385592847e-06,
+      "loss": 1.6302372,
+      "memory(GiB)": 111.15,
+      "step": 34125,
+      "train_speed(iter/s)": 0.447792
+    },
+    {
+      "acc": 0.65709362,
+      "epoch": 0.8658041603247083,
+      "grad_norm": 6.5,
+      "learning_rate": 6.49937805432822e-06,
+      "loss": 1.60396118,
+      "memory(GiB)": 111.15,
+      "step": 34130,
+      "train_speed(iter/s)": 0.447826
+    },
+    {
+      "acc": 0.65094242,
+      "epoch": 0.8659309994926433,
+      "grad_norm": 5.75,
+      "learning_rate": 6.498377657114251e-06,
+      "loss": 1.59760151,
+      "memory(GiB)": 111.15,
+      "step": 34135,
+      "train_speed(iter/s)": 0.44786
+    },
+    {
+      "acc": 0.657862,
+      "epoch": 0.8660578386605784,
+      "grad_norm": 5.4375,
+      "learning_rate": 6.497377193994944e-06,
+      "loss": 1.60301018,
+      "memory(GiB)": 111.15,
+      "step": 34140,
+      "train_speed(iter/s)": 0.447894
+    },
+    {
+      "acc": 0.66481495,
+      "epoch": 0.8661846778285135,
+      "grad_norm": 5.3125,
+      "learning_rate": 6.496376665014301e-06,
+      "loss": 1.60108242,
+      "memory(GiB)": 111.15,
+      "step": 34145,
+      "train_speed(iter/s)": 0.447929
+    },
+    {
+      "acc": 0.64220085,
+      "epoch": 0.8663115169964485,
+      "grad_norm": 4.625,
+      "learning_rate": 6.4953760702163325e-06,
+      "loss": 1.65890102,
+      "memory(GiB)": 111.15,
+      "step": 34150,
+      "train_speed(iter/s)": 0.447963
+    },
+    {
+      "acc": 0.65207853,
+      "epoch": 0.8664383561643836,
+      "grad_norm": 4.59375,
+      "learning_rate": 6.494375409645049e-06,
+      "loss": 1.61466465,
+      "memory(GiB)": 111.15,
+      "step": 34155,
+      "train_speed(iter/s)": 0.447998
+    },
+    {
+      "acc": 0.6472579,
+      "epoch": 0.8665651953323186,
+      "grad_norm": 5.15625,
+      "learning_rate": 6.493374683344462e-06,
+      "loss": 1.62163239,
+      "memory(GiB)": 111.15,
+      "step": 34160,
+      "train_speed(iter/s)": 0.448032
+    },
+    {
+      "acc": 0.65412726,
+      "epoch": 0.8666920345002537,
+      "grad_norm": 6.0625,
+      "learning_rate": 6.492373891358589e-06,
+      "loss": 1.57932072,
+      "memory(GiB)": 111.15,
+      "step": 34165,
+      "train_speed(iter/s)": 0.448066
+    },
+    {
+      "acc": 0.65061989,
+      "epoch": 0.8668188736681888,
+      "grad_norm": 6.71875,
+      "learning_rate": 6.4913730337314495e-06,
+      "loss": 1.63625336,
+      "memory(GiB)": 111.15,
+      "step": 34170,
+      "train_speed(iter/s)": 0.448101
+    },
+    {
+      "acc": 0.64501915,
+      "epoch": 0.8669457128361238,
+      "grad_norm": 4.40625,
+      "learning_rate": 6.490372110507066e-06,
+      "loss": 1.66398087,
+      "memory(GiB)": 111.15,
+      "step": 34175,
+      "train_speed(iter/s)": 0.448135
+    },
+    {
+      "acc": 0.65097809,
+      "epoch": 0.8670725520040589,
+      "grad_norm": 4.90625,
+      "learning_rate": 6.489371121729462e-06,
+      "loss": 1.5847126,
+      "memory(GiB)": 111.15,
+      "step": 34180,
+      "train_speed(iter/s)": 0.44817
+    },
+    {
+      "acc": 0.64408445,
+      "epoch": 0.867199391171994,
+      "grad_norm": 5.375,
+      "learning_rate": 6.4883700674426666e-06,
+      "loss": 1.58456707,
+      "memory(GiB)": 111.15,
+      "step": 34185,
+      "train_speed(iter/s)": 0.448204
+    },
+    {
+      "acc": 0.64847574,
+      "epoch": 0.867326230339929,
+      "grad_norm": 5.15625,
+      "learning_rate": 6.4873689476907105e-06,
+      "loss": 1.63229408,
+      "memory(GiB)": 111.15,
+      "step": 34190,
+      "train_speed(iter/s)": 0.448238
+    },
+    {
+      "acc": 0.65201225,
+      "epoch": 0.867453069507864,
+      "grad_norm": 5.8125,
+      "learning_rate": 6.486367762517628e-06,
+      "loss": 1.62793159,
+      "memory(GiB)": 111.15,
+      "step": 34195,
+      "train_speed(iter/s)": 0.448272
+    },
+    {
+      "acc": 0.64351645,
+      "epoch": 0.867579908675799,
+      "grad_norm": 5.03125,
+      "learning_rate": 6.4853665119674556e-06,
+      "loss": 1.66754227,
+      "memory(GiB)": 111.15,
+      "step": 34200,
+      "train_speed(iter/s)": 0.448306
+    },
+    {
+      "epoch": 0.867579908675799,
+      "eval_acc": 0.6430341269937423,
+      "eval_loss": 1.6096562147140503,
+      "eval_runtime": 113.8922,
+      "eval_samples_per_second": 55.93,
+      "eval_steps_per_second": 27.965,
+      "step": 34200
+    },
+    {
+      "acc": 0.63922691,
+      "epoch": 0.8677067478437341,
+      "grad_norm": 4.46875,
+      "learning_rate": 6.484365196084231e-06,
+      "loss": 1.60705242,
+      "memory(GiB)": 111.15,
+      "step": 34205,
+      "train_speed(iter/s)": 0.447646
+    },
+    {
+      "acc": 0.65318489,
+      "epoch": 0.8678335870116692,
+      "grad_norm": 4.625,
+      "learning_rate": 6.4833638149119985e-06,
+      "loss": 1.62388973,
+      "memory(GiB)": 111.15,
+      "step": 34210,
+      "train_speed(iter/s)": 0.44768
+    },
+    {
+      "acc": 0.64865079,
+      "epoch": 0.8679604261796042,
+      "grad_norm": 5.59375,
+      "learning_rate": 6.4823623684948034e-06,
+      "loss": 1.64490166,
+      "memory(GiB)": 111.15,
+      "step": 34215,
+      "train_speed(iter/s)": 0.447714
+    },
+    {
+      "acc": 0.6547688,
+      "epoch": 0.8680872653475393,
+      "grad_norm": 5.5,
+      "learning_rate": 6.4813608568766924e-06,
+      "loss": 1.67377319,
+      "memory(GiB)": 111.15,
+      "step": 34220,
+      "train_speed(iter/s)": 0.447749
+    },
+    {
+      "acc": 0.63875847,
+      "epoch": 0.8682141045154744,
+      "grad_norm": 5.6875,
+      "learning_rate": 6.480359280101717e-06,
+      "loss": 1.6355896,
+      "memory(GiB)": 111.15,
+      "step": 34225,
+      "train_speed(iter/s)": 0.447783
+    },
+    {
+      "acc": 0.65882783,
+      "epoch": 0.8683409436834094,
+      "grad_norm": 5.40625,
+      "learning_rate": 6.479357638213931e-06,
+      "loss": 1.58050327,
+      "memory(GiB)": 111.15,
+      "step": 34230,
+      "train_speed(iter/s)": 0.447817
+    },
+    {
+      "acc": 0.64707541,
+      "epoch": 0.8684677828513445,
+      "grad_norm": 5.4375,
+      "learning_rate": 6.478355931257392e-06,
+      "loss": 1.62168007,
+      "memory(GiB)": 111.15,
+      "step": 34235,
+      "train_speed(iter/s)": 0.447852
+    },
+    {
+      "acc": 0.65711718,
+      "epoch": 0.8685946220192795,
+      "grad_norm": 5.09375,
+      "learning_rate": 6.477354159276158e-06,
+      "loss": 1.58132343,
+      "memory(GiB)": 111.15,
+      "step": 34240,
+      "train_speed(iter/s)": 0.447886
+    },
+    {
+      "acc": 0.641045,
+      "epoch": 0.8687214611872146,
+      "grad_norm": 5.1875,
+      "learning_rate": 6.476352322314292e-06,
+      "loss": 1.62512379,
+      "memory(GiB)": 111.15,
+      "step": 34245,
+      "train_speed(iter/s)": 0.447921
+    },
+    {
+      "acc": 0.64161339,
+      "epoch": 0.8688483003551497,
+      "grad_norm": 5.84375,
+      "learning_rate": 6.47535042041586e-06,
+      "loss": 1.69849243,
+      "memory(GiB)": 111.15,
+      "step": 34250,
+      "train_speed(iter/s)": 0.447956
+    },
+    {
+      "acc": 0.62002602,
+      "epoch": 0.8689751395230847,
+      "grad_norm": 4.90625,
+      "learning_rate": 6.474348453624929e-06,
+      "loss": 1.72490959,
+      "memory(GiB)": 111.15,
+      "step": 34255,
+      "train_speed(iter/s)": 0.447991
+    },
+    {
+      "acc": 0.64783931,
+      "epoch": 0.8691019786910198,
+      "grad_norm": 5.8125,
+      "learning_rate": 6.473346421985571e-06,
+      "loss": 1.63896446,
+      "memory(GiB)": 111.15,
+      "step": 34260,
+      "train_speed(iter/s)": 0.448025
+    },
+    {
+      "acc": 0.64536734,
+      "epoch": 0.8692288178589549,
+      "grad_norm": 5.875,
+      "learning_rate": 6.472344325541859e-06,
+      "loss": 1.66664047,
+      "memory(GiB)": 111.15,
+      "step": 34265,
+      "train_speed(iter/s)": 0.44806
+    },
+    {
+      "acc": 0.64086199,
+      "epoch": 0.8693556570268899,
+      "grad_norm": 5.0625,
+      "learning_rate": 6.4713421643378715e-06,
+      "loss": 1.68285332,
+      "memory(GiB)": 111.15,
+      "step": 34270,
+      "train_speed(iter/s)": 0.448094
+    },
+    {
+      "acc": 0.64286485,
+      "epoch": 0.869482496194825,
+      "grad_norm": 5.25,
+      "learning_rate": 6.470339938417685e-06,
+      "loss": 1.5917141,
+      "memory(GiB)": 111.15,
+      "step": 34275,
+      "train_speed(iter/s)": 0.448129
+    },
+    {
+      "acc": 0.66218743,
+      "epoch": 0.86960933536276,
+      "grad_norm": 5.59375,
+      "learning_rate": 6.469337647825384e-06,
+      "loss": 1.6064188,
+      "memory(GiB)": 111.15,
+      "step": 34280,
+      "train_speed(iter/s)": 0.448164
+    },
+    {
+      "acc": 0.63540525,
+      "epoch": 0.8697361745306951,
+      "grad_norm": 7.71875,
+      "learning_rate": 6.468335292605053e-06,
+      "loss": 1.63565807,
+      "memory(GiB)": 111.15,
+      "step": 34285,
+      "train_speed(iter/s)": 0.448199
+    },
+    {
+      "acc": 0.66602631,
+      "epoch": 0.8698630136986302,
+      "grad_norm": 5.5625,
+      "learning_rate": 6.467332872800779e-06,
+      "loss": 1.52931166,
+      "memory(GiB)": 111.15,
+      "step": 34290,
+      "train_speed(iter/s)": 0.448233
+    },
+    {
+      "acc": 0.65252357,
+      "epoch": 0.8699898528665652,
+      "grad_norm": 5.21875,
+      "learning_rate": 6.466330388456655e-06,
+      "loss": 1.65180588,
+      "memory(GiB)": 111.15,
+      "step": 34295,
+      "train_speed(iter/s)": 0.448268
+    },
+    {
+      "acc": 0.64218988,
+      "epoch": 0.8701166920345003,
+      "grad_norm": 6.25,
+      "learning_rate": 6.465327839616774e-06,
+      "loss": 1.66812859,
+      "memory(GiB)": 111.15,
+      "step": 34300,
+      "train_speed(iter/s)": 0.448303
+    },
+    {
+      "epoch": 0.8701166920345003,
+      "eval_acc": 0.6431231114306567,
+      "eval_loss": 1.6095571517944336,
+      "eval_runtime": 113.8791,
+      "eval_samples_per_second": 55.936,
+      "eval_steps_per_second": 27.968,
+      "step": 34300
+    },
+    {
+      "acc": 0.65879116,
+      "epoch": 0.8702435312024354,
+      "grad_norm": 5.46875,
+      "learning_rate": 6.464325226325232e-06,
+      "loss": 1.59946556,
+      "memory(GiB)": 111.15,
+      "step": 34305,
+      "train_speed(iter/s)": 0.447644
+    },
+    {
+      "acc": 0.64151196,
+      "epoch": 0.8703703703703703,
+      "grad_norm": 5.9375,
+      "learning_rate": 6.46332254862613e-06,
+      "loss": 1.69849758,
+      "memory(GiB)": 111.15,
+      "step": 34310,
+      "train_speed(iter/s)": 0.447678
+    },
+    {
+      "acc": 0.652669,
+      "epoch": 0.8704972095383054,
+      "grad_norm": 4.4375,
+      "learning_rate": 6.462319806563568e-06,
+      "loss": 1.62395058,
+      "memory(GiB)": 111.15,
+      "step": 34315,
+      "train_speed(iter/s)": 0.447712
+    },
+    {
+      "acc": 0.6418541,
+      "epoch": 0.8706240487062404,
+      "grad_norm": 5.53125,
+      "learning_rate": 6.461317000181653e-06,
+      "loss": 1.57451,
+      "memory(GiB)": 111.15,
+      "step": 34320,
+      "train_speed(iter/s)": 0.447746
+    },
+    {
+      "acc": 0.64713812,
+      "epoch": 0.8707508878741755,
+      "grad_norm": 6.40625,
+      "learning_rate": 6.460314129524491e-06,
+      "loss": 1.66305046,
+      "memory(GiB)": 111.15,
+      "step": 34325,
+      "train_speed(iter/s)": 0.44778
+    },
+    {
+      "acc": 0.65009332,
+      "epoch": 0.8708777270421106,
+      "grad_norm": 4.78125,
+      "learning_rate": 6.4593111946361945e-06,
+      "loss": 1.62637062,
+      "memory(GiB)": 111.15,
+      "step": 34330,
+      "train_speed(iter/s)": 0.447814
+    },
+    {
+      "acc": 0.6416604,
+      "epoch": 0.8710045662100456,
+      "grad_norm": 5.09375,
+      "learning_rate": 6.458308195560874e-06,
+      "loss": 1.62182865,
+      "memory(GiB)": 111.15,
+      "step": 34335,
+      "train_speed(iter/s)": 0.447849
+    },
+    {
+      "acc": 0.63678265,
+      "epoch": 0.8711314053779807,
+      "grad_norm": 6.28125,
+      "learning_rate": 6.4573051323426515e-06,
+      "loss": 1.70713615,
+      "memory(GiB)": 111.15,
+      "step": 34340,
+      "train_speed(iter/s)": 0.447883
+    },
+    {
+      "acc": 0.65044904,
+      "epoch": 0.8712582445459158,
+      "grad_norm": 6.75,
+      "learning_rate": 6.456302005025641e-06,
+      "loss": 1.67481651,
+      "memory(GiB)": 111.15,
+      "step": 34345,
+      "train_speed(iter/s)": 0.447917
+    },
+    {
+      "acc": 0.63638797,
+      "epoch": 0.8713850837138508,
+      "grad_norm": 6.3125,
+      "learning_rate": 6.4552988136539675e-06,
+      "loss": 1.70379868,
+      "memory(GiB)": 111.15,
+      "step": 34350,
+      "train_speed(iter/s)": 0.447951
+    },
+    {
+      "acc": 0.65994253,
+      "epoch": 0.8715119228817859,
+      "grad_norm": 6.0,
+      "learning_rate": 6.454295558271752e-06,
+      "loss": 1.60382729,
+      "memory(GiB)": 111.15,
+      "step": 34355,
+      "train_speed(iter/s)": 0.447985
+    },
+    {
+      "acc": 0.64621019,
+      "epoch": 0.8716387620497209,
+      "grad_norm": 5.09375,
+      "learning_rate": 6.4532922389231275e-06,
+      "loss": 1.58820381,
+      "memory(GiB)": 111.15,
+      "step": 34360,
+      "train_speed(iter/s)": 0.448019
+    },
+    {
+      "acc": 0.66187363,
+      "epoch": 0.871765601217656,
+      "grad_norm": 4.90625,
+      "learning_rate": 6.452288855652222e-06,
+      "loss": 1.58590364,
+      "memory(GiB)": 111.15,
+      "step": 34365,
+      "train_speed(iter/s)": 0.448053
+    },
+    {
+      "acc": 0.65449305,
+      "epoch": 0.8718924403855911,
+      "grad_norm": 4.8125,
+      "learning_rate": 6.451285408503167e-06,
+      "loss": 1.60006485,
+      "memory(GiB)": 111.15,
+      "step": 34370,
+      "train_speed(iter/s)": 0.448087
+    },
+    {
+      "acc": 0.6422163,
+      "epoch": 0.8720192795535261,
+      "grad_norm": 5.21875,
+      "learning_rate": 6.450281897520102e-06,
+      "loss": 1.65589714,
+      "memory(GiB)": 111.15,
+      "step": 34375,
+      "train_speed(iter/s)": 0.448121
+    },
+    {
+      "acc": 0.66184196,
+      "epoch": 0.8721461187214612,
+      "grad_norm": 4.90625,
+      "learning_rate": 6.449278322747164e-06,
+      "loss": 1.59704943,
+      "memory(GiB)": 111.15,
+      "step": 34380,
+      "train_speed(iter/s)": 0.448155
+    },
+    {
+      "acc": 0.66488466,
+      "epoch": 0.8722729578893963,
+      "grad_norm": 5.46875,
+      "learning_rate": 6.448274684228494e-06,
+      "loss": 1.61541309,
+      "memory(GiB)": 111.15,
+      "step": 34385,
+      "train_speed(iter/s)": 0.44819
+    },
+    {
+      "acc": 0.67182274,
+      "epoch": 0.8723997970573313,
+      "grad_norm": 5.6875,
+      "learning_rate": 6.447270982008237e-06,
+      "loss": 1.56033363,
+      "memory(GiB)": 111.15,
+      "step": 34390,
+      "train_speed(iter/s)": 0.448224
+    },
+    {
+      "acc": 0.64698496,
+      "epoch": 0.8725266362252664,
+      "grad_norm": 5.84375,
+      "learning_rate": 6.446267216130541e-06,
+      "loss": 1.67104511,
+      "memory(GiB)": 111.15,
+      "step": 34395,
+      "train_speed(iter/s)": 0.448258
+    },
+    {
+      "acc": 0.65476718,
+      "epoch": 0.8726534753932014,
+      "grad_norm": 5.0,
+      "learning_rate": 6.4452633866395555e-06,
+      "loss": 1.63049641,
+      "memory(GiB)": 111.15,
+      "step": 34400,
+      "train_speed(iter/s)": 0.448292
+    },
+    {
+      "epoch": 0.8726534753932014,
+      "eval_acc": 0.643139822123035,
+      "eval_loss": 1.6097142696380615,
+      "eval_runtime": 114.0061,
+      "eval_samples_per_second": 55.874,
+      "eval_steps_per_second": 27.937,
+      "step": 34400
+    },
+    {
+      "acc": 0.66110506,
+      "epoch": 0.8727803145611365,
+      "grad_norm": 4.65625,
+      "learning_rate": 6.444259493579433e-06,
+      "loss": 1.6210043,
+      "memory(GiB)": 111.15,
+      "step": 34405,
+      "train_speed(iter/s)": 0.447636
+    },
+    {
+      "acc": 0.65170808,
+      "epoch": 0.8729071537290716,
+      "grad_norm": 5.625,
+      "learning_rate": 6.443255536994331e-06,
+      "loss": 1.61521606,
+      "memory(GiB)": 111.15,
+      "step": 34410,
+      "train_speed(iter/s)": 0.44767
+    },
+    {
+      "acc": 0.6474081,
+      "epoch": 0.8730339928970066,
+      "grad_norm": 5.5,
+      "learning_rate": 6.442251516928406e-06,
+      "loss": 1.62728405,
+      "memory(GiB)": 111.15,
+      "step": 34415,
+      "train_speed(iter/s)": 0.447705
+    },
+    {
+      "acc": 0.66347561,
+      "epoch": 0.8731608320649417,
+      "grad_norm": 4.46875,
+      "learning_rate": 6.441247433425821e-06,
+      "loss": 1.58518572,
+      "memory(GiB)": 111.15,
+      "step": 34420,
+      "train_speed(iter/s)": 0.44774
+    },
+    {
+      "acc": 0.64371972,
+      "epoch": 0.8732876712328768,
+      "grad_norm": 5.34375,
+      "learning_rate": 6.4402432865307384e-06,
+      "loss": 1.67025642,
+      "memory(GiB)": 111.15,
+      "step": 34425,
+      "train_speed(iter/s)": 0.447775
+    },
+    {
+      "acc": 0.64176245,
+      "epoch": 0.8734145104008117,
+      "grad_norm": 5.1875,
+      "learning_rate": 6.439239076287327e-06,
+      "loss": 1.68048458,
+      "memory(GiB)": 111.15,
+      "step": 34430,
+      "train_speed(iter/s)": 0.447809
+    },
+    {
+      "acc": 0.65044518,
+      "epoch": 0.8735413495687468,
+      "grad_norm": 5.34375,
+      "learning_rate": 6.438234802739753e-06,
+      "loss": 1.6400465,
+      "memory(GiB)": 111.15,
+      "step": 34435,
+      "train_speed(iter/s)": 0.447844
+    },
+    {
+      "acc": 0.65707197,
+      "epoch": 0.8736681887366818,
+      "grad_norm": 6.25,
+      "learning_rate": 6.4372304659321935e-06,
+      "loss": 1.62755203,
+      "memory(GiB)": 111.15,
+      "step": 34440,
+      "train_speed(iter/s)": 0.447879
+    },
+    {
+      "acc": 0.65013928,
+      "epoch": 0.8737950279046169,
+      "grad_norm": 5.0,
+      "learning_rate": 6.43622606590882e-06,
+      "loss": 1.65497513,
+      "memory(GiB)": 111.15,
+      "step": 34445,
+      "train_speed(iter/s)": 0.447914
+    },
+    {
+      "acc": 0.63802776,
+      "epoch": 0.873921867072552,
+      "grad_norm": 5.25,
+      "learning_rate": 6.4352216027138125e-06,
+      "loss": 1.61181698,
+      "memory(GiB)": 111.15,
+      "step": 34450,
+      "train_speed(iter/s)": 0.447948
+    },
+    {
+      "acc": 0.640662,
+      "epoch": 0.874048706240487,
+      "grad_norm": 5.96875,
+      "learning_rate": 6.434217076391351e-06,
+      "loss": 1.63862419,
+      "memory(GiB)": 111.15,
+      "step": 34455,
+      "train_speed(iter/s)": 0.447983
+    },
+    {
+      "acc": 0.64873023,
+      "epoch": 0.8741755454084221,
+      "grad_norm": 5.28125,
+      "learning_rate": 6.433212486985618e-06,
+      "loss": 1.63195534,
+      "memory(GiB)": 111.15,
+      "step": 34460,
+      "train_speed(iter/s)": 0.448018
+    },
+    {
+      "acc": 0.64791031,
+      "epoch": 0.8743023845763572,
+      "grad_norm": 4.53125,
+      "learning_rate": 6.432207834540802e-06,
+      "loss": 1.63890209,
+      "memory(GiB)": 111.15,
+      "step": 34465,
+      "train_speed(iter/s)": 0.448053
+    },
+    {
+      "acc": 0.6639709,
+      "epoch": 0.8744292237442922,
+      "grad_norm": 4.84375,
+      "learning_rate": 6.431203119101093e-06,
+      "loss": 1.6085247,
+      "memory(GiB)": 111.15,
+      "step": 34470,
+      "train_speed(iter/s)": 0.448088
+    },
+    {
+      "acc": 0.64108644,
+      "epoch": 0.8745560629122273,
+      "grad_norm": 5.625,
+      "learning_rate": 6.430198340710677e-06,
+      "loss": 1.61292038,
+      "memory(GiB)": 111.15,
+      "step": 34475,
+      "train_speed(iter/s)": 0.448123
+    },
+    {
+      "acc": 0.66255517,
+      "epoch": 0.8746829020801623,
+      "grad_norm": 5.59375,
+      "learning_rate": 6.4291934994137566e-06,
+      "loss": 1.59935665,
+      "memory(GiB)": 111.15,
+      "step": 34480,
+      "train_speed(iter/s)": 0.448158
+    },
+    {
+      "acc": 0.6590415,
+      "epoch": 0.8748097412480974,
+      "grad_norm": 6.28125,
+      "learning_rate": 6.428188595254521e-06,
+      "loss": 1.62850609,
+      "memory(GiB)": 111.15,
+      "step": 34485,
+      "train_speed(iter/s)": 0.448193
+    },
+    {
+      "acc": 0.66166492,
+      "epoch": 0.8749365804160325,
+      "grad_norm": 6.78125,
+      "learning_rate": 6.427183628277178e-06,
+      "loss": 1.65128384,
+      "memory(GiB)": 111.15,
+      "step": 34490,
+      "train_speed(iter/s)": 0.448227
+    },
+    {
+      "acc": 0.64320507,
+      "epoch": 0.8750634195839675,
+      "grad_norm": 4.8125,
+      "learning_rate": 6.426178598525925e-06,
+      "loss": 1.69023361,
+      "memory(GiB)": 111.15,
+      "step": 34495,
+      "train_speed(iter/s)": 0.448262
+    },
+    {
+      "acc": 0.64880209,
+      "epoch": 0.8751902587519026,
+      "grad_norm": 4.53125,
+      "learning_rate": 6.4251735060449725e-06,
+      "loss": 1.67470207,
+      "memory(GiB)": 111.15,
+      "step": 34500,
+      "train_speed(iter/s)": 0.448297
+    },
+    {
+      "epoch": 0.8751902587519026,
+      "eval_acc": 0.6430224295090775,
+      "eval_loss": 1.609557032585144,
+      "eval_runtime": 114.3858,
+      "eval_samples_per_second": 55.689,
+      "eval_steps_per_second": 27.844,
+      "step": 34500
+    },
+    {
+      "acc": 0.63595996,
+      "epoch": 0.8753170979198377,
+      "grad_norm": 5.125,
+      "learning_rate": 6.424168350878524e-06,
+      "loss": 1.64846992,
+      "memory(GiB)": 111.15,
+      "step": 34505,
+      "train_speed(iter/s)": 0.447639
+    },
+    {
+      "acc": 0.65803919,
+      "epoch": 0.8754439370877727,
+      "grad_norm": 6.375,
+      "learning_rate": 6.423163133070792e-06,
+      "loss": 1.56049986,
+      "memory(GiB)": 111.15,
+      "step": 34510,
+      "train_speed(iter/s)": 0.447674
+    },
+    {
+      "acc": 0.653409,
+      "epoch": 0.8755707762557078,
+      "grad_norm": 5.59375,
+      "learning_rate": 6.422157852665993e-06,
+      "loss": 1.69092751,
+      "memory(GiB)": 111.15,
+      "step": 34515,
+      "train_speed(iter/s)": 0.447708
+    },
+    {
+      "acc": 0.65726824,
+      "epoch": 0.8756976154236428,
+      "grad_norm": 5.28125,
+      "learning_rate": 6.421152509708342e-06,
+      "loss": 1.57798347,
+      "memory(GiB)": 111.15,
+      "step": 34520,
+      "train_speed(iter/s)": 0.447742
+    },
+    {
+      "acc": 0.6533144,
+      "epoch": 0.8758244545915779,
+      "grad_norm": 6.15625,
+      "learning_rate": 6.4201471042420595e-06,
+      "loss": 1.59954567,
+      "memory(GiB)": 111.15,
+      "step": 34525,
+      "train_speed(iter/s)": 0.447777
+    },
+    {
+      "acc": 0.64692063,
+      "epoch": 0.875951293759513,
+      "grad_norm": 4.78125,
+      "learning_rate": 6.419141636311366e-06,
+      "loss": 1.60424633,
+      "memory(GiB)": 111.15,
+      "step": 34530,
+      "train_speed(iter/s)": 0.447811
+    },
+    {
+      "acc": 0.65290022,
+      "epoch": 0.876078132927448,
+      "grad_norm": 5.5625,
+      "learning_rate": 6.4181361059604875e-06,
+      "loss": 1.59551659,
+      "memory(GiB)": 111.15,
+      "step": 34535,
+      "train_speed(iter/s)": 0.447846
+    },
+    {
+      "acc": 0.63786926,
+      "epoch": 0.8762049720953831,
+      "grad_norm": 5.21875,
+      "learning_rate": 6.4171305132336515e-06,
+      "loss": 1.65199051,
+      "memory(GiB)": 111.15,
+      "step": 34540,
+      "train_speed(iter/s)": 0.44788
+    },
+    {
+      "acc": 0.64891663,
+      "epoch": 0.8763318112633182,
+      "grad_norm": 4.84375,
+      "learning_rate": 6.416124858175088e-06,
+      "loss": 1.60882149,
+      "memory(GiB)": 111.15,
+      "step": 34545,
+      "train_speed(iter/s)": 0.447914
+    },
+    {
+      "acc": 0.65133753,
+      "epoch": 0.8764586504312532,
+      "grad_norm": 5.40625,
+      "learning_rate": 6.415119140829031e-06,
+      "loss": 1.73576355,
+      "memory(GiB)": 111.15,
+      "step": 34550,
+      "train_speed(iter/s)": 0.447948
+    },
+    {
+      "acc": 0.65058374,
+      "epoch": 0.8765854895991883,
+      "grad_norm": 5.40625,
+      "learning_rate": 6.414113361239715e-06,
+      "loss": 1.62504807,
+      "memory(GiB)": 111.15,
+      "step": 34555,
+      "train_speed(iter/s)": 0.447983
+    },
+    {
+      "acc": 0.66102953,
+      "epoch": 0.8767123287671232,
+      "grad_norm": 5.53125,
+      "learning_rate": 6.4131075194513825e-06,
+      "loss": 1.51957378,
+      "memory(GiB)": 111.15,
+      "step": 34560,
+      "train_speed(iter/s)": 0.448017
+    },
+    {
+      "acc": 0.66913786,
+      "epoch": 0.8768391679350583,
+      "grad_norm": 4.5,
+      "learning_rate": 6.41210161550827e-06,
+      "loss": 1.44996338,
+      "memory(GiB)": 111.15,
+      "step": 34565,
+      "train_speed(iter/s)": 0.448051
+    },
+    {
+      "acc": 0.64988966,
+      "epoch": 0.8769660071029934,
+      "grad_norm": 4.71875,
+      "learning_rate": 6.411095649454626e-06,
+      "loss": 1.61549377,
+      "memory(GiB)": 111.15,
+      "step": 34570,
+      "train_speed(iter/s)": 0.448085
+    },
+    {
+      "acc": 0.64860592,
+      "epoch": 0.8770928462709284,
+      "grad_norm": 5.625,
+      "learning_rate": 6.410089621334693e-06,
+      "loss": 1.6418087,
+      "memory(GiB)": 111.15,
+      "step": 34575,
+      "train_speed(iter/s)": 0.44812
+    },
+    {
+      "acc": 0.65377812,
+      "epoch": 0.8772196854388635,
+      "grad_norm": 5.09375,
+      "learning_rate": 6.4090835311927236e-06,
+      "loss": 1.53700314,
+      "memory(GiB)": 111.15,
+      "step": 34580,
+      "train_speed(iter/s)": 0.448154
+    },
+    {
+      "acc": 0.67108707,
+      "epoch": 0.8773465246067986,
+      "grad_norm": 5.40625,
+      "learning_rate": 6.40807737907297e-06,
+      "loss": 1.58395863,
+      "memory(GiB)": 111.15,
+      "step": 34585,
+      "train_speed(iter/s)": 0.448188
+    },
+    {
+      "acc": 0.64728599,
+      "epoch": 0.8774733637747336,
+      "grad_norm": 6.875,
+      "learning_rate": 6.407071165019686e-06,
+      "loss": 1.67352276,
+      "memory(GiB)": 111.15,
+      "step": 34590,
+      "train_speed(iter/s)": 0.448222
+    },
+    {
+      "acc": 0.66170816,
+      "epoch": 0.8776002029426687,
+      "grad_norm": 4.90625,
+      "learning_rate": 6.40606488907713e-06,
+      "loss": 1.61527843,
+      "memory(GiB)": 111.15,
+      "step": 34595,
+      "train_speed(iter/s)": 0.448256
+    },
+    {
+      "acc": 0.62888117,
+      "epoch": 0.8777270421106037,
+      "grad_norm": 4.9375,
+      "learning_rate": 6.4050585512895624e-06,
+      "loss": 1.6425396,
+      "memory(GiB)": 111.15,
+      "step": 34600,
+      "train_speed(iter/s)": 0.448291
+    },
+    {
+      "epoch": 0.8777270421106037,
+      "eval_acc": 0.6430892722785906,
+      "eval_loss": 1.609403371810913,
+      "eval_runtime": 114.1131,
+      "eval_samples_per_second": 55.822,
+      "eval_steps_per_second": 27.911,
+      "step": 34600
+    },
+    {
+      "acc": 0.65663419,
+      "epoch": 0.8778538812785388,
+      "grad_norm": 5.09375,
+      "learning_rate": 6.4040521517012475e-06,
+      "loss": 1.57980537,
+      "memory(GiB)": 111.15,
+      "step": 34605,
+      "train_speed(iter/s)": 0.447637
+    },
+    {
+      "acc": 0.64003115,
+      "epoch": 0.8779807204464739,
+      "grad_norm": 5.6875,
+      "learning_rate": 6.40304569035645e-06,
+      "loss": 1.65386276,
+      "memory(GiB)": 111.15,
+      "step": 34610,
+      "train_speed(iter/s)": 0.447671
+    },
+    {
+      "acc": 0.65018702,
+      "epoch": 0.8781075596144089,
+      "grad_norm": 5.34375,
+      "learning_rate": 6.402039167299439e-06,
+      "loss": 1.6275425,
+      "memory(GiB)": 111.15,
+      "step": 34615,
+      "train_speed(iter/s)": 0.447705
+    },
+    {
+      "acc": 0.64198742,
+      "epoch": 0.878234398782344,
+      "grad_norm": 5.40625,
+      "learning_rate": 6.401032582574485e-06,
+      "loss": 1.65648232,
+      "memory(GiB)": 111.15,
+      "step": 34620,
+      "train_speed(iter/s)": 0.447739
+    },
+    {
+      "acc": 0.65115027,
+      "epoch": 0.8783612379502791,
+      "grad_norm": 6.40625,
+      "learning_rate": 6.400025936225862e-06,
+      "loss": 1.63318577,
+      "memory(GiB)": 111.15,
+      "step": 34625,
+      "train_speed(iter/s)": 0.447773
+    },
+    {
+      "acc": 0.6400795,
+      "epoch": 0.8784880771182141,
+      "grad_norm": 4.90625,
+      "learning_rate": 6.399019228297851e-06,
+      "loss": 1.67132969,
+      "memory(GiB)": 111.15,
+      "step": 34630,
+      "train_speed(iter/s)": 0.447807
+    },
+    {
+      "acc": 0.65464153,
+      "epoch": 0.8786149162861492,
+      "grad_norm": 7.15625,
+      "learning_rate": 6.398012458834724e-06,
+      "loss": 1.60673714,
+      "memory(GiB)": 111.15,
+      "step": 34635,
+      "train_speed(iter/s)": 0.447841
+    },
+    {
+      "acc": 0.64395008,
+      "epoch": 0.8787417554540842,
+      "grad_norm": 4.78125,
+      "learning_rate": 6.397005627880771e-06,
+      "loss": 1.6186985,
+      "memory(GiB)": 111.15,
+      "step": 34640,
+      "train_speed(iter/s)": 0.447875
+    },
+    {
+      "acc": 0.65225563,
+      "epoch": 0.8788685946220193,
+      "grad_norm": 5.84375,
+      "learning_rate": 6.395998735480271e-06,
+      "loss": 1.66707726,
+      "memory(GiB)": 111.15,
+      "step": 34645,
+      "train_speed(iter/s)": 0.44791
+    },
+    {
+      "acc": 0.65440006,
+      "epoch": 0.8789954337899544,
+      "grad_norm": 4.9375,
+      "learning_rate": 6.394991781677516e-06,
+      "loss": 1.56823139,
+      "memory(GiB)": 111.15,
+      "step": 34650,
+      "train_speed(iter/s)": 0.447944
+    },
+    {
+      "acc": 0.64193106,
+      "epoch": 0.8791222729578894,
+      "grad_norm": 5.6875,
+      "learning_rate": 6.393984766516792e-06,
+      "loss": 1.68392334,
+      "memory(GiB)": 111.15,
+      "step": 34655,
+      "train_speed(iter/s)": 0.447978
+    },
+    {
+      "acc": 0.63486409,
+      "epoch": 0.8792491121258245,
+      "grad_norm": 5.375,
+      "learning_rate": 6.392977690042395e-06,
+      "loss": 1.75684338,
+      "memory(GiB)": 111.15,
+      "step": 34660,
+      "train_speed(iter/s)": 0.448012
+    },
+    {
+      "acc": 0.65631189,
+      "epoch": 0.8793759512937596,
+      "grad_norm": 6.3125,
+      "learning_rate": 6.3919705522986205e-06,
+      "loss": 1.60642853,
+      "memory(GiB)": 111.15,
+      "step": 34665,
+      "train_speed(iter/s)": 0.448046
+    },
+    {
+      "acc": 0.67523003,
+      "epoch": 0.8795027904616946,
+      "grad_norm": 5.28125,
+      "learning_rate": 6.390963353329767e-06,
+      "loss": 1.50093975,
+      "memory(GiB)": 111.15,
+      "step": 34670,
+      "train_speed(iter/s)": 0.44808
+    },
+    {
+      "acc": 0.63496456,
+      "epoch": 0.8796296296296297,
+      "grad_norm": 4.90625,
+      "learning_rate": 6.389956093180134e-06,
+      "loss": 1.68216171,
+      "memory(GiB)": 111.15,
+      "step": 34675,
+      "train_speed(iter/s)": 0.448114
+    },
+    {
+      "acc": 0.66046185,
+      "epoch": 0.8797564687975646,
+      "grad_norm": 4.96875,
+      "learning_rate": 6.388948771894025e-06,
+      "loss": 1.59488506,
+      "memory(GiB)": 111.15,
+      "step": 34680,
+      "train_speed(iter/s)": 0.448148
+    },
+    {
+      "acc": 0.66158018,
+      "epoch": 0.8798833079654997,
+      "grad_norm": 4.71875,
+      "learning_rate": 6.38794138951575e-06,
+      "loss": 1.59309235,
+      "memory(GiB)": 111.15,
+      "step": 34685,
+      "train_speed(iter/s)": 0.448182
+    },
+    {
+      "acc": 0.66133351,
+      "epoch": 0.8800101471334348,
+      "grad_norm": 5.46875,
+      "learning_rate": 6.386933946089615e-06,
+      "loss": 1.59417095,
+      "memory(GiB)": 111.15,
+      "step": 34690,
+      "train_speed(iter/s)": 0.448216
+    },
+    {
+      "acc": 0.65513678,
+      "epoch": 0.8801369863013698,
+      "grad_norm": 6.15625,
+      "learning_rate": 6.385926441659933e-06,
+      "loss": 1.62426605,
+      "memory(GiB)": 111.15,
+      "step": 34695,
+      "train_speed(iter/s)": 0.44825
+    },
+    {
+      "acc": 0.64424953,
+      "epoch": 0.8802638254693049,
+      "grad_norm": 6.0625,
+      "learning_rate": 6.38491887627102e-06,
+      "loss": 1.65667686,
+      "memory(GiB)": 111.15,
+      "step": 34700,
+      "train_speed(iter/s)": 0.448285
+    },
+    {
+      "epoch": 0.8802638254693049,
+      "eval_acc": 0.6431193515248715,
+      "eval_loss": 1.609327793121338,
+      "eval_runtime": 113.5366,
+      "eval_samples_per_second": 56.105,
+      "eval_steps_per_second": 28.053,
+      "step": 34700
+    },
+    {
+      "acc": 0.64580173,
+      "epoch": 0.88039066463724,
+      "grad_norm": 6.28125,
+      "learning_rate": 6.383911249967188e-06,
+      "loss": 1.64650841,
+      "memory(GiB)": 111.15,
+      "step": 34705,
+      "train_speed(iter/s)": 0.447635
+    },
+    {
+      "acc": 0.64073262,
+      "epoch": 0.880517503805175,
+      "grad_norm": 5.09375,
+      "learning_rate": 6.382903562792764e-06,
+      "loss": 1.63277855,
+      "memory(GiB)": 111.15,
+      "step": 34710,
+      "train_speed(iter/s)": 0.447669
+    },
+    {
+      "acc": 0.63402076,
+      "epoch": 0.8806443429731101,
+      "grad_norm": 6.125,
+      "learning_rate": 6.381895814792065e-06,
+      "loss": 1.71601219,
+      "memory(GiB)": 111.15,
+      "step": 34715,
+      "train_speed(iter/s)": 0.447703
+    },
+    {
+      "acc": 0.64763756,
+      "epoch": 0.8807711821410451,
+      "grad_norm": 5.0625,
+      "learning_rate": 6.38088800600942e-06,
+      "loss": 1.63242321,
+      "memory(GiB)": 111.15,
+      "step": 34720,
+      "train_speed(iter/s)": 0.447737
+    },
+    {
+      "acc": 0.65155511,
+      "epoch": 0.8808980213089802,
+      "grad_norm": 5.0,
+      "learning_rate": 6.3798801364891535e-06,
+      "loss": 1.64902935,
+      "memory(GiB)": 111.15,
+      "step": 34725,
+      "train_speed(iter/s)": 0.447771
+    },
+    {
+      "acc": 0.64373446,
+      "epoch": 0.8810248604769153,
+      "grad_norm": 5.9375,
+      "learning_rate": 6.378872206275599e-06,
+      "loss": 1.63523464,
+      "memory(GiB)": 111.15,
+      "step": 34730,
+      "train_speed(iter/s)": 0.447805
+    },
+    {
+      "acc": 0.65634322,
+      "epoch": 0.8811516996448503,
+      "grad_norm": 5.34375,
+      "learning_rate": 6.377864215413088e-06,
+      "loss": 1.57586002,
+      "memory(GiB)": 111.15,
+      "step": 34735,
+      "train_speed(iter/s)": 0.447839
+    },
+    {
+      "acc": 0.65515175,
+      "epoch": 0.8812785388127854,
+      "grad_norm": 5.9375,
+      "learning_rate": 6.376856163945957e-06,
+      "loss": 1.65526428,
+      "memory(GiB)": 111.15,
+      "step": 34740,
+      "train_speed(iter/s)": 0.447873
+    },
+    {
+      "acc": 0.65555949,
+      "epoch": 0.8814053779807205,
+      "grad_norm": 5.96875,
+      "learning_rate": 6.375848051918546e-06,
+      "loss": 1.60933228,
+      "memory(GiB)": 111.15,
+      "step": 34745,
+      "train_speed(iter/s)": 0.447906
+    },
+    {
+      "acc": 0.65565929,
+      "epoch": 0.8815322171486555,
+      "grad_norm": 5.09375,
+      "learning_rate": 6.374839879375194e-06,
+      "loss": 1.58793812,
+      "memory(GiB)": 111.15,
+      "step": 34750,
+      "train_speed(iter/s)": 0.44794
+    },
+    {
+      "acc": 0.64354773,
+      "epoch": 0.8816590563165906,
+      "grad_norm": 4.84375,
+      "learning_rate": 6.373831646360245e-06,
+      "loss": 1.59737854,
+      "memory(GiB)": 111.15,
+      "step": 34755,
+      "train_speed(iter/s)": 0.447974
+    },
+    {
+      "acc": 0.65238714,
+      "epoch": 0.8817858954845256,
+      "grad_norm": 5.53125,
+      "learning_rate": 6.372823352918048e-06,
+      "loss": 1.64025497,
+      "memory(GiB)": 111.15,
+      "step": 34760,
+      "train_speed(iter/s)": 0.448008
+    },
+    {
+      "acc": 0.64372177,
+      "epoch": 0.8819127346524607,
+      "grad_norm": 5.34375,
+      "learning_rate": 6.371814999092951e-06,
+      "loss": 1.60809784,
+      "memory(GiB)": 111.15,
+      "step": 34765,
+      "train_speed(iter/s)": 0.448042
+    },
+    {
+      "acc": 0.64996862,
+      "epoch": 0.8820395738203958,
+      "grad_norm": 5.0625,
+      "learning_rate": 6.370806584929305e-06,
+      "loss": 1.66322861,
+      "memory(GiB)": 111.15,
+      "step": 34770,
+      "train_speed(iter/s)": 0.448076
+    },
+    {
+      "acc": 0.65588951,
+      "epoch": 0.8821664129883308,
+      "grad_norm": 4.3125,
+      "learning_rate": 6.369798110471463e-06,
+      "loss": 1.61911087,
+      "memory(GiB)": 111.15,
+      "step": 34775,
+      "train_speed(iter/s)": 0.44811
+    },
+    {
+      "acc": 0.65067415,
+      "epoch": 0.8822932521562659,
+      "grad_norm": 5.6875,
+      "learning_rate": 6.368789575763787e-06,
+      "loss": 1.60255051,
+      "memory(GiB)": 111.15,
+      "step": 34780,
+      "train_speed(iter/s)": 0.448144
+    },
+    {
+      "acc": 0.64651403,
+      "epoch": 0.882420091324201,
+      "grad_norm": 6.15625,
+      "learning_rate": 6.367780980850633e-06,
+      "loss": 1.60644455,
+      "memory(GiB)": 111.15,
+      "step": 34785,
+      "train_speed(iter/s)": 0.448178
+    },
+    {
+      "acc": 0.64960489,
+      "epoch": 0.882546930492136,
+      "grad_norm": 5.78125,
+      "learning_rate": 6.366772325776367e-06,
+      "loss": 1.64897404,
+      "memory(GiB)": 111.15,
+      "step": 34790,
+      "train_speed(iter/s)": 0.448212
+    },
+    {
+      "acc": 0.65357895,
+      "epoch": 0.882673769660071,
+      "grad_norm": 5.5,
+      "learning_rate": 6.365763610585349e-06,
+      "loss": 1.58374577,
+      "memory(GiB)": 111.15,
+      "step": 34795,
+      "train_speed(iter/s)": 0.448246
+    },
+    {
+      "acc": 0.67054491,
+      "epoch": 0.882800608828006,
+      "grad_norm": 5.90625,
+      "learning_rate": 6.3647548353219515e-06,
+      "loss": 1.59967499,
+      "memory(GiB)": 111.15,
+      "step": 34800,
+      "train_speed(iter/s)": 0.44828
+    },
+    {
+      "epoch": 0.882800608828006,
+      "eval_acc": 0.6430370513649085,
+      "eval_loss": 1.6092860698699951,
+      "eval_runtime": 114.1223,
+      "eval_samples_per_second": 55.817,
+      "eval_steps_per_second": 27.909,
+      "step": 34800
+    },
+    {
+      "acc": 0.66368871,
+      "epoch": 0.8829274479959411,
+      "grad_norm": 6.03125,
+      "learning_rate": 6.363746000030543e-06,
+      "loss": 1.646068,
+      "memory(GiB)": 111.15,
+      "step": 34805,
+      "train_speed(iter/s)": 0.44763
+    },
+    {
+      "acc": 0.6460813,
+      "epoch": 0.8830542871638762,
+      "grad_norm": 5.96875,
+      "learning_rate": 6.362737104755497e-06,
+      "loss": 1.65825863,
+      "memory(GiB)": 111.15,
+      "step": 34810,
+      "train_speed(iter/s)": 0.447665
+    },
+    {
+      "acc": 0.66513128,
+      "epoch": 0.8831811263318112,
+      "grad_norm": 5.15625,
+      "learning_rate": 6.361728149541188e-06,
+      "loss": 1.60586357,
+      "memory(GiB)": 111.15,
+      "step": 34815,
+      "train_speed(iter/s)": 0.447699
+    },
+    {
+      "acc": 0.65045853,
+      "epoch": 0.8833079654997463,
+      "grad_norm": 5.0,
+      "learning_rate": 6.360719134431995e-06,
+      "loss": 1.66029167,
+      "memory(GiB)": 111.15,
+      "step": 34820,
+      "train_speed(iter/s)": 0.447733
+    },
+    {
+      "acc": 0.66809187,
+      "epoch": 0.8834348046676814,
+      "grad_norm": 6.59375,
+      "learning_rate": 6.359710059472299e-06,
+      "loss": 1.61884613,
+      "memory(GiB)": 111.15,
+      "step": 34825,
+      "train_speed(iter/s)": 0.447767
+    },
+    {
+      "acc": 0.64987679,
+      "epoch": 0.8835616438356164,
+      "grad_norm": 5.59375,
+      "learning_rate": 6.358700924706486e-06,
+      "loss": 1.6418808,
+      "memory(GiB)": 111.15,
+      "step": 34830,
+      "train_speed(iter/s)": 0.4478
+    },
+    {
+      "acc": 0.65272479,
+      "epoch": 0.8836884830035515,
+      "grad_norm": 5.5625,
+      "learning_rate": 6.357691730178939e-06,
+      "loss": 1.6324152,
+      "memory(GiB)": 111.15,
+      "step": 34835,
+      "train_speed(iter/s)": 0.447834
+    },
+    {
+      "acc": 0.63999968,
+      "epoch": 0.8838153221714865,
+      "grad_norm": 5.0625,
+      "learning_rate": 6.356682475934048e-06,
+      "loss": 1.69148636,
+      "memory(GiB)": 111.15,
+      "step": 34840,
+      "train_speed(iter/s)": 0.447868
+    },
+    {
+      "acc": 0.65458541,
+      "epoch": 0.8839421613394216,
+      "grad_norm": 6.03125,
+      "learning_rate": 6.3556731620162036e-06,
+      "loss": 1.61839123,
+      "memory(GiB)": 111.15,
+      "step": 34845,
+      "train_speed(iter/s)": 0.447903
+    },
+    {
+      "acc": 0.6588851,
+      "epoch": 0.8840690005073567,
+      "grad_norm": 6.53125,
+      "learning_rate": 6.354663788469803e-06,
+      "loss": 1.60629597,
+      "memory(GiB)": 111.15,
+      "step": 34850,
+      "train_speed(iter/s)": 0.447936
+    },
+    {
+      "acc": 0.64992585,
+      "epoch": 0.8841958396752917,
+      "grad_norm": 5.59375,
+      "learning_rate": 6.353654355339238e-06,
+      "loss": 1.68643875,
+      "memory(GiB)": 111.15,
+      "step": 34855,
+      "train_speed(iter/s)": 0.447971
+    },
+    {
+      "acc": 0.65827665,
+      "epoch": 0.8843226788432268,
+      "grad_norm": 5.71875,
+      "learning_rate": 6.352644862668914e-06,
+      "loss": 1.61285172,
+      "memory(GiB)": 111.15,
+      "step": 34860,
+      "train_speed(iter/s)": 0.448004
+    },
+    {
+      "acc": 0.66502066,
+      "epoch": 0.8844495180111619,
+      "grad_norm": 5.0625,
+      "learning_rate": 6.351635310503228e-06,
+      "loss": 1.58902035,
+      "memory(GiB)": 111.15,
+      "step": 34865,
+      "train_speed(iter/s)": 0.448038
+    },
+    {
+      "acc": 0.65392323,
+      "epoch": 0.8845763571790969,
+      "grad_norm": 6.6875,
+      "learning_rate": 6.3506256988865865e-06,
+      "loss": 1.59489975,
+      "memory(GiB)": 111.15,
+      "step": 34870,
+      "train_speed(iter/s)": 0.448073
+    },
+    {
+      "acc": 0.65719404,
+      "epoch": 0.884703196347032,
+      "grad_norm": 5.0,
+      "learning_rate": 6.349616027863397e-06,
+      "loss": 1.520364,
+      "memory(GiB)": 111.15,
+      "step": 34875,
+      "train_speed(iter/s)": 0.448107
+    },
+    {
+      "acc": 0.65147948,
+      "epoch": 0.884830035514967,
+      "grad_norm": 4.90625,
+      "learning_rate": 6.34860629747807e-06,
+      "loss": 1.6194191,
+      "memory(GiB)": 111.15,
+      "step": 34880,
+      "train_speed(iter/s)": 0.448141
+    },
+    {
+      "acc": 0.64253235,
+      "epoch": 0.8849568746829021,
+      "grad_norm": 6.71875,
+      "learning_rate": 6.347596507775016e-06,
+      "loss": 1.63857574,
+      "memory(GiB)": 111.15,
+      "step": 34885,
+      "train_speed(iter/s)": 0.448174
+    },
+    {
+      "acc": 0.65490904,
+      "epoch": 0.8850837138508372,
+      "grad_norm": 4.90625,
+      "learning_rate": 6.3465866587986505e-06,
+      "loss": 1.53005581,
+      "memory(GiB)": 111.15,
+      "step": 34890,
+      "train_speed(iter/s)": 0.448208
+    },
+    {
+      "acc": 0.66387405,
+      "epoch": 0.8852105530187722,
+      "grad_norm": 4.78125,
+      "learning_rate": 6.345576750593392e-06,
+      "loss": 1.58788033,
+      "memory(GiB)": 111.15,
+      "step": 34895,
+      "train_speed(iter/s)": 0.448242
+    },
+    {
+      "acc": 0.63290539,
+      "epoch": 0.8853373921867073,
+      "grad_norm": 6.1875,
+      "learning_rate": 6.34456678320366e-06,
+      "loss": 1.7029932,
+      "memory(GiB)": 111.15,
+      "step": 34900,
+      "train_speed(iter/s)": 0.448276
+    },
+    {
+      "epoch": 0.8853373921867073,
+      "eval_acc": 0.6431013875305649,
+      "eval_loss": 1.6092891693115234,
+      "eval_runtime": 113.4019,
+      "eval_samples_per_second": 56.172,
+      "eval_steps_per_second": 28.086,
+      "step": 34900
+    },
+    {
+      "acc": 0.64114714,
+      "epoch": 0.8854642313546424,
+      "grad_norm": 4.6875,
+      "learning_rate": 6.343556756673879e-06,
+      "loss": 1.6703146,
+      "memory(GiB)": 111.15,
+      "step": 34905,
+      "train_speed(iter/s)": 0.447632
+    },
+    {
+      "acc": 0.64677267,
+      "epoch": 0.8855910705225774,
+      "grad_norm": 4.65625,
+      "learning_rate": 6.3425466710484726e-06,
+      "loss": 1.6394825,
+      "memory(GiB)": 111.15,
+      "step": 34910,
+      "train_speed(iter/s)": 0.447665
+    },
+    {
+      "acc": 0.64145279,
+      "epoch": 0.8857179096905125,
+      "grad_norm": 5.75,
+      "learning_rate": 6.3415365263718686e-06,
+      "loss": 1.67763233,
+      "memory(GiB)": 111.15,
+      "step": 34915,
+      "train_speed(iter/s)": 0.447699
+    },
+    {
+      "acc": 0.64709215,
+      "epoch": 0.8858447488584474,
+      "grad_norm": 5.0,
+      "learning_rate": 6.340526322688501e-06,
+      "loss": 1.57831154,
+      "memory(GiB)": 111.15,
+      "step": 34920,
+      "train_speed(iter/s)": 0.447732
+    },
+    {
+      "acc": 0.65505872,
+      "epoch": 0.8859715880263825,
+      "grad_norm": 5.875,
+      "learning_rate": 6.339516060042798e-06,
+      "loss": 1.65564022,
+      "memory(GiB)": 111.15,
+      "step": 34925,
+      "train_speed(iter/s)": 0.447766
+    },
+    {
+      "acc": 0.63558779,
+      "epoch": 0.8860984271943176,
+      "grad_norm": 5.5625,
+      "learning_rate": 6.3385057384792e-06,
+      "loss": 1.65198135,
+      "memory(GiB)": 111.15,
+      "step": 34930,
+      "train_speed(iter/s)": 0.447799
+    },
+    {
+      "acc": 0.63833342,
+      "epoch": 0.8862252663622526,
+      "grad_norm": 6.375,
+      "learning_rate": 6.337495358042143e-06,
+      "loss": 1.65172653,
+      "memory(GiB)": 111.15,
+      "step": 34935,
+      "train_speed(iter/s)": 0.447832
+    },
+    {
+      "acc": 0.64745626,
+      "epoch": 0.8863521055301877,
+      "grad_norm": 5.25,
+      "learning_rate": 6.336484918776069e-06,
+      "loss": 1.66031723,
+      "memory(GiB)": 111.15,
+      "step": 34940,
+      "train_speed(iter/s)": 0.447866
+    },
+    {
+      "acc": 0.66223927,
+      "epoch": 0.8864789446981228,
+      "grad_norm": 4.84375,
+      "learning_rate": 6.335474420725421e-06,
+      "loss": 1.61480904,
+      "memory(GiB)": 111.15,
+      "step": 34945,
+      "train_speed(iter/s)": 0.447899
+    },
+    {
+      "acc": 0.63751144,
+      "epoch": 0.8866057838660578,
+      "grad_norm": 5.3125,
+      "learning_rate": 6.334463863934646e-06,
+      "loss": 1.66160088,
+      "memory(GiB)": 111.15,
+      "step": 34950,
+      "train_speed(iter/s)": 0.447933
+    },
+    {
+      "acc": 0.64297414,
+      "epoch": 0.8867326230339929,
+      "grad_norm": 4.6875,
+      "learning_rate": 6.333453248448192e-06,
+      "loss": 1.60042152,
+      "memory(GiB)": 111.15,
+      "step": 34955,
+      "train_speed(iter/s)": 0.447967
+    },
+    {
+      "acc": 0.62930713,
+      "epoch": 0.8868594622019279,
+      "grad_norm": 5.40625,
+      "learning_rate": 6.33244257431051e-06,
+      "loss": 1.76536121,
+      "memory(GiB)": 111.15,
+      "step": 34960,
+      "train_speed(iter/s)": 0.448001
+    },
+    {
+      "acc": 0.6521862,
+      "epoch": 0.886986301369863,
+      "grad_norm": 4.90625,
+      "learning_rate": 6.331431841566056e-06,
+      "loss": 1.64796829,
+      "memory(GiB)": 111.15,
+      "step": 34965,
+      "train_speed(iter/s)": 0.448034
+    },
+    {
+      "acc": 0.65478029,
+      "epoch": 0.8871131405377981,
+      "grad_norm": 6.1875,
+      "learning_rate": 6.330421050259283e-06,
+      "loss": 1.63373394,
+      "memory(GiB)": 111.15,
+      "step": 34970,
+      "train_speed(iter/s)": 0.448068
+    },
+    {
+      "acc": 0.64528475,
+      "epoch": 0.8872399797057331,
+      "grad_norm": 6.40625,
+      "learning_rate": 6.329410200434655e-06,
+      "loss": 1.56888676,
+      "memory(GiB)": 111.15,
+      "step": 34975,
+      "train_speed(iter/s)": 0.448102
+    },
+    {
+      "acc": 0.64811211,
+      "epoch": 0.8873668188736682,
+      "grad_norm": 5.03125,
+      "learning_rate": 6.328399292136629e-06,
+      "loss": 1.66445427,
+      "memory(GiB)": 111.15,
+      "step": 34980,
+      "train_speed(iter/s)": 0.448136
+    },
+    {
+      "acc": 0.64383354,
+      "epoch": 0.8874936580416033,
+      "grad_norm": 5.6875,
+      "learning_rate": 6.327388325409672e-06,
+      "loss": 1.65385933,
+      "memory(GiB)": 111.15,
+      "step": 34985,
+      "train_speed(iter/s)": 0.44817
+    },
+    {
+      "acc": 0.62844038,
+      "epoch": 0.8876204972095383,
+      "grad_norm": 4.78125,
+      "learning_rate": 6.326377300298251e-06,
+      "loss": 1.65047245,
+      "memory(GiB)": 111.15,
+      "step": 34990,
+      "train_speed(iter/s)": 0.448204
+    },
+    {
+      "acc": 0.66008787,
+      "epoch": 0.8877473363774734,
+      "grad_norm": 5.3125,
+      "learning_rate": 6.325366216846832e-06,
+      "loss": 1.61452103,
+      "memory(GiB)": 111.15,
+      "step": 34995,
+      "train_speed(iter/s)": 0.448237
+    },
+    {
+      "acc": 0.65793257,
+      "epoch": 0.8878741755454084,
+      "grad_norm": 6.3125,
+      "learning_rate": 6.324355075099893e-06,
+      "loss": 1.67592697,
+      "memory(GiB)": 111.15,
+      "step": 35000,
+      "train_speed(iter/s)": 0.448271
+    },
+    {
+      "epoch": 0.8878741755454084,
+      "eval_acc": 0.6430846768381866,
+      "eval_loss": 1.6092051267623901,
+      "eval_runtime": 113.7245,
+      "eval_samples_per_second": 56.013,
+      "eval_steps_per_second": 28.006,
+      "step": 35000
+    },
+    {
+      "acc": 0.64716396,
+      "epoch": 0.8880010147133435,
+      "grad_norm": 4.875,
+      "learning_rate": 6.3233438751019016e-06,
+      "loss": 1.65020752,
+      "memory(GiB)": 111.15,
+      "step": 35005,
+      "train_speed(iter/s)": 0.447627
+    },
+    {
+      "acc": 0.65882621,
+      "epoch": 0.8881278538812786,
+      "grad_norm": 5.90625,
+      "learning_rate": 6.322332616897341e-06,
+      "loss": 1.59352236,
+      "memory(GiB)": 111.15,
+      "step": 35010,
+      "train_speed(iter/s)": 0.44766
+    },
+    {
+      "acc": 0.66349912,
+      "epoch": 0.8882546930492136,
+      "grad_norm": 5.59375,
+      "learning_rate": 6.321321300530685e-06,
+      "loss": 1.50159092,
+      "memory(GiB)": 111.15,
+      "step": 35015,
+      "train_speed(iter/s)": 0.447694
+    },
+    {
+      "acc": 0.66465912,
+      "epoch": 0.8883815322171487,
+      "grad_norm": 6.0,
+      "learning_rate": 6.320309926046421e-06,
+      "loss": 1.58760328,
+      "memory(GiB)": 111.15,
+      "step": 35020,
+      "train_speed(iter/s)": 0.447727
+    },
+    {
+      "acc": 0.63615427,
+      "epoch": 0.8885083713850838,
+      "grad_norm": 5.9375,
+      "learning_rate": 6.319298493489032e-06,
+      "loss": 1.67938538,
+      "memory(GiB)": 111.15,
+      "step": 35025,
+      "train_speed(iter/s)": 0.44776
+    },
+    {
+      "acc": 0.64092011,
+      "epoch": 0.8886352105530188,
+      "grad_norm": 5.9375,
+      "learning_rate": 6.318287002903004e-06,
+      "loss": 1.59933052,
+      "memory(GiB)": 111.15,
+      "step": 35030,
+      "train_speed(iter/s)": 0.447794
+    },
+    {
+      "acc": 0.62803988,
+      "epoch": 0.8887620497209539,
+      "grad_norm": 5.6875,
+      "learning_rate": 6.317275454332829e-06,
+      "loss": 1.66207161,
+      "memory(GiB)": 111.15,
+      "step": 35035,
+      "train_speed(iter/s)": 0.447828
+    },
+    {
+      "acc": 0.6430089,
+      "epoch": 0.8888888888888888,
+      "grad_norm": 6.4375,
+      "learning_rate": 6.3162638478229965e-06,
+      "loss": 1.65603638,
+      "memory(GiB)": 111.15,
+      "step": 35040,
+      "train_speed(iter/s)": 0.447862
+    },
+    {
+      "acc": 0.64778814,
+      "epoch": 0.8890157280568239,
+      "grad_norm": 5.65625,
+      "learning_rate": 6.315252183418005e-06,
+      "loss": 1.62399139,
+      "memory(GiB)": 111.15,
+      "step": 35045,
+      "train_speed(iter/s)": 0.447895
+    },
+    {
+      "acc": 0.63704357,
+      "epoch": 0.889142567224759,
+      "grad_norm": 4.875,
+      "learning_rate": 6.31424046116235e-06,
+      "loss": 1.74830837,
+      "memory(GiB)": 111.15,
+      "step": 35050,
+      "train_speed(iter/s)": 0.447929
+    },
+    {
+      "acc": 0.64435329,
+      "epoch": 0.889269406392694,
+      "grad_norm": 5.09375,
+      "learning_rate": 6.313228681100532e-06,
+      "loss": 1.63337917,
+      "memory(GiB)": 111.15,
+      "step": 35055,
+      "train_speed(iter/s)": 0.447962
+    },
+    {
+      "acc": 0.66050153,
+      "epoch": 0.8893962455606291,
+      "grad_norm": 5.0625,
+      "learning_rate": 6.312216843277052e-06,
+      "loss": 1.59275589,
+      "memory(GiB)": 111.15,
+      "step": 35060,
+      "train_speed(iter/s)": 0.447996
+    },
+    {
+      "acc": 0.61366501,
+      "epoch": 0.8895230847285642,
+      "grad_norm": 5.34375,
+      "learning_rate": 6.3112049477364165e-06,
+      "loss": 1.7233511,
+      "memory(GiB)": 111.15,
+      "step": 35065,
+      "train_speed(iter/s)": 0.448029
+    },
+    {
+      "acc": 0.65200768,
+      "epoch": 0.8896499238964992,
+      "grad_norm": 6.03125,
+      "learning_rate": 6.310192994523137e-06,
+      "loss": 1.66232586,
+      "memory(GiB)": 111.15,
+      "step": 35070,
+      "train_speed(iter/s)": 0.448062
+    },
+    {
+      "acc": 0.64550676,
+      "epoch": 0.8897767630644343,
+      "grad_norm": 5.28125,
+      "learning_rate": 6.309180983681716e-06,
+      "loss": 1.63173599,
+      "memory(GiB)": 111.15,
+      "step": 35075,
+      "train_speed(iter/s)": 0.448096
+    },
+    {
+      "acc": 0.63843913,
+      "epoch": 0.8899036022323693,
+      "grad_norm": 5.0625,
+      "learning_rate": 6.308168915256671e-06,
+      "loss": 1.68556232,
+      "memory(GiB)": 111.15,
+      "step": 35080,
+      "train_speed(iter/s)": 0.448129
+    },
+    {
+      "acc": 0.63880029,
+      "epoch": 0.8900304414003044,
+      "grad_norm": 5.84375,
+      "learning_rate": 6.307156789292518e-06,
+      "loss": 1.69357662,
+      "memory(GiB)": 111.15,
+      "step": 35085,
+      "train_speed(iter/s)": 0.448163
+    },
+    {
+      "acc": 0.65982151,
+      "epoch": 0.8901572805682395,
+      "grad_norm": 5.3125,
+      "learning_rate": 6.306144605833773e-06,
+      "loss": 1.61862621,
+      "memory(GiB)": 111.15,
+      "step": 35090,
+      "train_speed(iter/s)": 0.448196
+    },
+    {
+      "acc": 0.63373127,
+      "epoch": 0.8902841197361745,
+      "grad_norm": 5.59375,
+      "learning_rate": 6.305132364924955e-06,
+      "loss": 1.62930679,
+      "memory(GiB)": 111.15,
+      "step": 35095,
+      "train_speed(iter/s)": 0.44823
+    },
+    {
+      "acc": 0.64103928,
+      "epoch": 0.8904109589041096,
+      "grad_norm": 6.3125,
+      "learning_rate": 6.3041200666105905e-06,
+      "loss": 1.63158073,
+      "memory(GiB)": 111.15,
+      "step": 35100,
+      "train_speed(iter/s)": 0.448263
+    },
+    {
+      "epoch": 0.8904109589041096,
+      "eval_acc": 0.6430500021515017,
+      "eval_loss": 1.6091042757034302,
+      "eval_runtime": 113.7128,
+      "eval_samples_per_second": 56.018,
+      "eval_steps_per_second": 28.009,
+      "step": 35100
+    },
+    {
+      "acc": 0.645959,
+      "epoch": 0.8905377980720447,
+      "grad_norm": 4.625,
+      "learning_rate": 6.303107710935202e-06,
+      "loss": 1.65226059,
+      "memory(GiB)": 111.15,
+      "step": 35105,
+      "train_speed(iter/s)": 0.447621
+    },
+    {
+      "acc": 0.63429556,
+      "epoch": 0.8906646372399797,
+      "grad_norm": 5.125,
+      "learning_rate": 6.302095297943319e-06,
+      "loss": 1.62112045,
+      "memory(GiB)": 111.15,
+      "step": 35110,
+      "train_speed(iter/s)": 0.447654
+    },
+    {
+      "acc": 0.64011493,
+      "epoch": 0.8907914764079148,
+      "grad_norm": 4.90625,
+      "learning_rate": 6.301082827679472e-06,
+      "loss": 1.63805733,
+      "memory(GiB)": 111.15,
+      "step": 35115,
+      "train_speed(iter/s)": 0.447688
+    },
+    {
+      "acc": 0.67653227,
+      "epoch": 0.8909183155758498,
+      "grad_norm": 6.0625,
+      "learning_rate": 6.300070300188192e-06,
+      "loss": 1.56956062,
+      "memory(GiB)": 111.15,
+      "step": 35120,
+      "train_speed(iter/s)": 0.447721
+    },
+    {
+      "acc": 0.65438004,
+      "epoch": 0.8910451547437849,
+      "grad_norm": 7.0625,
+      "learning_rate": 6.2990577155140164e-06,
+      "loss": 1.64688797,
+      "memory(GiB)": 111.15,
+      "step": 35125,
+      "train_speed(iter/s)": 0.447755
+    },
+    {
+      "acc": 0.65322514,
+      "epoch": 0.89117199391172,
+      "grad_norm": 5.53125,
+      "learning_rate": 6.298045073701483e-06,
+      "loss": 1.58845615,
+      "memory(GiB)": 111.15,
+      "step": 35130,
+      "train_speed(iter/s)": 0.447789
+    },
+    {
+      "acc": 0.64744053,
+      "epoch": 0.891298833079655,
+      "grad_norm": 5.15625,
+      "learning_rate": 6.29703237479513e-06,
+      "loss": 1.61314106,
+      "memory(GiB)": 111.15,
+      "step": 35135,
+      "train_speed(iter/s)": 0.447822
+    },
+    {
+      "acc": 0.64623408,
+      "epoch": 0.8914256722475901,
+      "grad_norm": 5.0,
+      "learning_rate": 6.296019618839505e-06,
+      "loss": 1.67203598,
+      "memory(GiB)": 111.15,
+      "step": 35140,
+      "train_speed(iter/s)": 0.447856
+    },
+    {
+      "acc": 0.66794319,
+      "epoch": 0.8915525114155252,
+      "grad_norm": 4.78125,
+      "learning_rate": 6.295006805879149e-06,
+      "loss": 1.58099632,
+      "memory(GiB)": 111.15,
+      "step": 35145,
+      "train_speed(iter/s)": 0.447889
+    },
+    {
+      "acc": 0.64470253,
+      "epoch": 0.8916793505834602,
+      "grad_norm": 5.3125,
+      "learning_rate": 6.293993935958613e-06,
+      "loss": 1.58829861,
+      "memory(GiB)": 111.15,
+      "step": 35150,
+      "train_speed(iter/s)": 0.447923
+    },
+    {
+      "acc": 0.65120764,
+      "epoch": 0.8918061897513953,
+      "grad_norm": 4.9375,
+      "learning_rate": 6.292981009122445e-06,
+      "loss": 1.6150774,
+      "memory(GiB)": 111.15,
+      "step": 35155,
+      "train_speed(iter/s)": 0.447957
+    },
+    {
+      "acc": 0.64268789,
+      "epoch": 0.8919330289193302,
+      "grad_norm": 6.0625,
+      "learning_rate": 6.291968025415202e-06,
+      "loss": 1.6526083,
+      "memory(GiB)": 111.15,
+      "step": 35160,
+      "train_speed(iter/s)": 0.447991
+    },
+    {
+      "acc": 0.65108261,
+      "epoch": 0.8920598680872653,
+      "grad_norm": 5.21875,
+      "learning_rate": 6.290954984881434e-06,
+      "loss": 1.62632427,
+      "memory(GiB)": 111.15,
+      "step": 35165,
+      "train_speed(iter/s)": 0.448025
+    },
+    {
+      "acc": 0.65372324,
+      "epoch": 0.8921867072552004,
+      "grad_norm": 5.875,
+      "learning_rate": 6.289941887565703e-06,
+      "loss": 1.65655174,
+      "memory(GiB)": 111.15,
+      "step": 35170,
+      "train_speed(iter/s)": 0.448058
+    },
+    {
+      "acc": 0.6686132,
+      "epoch": 0.8923135464231354,
+      "grad_norm": 5.625,
+      "learning_rate": 6.288928733512569e-06,
+      "loss": 1.57822742,
+      "memory(GiB)": 111.15,
+      "step": 35175,
+      "train_speed(iter/s)": 0.448092
+    },
+    {
+      "acc": 0.66168518,
+      "epoch": 0.8924403855910705,
+      "grad_norm": 5.53125,
+      "learning_rate": 6.287915522766596e-06,
+      "loss": 1.57102699,
+      "memory(GiB)": 111.15,
+      "step": 35180,
+      "train_speed(iter/s)": 0.448125
+    },
+    {
+      "acc": 0.64310112,
+      "epoch": 0.8925672247590056,
+      "grad_norm": 5.65625,
+      "learning_rate": 6.2869022553723465e-06,
+      "loss": 1.61847668,
+      "memory(GiB)": 111.15,
+      "step": 35185,
+      "train_speed(iter/s)": 0.448159
+    },
+    {
+      "acc": 0.66190262,
+      "epoch": 0.8926940639269406,
+      "grad_norm": 5.0,
+      "learning_rate": 6.285888931374391e-06,
+      "loss": 1.58692093,
+      "memory(GiB)": 111.15,
+      "step": 35190,
+      "train_speed(iter/s)": 0.448193
+    },
+    {
+      "acc": 0.64556694,
+      "epoch": 0.8928209030948757,
+      "grad_norm": 5.1875,
+      "learning_rate": 6.284875550817299e-06,
+      "loss": 1.59955931,
+      "memory(GiB)": 111.15,
+      "step": 35195,
+      "train_speed(iter/s)": 0.448227
+    },
+    {
+      "acc": 0.64750071,
+      "epoch": 0.8929477422628107,
+      "grad_norm": 5.03125,
+      "learning_rate": 6.2838621137456425e-06,
+      "loss": 1.62667313,
+      "memory(GiB)": 111.15,
+      "step": 35200,
+      "train_speed(iter/s)": 0.448261
+    },
+    {
+      "epoch": 0.8929477422628107,
+      "eval_acc": 0.6431277068710607,
+      "eval_loss": 1.60905122756958,
+      "eval_runtime": 113.3999,
+      "eval_samples_per_second": 56.173,
+      "eval_steps_per_second": 28.086,
+      "step": 35200
+    },
+    {
+      "acc": 0.64743481,
+      "epoch": 0.8930745814307458,
+      "grad_norm": 4.28125,
+      "learning_rate": 6.282848620203999e-06,
+      "loss": 1.60228386,
+      "memory(GiB)": 111.15,
+      "step": 35205,
+      "train_speed(iter/s)": 0.447622
+    },
+    {
+      "acc": 0.65784287,
+      "epoch": 0.8932014205986809,
+      "grad_norm": 5.1875,
+      "learning_rate": 6.2818350702369466e-06,
+      "loss": 1.62720032,
+      "memory(GiB)": 111.15,
+      "step": 35210,
+      "train_speed(iter/s)": 0.447656
+    },
+    {
+      "acc": 0.65014086,
+      "epoch": 0.8933282597666159,
+      "grad_norm": 6.59375,
+      "learning_rate": 6.280821463889063e-06,
+      "loss": 1.65376663,
+      "memory(GiB)": 111.15,
+      "step": 35215,
+      "train_speed(iter/s)": 0.447689
+    },
+    {
+      "acc": 0.66236334,
+      "epoch": 0.893455098934551,
+      "grad_norm": 5.28125,
+      "learning_rate": 6.279807801204936e-06,
+      "loss": 1.60311623,
+      "memory(GiB)": 111.15,
+      "step": 35220,
+      "train_speed(iter/s)": 0.447723
+    },
+    {
+      "acc": 0.66626415,
+      "epoch": 0.8935819381024861,
+      "grad_norm": 5.15625,
+      "learning_rate": 6.278794082229145e-06,
+      "loss": 1.61392879,
+      "memory(GiB)": 111.15,
+      "step": 35225,
+      "train_speed(iter/s)": 0.447756
+    },
+    {
+      "acc": 0.65733943,
+      "epoch": 0.8937087772704211,
+      "grad_norm": 5.625,
+      "learning_rate": 6.2777803070062825e-06,
+      "loss": 1.64342575,
+      "memory(GiB)": 111.15,
+      "step": 35230,
+      "train_speed(iter/s)": 0.447789
+    },
+    {
+      "acc": 0.65224304,
+      "epoch": 0.8938356164383562,
+      "grad_norm": 5.1875,
+      "learning_rate": 6.276766475580935e-06,
+      "loss": 1.59731293,
+      "memory(GiB)": 111.15,
+      "step": 35235,
+      "train_speed(iter/s)": 0.447822
+    },
+    {
+      "acc": 0.63356943,
+      "epoch": 0.8939624556062912,
+      "grad_norm": 5.34375,
+      "learning_rate": 6.2757525879977e-06,
+      "loss": 1.71369019,
+      "memory(GiB)": 111.15,
+      "step": 35240,
+      "train_speed(iter/s)": 0.447856
+    },
+    {
+      "acc": 0.64796629,
+      "epoch": 0.8940892947742263,
+      "grad_norm": 5.9375,
+      "learning_rate": 6.27473864430117e-06,
+      "loss": 1.67707577,
+      "memory(GiB)": 111.15,
+      "step": 35245,
+      "train_speed(iter/s)": 0.44789
+    },
+    {
+      "acc": 0.63016853,
+      "epoch": 0.8942161339421614,
+      "grad_norm": 5.625,
+      "learning_rate": 6.273724644535942e-06,
+      "loss": 1.66127205,
+      "memory(GiB)": 111.15,
+      "step": 35250,
+      "train_speed(iter/s)": 0.447924
+    },
+    {
+      "acc": 0.64981527,
+      "epoch": 0.8943429731100964,
+      "grad_norm": 4.8125,
+      "learning_rate": 6.272710588746619e-06,
+      "loss": 1.58839979,
+      "memory(GiB)": 111.15,
+      "step": 35255,
+      "train_speed(iter/s)": 0.447958
+    },
+    {
+      "acc": 0.64008727,
+      "epoch": 0.8944698122780315,
+      "grad_norm": 5.03125,
+      "learning_rate": 6.271696476977801e-06,
+      "loss": 1.67277279,
+      "memory(GiB)": 111.15,
+      "step": 35260,
+      "train_speed(iter/s)": 0.447992
+    },
+    {
+      "acc": 0.64659457,
+      "epoch": 0.8945966514459666,
+      "grad_norm": 5.09375,
+      "learning_rate": 6.270682309274094e-06,
+      "loss": 1.60620575,
+      "memory(GiB)": 111.15,
+      "step": 35265,
+      "train_speed(iter/s)": 0.448026
+    },
+    {
+      "acc": 0.65289087,
+      "epoch": 0.8947234906139016,
+      "grad_norm": 5.0625,
+      "learning_rate": 6.269668085680106e-06,
+      "loss": 1.6108654,
+      "memory(GiB)": 111.15,
+      "step": 35270,
+      "train_speed(iter/s)": 0.44806
+    },
+    {
+      "acc": 0.6387578,
+      "epoch": 0.8948503297818367,
+      "grad_norm": 6.4375,
+      "learning_rate": 6.268653806240448e-06,
+      "loss": 1.67899342,
+      "memory(GiB)": 111.15,
+      "step": 35275,
+      "train_speed(iter/s)": 0.448094
+    },
+    {
+      "acc": 0.65749226,
+      "epoch": 0.8949771689497716,
+      "grad_norm": 5.09375,
+      "learning_rate": 6.26763947099973e-06,
+      "loss": 1.61092415,
+      "memory(GiB)": 111.15,
+      "step": 35280,
+      "train_speed(iter/s)": 0.448128
+    },
+    {
+      "acc": 0.63997116,
+      "epoch": 0.8951040081177067,
+      "grad_norm": 5.6875,
+      "learning_rate": 6.266625080002569e-06,
+      "loss": 1.73264046,
+      "memory(GiB)": 111.15,
+      "step": 35285,
+      "train_speed(iter/s)": 0.448162
+    },
+    {
+      "acc": 0.64351435,
+      "epoch": 0.8952308472856418,
+      "grad_norm": 4.90625,
+      "learning_rate": 6.265610633293582e-06,
+      "loss": 1.63274193,
+      "memory(GiB)": 111.15,
+      "step": 35290,
+      "train_speed(iter/s)": 0.448195
+    },
+    {
+      "acc": 0.64347711,
+      "epoch": 0.8953576864535768,
+      "grad_norm": 6.0625,
+      "learning_rate": 6.264596130917389e-06,
+      "loss": 1.58518639,
+      "memory(GiB)": 111.15,
+      "step": 35295,
+      "train_speed(iter/s)": 0.448229
+    },
+    {
+      "acc": 0.66629229,
+      "epoch": 0.8954845256215119,
+      "grad_norm": 5.96875,
+      "learning_rate": 6.2635815729186124e-06,
+      "loss": 1.51253223,
+      "memory(GiB)": 111.15,
+      "step": 35300,
+      "train_speed(iter/s)": 0.448263
+    },
+    {
+      "epoch": 0.8954845256215119,
+      "eval_acc": 0.6431180982229432,
+      "eval_loss": 1.609094500541687,
+      "eval_runtime": 113.8192,
+      "eval_samples_per_second": 55.966,
+      "eval_steps_per_second": 27.983,
+      "step": 35300
+    },
+    {
+      "acc": 0.64582,
+      "epoch": 0.895611364789447,
+      "grad_norm": 6.0625,
+      "learning_rate": 6.2625669593418744e-06,
+      "loss": 1.61476517,
+      "memory(GiB)": 111.15,
+      "step": 35305,
+      "train_speed(iter/s)": 0.447625
+    },
+    {
+      "acc": 0.6387918,
+      "epoch": 0.895738203957382,
+      "grad_norm": 6.625,
+      "learning_rate": 6.261552290231807e-06,
+      "loss": 1.63134499,
+      "memory(GiB)": 111.15,
+      "step": 35310,
+      "train_speed(iter/s)": 0.447658
+    },
+    {
+      "acc": 0.65804834,
+      "epoch": 0.8958650431253171,
+      "grad_norm": 4.90625,
+      "learning_rate": 6.260537565633037e-06,
+      "loss": 1.56066971,
+      "memory(GiB)": 111.15,
+      "step": 35315,
+      "train_speed(iter/s)": 0.447692
+    },
+    {
+      "acc": 0.65116673,
+      "epoch": 0.8959918822932521,
+      "grad_norm": 5.15625,
+      "learning_rate": 6.259522785590197e-06,
+      "loss": 1.62811966,
+      "memory(GiB)": 111.15,
+      "step": 35320,
+      "train_speed(iter/s)": 0.447726
+    },
+    {
+      "acc": 0.63588562,
+      "epoch": 0.8961187214611872,
+      "grad_norm": 6.0625,
+      "learning_rate": 6.2585079501479205e-06,
+      "loss": 1.6877697,
+      "memory(GiB)": 111.15,
+      "step": 35325,
+      "train_speed(iter/s)": 0.447761
+    },
+    {
+      "acc": 0.64812555,
+      "epoch": 0.8962455606291223,
+      "grad_norm": 5.375,
+      "learning_rate": 6.257493059350848e-06,
+      "loss": 1.57535,
+      "memory(GiB)": 111.15,
+      "step": 35330,
+      "train_speed(iter/s)": 0.447795
+    },
+    {
+      "acc": 0.65283685,
+      "epoch": 0.8963723997970573,
+      "grad_norm": 4.5,
+      "learning_rate": 6.256478113243613e-06,
+      "loss": 1.65464935,
+      "memory(GiB)": 111.15,
+      "step": 35335,
+      "train_speed(iter/s)": 0.447829
+    },
+    {
+      "acc": 0.64955029,
+      "epoch": 0.8964992389649924,
+      "grad_norm": 5.0625,
+      "learning_rate": 6.255463111870864e-06,
+      "loss": 1.62873287,
+      "memory(GiB)": 111.15,
+      "step": 35340,
+      "train_speed(iter/s)": 0.447863
+    },
+    {
+      "acc": 0.64963188,
+      "epoch": 0.8966260781329275,
+      "grad_norm": 5.28125,
+      "learning_rate": 6.25444805527724e-06,
+      "loss": 1.66075191,
+      "memory(GiB)": 111.15,
+      "step": 35345,
+      "train_speed(iter/s)": 0.447897
+    },
+    {
+      "acc": 0.64682283,
+      "epoch": 0.8967529173008625,
+      "grad_norm": 5.90625,
+      "learning_rate": 6.253432943507391e-06,
+      "loss": 1.69245644,
+      "memory(GiB)": 111.15,
+      "step": 35350,
+      "train_speed(iter/s)": 0.447931
+    },
+    {
+      "acc": 0.65439024,
+      "epoch": 0.8968797564687976,
+      "grad_norm": 5.96875,
+      "learning_rate": 6.252417776605964e-06,
+      "loss": 1.60527534,
+      "memory(GiB)": 111.15,
+      "step": 35355,
+      "train_speed(iter/s)": 0.447965
+    },
+    {
+      "acc": 0.6608459,
+      "epoch": 0.8970065956367326,
+      "grad_norm": 5.25,
+      "learning_rate": 6.251402554617613e-06,
+      "loss": 1.54255772,
+      "memory(GiB)": 111.15,
+      "step": 35360,
+      "train_speed(iter/s)": 0.448
+    },
+    {
+      "acc": 0.62607093,
+      "epoch": 0.8971334348046677,
+      "grad_norm": 7.28125,
+      "learning_rate": 6.2503872775869886e-06,
+      "loss": 1.7455513,
+      "memory(GiB)": 111.15,
+      "step": 35365,
+      "train_speed(iter/s)": 0.448034
+    },
+    {
+      "acc": 0.66820369,
+      "epoch": 0.8972602739726028,
+      "grad_norm": 5.3125,
+      "learning_rate": 6.249371945558751e-06,
+      "loss": 1.58529482,
+      "memory(GiB)": 111.15,
+      "step": 35370,
+      "train_speed(iter/s)": 0.448068
+    },
+    {
+      "acc": 0.65850353,
+      "epoch": 0.8973871131405378,
+      "grad_norm": 5.21875,
+      "learning_rate": 6.248356558577555e-06,
+      "loss": 1.59365473,
+      "memory(GiB)": 111.15,
+      "step": 35375,
+      "train_speed(iter/s)": 0.448102
+    },
+    {
+      "acc": 0.6594625,
+      "epoch": 0.8975139523084729,
+      "grad_norm": 7.09375,
+      "learning_rate": 6.247341116688067e-06,
+      "loss": 1.64302788,
+      "memory(GiB)": 111.15,
+      "step": 35380,
+      "train_speed(iter/s)": 0.448136
+    },
+    {
+      "acc": 0.65186806,
+      "epoch": 0.897640791476408,
+      "grad_norm": 5.125,
+      "learning_rate": 6.246325619934945e-06,
+      "loss": 1.5920516,
+      "memory(GiB)": 111.15,
+      "step": 35385,
+      "train_speed(iter/s)": 0.448171
+    },
+    {
+      "acc": 0.65177813,
+      "epoch": 0.897767630644343,
+      "grad_norm": 6.34375,
+      "learning_rate": 6.245310068362859e-06,
+      "loss": 1.61536999,
+      "memory(GiB)": 111.15,
+      "step": 35390,
+      "train_speed(iter/s)": 0.448205
+    },
+    {
+      "acc": 0.64882827,
+      "epoch": 0.897894469812278,
+      "grad_norm": 5.3125,
+      "learning_rate": 6.244294462016476e-06,
+      "loss": 1.66434879,
+      "memory(GiB)": 111.15,
+      "step": 35395,
+      "train_speed(iter/s)": 0.448239
+    },
+    {
+      "acc": 0.66944933,
+      "epoch": 0.898021308980213,
+      "grad_norm": 6.71875,
+      "learning_rate": 6.243278800940468e-06,
+      "loss": 1.55462313,
+      "memory(GiB)": 111.15,
+      "step": 35400,
+      "train_speed(iter/s)": 0.448273
+    },
+    {
+      "epoch": 0.898021308980213,
+      "eval_acc": 0.643109742876754,
+      "eval_loss": 1.609106421470642,
+      "eval_runtime": 113.9542,
+      "eval_samples_per_second": 55.9,
+      "eval_steps_per_second": 27.95,
+      "step": 35400
+    },
+    {
+      "acc": 0.65264606,
+      "epoch": 0.8981481481481481,
+      "grad_norm": 6.09375,
+      "learning_rate": 6.242263085179506e-06,
+      "loss": 1.6316534,
+      "memory(GiB)": 111.15,
+      "step": 35405,
+      "train_speed(iter/s)": 0.447636
+    },
+    {
+      "acc": 0.6496666,
+      "epoch": 0.8982749873160832,
+      "grad_norm": 4.5625,
+      "learning_rate": 6.241247314778269e-06,
+      "loss": 1.62656364,
+      "memory(GiB)": 111.15,
+      "step": 35410,
+      "train_speed(iter/s)": 0.44767
+    },
+    {
+      "acc": 0.64449596,
+      "epoch": 0.8984018264840182,
+      "grad_norm": 4.71875,
+      "learning_rate": 6.240231489781432e-06,
+      "loss": 1.67344418,
+      "memory(GiB)": 111.15,
+      "step": 35415,
+      "train_speed(iter/s)": 0.447704
+    },
+    {
+      "acc": 0.64022503,
+      "epoch": 0.8985286656519533,
+      "grad_norm": 5.65625,
+      "learning_rate": 6.239215610233678e-06,
+      "loss": 1.62981796,
+      "memory(GiB)": 111.15,
+      "step": 35420,
+      "train_speed(iter/s)": 0.447738
+    },
+    {
+      "acc": 0.65906234,
+      "epoch": 0.8986555048198884,
+      "grad_norm": 5.90625,
+      "learning_rate": 6.238199676179688e-06,
+      "loss": 1.61109581,
+      "memory(GiB)": 111.15,
+      "step": 35425,
+      "train_speed(iter/s)": 0.447772
+    },
+    {
+      "acc": 0.6585978,
+      "epoch": 0.8987823439878234,
+      "grad_norm": 5.625,
+      "learning_rate": 6.2371836876641475e-06,
+      "loss": 1.598283,
+      "memory(GiB)": 111.15,
+      "step": 35430,
+      "train_speed(iter/s)": 0.447807
+    },
+    {
+      "acc": 0.64404993,
+      "epoch": 0.8989091831557585,
+      "grad_norm": 5.8125,
+      "learning_rate": 6.236167644731745e-06,
+      "loss": 1.63840809,
+      "memory(GiB)": 111.15,
+      "step": 35435,
+      "train_speed(iter/s)": 0.447841
+    },
+    {
+      "acc": 0.6568943,
+      "epoch": 0.8990360223236935,
+      "grad_norm": 5.3125,
+      "learning_rate": 6.235151547427172e-06,
+      "loss": 1.60268364,
+      "memory(GiB)": 111.15,
+      "step": 35440,
+      "train_speed(iter/s)": 0.447875
+    },
+    {
+      "acc": 0.65012569,
+      "epoch": 0.8991628614916286,
+      "grad_norm": 5.0,
+      "learning_rate": 6.2341353957951165e-06,
+      "loss": 1.63024292,
+      "memory(GiB)": 111.15,
+      "step": 35445,
+      "train_speed(iter/s)": 0.447909
+    },
+    {
+      "acc": 0.63096809,
+      "epoch": 0.8992897006595637,
+      "grad_norm": 6.34375,
+      "learning_rate": 6.233119189880279e-06,
+      "loss": 1.66348248,
+      "memory(GiB)": 111.15,
+      "step": 35450,
+      "train_speed(iter/s)": 0.447943
+    },
+    {
+      "acc": 0.64097195,
+      "epoch": 0.8994165398274987,
+      "grad_norm": 5.0625,
+      "learning_rate": 6.232102929727353e-06,
+      "loss": 1.65378685,
+      "memory(GiB)": 111.15,
+      "step": 35455,
+      "train_speed(iter/s)": 0.447977
+    },
+    {
+      "acc": 0.64256897,
+      "epoch": 0.8995433789954338,
+      "grad_norm": 4.65625,
+      "learning_rate": 6.231086615381039e-06,
+      "loss": 1.70467968,
+      "memory(GiB)": 111.15,
+      "step": 35460,
+      "train_speed(iter/s)": 0.448011
+    },
+    {
+      "acc": 0.65709534,
+      "epoch": 0.8996702181633689,
+      "grad_norm": 6.0,
+      "learning_rate": 6.2300702468860385e-06,
+      "loss": 1.62775269,
+      "memory(GiB)": 111.15,
+      "step": 35465,
+      "train_speed(iter/s)": 0.448045
+    },
+    {
+      "acc": 0.6559289,
+      "epoch": 0.8997970573313039,
+      "grad_norm": 5.46875,
+      "learning_rate": 6.229053824287058e-06,
+      "loss": 1.56832676,
+      "memory(GiB)": 111.15,
+      "step": 35470,
+      "train_speed(iter/s)": 0.448079
+    },
+    {
+      "acc": 0.64319549,
+      "epoch": 0.899923896499239,
+      "grad_norm": 5.90625,
+      "learning_rate": 6.228037347628803e-06,
+      "loss": 1.66057606,
+      "memory(GiB)": 111.15,
+      "step": 35475,
+      "train_speed(iter/s)": 0.448113
+    },
+    {
+      "acc": 0.66973047,
+      "epoch": 0.900050735667174,
+      "grad_norm": 4.59375,
+      "learning_rate": 6.227020816955982e-06,
+      "loss": 1.56371164,
+      "memory(GiB)": 111.15,
+      "step": 35480,
+      "train_speed(iter/s)": 0.448147
+    },
+    {
+      "acc": 0.65730929,
+      "epoch": 0.9001775748351091,
+      "grad_norm": 4.875,
+      "learning_rate": 6.226004232313308e-06,
+      "loss": 1.6132555,
+      "memory(GiB)": 111.15,
+      "step": 35485,
+      "train_speed(iter/s)": 0.448181
+    },
+    {
+      "acc": 0.63706207,
+      "epoch": 0.9003044140030442,
+      "grad_norm": 5.09375,
+      "learning_rate": 6.224987593745493e-06,
+      "loss": 1.63383255,
+      "memory(GiB)": 111.15,
+      "step": 35490,
+      "train_speed(iter/s)": 0.448215
+    },
+    {
+      "acc": 0.63092566,
+      "epoch": 0.9004312531709792,
+      "grad_norm": 5.9375,
+      "learning_rate": 6.223970901297255e-06,
+      "loss": 1.62231483,
+      "memory(GiB)": 111.15,
+      "step": 35495,
+      "train_speed(iter/s)": 0.448249
+    },
+    {
+      "acc": 0.65571547,
+      "epoch": 0.9005580923389143,
+      "grad_norm": 6.25,
+      "learning_rate": 6.222954155013312e-06,
+      "loss": 1.63363686,
+      "memory(GiB)": 111.15,
+      "step": 35500,
+      "train_speed(iter/s)": 0.448283
+    },
+    {
+      "epoch": 0.9005580923389143,
+      "eval_acc": 0.6431427464942012,
+      "eval_loss": 1.608956217765808,
+      "eval_runtime": 114.0513,
+      "eval_samples_per_second": 55.852,
+      "eval_steps_per_second": 27.926,
+      "step": 35500
+    },
+    {
+      "acc": 0.66399984,
+      "epoch": 0.9006849315068494,
+      "grad_norm": 5.5,
+      "learning_rate": 6.221937354938386e-06,
+      "loss": 1.59637842,
+      "memory(GiB)": 111.15,
+      "step": 35505,
+      "train_speed(iter/s)": 0.447646
+    },
+    {
+      "acc": 0.65598078,
+      "epoch": 0.9008117706747844,
+      "grad_norm": 4.96875,
+      "learning_rate": 6.2209205011171995e-06,
+      "loss": 1.64317551,
+      "memory(GiB)": 111.15,
+      "step": 35510,
+      "train_speed(iter/s)": 0.44768
+    },
+    {
+      "acc": 0.62706747,
+      "epoch": 0.9009386098427195,
+      "grad_norm": 5.3125,
+      "learning_rate": 6.219903593594476e-06,
+      "loss": 1.6574379,
+      "memory(GiB)": 111.15,
+      "step": 35515,
+      "train_speed(iter/s)": 0.447714
+    },
+    {
+      "acc": 0.6614994,
+      "epoch": 0.9010654490106544,
+      "grad_norm": 6.125,
+      "learning_rate": 6.218886632414949e-06,
+      "loss": 1.56817207,
+      "memory(GiB)": 111.15,
+      "step": 35520,
+      "train_speed(iter/s)": 0.447747
+    },
+    {
+      "acc": 0.6483047,
+      "epoch": 0.9011922881785895,
+      "grad_norm": 5.125,
+      "learning_rate": 6.217869617623343e-06,
+      "loss": 1.6236393,
+      "memory(GiB)": 111.15,
+      "step": 35525,
+      "train_speed(iter/s)": 0.447781
+    },
+    {
+      "acc": 0.65977879,
+      "epoch": 0.9013191273465246,
+      "grad_norm": 5.375,
+      "learning_rate": 6.216852549264396e-06,
+      "loss": 1.60086594,
+      "memory(GiB)": 111.15,
+      "step": 35530,
+      "train_speed(iter/s)": 0.447815
+    },
+    {
+      "acc": 0.6623106,
+      "epoch": 0.9014459665144596,
+      "grad_norm": 5.0,
+      "learning_rate": 6.215835427382842e-06,
+      "loss": 1.56604214,
+      "memory(GiB)": 111.15,
+      "step": 35535,
+      "train_speed(iter/s)": 0.447849
+    },
+    {
+      "acc": 0.65063453,
+      "epoch": 0.9015728056823947,
+      "grad_norm": 5.28125,
+      "learning_rate": 6.214818252023415e-06,
+      "loss": 1.64742126,
+      "memory(GiB)": 111.15,
+      "step": 35540,
+      "train_speed(iter/s)": 0.447883
+    },
+    {
+      "acc": 0.65589414,
+      "epoch": 0.9016996448503298,
+      "grad_norm": 4.71875,
+      "learning_rate": 6.2138010232308585e-06,
+      "loss": 1.54843388,
+      "memory(GiB)": 111.15,
+      "step": 35545,
+      "train_speed(iter/s)": 0.447917
+    },
+    {
+      "acc": 0.66589632,
+      "epoch": 0.9018264840182648,
+      "grad_norm": 5.21875,
+      "learning_rate": 6.212783741049915e-06,
+      "loss": 1.60103226,
+      "memory(GiB)": 111.15,
+      "step": 35550,
+      "train_speed(iter/s)": 0.447951
+    },
+    {
+      "acc": 0.65041027,
+      "epoch": 0.9019533231861999,
+      "grad_norm": 4.375,
+      "learning_rate": 6.211766405525326e-06,
+      "loss": 1.57349701,
+      "memory(GiB)": 111.15,
+      "step": 35555,
+      "train_speed(iter/s)": 0.447985
+    },
+    {
+      "acc": 0.64116735,
+      "epoch": 0.9020801623541349,
+      "grad_norm": 6.03125,
+      "learning_rate": 6.210749016701842e-06,
+      "loss": 1.69036179,
+      "memory(GiB)": 111.15,
+      "step": 35560,
+      "train_speed(iter/s)": 0.448019
+    },
+    {
+      "acc": 0.63586974,
+      "epoch": 0.90220700152207,
+      "grad_norm": 6.125,
+      "learning_rate": 6.2097315746242095e-06,
+      "loss": 1.66454926,
+      "memory(GiB)": 111.15,
+      "step": 35565,
+      "train_speed(iter/s)": 0.448052
+    },
+    {
+      "acc": 0.62810411,
+      "epoch": 0.9023338406900051,
+      "grad_norm": 5.1875,
+      "learning_rate": 6.208714079337181e-06,
+      "loss": 1.72403717,
+      "memory(GiB)": 111.15,
+      "step": 35570,
+      "train_speed(iter/s)": 0.448086
+    },
+    {
+      "acc": 0.64109163,
+      "epoch": 0.9024606798579401,
+      "grad_norm": 4.9375,
+      "learning_rate": 6.207696530885511e-06,
+      "loss": 1.64453506,
+      "memory(GiB)": 111.15,
+      "step": 35575,
+      "train_speed(iter/s)": 0.44812
+    },
+    {
+      "acc": 0.64811096,
+      "epoch": 0.9025875190258752,
+      "grad_norm": 6.09375,
+      "learning_rate": 6.2066789293139565e-06,
+      "loss": 1.62164021,
+      "memory(GiB)": 111.15,
+      "step": 35580,
+      "train_speed(iter/s)": 0.448154
+    },
+    {
+      "acc": 0.62733355,
+      "epoch": 0.9027143581938103,
+      "grad_norm": 5.34375,
+      "learning_rate": 6.2056612746672736e-06,
+      "loss": 1.69705219,
+      "memory(GiB)": 111.15,
+      "step": 35585,
+      "train_speed(iter/s)": 0.448188
+    },
+    {
+      "acc": 0.65397978,
+      "epoch": 0.9028411973617453,
+      "grad_norm": 5.125,
+      "learning_rate": 6.204643566990227e-06,
+      "loss": 1.6456316,
+      "memory(GiB)": 111.15,
+      "step": 35590,
+      "train_speed(iter/s)": 0.448222
+    },
+    {
+      "acc": 0.64921937,
+      "epoch": 0.9029680365296804,
+      "grad_norm": 5.28125,
+      "learning_rate": 6.2036258063275764e-06,
+      "loss": 1.59275045,
+      "memory(GiB)": 111.15,
+      "step": 35595,
+      "train_speed(iter/s)": 0.448256
+    },
+    {
+      "acc": 0.65227051,
+      "epoch": 0.9030948756976154,
+      "grad_norm": 6.28125,
+      "learning_rate": 6.20260799272409e-06,
+      "loss": 1.63976135,
+      "memory(GiB)": 111.15,
+      "step": 35600,
+      "train_speed(iter/s)": 0.44829
+    },
+    {
+      "epoch": 0.9030948756976154,
+      "eval_acc": 0.6431343911480121,
+      "eval_loss": 1.6089954376220703,
+      "eval_runtime": 113.8019,
+      "eval_samples_per_second": 55.974,
+      "eval_steps_per_second": 27.987,
+      "step": 35600
+    },
+    {
+      "acc": 0.65952778,
+      "epoch": 0.9032217148655505,
+      "grad_norm": 4.65625,
+      "learning_rate": 6.201590126224534e-06,
+      "loss": 1.63060684,
+      "memory(GiB)": 111.15,
+      "step": 35605,
+      "train_speed(iter/s)": 0.447656
+    },
+    {
+      "acc": 0.66239605,
+      "epoch": 0.9033485540334856,
+      "grad_norm": 4.625,
+      "learning_rate": 6.20057220687368e-06,
+      "loss": 1.54678383,
+      "memory(GiB)": 111.15,
+      "step": 35610,
+      "train_speed(iter/s)": 0.44769
+    },
+    {
+      "acc": 0.65081806,
+      "epoch": 0.9034753932014206,
+      "grad_norm": 4.875,
+      "learning_rate": 6.199554234716301e-06,
+      "loss": 1.6197876,
+      "memory(GiB)": 111.15,
+      "step": 35615,
+      "train_speed(iter/s)": 0.447724
+    },
+    {
+      "acc": 0.64635363,
+      "epoch": 0.9036022323693557,
+      "grad_norm": 5.75,
+      "learning_rate": 6.19853620979717e-06,
+      "loss": 1.58390064,
+      "memory(GiB)": 111.15,
+      "step": 35620,
+      "train_speed(iter/s)": 0.447758
+    },
+    {
+      "acc": 0.65079012,
+      "epoch": 0.9037290715372908,
+      "grad_norm": 5.21875,
+      "learning_rate": 6.1975181321610655e-06,
+      "loss": 1.6052002,
+      "memory(GiB)": 111.15,
+      "step": 35625,
+      "train_speed(iter/s)": 0.447792
+    },
+    {
+      "acc": 0.64330292,
+      "epoch": 0.9038559107052258,
+      "grad_norm": 5.8125,
+      "learning_rate": 6.1965000018527676e-06,
+      "loss": 1.68066769,
+      "memory(GiB)": 111.15,
+      "step": 35630,
+      "train_speed(iter/s)": 0.447825
+    },
+    {
+      "acc": 0.63557425,
+      "epoch": 0.9039827498731609,
+      "grad_norm": 5.125,
+      "learning_rate": 6.195481818917057e-06,
+      "loss": 1.65652351,
+      "memory(GiB)": 111.15,
+      "step": 35635,
+      "train_speed(iter/s)": 0.447859
+    },
+    {
+      "acc": 0.64512863,
+      "epoch": 0.9041095890410958,
+      "grad_norm": 5.53125,
+      "learning_rate": 6.194463583398719e-06,
+      "loss": 1.65803299,
+      "memory(GiB)": 111.15,
+      "step": 35640,
+      "train_speed(iter/s)": 0.447893
+    },
+    {
+      "acc": 0.6425571,
+      "epoch": 0.9042364282090309,
+      "grad_norm": 5.625,
+      "learning_rate": 6.193445295342538e-06,
+      "loss": 1.61785259,
+      "memory(GiB)": 111.15,
+      "step": 35645,
+      "train_speed(iter/s)": 0.447927
+    },
+    {
+      "acc": 0.62941484,
+      "epoch": 0.904363267376966,
+      "grad_norm": 4.71875,
+      "learning_rate": 6.192426954793308e-06,
+      "loss": 1.65591526,
+      "memory(GiB)": 111.15,
+      "step": 35650,
+      "train_speed(iter/s)": 0.447961
+    },
+    {
+      "acc": 0.64823637,
+      "epoch": 0.904490106544901,
+      "grad_norm": 5.3125,
+      "learning_rate": 6.1914085617958135e-06,
+      "loss": 1.63498383,
+      "memory(GiB)": 111.15,
+      "step": 35655,
+      "train_speed(iter/s)": 0.447995
+    },
+    {
+      "acc": 0.65943398,
+      "epoch": 0.9046169457128361,
+      "grad_norm": 5.0,
+      "learning_rate": 6.190390116394853e-06,
+      "loss": 1.6169138,
+      "memory(GiB)": 111.15,
+      "step": 35660,
+      "train_speed(iter/s)": 0.448028
+    },
+    {
+      "acc": 0.63180733,
+      "epoch": 0.9047437848807712,
+      "grad_norm": 6.34375,
+      "learning_rate": 6.189371618635219e-06,
+      "loss": 1.64459686,
+      "memory(GiB)": 111.15,
+      "step": 35665,
+      "train_speed(iter/s)": 0.448062
+    },
+    {
+      "acc": 0.63583593,
+      "epoch": 0.9048706240487062,
+      "grad_norm": 4.84375,
+      "learning_rate": 6.188353068561714e-06,
+      "loss": 1.6211338,
+      "memory(GiB)": 111.15,
+      "step": 35670,
+      "train_speed(iter/s)": 0.448096
+    },
+    {
+      "acc": 0.65103974,
+      "epoch": 0.9049974632166413,
+      "grad_norm": 5.71875,
+      "learning_rate": 6.187334466219133e-06,
+      "loss": 1.58105707,
+      "memory(GiB)": 111.15,
+      "step": 35675,
+      "train_speed(iter/s)": 0.44813
+    },
+    {
+      "acc": 0.64702568,
+      "epoch": 0.9051243023845763,
+      "grad_norm": 5.53125,
+      "learning_rate": 6.18631581165228e-06,
+      "loss": 1.58143682,
+      "memory(GiB)": 111.15,
+      "step": 35680,
+      "train_speed(iter/s)": 0.448164
+    },
+    {
+      "acc": 0.63582287,
+      "epoch": 0.9052511415525114,
+      "grad_norm": 5.78125,
+      "learning_rate": 6.185297104905963e-06,
+      "loss": 1.65934448,
+      "memory(GiB)": 111.15,
+      "step": 35685,
+      "train_speed(iter/s)": 0.448198
+    },
+    {
+      "acc": 0.6403285,
+      "epoch": 0.9053779807204465,
+      "grad_norm": 5.625,
+      "learning_rate": 6.184278346024988e-06,
+      "loss": 1.65623627,
+      "memory(GiB)": 111.15,
+      "step": 35690,
+      "train_speed(iter/s)": 0.448232
+    },
+    {
+      "acc": 0.64617605,
+      "epoch": 0.9055048198883815,
+      "grad_norm": 4.75,
+      "learning_rate": 6.183259535054163e-06,
+      "loss": 1.58172112,
+      "memory(GiB)": 111.15,
+      "step": 35695,
+      "train_speed(iter/s)": 0.448266
+    },
+    {
+      "acc": 0.63220024,
+      "epoch": 0.9056316590563166,
+      "grad_norm": 5.0,
+      "learning_rate": 6.1822406720383e-06,
+      "loss": 1.643046,
+      "memory(GiB)": 111.15,
+      "step": 35700,
+      "train_speed(iter/s)": 0.448299
+    },
+    {
+      "epoch": 0.9056316590563166,
+      "eval_acc": 0.6431030585998028,
+      "eval_loss": 1.6090006828308105,
+      "eval_runtime": 114.6874,
+      "eval_samples_per_second": 55.542,
+      "eval_steps_per_second": 27.771,
+      "step": 35700
+    },
+    {
+      "acc": 0.65170927,
+      "epoch": 0.9057584982242517,
+      "grad_norm": 4.5625,
+      "learning_rate": 6.181221757022215e-06,
+      "loss": 1.64829865,
+      "memory(GiB)": 111.15,
+      "step": 35705,
+      "train_speed(iter/s)": 0.447662
+    },
+    {
+      "acc": 0.64411225,
+      "epoch": 0.9058853373921867,
+      "grad_norm": 6.0625,
+      "learning_rate": 6.180202790050724e-06,
+      "loss": 1.64063587,
+      "memory(GiB)": 111.15,
+      "step": 35710,
+      "train_speed(iter/s)": 0.447695
+    },
+    {
+      "acc": 0.65052633,
+      "epoch": 0.9060121765601218,
+      "grad_norm": 5.0625,
+      "learning_rate": 6.179183771168643e-06,
+      "loss": 1.63856068,
+      "memory(GiB)": 111.15,
+      "step": 35715,
+      "train_speed(iter/s)": 0.447728
+    },
+    {
+      "acc": 0.64454508,
+      "epoch": 0.9061390157280568,
+      "grad_norm": 5.40625,
+      "learning_rate": 6.1781647004207965e-06,
+      "loss": 1.65536461,
+      "memory(GiB)": 111.15,
+      "step": 35720,
+      "train_speed(iter/s)": 0.447761
+    },
+    {
+      "acc": 0.63282146,
+      "epoch": 0.9062658548959919,
+      "grad_norm": 5.75,
+      "learning_rate": 6.177145577852005e-06,
+      "loss": 1.7028265,
+      "memory(GiB)": 111.15,
+      "step": 35725,
+      "train_speed(iter/s)": 0.447794
+    },
+    {
+      "acc": 0.63913956,
+      "epoch": 0.906392694063927,
+      "grad_norm": 5.71875,
+      "learning_rate": 6.176126403507097e-06,
+      "loss": 1.67081757,
+      "memory(GiB)": 111.15,
+      "step": 35730,
+      "train_speed(iter/s)": 0.447827
+    },
+    {
+      "acc": 0.65631618,
+      "epoch": 0.906519533231862,
+      "grad_norm": 5.21875,
+      "learning_rate": 6.175107177430897e-06,
+      "loss": 1.57355309,
+      "memory(GiB)": 111.15,
+      "step": 35735,
+      "train_speed(iter/s)": 0.447861
+    },
+    {
+      "acc": 0.64298353,
+      "epoch": 0.9066463723997971,
+      "grad_norm": 5.625,
+      "learning_rate": 6.17408789966824e-06,
+      "loss": 1.61905289,
+      "memory(GiB)": 111.15,
+      "step": 35740,
+      "train_speed(iter/s)": 0.447894
+    },
+    {
+      "acc": 0.64611435,
+      "epoch": 0.9067732115677322,
+      "grad_norm": 4.875,
+      "learning_rate": 6.173068570263951e-06,
+      "loss": 1.62951183,
+      "memory(GiB)": 111.15,
+      "step": 35745,
+      "train_speed(iter/s)": 0.447926
+    },
+    {
+      "acc": 0.64307547,
+      "epoch": 0.9069000507356672,
+      "grad_norm": 5.28125,
+      "learning_rate": 6.172049189262872e-06,
+      "loss": 1.62421532,
+      "memory(GiB)": 111.15,
+      "step": 35750,
+      "train_speed(iter/s)": 0.447959
+    },
+    {
+      "acc": 0.65865946,
+      "epoch": 0.9070268899036023,
+      "grad_norm": 4.96875,
+      "learning_rate": 6.1710297567098354e-06,
+      "loss": 1.6256216,
+      "memory(GiB)": 111.15,
+      "step": 35755,
+      "train_speed(iter/s)": 0.447992
+    },
+    {
+      "acc": 0.64590178,
+      "epoch": 0.9071537290715372,
+      "grad_norm": 6.3125,
+      "learning_rate": 6.170010272649682e-06,
+      "loss": 1.65918655,
+      "memory(GiB)": 111.15,
+      "step": 35760,
+      "train_speed(iter/s)": 0.448025
+    },
+    {
+      "acc": 0.63658719,
+      "epoch": 0.9072805682394723,
+      "grad_norm": 7.8125,
+      "learning_rate": 6.168990737127254e-06,
+      "loss": 1.66935215,
+      "memory(GiB)": 111.15,
+      "step": 35765,
+      "train_speed(iter/s)": 0.448058
+    },
+    {
+      "acc": 0.65297146,
+      "epoch": 0.9074074074074074,
+      "grad_norm": 5.34375,
+      "learning_rate": 6.167971150187394e-06,
+      "loss": 1.62342091,
+      "memory(GiB)": 111.15,
+      "step": 35770,
+      "train_speed(iter/s)": 0.448091
+    },
+    {
+      "acc": 0.63311672,
+      "epoch": 0.9075342465753424,
+      "grad_norm": 4.9375,
+      "learning_rate": 6.166951511874948e-06,
+      "loss": 1.68222427,
+      "memory(GiB)": 111.15,
+      "step": 35775,
+      "train_speed(iter/s)": 0.448124
+    },
+    {
+      "acc": 0.65563755,
+      "epoch": 0.9076610857432775,
+      "grad_norm": 6.4375,
+      "learning_rate": 6.165931822234764e-06,
+      "loss": 1.5967555,
+      "memory(GiB)": 111.15,
+      "step": 35780,
+      "train_speed(iter/s)": 0.448157
+    },
+    {
+      "acc": 0.65375676,
+      "epoch": 0.9077879249112126,
+      "grad_norm": 6.53125,
+      "learning_rate": 6.164912081311694e-06,
+      "loss": 1.68392525,
+      "memory(GiB)": 111.15,
+      "step": 35785,
+      "train_speed(iter/s)": 0.44819
+    },
+    {
+      "acc": 0.65368843,
+      "epoch": 0.9079147640791476,
+      "grad_norm": 5.40625,
+      "learning_rate": 6.163892289150588e-06,
+      "loss": 1.57026596,
+      "memory(GiB)": 111.15,
+      "step": 35790,
+      "train_speed(iter/s)": 0.448223
+    },
+    {
+      "acc": 0.6553782,
+      "epoch": 0.9080416032470827,
+      "grad_norm": 5.96875,
+      "learning_rate": 6.162872445796303e-06,
+      "loss": 1.59972782,
+      "memory(GiB)": 111.15,
+      "step": 35795,
+      "train_speed(iter/s)": 0.448256
+    },
+    {
+      "acc": 0.64188275,
+      "epoch": 0.9081684424150177,
+      "grad_norm": 4.75,
+      "learning_rate": 6.161852551293697e-06,
+      "loss": 1.67158165,
+      "memory(GiB)": 111.15,
+      "step": 35800,
+      "train_speed(iter/s)": 0.448289
+    },
+    {
+      "epoch": 0.9081684424150177,
+      "eval_acc": 0.6431786744828145,
+      "eval_loss": 1.6089307069778442,
+      "eval_runtime": 114.3112,
+      "eval_samples_per_second": 55.725,
+      "eval_steps_per_second": 27.863,
+      "step": 35800
+    },
+    {
+      "acc": 0.64902382,
+      "epoch": 0.9082952815829528,
+      "grad_norm": 6.0,
+      "learning_rate": 6.160832605687628e-06,
+      "loss": 1.65587311,
+      "memory(GiB)": 111.15,
+      "step": 35805,
+      "train_speed(iter/s)": 0.447656
+    },
+    {
+      "acc": 0.65198479,
+      "epoch": 0.9084221207508879,
+      "grad_norm": 5.4375,
+      "learning_rate": 6.159812609022961e-06,
+      "loss": 1.63417072,
+      "memory(GiB)": 111.15,
+      "step": 35810,
+      "train_speed(iter/s)": 0.447689
+    },
+    {
+      "acc": 0.64456992,
+      "epoch": 0.9085489599188229,
+      "grad_norm": 4.25,
+      "learning_rate": 6.158792561344553e-06,
+      "loss": 1.66733017,
+      "memory(GiB)": 111.15,
+      "step": 35815,
+      "train_speed(iter/s)": 0.447722
+    },
+    {
+      "acc": 0.64923744,
+      "epoch": 0.908675799086758,
+      "grad_norm": 6.5,
+      "learning_rate": 6.157772462697277e-06,
+      "loss": 1.63618431,
+      "memory(GiB)": 111.15,
+      "step": 35820,
+      "train_speed(iter/s)": 0.447754
+    },
+    {
+      "acc": 0.65504842,
+      "epoch": 0.9088026382546931,
+      "grad_norm": 5.3125,
+      "learning_rate": 6.156752313125998e-06,
+      "loss": 1.64682083,
+      "memory(GiB)": 111.15,
+      "step": 35825,
+      "train_speed(iter/s)": 0.447787
+    },
+    {
+      "acc": 0.65155468,
+      "epoch": 0.9089294774226281,
+      "grad_norm": 6.28125,
+      "learning_rate": 6.155732112675587e-06,
+      "loss": 1.64214897,
+      "memory(GiB)": 111.15,
+      "step": 35830,
+      "train_speed(iter/s)": 0.44782
+    },
+    {
+      "acc": 0.66278849,
+      "epoch": 0.9090563165905632,
+      "grad_norm": 5.5,
+      "learning_rate": 6.154711861390919e-06,
+      "loss": 1.54290895,
+      "memory(GiB)": 111.15,
+      "step": 35835,
+      "train_speed(iter/s)": 0.447853
+    },
+    {
+      "acc": 0.66010962,
+      "epoch": 0.9091831557584982,
+      "grad_norm": 4.65625,
+      "learning_rate": 6.153691559316868e-06,
+      "loss": 1.63034172,
+      "memory(GiB)": 111.15,
+      "step": 35840,
+      "train_speed(iter/s)": 0.447886
+    },
+    {
+      "acc": 0.63150392,
+      "epoch": 0.9093099949264333,
+      "grad_norm": 5.625,
+      "learning_rate": 6.152671206498311e-06,
+      "loss": 1.71667824,
+      "memory(GiB)": 111.15,
+      "step": 35845,
+      "train_speed(iter/s)": 0.447919
+    },
+    {
+      "acc": 0.66426897,
+      "epoch": 0.9094368340943684,
+      "grad_norm": 5.375,
+      "learning_rate": 6.151650802980128e-06,
+      "loss": 1.55636425,
+      "memory(GiB)": 111.15,
+      "step": 35850,
+      "train_speed(iter/s)": 0.447952
+    },
+    {
+      "acc": 0.64026899,
+      "epoch": 0.9095636732623034,
+      "grad_norm": 5.53125,
+      "learning_rate": 6.150630348807201e-06,
+      "loss": 1.71430054,
+      "memory(GiB)": 111.15,
+      "step": 35855,
+      "train_speed(iter/s)": 0.447985
+    },
+    {
+      "acc": 0.63367405,
+      "epoch": 0.9096905124302385,
+      "grad_norm": 6.9375,
+      "learning_rate": 6.149609844024413e-06,
+      "loss": 1.66832314,
+      "memory(GiB)": 111.15,
+      "step": 35860,
+      "train_speed(iter/s)": 0.448019
+    },
+    {
+      "acc": 0.64547706,
+      "epoch": 0.9098173515981736,
+      "grad_norm": 4.71875,
+      "learning_rate": 6.148589288676652e-06,
+      "loss": 1.71543808,
+      "memory(GiB)": 111.15,
+      "step": 35865,
+      "train_speed(iter/s)": 0.448052
+    },
+    {
+      "acc": 0.64994025,
+      "epoch": 0.9099441907661086,
+      "grad_norm": 6.46875,
+      "learning_rate": 6.147568682808808e-06,
+      "loss": 1.62821236,
+      "memory(GiB)": 111.15,
+      "step": 35870,
+      "train_speed(iter/s)": 0.448085
+    },
+    {
+      "acc": 0.65559435,
+      "epoch": 0.9100710299340437,
+      "grad_norm": 5.71875,
+      "learning_rate": 6.146548026465766e-06,
+      "loss": 1.67522812,
+      "memory(GiB)": 111.15,
+      "step": 35875,
+      "train_speed(iter/s)": 0.448118
+    },
+    {
+      "acc": 0.65121307,
+      "epoch": 0.9101978691019786,
+      "grad_norm": 5.75,
+      "learning_rate": 6.145527319692427e-06,
+      "loss": 1.55567303,
+      "memory(GiB)": 111.15,
+      "step": 35880,
+      "train_speed(iter/s)": 0.448151
+    },
+    {
+      "acc": 0.64801378,
+      "epoch": 0.9103247082699137,
+      "grad_norm": 5.46875,
+      "learning_rate": 6.144506562533678e-06,
+      "loss": 1.57960014,
+      "memory(GiB)": 111.15,
+      "step": 35885,
+      "train_speed(iter/s)": 0.448185
+    },
+    {
+      "acc": 0.64389768,
+      "epoch": 0.9104515474378488,
+      "grad_norm": 6.28125,
+      "learning_rate": 6.143485755034425e-06,
+      "loss": 1.61633358,
+      "memory(GiB)": 111.15,
+      "step": 35890,
+      "train_speed(iter/s)": 0.448218
+    },
+    {
+      "acc": 0.64562316,
+      "epoch": 0.9105783866057838,
+      "grad_norm": 5.75,
+      "learning_rate": 6.14246489723956e-06,
+      "loss": 1.60378799,
+      "memory(GiB)": 111.15,
+      "step": 35895,
+      "train_speed(iter/s)": 0.448251
+    },
+    {
+      "acc": 0.649155,
+      "epoch": 0.9107052257737189,
+      "grad_norm": 6.21875,
+      "learning_rate": 6.141443989193988e-06,
+      "loss": 1.63050461,
+      "memory(GiB)": 111.15,
+      "step": 35900,
+      "train_speed(iter/s)": 0.448284
+    },
+    {
+      "epoch": 0.9107052257737189,
+      "eval_acc": 0.6431377332864877,
+      "eval_loss": 1.6089552640914917,
+      "eval_runtime": 114.7915,
+      "eval_samples_per_second": 55.492,
+      "eval_steps_per_second": 27.746,
+      "step": 35900
+    },
+    {
+      "acc": 0.63304882,
+      "epoch": 0.910832064941654,
+      "grad_norm": 5.34375,
+      "learning_rate": 6.140423030942615e-06,
+      "loss": 1.7576128,
+      "memory(GiB)": 111.15,
+      "step": 35905,
+      "train_speed(iter/s)": 0.447649
+    },
+    {
+      "acc": 0.65792561,
+      "epoch": 0.910958904109589,
+      "grad_norm": 5.03125,
+      "learning_rate": 6.139402022530344e-06,
+      "loss": 1.63652077,
+      "memory(GiB)": 111.15,
+      "step": 35910,
+      "train_speed(iter/s)": 0.447682
+    },
+    {
+      "acc": 0.63991976,
+      "epoch": 0.9110857432775241,
+      "grad_norm": 5.53125,
+      "learning_rate": 6.138380964002087e-06,
+      "loss": 1.6403265,
+      "memory(GiB)": 111.15,
+      "step": 35915,
+      "train_speed(iter/s)": 0.447714
+    },
+    {
+      "acc": 0.67180948,
+      "epoch": 0.9112125824454591,
+      "grad_norm": 6.4375,
+      "learning_rate": 6.13735985540275e-06,
+      "loss": 1.55169067,
+      "memory(GiB)": 111.15,
+      "step": 35920,
+      "train_speed(iter/s)": 0.447747
+    },
+    {
+      "acc": 0.65612316,
+      "epoch": 0.9113394216133942,
+      "grad_norm": 6.09375,
+      "learning_rate": 6.13633869677725e-06,
+      "loss": 1.57194166,
+      "memory(GiB)": 111.15,
+      "step": 35925,
+      "train_speed(iter/s)": 0.44778
+    },
+    {
+      "acc": 0.64256191,
+      "epoch": 0.9114662607813293,
+      "grad_norm": 4.78125,
+      "learning_rate": 6.1353174881705e-06,
+      "loss": 1.63215294,
+      "memory(GiB)": 111.15,
+      "step": 35930,
+      "train_speed(iter/s)": 0.447812
+    },
+    {
+      "acc": 0.63702741,
+      "epoch": 0.9115930999492643,
+      "grad_norm": 5.40625,
+      "learning_rate": 6.134296229627419e-06,
+      "loss": 1.70845795,
+      "memory(GiB)": 111.15,
+      "step": 35935,
+      "train_speed(iter/s)": 0.447844
+    },
+    {
+      "acc": 0.65311604,
+      "epoch": 0.9117199391171994,
+      "grad_norm": 5.1875,
+      "learning_rate": 6.1332749211929255e-06,
+      "loss": 1.6214222,
+      "memory(GiB)": 111.15,
+      "step": 35940,
+      "train_speed(iter/s)": 0.447877
+    },
+    {
+      "acc": 0.66994019,
+      "epoch": 0.9118467782851345,
+      "grad_norm": 5.59375,
+      "learning_rate": 6.132253562911941e-06,
+      "loss": 1.57413368,
+      "memory(GiB)": 111.15,
+      "step": 35945,
+      "train_speed(iter/s)": 0.447909
+    },
+    {
+      "acc": 0.65686941,
+      "epoch": 0.9119736174530695,
+      "grad_norm": 5.5,
+      "learning_rate": 6.1312321548293895e-06,
+      "loss": 1.57552853,
+      "memory(GiB)": 111.15,
+      "step": 35950,
+      "train_speed(iter/s)": 0.447942
+    },
+    {
+      "acc": 0.64749374,
+      "epoch": 0.9121004566210046,
+      "grad_norm": 5.15625,
+      "learning_rate": 6.130210696990197e-06,
+      "loss": 1.69909554,
+      "memory(GiB)": 111.15,
+      "step": 35955,
+      "train_speed(iter/s)": 0.447975
+    },
+    {
+      "acc": 0.64754601,
+      "epoch": 0.9122272957889396,
+      "grad_norm": 6.09375,
+      "learning_rate": 6.129189189439293e-06,
+      "loss": 1.67980633,
+      "memory(GiB)": 111.15,
+      "step": 35960,
+      "train_speed(iter/s)": 0.448008
+    },
+    {
+      "acc": 0.64943447,
+      "epoch": 0.9123541349568747,
+      "grad_norm": 6.03125,
+      "learning_rate": 6.128167632221605e-06,
+      "loss": 1.67521133,
+      "memory(GiB)": 111.15,
+      "step": 35965,
+      "train_speed(iter/s)": 0.44804
+    },
+    {
+      "acc": 0.65470285,
+      "epoch": 0.9124809741248098,
+      "grad_norm": 5.03125,
+      "learning_rate": 6.127146025382069e-06,
+      "loss": 1.56109333,
+      "memory(GiB)": 111.15,
+      "step": 35970,
+      "train_speed(iter/s)": 0.448073
+    },
+    {
+      "acc": 0.64479866,
+      "epoch": 0.9126078132927448,
+      "grad_norm": 5.46875,
+      "learning_rate": 6.126124368965619e-06,
+      "loss": 1.67771759,
+      "memory(GiB)": 111.15,
+      "step": 35975,
+      "train_speed(iter/s)": 0.448106
+    },
+    {
+      "acc": 0.62697926,
+      "epoch": 0.9127346524606799,
+      "grad_norm": 5.3125,
+      "learning_rate": 6.125102663017191e-06,
+      "loss": 1.75383434,
+      "memory(GiB)": 111.15,
+      "step": 35980,
+      "train_speed(iter/s)": 0.448139
+    },
+    {
+      "acc": 0.6589592,
+      "epoch": 0.912861491628615,
+      "grad_norm": 4.9375,
+      "learning_rate": 6.124080907581724e-06,
+      "loss": 1.60033054,
+      "memory(GiB)": 111.15,
+      "step": 35985,
+      "train_speed(iter/s)": 0.448171
+    },
+    {
+      "acc": 0.65849056,
+      "epoch": 0.91298833079655,
+      "grad_norm": 4.96875,
+      "learning_rate": 6.1230591027041605e-06,
+      "loss": 1.61527157,
+      "memory(GiB)": 111.15,
+      "step": 35990,
+      "train_speed(iter/s)": 0.448204
+    },
+    {
+      "acc": 0.66186309,
+      "epoch": 0.913115169964485,
+      "grad_norm": 5.09375,
+      "learning_rate": 6.1220372484294444e-06,
+      "loss": 1.57512045,
+      "memory(GiB)": 111.15,
+      "step": 35995,
+      "train_speed(iter/s)": 0.448236
+    },
+    {
+      "acc": 0.64300108,
+      "epoch": 0.91324200913242,
+      "grad_norm": 5.71875,
+      "learning_rate": 6.12101534480252e-06,
+      "loss": 1.63646889,
+      "memory(GiB)": 111.15,
+      "step": 36000,
+      "train_speed(iter/s)": 0.448269
+    },
+    {
+      "epoch": 0.91324200913242,
+      "eval_acc": 0.6431732435077916,
+      "eval_loss": 1.6090021133422852,
+      "eval_runtime": 114.2704,
+      "eval_samples_per_second": 55.745,
+      "eval_steps_per_second": 27.872,
+      "step": 36000
+    },
+    {
+      "acc": 0.64808969,
+      "epoch": 0.9133688483003551,
+      "grad_norm": 5.875,
+      "learning_rate": 6.119993391868335e-06,
+      "loss": 1.61564636,
+      "memory(GiB)": 111.15,
+      "step": 36005,
+      "train_speed(iter/s)": 0.44764
+    },
+    {
+      "acc": 0.66715131,
+      "epoch": 0.9134956874682902,
+      "grad_norm": 5.03125,
+      "learning_rate": 6.118971389671842e-06,
+      "loss": 1.61282101,
+      "memory(GiB)": 111.15,
+      "step": 36010,
+      "train_speed(iter/s)": 0.447673
+    },
+    {
+      "acc": 0.64225612,
+      "epoch": 0.9136225266362252,
+      "grad_norm": 4.625,
+      "learning_rate": 6.117949338257989e-06,
+      "loss": 1.65369205,
+      "memory(GiB)": 111.15,
+      "step": 36015,
+      "train_speed(iter/s)": 0.447705
+    },
+    {
+      "acc": 0.6604702,
+      "epoch": 0.9137493658041603,
+      "grad_norm": 5.40625,
+      "learning_rate": 6.116927237671735e-06,
+      "loss": 1.58282585,
+      "memory(GiB)": 111.15,
+      "step": 36020,
+      "train_speed(iter/s)": 0.447738
+    },
+    {
+      "acc": 0.64422951,
+      "epoch": 0.9138762049720954,
+      "grad_norm": 6.46875,
+      "learning_rate": 6.115905087958032e-06,
+      "loss": 1.63165913,
+      "memory(GiB)": 111.15,
+      "step": 36025,
+      "train_speed(iter/s)": 0.447771
+    },
+    {
+      "acc": 0.64467354,
+      "epoch": 0.9140030441400304,
+      "grad_norm": 5.8125,
+      "learning_rate": 6.114882889161844e-06,
+      "loss": 1.66979599,
+      "memory(GiB)": 111.15,
+      "step": 36030,
+      "train_speed(iter/s)": 0.447804
+    },
+    {
+      "acc": 0.66051683,
+      "epoch": 0.9141298833079655,
+      "grad_norm": 5.4375,
+      "learning_rate": 6.113860641328127e-06,
+      "loss": 1.63457184,
+      "memory(GiB)": 111.15,
+      "step": 36035,
+      "train_speed(iter/s)": 0.447837
+    },
+    {
+      "acc": 0.65168877,
+      "epoch": 0.9142567224759005,
+      "grad_norm": 5.34375,
+      "learning_rate": 6.112838344501846e-06,
+      "loss": 1.57108326,
+      "memory(GiB)": 111.15,
+      "step": 36040,
+      "train_speed(iter/s)": 0.447869
+    },
+    {
+      "acc": 0.64377279,
+      "epoch": 0.9143835616438356,
+      "grad_norm": 5.4375,
+      "learning_rate": 6.111815998727966e-06,
+      "loss": 1.67367096,
+      "memory(GiB)": 111.15,
+      "step": 36045,
+      "train_speed(iter/s)": 0.447902
+    },
+    {
+      "acc": 0.65810981,
+      "epoch": 0.9145104008117707,
+      "grad_norm": 5.25,
+      "learning_rate": 6.110793604051455e-06,
+      "loss": 1.58925419,
+      "memory(GiB)": 111.15,
+      "step": 36050,
+      "train_speed(iter/s)": 0.447935
+    },
+    {
+      "acc": 0.66094351,
+      "epoch": 0.9146372399797057,
+      "grad_norm": 5.9375,
+      "learning_rate": 6.109771160517283e-06,
+      "loss": 1.63080444,
+      "memory(GiB)": 111.15,
+      "step": 36055,
+      "train_speed(iter/s)": 0.447968
+    },
+    {
+      "acc": 0.64185266,
+      "epoch": 0.9147640791476408,
+      "grad_norm": 6.1875,
+      "learning_rate": 6.108748668170419e-06,
+      "loss": 1.60242157,
+      "memory(GiB)": 111.15,
+      "step": 36060,
+      "train_speed(iter/s)": 0.448001
+    },
+    {
+      "acc": 0.65731583,
+      "epoch": 0.9148909183155759,
+      "grad_norm": 4.8125,
+      "learning_rate": 6.1077261270558385e-06,
+      "loss": 1.61961937,
+      "memory(GiB)": 111.15,
+      "step": 36065,
+      "train_speed(iter/s)": 0.448034
+    },
+    {
+      "acc": 0.65015144,
+      "epoch": 0.9150177574835109,
+      "grad_norm": 4.53125,
+      "learning_rate": 6.106703537218518e-06,
+      "loss": 1.6514782,
+      "memory(GiB)": 111.15,
+      "step": 36070,
+      "train_speed(iter/s)": 0.448067
+    },
+    {
+      "acc": 0.64364433,
+      "epoch": 0.915144596651446,
+      "grad_norm": 4.78125,
+      "learning_rate": 6.105680898703434e-06,
+      "loss": 1.66553078,
+      "memory(GiB)": 111.15,
+      "step": 36075,
+      "train_speed(iter/s)": 0.4481
+    },
+    {
+      "acc": 0.63928485,
+      "epoch": 0.915271435819381,
+      "grad_norm": 4.5625,
+      "learning_rate": 6.104658211555568e-06,
+      "loss": 1.70847988,
+      "memory(GiB)": 111.15,
+      "step": 36080,
+      "train_speed(iter/s)": 0.448132
+    },
+    {
+      "acc": 0.65058866,
+      "epoch": 0.9153982749873161,
+      "grad_norm": 6.09375,
+      "learning_rate": 6.103635475819902e-06,
+      "loss": 1.65806656,
+      "memory(GiB)": 111.15,
+      "step": 36085,
+      "train_speed(iter/s)": 0.448165
+    },
+    {
+      "acc": 0.64787178,
+      "epoch": 0.9155251141552512,
+      "grad_norm": 4.8125,
+      "learning_rate": 6.102612691541422e-06,
+      "loss": 1.62349339,
+      "memory(GiB)": 111.15,
+      "step": 36090,
+      "train_speed(iter/s)": 0.448199
+    },
+    {
+      "acc": 0.62040234,
+      "epoch": 0.9156519533231862,
+      "grad_norm": 5.21875,
+      "learning_rate": 6.10158985876511e-06,
+      "loss": 1.63794346,
+      "memory(GiB)": 111.15,
+      "step": 36095,
+      "train_speed(iter/s)": 0.448232
+    },
+    {
+      "acc": 0.65285196,
+      "epoch": 0.9157787924911213,
+      "grad_norm": 5.5,
+      "learning_rate": 6.10056697753596e-06,
+      "loss": 1.60144787,
+      "memory(GiB)": 111.15,
+      "step": 36100,
+      "train_speed(iter/s)": 0.448264
+    },
+    {
+      "epoch": 0.9157787924911213,
+      "eval_acc": 0.6432200334464508,
+      "eval_loss": 1.6089006662368774,
+      "eval_runtime": 114.7676,
+      "eval_samples_per_second": 55.503,
+      "eval_steps_per_second": 27.752,
+      "step": 36100
+    },
+    {
+      "acc": 0.64461823,
+      "epoch": 0.9159056316590564,
+      "grad_norm": 4.8125,
+      "learning_rate": 6.0995440478989595e-06,
+      "loss": 1.62612782,
+      "memory(GiB)": 111.15,
+      "step": 36105,
+      "train_speed(iter/s)": 0.447634
+    },
+    {
+      "acc": 0.67233086,
+      "epoch": 0.9160324708269914,
+      "grad_norm": 6.84375,
+      "learning_rate": 6.098521069899104e-06,
+      "loss": 1.50297976,
+      "memory(GiB)": 111.15,
+      "step": 36110,
+      "train_speed(iter/s)": 0.447667
+    },
+    {
+      "acc": 0.64715214,
+      "epoch": 0.9161593099949265,
+      "grad_norm": 6.8125,
+      "learning_rate": 6.097498043581385e-06,
+      "loss": 1.70990868,
+      "memory(GiB)": 111.15,
+      "step": 36115,
+      "train_speed(iter/s)": 0.447699
+    },
+    {
+      "acc": 0.65904198,
+      "epoch": 0.9162861491628614,
+      "grad_norm": 6.5625,
+      "learning_rate": 6.096474968990804e-06,
+      "loss": 1.60258942,
+      "memory(GiB)": 111.15,
+      "step": 36120,
+      "train_speed(iter/s)": 0.447732
+    },
+    {
+      "acc": 0.6569458,
+      "epoch": 0.9164129883307965,
+      "grad_norm": 4.6875,
+      "learning_rate": 6.095451846172358e-06,
+      "loss": 1.6251421,
+      "memory(GiB)": 111.15,
+      "step": 36125,
+      "train_speed(iter/s)": 0.447765
+    },
+    {
+      "acc": 0.6414144,
+      "epoch": 0.9165398274987316,
+      "grad_norm": 5.78125,
+      "learning_rate": 6.094428675171049e-06,
+      "loss": 1.65946999,
+      "memory(GiB)": 111.15,
+      "step": 36130,
+      "train_speed(iter/s)": 0.447797
+    },
+    {
+      "acc": 0.64585562,
+      "epoch": 0.9166666666666666,
+      "grad_norm": 6.09375,
+      "learning_rate": 6.09340545603188e-06,
+      "loss": 1.65260944,
+      "memory(GiB)": 111.15,
+      "step": 36135,
+      "train_speed(iter/s)": 0.44783
+    },
+    {
+      "acc": 0.66742196,
+      "epoch": 0.9167935058346017,
+      "grad_norm": 5.40625,
+      "learning_rate": 6.092382188799858e-06,
+      "loss": 1.62193642,
+      "memory(GiB)": 111.15,
+      "step": 36140,
+      "train_speed(iter/s)": 0.447863
+    },
+    {
+      "acc": 0.65737352,
+      "epoch": 0.9169203450025368,
+      "grad_norm": 5.28125,
+      "learning_rate": 6.09135887351999e-06,
+      "loss": 1.61712189,
+      "memory(GiB)": 111.15,
+      "step": 36145,
+      "train_speed(iter/s)": 0.447896
+    },
+    {
+      "acc": 0.6460206,
+      "epoch": 0.9170471841704718,
+      "grad_norm": 7.59375,
+      "learning_rate": 6.090335510237286e-06,
+      "loss": 1.63158703,
+      "memory(GiB)": 111.15,
+      "step": 36150,
+      "train_speed(iter/s)": 0.447929
+    },
+    {
+      "acc": 0.65749063,
+      "epoch": 0.9171740233384069,
+      "grad_norm": 5.34375,
+      "learning_rate": 6.089312098996758e-06,
+      "loss": 1.54442081,
+      "memory(GiB)": 111.15,
+      "step": 36155,
+      "train_speed(iter/s)": 0.447962
+    },
+    {
+      "acc": 0.65311604,
+      "epoch": 0.9173008625063419,
+      "grad_norm": 5.84375,
+      "learning_rate": 6.088288639843422e-06,
+      "loss": 1.64581108,
+      "memory(GiB)": 111.15,
+      "step": 36160,
+      "train_speed(iter/s)": 0.447994
+    },
+    {
+      "acc": 0.65726194,
+      "epoch": 0.917427701674277,
+      "grad_norm": 5.8125,
+      "learning_rate": 6.08726513282229e-06,
+      "loss": 1.61313229,
+      "memory(GiB)": 111.15,
+      "step": 36165,
+      "train_speed(iter/s)": 0.448027
+    },
+    {
+      "acc": 0.65243516,
+      "epoch": 0.9175545408422121,
+      "grad_norm": 5.09375,
+      "learning_rate": 6.0862415779783855e-06,
+      "loss": 1.61155643,
+      "memory(GiB)": 111.15,
+      "step": 36170,
+      "train_speed(iter/s)": 0.448059
+    },
+    {
+      "acc": 0.64384398,
+      "epoch": 0.9176813800101471,
+      "grad_norm": 6.09375,
+      "learning_rate": 6.085217975356726e-06,
+      "loss": 1.67191277,
+      "memory(GiB)": 111.15,
+      "step": 36175,
+      "train_speed(iter/s)": 0.448092
+    },
+    {
+      "acc": 0.6422183,
+      "epoch": 0.9178082191780822,
+      "grad_norm": 4.59375,
+      "learning_rate": 6.084194325002335e-06,
+      "loss": 1.68194408,
+      "memory(GiB)": 111.15,
+      "step": 36180,
+      "train_speed(iter/s)": 0.448124
+    },
+    {
+      "acc": 0.66529198,
+      "epoch": 0.9179350583460173,
+      "grad_norm": 5.46875,
+      "learning_rate": 6.083170626960237e-06,
+      "loss": 1.60145645,
+      "memory(GiB)": 111.15,
+      "step": 36185,
+      "train_speed(iter/s)": 0.448157
+    },
+    {
+      "acc": 0.65623322,
+      "epoch": 0.9180618975139523,
+      "grad_norm": 4.5625,
+      "learning_rate": 6.082146881275458e-06,
+      "loss": 1.614151,
+      "memory(GiB)": 111.15,
+      "step": 36190,
+      "train_speed(iter/s)": 0.44819
+    },
+    {
+      "acc": 0.64873705,
+      "epoch": 0.9181887366818874,
+      "grad_norm": 5.21875,
+      "learning_rate": 6.081123087993028e-06,
+      "loss": 1.65113754,
+      "memory(GiB)": 111.15,
+      "step": 36195,
+      "train_speed(iter/s)": 0.448223
+    },
+    {
+      "acc": 0.63634701,
+      "epoch": 0.9183155758498224,
+      "grad_norm": 6.03125,
+      "learning_rate": 6.0800992471579775e-06,
+      "loss": 1.6678257,
+      "memory(GiB)": 111.15,
+      "step": 36200,
+      "train_speed(iter/s)": 0.448256
+    },
+    {
+      "epoch": 0.9183155758498224,
+      "eval_acc": 0.6431949674078834,
+      "eval_loss": 1.6087076663970947,
+      "eval_runtime": 115.5745,
+      "eval_samples_per_second": 55.116,
+      "eval_steps_per_second": 27.558,
+      "step": 36200
+    },
+    {
+      "acc": 0.65501719,
+      "epoch": 0.9184424150177575,
+      "grad_norm": 5.84375,
+      "learning_rate": 6.079075358815341e-06,
+      "loss": 1.58085175,
+      "memory(GiB)": 111.15,
+      "step": 36205,
+      "train_speed(iter/s)": 0.447622
+    },
+    {
+      "acc": 0.64535847,
+      "epoch": 0.9185692541856926,
+      "grad_norm": 5.21875,
+      "learning_rate": 6.078051423010152e-06,
+      "loss": 1.62130623,
+      "memory(GiB)": 111.15,
+      "step": 36210,
+      "train_speed(iter/s)": 0.447655
+    },
+    {
+      "acc": 0.64341249,
+      "epoch": 0.9186960933536276,
+      "grad_norm": 5.53125,
+      "learning_rate": 6.077027439787448e-06,
+      "loss": 1.69657555,
+      "memory(GiB)": 111.15,
+      "step": 36215,
+      "train_speed(iter/s)": 0.447687
+    },
+    {
+      "acc": 0.6530139,
+      "epoch": 0.9188229325215627,
+      "grad_norm": 5.625,
+      "learning_rate": 6.076003409192268e-06,
+      "loss": 1.64521179,
+      "memory(GiB)": 111.15,
+      "step": 36220,
+      "train_speed(iter/s)": 0.44772
+    },
+    {
+      "acc": 0.65316257,
+      "epoch": 0.9189497716894978,
+      "grad_norm": 5.4375,
+      "learning_rate": 6.074979331269656e-06,
+      "loss": 1.59895287,
+      "memory(GiB)": 111.15,
+      "step": 36225,
+      "train_speed(iter/s)": 0.447753
+    },
+    {
+      "acc": 0.64304476,
+      "epoch": 0.9190766108574328,
+      "grad_norm": 4.8125,
+      "learning_rate": 6.0739552060646525e-06,
+      "loss": 1.68178329,
+      "memory(GiB)": 111.15,
+      "step": 36230,
+      "train_speed(iter/s)": 0.447786
+    },
+    {
+      "acc": 0.6580514,
+      "epoch": 0.9192034500253679,
+      "grad_norm": 6.0625,
+      "learning_rate": 6.0729310336223025e-06,
+      "loss": 1.59110003,
+      "memory(GiB)": 111.15,
+      "step": 36235,
+      "train_speed(iter/s)": 0.447819
+    },
+    {
+      "acc": 0.66088467,
+      "epoch": 0.9193302891933028,
+      "grad_norm": 4.875,
+      "learning_rate": 6.071906813987658e-06,
+      "loss": 1.6205452,
+      "memory(GiB)": 111.15,
+      "step": 36240,
+      "train_speed(iter/s)": 0.447852
+    },
+    {
+      "acc": 0.65448775,
+      "epoch": 0.9194571283612379,
+      "grad_norm": 5.65625,
+      "learning_rate": 6.070882547205764e-06,
+      "loss": 1.62742882,
+      "memory(GiB)": 111.15,
+      "step": 36245,
+      "train_speed(iter/s)": 0.447884
+    },
+    {
+      "acc": 0.66130304,
+      "epoch": 0.919583967529173,
+      "grad_norm": 5.28125,
+      "learning_rate": 6.069858233321677e-06,
+      "loss": 1.5564559,
+      "memory(GiB)": 111.15,
+      "step": 36250,
+      "train_speed(iter/s)": 0.447916
+    },
+    {
+      "acc": 0.66485438,
+      "epoch": 0.919710806697108,
+      "grad_norm": 5.59375,
+      "learning_rate": 6.068833872380445e-06,
+      "loss": 1.55910187,
+      "memory(GiB)": 111.15,
+      "step": 36255,
+      "train_speed(iter/s)": 0.447949
+    },
+    {
+      "acc": 0.63518887,
+      "epoch": 0.9198376458650431,
+      "grad_norm": 6.125,
+      "learning_rate": 6.067809464427129e-06,
+      "loss": 1.68682251,
+      "memory(GiB)": 111.15,
+      "step": 36260,
+      "train_speed(iter/s)": 0.447982
+    },
+    {
+      "acc": 0.65564861,
+      "epoch": 0.9199644850329782,
+      "grad_norm": 5.53125,
+      "learning_rate": 6.066785009506786e-06,
+      "loss": 1.59522572,
+      "memory(GiB)": 111.15,
+      "step": 36265,
+      "train_speed(iter/s)": 0.448015
+    },
+    {
+      "acc": 0.65231628,
+      "epoch": 0.9200913242009132,
+      "grad_norm": 5.5625,
+      "learning_rate": 6.065760507664474e-06,
+      "loss": 1.60623112,
+      "memory(GiB)": 111.15,
+      "step": 36270,
+      "train_speed(iter/s)": 0.448048
+    },
+    {
+      "acc": 0.65791125,
+      "epoch": 0.9202181633688483,
+      "grad_norm": 6.78125,
+      "learning_rate": 6.064735958945258e-06,
+      "loss": 1.62483826,
+      "memory(GiB)": 111.15,
+      "step": 36275,
+      "train_speed(iter/s)": 0.448081
+    },
+    {
+      "acc": 0.65667534,
+      "epoch": 0.9203450025367833,
+      "grad_norm": 6.5,
+      "learning_rate": 6.0637113633942006e-06,
+      "loss": 1.64503937,
+      "memory(GiB)": 111.15,
+      "step": 36280,
+      "train_speed(iter/s)": 0.448113
+    },
+    {
+      "acc": 0.63414297,
+      "epoch": 0.9204718417047184,
+      "grad_norm": 4.90625,
+      "learning_rate": 6.0626867210563675e-06,
+      "loss": 1.71982651,
+      "memory(GiB)": 111.15,
+      "step": 36285,
+      "train_speed(iter/s)": 0.448146
+    },
+    {
+      "acc": 0.66492729,
+      "epoch": 0.9205986808726535,
+      "grad_norm": 4.78125,
+      "learning_rate": 6.061662031976828e-06,
+      "loss": 1.58647194,
+      "memory(GiB)": 111.15,
+      "step": 36290,
+      "train_speed(iter/s)": 0.448179
+    },
+    {
+      "acc": 0.65190973,
+      "epoch": 0.9207255200405885,
+      "grad_norm": 5.125,
+      "learning_rate": 6.0606372962006534e-06,
+      "loss": 1.5588953,
+      "memory(GiB)": 111.15,
+      "step": 36295,
+      "train_speed(iter/s)": 0.448212
+    },
+    {
+      "acc": 0.64651089,
+      "epoch": 0.9208523592085236,
+      "grad_norm": 5.03125,
+      "learning_rate": 6.0596125137729145e-06,
+      "loss": 1.63594685,
+      "memory(GiB)": 111.15,
+      "step": 36300,
+      "train_speed(iter/s)": 0.448244
+    },
+    {
+      "epoch": 0.9208523592085236,
+      "eval_acc": 0.6432104247983332,
+      "eval_loss": 1.608576774597168,
+      "eval_runtime": 113.0577,
+      "eval_samples_per_second": 56.343,
+      "eval_steps_per_second": 28.171,
+      "step": 36300
+    },
+    {
+      "acc": 0.6424367,
+      "epoch": 0.9209791983764587,
+      "grad_norm": 5.78125,
+      "learning_rate": 6.058587684738685e-06,
+      "loss": 1.68772202,
+      "memory(GiB)": 111.15,
+      "step": 36305,
+      "train_speed(iter/s)": 0.447627
+    },
+    {
+      "acc": 0.66101141,
+      "epoch": 0.9211060375443937,
+      "grad_norm": 6.3125,
+      "learning_rate": 6.057562809143045e-06,
+      "loss": 1.59679413,
+      "memory(GiB)": 111.15,
+      "step": 36310,
+      "train_speed(iter/s)": 0.447659
+    },
+    {
+      "acc": 0.64731216,
+      "epoch": 0.9212328767123288,
+      "grad_norm": 5.03125,
+      "learning_rate": 6.056537887031069e-06,
+      "loss": 1.6431097,
+      "memory(GiB)": 111.15,
+      "step": 36315,
+      "train_speed(iter/s)": 0.447692
+    },
+    {
+      "acc": 0.6571404,
+      "epoch": 0.9213597158802638,
+      "grad_norm": 4.84375,
+      "learning_rate": 6.055512918447841e-06,
+      "loss": 1.63394375,
+      "memory(GiB)": 111.15,
+      "step": 36320,
+      "train_speed(iter/s)": 0.447724
+    },
+    {
+      "acc": 0.64703393,
+      "epoch": 0.9214865550481989,
+      "grad_norm": 4.875,
+      "learning_rate": 6.054487903438442e-06,
+      "loss": 1.62453079,
+      "memory(GiB)": 111.15,
+      "step": 36325,
+      "train_speed(iter/s)": 0.447756
+    },
+    {
+      "acc": 0.64894915,
+      "epoch": 0.921613394216134,
+      "grad_norm": 5.53125,
+      "learning_rate": 6.0534628420479576e-06,
+      "loss": 1.65224075,
+      "memory(GiB)": 111.15,
+      "step": 36330,
+      "train_speed(iter/s)": 0.447789
+    },
+    {
+      "acc": 0.66040955,
+      "epoch": 0.921740233384069,
+      "grad_norm": 5.3125,
+      "learning_rate": 6.0524377343214724e-06,
+      "loss": 1.66840706,
+      "memory(GiB)": 111.15,
+      "step": 36335,
+      "train_speed(iter/s)": 0.447821
+    },
+    {
+      "acc": 0.64087572,
+      "epoch": 0.9218670725520041,
+      "grad_norm": 5.65625,
+      "learning_rate": 6.051412580304079e-06,
+      "loss": 1.6649456,
+      "memory(GiB)": 111.15,
+      "step": 36340,
+      "train_speed(iter/s)": 0.447853
+    },
+    {
+      "acc": 0.64455271,
+      "epoch": 0.9219939117199392,
+      "grad_norm": 4.5,
+      "learning_rate": 6.050387380040864e-06,
+      "loss": 1.66817341,
+      "memory(GiB)": 111.15,
+      "step": 36345,
+      "train_speed(iter/s)": 0.447886
+    },
+    {
+      "acc": 0.63157768,
+      "epoch": 0.9221207508878742,
+      "grad_norm": 5.09375,
+      "learning_rate": 6.049362133576924e-06,
+      "loss": 1.67944489,
+      "memory(GiB)": 111.15,
+      "step": 36350,
+      "train_speed(iter/s)": 0.447917
+    },
+    {
+      "acc": 0.67116184,
+      "epoch": 0.9222475900558093,
+      "grad_norm": 5.4375,
+      "learning_rate": 6.048336840957351e-06,
+      "loss": 1.57984333,
+      "memory(GiB)": 111.15,
+      "step": 36355,
+      "train_speed(iter/s)": 0.447949
+    },
+    {
+      "acc": 0.65210872,
+      "epoch": 0.9223744292237442,
+      "grad_norm": 4.84375,
+      "learning_rate": 6.047311502227245e-06,
+      "loss": 1.62568436,
+      "memory(GiB)": 111.15,
+      "step": 36360,
+      "train_speed(iter/s)": 0.447982
+    },
+    {
+      "acc": 0.64931793,
+      "epoch": 0.9225012683916793,
+      "grad_norm": 5.53125,
+      "learning_rate": 6.046286117431703e-06,
+      "loss": 1.63582954,
+      "memory(GiB)": 111.15,
+      "step": 36365,
+      "train_speed(iter/s)": 0.448014
+    },
+    {
+      "acc": 0.6534153,
+      "epoch": 0.9226281075596144,
+      "grad_norm": 4.3125,
+      "learning_rate": 6.0452606866158246e-06,
+      "loss": 1.65509644,
+      "memory(GiB)": 111.15,
+      "step": 36370,
+      "train_speed(iter/s)": 0.448045
+    },
+    {
+      "acc": 0.64870634,
+      "epoch": 0.9227549467275494,
+      "grad_norm": 5.53125,
+      "learning_rate": 6.044235209824716e-06,
+      "loss": 1.58035374,
+      "memory(GiB)": 111.15,
+      "step": 36375,
+      "train_speed(iter/s)": 0.448078
+    },
+    {
+      "acc": 0.64314871,
+      "epoch": 0.9228817858954845,
+      "grad_norm": 5.5625,
+      "learning_rate": 6.04320968710348e-06,
+      "loss": 1.70649872,
+      "memory(GiB)": 111.15,
+      "step": 36380,
+      "train_speed(iter/s)": 0.448109
+    },
+    {
+      "acc": 0.6299408,
+      "epoch": 0.9230086250634196,
+      "grad_norm": 6.1875,
+      "learning_rate": 6.042184118497223e-06,
+      "loss": 1.70052242,
+      "memory(GiB)": 111.15,
+      "step": 36385,
+      "train_speed(iter/s)": 0.448142
+    },
+    {
+      "acc": 0.66827822,
+      "epoch": 0.9231354642313546,
+      "grad_norm": 6.0625,
+      "learning_rate": 6.0411585040510576e-06,
+      "loss": 1.59164295,
+      "memory(GiB)": 111.15,
+      "step": 36390,
+      "train_speed(iter/s)": 0.448174
+    },
+    {
+      "acc": 0.66311469,
+      "epoch": 0.9232623033992897,
+      "grad_norm": 5.03125,
+      "learning_rate": 6.040132843810091e-06,
+      "loss": 1.60450554,
+      "memory(GiB)": 111.15,
+      "step": 36395,
+      "train_speed(iter/s)": 0.448206
+    },
+    {
+      "acc": 0.67393913,
+      "epoch": 0.9233891425672247,
+      "grad_norm": 6.0,
+      "learning_rate": 6.03910713781944e-06,
+      "loss": 1.51075735,
+      "memory(GiB)": 111.15,
+      "step": 36400,
+      "train_speed(iter/s)": 0.448238
+    },
+    {
+      "epoch": 0.9233891425672247,
+      "eval_acc": 0.6431903719674793,
+      "eval_loss": 1.6087710857391357,
+      "eval_runtime": 114.0808,
+      "eval_samples_per_second": 55.838,
+      "eval_steps_per_second": 27.919,
+      "step": 36400
+    },
+    {
+      "acc": 0.64326468,
+      "epoch": 0.9235159817351598,
+      "grad_norm": 6.46875,
+      "learning_rate": 6.038081386124216e-06,
+      "loss": 1.62376366,
+      "memory(GiB)": 111.15,
+      "step": 36405,
+      "train_speed(iter/s)": 0.447617
+    },
+    {
+      "acc": 0.64780474,
+      "epoch": 0.9236428209030949,
+      "grad_norm": 5.59375,
+      "learning_rate": 6.037055588769539e-06,
+      "loss": 1.60299091,
+      "memory(GiB)": 111.15,
+      "step": 36410,
+      "train_speed(iter/s)": 0.44765
+    },
+    {
+      "acc": 0.65084329,
+      "epoch": 0.9237696600710299,
+      "grad_norm": 4.6875,
+      "learning_rate": 6.036029745800527e-06,
+      "loss": 1.57017765,
+      "memory(GiB)": 111.15,
+      "step": 36415,
+      "train_speed(iter/s)": 0.447683
+    },
+    {
+      "acc": 0.65075684,
+      "epoch": 0.923896499238965,
+      "grad_norm": 5.09375,
+      "learning_rate": 6.0350038572623e-06,
+      "loss": 1.67223949,
+      "memory(GiB)": 111.15,
+      "step": 36420,
+      "train_speed(iter/s)": 0.447715
+    },
+    {
+      "acc": 0.63734651,
+      "epoch": 0.9240233384069001,
+      "grad_norm": 5.09375,
+      "learning_rate": 6.033977923199984e-06,
+      "loss": 1.6192379,
+      "memory(GiB)": 111.15,
+      "step": 36425,
+      "train_speed(iter/s)": 0.447748
+    },
+    {
+      "acc": 0.66568174,
+      "epoch": 0.9241501775748351,
+      "grad_norm": 6.0,
+      "learning_rate": 6.032951943658702e-06,
+      "loss": 1.53037319,
+      "memory(GiB)": 111.15,
+      "step": 36430,
+      "train_speed(iter/s)": 0.447781
+    },
+    {
+      "acc": 0.6478334,
+      "epoch": 0.9242770167427702,
+      "grad_norm": 5.15625,
+      "learning_rate": 6.031925918683582e-06,
+      "loss": 1.62719917,
+      "memory(GiB)": 111.15,
+      "step": 36435,
+      "train_speed(iter/s)": 0.447814
+    },
+    {
+      "acc": 0.63664618,
+      "epoch": 0.9244038559107052,
+      "grad_norm": 6.03125,
+      "learning_rate": 6.030899848319754e-06,
+      "loss": 1.67872505,
+      "memory(GiB)": 111.15,
+      "step": 36440,
+      "train_speed(iter/s)": 0.447846
+    },
+    {
+      "acc": 0.6377902,
+      "epoch": 0.9245306950786403,
+      "grad_norm": 4.9375,
+      "learning_rate": 6.029873732612346e-06,
+      "loss": 1.69607506,
+      "memory(GiB)": 111.15,
+      "step": 36445,
+      "train_speed(iter/s)": 0.447879
+    },
+    {
+      "acc": 0.64654922,
+      "epoch": 0.9246575342465754,
+      "grad_norm": 5.75,
+      "learning_rate": 6.028847571606493e-06,
+      "loss": 1.6563446,
+      "memory(GiB)": 111.15,
+      "step": 36450,
+      "train_speed(iter/s)": 0.447912
+    },
+    {
+      "acc": 0.64020529,
+      "epoch": 0.9247843734145104,
+      "grad_norm": 4.96875,
+      "learning_rate": 6.0278213653473305e-06,
+      "loss": 1.63829269,
+      "memory(GiB)": 111.15,
+      "step": 36455,
+      "train_speed(iter/s)": 0.447945
+    },
+    {
+      "acc": 0.64891663,
+      "epoch": 0.9249112125824455,
+      "grad_norm": 4.90625,
+      "learning_rate": 6.026795113879998e-06,
+      "loss": 1.64488754,
+      "memory(GiB)": 111.15,
+      "step": 36460,
+      "train_speed(iter/s)": 0.447978
+    },
+    {
+      "acc": 0.64766383,
+      "epoch": 0.9250380517503806,
+      "grad_norm": 5.0,
+      "learning_rate": 6.025768817249629e-06,
+      "loss": 1.65279617,
+      "memory(GiB)": 111.15,
+      "step": 36465,
+      "train_speed(iter/s)": 0.44801
+    },
+    {
+      "acc": 0.62383528,
+      "epoch": 0.9251648909183156,
+      "grad_norm": 5.65625,
+      "learning_rate": 6.024742475501369e-06,
+      "loss": 1.72132759,
+      "memory(GiB)": 111.15,
+      "step": 36470,
+      "train_speed(iter/s)": 0.448043
+    },
+    {
+      "acc": 0.64978466,
+      "epoch": 0.9252917300862507,
+      "grad_norm": 5.34375,
+      "learning_rate": 6.023716088680359e-06,
+      "loss": 1.62371216,
+      "memory(GiB)": 111.15,
+      "step": 36475,
+      "train_speed(iter/s)": 0.448076
+    },
+    {
+      "acc": 0.64134035,
+      "epoch": 0.9254185692541856,
+      "grad_norm": 5.65625,
+      "learning_rate": 6.022689656831746e-06,
+      "loss": 1.56668301,
+      "memory(GiB)": 111.15,
+      "step": 36480,
+      "train_speed(iter/s)": 0.448109
+    },
+    {
+      "acc": 0.64621105,
+      "epoch": 0.9255454084221207,
+      "grad_norm": 7.59375,
+      "learning_rate": 6.021663180000675e-06,
+      "loss": 1.60215034,
+      "memory(GiB)": 111.15,
+      "step": 36485,
+      "train_speed(iter/s)": 0.448142
+    },
+    {
+      "acc": 0.64770026,
+      "epoch": 0.9256722475900558,
+      "grad_norm": 5.28125,
+      "learning_rate": 6.020636658232297e-06,
+      "loss": 1.63039856,
+      "memory(GiB)": 111.15,
+      "step": 36490,
+      "train_speed(iter/s)": 0.448174
+    },
+    {
+      "acc": 0.64439898,
+      "epoch": 0.9257990867579908,
+      "grad_norm": 5.65625,
+      "learning_rate": 6.019610091571762e-06,
+      "loss": 1.65722694,
+      "memory(GiB)": 111.15,
+      "step": 36495,
+      "train_speed(iter/s)": 0.448207
+    },
+    {
+      "acc": 0.64405375,
+      "epoch": 0.9259259259259259,
+      "grad_norm": 6.40625,
+      "learning_rate": 6.018583480064222e-06,
+      "loss": 1.71776733,
+      "memory(GiB)": 111.15,
+      "step": 36500,
+      "train_speed(iter/s)": 0.44824
+    },
+    {
+      "epoch": 0.9259259259259259,
+      "eval_acc": 0.643144417563439,
+      "eval_loss": 1.6087801456451416,
+      "eval_runtime": 113.5712,
+      "eval_samples_per_second": 56.088,
+      "eval_steps_per_second": 28.044,
+      "step": 36500
+    },
+    {
+      "acc": 0.64949284,
+      "epoch": 0.926052765093861,
+      "grad_norm": 5.0,
+      "learning_rate": 6.017556823754833e-06,
+      "loss": 1.53541946,
+      "memory(GiB)": 111.15,
+      "step": 36505,
+      "train_speed(iter/s)": 0.447623
+    },
+    {
+      "acc": 0.6513011,
+      "epoch": 0.926179604261796,
+      "grad_norm": 7.1875,
+      "learning_rate": 6.016530122688753e-06,
+      "loss": 1.61536713,
+      "memory(GiB)": 111.15,
+      "step": 36510,
+      "train_speed(iter/s)": 0.447655
+    },
+    {
+      "acc": 0.66707501,
+      "epoch": 0.9263064434297311,
+      "grad_norm": 5.71875,
+      "learning_rate": 6.015503376911138e-06,
+      "loss": 1.62300262,
+      "memory(GiB)": 111.15,
+      "step": 36515,
+      "train_speed(iter/s)": 0.447688
+    },
+    {
+      "acc": 0.63881717,
+      "epoch": 0.9264332825976661,
+      "grad_norm": 4.71875,
+      "learning_rate": 6.0144765864671515e-06,
+      "loss": 1.64056244,
+      "memory(GiB)": 111.15,
+      "step": 36520,
+      "train_speed(iter/s)": 0.447721
+    },
+    {
+      "acc": 0.63129015,
+      "epoch": 0.9265601217656012,
+      "grad_norm": 5.0,
+      "learning_rate": 6.013449751401954e-06,
+      "loss": 1.68068886,
+      "memory(GiB)": 111.15,
+      "step": 36525,
+      "train_speed(iter/s)": 0.447753
+    },
+    {
+      "acc": 0.64978123,
+      "epoch": 0.9266869609335363,
+      "grad_norm": 5.875,
+      "learning_rate": 6.012422871760715e-06,
+      "loss": 1.63124695,
+      "memory(GiB)": 111.15,
+      "step": 36530,
+      "train_speed(iter/s)": 0.447786
+    },
+    {
+      "acc": 0.63995261,
+      "epoch": 0.9268138001014713,
+      "grad_norm": 5.09375,
+      "learning_rate": 6.011395947588594e-06,
+      "loss": 1.66824284,
+      "memory(GiB)": 111.15,
+      "step": 36535,
+      "train_speed(iter/s)": 0.447818
+    },
+    {
+      "acc": 0.64427938,
+      "epoch": 0.9269406392694064,
+      "grad_norm": 5.09375,
+      "learning_rate": 6.010368978930767e-06,
+      "loss": 1.63021641,
+      "memory(GiB)": 111.15,
+      "step": 36540,
+      "train_speed(iter/s)": 0.447851
+    },
+    {
+      "acc": 0.65215015,
+      "epoch": 0.9270674784373415,
+      "grad_norm": 5.28125,
+      "learning_rate": 6.0093419658323995e-06,
+      "loss": 1.67144966,
+      "memory(GiB)": 111.15,
+      "step": 36545,
+      "train_speed(iter/s)": 0.447884
+    },
+    {
+      "acc": 0.63101187,
+      "epoch": 0.9271943176052765,
+      "grad_norm": 5.46875,
+      "learning_rate": 6.0083149083386675e-06,
+      "loss": 1.68657837,
+      "memory(GiB)": 111.15,
+      "step": 36550,
+      "train_speed(iter/s)": 0.447916
+    },
+    {
+      "acc": 0.64131417,
+      "epoch": 0.9273211567732116,
+      "grad_norm": 5.53125,
+      "learning_rate": 6.007287806494742e-06,
+      "loss": 1.6572464,
+      "memory(GiB)": 111.15,
+      "step": 36555,
+      "train_speed(iter/s)": 0.447949
+    },
+    {
+      "acc": 0.65773125,
+      "epoch": 0.9274479959411466,
+      "grad_norm": 4.90625,
+      "learning_rate": 6.006260660345802e-06,
+      "loss": 1.61939945,
+      "memory(GiB)": 111.15,
+      "step": 36560,
+      "train_speed(iter/s)": 0.447982
+    },
+    {
+      "acc": 0.6508194,
+      "epoch": 0.9275748351090817,
+      "grad_norm": 5.0625,
+      "learning_rate": 6.005233469937027e-06,
+      "loss": 1.65617733,
+      "memory(GiB)": 111.15,
+      "step": 36565,
+      "train_speed(iter/s)": 0.448015
+    },
+    {
+      "acc": 0.66327219,
+      "epoch": 0.9277016742770168,
+      "grad_norm": 6.0,
+      "learning_rate": 6.004206235313594e-06,
+      "loss": 1.5682991,
+      "memory(GiB)": 111.15,
+      "step": 36570,
+      "train_speed(iter/s)": 0.448048
+    },
+    {
+      "acc": 0.65131907,
+      "epoch": 0.9278285134449518,
+      "grad_norm": 4.96875,
+      "learning_rate": 6.003178956520688e-06,
+      "loss": 1.61189213,
+      "memory(GiB)": 111.15,
+      "step": 36575,
+      "train_speed(iter/s)": 0.44808
+    },
+    {
+      "acc": 0.64789929,
+      "epoch": 0.9279553526128869,
+      "grad_norm": 4.3125,
+      "learning_rate": 6.002151633603493e-06,
+      "loss": 1.64973335,
+      "memory(GiB)": 111.15,
+      "step": 36580,
+      "train_speed(iter/s)": 0.448113
+    },
+    {
+      "acc": 0.64127016,
+      "epoch": 0.928082191780822,
+      "grad_norm": 4.625,
+      "learning_rate": 6.0011242666071945e-06,
+      "loss": 1.61005478,
+      "memory(GiB)": 111.15,
+      "step": 36585,
+      "train_speed(iter/s)": 0.448146
+    },
+    {
+      "acc": 0.64447584,
+      "epoch": 0.928209030948757,
+      "grad_norm": 5.0625,
+      "learning_rate": 6.000096855576982e-06,
+      "loss": 1.60900726,
+      "memory(GiB)": 111.15,
+      "step": 36590,
+      "train_speed(iter/s)": 0.448179
+    },
+    {
+      "acc": 0.65335054,
+      "epoch": 0.928335870116692,
+      "grad_norm": 5.03125,
+      "learning_rate": 5.999069400558044e-06,
+      "loss": 1.63926392,
+      "memory(GiB)": 111.15,
+      "step": 36595,
+      "train_speed(iter/s)": 0.448211
+    },
+    {
+      "acc": 0.65481186,
+      "epoch": 0.928462709284627,
+      "grad_norm": 5.8125,
+      "learning_rate": 5.998041901595573e-06,
+      "loss": 1.60935268,
+      "memory(GiB)": 111.15,
+      "step": 36600,
+      "train_speed(iter/s)": 0.448243
+    },
+    {
+      "epoch": 0.928462709284627,
+      "eval_acc": 0.6431602927211983,
+      "eval_loss": 1.6087822914123535,
+      "eval_runtime": 114.013,
+      "eval_samples_per_second": 55.871,
+      "eval_steps_per_second": 27.935,
+      "step": 36600
+    },
+    {
+      "acc": 0.63276386,
+      "epoch": 0.9285895484525621,
+      "grad_norm": 5.59375,
+      "learning_rate": 5.997014358734763e-06,
+      "loss": 1.64770737,
+      "memory(GiB)": 111.15,
+      "step": 36605,
+      "train_speed(iter/s)": 0.447626
+    },
+    {
+      "acc": 0.65176911,
+      "epoch": 0.9287163876204972,
+      "grad_norm": 5.1875,
+      "learning_rate": 5.995986772020811e-06,
+      "loss": 1.57933636,
+      "memory(GiB)": 111.15,
+      "step": 36610,
+      "train_speed(iter/s)": 0.447658
+    },
+    {
+      "acc": 0.64311409,
+      "epoch": 0.9288432267884322,
+      "grad_norm": 4.96875,
+      "learning_rate": 5.994959141498913e-06,
+      "loss": 1.64045372,
+      "memory(GiB)": 111.15,
+      "step": 36615,
+      "train_speed(iter/s)": 0.447691
+    },
+    {
+      "acc": 0.65488167,
+      "epoch": 0.9289700659563673,
+      "grad_norm": 4.3125,
+      "learning_rate": 5.993931467214272e-06,
+      "loss": 1.63277283,
+      "memory(GiB)": 111.15,
+      "step": 36620,
+      "train_speed(iter/s)": 0.447724
+    },
+    {
+      "acc": 0.64676361,
+      "epoch": 0.9290969051243024,
+      "grad_norm": 5.28125,
+      "learning_rate": 5.992903749212084e-06,
+      "loss": 1.6516655,
+      "memory(GiB)": 111.15,
+      "step": 36625,
+      "train_speed(iter/s)": 0.447756
+    },
+    {
+      "acc": 0.6456274,
+      "epoch": 0.9292237442922374,
+      "grad_norm": 5.9375,
+      "learning_rate": 5.991875987537559e-06,
+      "loss": 1.66086006,
+      "memory(GiB)": 111.15,
+      "step": 36630,
+      "train_speed(iter/s)": 0.447789
+    },
+    {
+      "acc": 0.65170717,
+      "epoch": 0.9293505834601725,
+      "grad_norm": 6.09375,
+      "learning_rate": 5.990848182235898e-06,
+      "loss": 1.65292854,
+      "memory(GiB)": 111.15,
+      "step": 36635,
+      "train_speed(iter/s)": 0.447822
+    },
+    {
+      "acc": 0.63868465,
+      "epoch": 0.9294774226281075,
+      "grad_norm": 6.5625,
+      "learning_rate": 5.98982033335231e-06,
+      "loss": 1.69883995,
+      "memory(GiB)": 111.15,
+      "step": 36640,
+      "train_speed(iter/s)": 0.447854
+    },
+    {
+      "acc": 0.65549889,
+      "epoch": 0.9296042617960426,
+      "grad_norm": 5.15625,
+      "learning_rate": 5.988792440932006e-06,
+      "loss": 1.51775379,
+      "memory(GiB)": 111.15,
+      "step": 36645,
+      "train_speed(iter/s)": 0.447887
+    },
+    {
+      "acc": 0.65993223,
+      "epoch": 0.9297311009639777,
+      "grad_norm": 4.875,
+      "learning_rate": 5.987764505020195e-06,
+      "loss": 1.52925968,
+      "memory(GiB)": 111.15,
+      "step": 36650,
+      "train_speed(iter/s)": 0.44792
+    },
+    {
+      "acc": 0.63512383,
+      "epoch": 0.9298579401319127,
+      "grad_norm": 5.53125,
+      "learning_rate": 5.986736525662091e-06,
+      "loss": 1.65203342,
+      "memory(GiB)": 111.15,
+      "step": 36655,
+      "train_speed(iter/s)": 0.447952
+    },
+    {
+      "acc": 0.65197134,
+      "epoch": 0.9299847792998478,
+      "grad_norm": 4.46875,
+      "learning_rate": 5.985708502902909e-06,
+      "loss": 1.58356514,
+      "memory(GiB)": 111.15,
+      "step": 36660,
+      "train_speed(iter/s)": 0.447985
+    },
+    {
+      "acc": 0.64990916,
+      "epoch": 0.9301116184677829,
+      "grad_norm": 5.34375,
+      "learning_rate": 5.984680436787867e-06,
+      "loss": 1.6359314,
+      "memory(GiB)": 111.15,
+      "step": 36665,
+      "train_speed(iter/s)": 0.448017
+    },
+    {
+      "acc": 0.64861102,
+      "epoch": 0.9302384576357179,
+      "grad_norm": 5.0,
+      "learning_rate": 5.983652327362182e-06,
+      "loss": 1.63021126,
+      "memory(GiB)": 111.15,
+      "step": 36670,
+      "train_speed(iter/s)": 0.44805
+    },
+    {
+      "acc": 0.65491462,
+      "epoch": 0.930365296803653,
+      "grad_norm": 4.8125,
+      "learning_rate": 5.982624174671077e-06,
+      "loss": 1.65926971,
+      "memory(GiB)": 111.15,
+      "step": 36675,
+      "train_speed(iter/s)": 0.448082
+    },
+    {
+      "acc": 0.65743828,
+      "epoch": 0.930492135971588,
+      "grad_norm": 5.59375,
+      "learning_rate": 5.981595978759773e-06,
+      "loss": 1.61877575,
+      "memory(GiB)": 111.15,
+      "step": 36680,
+      "train_speed(iter/s)": 0.448115
+    },
+    {
+      "acc": 0.64636078,
+      "epoch": 0.9306189751395231,
+      "grad_norm": 4.53125,
+      "learning_rate": 5.980567739673495e-06,
+      "loss": 1.66098442,
+      "memory(GiB)": 111.15,
+      "step": 36685,
+      "train_speed(iter/s)": 0.448147
+    },
+    {
+      "acc": 0.65286617,
+      "epoch": 0.9307458143074582,
+      "grad_norm": 5.25,
+      "learning_rate": 5.979539457457472e-06,
+      "loss": 1.62726936,
+      "memory(GiB)": 111.15,
+      "step": 36690,
+      "train_speed(iter/s)": 0.44818
+    },
+    {
+      "acc": 0.65126867,
+      "epoch": 0.9308726534753932,
+      "grad_norm": 6.03125,
+      "learning_rate": 5.978511132156928e-06,
+      "loss": 1.63660202,
+      "memory(GiB)": 111.15,
+      "step": 36695,
+      "train_speed(iter/s)": 0.448213
+    },
+    {
+      "acc": 0.64327288,
+      "epoch": 0.9309994926433283,
+      "grad_norm": 5.96875,
+      "learning_rate": 5.9774827638170965e-06,
+      "loss": 1.67627754,
+      "memory(GiB)": 111.15,
+      "step": 36700,
+      "train_speed(iter/s)": 0.448245
+    },
+    {
+      "epoch": 0.9309994926433283,
+      "eval_acc": 0.643065877309261,
+      "eval_loss": 1.6087065935134888,
+      "eval_runtime": 114.1016,
+      "eval_samples_per_second": 55.827,
+      "eval_steps_per_second": 27.914,
+      "step": 36700
+    },
+    {
+      "acc": 0.65392179,
+      "epoch": 0.9311263318112634,
+      "grad_norm": 4.90625,
+      "learning_rate": 5.9764543524832085e-06,
+      "loss": 1.56462126,
+      "memory(GiB)": 111.15,
+      "step": 36705,
+      "train_speed(iter/s)": 0.447629
+    },
+    {
+      "acc": 0.66371756,
+      "epoch": 0.9312531709791984,
+      "grad_norm": 5.90625,
+      "learning_rate": 5.975425898200499e-06,
+      "loss": 1.60209465,
+      "memory(GiB)": 111.15,
+      "step": 36710,
+      "train_speed(iter/s)": 0.447662
+    },
+    {
+      "acc": 0.64541454,
+      "epoch": 0.9313800101471335,
+      "grad_norm": 5.84375,
+      "learning_rate": 5.974397401014202e-06,
+      "loss": 1.69137001,
+      "memory(GiB)": 111.15,
+      "step": 36715,
+      "train_speed(iter/s)": 0.447694
+    },
+    {
+      "acc": 0.64094782,
+      "epoch": 0.9315068493150684,
+      "grad_norm": 4.75,
+      "learning_rate": 5.973368860969559e-06,
+      "loss": 1.65377998,
+      "memory(GiB)": 111.15,
+      "step": 36720,
+      "train_speed(iter/s)": 0.447727
+    },
+    {
+      "acc": 0.64917321,
+      "epoch": 0.9316336884830035,
+      "grad_norm": 6.5625,
+      "learning_rate": 5.972340278111808e-06,
+      "loss": 1.64718227,
+      "memory(GiB)": 111.15,
+      "step": 36725,
+      "train_speed(iter/s)": 0.44776
+    },
+    {
+      "acc": 0.65446157,
+      "epoch": 0.9317605276509386,
+      "grad_norm": 4.5625,
+      "learning_rate": 5.9713116524861895e-06,
+      "loss": 1.50676193,
+      "memory(GiB)": 111.15,
+      "step": 36730,
+      "train_speed(iter/s)": 0.447792
+    },
+    {
+      "acc": 0.65375485,
+      "epoch": 0.9318873668188736,
+      "grad_norm": 6.0,
+      "learning_rate": 5.970282984137947e-06,
+      "loss": 1.68175316,
+      "memory(GiB)": 111.15,
+      "step": 36735,
+      "train_speed(iter/s)": 0.447824
+    },
+    {
+      "acc": 0.67130117,
+      "epoch": 0.9320142059868087,
+      "grad_norm": 4.65625,
+      "learning_rate": 5.969254273112328e-06,
+      "loss": 1.56214314,
+      "memory(GiB)": 111.15,
+      "step": 36740,
+      "train_speed(iter/s)": 0.447857
+    },
+    {
+      "acc": 0.65184336,
+      "epoch": 0.9321410451547438,
+      "grad_norm": 5.5,
+      "learning_rate": 5.968225519454577e-06,
+      "loss": 1.65125656,
+      "memory(GiB)": 111.15,
+      "step": 36745,
+      "train_speed(iter/s)": 0.44789
+    },
+    {
+      "acc": 0.66311512,
+      "epoch": 0.9322678843226788,
+      "grad_norm": 5.625,
+      "learning_rate": 5.967196723209947e-06,
+      "loss": 1.59511204,
+      "memory(GiB)": 111.15,
+      "step": 36750,
+      "train_speed(iter/s)": 0.447922
+    },
+    {
+      "acc": 0.64025402,
+      "epoch": 0.9323947234906139,
+      "grad_norm": 6.125,
+      "learning_rate": 5.966167884423686e-06,
+      "loss": 1.70963058,
+      "memory(GiB)": 111.15,
+      "step": 36755,
+      "train_speed(iter/s)": 0.447955
+    },
+    {
+      "acc": 0.67873564,
+      "epoch": 0.9325215626585489,
+      "grad_norm": 5.5,
+      "learning_rate": 5.965139003141048e-06,
+      "loss": 1.5078661,
+      "memory(GiB)": 111.15,
+      "step": 36760,
+      "train_speed(iter/s)": 0.447987
+    },
+    {
+      "acc": 0.64550447,
+      "epoch": 0.932648401826484,
+      "grad_norm": 5.1875,
+      "learning_rate": 5.964110079407287e-06,
+      "loss": 1.63001671,
+      "memory(GiB)": 111.15,
+      "step": 36765,
+      "train_speed(iter/s)": 0.44802
+    },
+    {
+      "acc": 0.64718099,
+      "epoch": 0.9327752409944191,
+      "grad_norm": 5.1875,
+      "learning_rate": 5.9630811132676625e-06,
+      "loss": 1.66544781,
+      "memory(GiB)": 111.15,
+      "step": 36770,
+      "train_speed(iter/s)": 0.448053
+    },
+    {
+      "acc": 0.65200386,
+      "epoch": 0.9329020801623541,
+      "grad_norm": 5.375,
+      "learning_rate": 5.962052104767427e-06,
+      "loss": 1.66214523,
+      "memory(GiB)": 111.15,
+      "step": 36775,
+      "train_speed(iter/s)": 0.448085
+    },
+    {
+      "acc": 0.65890656,
+      "epoch": 0.9330289193302892,
+      "grad_norm": 5.46875,
+      "learning_rate": 5.961023053951848e-06,
+      "loss": 1.62643089,
+      "memory(GiB)": 111.15,
+      "step": 36780,
+      "train_speed(iter/s)": 0.448117
+    },
+    {
+      "acc": 0.65522518,
+      "epoch": 0.9331557584982243,
+      "grad_norm": 5.625,
+      "learning_rate": 5.9599939608661825e-06,
+      "loss": 1.66874218,
+      "memory(GiB)": 111.15,
+      "step": 36785,
+      "train_speed(iter/s)": 0.448149
+    },
+    {
+      "acc": 0.64050875,
+      "epoch": 0.9332825976661593,
+      "grad_norm": 4.875,
+      "learning_rate": 5.9589648255556975e-06,
+      "loss": 1.65283127,
+      "memory(GiB)": 111.15,
+      "step": 36790,
+      "train_speed(iter/s)": 0.448181
+    },
+    {
+      "acc": 0.64744935,
+      "epoch": 0.9334094368340944,
+      "grad_norm": 5.0,
+      "learning_rate": 5.957935648065658e-06,
+      "loss": 1.62253113,
+      "memory(GiB)": 111.15,
+      "step": 36795,
+      "train_speed(iter/s)": 0.448213
+    },
+    {
+      "acc": 0.65219469,
+      "epoch": 0.9335362760020294,
+      "grad_norm": 6.34375,
+      "learning_rate": 5.956906428441331e-06,
+      "loss": 1.61010303,
+      "memory(GiB)": 111.15,
+      "step": 36800,
+      "train_speed(iter/s)": 0.448245
+    },
+    {
+      "epoch": 0.9335362760020294,
+      "eval_acc": 0.6432008161502157,
+      "eval_loss": 1.6087191104888916,
+      "eval_runtime": 112.8859,
+      "eval_samples_per_second": 56.429,
+      "eval_steps_per_second": 28.214,
+      "step": 36800
+    },
+    {
+      "acc": 0.64840775,
+      "epoch": 0.9336631151699645,
+      "grad_norm": 4.46875,
+      "learning_rate": 5.955877166727988e-06,
+      "loss": 1.61947365,
+      "memory(GiB)": 111.15,
+      "step": 36805,
+      "train_speed(iter/s)": 0.447637
+    },
+    {
+      "acc": 0.65272045,
+      "epoch": 0.9337899543378996,
+      "grad_norm": 6.15625,
+      "learning_rate": 5.954847862970898e-06,
+      "loss": 1.64417877,
+      "memory(GiB)": 111.15,
+      "step": 36810,
+      "train_speed(iter/s)": 0.44767
+    },
+    {
+      "acc": 0.64016085,
+      "epoch": 0.9339167935058346,
+      "grad_norm": 4.53125,
+      "learning_rate": 5.953818517215338e-06,
+      "loss": 1.6786602,
+      "memory(GiB)": 111.15,
+      "step": 36815,
+      "train_speed(iter/s)": 0.447702
+    },
+    {
+      "acc": 0.65304708,
+      "epoch": 0.9340436326737697,
+      "grad_norm": 5.1875,
+      "learning_rate": 5.95278912950658e-06,
+      "loss": 1.64396648,
+      "memory(GiB)": 111.15,
+      "step": 36820,
+      "train_speed(iter/s)": 0.447734
+    },
+    {
+      "acc": 0.67129741,
+      "epoch": 0.9341704718417048,
+      "grad_norm": 4.875,
+      "learning_rate": 5.9517596998899e-06,
+      "loss": 1.53759356,
+      "memory(GiB)": 111.15,
+      "step": 36825,
+      "train_speed(iter/s)": 0.447767
+    },
+    {
+      "acc": 0.66465149,
+      "epoch": 0.9342973110096398,
+      "grad_norm": 5.65625,
+      "learning_rate": 5.9507302284105836e-06,
+      "loss": 1.59951611,
+      "memory(GiB)": 111.15,
+      "step": 36830,
+      "train_speed(iter/s)": 0.447799
+    },
+    {
+      "acc": 0.6611104,
+      "epoch": 0.9344241501775749,
+      "grad_norm": 5.03125,
+      "learning_rate": 5.949700715113904e-06,
+      "loss": 1.61405067,
+      "memory(GiB)": 111.15,
+      "step": 36835,
+      "train_speed(iter/s)": 0.447831
+    },
+    {
+      "acc": 0.64961329,
+      "epoch": 0.9345509893455098,
+      "grad_norm": 5.96875,
+      "learning_rate": 5.9486711600451484e-06,
+      "loss": 1.62284985,
+      "memory(GiB)": 111.15,
+      "step": 36840,
+      "train_speed(iter/s)": 0.447864
+    },
+    {
+      "acc": 0.66234055,
+      "epoch": 0.9346778285134449,
+      "grad_norm": 5.1875,
+      "learning_rate": 5.9476415632495974e-06,
+      "loss": 1.63580761,
+      "memory(GiB)": 111.15,
+      "step": 36845,
+      "train_speed(iter/s)": 0.447896
+    },
+    {
+      "acc": 0.64065399,
+      "epoch": 0.93480466768138,
+      "grad_norm": 5.09375,
+      "learning_rate": 5.946611924772542e-06,
+      "loss": 1.62230911,
+      "memory(GiB)": 111.15,
+      "step": 36850,
+      "train_speed(iter/s)": 0.447928
+    },
+    {
+      "acc": 0.66177635,
+      "epoch": 0.934931506849315,
+      "grad_norm": 4.78125,
+      "learning_rate": 5.945582244659267e-06,
+      "loss": 1.5749506,
+      "memory(GiB)": 111.15,
+      "step": 36855,
+      "train_speed(iter/s)": 0.447961
+    },
+    {
+      "acc": 0.65094151,
+      "epoch": 0.9350583460172501,
+      "grad_norm": 5.59375,
+      "learning_rate": 5.944552522955063e-06,
+      "loss": 1.6492569,
+      "memory(GiB)": 111.15,
+      "step": 36860,
+      "train_speed(iter/s)": 0.447993
+    },
+    {
+      "acc": 0.6713872,
+      "epoch": 0.9351851851851852,
+      "grad_norm": 4.25,
+      "learning_rate": 5.943522759705221e-06,
+      "loss": 1.60539436,
+      "memory(GiB)": 111.15,
+      "step": 36865,
+      "train_speed(iter/s)": 0.448025
+    },
+    {
+      "acc": 0.63201346,
+      "epoch": 0.9353120243531202,
+      "grad_norm": 4.75,
+      "learning_rate": 5.942492954955037e-06,
+      "loss": 1.71706161,
+      "memory(GiB)": 111.15,
+      "step": 36870,
+      "train_speed(iter/s)": 0.448058
+    },
+    {
+      "acc": 0.63267298,
+      "epoch": 0.9354388635210553,
+      "grad_norm": 5.40625,
+      "learning_rate": 5.941463108749804e-06,
+      "loss": 1.70435524,
+      "memory(GiB)": 111.15,
+      "step": 36875,
+      "train_speed(iter/s)": 0.44809
+    },
+    {
+      "acc": 0.65122232,
+      "epoch": 0.9355657026889903,
+      "grad_norm": 5.9375,
+      "learning_rate": 5.940433221134821e-06,
+      "loss": 1.62943726,
+      "memory(GiB)": 111.15,
+      "step": 36880,
+      "train_speed(iter/s)": 0.448123
+    },
+    {
+      "acc": 0.66188183,
+      "epoch": 0.9356925418569254,
+      "grad_norm": 5.59375,
+      "learning_rate": 5.9394032921553856e-06,
+      "loss": 1.62202454,
+      "memory(GiB)": 111.15,
+      "step": 36885,
+      "train_speed(iter/s)": 0.448155
+    },
+    {
+      "acc": 0.64588065,
+      "epoch": 0.9358193810248605,
+      "grad_norm": 6.1875,
+      "learning_rate": 5.9383733218568e-06,
+      "loss": 1.67549191,
+      "memory(GiB)": 111.15,
+      "step": 36890,
+      "train_speed(iter/s)": 0.448187
+    },
+    {
+      "acc": 0.6477931,
+      "epoch": 0.9359462201927955,
+      "grad_norm": 5.0,
+      "learning_rate": 5.937343310284365e-06,
+      "loss": 1.6310688,
+      "memory(GiB)": 111.15,
+      "step": 36895,
+      "train_speed(iter/s)": 0.44822
+    },
+    {
+      "acc": 0.64817858,
+      "epoch": 0.9360730593607306,
+      "grad_norm": 4.96875,
+      "learning_rate": 5.936313257483387e-06,
+      "loss": 1.64522705,
+      "memory(GiB)": 111.15,
+      "step": 36900,
+      "train_speed(iter/s)": 0.448252
+    },
+    {
+      "epoch": 0.9360730593607306,
+      "eval_acc": 0.6431627993250552,
+      "eval_loss": 1.6087678670883179,
+      "eval_runtime": 113.3204,
+      "eval_samples_per_second": 56.212,
+      "eval_steps_per_second": 28.106,
+      "step": 36900
+    },
+    {
+      "acc": 0.64475031,
+      "epoch": 0.9361998985286657,
+      "grad_norm": 4.75,
+      "learning_rate": 5.935283163499171e-06,
+      "loss": 1.6564991,
+      "memory(GiB)": 111.15,
+      "step": 36905,
+      "train_speed(iter/s)": 0.447643
+    },
+    {
+      "acc": 0.63907037,
+      "epoch": 0.9363267376966007,
+      "grad_norm": 5.0,
+      "learning_rate": 5.9342530283770274e-06,
+      "loss": 1.70316582,
+      "memory(GiB)": 111.15,
+      "step": 36910,
+      "train_speed(iter/s)": 0.447675
+    },
+    {
+      "acc": 0.65809822,
+      "epoch": 0.9364535768645358,
+      "grad_norm": 4.3125,
+      "learning_rate": 5.9332228521622615e-06,
+      "loss": 1.54398994,
+      "memory(GiB)": 111.15,
+      "step": 36915,
+      "train_speed(iter/s)": 0.447707
+    },
+    {
+      "acc": 0.6620399,
+      "epoch": 0.9365804160324708,
+      "grad_norm": 5.1875,
+      "learning_rate": 5.93219263490019e-06,
+      "loss": 1.62343616,
+      "memory(GiB)": 111.15,
+      "step": 36920,
+      "train_speed(iter/s)": 0.447738
+    },
+    {
+      "acc": 0.66314096,
+      "epoch": 0.9367072552004059,
+      "grad_norm": 5.40625,
+      "learning_rate": 5.931162376636123e-06,
+      "loss": 1.6736824,
+      "memory(GiB)": 111.15,
+      "step": 36925,
+      "train_speed(iter/s)": 0.44777
+    },
+    {
+      "acc": 0.65223899,
+      "epoch": 0.936834094368341,
+      "grad_norm": 6.0,
+      "learning_rate": 5.93013207741538e-06,
+      "loss": 1.59007149,
+      "memory(GiB)": 111.15,
+      "step": 36930,
+      "train_speed(iter/s)": 0.447802
+    },
+    {
+      "acc": 0.64796052,
+      "epoch": 0.936960933536276,
+      "grad_norm": 4.9375,
+      "learning_rate": 5.929101737283274e-06,
+      "loss": 1.59672184,
+      "memory(GiB)": 111.15,
+      "step": 36935,
+      "train_speed(iter/s)": 0.447834
+    },
+    {
+      "acc": 0.63852029,
+      "epoch": 0.9370877727042111,
+      "grad_norm": 5.28125,
+      "learning_rate": 5.928071356285126e-06,
+      "loss": 1.62632904,
+      "memory(GiB)": 111.15,
+      "step": 36940,
+      "train_speed(iter/s)": 0.447866
+    },
+    {
+      "acc": 0.66527581,
+      "epoch": 0.9372146118721462,
+      "grad_norm": 5.34375,
+      "learning_rate": 5.927040934466255e-06,
+      "loss": 1.58500309,
+      "memory(GiB)": 111.15,
+      "step": 36945,
+      "train_speed(iter/s)": 0.447898
+    },
+    {
+      "acc": 0.66687412,
+      "epoch": 0.9373414510400812,
+      "grad_norm": 4.9375,
+      "learning_rate": 5.926010471871986e-06,
+      "loss": 1.54485474,
+      "memory(GiB)": 111.15,
+      "step": 36950,
+      "train_speed(iter/s)": 0.44793
+    },
+    {
+      "acc": 0.65134335,
+      "epoch": 0.9374682902080163,
+      "grad_norm": 4.59375,
+      "learning_rate": 5.924979968547642e-06,
+      "loss": 1.57324781,
+      "memory(GiB)": 111.15,
+      "step": 36955,
+      "train_speed(iter/s)": 0.447962
+    },
+    {
+      "acc": 0.6303236,
+      "epoch": 0.9375951293759512,
+      "grad_norm": 6.125,
+      "learning_rate": 5.9239494245385485e-06,
+      "loss": 1.74390106,
+      "memory(GiB)": 111.15,
+      "step": 36960,
+      "train_speed(iter/s)": 0.447994
+    },
+    {
+      "acc": 0.65009909,
+      "epoch": 0.9377219685438863,
+      "grad_norm": 5.4375,
+      "learning_rate": 5.9229188398900325e-06,
+      "loss": 1.64183292,
+      "memory(GiB)": 111.15,
+      "step": 36965,
+      "train_speed(iter/s)": 0.448026
+    },
+    {
+      "acc": 0.63904181,
+      "epoch": 0.9378488077118214,
+      "grad_norm": 4.9375,
+      "learning_rate": 5.921888214647429e-06,
+      "loss": 1.67749443,
+      "memory(GiB)": 111.15,
+      "step": 36970,
+      "train_speed(iter/s)": 0.448058
+    },
+    {
+      "acc": 0.6445075,
+      "epoch": 0.9379756468797564,
+      "grad_norm": 5.34375,
+      "learning_rate": 5.920857548856064e-06,
+      "loss": 1.57803679,
+      "memory(GiB)": 111.15,
+      "step": 36975,
+      "train_speed(iter/s)": 0.448089
+    },
+    {
+      "acc": 0.6463017,
+      "epoch": 0.9381024860476915,
+      "grad_norm": 6.0,
+      "learning_rate": 5.919826842561274e-06,
+      "loss": 1.61653957,
+      "memory(GiB)": 111.15,
+      "step": 36980,
+      "train_speed(iter/s)": 0.448121
+    },
+    {
+      "acc": 0.64693284,
+      "epoch": 0.9382293252156266,
+      "grad_norm": 5.4375,
+      "learning_rate": 5.91879609580839e-06,
+      "loss": 1.67656441,
+      "memory(GiB)": 111.15,
+      "step": 36985,
+      "train_speed(iter/s)": 0.448153
+    },
+    {
+      "acc": 0.64013429,
+      "epoch": 0.9383561643835616,
+      "grad_norm": 6.34375,
+      "learning_rate": 5.917765308642754e-06,
+      "loss": 1.7001339,
+      "memory(GiB)": 111.15,
+      "step": 36990,
+      "train_speed(iter/s)": 0.448184
+    },
+    {
+      "acc": 0.64782805,
+      "epoch": 0.9384830035514967,
+      "grad_norm": 5.0625,
+      "learning_rate": 5.9167344811097014e-06,
+      "loss": 1.68568745,
+      "memory(GiB)": 111.15,
+      "step": 36995,
+      "train_speed(iter/s)": 0.448216
+    },
+    {
+      "acc": 0.66303568,
+      "epoch": 0.9386098427194317,
+      "grad_norm": 5.65625,
+      "learning_rate": 5.9157036132545735e-06,
+      "loss": 1.57605095,
+      "memory(GiB)": 111.15,
+      "step": 37000,
+      "train_speed(iter/s)": 0.448248
+    },
+    {
+      "epoch": 0.9386098427194317,
+      "eval_acc": 0.643208335961786,
+      "eval_loss": 1.6087180376052856,
+      "eval_runtime": 113.0879,
+      "eval_samples_per_second": 56.328,
+      "eval_steps_per_second": 28.164,
+      "step": 37000
+    },
+    {
+      "acc": 0.66180563,
+      "epoch": 0.9387366818873668,
+      "grad_norm": 6.71875,
+      "learning_rate": 5.914672705122713e-06,
+      "loss": 1.64287071,
+      "memory(GiB)": 111.15,
+      "step": 37005,
+      "train_speed(iter/s)": 0.447641
+    },
+    {
+      "acc": 0.64640808,
+      "epoch": 0.9388635210553019,
+      "grad_norm": 6.1875,
+      "learning_rate": 5.9136417567594615e-06,
+      "loss": 1.63961067,
+      "memory(GiB)": 111.15,
+      "step": 37010,
+      "train_speed(iter/s)": 0.447674
+    },
+    {
+      "acc": 0.65565939,
+      "epoch": 0.9389903602232369,
+      "grad_norm": 5.40625,
+      "learning_rate": 5.9126107682101675e-06,
+      "loss": 1.67383423,
+      "memory(GiB)": 111.15,
+      "step": 37015,
+      "train_speed(iter/s)": 0.447705
+    },
+    {
+      "acc": 0.63465281,
+      "epoch": 0.939117199391172,
+      "grad_norm": 4.09375,
+      "learning_rate": 5.911579739520178e-06,
+      "loss": 1.63523598,
+      "memory(GiB)": 111.15,
+      "step": 37020,
+      "train_speed(iter/s)": 0.447737
+    },
+    {
+      "acc": 0.63649426,
+      "epoch": 0.9392440385591071,
+      "grad_norm": 5.65625,
+      "learning_rate": 5.91054867073484e-06,
+      "loss": 1.68743896,
+      "memory(GiB)": 111.15,
+      "step": 37025,
+      "train_speed(iter/s)": 0.447769
+    },
+    {
+      "acc": 0.64090424,
+      "epoch": 0.9393708777270421,
+      "grad_norm": 5.78125,
+      "learning_rate": 5.909517561899508e-06,
+      "loss": 1.67788544,
+      "memory(GiB)": 111.15,
+      "step": 37030,
+      "train_speed(iter/s)": 0.447801
+    },
+    {
+      "acc": 0.61976786,
+      "epoch": 0.9394977168949772,
+      "grad_norm": 5.25,
+      "learning_rate": 5.908486413059532e-06,
+      "loss": 1.67228699,
+      "memory(GiB)": 111.15,
+      "step": 37035,
+      "train_speed(iter/s)": 0.447833
+    },
+    {
+      "acc": 0.64659748,
+      "epoch": 0.9396245560629122,
+      "grad_norm": 4.3125,
+      "learning_rate": 5.907455224260268e-06,
+      "loss": 1.62812958,
+      "memory(GiB)": 111.15,
+      "step": 37040,
+      "train_speed(iter/s)": 0.447865
+    },
+    {
+      "acc": 0.64173508,
+      "epoch": 0.9397513952308473,
+      "grad_norm": 6.21875,
+      "learning_rate": 5.9064239955470704e-06,
+      "loss": 1.65689964,
+      "memory(GiB)": 111.15,
+      "step": 37045,
+      "train_speed(iter/s)": 0.447896
+    },
+    {
+      "acc": 0.62297859,
+      "epoch": 0.9398782343987824,
+      "grad_norm": 5.6875,
+      "learning_rate": 5.9053927269653e-06,
+      "loss": 1.74262123,
+      "memory(GiB)": 111.15,
+      "step": 37050,
+      "train_speed(iter/s)": 0.447928
+    },
+    {
+      "acc": 0.66084027,
+      "epoch": 0.9400050735667174,
+      "grad_norm": 5.0625,
+      "learning_rate": 5.904361418560314e-06,
+      "loss": 1.6167263,
+      "memory(GiB)": 111.15,
+      "step": 37055,
+      "train_speed(iter/s)": 0.44796
+    },
+    {
+      "acc": 0.6510972,
+      "epoch": 0.9401319127346525,
+      "grad_norm": 5.96875,
+      "learning_rate": 5.903330070377477e-06,
+      "loss": 1.65200901,
+      "memory(GiB)": 111.15,
+      "step": 37060,
+      "train_speed(iter/s)": 0.447992
+    },
+    {
+      "acc": 0.66018867,
+      "epoch": 0.9402587519025876,
+      "grad_norm": 6.0625,
+      "learning_rate": 5.902298682462147e-06,
+      "loss": 1.57438011,
+      "memory(GiB)": 111.15,
+      "step": 37065,
+      "train_speed(iter/s)": 0.448024
+    },
+    {
+      "acc": 0.65587759,
+      "epoch": 0.9403855910705226,
+      "grad_norm": 5.96875,
+      "learning_rate": 5.901267254859695e-06,
+      "loss": 1.63363934,
+      "memory(GiB)": 111.15,
+      "step": 37070,
+      "train_speed(iter/s)": 0.448056
+    },
+    {
+      "acc": 0.64581499,
+      "epoch": 0.9405124302384577,
+      "grad_norm": 4.5625,
+      "learning_rate": 5.900235787615485e-06,
+      "loss": 1.69133701,
+      "memory(GiB)": 111.15,
+      "step": 37075,
+      "train_speed(iter/s)": 0.448087
+    },
+    {
+      "acc": 0.65443301,
+      "epoch": 0.9406392694063926,
+      "grad_norm": 6.0,
+      "learning_rate": 5.8992042807748866e-06,
+      "loss": 1.60109081,
+      "memory(GiB)": 111.15,
+      "step": 37080,
+      "train_speed(iter/s)": 0.448119
+    },
+    {
+      "acc": 0.6487915,
+      "epoch": 0.9407661085743277,
+      "grad_norm": 5.5,
+      "learning_rate": 5.898172734383267e-06,
+      "loss": 1.66089115,
+      "memory(GiB)": 111.15,
+      "step": 37085,
+      "train_speed(iter/s)": 0.44815
+    },
+    {
+      "acc": 0.64047756,
+      "epoch": 0.9408929477422628,
+      "grad_norm": 5.8125,
+      "learning_rate": 5.897141148486003e-06,
+      "loss": 1.69680634,
+      "memory(GiB)": 111.15,
+      "step": 37090,
+      "train_speed(iter/s)": 0.448182
+    },
+    {
+      "acc": 0.65752144,
+      "epoch": 0.9410197869101978,
+      "grad_norm": 5.71875,
+      "learning_rate": 5.8961095231284645e-06,
+      "loss": 1.59454041,
+      "memory(GiB)": 111.15,
+      "step": 37095,
+      "train_speed(iter/s)": 0.448214
+    },
+    {
+      "acc": 0.63917894,
+      "epoch": 0.9411466260781329,
+      "grad_norm": 5.0,
+      "learning_rate": 5.895077858356029e-06,
+      "loss": 1.64568748,
+      "memory(GiB)": 111.15,
+      "step": 37100,
+      "train_speed(iter/s)": 0.448246
+    },
+    {
+      "epoch": 0.9411466260781329,
+      "eval_acc": 0.6432208689810697,
+      "eval_loss": 1.608633041381836,
+      "eval_runtime": 113.4219,
+      "eval_samples_per_second": 56.162,
+      "eval_steps_per_second": 28.081,
+      "step": 37100
+    },
+    {
+      "acc": 0.64294691,
+      "epoch": 0.941273465246068,
+      "grad_norm": 5.4375,
+      "learning_rate": 5.8940461542140725e-06,
+      "loss": 1.62280102,
+      "memory(GiB)": 111.15,
+      "step": 37105,
+      "train_speed(iter/s)": 0.44764
+    },
+    {
+      "acc": 0.66310158,
+      "epoch": 0.941400304414003,
+      "grad_norm": 6.09375,
+      "learning_rate": 5.893014410747975e-06,
+      "loss": 1.54547243,
+      "memory(GiB)": 111.15,
+      "step": 37110,
+      "train_speed(iter/s)": 0.447672
+    },
+    {
+      "acc": 0.66172028,
+      "epoch": 0.9415271435819381,
+      "grad_norm": 5.375,
+      "learning_rate": 5.891982628003114e-06,
+      "loss": 1.62750931,
+      "memory(GiB)": 111.15,
+      "step": 37115,
+      "train_speed(iter/s)": 0.447704
+    },
+    {
+      "acc": 0.64027243,
+      "epoch": 0.9416539827498731,
+      "grad_norm": 6.4375,
+      "learning_rate": 5.890950806024879e-06,
+      "loss": 1.62078838,
+      "memory(GiB)": 111.15,
+      "step": 37120,
+      "train_speed(iter/s)": 0.447736
+    },
+    {
+      "acc": 0.65207281,
+      "epoch": 0.9417808219178082,
+      "grad_norm": 5.6875,
+      "learning_rate": 5.889918944858647e-06,
+      "loss": 1.63681679,
+      "memory(GiB)": 111.15,
+      "step": 37125,
+      "train_speed(iter/s)": 0.447769
+    },
+    {
+      "acc": 0.66141176,
+      "epoch": 0.9419076610857433,
+      "grad_norm": 5.8125,
+      "learning_rate": 5.888887044549808e-06,
+      "loss": 1.58517666,
+      "memory(GiB)": 111.15,
+      "step": 37130,
+      "train_speed(iter/s)": 0.4478
+    },
+    {
+      "acc": 0.64079466,
+      "epoch": 0.9420345002536783,
+      "grad_norm": 5.40625,
+      "learning_rate": 5.887855105143746e-06,
+      "loss": 1.63401833,
+      "memory(GiB)": 111.15,
+      "step": 37135,
+      "train_speed(iter/s)": 0.447832
+    },
+    {
+      "acc": 0.65540824,
+      "epoch": 0.9421613394216134,
+      "grad_norm": 4.625,
+      "learning_rate": 5.886823126685855e-06,
+      "loss": 1.58768015,
+      "memory(GiB)": 111.15,
+      "step": 37140,
+      "train_speed(iter/s)": 0.447864
+    },
+    {
+      "acc": 0.65241961,
+      "epoch": 0.9422881785895485,
+      "grad_norm": 5.59375,
+      "learning_rate": 5.8857911092215214e-06,
+      "loss": 1.67613602,
+      "memory(GiB)": 111.15,
+      "step": 37145,
+      "train_speed(iter/s)": 0.447896
+    },
+    {
+      "acc": 0.65101447,
+      "epoch": 0.9424150177574835,
+      "grad_norm": 5.03125,
+      "learning_rate": 5.884759052796142e-06,
+      "loss": 1.68357468,
+      "memory(GiB)": 111.15,
+      "step": 37150,
+      "train_speed(iter/s)": 0.447928
+    },
+    {
+      "acc": 0.6553473,
+      "epoch": 0.9425418569254186,
+      "grad_norm": 5.03125,
+      "learning_rate": 5.883726957455108e-06,
+      "loss": 1.63154354,
+      "memory(GiB)": 111.15,
+      "step": 37155,
+      "train_speed(iter/s)": 0.44796
+    },
+    {
+      "acc": 0.63755636,
+      "epoch": 0.9426686960933536,
+      "grad_norm": 4.9375,
+      "learning_rate": 5.8826948232438176e-06,
+      "loss": 1.67211895,
+      "memory(GiB)": 111.15,
+      "step": 37160,
+      "train_speed(iter/s)": 0.447992
+    },
+    {
+      "acc": 0.65601282,
+      "epoch": 0.9427955352612887,
+      "grad_norm": 4.84375,
+      "learning_rate": 5.881662650207667e-06,
+      "loss": 1.56463623,
+      "memory(GiB)": 111.15,
+      "step": 37165,
+      "train_speed(iter/s)": 0.448024
+    },
+    {
+      "acc": 0.66890516,
+      "epoch": 0.9429223744292238,
+      "grad_norm": 6.1875,
+      "learning_rate": 5.880630438392057e-06,
+      "loss": 1.59788685,
+      "memory(GiB)": 111.15,
+      "step": 37170,
+      "train_speed(iter/s)": 0.448056
+    },
+    {
+      "acc": 0.6549171,
+      "epoch": 0.9430492135971588,
+      "grad_norm": 4.84375,
+      "learning_rate": 5.879598187842389e-06,
+      "loss": 1.57209244,
+      "memory(GiB)": 111.15,
+      "step": 37175,
+      "train_speed(iter/s)": 0.448088
+    },
+    {
+      "acc": 0.66600657,
+      "epoch": 0.9431760527650939,
+      "grad_norm": 5.71875,
+      "learning_rate": 5.878565898604066e-06,
+      "loss": 1.64994011,
+      "memory(GiB)": 111.15,
+      "step": 37180,
+      "train_speed(iter/s)": 0.44812
+    },
+    {
+      "acc": 0.65453196,
+      "epoch": 0.943302891933029,
+      "grad_norm": 4.84375,
+      "learning_rate": 5.87753357072249e-06,
+      "loss": 1.57580814,
+      "memory(GiB)": 111.15,
+      "step": 37185,
+      "train_speed(iter/s)": 0.448151
+    },
+    {
+      "acc": 0.65838079,
+      "epoch": 0.943429731100964,
+      "grad_norm": 5.84375,
+      "learning_rate": 5.876501204243072e-06,
+      "loss": 1.61551971,
+      "memory(GiB)": 111.15,
+      "step": 37190,
+      "train_speed(iter/s)": 0.448184
+    },
+    {
+      "acc": 0.65803652,
+      "epoch": 0.943556570268899,
+      "grad_norm": 6.6875,
+      "learning_rate": 5.875468799211217e-06,
+      "loss": 1.56397667,
+      "memory(GiB)": 111.15,
+      "step": 37195,
+      "train_speed(iter/s)": 0.448216
+    },
+    {
+      "acc": 0.64595647,
+      "epoch": 0.943683409436834,
+      "grad_norm": 4.59375,
+      "learning_rate": 5.874436355672337e-06,
+      "loss": 1.58461304,
+      "memory(GiB)": 111.15,
+      "step": 37200,
+      "train_speed(iter/s)": 0.448216
+    },
+    {
+      "epoch": 0.943683409436834,
+      "eval_acc": 0.6432551259004452,
+      "eval_loss": 1.6084177494049072,
+      "eval_runtime": 114.0291,
+      "eval_samples_per_second": 55.863,
+      "eval_steps_per_second": 27.931,
+      "step": 37200
+    },
+    {
+      "acc": 0.64850054,
+      "epoch": 0.9438102486047691,
+      "grad_norm": 5.375,
+      "learning_rate": 5.873403873671839e-06,
+      "loss": 1.60039082,
+      "memory(GiB)": 111.15,
+      "step": 37205,
+      "train_speed(iter/s)": 0.447608
+    },
+    {
+      "acc": 0.65184994,
+      "epoch": 0.9439370877727042,
+      "grad_norm": 5.9375,
+      "learning_rate": 5.872371353255142e-06,
+      "loss": 1.63956337,
+      "memory(GiB)": 111.15,
+      "step": 37210,
+      "train_speed(iter/s)": 0.44764
+    },
+    {
+      "acc": 0.66383591,
+      "epoch": 0.9440639269406392,
+      "grad_norm": 5.875,
+      "learning_rate": 5.871338794467656e-06,
+      "loss": 1.62747421,
+      "memory(GiB)": 111.15,
+      "step": 37215,
+      "train_speed(iter/s)": 0.447672
+    },
+    {
+      "acc": 0.65046492,
+      "epoch": 0.9441907661085743,
+      "grad_norm": 4.6875,
+      "learning_rate": 5.8703061973548e-06,
+      "loss": 1.5742487,
+      "memory(GiB)": 111.15,
+      "step": 37220,
+      "train_speed(iter/s)": 0.447703
+    },
+    {
+      "acc": 0.65264244,
+      "epoch": 0.9443176052765094,
+      "grad_norm": 4.125,
+      "learning_rate": 5.869273561961992e-06,
+      "loss": 1.57169285,
+      "memory(GiB)": 111.15,
+      "step": 37225,
+      "train_speed(iter/s)": 0.447735
+    },
+    {
+      "acc": 0.66504784,
+      "epoch": 0.9444444444444444,
+      "grad_norm": 5.46875,
+      "learning_rate": 5.8682408883346535e-06,
+      "loss": 1.61468124,
+      "memory(GiB)": 111.15,
+      "step": 37230,
+      "train_speed(iter/s)": 0.447767
+    },
+    {
+      "acc": 0.65034723,
+      "epoch": 0.9445712836123795,
+      "grad_norm": 5.53125,
+      "learning_rate": 5.867208176518202e-06,
+      "loss": 1.60625248,
+      "memory(GiB)": 111.15,
+      "step": 37235,
+      "train_speed(iter/s)": 0.447799
+    },
+    {
+      "acc": 0.66023254,
+      "epoch": 0.9446981227803145,
+      "grad_norm": 7.125,
+      "learning_rate": 5.866175426558064e-06,
+      "loss": 1.62073631,
+      "memory(GiB)": 111.15,
+      "step": 37240,
+      "train_speed(iter/s)": 0.44783
+    },
+    {
+      "acc": 0.64335985,
+      "epoch": 0.9448249619482496,
+      "grad_norm": 5.21875,
+      "learning_rate": 5.865142638499664e-06,
+      "loss": 1.73200417,
+      "memory(GiB)": 111.15,
+      "step": 37245,
+      "train_speed(iter/s)": 0.447863
+    },
+    {
+      "acc": 0.62721634,
+      "epoch": 0.9449518011161847,
+      "grad_norm": 5.1875,
+      "learning_rate": 5.864109812388426e-06,
+      "loss": 1.73281021,
+      "memory(GiB)": 111.15,
+      "step": 37250,
+      "train_speed(iter/s)": 0.447895
+    },
+    {
+      "acc": 0.64263673,
+      "epoch": 0.9450786402841197,
+      "grad_norm": 4.875,
+      "learning_rate": 5.863076948269782e-06,
+      "loss": 1.6032671,
+      "memory(GiB)": 111.15,
+      "step": 37255,
+      "train_speed(iter/s)": 0.447927
+    },
+    {
+      "acc": 0.65331535,
+      "epoch": 0.9452054794520548,
+      "grad_norm": 4.6875,
+      "learning_rate": 5.862044046189162e-06,
+      "loss": 1.64866333,
+      "memory(GiB)": 111.15,
+      "step": 37260,
+      "train_speed(iter/s)": 0.447958
+    },
+    {
+      "acc": 0.66519642,
+      "epoch": 0.9453323186199899,
+      "grad_norm": 5.28125,
+      "learning_rate": 5.8610111061919924e-06,
+      "loss": 1.61403656,
+      "memory(GiB)": 111.15,
+      "step": 37265,
+      "train_speed(iter/s)": 0.44799
+    },
+    {
+      "acc": 0.64394484,
+      "epoch": 0.9454591577879249,
+      "grad_norm": 5.90625,
+      "learning_rate": 5.859978128323713e-06,
+      "loss": 1.67553635,
+      "memory(GiB)": 111.15,
+      "step": 37270,
+      "train_speed(iter/s)": 0.448022
+    },
+    {
+      "acc": 0.65383644,
+      "epoch": 0.94558599695586,
+      "grad_norm": 5.375,
+      "learning_rate": 5.858945112629755e-06,
+      "loss": 1.58597021,
+      "memory(GiB)": 111.15,
+      "step": 37275,
+      "train_speed(iter/s)": 0.448054
+    },
+    {
+      "acc": 0.66297998,
+      "epoch": 0.945712836123795,
+      "grad_norm": 4.9375,
+      "learning_rate": 5.857912059155557e-06,
+      "loss": 1.60815315,
+      "memory(GiB)": 111.15,
+      "step": 37280,
+      "train_speed(iter/s)": 0.448085
+    },
+    {
+      "acc": 0.66370888,
+      "epoch": 0.9458396752917301,
+      "grad_norm": 4.875,
+      "learning_rate": 5.856878967946555e-06,
+      "loss": 1.58115072,
+      "memory(GiB)": 111.15,
+      "step": 37285,
+      "train_speed(iter/s)": 0.448117
+    },
+    {
+      "acc": 0.64213486,
+      "epoch": 0.9459665144596652,
+      "grad_norm": 6.03125,
+      "learning_rate": 5.855845839048191e-06,
+      "loss": 1.66096001,
+      "memory(GiB)": 111.15,
+      "step": 37290,
+      "train_speed(iter/s)": 0.448149
+    },
+    {
+      "acc": 0.65389915,
+      "epoch": 0.9460933536276002,
+      "grad_norm": 5.125,
+      "learning_rate": 5.854812672505906e-06,
+      "loss": 1.687006,
+      "memory(GiB)": 111.15,
+      "step": 37295,
+      "train_speed(iter/s)": 0.448181
+    },
+    {
+      "acc": 0.65251904,
+      "epoch": 0.9462201927955353,
+      "grad_norm": 5.59375,
+      "learning_rate": 5.853779468365144e-06,
+      "loss": 1.57423725,
+      "memory(GiB)": 111.15,
+      "step": 37300,
+      "train_speed(iter/s)": 0.448213
+    },
+    {
+      "epoch": 0.9462201927955353,
+      "eval_acc": 0.6432359086042102,
+      "eval_loss": 1.608532428741455,
+      "eval_runtime": 112.8205,
+      "eval_samples_per_second": 56.461,
+      "eval_steps_per_second": 28.231,
+      "step": 37300
+    },
+    {
+      "acc": 0.64296694,
+      "epoch": 0.9463470319634704,
+      "grad_norm": 4.9375,
+      "learning_rate": 5.852746226671348e-06,
+      "loss": 1.70132923,
+      "memory(GiB)": 111.15,
+      "step": 37305,
+      "train_speed(iter/s)": 0.447613
+    },
+    {
+      "acc": 0.64594803,
+      "epoch": 0.9464738711314054,
+      "grad_norm": 5.03125,
+      "learning_rate": 5.851712947469966e-06,
+      "loss": 1.61736641,
+      "memory(GiB)": 111.15,
+      "step": 37310,
+      "train_speed(iter/s)": 0.447645
+    },
+    {
+      "acc": 0.63651905,
+      "epoch": 0.9466007102993405,
+      "grad_norm": 5.25,
+      "learning_rate": 5.850679630806446e-06,
+      "loss": 1.66887665,
+      "memory(GiB)": 111.15,
+      "step": 37315,
+      "train_speed(iter/s)": 0.447677
+    },
+    {
+      "acc": 0.6551609,
+      "epoch": 0.9467275494672754,
+      "grad_norm": 4.8125,
+      "learning_rate": 5.849646276726237e-06,
+      "loss": 1.63950577,
+      "memory(GiB)": 111.15,
+      "step": 37320,
+      "train_speed(iter/s)": 0.447708
+    },
+    {
+      "acc": 0.64945221,
+      "epoch": 0.9468543886352105,
+      "grad_norm": 6.125,
+      "learning_rate": 5.848612885274792e-06,
+      "loss": 1.66113663,
+      "memory(GiB)": 111.15,
+      "step": 37325,
+      "train_speed(iter/s)": 0.447739
+    },
+    {
+      "acc": 0.63907881,
+      "epoch": 0.9469812278031456,
+      "grad_norm": 5.125,
+      "learning_rate": 5.847579456497564e-06,
+      "loss": 1.69568958,
+      "memory(GiB)": 111.15,
+      "step": 37330,
+      "train_speed(iter/s)": 0.447771
+    },
+    {
+      "acc": 0.64542961,
+      "epoch": 0.9471080669710806,
+      "grad_norm": 5.34375,
+      "learning_rate": 5.8465459904400065e-06,
+      "loss": 1.58881559,
+      "memory(GiB)": 111.15,
+      "step": 37335,
+      "train_speed(iter/s)": 0.447802
+    },
+    {
+      "acc": 0.66437607,
+      "epoch": 0.9472349061390157,
+      "grad_norm": 5.125,
+      "learning_rate": 5.845512487147579e-06,
+      "loss": 1.62925186,
+      "memory(GiB)": 111.15,
+      "step": 37340,
+      "train_speed(iter/s)": 0.447834
+    },
+    {
+      "acc": 0.64942589,
+      "epoch": 0.9473617453069508,
+      "grad_norm": 5.90625,
+      "learning_rate": 5.844478946665733e-06,
+      "loss": 1.64681473,
+      "memory(GiB)": 111.15,
+      "step": 37345,
+      "train_speed(iter/s)": 0.447865
+    },
+    {
+      "acc": 0.65807352,
+      "epoch": 0.9474885844748858,
+      "grad_norm": 4.84375,
+      "learning_rate": 5.843445369039937e-06,
+      "loss": 1.6812294,
+      "memory(GiB)": 111.15,
+      "step": 37350,
+      "train_speed(iter/s)": 0.447897
+    },
+    {
+      "acc": 0.66834626,
+      "epoch": 0.9476154236428209,
+      "grad_norm": 5.875,
+      "learning_rate": 5.842411754315645e-06,
+      "loss": 1.50647354,
+      "memory(GiB)": 111.15,
+      "step": 37355,
+      "train_speed(iter/s)": 0.447929
+    },
+    {
+      "acc": 0.64796972,
+      "epoch": 0.9477422628107559,
+      "grad_norm": 4.875,
+      "learning_rate": 5.841378102538324e-06,
+      "loss": 1.65653152,
+      "memory(GiB)": 111.15,
+      "step": 37360,
+      "train_speed(iter/s)": 0.44796
+    },
+    {
+      "acc": 0.65826821,
+      "epoch": 0.947869101978691,
+      "grad_norm": 6.0,
+      "learning_rate": 5.840344413753438e-06,
+      "loss": 1.57466497,
+      "memory(GiB)": 111.15,
+      "step": 37365,
+      "train_speed(iter/s)": 0.447992
+    },
+    {
+      "acc": 0.64652634,
+      "epoch": 0.9479959411466261,
+      "grad_norm": 4.6875,
+      "learning_rate": 5.8393106880064535e-06,
+      "loss": 1.6179718,
+      "memory(GiB)": 111.15,
+      "step": 37370,
+      "train_speed(iter/s)": 0.448024
+    },
+    {
+      "acc": 0.6470643,
+      "epoch": 0.9481227803145611,
+      "grad_norm": 5.3125,
+      "learning_rate": 5.838276925342836e-06,
+      "loss": 1.6014143,
+      "memory(GiB)": 111.15,
+      "step": 37375,
+      "train_speed(iter/s)": 0.448056
+    },
+    {
+      "acc": 0.65447021,
+      "epoch": 0.9482496194824962,
+      "grad_norm": 5.53125,
+      "learning_rate": 5.837243125808058e-06,
+      "loss": 1.60551376,
+      "memory(GiB)": 111.15,
+      "step": 37380,
+      "train_speed(iter/s)": 0.448088
+    },
+    {
+      "acc": 0.63523512,
+      "epoch": 0.9483764586504313,
+      "grad_norm": 6.1875,
+      "learning_rate": 5.8362092894475886e-06,
+      "loss": 1.72053928,
+      "memory(GiB)": 111.15,
+      "step": 37385,
+      "train_speed(iter/s)": 0.448119
+    },
+    {
+      "acc": 0.64642544,
+      "epoch": 0.9485032978183663,
+      "grad_norm": 4.9375,
+      "learning_rate": 5.835175416306901e-06,
+      "loss": 1.63617458,
+      "memory(GiB)": 111.15,
+      "step": 37390,
+      "train_speed(iter/s)": 0.448151
+    },
+    {
+      "acc": 0.65392818,
+      "epoch": 0.9486301369863014,
+      "grad_norm": 6.09375,
+      "learning_rate": 5.83414150643147e-06,
+      "loss": 1.58535118,
+      "memory(GiB)": 111.15,
+      "step": 37395,
+      "train_speed(iter/s)": 0.448183
+    },
+    {
+      "acc": 0.63319101,
+      "epoch": 0.9487569761542364,
+      "grad_norm": 5.5,
+      "learning_rate": 5.833107559866772e-06,
+      "loss": 1.52308331,
+      "memory(GiB)": 111.15,
+      "step": 37400,
+      "train_speed(iter/s)": 0.448214
+    },
+    {
+      "epoch": 0.9487569761542364,
+      "eval_acc": 0.6432563792023736,
+      "eval_loss": 1.6085642576217651,
+      "eval_runtime": 113.6443,
+      "eval_samples_per_second": 56.052,
+      "eval_steps_per_second": 28.026,
+      "step": 37400
+    },
+    {
+      "acc": 0.65363026,
+      "epoch": 0.9488838153221715,
+      "grad_norm": 6.28125,
+      "learning_rate": 5.832073576658282e-06,
+      "loss": 1.63073673,
+      "memory(GiB)": 111.15,
+      "step": 37405,
+      "train_speed(iter/s)": 0.447612
+    },
+    {
+      "acc": 0.65721283,
+      "epoch": 0.9490106544901066,
+      "grad_norm": 5.875,
+      "learning_rate": 5.831039556851485e-06,
+      "loss": 1.58220577,
+      "memory(GiB)": 111.15,
+      "step": 37410,
+      "train_speed(iter/s)": 0.447643
+    },
+    {
+      "acc": 0.64072185,
+      "epoch": 0.9491374936580416,
+      "grad_norm": 4.5625,
+      "learning_rate": 5.8300055004918535e-06,
+      "loss": 1.6418335,
+      "memory(GiB)": 111.15,
+      "step": 37415,
+      "train_speed(iter/s)": 0.447675
+    },
+    {
+      "acc": 0.64099765,
+      "epoch": 0.9492643328259767,
+      "grad_norm": 5.46875,
+      "learning_rate": 5.828971407624877e-06,
+      "loss": 1.68861732,
+      "memory(GiB)": 111.15,
+      "step": 37420,
+      "train_speed(iter/s)": 0.447707
+    },
+    {
+      "acc": 0.65273571,
+      "epoch": 0.9493911719939118,
+      "grad_norm": 5.03125,
+      "learning_rate": 5.827937278296037e-06,
+      "loss": 1.61013088,
+      "memory(GiB)": 111.15,
+      "step": 37425,
+      "train_speed(iter/s)": 0.447738
+    },
+    {
+      "acc": 0.66474538,
+      "epoch": 0.9495180111618468,
+      "grad_norm": 4.5625,
+      "learning_rate": 5.826903112550819e-06,
+      "loss": 1.61405697,
+      "memory(GiB)": 111.15,
+      "step": 37430,
+      "train_speed(iter/s)": 0.44777
+    },
+    {
+      "acc": 0.64697742,
+      "epoch": 0.9496448503297819,
+      "grad_norm": 5.6875,
+      "learning_rate": 5.825868910434708e-06,
+      "loss": 1.60982857,
+      "memory(GiB)": 111.15,
+      "step": 37435,
+      "train_speed(iter/s)": 0.447802
+    },
+    {
+      "acc": 0.67022667,
+      "epoch": 0.9497716894977168,
+      "grad_norm": 4.875,
+      "learning_rate": 5.824834671993197e-06,
+      "loss": 1.55824318,
+      "memory(GiB)": 111.15,
+      "step": 37440,
+      "train_speed(iter/s)": 0.447833
+    },
+    {
+      "acc": 0.64745646,
+      "epoch": 0.9498985286656519,
+      "grad_norm": 5.9375,
+      "learning_rate": 5.823800397271774e-06,
+      "loss": 1.6343441,
+      "memory(GiB)": 111.15,
+      "step": 37445,
+      "train_speed(iter/s)": 0.447865
+    },
+    {
+      "acc": 0.645643,
+      "epoch": 0.950025367833587,
+      "grad_norm": 6.5,
+      "learning_rate": 5.822766086315932e-06,
+      "loss": 1.6365612,
+      "memory(GiB)": 111.15,
+      "step": 37450,
+      "train_speed(iter/s)": 0.447897
+    },
+    {
+      "acc": 0.64971976,
+      "epoch": 0.950152207001522,
+      "grad_norm": 5.09375,
+      "learning_rate": 5.821731739171164e-06,
+      "loss": 1.63438225,
+      "memory(GiB)": 111.15,
+      "step": 37455,
+      "train_speed(iter/s)": 0.447929
+    },
+    {
+      "acc": 0.65813961,
+      "epoch": 0.9502790461694571,
+      "grad_norm": 5.4375,
+      "learning_rate": 5.820697355882965e-06,
+      "loss": 1.67674179,
+      "memory(GiB)": 111.15,
+      "step": 37460,
+      "train_speed(iter/s)": 0.44796
+    },
+    {
+      "acc": 0.6489347,
+      "epoch": 0.9504058853373922,
+      "grad_norm": 6.0625,
+      "learning_rate": 5.819662936496833e-06,
+      "loss": 1.64227295,
+      "memory(GiB)": 111.15,
+      "step": 37465,
+      "train_speed(iter/s)": 0.447992
+    },
+    {
+      "acc": 0.64165096,
+      "epoch": 0.9505327245053272,
+      "grad_norm": 4.46875,
+      "learning_rate": 5.818628481058265e-06,
+      "loss": 1.54955616,
+      "memory(GiB)": 111.15,
+      "step": 37470,
+      "train_speed(iter/s)": 0.448023
+    },
+    {
+      "acc": 0.63421674,
+      "epoch": 0.9506595636732623,
+      "grad_norm": 4.8125,
+      "learning_rate": 5.81759398961276e-06,
+      "loss": 1.64595718,
+      "memory(GiB)": 111.15,
+      "step": 37475,
+      "train_speed(iter/s)": 0.448055
+    },
+    {
+      "acc": 0.64826784,
+      "epoch": 0.9507864028411973,
+      "grad_norm": 4.6875,
+      "learning_rate": 5.816559462205824e-06,
+      "loss": 1.60083237,
+      "memory(GiB)": 111.15,
+      "step": 37480,
+      "train_speed(iter/s)": 0.448087
+    },
+    {
+      "acc": 0.65104685,
+      "epoch": 0.9509132420091324,
+      "grad_norm": 5.4375,
+      "learning_rate": 5.815524898882954e-06,
+      "loss": 1.58138018,
+      "memory(GiB)": 111.15,
+      "step": 37485,
+      "train_speed(iter/s)": 0.448119
+    },
+    {
+      "acc": 0.66581125,
+      "epoch": 0.9510400811770675,
+      "grad_norm": 6.0,
+      "learning_rate": 5.8144902996896615e-06,
+      "loss": 1.60206966,
+      "memory(GiB)": 111.15,
+      "step": 37490,
+      "train_speed(iter/s)": 0.44815
+    },
+    {
+      "acc": 0.64139528,
+      "epoch": 0.9511669203450025,
+      "grad_norm": 4.875,
+      "learning_rate": 5.813455664671446e-06,
+      "loss": 1.67632141,
+      "memory(GiB)": 111.15,
+      "step": 37495,
+      "train_speed(iter/s)": 0.448182
+    },
+    {
+      "acc": 0.66485844,
+      "epoch": 0.9512937595129376,
+      "grad_norm": 5.625,
+      "learning_rate": 5.812420993873819e-06,
+      "loss": 1.50900459,
+      "memory(GiB)": 111.15,
+      "step": 37500,
+      "train_speed(iter/s)": 0.448214
+    },
+    {
+      "epoch": 0.9512937595129376,
+      "eval_acc": 0.6432551259004452,
+      "eval_loss": 1.6083678007125854,
+      "eval_runtime": 114.0297,
+      "eval_samples_per_second": 55.863,
+      "eval_steps_per_second": 27.931,
+      "step": 37500
+    },
+    {
+      "acc": 0.65191164,
+      "epoch": 0.9514205986808727,
+      "grad_norm": 5.5,
+      "learning_rate": 5.81138628734229e-06,
+      "loss": 1.60928574,
+      "memory(GiB)": 111.15,
+      "step": 37505,
+      "train_speed(iter/s)": 0.447611
+    },
+    {
+      "acc": 0.65303807,
+      "epoch": 0.9515474378488077,
+      "grad_norm": 5.65625,
+      "learning_rate": 5.81035154512237e-06,
+      "loss": 1.58780251,
+      "memory(GiB)": 111.15,
+      "step": 37510,
+      "train_speed(iter/s)": 0.447643
+    },
+    {
+      "acc": 0.63737488,
+      "epoch": 0.9516742770167428,
+      "grad_norm": 5.5,
+      "learning_rate": 5.809316767259571e-06,
+      "loss": 1.6849823,
+      "memory(GiB)": 111.15,
+      "step": 37515,
+      "train_speed(iter/s)": 0.447674
+    },
+    {
+      "acc": 0.64170074,
+      "epoch": 0.9518011161846778,
+      "grad_norm": 5.21875,
+      "learning_rate": 5.808281953799408e-06,
+      "loss": 1.64985809,
+      "memory(GiB)": 111.15,
+      "step": 37520,
+      "train_speed(iter/s)": 0.447706
+    },
+    {
+      "acc": 0.63101082,
+      "epoch": 0.9519279553526129,
+      "grad_norm": 5.78125,
+      "learning_rate": 5.807247104787395e-06,
+      "loss": 1.65439949,
+      "memory(GiB)": 111.15,
+      "step": 37525,
+      "train_speed(iter/s)": 0.447738
+    },
+    {
+      "acc": 0.66345987,
+      "epoch": 0.952054794520548,
+      "grad_norm": 5.28125,
+      "learning_rate": 5.806212220269049e-06,
+      "loss": 1.63025227,
+      "memory(GiB)": 111.15,
+      "step": 37530,
+      "train_speed(iter/s)": 0.447769
+    },
+    {
+      "acc": 0.63604379,
+      "epoch": 0.952181633688483,
+      "grad_norm": 5.375,
+      "learning_rate": 5.805177300289891e-06,
+      "loss": 1.68179798,
+      "memory(GiB)": 111.15,
+      "step": 37535,
+      "train_speed(iter/s)": 0.447801
+    },
+    {
+      "acc": 0.63945336,
+      "epoch": 0.9523084728564181,
+      "grad_norm": 5.375,
+      "learning_rate": 5.804142344895441e-06,
+      "loss": 1.63861923,
+      "memory(GiB)": 111.15,
+      "step": 37540,
+      "train_speed(iter/s)": 0.447832
+    },
+    {
+      "acc": 0.65863495,
+      "epoch": 0.9524353120243532,
+      "grad_norm": 5.65625,
+      "learning_rate": 5.803107354131221e-06,
+      "loss": 1.60021076,
+      "memory(GiB)": 111.15,
+      "step": 37545,
+      "train_speed(iter/s)": 0.447864
+    },
+    {
+      "acc": 0.64391603,
+      "epoch": 0.9525621511922882,
+      "grad_norm": 5.15625,
+      "learning_rate": 5.802072328042753e-06,
+      "loss": 1.66389675,
+      "memory(GiB)": 111.15,
+      "step": 37550,
+      "train_speed(iter/s)": 0.447896
+    },
+    {
+      "acc": 0.64460244,
+      "epoch": 0.9526889903602233,
+      "grad_norm": 4.875,
+      "learning_rate": 5.8010372666755625e-06,
+      "loss": 1.66317406,
+      "memory(GiB)": 111.15,
+      "step": 37555,
+      "train_speed(iter/s)": 0.447927
+    },
+    {
+      "acc": 0.6444612,
+      "epoch": 0.9528158295281582,
+      "grad_norm": 5.875,
+      "learning_rate": 5.800002170075179e-06,
+      "loss": 1.67170563,
+      "memory(GiB)": 111.15,
+      "step": 37560,
+      "train_speed(iter/s)": 0.447959
+    },
+    {
+      "acc": 0.6701086,
+      "epoch": 0.9529426686960933,
+      "grad_norm": 5.03125,
+      "learning_rate": 5.798967038287125e-06,
+      "loss": 1.56292057,
+      "memory(GiB)": 111.15,
+      "step": 37565,
+      "train_speed(iter/s)": 0.447991
+    },
+    {
+      "acc": 0.65586348,
+      "epoch": 0.9530695078640284,
+      "grad_norm": 6.1875,
+      "learning_rate": 5.797931871356936e-06,
+      "loss": 1.57731657,
+      "memory(GiB)": 111.15,
+      "step": 37570,
+      "train_speed(iter/s)": 0.448023
+    },
+    {
+      "acc": 0.65106702,
+      "epoch": 0.9531963470319634,
+      "grad_norm": 5.28125,
+      "learning_rate": 5.796896669330139e-06,
+      "loss": 1.63664284,
+      "memory(GiB)": 111.15,
+      "step": 37575,
+      "train_speed(iter/s)": 0.448054
+    },
+    {
+      "acc": 0.63874702,
+      "epoch": 0.9533231861998985,
+      "grad_norm": 5.3125,
+      "learning_rate": 5.79586143225227e-06,
+      "loss": 1.71230946,
+      "memory(GiB)": 111.15,
+      "step": 37580,
+      "train_speed(iter/s)": 0.448086
+    },
+    {
+      "acc": 0.64593048,
+      "epoch": 0.9534500253678336,
+      "grad_norm": 5.9375,
+      "learning_rate": 5.79482616016886e-06,
+      "loss": 1.69622154,
+      "memory(GiB)": 111.15,
+      "step": 37585,
+      "train_speed(iter/s)": 0.448118
+    },
+    {
+      "acc": 0.64620123,
+      "epoch": 0.9535768645357686,
+      "grad_norm": 6.28125,
+      "learning_rate": 5.793790853125449e-06,
+      "loss": 1.6487114,
+      "memory(GiB)": 111.15,
+      "step": 37590,
+      "train_speed(iter/s)": 0.448149
+    },
+    {
+      "acc": 0.65041313,
+      "epoch": 0.9537037037037037,
+      "grad_norm": 5.71875,
+      "learning_rate": 5.792755511167572e-06,
+      "loss": 1.6690464,
+      "memory(GiB)": 111.15,
+      "step": 37595,
+      "train_speed(iter/s)": 0.448181
+    },
+    {
+      "acc": 0.64211826,
+      "epoch": 0.9538305428716387,
+      "grad_norm": 5.375,
+      "learning_rate": 5.7917201343407685e-06,
+      "loss": 1.63287888,
+      "memory(GiB)": 111.15,
+      "step": 37600,
+      "train_speed(iter/s)": 0.448213
+    },
+    {
+      "epoch": 0.9538305428716387,
+      "eval_acc": 0.6431707369039348,
+      "eval_loss": 1.6083132028579712,
+      "eval_runtime": 112.4992,
+      "eval_samples_per_second": 56.623,
+      "eval_steps_per_second": 28.311,
+      "step": 37600
+    },
+    {
+      "acc": 0.65244603,
+      "epoch": 0.9539573820395738,
+      "grad_norm": 5.71875,
+      "learning_rate": 5.790684722690577e-06,
+      "loss": 1.68373508,
+      "memory(GiB)": 111.15,
+      "step": 37605,
+      "train_speed(iter/s)": 0.44762
+    },
+    {
+      "acc": 0.65057707,
+      "epoch": 0.9540842212075089,
+      "grad_norm": 4.84375,
+      "learning_rate": 5.789649276262542e-06,
+      "loss": 1.69392872,
+      "memory(GiB)": 111.15,
+      "step": 37610,
+      "train_speed(iter/s)": 0.447651
+    },
+    {
+      "acc": 0.65457945,
+      "epoch": 0.9542110603754439,
+      "grad_norm": 6.03125,
+      "learning_rate": 5.788613795102207e-06,
+      "loss": 1.61412888,
+      "memory(GiB)": 111.15,
+      "step": 37615,
+      "train_speed(iter/s)": 0.447683
+    },
+    {
+      "acc": 0.65108728,
+      "epoch": 0.954337899543379,
+      "grad_norm": 5.0625,
+      "learning_rate": 5.787578279255116e-06,
+      "loss": 1.57943745,
+      "memory(GiB)": 111.15,
+      "step": 37620,
+      "train_speed(iter/s)": 0.447714
+    },
+    {
+      "acc": 0.6551774,
+      "epoch": 0.9544647387113141,
+      "grad_norm": 4.96875,
+      "learning_rate": 5.786542728766815e-06,
+      "loss": 1.61650352,
+      "memory(GiB)": 111.15,
+      "step": 37625,
+      "train_speed(iter/s)": 0.447746
+    },
+    {
+      "acc": 0.64639063,
+      "epoch": 0.9545915778792491,
+      "grad_norm": 8.0625,
+      "learning_rate": 5.785507143682856e-06,
+      "loss": 1.60042992,
+      "memory(GiB)": 111.15,
+      "step": 37630,
+      "train_speed(iter/s)": 0.447777
+    },
+    {
+      "acc": 0.62880182,
+      "epoch": 0.9547184170471842,
+      "grad_norm": 5.125,
+      "learning_rate": 5.784471524048782e-06,
+      "loss": 1.6733139,
+      "memory(GiB)": 111.15,
+      "step": 37635,
+      "train_speed(iter/s)": 0.447809
+    },
+    {
+      "acc": 0.65209284,
+      "epoch": 0.9548452562151192,
+      "grad_norm": 6.21875,
+      "learning_rate": 5.783435869910151e-06,
+      "loss": 1.63154678,
+      "memory(GiB)": 111.15,
+      "step": 37640,
+      "train_speed(iter/s)": 0.44784
+    },
+    {
+      "acc": 0.65268869,
+      "epoch": 0.9549720953830543,
+      "grad_norm": 4.5625,
+      "learning_rate": 5.782400181312511e-06,
+      "loss": 1.65504227,
+      "memory(GiB)": 111.15,
+      "step": 37645,
+      "train_speed(iter/s)": 0.447871
+    },
+    {
+      "acc": 0.65120478,
+      "epoch": 0.9550989345509894,
+      "grad_norm": 5.0625,
+      "learning_rate": 5.781364458301419e-06,
+      "loss": 1.58749828,
+      "memory(GiB)": 111.15,
+      "step": 37650,
+      "train_speed(iter/s)": 0.447902
+    },
+    {
+      "acc": 0.6569912,
+      "epoch": 0.9552257737189244,
+      "grad_norm": 4.84375,
+      "learning_rate": 5.780328700922427e-06,
+      "loss": 1.65730877,
+      "memory(GiB)": 111.15,
+      "step": 37655,
+      "train_speed(iter/s)": 0.447934
+    },
+    {
+      "acc": 0.66978798,
+      "epoch": 0.9553526128868595,
+      "grad_norm": 5.125,
+      "learning_rate": 5.779292909221097e-06,
+      "loss": 1.62211533,
+      "memory(GiB)": 111.15,
+      "step": 37660,
+      "train_speed(iter/s)": 0.447965
+    },
+    {
+      "acc": 0.65640888,
+      "epoch": 0.9554794520547946,
+      "grad_norm": 5.3125,
+      "learning_rate": 5.778257083242986e-06,
+      "loss": 1.6011692,
+      "memory(GiB)": 111.15,
+      "step": 37665,
+      "train_speed(iter/s)": 0.447997
+    },
+    {
+      "acc": 0.6435955,
+      "epoch": 0.9556062912227296,
+      "grad_norm": 4.65625,
+      "learning_rate": 5.777221223033653e-06,
+      "loss": 1.65108833,
+      "memory(GiB)": 111.15,
+      "step": 37670,
+      "train_speed(iter/s)": 0.448028
+    },
+    {
+      "acc": 0.64209127,
+      "epoch": 0.9557331303906647,
+      "grad_norm": 4.3125,
+      "learning_rate": 5.77618532863866e-06,
+      "loss": 1.61971474,
+      "memory(GiB)": 111.15,
+      "step": 37675,
+      "train_speed(iter/s)": 0.448059
+    },
+    {
+      "acc": 0.66960335,
+      "epoch": 0.9558599695585996,
+      "grad_norm": 6.1875,
+      "learning_rate": 5.775149400103572e-06,
+      "loss": 1.50451078,
+      "memory(GiB)": 111.15,
+      "step": 37680,
+      "train_speed(iter/s)": 0.44809
+    },
+    {
+      "acc": 0.65117331,
+      "epoch": 0.9559868087265347,
+      "grad_norm": 5.3125,
+      "learning_rate": 5.774113437473953e-06,
+      "loss": 1.60331707,
+      "memory(GiB)": 111.15,
+      "step": 37685,
+      "train_speed(iter/s)": 0.448122
+    },
+    {
+      "acc": 0.64285212,
+      "epoch": 0.9561136478944698,
+      "grad_norm": 4.5625,
+      "learning_rate": 5.7730774407953675e-06,
+      "loss": 1.58822603,
+      "memory(GiB)": 111.15,
+      "step": 37690,
+      "train_speed(iter/s)": 0.448153
+    },
+    {
+      "acc": 0.65596104,
+      "epoch": 0.9562404870624048,
+      "grad_norm": 6.15625,
+      "learning_rate": 5.772041410113384e-06,
+      "loss": 1.59798965,
+      "memory(GiB)": 111.15,
+      "step": 37695,
+      "train_speed(iter/s)": 0.448185
+    },
+    {
+      "acc": 0.64053297,
+      "epoch": 0.9563673262303399,
+      "grad_norm": 5.0625,
+      "learning_rate": 5.771005345473575e-06,
+      "loss": 1.61455936,
+      "memory(GiB)": 111.15,
+      "step": 37700,
+      "train_speed(iter/s)": 0.448217
+    },
+    {
+      "epoch": 0.9563673262303399,
+      "eval_acc": 0.6431866120616943,
+      "eval_loss": 1.6084281206130981,
+      "eval_runtime": 112.9423,
+      "eval_samples_per_second": 56.401,
+      "eval_steps_per_second": 28.2,
+      "step": 37700
+    },
+    {
+      "acc": 0.65484352,
+      "epoch": 0.956494165398275,
+      "grad_norm": 4.8125,
+      "learning_rate": 5.769969246921505e-06,
+      "loss": 1.57739544,
+      "memory(GiB)": 111.15,
+      "step": 37705,
+      "train_speed(iter/s)": 0.447623
+    },
+    {
+      "acc": 0.64098244,
+      "epoch": 0.95662100456621,
+      "grad_norm": 5.09375,
+      "learning_rate": 5.768933114502753e-06,
+      "loss": 1.65980415,
+      "memory(GiB)": 111.15,
+      "step": 37710,
+      "train_speed(iter/s)": 0.447654
+    },
+    {
+      "acc": 0.6573844,
+      "epoch": 0.9567478437341451,
+      "grad_norm": 5.875,
+      "learning_rate": 5.7678969482628875e-06,
+      "loss": 1.61390705,
+      "memory(GiB)": 111.15,
+      "step": 37715,
+      "train_speed(iter/s)": 0.447686
+    },
+    {
+      "acc": 0.65145321,
+      "epoch": 0.9568746829020801,
+      "grad_norm": 6.4375,
+      "learning_rate": 5.766860748247488e-06,
+      "loss": 1.57390394,
+      "memory(GiB)": 111.15,
+      "step": 37720,
+      "train_speed(iter/s)": 0.447717
+    },
+    {
+      "acc": 0.63683453,
+      "epoch": 0.9570015220700152,
+      "grad_norm": 4.84375,
+      "learning_rate": 5.765824514502126e-06,
+      "loss": 1.65293827,
+      "memory(GiB)": 111.15,
+      "step": 37725,
+      "train_speed(iter/s)": 0.447748
+    },
+    {
+      "acc": 0.67228537,
+      "epoch": 0.9571283612379503,
+      "grad_norm": 8.75,
+      "learning_rate": 5.7647882470723846e-06,
+      "loss": 1.59528179,
+      "memory(GiB)": 111.15,
+      "step": 37730,
+      "train_speed(iter/s)": 0.447779
+    },
+    {
+      "acc": 0.67130551,
+      "epoch": 0.9572552004058853,
+      "grad_norm": 6.5,
+      "learning_rate": 5.763751946003842e-06,
+      "loss": 1.57221489,
+      "memory(GiB)": 111.15,
+      "step": 37735,
+      "train_speed(iter/s)": 0.447811
+    },
+    {
+      "acc": 0.64345775,
+      "epoch": 0.9573820395738204,
+      "grad_norm": 5.03125,
+      "learning_rate": 5.7627156113420775e-06,
+      "loss": 1.58576717,
+      "memory(GiB)": 111.15,
+      "step": 37740,
+      "train_speed(iter/s)": 0.447842
+    },
+    {
+      "acc": 0.64523726,
+      "epoch": 0.9575088787417555,
+      "grad_norm": 5.5625,
+      "learning_rate": 5.761679243132677e-06,
+      "loss": 1.61721535,
+      "memory(GiB)": 111.15,
+      "step": 37745,
+      "train_speed(iter/s)": 0.447874
+    },
+    {
+      "acc": 0.63670321,
+      "epoch": 0.9576357179096905,
+      "grad_norm": 5.3125,
+      "learning_rate": 5.760642841421222e-06,
+      "loss": 1.64926376,
+      "memory(GiB)": 111.15,
+      "step": 37750,
+      "train_speed(iter/s)": 0.447905
+    },
+    {
+      "acc": 0.66271596,
+      "epoch": 0.9577625570776256,
+      "grad_norm": 5.8125,
+      "learning_rate": 5.759606406253299e-06,
+      "loss": 1.56552401,
+      "memory(GiB)": 111.15,
+      "step": 37755,
+      "train_speed(iter/s)": 0.447936
+    },
+    {
+      "acc": 0.65387115,
+      "epoch": 0.9578893962455606,
+      "grad_norm": 4.84375,
+      "learning_rate": 5.758569937674494e-06,
+      "loss": 1.56112843,
+      "memory(GiB)": 111.15,
+      "step": 37760,
+      "train_speed(iter/s)": 0.447968
+    },
+    {
+      "acc": 0.65759916,
+      "epoch": 0.9580162354134957,
+      "grad_norm": 5.75,
+      "learning_rate": 5.7575334357303954e-06,
+      "loss": 1.5678112,
+      "memory(GiB)": 111.15,
+      "step": 37765,
+      "train_speed(iter/s)": 0.447999
+    },
+    {
+      "acc": 0.65374923,
+      "epoch": 0.9581430745814308,
+      "grad_norm": 5.125,
+      "learning_rate": 5.756496900466596e-06,
+      "loss": 1.60888119,
+      "memory(GiB)": 111.15,
+      "step": 37770,
+      "train_speed(iter/s)": 0.44803
+    },
+    {
+      "acc": 0.65898232,
+      "epoch": 0.9582699137493658,
+      "grad_norm": 5.09375,
+      "learning_rate": 5.755460331928684e-06,
+      "loss": 1.60830364,
+      "memory(GiB)": 111.15,
+      "step": 37775,
+      "train_speed(iter/s)": 0.448062
+    },
+    {
+      "acc": 0.64398746,
+      "epoch": 0.9583967529173009,
+      "grad_norm": 5.625,
+      "learning_rate": 5.754423730162257e-06,
+      "loss": 1.66227531,
+      "memory(GiB)": 111.15,
+      "step": 37780,
+      "train_speed(iter/s)": 0.448093
+    },
+    {
+      "acc": 0.64547644,
+      "epoch": 0.958523592085236,
+      "grad_norm": 4.71875,
+      "learning_rate": 5.753387095212901e-06,
+      "loss": 1.61079979,
+      "memory(GiB)": 111.15,
+      "step": 37785,
+      "train_speed(iter/s)": 0.448124
+    },
+    {
+      "acc": 0.64972725,
+      "epoch": 0.958650431253171,
+      "grad_norm": 6.5,
+      "learning_rate": 5.752350427126221e-06,
+      "loss": 1.6558136,
+      "memory(GiB)": 111.15,
+      "step": 37790,
+      "train_speed(iter/s)": 0.448155
+    },
+    {
+      "acc": 0.65403852,
+      "epoch": 0.958777270421106,
+      "grad_norm": 4.84375,
+      "learning_rate": 5.751313725947808e-06,
+      "loss": 1.56705313,
+      "memory(GiB)": 111.15,
+      "step": 37795,
+      "train_speed(iter/s)": 0.448186
+    },
+    {
+      "acc": 0.66735349,
+      "epoch": 0.958904109589041,
+      "grad_norm": 5.59375,
+      "learning_rate": 5.7502769917232635e-06,
+      "loss": 1.57006321,
+      "memory(GiB)": 111.15,
+      "step": 37800,
+      "train_speed(iter/s)": 0.448218
+    },
+    {
+      "epoch": 0.958904109589041,
+      "eval_acc": 0.6431456708653673,
+      "eval_loss": 1.6084568500518799,
+      "eval_runtime": 113.2669,
+      "eval_samples_per_second": 56.239,
+      "eval_steps_per_second": 28.119,
+      "step": 37800
+    },
+    {
+      "acc": 0.64457612,
+      "epoch": 0.9590309487569761,
+      "grad_norm": 4.75,
+      "learning_rate": 5.7492402244981885e-06,
+      "loss": 1.66820545,
+      "memory(GiB)": 111.15,
+      "step": 37805,
+      "train_speed(iter/s)": 0.447624
+    },
+    {
+      "acc": 0.64308238,
+      "epoch": 0.9591577879249112,
+      "grad_norm": 5.75,
+      "learning_rate": 5.748203424318182e-06,
+      "loss": 1.63351116,
+      "memory(GiB)": 111.15,
+      "step": 37810,
+      "train_speed(iter/s)": 0.447655
+    },
+    {
+      "acc": 0.67181911,
+      "epoch": 0.9592846270928462,
+      "grad_norm": 5.4375,
+      "learning_rate": 5.747166591228849e-06,
+      "loss": 1.55307083,
+      "memory(GiB)": 111.15,
+      "step": 37815,
+      "train_speed(iter/s)": 0.447686
+    },
+    {
+      "acc": 0.65797386,
+      "epoch": 0.9594114662607813,
+      "grad_norm": 5.1875,
+      "learning_rate": 5.746129725275793e-06,
+      "loss": 1.62620716,
+      "memory(GiB)": 111.15,
+      "step": 37820,
+      "train_speed(iter/s)": 0.447717
+    },
+    {
+      "acc": 0.64643707,
+      "epoch": 0.9595383054287164,
+      "grad_norm": 5.40625,
+      "learning_rate": 5.74509282650462e-06,
+      "loss": 1.67104721,
+      "memory(GiB)": 111.15,
+      "step": 37825,
+      "train_speed(iter/s)": 0.447748
+    },
+    {
+      "acc": 0.6356842,
+      "epoch": 0.9596651445966514,
+      "grad_norm": 5.15625,
+      "learning_rate": 5.744055894960938e-06,
+      "loss": 1.63086128,
+      "memory(GiB)": 111.15,
+      "step": 37830,
+      "train_speed(iter/s)": 0.447779
+    },
+    {
+      "acc": 0.63393965,
+      "epoch": 0.9597919837645865,
+      "grad_norm": 5.84375,
+      "learning_rate": 5.743018930690357e-06,
+      "loss": 1.71520615,
+      "memory(GiB)": 111.15,
+      "step": 37835,
+      "train_speed(iter/s)": 0.447811
+    },
+    {
+      "acc": 0.64578772,
+      "epoch": 0.9599188229325215,
+      "grad_norm": 5.3125,
+      "learning_rate": 5.7419819337384855e-06,
+      "loss": 1.64941654,
+      "memory(GiB)": 111.15,
+      "step": 37840,
+      "train_speed(iter/s)": 0.447842
+    },
+    {
+      "acc": 0.6364687,
+      "epoch": 0.9600456621004566,
+      "grad_norm": 5.5,
+      "learning_rate": 5.740944904150934e-06,
+      "loss": 1.62561798,
+      "memory(GiB)": 111.15,
+      "step": 37845,
+      "train_speed(iter/s)": 0.447873
+    },
+    {
+      "acc": 0.6527379,
+      "epoch": 0.9601725012683917,
+      "grad_norm": 5.0625,
+      "learning_rate": 5.739907841973321e-06,
+      "loss": 1.59018822,
+      "memory(GiB)": 111.15,
+      "step": 37850,
+      "train_speed(iter/s)": 0.447904
+    },
+    {
+      "acc": 0.64697666,
+      "epoch": 0.9602993404363267,
+      "grad_norm": 5.9375,
+      "learning_rate": 5.738870747251255e-06,
+      "loss": 1.6493721,
+      "memory(GiB)": 111.15,
+      "step": 37855,
+      "train_speed(iter/s)": 0.447935
+    },
+    {
+      "acc": 0.63894358,
+      "epoch": 0.9604261796042618,
+      "grad_norm": 5.46875,
+      "learning_rate": 5.737833620030357e-06,
+      "loss": 1.63304424,
+      "memory(GiB)": 111.15,
+      "step": 37860,
+      "train_speed(iter/s)": 0.447967
+    },
+    {
+      "acc": 0.67704525,
+      "epoch": 0.9605530187721969,
+      "grad_norm": 4.84375,
+      "learning_rate": 5.7367964603562385e-06,
+      "loss": 1.51600857,
+      "memory(GiB)": 111.15,
+      "step": 37865,
+      "train_speed(iter/s)": 0.447998
+    },
+    {
+      "acc": 0.6659936,
+      "epoch": 0.9606798579401319,
+      "grad_norm": 4.96875,
+      "learning_rate": 5.7357592682745245e-06,
+      "loss": 1.62924862,
+      "memory(GiB)": 111.15,
+      "step": 37870,
+      "train_speed(iter/s)": 0.448029
+    },
+    {
+      "acc": 0.65637217,
+      "epoch": 0.960806697108067,
+      "grad_norm": 6.125,
+      "learning_rate": 5.734722043830833e-06,
+      "loss": 1.52634678,
+      "memory(GiB)": 111.15,
+      "step": 37875,
+      "train_speed(iter/s)": 0.44806
+    },
+    {
+      "acc": 0.64979467,
+      "epoch": 0.960933536276002,
+      "grad_norm": 5.875,
+      "learning_rate": 5.7336847870707855e-06,
+      "loss": 1.66275921,
+      "memory(GiB)": 111.15,
+      "step": 37880,
+      "train_speed(iter/s)": 0.448092
+    },
+    {
+      "acc": 0.644804,
+      "epoch": 0.9610603754439371,
+      "grad_norm": 5.1875,
+      "learning_rate": 5.732647498040006e-06,
+      "loss": 1.62733688,
+      "memory(GiB)": 111.15,
+      "step": 37885,
+      "train_speed(iter/s)": 0.448123
+    },
+    {
+      "acc": 0.64404159,
+      "epoch": 0.9611872146118722,
+      "grad_norm": 5.59375,
+      "learning_rate": 5.731610176784118e-06,
+      "loss": 1.63733921,
+      "memory(GiB)": 111.15,
+      "step": 37890,
+      "train_speed(iter/s)": 0.448154
+    },
+    {
+      "acc": 0.64561753,
+      "epoch": 0.9613140537798072,
+      "grad_norm": 5.03125,
+      "learning_rate": 5.730572823348748e-06,
+      "loss": 1.59093256,
+      "memory(GiB)": 111.15,
+      "step": 37895,
+      "train_speed(iter/s)": 0.448186
+    },
+    {
+      "acc": 0.64796133,
+      "epoch": 0.9614408929477423,
+      "grad_norm": 5.78125,
+      "learning_rate": 5.729535437779523e-06,
+      "loss": 1.64088974,
+      "memory(GiB)": 111.15,
+      "step": 37900,
+      "train_speed(iter/s)": 0.448216
+    },
+    {
+      "epoch": 0.9614408929477423,
+      "eval_acc": 0.6432710010582046,
+      "eval_loss": 1.608338475227356,
+      "eval_runtime": 113.7654,
+      "eval_samples_per_second": 55.992,
+      "eval_steps_per_second": 27.996,
+      "step": 37900
+    },
+    {
+      "acc": 0.63411975,
+      "epoch": 0.9615677321156774,
+      "grad_norm": 4.96875,
+      "learning_rate": 5.728498020122073e-06,
+      "loss": 1.66930275,
+      "memory(GiB)": 111.15,
+      "step": 37905,
+      "train_speed(iter/s)": 0.447621
+    },
+    {
+      "acc": 0.65075417,
+      "epoch": 0.9616945712836124,
+      "grad_norm": 5.65625,
+      "learning_rate": 5.727460570422028e-06,
+      "loss": 1.59226904,
+      "memory(GiB)": 111.15,
+      "step": 37910,
+      "train_speed(iter/s)": 0.447652
+    },
+    {
+      "acc": 0.66885576,
+      "epoch": 0.9618214104515475,
+      "grad_norm": 5.78125,
+      "learning_rate": 5.726423088725017e-06,
+      "loss": 1.59313049,
+      "memory(GiB)": 111.15,
+      "step": 37915,
+      "train_speed(iter/s)": 0.447683
+    },
+    {
+      "acc": 0.64210749,
+      "epoch": 0.9619482496194824,
+      "grad_norm": 4.53125,
+      "learning_rate": 5.725385575076677e-06,
+      "loss": 1.61188774,
+      "memory(GiB)": 111.15,
+      "step": 37920,
+      "train_speed(iter/s)": 0.447714
+    },
+    {
+      "acc": 0.63773499,
+      "epoch": 0.9620750887874175,
+      "grad_norm": 5.5,
+      "learning_rate": 5.7243480295226405e-06,
+      "loss": 1.64668884,
+      "memory(GiB)": 111.15,
+      "step": 37925,
+      "train_speed(iter/s)": 0.447745
+    },
+    {
+      "acc": 0.64736824,
+      "epoch": 0.9622019279553526,
+      "grad_norm": 5.40625,
+      "learning_rate": 5.723310452108545e-06,
+      "loss": 1.63032036,
+      "memory(GiB)": 111.15,
+      "step": 37930,
+      "train_speed(iter/s)": 0.447777
+    },
+    {
+      "acc": 0.63594503,
+      "epoch": 0.9623287671232876,
+      "grad_norm": 4.8125,
+      "learning_rate": 5.722272842880023e-06,
+      "loss": 1.69734325,
+      "memory(GiB)": 111.15,
+      "step": 37935,
+      "train_speed(iter/s)": 0.447807
+    },
+    {
+      "acc": 0.65085282,
+      "epoch": 0.9624556062912227,
+      "grad_norm": 5.09375,
+      "learning_rate": 5.7212352018827215e-06,
+      "loss": 1.6286375,
+      "memory(GiB)": 111.15,
+      "step": 37940,
+      "train_speed(iter/s)": 0.447838
+    },
+    {
+      "acc": 0.65648508,
+      "epoch": 0.9625824454591578,
+      "grad_norm": 5.25,
+      "learning_rate": 5.720197529162272e-06,
+      "loss": 1.6239233,
+      "memory(GiB)": 111.15,
+      "step": 37945,
+      "train_speed(iter/s)": 0.44787
+    },
+    {
+      "acc": 0.65311384,
+      "epoch": 0.9627092846270928,
+      "grad_norm": 4.34375,
+      "learning_rate": 5.719159824764321e-06,
+      "loss": 1.5598772,
+      "memory(GiB)": 111.15,
+      "step": 37950,
+      "train_speed(iter/s)": 0.447901
+    },
+    {
+      "acc": 0.65618963,
+      "epoch": 0.9628361237950279,
+      "grad_norm": 5.0,
+      "learning_rate": 5.71812208873451e-06,
+      "loss": 1.64736748,
+      "memory(GiB)": 111.15,
+      "step": 37955,
+      "train_speed(iter/s)": 0.447932
+    },
+    {
+      "acc": 0.65138025,
+      "epoch": 0.9629629629629629,
+      "grad_norm": 5.21875,
+      "learning_rate": 5.717084321118482e-06,
+      "loss": 1.57500248,
+      "memory(GiB)": 111.15,
+      "step": 37960,
+      "train_speed(iter/s)": 0.447963
+    },
+    {
+      "acc": 0.65213313,
+      "epoch": 0.963089802130898,
+      "grad_norm": 6.0,
+      "learning_rate": 5.716046521961887e-06,
+      "loss": 1.67080421,
+      "memory(GiB)": 111.15,
+      "step": 37965,
+      "train_speed(iter/s)": 0.447994
+    },
+    {
+      "acc": 0.65621161,
+      "epoch": 0.9632166412988331,
+      "grad_norm": 6.5625,
+      "learning_rate": 5.715008691310366e-06,
+      "loss": 1.64005356,
+      "memory(GiB)": 111.15,
+      "step": 37970,
+      "train_speed(iter/s)": 0.448025
+    },
+    {
+      "acc": 0.63909087,
+      "epoch": 0.9633434804667681,
+      "grad_norm": 6.15625,
+      "learning_rate": 5.713970829209573e-06,
+      "loss": 1.71783047,
+      "memory(GiB)": 111.15,
+      "step": 37975,
+      "train_speed(iter/s)": 0.448056
+    },
+    {
+      "acc": 0.64700327,
+      "epoch": 0.9634703196347032,
+      "grad_norm": 5.25,
+      "learning_rate": 5.712932935705153e-06,
+      "loss": 1.66772385,
+      "memory(GiB)": 111.15,
+      "step": 37980,
+      "train_speed(iter/s)": 0.448087
+    },
+    {
+      "acc": 0.63302727,
+      "epoch": 0.9635971588026383,
+      "grad_norm": 5.375,
+      "learning_rate": 5.711895010842762e-06,
+      "loss": 1.70298977,
+      "memory(GiB)": 111.15,
+      "step": 37985,
+      "train_speed(iter/s)": 0.448119
+    },
+    {
+      "acc": 0.65632386,
+      "epoch": 0.9637239979705733,
+      "grad_norm": 5.34375,
+      "learning_rate": 5.710857054668048e-06,
+      "loss": 1.66115227,
+      "memory(GiB)": 111.15,
+      "step": 37990,
+      "train_speed(iter/s)": 0.44815
+    },
+    {
+      "acc": 0.65235395,
+      "epoch": 0.9638508371385084,
+      "grad_norm": 5.65625,
+      "learning_rate": 5.7098190672266675e-06,
+      "loss": 1.62149544,
+      "memory(GiB)": 111.15,
+      "step": 37995,
+      "train_speed(iter/s)": 0.448182
+    },
+    {
+      "acc": 0.64726439,
+      "epoch": 0.9639776763064434,
+      "grad_norm": 5.5,
+      "learning_rate": 5.708781048564276e-06,
+      "loss": 1.6140337,
+      "memory(GiB)": 111.15,
+      "step": 38000,
+      "train_speed(iter/s)": 0.448213
+    },
+    {
+      "epoch": 0.9639776763064434,
+      "eval_acc": 0.6433211331353395,
+      "eval_loss": 1.6082912683486938,
+      "eval_runtime": 112.9303,
+      "eval_samples_per_second": 56.406,
+      "eval_steps_per_second": 28.203,
+      "step": 38000
+    },
+    {
+      "acc": 0.65357647,
+      "epoch": 0.9641045154743785,
+      "grad_norm": 7.59375,
+      "learning_rate": 5.707742998726527e-06,
+      "loss": 1.60278187,
+      "memory(GiB)": 111.15,
+      "step": 38005,
+      "train_speed(iter/s)": 0.447624
+    },
+    {
+      "acc": 0.64809303,
+      "epoch": 0.9642313546423136,
+      "grad_norm": 6.3125,
+      "learning_rate": 5.706704917759085e-06,
+      "loss": 1.56668577,
+      "memory(GiB)": 111.15,
+      "step": 38010,
+      "train_speed(iter/s)": 0.447656
+    },
+    {
+      "acc": 0.66595564,
+      "epoch": 0.9643581938102486,
+      "grad_norm": 4.9375,
+      "learning_rate": 5.705666805707603e-06,
+      "loss": 1.56591253,
+      "memory(GiB)": 111.15,
+      "step": 38015,
+      "train_speed(iter/s)": 0.447687
+    },
+    {
+      "acc": 0.63984847,
+      "epoch": 0.9644850329781837,
+      "grad_norm": 4.6875,
+      "learning_rate": 5.704628662617744e-06,
+      "loss": 1.5984396,
+      "memory(GiB)": 111.15,
+      "step": 38020,
+      "train_speed(iter/s)": 0.447718
+    },
+    {
+      "acc": 0.66344433,
+      "epoch": 0.9646118721461188,
+      "grad_norm": 5.1875,
+      "learning_rate": 5.703590488535171e-06,
+      "loss": 1.61009331,
+      "memory(GiB)": 111.15,
+      "step": 38025,
+      "train_speed(iter/s)": 0.44775
+    },
+    {
+      "acc": 0.65580888,
+      "epoch": 0.9647387113140538,
+      "grad_norm": 5.75,
+      "learning_rate": 5.702552283505548e-06,
+      "loss": 1.62099152,
+      "memory(GiB)": 111.15,
+      "step": 38030,
+      "train_speed(iter/s)": 0.447781
+    },
+    {
+      "acc": 0.66327682,
+      "epoch": 0.9648655504819889,
+      "grad_norm": 4.78125,
+      "learning_rate": 5.7015140475745376e-06,
+      "loss": 1.57617931,
+      "memory(GiB)": 111.15,
+      "step": 38035,
+      "train_speed(iter/s)": 0.447812
+    },
+    {
+      "acc": 0.65850315,
+      "epoch": 0.9649923896499238,
+      "grad_norm": 5.53125,
+      "learning_rate": 5.700475780787809e-06,
+      "loss": 1.5859251,
+      "memory(GiB)": 111.15,
+      "step": 38040,
+      "train_speed(iter/s)": 0.447844
+    },
+    {
+      "acc": 0.64547172,
+      "epoch": 0.9651192288178589,
+      "grad_norm": 5.09375,
+      "learning_rate": 5.699437483191027e-06,
+      "loss": 1.5923214,
+      "memory(GiB)": 111.15,
+      "step": 38045,
+      "train_speed(iter/s)": 0.447875
+    },
+    {
+      "acc": 0.64711199,
+      "epoch": 0.965246067985794,
+      "grad_norm": 5.34375,
+      "learning_rate": 5.6983991548298615e-06,
+      "loss": 1.61994801,
+      "memory(GiB)": 111.15,
+      "step": 38050,
+      "train_speed(iter/s)": 0.447906
+    },
+    {
+      "acc": 0.65806456,
+      "epoch": 0.965372907153729,
+      "grad_norm": 6.59375,
+      "learning_rate": 5.697360795749983e-06,
+      "loss": 1.61230316,
+      "memory(GiB)": 111.15,
+      "step": 38055,
+      "train_speed(iter/s)": 0.447938
+    },
+    {
+      "acc": 0.64435802,
+      "epoch": 0.9654997463216641,
+      "grad_norm": 4.96875,
+      "learning_rate": 5.696322405997064e-06,
+      "loss": 1.65254631,
+      "memory(GiB)": 111.15,
+      "step": 38060,
+      "train_speed(iter/s)": 0.447969
+    },
+    {
+      "acc": 0.65069556,
+      "epoch": 0.9656265854895992,
+      "grad_norm": 6.15625,
+      "learning_rate": 5.695283985616775e-06,
+      "loss": 1.64032631,
+      "memory(GiB)": 111.15,
+      "step": 38065,
+      "train_speed(iter/s)": 0.448
+    },
+    {
+      "acc": 0.6406249,
+      "epoch": 0.9657534246575342,
+      "grad_norm": 4.8125,
+      "learning_rate": 5.694245534654795e-06,
+      "loss": 1.66803761,
+      "memory(GiB)": 111.15,
+      "step": 38070,
+      "train_speed(iter/s)": 0.448032
+    },
+    {
+      "acc": 0.65066829,
+      "epoch": 0.9658802638254693,
+      "grad_norm": 6.28125,
+      "learning_rate": 5.693207053156794e-06,
+      "loss": 1.48808556,
+      "memory(GiB)": 111.15,
+      "step": 38075,
+      "train_speed(iter/s)": 0.448063
+    },
+    {
+      "acc": 0.65130844,
+      "epoch": 0.9660071029934043,
+      "grad_norm": 4.28125,
+      "learning_rate": 5.692168541168455e-06,
+      "loss": 1.61089764,
+      "memory(GiB)": 111.15,
+      "step": 38080,
+      "train_speed(iter/s)": 0.448095
+    },
+    {
+      "acc": 0.66354756,
+      "epoch": 0.9661339421613394,
+      "grad_norm": 4.6875,
+      "learning_rate": 5.691129998735449e-06,
+      "loss": 1.52607975,
+      "memory(GiB)": 111.15,
+      "step": 38085,
+      "train_speed(iter/s)": 0.448126
+    },
+    {
+      "acc": 0.64947119,
+      "epoch": 0.9662607813292745,
+      "grad_norm": 5.4375,
+      "learning_rate": 5.690091425903464e-06,
+      "loss": 1.6870163,
+      "memory(GiB)": 111.15,
+      "step": 38090,
+      "train_speed(iter/s)": 0.448157
+    },
+    {
+      "acc": 0.64694004,
+      "epoch": 0.9663876204972095,
+      "grad_norm": 5.8125,
+      "learning_rate": 5.689052822718175e-06,
+      "loss": 1.65096626,
+      "memory(GiB)": 111.15,
+      "step": 38095,
+      "train_speed(iter/s)": 0.448189
+    },
+    {
+      "acc": 0.66464472,
+      "epoch": 0.9665144596651446,
+      "grad_norm": 6.09375,
+      "learning_rate": 5.688014189225266e-06,
+      "loss": 1.54420137,
+      "memory(GiB)": 111.15,
+      "step": 38100,
+      "train_speed(iter/s)": 0.44822
+    },
+    {
+      "epoch": 0.9665144596651446,
+      "eval_acc": 0.6432354908369007,
+      "eval_loss": 1.6082361936569214,
+      "eval_runtime": 113.7129,
+      "eval_samples_per_second": 56.018,
+      "eval_steps_per_second": 28.009,
+      "step": 38100
+    },
+    {
+      "acc": 0.64822855,
+      "epoch": 0.9666412988330797,
+      "grad_norm": 5.875,
+      "learning_rate": 5.686975525470423e-06,
+      "loss": 1.67433529,
+      "memory(GiB)": 111.15,
+      "step": 38105,
+      "train_speed(iter/s)": 0.447628
+    },
+    {
+      "acc": 0.65658216,
+      "epoch": 0.9667681380010147,
+      "grad_norm": 5.53125,
+      "learning_rate": 5.685936831499328e-06,
+      "loss": 1.64664288,
+      "memory(GiB)": 111.15,
+      "step": 38110,
+      "train_speed(iter/s)": 0.447658
+    },
+    {
+      "acc": 0.64668617,
+      "epoch": 0.9668949771689498,
+      "grad_norm": 5.4375,
+      "learning_rate": 5.684898107357669e-06,
+      "loss": 1.64589958,
+      "memory(GiB)": 111.15,
+      "step": 38115,
+      "train_speed(iter/s)": 0.447689
+    },
+    {
+      "acc": 0.6414104,
+      "epoch": 0.9670218163368848,
+      "grad_norm": 5.34375,
+      "learning_rate": 5.683859353091133e-06,
+      "loss": 1.71410179,
+      "memory(GiB)": 111.15,
+      "step": 38120,
+      "train_speed(iter/s)": 0.44772
+    },
+    {
+      "acc": 0.63821044,
+      "epoch": 0.9671486555048199,
+      "grad_norm": 5.0625,
+      "learning_rate": 5.6828205687454094e-06,
+      "loss": 1.6794075,
+      "memory(GiB)": 111.15,
+      "step": 38125,
+      "train_speed(iter/s)": 0.447751
+    },
+    {
+      "acc": 0.63549957,
+      "epoch": 0.967275494672755,
+      "grad_norm": 5.09375,
+      "learning_rate": 5.68178175436619e-06,
+      "loss": 1.70381966,
+      "memory(GiB)": 111.15,
+      "step": 38130,
+      "train_speed(iter/s)": 0.447781
+    },
+    {
+      "acc": 0.65297294,
+      "epoch": 0.96740233384069,
+      "grad_norm": 5.21875,
+      "learning_rate": 5.680742909999163e-06,
+      "loss": 1.65964355,
+      "memory(GiB)": 111.15,
+      "step": 38135,
+      "train_speed(iter/s)": 0.447812
+    },
+    {
+      "acc": 0.62622771,
+      "epoch": 0.9675291730086251,
+      "grad_norm": 6.53125,
+      "learning_rate": 5.679704035690026e-06,
+      "loss": 1.74048843,
+      "memory(GiB)": 111.15,
+      "step": 38140,
+      "train_speed(iter/s)": 0.447843
+    },
+    {
+      "acc": 0.65116901,
+      "epoch": 0.9676560121765602,
+      "grad_norm": 4.96875,
+      "learning_rate": 5.6786651314844675e-06,
+      "loss": 1.56747389,
+      "memory(GiB)": 111.15,
+      "step": 38145,
+      "train_speed(iter/s)": 0.447874
+    },
+    {
+      "acc": 0.64638405,
+      "epoch": 0.9677828513444952,
+      "grad_norm": 5.71875,
+      "learning_rate": 5.67762619742819e-06,
+      "loss": 1.631563,
+      "memory(GiB)": 111.15,
+      "step": 38150,
+      "train_speed(iter/s)": 0.447905
+    },
+    {
+      "acc": 0.63896847,
+      "epoch": 0.9679096905124303,
+      "grad_norm": 5.53125,
+      "learning_rate": 5.676587233566885e-06,
+      "loss": 1.64555531,
+      "memory(GiB)": 111.15,
+      "step": 38155,
+      "train_speed(iter/s)": 0.447936
+    },
+    {
+      "acc": 0.64798641,
+      "epoch": 0.9680365296803652,
+      "grad_norm": 5.0,
+      "learning_rate": 5.675548239946254e-06,
+      "loss": 1.6007452,
+      "memory(GiB)": 111.15,
+      "step": 38160,
+      "train_speed(iter/s)": 0.447967
+    },
+    {
+      "acc": 0.63559103,
+      "epoch": 0.9681633688483003,
+      "grad_norm": 5.84375,
+      "learning_rate": 5.674509216611993e-06,
+      "loss": 1.69154396,
+      "memory(GiB)": 111.15,
+      "step": 38165,
+      "train_speed(iter/s)": 0.447998
+    },
+    {
+      "acc": 0.65323105,
+      "epoch": 0.9682902080162354,
+      "grad_norm": 5.3125,
+      "learning_rate": 5.673470163609806e-06,
+      "loss": 1.58584919,
+      "memory(GiB)": 111.15,
+      "step": 38170,
+      "train_speed(iter/s)": 0.448028
+    },
+    {
+      "acc": 0.66741929,
+      "epoch": 0.9684170471841704,
+      "grad_norm": 4.59375,
+      "learning_rate": 5.672431080985395e-06,
+      "loss": 1.52258396,
+      "memory(GiB)": 111.15,
+      "step": 38175,
+      "train_speed(iter/s)": 0.448059
+    },
+    {
+      "acc": 0.64816027,
+      "epoch": 0.9685438863521055,
+      "grad_norm": 5.75,
+      "learning_rate": 5.671391968784464e-06,
+      "loss": 1.58730564,
+      "memory(GiB)": 111.15,
+      "step": 38180,
+      "train_speed(iter/s)": 0.44809
+    },
+    {
+      "acc": 0.65758715,
+      "epoch": 0.9686707255200406,
+      "grad_norm": 5.90625,
+      "learning_rate": 5.670352827052715e-06,
+      "loss": 1.60149441,
+      "memory(GiB)": 111.15,
+      "step": 38185,
+      "train_speed(iter/s)": 0.448121
+    },
+    {
+      "acc": 0.6614171,
+      "epoch": 0.9687975646879756,
+      "grad_norm": 5.3125,
+      "learning_rate": 5.6693136558358565e-06,
+      "loss": 1.63580875,
+      "memory(GiB)": 111.15,
+      "step": 38190,
+      "train_speed(iter/s)": 0.448152
+    },
+    {
+      "acc": 0.64279342,
+      "epoch": 0.9689244038559107,
+      "grad_norm": 5.21875,
+      "learning_rate": 5.668274455179595e-06,
+      "loss": 1.64372406,
+      "memory(GiB)": 111.15,
+      "step": 38195,
+      "train_speed(iter/s)": 0.448183
+    },
+    {
+      "acc": 0.62958226,
+      "epoch": 0.9690512430238457,
+      "grad_norm": 5.59375,
+      "learning_rate": 5.667235225129639e-06,
+      "loss": 1.68812637,
+      "memory(GiB)": 111.15,
+      "step": 38200,
+      "train_speed(iter/s)": 0.448214
+    },
+    {
+      "epoch": 0.9690512430238457,
+      "eval_acc": 0.6431744968097199,
+      "eval_loss": 1.6083592176437378,
+      "eval_runtime": 113.0849,
+      "eval_samples_per_second": 56.329,
+      "eval_steps_per_second": 28.165,
+      "step": 38200
+    },
+    {
+      "acc": 0.63212872,
+      "epoch": 0.9691780821917808,
+      "grad_norm": 6.78125,
+      "learning_rate": 5.6661959657317e-06,
+      "loss": 1.64503784,
+      "memory(GiB)": 111.15,
+      "step": 38205,
+      "train_speed(iter/s)": 0.447627
+    },
+    {
+      "acc": 0.66840734,
+      "epoch": 0.9693049213597159,
+      "grad_norm": 6.53125,
+      "learning_rate": 5.665156677031487e-06,
+      "loss": 1.57848606,
+      "memory(GiB)": 111.15,
+      "step": 38210,
+      "train_speed(iter/s)": 0.447657
+    },
+    {
+      "acc": 0.63696737,
+      "epoch": 0.9694317605276509,
+      "grad_norm": 5.9375,
+      "learning_rate": 5.664117359074712e-06,
+      "loss": 1.69384956,
+      "memory(GiB)": 111.15,
+      "step": 38215,
+      "train_speed(iter/s)": 0.447689
+    },
+    {
+      "acc": 0.64122763,
+      "epoch": 0.969558599695586,
+      "grad_norm": 5.875,
+      "learning_rate": 5.6630780119070935e-06,
+      "loss": 1.67860794,
+      "memory(GiB)": 111.15,
+      "step": 38220,
+      "train_speed(iter/s)": 0.447719
+    },
+    {
+      "acc": 0.64971094,
+      "epoch": 0.9696854388635211,
+      "grad_norm": 5.34375,
+      "learning_rate": 5.6620386355743415e-06,
+      "loss": 1.65264244,
+      "memory(GiB)": 111.15,
+      "step": 38225,
+      "train_speed(iter/s)": 0.44775
+    },
+    {
+      "acc": 0.64493017,
+      "epoch": 0.9698122780314561,
+      "grad_norm": 5.625,
+      "learning_rate": 5.660999230122177e-06,
+      "loss": 1.59779367,
+      "memory(GiB)": 111.15,
+      "step": 38230,
+      "train_speed(iter/s)": 0.447781
+    },
+    {
+      "acc": 0.64599018,
+      "epoch": 0.9699391171993912,
+      "grad_norm": 5.59375,
+      "learning_rate": 5.659959795596313e-06,
+      "loss": 1.64453773,
+      "memory(GiB)": 111.15,
+      "step": 38235,
+      "train_speed(iter/s)": 0.447812
+    },
+    {
+      "acc": 0.63827357,
+      "epoch": 0.9700659563673262,
+      "grad_norm": 5.4375,
+      "learning_rate": 5.65892033204247e-06,
+      "loss": 1.66556206,
+      "memory(GiB)": 111.15,
+      "step": 38240,
+      "train_speed(iter/s)": 0.447843
+    },
+    {
+      "acc": 0.66577673,
+      "epoch": 0.9701927955352613,
+      "grad_norm": 4.71875,
+      "learning_rate": 5.657880839506371e-06,
+      "loss": 1.56589594,
+      "memory(GiB)": 111.15,
+      "step": 38245,
+      "train_speed(iter/s)": 0.447874
+    },
+    {
+      "acc": 0.6513279,
+      "epoch": 0.9703196347031964,
+      "grad_norm": 7.4375,
+      "learning_rate": 5.656841318033735e-06,
+      "loss": 1.61522331,
+      "memory(GiB)": 111.15,
+      "step": 38250,
+      "train_speed(iter/s)": 0.447905
+    },
+    {
+      "acc": 0.64937515,
+      "epoch": 0.9704464738711314,
+      "grad_norm": 6.125,
+      "learning_rate": 5.6558017676702846e-06,
+      "loss": 1.60584507,
+      "memory(GiB)": 111.15,
+      "step": 38255,
+      "train_speed(iter/s)": 0.447935
+    },
+    {
+      "acc": 0.64983883,
+      "epoch": 0.9705733130390665,
+      "grad_norm": 5.375,
+      "learning_rate": 5.654762188461744e-06,
+      "loss": 1.6544239,
+      "memory(GiB)": 111.15,
+      "step": 38260,
+      "train_speed(iter/s)": 0.447966
+    },
+    {
+      "acc": 0.64256611,
+      "epoch": 0.9707001522070016,
+      "grad_norm": 5.25,
+      "learning_rate": 5.653722580453841e-06,
+      "loss": 1.65569916,
+      "memory(GiB)": 111.15,
+      "step": 38265,
+      "train_speed(iter/s)": 0.447998
+    },
+    {
+      "acc": 0.63728442,
+      "epoch": 0.9708269913749366,
+      "grad_norm": 5.28125,
+      "learning_rate": 5.652682943692299e-06,
+      "loss": 1.68643074,
+      "memory(GiB)": 111.15,
+      "step": 38270,
+      "train_speed(iter/s)": 0.448028
+    },
+    {
+      "acc": 0.65716839,
+      "epoch": 0.9709538305428717,
+      "grad_norm": 6.875,
+      "learning_rate": 5.651643278222847e-06,
+      "loss": 1.63960342,
+      "memory(GiB)": 111.15,
+      "step": 38275,
+      "train_speed(iter/s)": 0.44806
+    },
+    {
+      "acc": 0.66863909,
+      "epoch": 0.9710806697108066,
+      "grad_norm": 5.40625,
+      "learning_rate": 5.6506035840912145e-06,
+      "loss": 1.59280872,
+      "memory(GiB)": 111.15,
+      "step": 38280,
+      "train_speed(iter/s)": 0.448091
+    },
+    {
+      "acc": 0.66119976,
+      "epoch": 0.9712075088787417,
+      "grad_norm": 5.15625,
+      "learning_rate": 5.649563861343131e-06,
+      "loss": 1.61689701,
+      "memory(GiB)": 111.15,
+      "step": 38285,
+      "train_speed(iter/s)": 0.448121
+    },
+    {
+      "acc": 0.63051305,
+      "epoch": 0.9713343480466768,
+      "grad_norm": 5.78125,
+      "learning_rate": 5.648524110024331e-06,
+      "loss": 1.63550186,
+      "memory(GiB)": 111.15,
+      "step": 38290,
+      "train_speed(iter/s)": 0.448152
+    },
+    {
+      "acc": 0.65839138,
+      "epoch": 0.9714611872146118,
+      "grad_norm": 5.0625,
+      "learning_rate": 5.647484330180542e-06,
+      "loss": 1.6121748,
+      "memory(GiB)": 111.15,
+      "step": 38295,
+      "train_speed(iter/s)": 0.448183
+    },
+    {
+      "acc": 0.65086751,
+      "epoch": 0.9715880263825469,
+      "grad_norm": 6.4375,
+      "learning_rate": 5.646444521857504e-06,
+      "loss": 1.65338478,
+      "memory(GiB)": 111.15,
+      "step": 38300,
+      "train_speed(iter/s)": 0.448214
+    },
+    {
+      "epoch": 0.9715880263825469,
+      "eval_acc": 0.6432593035735398,
+      "eval_loss": 1.6082494258880615,
+      "eval_runtime": 114.0532,
+      "eval_samples_per_second": 55.851,
+      "eval_steps_per_second": 27.926,
+      "step": 38300
+    },
+    {
+      "acc": 0.66711283,
+      "epoch": 0.971714865550482,
+      "grad_norm": 5.125,
+      "learning_rate": 5.645404685100948e-06,
+      "loss": 1.55881481,
+      "memory(GiB)": 111.15,
+      "step": 38305,
+      "train_speed(iter/s)": 0.447624
+    },
+    {
+      "acc": 0.65604935,
+      "epoch": 0.971841704718417,
+      "grad_norm": 5.5625,
+      "learning_rate": 5.644364819956613e-06,
+      "loss": 1.6389492,
+      "memory(GiB)": 111.15,
+      "step": 38310,
+      "train_speed(iter/s)": 0.447655
+    },
+    {
+      "acc": 0.64508533,
+      "epoch": 0.9719685438863521,
+      "grad_norm": 5.84375,
+      "learning_rate": 5.643324926470236e-06,
+      "loss": 1.64507999,
+      "memory(GiB)": 111.15,
+      "step": 38315,
+      "train_speed(iter/s)": 0.447686
+    },
+    {
+      "acc": 0.65343857,
+      "epoch": 0.9720953830542871,
+      "grad_norm": 6.1875,
+      "learning_rate": 5.642285004687557e-06,
+      "loss": 1.62866573,
+      "memory(GiB)": 111.15,
+      "step": 38320,
+      "train_speed(iter/s)": 0.447716
+    },
+    {
+      "acc": 0.66259871,
+      "epoch": 0.9722222222222222,
+      "grad_norm": 5.53125,
+      "learning_rate": 5.6412450546543165e-06,
+      "loss": 1.58839121,
+      "memory(GiB)": 111.15,
+      "step": 38325,
+      "train_speed(iter/s)": 0.447747
+    },
+    {
+      "acc": 0.64490886,
+      "epoch": 0.9723490613901573,
+      "grad_norm": 5.53125,
+      "learning_rate": 5.640205076416254e-06,
+      "loss": 1.74140224,
+      "memory(GiB)": 111.15,
+      "step": 38330,
+      "train_speed(iter/s)": 0.447778
+    },
+    {
+      "acc": 0.64434161,
+      "epoch": 0.9724759005580923,
+      "grad_norm": 4.84375,
+      "learning_rate": 5.639165070019116e-06,
+      "loss": 1.63730507,
+      "memory(GiB)": 111.15,
+      "step": 38335,
+      "train_speed(iter/s)": 0.447809
+    },
+    {
+      "acc": 0.64621811,
+      "epoch": 0.9726027397260274,
+      "grad_norm": 6.09375,
+      "learning_rate": 5.638125035508642e-06,
+      "loss": 1.6301239,
+      "memory(GiB)": 111.15,
+      "step": 38340,
+      "train_speed(iter/s)": 0.447839
+    },
+    {
+      "acc": 0.65778227,
+      "epoch": 0.9727295788939625,
+      "grad_norm": 4.25,
+      "learning_rate": 5.6370849729305825e-06,
+      "loss": 1.59651327,
+      "memory(GiB)": 111.15,
+      "step": 38345,
+      "train_speed(iter/s)": 0.44787
+    },
+    {
+      "acc": 0.62804413,
+      "epoch": 0.9728564180618975,
+      "grad_norm": 5.15625,
+      "learning_rate": 5.63604488233068e-06,
+      "loss": 1.7055727,
+      "memory(GiB)": 111.15,
+      "step": 38350,
+      "train_speed(iter/s)": 0.447901
+    },
+    {
+      "acc": 0.65539923,
+      "epoch": 0.9729832572298326,
+      "grad_norm": 5.90625,
+      "learning_rate": 5.635004763754683e-06,
+      "loss": 1.58288097,
+      "memory(GiB)": 111.15,
+      "step": 38355,
+      "train_speed(iter/s)": 0.447931
+    },
+    {
+      "acc": 0.64381843,
+      "epoch": 0.9731100963977676,
+      "grad_norm": 6.09375,
+      "learning_rate": 5.633964617248345e-06,
+      "loss": 1.65393906,
+      "memory(GiB)": 111.15,
+      "step": 38360,
+      "train_speed(iter/s)": 0.447962
+    },
+    {
+      "acc": 0.66399236,
+      "epoch": 0.9732369355657027,
+      "grad_norm": 4.75,
+      "learning_rate": 5.6329244428574085e-06,
+      "loss": 1.56526489,
+      "memory(GiB)": 111.15,
+      "step": 38365,
+      "train_speed(iter/s)": 0.447992
+    },
+    {
+      "acc": 0.64809623,
+      "epoch": 0.9733637747336378,
+      "grad_norm": 5.09375,
+      "learning_rate": 5.631884240627632e-06,
+      "loss": 1.62166939,
+      "memory(GiB)": 111.15,
+      "step": 38370,
+      "train_speed(iter/s)": 0.448023
+    },
+    {
+      "acc": 0.64708586,
+      "epoch": 0.9734906139015728,
+      "grad_norm": 4.59375,
+      "learning_rate": 5.6308440106047634e-06,
+      "loss": 1.68124371,
+      "memory(GiB)": 111.15,
+      "step": 38375,
+      "train_speed(iter/s)": 0.448054
+    },
+    {
+      "acc": 0.65787563,
+      "epoch": 0.9736174530695079,
+      "grad_norm": 5.25,
+      "learning_rate": 5.62980375283456e-06,
+      "loss": 1.59150095,
+      "memory(GiB)": 111.15,
+      "step": 38380,
+      "train_speed(iter/s)": 0.448084
+    },
+    {
+      "acc": 0.65531349,
+      "epoch": 0.973744292237443,
+      "grad_norm": 5.71875,
+      "learning_rate": 5.628763467362775e-06,
+      "loss": 1.60065918,
+      "memory(GiB)": 111.15,
+      "step": 38385,
+      "train_speed(iter/s)": 0.448115
+    },
+    {
+      "acc": 0.63937249,
+      "epoch": 0.973871131405378,
+      "grad_norm": 5.28125,
+      "learning_rate": 5.627723154235165e-06,
+      "loss": 1.64038506,
+      "memory(GiB)": 111.15,
+      "step": 38390,
+      "train_speed(iter/s)": 0.448146
+    },
+    {
+      "acc": 0.64645486,
+      "epoch": 0.973997970573313,
+      "grad_norm": 5.28125,
+      "learning_rate": 5.62668281349749e-06,
+      "loss": 1.68599854,
+      "memory(GiB)": 111.15,
+      "step": 38395,
+      "train_speed(iter/s)": 0.448177
+    },
+    {
+      "acc": 0.63866363,
+      "epoch": 0.974124809741248,
+      "grad_norm": 5.6875,
+      "learning_rate": 5.625642445195505e-06,
+      "loss": 1.71497192,
+      "memory(GiB)": 111.15,
+      "step": 38400,
+      "train_speed(iter/s)": 0.448208
+    },
+    {
+      "epoch": 0.974124809741248,
+      "eval_acc": 0.6432158557733563,
+      "eval_loss": 1.6083251237869263,
+      "eval_runtime": 114.1445,
+      "eval_samples_per_second": 55.806,
+      "eval_steps_per_second": 27.903,
+      "step": 38400
+    },
+    {
+      "acc": 0.66302452,
+      "epoch": 0.9742516489091831,
+      "grad_norm": 5.78125,
+      "learning_rate": 5.6246020493749735e-06,
+      "loss": 1.6190033,
+      "memory(GiB)": 111.15,
+      "step": 38405,
+      "train_speed(iter/s)": 0.447619
+    },
+    {
+      "acc": 0.65698891,
+      "epoch": 0.9743784880771182,
+      "grad_norm": 5.90625,
+      "learning_rate": 5.623561626081654e-06,
+      "loss": 1.63814468,
+      "memory(GiB)": 111.15,
+      "step": 38410,
+      "train_speed(iter/s)": 0.447649
+    },
+    {
+      "acc": 0.65272455,
+      "epoch": 0.9745053272450532,
+      "grad_norm": 5.4375,
+      "learning_rate": 5.622521175361311e-06,
+      "loss": 1.56358852,
+      "memory(GiB)": 111.15,
+      "step": 38415,
+      "train_speed(iter/s)": 0.44768
+    },
+    {
+      "acc": 0.66045895,
+      "epoch": 0.9746321664129883,
+      "grad_norm": 5.21875,
+      "learning_rate": 5.621480697259707e-06,
+      "loss": 1.69206181,
+      "memory(GiB)": 111.15,
+      "step": 38420,
+      "train_speed(iter/s)": 0.447711
+    },
+    {
+      "acc": 0.63472724,
+      "epoch": 0.9747590055809234,
+      "grad_norm": 5.09375,
+      "learning_rate": 5.620440191822607e-06,
+      "loss": 1.64831696,
+      "memory(GiB)": 111.15,
+      "step": 38425,
+      "train_speed(iter/s)": 0.447742
+    },
+    {
+      "acc": 0.63210855,
+      "epoch": 0.9748858447488584,
+      "grad_norm": 4.875,
+      "learning_rate": 5.619399659095778e-06,
+      "loss": 1.65324116,
+      "memory(GiB)": 111.15,
+      "step": 38430,
+      "train_speed(iter/s)": 0.447773
+    },
+    {
+      "acc": 0.6514327,
+      "epoch": 0.9750126839167935,
+      "grad_norm": 6.25,
+      "learning_rate": 5.618359099124985e-06,
+      "loss": 1.66416512,
+      "memory(GiB)": 111.15,
+      "step": 38435,
+      "train_speed(iter/s)": 0.447804
+    },
+    {
+      "acc": 0.64643173,
+      "epoch": 0.9751395230847285,
+      "grad_norm": 4.90625,
+      "learning_rate": 5.617318511956001e-06,
+      "loss": 1.68979759,
+      "memory(GiB)": 111.15,
+      "step": 38440,
+      "train_speed(iter/s)": 0.447835
+    },
+    {
+      "acc": 0.64708109,
+      "epoch": 0.9752663622526636,
+      "grad_norm": 6.09375,
+      "learning_rate": 5.61627789763459e-06,
+      "loss": 1.64605503,
+      "memory(GiB)": 111.15,
+      "step": 38445,
+      "train_speed(iter/s)": 0.447866
+    },
+    {
+      "acc": 0.65224552,
+      "epoch": 0.9753932014205987,
+      "grad_norm": 5.21875,
+      "learning_rate": 5.6152372562065275e-06,
+      "loss": 1.59103374,
+      "memory(GiB)": 111.15,
+      "step": 38450,
+      "train_speed(iter/s)": 0.447896
+    },
+    {
+      "acc": 0.64316478,
+      "epoch": 0.9755200405885337,
+      "grad_norm": 4.90625,
+      "learning_rate": 5.614196587717581e-06,
+      "loss": 1.65290623,
+      "memory(GiB)": 111.15,
+      "step": 38455,
+      "train_speed(iter/s)": 0.447928
+    },
+    {
+      "acc": 0.66292963,
+      "epoch": 0.9756468797564688,
+      "grad_norm": 4.25,
+      "learning_rate": 5.613155892213529e-06,
+      "loss": 1.59761868,
+      "memory(GiB)": 111.15,
+      "step": 38460,
+      "train_speed(iter/s)": 0.447959
+    },
+    {
+      "acc": 0.66566935,
+      "epoch": 0.9757737189244039,
+      "grad_norm": 4.9375,
+      "learning_rate": 5.612115169740142e-06,
+      "loss": 1.57923679,
+      "memory(GiB)": 111.15,
+      "step": 38465,
+      "train_speed(iter/s)": 0.44799
+    },
+    {
+      "acc": 0.66416254,
+      "epoch": 0.9759005580923389,
+      "grad_norm": 5.59375,
+      "learning_rate": 5.611074420343197e-06,
+      "loss": 1.60197506,
+      "memory(GiB)": 111.15,
+      "step": 38470,
+      "train_speed(iter/s)": 0.448021
+    },
+    {
+      "acc": 0.66842446,
+      "epoch": 0.976027397260274,
+      "grad_norm": 5.21875,
+      "learning_rate": 5.610033644068471e-06,
+      "loss": 1.62266502,
+      "memory(GiB)": 111.15,
+      "step": 38475,
+      "train_speed(iter/s)": 0.448052
+    },
+    {
+      "acc": 0.66403122,
+      "epoch": 0.976154236428209,
+      "grad_norm": 4.40625,
+      "learning_rate": 5.608992840961742e-06,
+      "loss": 1.55293427,
+      "memory(GiB)": 111.15,
+      "step": 38480,
+      "train_speed(iter/s)": 0.448083
+    },
+    {
+      "acc": 0.64567842,
+      "epoch": 0.9762810755961441,
+      "grad_norm": 5.3125,
+      "learning_rate": 5.6079520110687876e-06,
+      "loss": 1.6122797,
+      "memory(GiB)": 111.15,
+      "step": 38485,
+      "train_speed(iter/s)": 0.448114
+    },
+    {
+      "acc": 0.65812778,
+      "epoch": 0.9764079147640792,
+      "grad_norm": 5.1875,
+      "learning_rate": 5.606911154435392e-06,
+      "loss": 1.60118866,
+      "memory(GiB)": 111.15,
+      "step": 38490,
+      "train_speed(iter/s)": 0.448146
+    },
+    {
+      "acc": 0.65274453,
+      "epoch": 0.9765347539320142,
+      "grad_norm": 6.84375,
+      "learning_rate": 5.605870271107332e-06,
+      "loss": 1.62341156,
+      "memory(GiB)": 111.15,
+      "step": 38495,
+      "train_speed(iter/s)": 0.448177
+    },
+    {
+      "acc": 0.64583621,
+      "epoch": 0.9766615930999493,
+      "grad_norm": 5.375,
+      "learning_rate": 5.6048293611303925e-06,
+      "loss": 1.64106369,
+      "memory(GiB)": 111.15,
+      "step": 38500,
+      "train_speed(iter/s)": 0.448207
+    },
+    {
+      "epoch": 0.9766615930999493,
+      "eval_acc": 0.6432367441388291,
+      "eval_loss": 1.6081515550613403,
+      "eval_runtime": 115.3055,
+      "eval_samples_per_second": 55.245,
+      "eval_steps_per_second": 27.622,
+      "step": 38500
+    },
+    {
+      "acc": 0.67334781,
+      "epoch": 0.9767884322678844,
+      "grad_norm": 4.5,
+      "learning_rate": 5.603788424550357e-06,
+      "loss": 1.61199169,
+      "memory(GiB)": 111.15,
+      "step": 38505,
+      "train_speed(iter/s)": 0.447613
+    },
+    {
+      "acc": 0.65221825,
+      "epoch": 0.9769152714358194,
+      "grad_norm": 4.5625,
+      "learning_rate": 5.602747461413014e-06,
+      "loss": 1.57742996,
+      "memory(GiB)": 111.15,
+      "step": 38510,
+      "train_speed(iter/s)": 0.447644
+    },
+    {
+      "acc": 0.65716662,
+      "epoch": 0.9770421106037545,
+      "grad_norm": 6.59375,
+      "learning_rate": 5.6017064717641435e-06,
+      "loss": 1.52217093,
+      "memory(GiB)": 111.15,
+      "step": 38515,
+      "train_speed(iter/s)": 0.447674
+    },
+    {
+      "acc": 0.65146527,
+      "epoch": 0.9771689497716894,
+      "grad_norm": 4.96875,
+      "learning_rate": 5.600665455649538e-06,
+      "loss": 1.63876972,
+      "memory(GiB)": 111.15,
+      "step": 38520,
+      "train_speed(iter/s)": 0.447705
+    },
+    {
+      "acc": 0.64918518,
+      "epoch": 0.9772957889396245,
+      "grad_norm": 5.28125,
+      "learning_rate": 5.599624413114981e-06,
+      "loss": 1.64157982,
+      "memory(GiB)": 111.15,
+      "step": 38525,
+      "train_speed(iter/s)": 0.447736
+    },
+    {
+      "acc": 0.65078211,
+      "epoch": 0.9774226281075596,
+      "grad_norm": 4.96875,
+      "learning_rate": 5.5985833442062676e-06,
+      "loss": 1.63556976,
+      "memory(GiB)": 111.15,
+      "step": 38530,
+      "train_speed(iter/s)": 0.447766
+    },
+    {
+      "acc": 0.66401796,
+      "epoch": 0.9775494672754946,
+      "grad_norm": 5.15625,
+      "learning_rate": 5.597542248969185e-06,
+      "loss": 1.52866001,
+      "memory(GiB)": 111.15,
+      "step": 38535,
+      "train_speed(iter/s)": 0.447797
+    },
+    {
+      "acc": 0.64037709,
+      "epoch": 0.9776763064434297,
+      "grad_norm": 5.78125,
+      "learning_rate": 5.596501127449527e-06,
+      "loss": 1.64272041,
+      "memory(GiB)": 111.15,
+      "step": 38540,
+      "train_speed(iter/s)": 0.447828
+    },
+    {
+      "acc": 0.65261059,
+      "epoch": 0.9778031456113648,
+      "grad_norm": 5.34375,
+      "learning_rate": 5.595459979693086e-06,
+      "loss": 1.61309071,
+      "memory(GiB)": 111.15,
+      "step": 38545,
+      "train_speed(iter/s)": 0.447859
+    },
+    {
+      "acc": 0.65917225,
+      "epoch": 0.9779299847792998,
+      "grad_norm": 5.5,
+      "learning_rate": 5.594418805745657e-06,
+      "loss": 1.60150414,
+      "memory(GiB)": 111.15,
+      "step": 38550,
+      "train_speed(iter/s)": 0.44789
+    },
+    {
+      "acc": 0.64531221,
+      "epoch": 0.9780568239472349,
+      "grad_norm": 5.625,
+      "learning_rate": 5.593377605653035e-06,
+      "loss": 1.60327721,
+      "memory(GiB)": 111.15,
+      "step": 38555,
+      "train_speed(iter/s)": 0.447921
+    },
+    {
+      "acc": 0.65925307,
+      "epoch": 0.9781836631151699,
+      "grad_norm": 5.59375,
+      "learning_rate": 5.592336379461018e-06,
+      "loss": 1.59987087,
+      "memory(GiB)": 111.15,
+      "step": 38560,
+      "train_speed(iter/s)": 0.447952
+    },
+    {
+      "acc": 0.64645205,
+      "epoch": 0.978310502283105,
+      "grad_norm": 5.15625,
+      "learning_rate": 5.5912951272154004e-06,
+      "loss": 1.58303204,
+      "memory(GiB)": 111.15,
+      "step": 38565,
+      "train_speed(iter/s)": 0.447983
+    },
+    {
+      "acc": 0.64635758,
+      "epoch": 0.9784373414510401,
+      "grad_norm": 4.8125,
+      "learning_rate": 5.590253848961984e-06,
+      "loss": 1.68574295,
+      "memory(GiB)": 111.15,
+      "step": 38570,
+      "train_speed(iter/s)": 0.448014
+    },
+    {
+      "acc": 0.63941536,
+      "epoch": 0.9785641806189751,
+      "grad_norm": 4.75,
+      "learning_rate": 5.589212544746566e-06,
+      "loss": 1.66617508,
+      "memory(GiB)": 111.15,
+      "step": 38575,
+      "train_speed(iter/s)": 0.448045
+    },
+    {
+      "acc": 0.65980906,
+      "epoch": 0.9786910197869102,
+      "grad_norm": 6.0625,
+      "learning_rate": 5.588171214614953e-06,
+      "loss": 1.62895775,
+      "memory(GiB)": 111.15,
+      "step": 38580,
+      "train_speed(iter/s)": 0.448076
+    },
+    {
+      "acc": 0.64566207,
+      "epoch": 0.9788178589548453,
+      "grad_norm": 4.59375,
+      "learning_rate": 5.587129858612941e-06,
+      "loss": 1.63394909,
+      "memory(GiB)": 111.15,
+      "step": 38585,
+      "train_speed(iter/s)": 0.448107
+    },
+    {
+      "acc": 0.64351454,
+      "epoch": 0.9789446981227803,
+      "grad_norm": 4.4375,
+      "learning_rate": 5.586088476786339e-06,
+      "loss": 1.63288803,
+      "memory(GiB)": 111.15,
+      "step": 38590,
+      "train_speed(iter/s)": 0.448138
+    },
+    {
+      "acc": 0.63664474,
+      "epoch": 0.9790715372907154,
+      "grad_norm": 5.375,
+      "learning_rate": 5.585047069180947e-06,
+      "loss": 1.69305496,
+      "memory(GiB)": 111.15,
+      "step": 38595,
+      "train_speed(iter/s)": 0.448169
+    },
+    {
+      "acc": 0.65332947,
+      "epoch": 0.9791983764586504,
+      "grad_norm": 6.0,
+      "learning_rate": 5.5840056358425755e-06,
+      "loss": 1.6180687,
+      "memory(GiB)": 111.15,
+      "step": 38600,
+      "train_speed(iter/s)": 0.4482
+    },
+    {
+      "epoch": 0.9791983764586504,
+      "eval_acc": 0.6432609746427776,
+      "eval_loss": 1.6082512140274048,
+      "eval_runtime": 113.7472,
+      "eval_samples_per_second": 56.001,
+      "eval_steps_per_second": 28.001,
+      "step": 38600
+    },
+    {
+      "acc": 0.63092561,
+      "epoch": 0.9793252156265855,
+      "grad_norm": 5.59375,
+      "learning_rate": 5.582964176817025e-06,
+      "loss": 1.70142708,
+      "memory(GiB)": 111.15,
+      "step": 38605,
+      "train_speed(iter/s)": 0.447616
+    },
+    {
+      "acc": 0.6661396,
+      "epoch": 0.9794520547945206,
+      "grad_norm": 5.90625,
+      "learning_rate": 5.58192269215011e-06,
+      "loss": 1.59254217,
+      "memory(GiB)": 111.15,
+      "step": 38610,
+      "train_speed(iter/s)": 0.447646
+    },
+    {
+      "acc": 0.66099234,
+      "epoch": 0.9795788939624556,
+      "grad_norm": 5.28125,
+      "learning_rate": 5.580881181887636e-06,
+      "loss": 1.60646076,
+      "memory(GiB)": 111.15,
+      "step": 38615,
+      "train_speed(iter/s)": 0.447677
+    },
+    {
+      "acc": 0.64767895,
+      "epoch": 0.9797057331303907,
+      "grad_norm": 4.6875,
+      "learning_rate": 5.579839646075414e-06,
+      "loss": 1.61990166,
+      "memory(GiB)": 111.15,
+      "step": 38620,
+      "train_speed(iter/s)": 0.447708
+    },
+    {
+      "acc": 0.64067574,
+      "epoch": 0.9798325722983258,
+      "grad_norm": 4.28125,
+      "learning_rate": 5.578798084759257e-06,
+      "loss": 1.65990906,
+      "memory(GiB)": 111.15,
+      "step": 38625,
+      "train_speed(iter/s)": 0.447739
+    },
+    {
+      "acc": 0.65499086,
+      "epoch": 0.9799594114662608,
+      "grad_norm": 5.90625,
+      "learning_rate": 5.577756497984975e-06,
+      "loss": 1.56445961,
+      "memory(GiB)": 111.15,
+      "step": 38630,
+      "train_speed(iter/s)": 0.447769
+    },
+    {
+      "acc": 0.6522963,
+      "epoch": 0.9800862506341959,
+      "grad_norm": 5.0,
+      "learning_rate": 5.576714885798382e-06,
+      "loss": 1.60522461,
+      "memory(GiB)": 111.15,
+      "step": 38635,
+      "train_speed(iter/s)": 0.4478
+    },
+    {
+      "acc": 0.65742149,
+      "epoch": 0.9802130898021308,
+      "grad_norm": 6.03125,
+      "learning_rate": 5.575673248245295e-06,
+      "loss": 1.59437904,
+      "memory(GiB)": 111.15,
+      "step": 38640,
+      "train_speed(iter/s)": 0.447831
+    },
+    {
+      "acc": 0.63906622,
+      "epoch": 0.9803399289700659,
+      "grad_norm": 7.78125,
+      "learning_rate": 5.574631585371527e-06,
+      "loss": 1.72446709,
+      "memory(GiB)": 111.15,
+      "step": 38645,
+      "train_speed(iter/s)": 0.447861
+    },
+    {
+      "acc": 0.64251556,
+      "epoch": 0.980466768138001,
+      "grad_norm": 5.8125,
+      "learning_rate": 5.573589897222897e-06,
+      "loss": 1.60679359,
+      "memory(GiB)": 111.15,
+      "step": 38650,
+      "train_speed(iter/s)": 0.447892
+    },
+    {
+      "acc": 0.65387106,
+      "epoch": 0.980593607305936,
+      "grad_norm": 4.75,
+      "learning_rate": 5.572548183845222e-06,
+      "loss": 1.57363567,
+      "memory(GiB)": 111.15,
+      "step": 38655,
+      "train_speed(iter/s)": 0.447923
+    },
+    {
+      "acc": 0.64696064,
+      "epoch": 0.9807204464738711,
+      "grad_norm": 4.6875,
+      "learning_rate": 5.571506445284322e-06,
+      "loss": 1.64330444,
+      "memory(GiB)": 111.15,
+      "step": 38660,
+      "train_speed(iter/s)": 0.447954
+    },
+    {
+      "acc": 0.66184907,
+      "epoch": 0.9808472856418062,
+      "grad_norm": 4.34375,
+      "learning_rate": 5.570464681586017e-06,
+      "loss": 1.61074657,
+      "memory(GiB)": 111.15,
+      "step": 38665,
+      "train_speed(iter/s)": 0.447984
+    },
+    {
+      "acc": 0.64535456,
+      "epoch": 0.9809741248097412,
+      "grad_norm": 5.25,
+      "learning_rate": 5.569422892796129e-06,
+      "loss": 1.6140192,
+      "memory(GiB)": 111.15,
+      "step": 38670,
+      "train_speed(iter/s)": 0.448014
+    },
+    {
+      "acc": 0.63526869,
+      "epoch": 0.9811009639776763,
+      "grad_norm": 5.4375,
+      "learning_rate": 5.568381078960479e-06,
+      "loss": 1.76182137,
+      "memory(GiB)": 111.15,
+      "step": 38675,
+      "train_speed(iter/s)": 0.448045
+    },
+    {
+      "acc": 0.65909166,
+      "epoch": 0.9812278031456113,
+      "grad_norm": 6.5,
+      "learning_rate": 5.567339240124892e-06,
+      "loss": 1.59001465,
+      "memory(GiB)": 111.15,
+      "step": 38680,
+      "train_speed(iter/s)": 0.448076
+    },
+    {
+      "acc": 0.65199137,
+      "epoch": 0.9813546423135464,
+      "grad_norm": 5.09375,
+      "learning_rate": 5.5662973763351915e-06,
+      "loss": 1.67126465,
+      "memory(GiB)": 111.15,
+      "step": 38685,
+      "train_speed(iter/s)": 0.448106
+    },
+    {
+      "acc": 0.64316497,
+      "epoch": 0.9814814814814815,
+      "grad_norm": 6.3125,
+      "learning_rate": 5.565255487637204e-06,
+      "loss": 1.65081558,
+      "memory(GiB)": 111.15,
+      "step": 38690,
+      "train_speed(iter/s)": 0.448137
+    },
+    {
+      "acc": 0.6480607,
+      "epoch": 0.9816083206494165,
+      "grad_norm": 5.8125,
+      "learning_rate": 5.564213574076757e-06,
+      "loss": 1.62241325,
+      "memory(GiB)": 111.15,
+      "step": 38695,
+      "train_speed(iter/s)": 0.448168
+    },
+    {
+      "acc": 0.63676071,
+      "epoch": 0.9817351598173516,
+      "grad_norm": 6.09375,
+      "learning_rate": 5.563171635699678e-06,
+      "loss": 1.68695068,
+      "memory(GiB)": 111.15,
+      "step": 38700,
+      "train_speed(iter/s)": 0.448199
+    },
+    {
+      "epoch": 0.9817351598173516,
+      "eval_acc": 0.6432396685099953,
+      "eval_loss": 1.60833740234375,
+      "eval_runtime": 115.6096,
+      "eval_samples_per_second": 55.099,
+      "eval_steps_per_second": 27.55,
+      "step": 38700
+    },
+    {
+      "acc": 0.66670437,
+      "epoch": 0.9818619989852867,
+      "grad_norm": 5.53125,
+      "learning_rate": 5.562129672551796e-06,
+      "loss": 1.54412069,
+      "memory(GiB)": 111.15,
+      "step": 38705,
+      "train_speed(iter/s)": 0.447606
+    },
+    {
+      "acc": 0.6430994,
+      "epoch": 0.9819888381532217,
+      "grad_norm": 5.46875,
+      "learning_rate": 5.561087684678941e-06,
+      "loss": 1.65596848,
+      "memory(GiB)": 111.15,
+      "step": 38710,
+      "train_speed(iter/s)": 0.447637
+    },
+    {
+      "acc": 0.6431109,
+      "epoch": 0.9821156773211568,
+      "grad_norm": 5.15625,
+      "learning_rate": 5.560045672126945e-06,
+      "loss": 1.63770256,
+      "memory(GiB)": 111.15,
+      "step": 38715,
+      "train_speed(iter/s)": 0.447668
+    },
+    {
+      "acc": 0.65113745,
+      "epoch": 0.9822425164890918,
+      "grad_norm": 5.75,
+      "learning_rate": 5.55900363494164e-06,
+      "loss": 1.62744102,
+      "memory(GiB)": 111.15,
+      "step": 38720,
+      "train_speed(iter/s)": 0.447699
+    },
+    {
+      "acc": 0.65693569,
+      "epoch": 0.9823693556570269,
+      "grad_norm": 5.15625,
+      "learning_rate": 5.557961573168857e-06,
+      "loss": 1.64446316,
+      "memory(GiB)": 111.15,
+      "step": 38725,
+      "train_speed(iter/s)": 0.447729
+    },
+    {
+      "acc": 0.65299716,
+      "epoch": 0.982496194824962,
+      "grad_norm": 5.96875,
+      "learning_rate": 5.5569194868544376e-06,
+      "loss": 1.65036774,
+      "memory(GiB)": 111.15,
+      "step": 38730,
+      "train_speed(iter/s)": 0.44776
+    },
+    {
+      "acc": 0.64541769,
+      "epoch": 0.982623033992897,
+      "grad_norm": 5.75,
+      "learning_rate": 5.555877376044209e-06,
+      "loss": 1.60355587,
+      "memory(GiB)": 111.15,
+      "step": 38735,
+      "train_speed(iter/s)": 0.447791
+    },
+    {
+      "acc": 0.66685667,
+      "epoch": 0.9827498731608321,
+      "grad_norm": 5.34375,
+      "learning_rate": 5.554835240784013e-06,
+      "loss": 1.60752335,
+      "memory(GiB)": 111.15,
+      "step": 38740,
+      "train_speed(iter/s)": 0.447822
+    },
+    {
+      "acc": 0.65326772,
+      "epoch": 0.9828767123287672,
+      "grad_norm": 5.46875,
+      "learning_rate": 5.553793081119685e-06,
+      "loss": 1.64165192,
+      "memory(GiB)": 111.15,
+      "step": 38745,
+      "train_speed(iter/s)": 0.447853
+    },
+    {
+      "acc": 0.64744077,
+      "epoch": 0.9830035514967022,
+      "grad_norm": 4.5625,
+      "learning_rate": 5.552750897097065e-06,
+      "loss": 1.64683914,
+      "memory(GiB)": 111.15,
+      "step": 38750,
+      "train_speed(iter/s)": 0.447884
+    },
+    {
+      "acc": 0.64144907,
+      "epoch": 0.9831303906646373,
+      "grad_norm": 6.40625,
+      "learning_rate": 5.551708688761993e-06,
+      "loss": 1.64226093,
+      "memory(GiB)": 111.15,
+      "step": 38755,
+      "train_speed(iter/s)": 0.447914
+    },
+    {
+      "acc": 0.65029831,
+      "epoch": 0.9832572298325722,
+      "grad_norm": 5.09375,
+      "learning_rate": 5.550666456160311e-06,
+      "loss": 1.62593269,
+      "memory(GiB)": 111.15,
+      "step": 38760,
+      "train_speed(iter/s)": 0.447945
+    },
+    {
+      "acc": 0.65252028,
+      "epoch": 0.9833840690005073,
+      "grad_norm": 5.0,
+      "learning_rate": 5.549624199337857e-06,
+      "loss": 1.63261166,
+      "memory(GiB)": 111.15,
+      "step": 38765,
+      "train_speed(iter/s)": 0.447976
+    },
+    {
+      "acc": 0.63910356,
+      "epoch": 0.9835109081684424,
+      "grad_norm": 6.15625,
+      "learning_rate": 5.548581918340479e-06,
+      "loss": 1.6522934,
+      "memory(GiB)": 111.15,
+      "step": 38770,
+      "train_speed(iter/s)": 0.448007
+    },
+    {
+      "acc": 0.66128902,
+      "epoch": 0.9836377473363774,
+      "grad_norm": 5.71875,
+      "learning_rate": 5.547539613214019e-06,
+      "loss": 1.5682478,
+      "memory(GiB)": 111.15,
+      "step": 38775,
+      "train_speed(iter/s)": 0.448037
+    },
+    {
+      "acc": 0.65054455,
+      "epoch": 0.9837645865043125,
+      "grad_norm": 6.75,
+      "learning_rate": 5.546497284004321e-06,
+      "loss": 1.64680138,
+      "memory(GiB)": 111.15,
+      "step": 38780,
+      "train_speed(iter/s)": 0.448068
+    },
+    {
+      "acc": 0.6533535,
+      "epoch": 0.9838914256722476,
+      "grad_norm": 5.875,
+      "learning_rate": 5.545454930757233e-06,
+      "loss": 1.61486511,
+      "memory(GiB)": 111.15,
+      "step": 38785,
+      "train_speed(iter/s)": 0.448099
+    },
+    {
+      "acc": 0.66209016,
+      "epoch": 0.9840182648401826,
+      "grad_norm": 4.875,
+      "learning_rate": 5.544412553518602e-06,
+      "loss": 1.54976997,
+      "memory(GiB)": 111.15,
+      "step": 38790,
+      "train_speed(iter/s)": 0.44813
+    },
+    {
+      "acc": 0.65023875,
+      "epoch": 0.9841451040081177,
+      "grad_norm": 4.625,
+      "learning_rate": 5.543370152334275e-06,
+      "loss": 1.59951954,
+      "memory(GiB)": 111.15,
+      "step": 38795,
+      "train_speed(iter/s)": 0.448161
+    },
+    {
+      "acc": 0.65026531,
+      "epoch": 0.9842719431760527,
+      "grad_norm": 4.625,
+      "learning_rate": 5.542327727250105e-06,
+      "loss": 1.61255875,
+      "memory(GiB)": 111.15,
+      "step": 38800,
+      "train_speed(iter/s)": 0.448192
+    },
+    {
+      "epoch": 0.9842719431760527,
+      "eval_acc": 0.6431866120616943,
+      "eval_loss": 1.6082284450531006,
+      "eval_runtime": 114.2023,
+      "eval_samples_per_second": 55.778,
+      "eval_steps_per_second": 27.889,
+      "step": 38800
+    },
+    {
+      "acc": 0.63830562,
+      "epoch": 0.9843987823439878,
+      "grad_norm": 5.78125,
+      "learning_rate": 5.5412852783119385e-06,
+      "loss": 1.64790916,
+      "memory(GiB)": 111.15,
+      "step": 38805,
+      "train_speed(iter/s)": 0.447608
+    },
+    {
+      "acc": 0.64818711,
+      "epoch": 0.9845256215119229,
+      "grad_norm": 4.34375,
+      "learning_rate": 5.54024280556563e-06,
+      "loss": 1.5984726,
+      "memory(GiB)": 111.15,
+      "step": 38810,
+      "train_speed(iter/s)": 0.447639
+    },
+    {
+      "acc": 0.64142036,
+      "epoch": 0.9846524606798579,
+      "grad_norm": 6.6875,
+      "learning_rate": 5.53920030905703e-06,
+      "loss": 1.68215446,
+      "memory(GiB)": 111.15,
+      "step": 38815,
+      "train_speed(iter/s)": 0.447669
+    },
+    {
+      "acc": 0.64614081,
+      "epoch": 0.984779299847793,
+      "grad_norm": 4.84375,
+      "learning_rate": 5.538157788831993e-06,
+      "loss": 1.59583282,
+      "memory(GiB)": 111.15,
+      "step": 38820,
+      "train_speed(iter/s)": 0.4477
+    },
+    {
+      "acc": 0.64830456,
+      "epoch": 0.9849061390157281,
+      "grad_norm": 6.8125,
+      "learning_rate": 5.537115244936374e-06,
+      "loss": 1.6144434,
+      "memory(GiB)": 111.15,
+      "step": 38825,
+      "train_speed(iter/s)": 0.447731
+    },
+    {
+      "acc": 0.63462982,
+      "epoch": 0.9850329781836631,
+      "grad_norm": 6.1875,
+      "learning_rate": 5.536072677416029e-06,
+      "loss": 1.68707829,
+      "memory(GiB)": 111.15,
+      "step": 38830,
+      "train_speed(iter/s)": 0.447761
+    },
+    {
+      "acc": 0.65889883,
+      "epoch": 0.9851598173515982,
+      "grad_norm": 5.15625,
+      "learning_rate": 5.535030086316814e-06,
+      "loss": 1.57779512,
+      "memory(GiB)": 111.15,
+      "step": 38835,
+      "train_speed(iter/s)": 0.447791
+    },
+    {
+      "acc": 0.66687841,
+      "epoch": 0.9852866565195332,
+      "grad_norm": 4.625,
+      "learning_rate": 5.533987471684586e-06,
+      "loss": 1.55581455,
+      "memory(GiB)": 111.15,
+      "step": 38840,
+      "train_speed(iter/s)": 0.447822
+    },
+    {
+      "acc": 0.64741631,
+      "epoch": 0.9854134956874683,
+      "grad_norm": 4.84375,
+      "learning_rate": 5.532944833565207e-06,
+      "loss": 1.60340519,
+      "memory(GiB)": 111.15,
+      "step": 38845,
+      "train_speed(iter/s)": 0.447852
+    },
+    {
+      "acc": 0.6448493,
+      "epoch": 0.9855403348554034,
+      "grad_norm": 4.90625,
+      "learning_rate": 5.531902172004533e-06,
+      "loss": 1.64807587,
+      "memory(GiB)": 111.15,
+      "step": 38850,
+      "train_speed(iter/s)": 0.447883
+    },
+    {
+      "acc": 0.64658899,
+      "epoch": 0.9856671740233384,
+      "grad_norm": 5.40625,
+      "learning_rate": 5.530859487048427e-06,
+      "loss": 1.64748135,
+      "memory(GiB)": 111.15,
+      "step": 38855,
+      "train_speed(iter/s)": 0.447914
+    },
+    {
+      "acc": 0.63290567,
+      "epoch": 0.9857940131912735,
+      "grad_norm": 4.5,
+      "learning_rate": 5.529816778742752e-06,
+      "loss": 1.72681808,
+      "memory(GiB)": 111.15,
+      "step": 38860,
+      "train_speed(iter/s)": 0.447944
+    },
+    {
+      "acc": 0.67373419,
+      "epoch": 0.9859208523592086,
+      "grad_norm": 6.09375,
+      "learning_rate": 5.528774047133369e-06,
+      "loss": 1.54914532,
+      "memory(GiB)": 111.15,
+      "step": 38865,
+      "train_speed(iter/s)": 0.447975
+    },
+    {
+      "acc": 0.6464582,
+      "epoch": 0.9860476915271436,
+      "grad_norm": 4.6875,
+      "learning_rate": 5.527731292266142e-06,
+      "loss": 1.62197685,
+      "memory(GiB)": 111.15,
+      "step": 38870,
+      "train_speed(iter/s)": 0.448005
+    },
+    {
+      "acc": 0.65546007,
+      "epoch": 0.9861745306950787,
+      "grad_norm": 5.03125,
+      "learning_rate": 5.5266885141869355e-06,
+      "loss": 1.61491966,
+      "memory(GiB)": 111.15,
+      "step": 38875,
+      "train_speed(iter/s)": 0.448036
+    },
+    {
+      "acc": 0.6459547,
+      "epoch": 0.9863013698630136,
+      "grad_norm": 6.3125,
+      "learning_rate": 5.5256457129416185e-06,
+      "loss": 1.67743912,
+      "memory(GiB)": 111.15,
+      "step": 38880,
+      "train_speed(iter/s)": 0.448067
+    },
+    {
+      "acc": 0.66930852,
+      "epoch": 0.9864282090309487,
+      "grad_norm": 5.03125,
+      "learning_rate": 5.524602888576055e-06,
+      "loss": 1.58891582,
+      "memory(GiB)": 111.15,
+      "step": 38885,
+      "train_speed(iter/s)": 0.448098
+    },
+    {
+      "acc": 0.63604403,
+      "epoch": 0.9865550481988838,
+      "grad_norm": 5.125,
+      "learning_rate": 5.523560041136116e-06,
+      "loss": 1.67907009,
+      "memory(GiB)": 111.15,
+      "step": 38890,
+      "train_speed(iter/s)": 0.448128
+    },
+    {
+      "acc": 0.62922287,
+      "epoch": 0.9866818873668188,
+      "grad_norm": 5.09375,
+      "learning_rate": 5.522517170667667e-06,
+      "loss": 1.71436481,
+      "memory(GiB)": 111.15,
+      "step": 38895,
+      "train_speed(iter/s)": 0.448159
+    },
+    {
+      "acc": 0.65854759,
+      "epoch": 0.9868087265347539,
+      "grad_norm": 6.03125,
+      "learning_rate": 5.5214742772165806e-06,
+      "loss": 1.58648834,
+      "memory(GiB)": 111.15,
+      "step": 38900,
+      "train_speed(iter/s)": 0.44819
+    },
+    {
+      "epoch": 0.9868087265347539,
+      "eval_acc": 0.6432405040446142,
+      "eval_loss": 1.6082016229629517,
+      "eval_runtime": 114.7106,
+      "eval_samples_per_second": 55.531,
+      "eval_steps_per_second": 27.766,
+      "step": 38900
+    },
+    {
+      "acc": 0.632798,
+      "epoch": 0.986935565702689,
+      "grad_norm": 6.0,
+      "learning_rate": 5.520431360828728e-06,
+      "loss": 1.69280396,
+      "memory(GiB)": 111.15,
+      "step": 38905,
+      "train_speed(iter/s)": 0.447606
+    },
+    {
+      "acc": 0.63993406,
+      "epoch": 0.987062404870624,
+      "grad_norm": 5.8125,
+      "learning_rate": 5.51938842154998e-06,
+      "loss": 1.66391487,
+      "memory(GiB)": 111.15,
+      "step": 38910,
+      "train_speed(iter/s)": 0.447637
+    },
+    {
+      "acc": 0.65736704,
+      "epoch": 0.9871892440385591,
+      "grad_norm": 6.25,
+      "learning_rate": 5.51834545942621e-06,
+      "loss": 1.58965015,
+      "memory(GiB)": 111.15,
+      "step": 38915,
+      "train_speed(iter/s)": 0.447667
+    },
+    {
+      "acc": 0.64566917,
+      "epoch": 0.9873160832064941,
+      "grad_norm": 5.65625,
+      "learning_rate": 5.5173024745032925e-06,
+      "loss": 1.5968111,
+      "memory(GiB)": 111.15,
+      "step": 38920,
+      "train_speed(iter/s)": 0.447698
+    },
+    {
+      "acc": 0.6363894,
+      "epoch": 0.9874429223744292,
+      "grad_norm": 5.90625,
+      "learning_rate": 5.516259466827103e-06,
+      "loss": 1.67563858,
+      "memory(GiB)": 111.15,
+      "step": 38925,
+      "train_speed(iter/s)": 0.447729
+    },
+    {
+      "acc": 0.65155311,
+      "epoch": 0.9875697615423643,
+      "grad_norm": 5.375,
+      "learning_rate": 5.515216436443517e-06,
+      "loss": 1.59047585,
+      "memory(GiB)": 111.15,
+      "step": 38930,
+      "train_speed(iter/s)": 0.44776
+    },
+    {
+      "acc": 0.655405,
+      "epoch": 0.9876966007102993,
+      "grad_norm": 6.75,
+      "learning_rate": 5.514173383398412e-06,
+      "loss": 1.69908943,
+      "memory(GiB)": 111.15,
+      "step": 38935,
+      "train_speed(iter/s)": 0.447791
+    },
+    {
+      "acc": 0.64985099,
+      "epoch": 0.9878234398782344,
+      "grad_norm": 5.03125,
+      "learning_rate": 5.513130307737666e-06,
+      "loss": 1.61802521,
+      "memory(GiB)": 111.15,
+      "step": 38940,
+      "train_speed(iter/s)": 0.447822
+    },
+    {
+      "acc": 0.6479486,
+      "epoch": 0.9879502790461695,
+      "grad_norm": 4.71875,
+      "learning_rate": 5.512087209507157e-06,
+      "loss": 1.66994839,
+      "memory(GiB)": 111.15,
+      "step": 38945,
+      "train_speed(iter/s)": 0.447853
+    },
+    {
+      "acc": 0.65758371,
+      "epoch": 0.9880771182141045,
+      "grad_norm": 4.84375,
+      "learning_rate": 5.5110440887527684e-06,
+      "loss": 1.53663855,
+      "memory(GiB)": 111.15,
+      "step": 38950,
+      "train_speed(iter/s)": 0.447884
+    },
+    {
+      "acc": 0.65314589,
+      "epoch": 0.9882039573820396,
+      "grad_norm": 4.4375,
+      "learning_rate": 5.510000945520377e-06,
+      "loss": 1.59754486,
+      "memory(GiB)": 111.15,
+      "step": 38955,
+      "train_speed(iter/s)": 0.447915
+    },
+    {
+      "acc": 0.65256996,
+      "epoch": 0.9883307965499746,
+      "grad_norm": 4.40625,
+      "learning_rate": 5.508957779855869e-06,
+      "loss": 1.60757389,
+      "memory(GiB)": 111.15,
+      "step": 38960,
+      "train_speed(iter/s)": 0.447946
+    },
+    {
+      "acc": 0.64738321,
+      "epoch": 0.9884576357179097,
+      "grad_norm": 6.09375,
+      "learning_rate": 5.507914591805124e-06,
+      "loss": 1.62718792,
+      "memory(GiB)": 111.15,
+      "step": 38965,
+      "train_speed(iter/s)": 0.447977
+    },
+    {
+      "acc": 0.65215149,
+      "epoch": 0.9885844748858448,
+      "grad_norm": 5.0625,
+      "learning_rate": 5.506871381414027e-06,
+      "loss": 1.60638371,
+      "memory(GiB)": 111.15,
+      "step": 38970,
+      "train_speed(iter/s)": 0.448008
+    },
+    {
+      "acc": 0.64806027,
+      "epoch": 0.9887113140537798,
+      "grad_norm": 6.25,
+      "learning_rate": 5.505828148728465e-06,
+      "loss": 1.65014534,
+      "memory(GiB)": 111.15,
+      "step": 38975,
+      "train_speed(iter/s)": 0.448039
+    },
+    {
+      "acc": 0.65896282,
+      "epoch": 0.9888381532217149,
+      "grad_norm": 5.5625,
+      "learning_rate": 5.5047848937943225e-06,
+      "loss": 1.61885929,
+      "memory(GiB)": 111.15,
+      "step": 38980,
+      "train_speed(iter/s)": 0.448069
+    },
+    {
+      "acc": 0.65670977,
+      "epoch": 0.98896499238965,
+      "grad_norm": 5.46875,
+      "learning_rate": 5.503741616657486e-06,
+      "loss": 1.5974617,
+      "memory(GiB)": 111.15,
+      "step": 38985,
+      "train_speed(iter/s)": 0.4481
+    },
+    {
+      "acc": 0.64853272,
+      "epoch": 0.989091831557585,
+      "grad_norm": 6.4375,
+      "learning_rate": 5.502698317363846e-06,
+      "loss": 1.66269341,
+      "memory(GiB)": 111.15,
+      "step": 38990,
+      "train_speed(iter/s)": 0.448131
+    },
+    {
+      "acc": 0.64214725,
+      "epoch": 0.98921867072552,
+      "grad_norm": 5.75,
+      "learning_rate": 5.501654995959288e-06,
+      "loss": 1.68369217,
+      "memory(GiB)": 111.15,
+      "step": 38995,
+      "train_speed(iter/s)": 0.448162
+    },
+    {
+      "acc": 0.6372438,
+      "epoch": 0.989345509893455,
+      "grad_norm": 5.3125,
+      "learning_rate": 5.5006116524897034e-06,
+      "loss": 1.63972969,
+      "memory(GiB)": 111.15,
+      "step": 39000,
+      "train_speed(iter/s)": 0.448193
+    },
+    {
+      "epoch": 0.989345509893455,
+      "eval_acc": 0.6433123600218409,
+      "eval_loss": 1.6082676649093628,
+      "eval_runtime": 114.0101,
+      "eval_samples_per_second": 55.872,
+      "eval_steps_per_second": 27.936,
+      "step": 39000
+    },
+    {
+      "acc": 0.65106945,
+      "epoch": 0.9894723490613901,
+      "grad_norm": 6.15625,
+      "learning_rate": 5.499568287000984e-06,
+      "loss": 1.66175575,
+      "memory(GiB)": 111.15,
+      "step": 39005,
+      "train_speed(iter/s)": 0.447613
+    },
+    {
+      "acc": 0.6523756,
+      "epoch": 0.9895991882293252,
+      "grad_norm": 5.5625,
+      "learning_rate": 5.49852489953902e-06,
+      "loss": 1.63799248,
+      "memory(GiB)": 111.15,
+      "step": 39010,
+      "train_speed(iter/s)": 0.447643
+    },
+    {
+      "acc": 0.65483618,
+      "epoch": 0.9897260273972602,
+      "grad_norm": 5.75,
+      "learning_rate": 5.497481490149705e-06,
+      "loss": 1.58277607,
+      "memory(GiB)": 111.15,
+      "step": 39015,
+      "train_speed(iter/s)": 0.447674
+    },
+    {
+      "acc": 0.64470253,
+      "epoch": 0.9898528665651953,
+      "grad_norm": 5.21875,
+      "learning_rate": 5.496438058878936e-06,
+      "loss": 1.62632484,
+      "memory(GiB)": 111.15,
+      "step": 39020,
+      "train_speed(iter/s)": 0.447704
+    },
+    {
+      "acc": 0.64750156,
+      "epoch": 0.9899797057331304,
+      "grad_norm": 5.21875,
+      "learning_rate": 5.4953946057726005e-06,
+      "loss": 1.65874405,
+      "memory(GiB)": 111.15,
+      "step": 39025,
+      "train_speed(iter/s)": 0.447734
+    },
+    {
+      "acc": 0.66314154,
+      "epoch": 0.9901065449010654,
+      "grad_norm": 5.0,
+      "learning_rate": 5.494351130876602e-06,
+      "loss": 1.58561316,
+      "memory(GiB)": 111.15,
+      "step": 39030,
+      "train_speed(iter/s)": 0.447764
+    },
+    {
+      "acc": 0.66476164,
+      "epoch": 0.9902333840690005,
+      "grad_norm": 4.875,
+      "learning_rate": 5.493307634236831e-06,
+      "loss": 1.5994173,
+      "memory(GiB)": 111.15,
+      "step": 39035,
+      "train_speed(iter/s)": 0.447794
+    },
+    {
+      "acc": 0.64356575,
+      "epoch": 0.9903602232369355,
+      "grad_norm": 5.21875,
+      "learning_rate": 5.492264115899189e-06,
+      "loss": 1.6328083,
+      "memory(GiB)": 111.15,
+      "step": 39040,
+      "train_speed(iter/s)": 0.447824
+    },
+    {
+      "acc": 0.64319687,
+      "epoch": 0.9904870624048706,
+      "grad_norm": 7.09375,
+      "learning_rate": 5.491220575909573e-06,
+      "loss": 1.67500038,
+      "memory(GiB)": 111.15,
+      "step": 39045,
+      "train_speed(iter/s)": 0.447855
+    },
+    {
+      "acc": 0.6514545,
+      "epoch": 0.9906139015728057,
+      "grad_norm": 4.65625,
+      "learning_rate": 5.4901770143138835e-06,
+      "loss": 1.66373558,
+      "memory(GiB)": 111.15,
+      "step": 39050,
+      "train_speed(iter/s)": 0.447885
+    },
+    {
+      "acc": 0.65245466,
+      "epoch": 0.9907407407407407,
+      "grad_norm": 4.40625,
+      "learning_rate": 5.48913343115802e-06,
+      "loss": 1.59431324,
+      "memory(GiB)": 111.15,
+      "step": 39055,
+      "train_speed(iter/s)": 0.447915
+    },
+    {
+      "acc": 0.64514451,
+      "epoch": 0.9908675799086758,
+      "grad_norm": 4.46875,
+      "learning_rate": 5.488089826487884e-06,
+      "loss": 1.59268484,
+      "memory(GiB)": 111.15,
+      "step": 39060,
+      "train_speed(iter/s)": 0.447945
+    },
+    {
+      "acc": 0.65673885,
+      "epoch": 0.9909944190766109,
+      "grad_norm": 4.625,
+      "learning_rate": 5.48704620034938e-06,
+      "loss": 1.61783028,
+      "memory(GiB)": 111.15,
+      "step": 39065,
+      "train_speed(iter/s)": 0.447976
+    },
+    {
+      "acc": 0.66663427,
+      "epoch": 0.9911212582445459,
+      "grad_norm": 5.5,
+      "learning_rate": 5.486002552788408e-06,
+      "loss": 1.61757336,
+      "memory(GiB)": 111.15,
+      "step": 39070,
+      "train_speed(iter/s)": 0.448006
+    },
+    {
+      "acc": 0.64552255,
+      "epoch": 0.991248097412481,
+      "grad_norm": 5.71875,
+      "learning_rate": 5.4849588838508734e-06,
+      "loss": 1.61322823,
+      "memory(GiB)": 111.15,
+      "step": 39075,
+      "train_speed(iter/s)": 0.448036
+    },
+    {
+      "acc": 0.66338196,
+      "epoch": 0.991374936580416,
+      "grad_norm": 5.625,
+      "learning_rate": 5.483915193582684e-06,
+      "loss": 1.61497135,
+      "memory(GiB)": 111.15,
+      "step": 39080,
+      "train_speed(iter/s)": 0.448066
+    },
+    {
+      "acc": 0.63486028,
+      "epoch": 0.9915017757483511,
+      "grad_norm": 4.875,
+      "learning_rate": 5.482871482029742e-06,
+      "loss": 1.59242516,
+      "memory(GiB)": 111.15,
+      "step": 39085,
+      "train_speed(iter/s)": 0.448096
+    },
+    {
+      "acc": 0.65460591,
+      "epoch": 0.9916286149162862,
+      "grad_norm": 5.0625,
+      "learning_rate": 5.4818277492379565e-06,
+      "loss": 1.64608116,
+      "memory(GiB)": 111.15,
+      "step": 39090,
+      "train_speed(iter/s)": 0.448126
+    },
+    {
+      "acc": 0.66008201,
+      "epoch": 0.9917554540842212,
+      "grad_norm": 5.3125,
+      "learning_rate": 5.480783995253236e-06,
+      "loss": 1.62929153,
+      "memory(GiB)": 111.15,
+      "step": 39095,
+      "train_speed(iter/s)": 0.448157
+    },
+    {
+      "acc": 0.66490121,
+      "epoch": 0.9918822932521563,
+      "grad_norm": 4.75,
+      "learning_rate": 5.47974022012149e-06,
+      "loss": 1.61535759,
+      "memory(GiB)": 111.15,
+      "step": 39100,
+      "train_speed(iter/s)": 0.448187
+    },
+    {
+      "epoch": 0.9918822932521563,
+      "eval_acc": 0.6433382615950273,
+      "eval_loss": 1.6082067489624023,
+      "eval_runtime": 114.9472,
+      "eval_samples_per_second": 55.417,
+      "eval_steps_per_second": 27.708,
+      "step": 39100
+    },
+    {
+      "acc": 0.66118412,
+      "epoch": 0.9920091324200914,
+      "grad_norm": 6.03125,
+      "learning_rate": 5.478696423888624e-06,
+      "loss": 1.58910322,
+      "memory(GiB)": 111.15,
+      "step": 39105,
+      "train_speed(iter/s)": 0.447604
+    },
+    {
+      "acc": 0.65348701,
+      "epoch": 0.9921359715880264,
+      "grad_norm": 5.1875,
+      "learning_rate": 5.477652606600555e-06,
+      "loss": 1.61331863,
+      "memory(GiB)": 111.15,
+      "step": 39110,
+      "train_speed(iter/s)": 0.447634
+    },
+    {
+      "acc": 0.66350994,
+      "epoch": 0.9922628107559615,
+      "grad_norm": 5.75,
+      "learning_rate": 5.47660876830319e-06,
+      "loss": 1.56650829,
+      "memory(GiB)": 111.15,
+      "step": 39115,
+      "train_speed(iter/s)": 0.447664
+    },
+    {
+      "acc": 0.66485724,
+      "epoch": 0.9923896499238964,
+      "grad_norm": 5.40625,
+      "learning_rate": 5.475564909042444e-06,
+      "loss": 1.5440834,
+      "memory(GiB)": 111.15,
+      "step": 39120,
+      "train_speed(iter/s)": 0.447694
+    },
+    {
+      "acc": 0.65781565,
+      "epoch": 0.9925164890918315,
+      "grad_norm": 5.1875,
+      "learning_rate": 5.4745210288642306e-06,
+      "loss": 1.59838352,
+      "memory(GiB)": 111.15,
+      "step": 39125,
+      "train_speed(iter/s)": 0.447724
+    },
+    {
+      "acc": 0.6324935,
+      "epoch": 0.9926433282597666,
+      "grad_norm": 4.65625,
+      "learning_rate": 5.473477127814464e-06,
+      "loss": 1.6156538,
+      "memory(GiB)": 111.15,
+      "step": 39130,
+      "train_speed(iter/s)": 0.447754
+    },
+    {
+      "acc": 0.63243775,
+      "epoch": 0.9927701674277016,
+      "grad_norm": 5.8125,
+      "learning_rate": 5.472433205939058e-06,
+      "loss": 1.71217213,
+      "memory(GiB)": 111.15,
+      "step": 39135,
+      "train_speed(iter/s)": 0.447784
+    },
+    {
+      "acc": 0.66811447,
+      "epoch": 0.9928970065956367,
+      "grad_norm": 6.125,
+      "learning_rate": 5.471389263283932e-06,
+      "loss": 1.56518116,
+      "memory(GiB)": 111.15,
+      "step": 39140,
+      "train_speed(iter/s)": 0.447814
+    },
+    {
+      "acc": 0.66972437,
+      "epoch": 0.9930238457635718,
+      "grad_norm": 6.15625,
+      "learning_rate": 5.4703452998950005e-06,
+      "loss": 1.55787668,
+      "memory(GiB)": 111.15,
+      "step": 39145,
+      "train_speed(iter/s)": 0.447844
+    },
+    {
+      "acc": 0.64865832,
+      "epoch": 0.9931506849315068,
+      "grad_norm": 5.25,
+      "learning_rate": 5.469301315818183e-06,
+      "loss": 1.6869381,
+      "memory(GiB)": 111.15,
+      "step": 39150,
+      "train_speed(iter/s)": 0.447875
+    },
+    {
+      "acc": 0.6501698,
+      "epoch": 0.9932775240994419,
+      "grad_norm": 5.0625,
+      "learning_rate": 5.468257311099399e-06,
+      "loss": 1.53545971,
+      "memory(GiB)": 111.15,
+      "step": 39155,
+      "train_speed(iter/s)": 0.447905
+    },
+    {
+      "acc": 0.67240143,
+      "epoch": 0.9934043632673769,
+      "grad_norm": 5.3125,
+      "learning_rate": 5.467213285784567e-06,
+      "loss": 1.5861352,
+      "memory(GiB)": 111.15,
+      "step": 39160,
+      "train_speed(iter/s)": 0.447935
+    },
+    {
+      "acc": 0.65195913,
+      "epoch": 0.993531202435312,
+      "grad_norm": 5.03125,
+      "learning_rate": 5.466169239919608e-06,
+      "loss": 1.66908607,
+      "memory(GiB)": 111.15,
+      "step": 39165,
+      "train_speed(iter/s)": 0.447964
+    },
+    {
+      "acc": 0.64898911,
+      "epoch": 0.9936580416032471,
+      "grad_norm": 5.8125,
+      "learning_rate": 5.465125173550446e-06,
+      "loss": 1.67499466,
+      "memory(GiB)": 111.15,
+      "step": 39170,
+      "train_speed(iter/s)": 0.447994
+    },
+    {
+      "acc": 0.64629135,
+      "epoch": 0.9937848807711821,
+      "grad_norm": 5.84375,
+      "learning_rate": 5.464081086723001e-06,
+      "loss": 1.68281803,
+      "memory(GiB)": 111.15,
+      "step": 39175,
+      "train_speed(iter/s)": 0.448025
+    },
+    {
+      "acc": 0.63684025,
+      "epoch": 0.9939117199391172,
+      "grad_norm": 5.5625,
+      "learning_rate": 5.4630369794832006e-06,
+      "loss": 1.69737682,
+      "memory(GiB)": 111.15,
+      "step": 39180,
+      "train_speed(iter/s)": 0.448055
+    },
+    {
+      "acc": 0.65934916,
+      "epoch": 0.9940385591070523,
+      "grad_norm": 5.40625,
+      "learning_rate": 5.461992851876963e-06,
+      "loss": 1.64266796,
+      "memory(GiB)": 111.15,
+      "step": 39185,
+      "train_speed(iter/s)": 0.448084
+    },
+    {
+      "acc": 0.64949117,
+      "epoch": 0.9941653982749873,
+      "grad_norm": 6.46875,
+      "learning_rate": 5.460948703950218e-06,
+      "loss": 1.71684361,
+      "memory(GiB)": 111.15,
+      "step": 39190,
+      "train_speed(iter/s)": 0.448114
+    },
+    {
+      "acc": 0.64473372,
+      "epoch": 0.9942922374429224,
+      "grad_norm": 6.15625,
+      "learning_rate": 5.459904535748892e-06,
+      "loss": 1.66077843,
+      "memory(GiB)": 111.15,
+      "step": 39195,
+      "train_speed(iter/s)": 0.448145
+    },
+    {
+      "acc": 0.67691469,
+      "epoch": 0.9944190766108574,
+      "grad_norm": 5.09375,
+      "learning_rate": 5.458860347318912e-06,
+      "loss": 1.50590191,
+      "memory(GiB)": 111.15,
+      "step": 39200,
+      "train_speed(iter/s)": 0.448175
+    },
+    {
+      "epoch": 0.9944190766108574,
+      "eval_acc": 0.6432020694521441,
+      "eval_loss": 1.6082583665847778,
+      "eval_runtime": 113.4651,
+      "eval_samples_per_second": 56.141,
+      "eval_steps_per_second": 28.07,
+      "step": 39200
+    },
+    {
+      "acc": 0.65131121,
+      "epoch": 0.9945459157787925,
+      "grad_norm": 5.875,
+      "learning_rate": 5.457816138706203e-06,
+      "loss": 1.67283859,
+      "memory(GiB)": 111.15,
+      "step": 39205,
+      "train_speed(iter/s)": 0.447601
+    },
+    {
+      "acc": 0.65959349,
+      "epoch": 0.9946727549467276,
+      "grad_norm": 6.6875,
+      "learning_rate": 5.456771909956697e-06,
+      "loss": 1.62966232,
+      "memory(GiB)": 111.15,
+      "step": 39210,
+      "train_speed(iter/s)": 0.447631
+    },
+    {
+      "acc": 0.6658596,
+      "epoch": 0.9947995941146626,
+      "grad_norm": 5.34375,
+      "learning_rate": 5.455727661116324e-06,
+      "loss": 1.58908377,
+      "memory(GiB)": 111.15,
+      "step": 39215,
+      "train_speed(iter/s)": 0.447661
+    },
+    {
+      "acc": 0.65662622,
+      "epoch": 0.9949264332825977,
+      "grad_norm": 7.34375,
+      "learning_rate": 5.454683392231014e-06,
+      "loss": 1.64433212,
+      "memory(GiB)": 111.15,
+      "step": 39220,
+      "train_speed(iter/s)": 0.447691
+    },
+    {
+      "acc": 0.66279936,
+      "epoch": 0.9950532724505328,
+      "grad_norm": 4.84375,
+      "learning_rate": 5.453639103346697e-06,
+      "loss": 1.56457024,
+      "memory(GiB)": 111.15,
+      "step": 39225,
+      "train_speed(iter/s)": 0.447721
+    },
+    {
+      "acc": 0.65143805,
+      "epoch": 0.9951801116184678,
+      "grad_norm": 6.625,
+      "learning_rate": 5.452594794509307e-06,
+      "loss": 1.59279537,
+      "memory(GiB)": 111.15,
+      "step": 39230,
+      "train_speed(iter/s)": 0.447751
+    },
+    {
+      "acc": 0.65677204,
+      "epoch": 0.9953069507864029,
+      "grad_norm": 5.3125,
+      "learning_rate": 5.4515504657647765e-06,
+      "loss": 1.63405762,
+      "memory(GiB)": 111.15,
+      "step": 39235,
+      "train_speed(iter/s)": 0.44778
+    },
+    {
+      "acc": 0.64984322,
+      "epoch": 0.9954337899543378,
+      "grad_norm": 5.25,
+      "learning_rate": 5.450506117159044e-06,
+      "loss": 1.7271637,
+      "memory(GiB)": 111.15,
+      "step": 39240,
+      "train_speed(iter/s)": 0.44781
+    },
+    {
+      "acc": 0.65072136,
+      "epoch": 0.9955606291222729,
+      "grad_norm": 6.65625,
+      "learning_rate": 5.449461748738037e-06,
+      "loss": 1.65196648,
+      "memory(GiB)": 111.15,
+      "step": 39245,
+      "train_speed(iter/s)": 0.44784
+    },
+    {
+      "acc": 0.65900936,
+      "epoch": 0.995687468290208,
+      "grad_norm": 5.5625,
+      "learning_rate": 5.448417360547699e-06,
+      "loss": 1.58362904,
+      "memory(GiB)": 111.15,
+      "step": 39250,
+      "train_speed(iter/s)": 0.44787
+    },
+    {
+      "acc": 0.65894766,
+      "epoch": 0.995814307458143,
+      "grad_norm": 4.90625,
+      "learning_rate": 5.44737295263396e-06,
+      "loss": 1.55037003,
+      "memory(GiB)": 111.15,
+      "step": 39255,
+      "train_speed(iter/s)": 0.4479
+    },
+    {
+      "acc": 0.6400938,
+      "epoch": 0.9959411466260781,
+      "grad_norm": 5.6875,
+      "learning_rate": 5.446328525042764e-06,
+      "loss": 1.70235977,
+      "memory(GiB)": 111.15,
+      "step": 39260,
+      "train_speed(iter/s)": 0.44793
+    },
+    {
+      "acc": 0.64759274,
+      "epoch": 0.9960679857940132,
+      "grad_norm": 5.90625,
+      "learning_rate": 5.4452840778200456e-06,
+      "loss": 1.65262241,
+      "memory(GiB)": 111.15,
+      "step": 39265,
+      "train_speed(iter/s)": 0.44796
+    },
+    {
+      "acc": 0.65061407,
+      "epoch": 0.9961948249619482,
+      "grad_norm": 6.0,
+      "learning_rate": 5.444239611011746e-06,
+      "loss": 1.64820518,
+      "memory(GiB)": 111.15,
+      "step": 39270,
+      "train_speed(iter/s)": 0.447989
+    },
+    {
+      "acc": 0.64439659,
+      "epoch": 0.9963216641298833,
+      "grad_norm": 4.84375,
+      "learning_rate": 5.443195124663804e-06,
+      "loss": 1.66527863,
+      "memory(GiB)": 111.15,
+      "step": 39275,
+      "train_speed(iter/s)": 0.448019
+    },
+    {
+      "acc": 0.64506311,
+      "epoch": 0.9964485032978183,
+      "grad_norm": 5.59375,
+      "learning_rate": 5.442150618822162e-06,
+      "loss": 1.6430666,
+      "memory(GiB)": 111.15,
+      "step": 39280,
+      "train_speed(iter/s)": 0.44805
+    },
+    {
+      "acc": 0.65723066,
+      "epoch": 0.9965753424657534,
+      "grad_norm": 5.125,
+      "learning_rate": 5.441106093532762e-06,
+      "loss": 1.69065323,
+      "memory(GiB)": 111.15,
+      "step": 39285,
+      "train_speed(iter/s)": 0.44808
+    },
+    {
+      "acc": 0.65834045,
+      "epoch": 0.9967021816336885,
+      "grad_norm": 4.46875,
+      "learning_rate": 5.440061548841546e-06,
+      "loss": 1.58060293,
+      "memory(GiB)": 111.15,
+      "step": 39290,
+      "train_speed(iter/s)": 0.44811
+    },
+    {
+      "acc": 0.65455742,
+      "epoch": 0.9968290208016235,
+      "grad_norm": 5.75,
+      "learning_rate": 5.43901698479446e-06,
+      "loss": 1.62158279,
+      "memory(GiB)": 111.15,
+      "step": 39295,
+      "train_speed(iter/s)": 0.44814
+    },
+    {
+      "acc": 0.63209276,
+      "epoch": 0.9969558599695586,
+      "grad_norm": 5.40625,
+      "learning_rate": 5.4379724014374455e-06,
+      "loss": 1.67374191,
+      "memory(GiB)": 111.15,
+      "step": 39300,
+      "train_speed(iter/s)": 0.448171
+    },
+    {
+      "epoch": 0.9969558599695586,
+      "eval_acc": 0.6432701655235857,
+      "eval_loss": 1.6082273721694946,
+      "eval_runtime": 113.6998,
+      "eval_samples_per_second": 56.025,
+      "eval_steps_per_second": 28.012,
+      "step": 39300
+    },
+    {
+      "acc": 0.63998156,
+      "epoch": 0.9970826991374937,
+      "grad_norm": 4.6875,
+      "learning_rate": 5.436927798816448e-06,
+      "loss": 1.6513649,
+      "memory(GiB)": 111.15,
+      "step": 39305,
+      "train_speed(iter/s)": 0.447597
+    },
+    {
+      "acc": 0.66049671,
+      "epoch": 0.9972095383054287,
+      "grad_norm": 6.53125,
+      "learning_rate": 5.4358831769774174e-06,
+      "loss": 1.57565384,
+      "memory(GiB)": 111.15,
+      "step": 39310,
+      "train_speed(iter/s)": 0.447627
+    },
+    {
+      "acc": 0.65350571,
+      "epoch": 0.9973363774733638,
+      "grad_norm": 4.8125,
+      "learning_rate": 5.434838535966298e-06,
+      "loss": 1.67350407,
+      "memory(GiB)": 111.15,
+      "step": 39315,
+      "train_speed(iter/s)": 0.447658
+    },
+    {
+      "acc": 0.63826437,
+      "epoch": 0.9974632166412988,
+      "grad_norm": 5.75,
+      "learning_rate": 5.43379387582904e-06,
+      "loss": 1.64764843,
+      "memory(GiB)": 111.15,
+      "step": 39320,
+      "train_speed(iter/s)": 0.447688
+    },
+    {
+      "acc": 0.65622091,
+      "epoch": 0.9975900558092339,
+      "grad_norm": 4.90625,
+      "learning_rate": 5.432749196611587e-06,
+      "loss": 1.59636812,
+      "memory(GiB)": 111.15,
+      "step": 39325,
+      "train_speed(iter/s)": 0.447718
+    },
+    {
+      "acc": 0.64829016,
+      "epoch": 0.997716894977169,
+      "grad_norm": 5.53125,
+      "learning_rate": 5.431704498359896e-06,
+      "loss": 1.60851097,
+      "memory(GiB)": 111.15,
+      "step": 39330,
+      "train_speed(iter/s)": 0.447748
+    },
+    {
+      "acc": 0.64982653,
+      "epoch": 0.997843734145104,
+      "grad_norm": 6.53125,
+      "learning_rate": 5.43065978111991e-06,
+      "loss": 1.61846027,
+      "memory(GiB)": 111.15,
+      "step": 39335,
+      "train_speed(iter/s)": 0.447779
+    },
+    {
+      "acc": 0.647859,
+      "epoch": 0.9979705733130391,
+      "grad_norm": 5.75,
+      "learning_rate": 5.429615044937586e-06,
+      "loss": 1.58494644,
+      "memory(GiB)": 111.15,
+      "step": 39340,
+      "train_speed(iter/s)": 0.447809
+    },
+    {
+      "acc": 0.64695005,
+      "epoch": 0.9980974124809742,
+      "grad_norm": 5.125,
+      "learning_rate": 5.4285702898588754e-06,
+      "loss": 1.67978935,
+      "memory(GiB)": 111.15,
+      "step": 39345,
+      "train_speed(iter/s)": 0.447839
+    },
+    {
+      "acc": 0.6530756,
+      "epoch": 0.9982242516489092,
+      "grad_norm": 4.8125,
+      "learning_rate": 5.427525515929729e-06,
+      "loss": 1.61268673,
+      "memory(GiB)": 111.15,
+      "step": 39350,
+      "train_speed(iter/s)": 0.447869
+    },
+    {
+      "acc": 0.66860709,
+      "epoch": 0.9983510908168443,
+      "grad_norm": 6.1875,
+      "learning_rate": 5.426480723196102e-06,
+      "loss": 1.52746496,
+      "memory(GiB)": 111.15,
+      "step": 39355,
+      "train_speed(iter/s)": 0.4479
+    },
+    {
+      "acc": 0.65226078,
+      "epoch": 0.9984779299847792,
+      "grad_norm": 5.15625,
+      "learning_rate": 5.425435911703948e-06,
+      "loss": 1.62220879,
+      "memory(GiB)": 111.15,
+      "step": 39360,
+      "train_speed(iter/s)": 0.44793
+    },
+    {
+      "acc": 0.64381142,
+      "epoch": 0.9986047691527143,
+      "grad_norm": 5.59375,
+      "learning_rate": 5.424391081499223e-06,
+      "loss": 1.63242054,
+      "memory(GiB)": 111.15,
+      "step": 39365,
+      "train_speed(iter/s)": 0.44796
+    },
+    {
+      "acc": 0.65289841,
+      "epoch": 0.9987316083206494,
+      "grad_norm": 4.75,
+      "learning_rate": 5.423346232627884e-06,
+      "loss": 1.61484833,
+      "memory(GiB)": 111.15,
+      "step": 39370,
+      "train_speed(iter/s)": 0.44799
+    },
+    {
+      "acc": 0.636304,
+      "epoch": 0.9988584474885844,
+      "grad_norm": 6.1875,
+      "learning_rate": 5.422301365135887e-06,
+      "loss": 1.67468128,
+      "memory(GiB)": 111.15,
+      "step": 39375,
+      "train_speed(iter/s)": 0.44802
+    },
+    {
+      "acc": 0.63682871,
+      "epoch": 0.9989852866565195,
+      "grad_norm": 6.15625,
+      "learning_rate": 5.421256479069191e-06,
+      "loss": 1.64049225,
+      "memory(GiB)": 111.15,
+      "step": 39380,
+      "train_speed(iter/s)": 0.44805
+    },
+    {
+      "acc": 0.66197672,
+      "epoch": 0.9991121258244546,
+      "grad_norm": 5.84375,
+      "learning_rate": 5.420211574473754e-06,
+      "loss": 1.5611393,
+      "memory(GiB)": 111.15,
+      "step": 39385,
+      "train_speed(iter/s)": 0.448081
+    },
+    {
+      "acc": 0.65536337,
+      "epoch": 0.9992389649923896,
+      "grad_norm": 5.1875,
+      "learning_rate": 5.419166651395536e-06,
+      "loss": 1.60675144,
+      "memory(GiB)": 111.15,
+      "step": 39390,
+      "train_speed(iter/s)": 0.448111
+    },
+    {
+      "acc": 0.65984936,
+      "epoch": 0.9993658041603247,
+      "grad_norm": 5.15625,
+      "learning_rate": 5.418121709880497e-06,
+      "loss": 1.56654949,
+      "memory(GiB)": 111.15,
+      "step": 39395,
+      "train_speed(iter/s)": 0.448141
+    },
+    {
+      "acc": 0.6483614,
+      "epoch": 0.9994926433282597,
+      "grad_norm": 5.90625,
+      "learning_rate": 5.4170767499746e-06,
+      "loss": 1.64665527,
+      "memory(GiB)": 111.15,
+      "step": 39400,
+      "train_speed(iter/s)": 0.448171
+    },
+    {
+      "epoch": 0.9994926433282597,
+      "eval_acc": 0.6432179446099036,
+      "eval_loss": 1.608314871788025,
+      "eval_runtime": 113.6741,
+      "eval_samples_per_second": 56.037,
+      "eval_steps_per_second": 28.019,
+      "step": 39400
+    },
+    {
+      "acc": 0.64883614,
+      "epoch": 0.9996194824961948,
+      "grad_norm": 5.75,
+      "learning_rate": 5.416031771723803e-06,
+      "loss": 1.66084232,
+      "memory(GiB)": 111.15,
+      "step": 39405,
+      "train_speed(iter/s)": 0.4476
+    },
+    {
+      "acc": 0.65329466,
+      "epoch": 0.9997463216641299,
+      "grad_norm": 6.5,
+      "learning_rate": 5.414986775174073e-06,
+      "loss": 1.59881992,
+      "memory(GiB)": 111.15,
+      "step": 39410,
+      "train_speed(iter/s)": 0.44763
+    },
+    {
+      "acc": 0.66442161,
+      "epoch": 0.9998731608320649,
+      "grad_norm": 4.375,
+      "learning_rate": 5.41394176037137e-06,
+      "loss": 1.57998381,
+      "memory(GiB)": 111.15,
+      "step": 39415,
+      "train_speed(iter/s)": 0.44766
+    },
+    {
+      "acc": 0.64412012,
+      "epoch": 1.0,
+      "grad_norm": 5.46875,
+      "learning_rate": 5.412896727361663e-06,
+      "loss": 1.66640778,
+      "memory(GiB)": 111.15,
+      "step": 39420,
+      "train_speed(iter/s)": 0.447685
+    },
+    {
+      "acc": 0.66178389,
+      "epoch": 1.000126839167935,
+      "grad_norm": 5.71875,
+      "learning_rate": 5.411851676190912e-06,
+      "loss": 1.5887125,
+      "memory(GiB)": 111.15,
+      "step": 39425,
+      "train_speed(iter/s)": 0.447713
+    },
+    {
+      "acc": 0.64433618,
+      "epoch": 1.0002536783358702,
+      "grad_norm": 5.09375,
+      "learning_rate": 5.4108066069050864e-06,
+      "loss": 1.6462265,
+      "memory(GiB)": 111.15,
+      "step": 39430,
+      "train_speed(iter/s)": 0.447743
+    },
+    {
+      "acc": 0.62163587,
+      "epoch": 1.0003805175038052,
+      "grad_norm": 4.96875,
+      "learning_rate": 5.409761519550153e-06,
+      "loss": 1.68288383,
+      "memory(GiB)": 111.15,
+      "step": 39435,
+      "train_speed(iter/s)": 0.447773
+    },
+    {
+      "acc": 0.66523914,
+      "epoch": 1.0005073566717402,
+      "grad_norm": 5.65625,
+      "learning_rate": 5.408716414172077e-06,
+      "loss": 1.571632,
+      "memory(GiB)": 111.15,
+      "step": 39440,
+      "train_speed(iter/s)": 0.447803
+    },
+    {
+      "acc": 0.66488414,
+      "epoch": 1.0006341958396754,
+      "grad_norm": 6.75,
+      "learning_rate": 5.407671290816829e-06,
+      "loss": 1.62046261,
+      "memory(GiB)": 111.15,
+      "step": 39445,
+      "train_speed(iter/s)": 0.447833
+    },
+    {
+      "acc": 0.62985287,
+      "epoch": 1.0007610350076104,
+      "grad_norm": 5.5,
+      "learning_rate": 5.406626149530378e-06,
+      "loss": 1.74389839,
+      "memory(GiB)": 111.15,
+      "step": 39450,
+      "train_speed(iter/s)": 0.447863
+    },
+    {
+      "acc": 0.66560316,
+      "epoch": 1.0008878741755454,
+      "grad_norm": 4.625,
+      "learning_rate": 5.405580990358692e-06,
+      "loss": 1.53729324,
+      "memory(GiB)": 111.15,
+      "step": 39455,
+      "train_speed(iter/s)": 0.447894
+    },
+    {
+      "acc": 0.65725031,
+      "epoch": 1.0010147133434804,
+      "grad_norm": 5.84375,
+      "learning_rate": 5.404535813347746e-06,
+      "loss": 1.62159004,
+      "memory(GiB)": 111.15,
+      "step": 39460,
+      "train_speed(iter/s)": 0.447924
+    },
+    {
+      "acc": 0.64566045,
+      "epoch": 1.0011415525114156,
+      "grad_norm": 6.40625,
+      "learning_rate": 5.403490618543505e-06,
+      "loss": 1.65722046,
+      "memory(GiB)": 111.15,
+      "step": 39465,
+      "train_speed(iter/s)": 0.447954
+    },
+    {
+      "acc": 0.66430845,
+      "epoch": 1.0012683916793506,
+      "grad_norm": 5.53125,
+      "learning_rate": 5.40244540599195e-06,
+      "loss": 1.58184166,
+      "memory(GiB)": 111.15,
+      "step": 39470,
+      "train_speed(iter/s)": 0.447984
+    },
+    {
+      "acc": 0.65437417,
+      "epoch": 1.0013952308472855,
+      "grad_norm": 4.40625,
+      "learning_rate": 5.401400175739045e-06,
+      "loss": 1.6633709,
+      "memory(GiB)": 111.15,
+      "step": 39475,
+      "train_speed(iter/s)": 0.448014
+    },
+    {
+      "acc": 0.64184475,
+      "epoch": 1.0015220700152208,
+      "grad_norm": 5.65625,
+      "learning_rate": 5.400354927830769e-06,
+      "loss": 1.70178795,
+      "memory(GiB)": 111.15,
+      "step": 39480,
+      "train_speed(iter/s)": 0.448044
+    },
+    {
+      "acc": 0.66010714,
+      "epoch": 1.0016489091831557,
+      "grad_norm": 5.46875,
+      "learning_rate": 5.399309662313097e-06,
+      "loss": 1.5991272,
+      "memory(GiB)": 111.15,
+      "step": 39485,
+      "train_speed(iter/s)": 0.448075
+    },
+    {
+      "acc": 0.64233284,
+      "epoch": 1.0017757483510907,
+      "grad_norm": 5.46875,
+      "learning_rate": 5.3982643792320024e-06,
+      "loss": 1.64679756,
+      "memory(GiB)": 111.15,
+      "step": 39490,
+      "train_speed(iter/s)": 0.448105
+    },
+    {
+      "acc": 0.64842343,
+      "epoch": 1.001902587519026,
+      "grad_norm": 4.875,
+      "learning_rate": 5.397219078633462e-06,
+      "loss": 1.60900593,
+      "memory(GiB)": 111.15,
+      "step": 39495,
+      "train_speed(iter/s)": 0.448135
+    },
+    {
+      "acc": 0.65039477,
+      "epoch": 1.002029426686961,
+      "grad_norm": 6.40625,
+      "learning_rate": 5.3961737605634546e-06,
+      "loss": 1.63652115,
+      "memory(GiB)": 111.15,
+      "step": 39500,
+      "train_speed(iter/s)": 0.448165
+    },
+    {
+      "epoch": 1.002029426686961,
+      "eval_acc": 0.6432141847041184,
+      "eval_loss": 1.60808265209198,
+      "eval_runtime": 113.7677,
+      "eval_samples_per_second": 55.991,
+      "eval_steps_per_second": 27.996,
+      "step": 39500
+    },
+    {
+      "acc": 0.66362972,
+      "epoch": 1.002156265854896,
+      "grad_norm": 5.59375,
+      "learning_rate": 5.395128425067954e-06,
+      "loss": 1.62422028,
+      "memory(GiB)": 111.15,
+      "step": 39505,
+      "train_speed(iter/s)": 0.447592
+    },
+    {
+      "acc": 0.67544489,
+      "epoch": 1.0022831050228311,
+      "grad_norm": 4.90625,
+      "learning_rate": 5.394083072192944e-06,
+      "loss": 1.53909721,
+      "memory(GiB)": 111.15,
+      "step": 39510,
+      "train_speed(iter/s)": 0.447622
+    },
+    {
+      "acc": 0.66685333,
+      "epoch": 1.0024099441907661,
+      "grad_norm": 5.9375,
+      "learning_rate": 5.393037701984399e-06,
+      "loss": 1.51949902,
+      "memory(GiB)": 111.15,
+      "step": 39515,
+      "train_speed(iter/s)": 0.447652
+    },
+    {
+      "acc": 0.64012194,
+      "epoch": 1.0025367833587011,
+      "grad_norm": 4.90625,
+      "learning_rate": 5.391992314488303e-06,
+      "loss": 1.61038723,
+      "memory(GiB)": 111.15,
+      "step": 39520,
+      "train_speed(iter/s)": 0.447682
+    },
+    {
+      "acc": 0.65102844,
+      "epoch": 1.0026636225266363,
+      "grad_norm": 4.65625,
+      "learning_rate": 5.3909469097506314e-06,
+      "loss": 1.62399578,
+      "memory(GiB)": 111.15,
+      "step": 39525,
+      "train_speed(iter/s)": 0.447711
+    },
+    {
+      "acc": 0.63440504,
+      "epoch": 1.0027904616945713,
+      "grad_norm": 5.65625,
+      "learning_rate": 5.389901487817373e-06,
+      "loss": 1.63620453,
+      "memory(GiB)": 111.15,
+      "step": 39530,
+      "train_speed(iter/s)": 0.447741
+    },
+    {
+      "acc": 0.6556098,
+      "epoch": 1.0029173008625063,
+      "grad_norm": 5.8125,
+      "learning_rate": 5.388856048734505e-06,
+      "loss": 1.60866566,
+      "memory(GiB)": 111.15,
+      "step": 39535,
+      "train_speed(iter/s)": 0.447771
+    },
+    {
+      "acc": 0.6431735,
+      "epoch": 1.0030441400304415,
+      "grad_norm": 5.25,
+      "learning_rate": 5.3878105925480115e-06,
+      "loss": 1.73538666,
+      "memory(GiB)": 111.15,
+      "step": 39540,
+      "train_speed(iter/s)": 0.447801
+    },
+    {
+      "acc": 0.65401006,
+      "epoch": 1.0031709791983765,
+      "grad_norm": 5.0,
+      "learning_rate": 5.3867651193038765e-06,
+      "loss": 1.6365387,
+      "memory(GiB)": 111.15,
+      "step": 39545,
+      "train_speed(iter/s)": 0.447831
+    },
+    {
+      "acc": 0.65336471,
+      "epoch": 1.0032978183663115,
+      "grad_norm": 5.1875,
+      "learning_rate": 5.385719629048086e-06,
+      "loss": 1.59634533,
+      "memory(GiB)": 111.15,
+      "step": 39550,
+      "train_speed(iter/s)": 0.447861
+    },
+    {
+      "acc": 0.63970785,
+      "epoch": 1.0034246575342465,
+      "grad_norm": 4.5625,
+      "learning_rate": 5.384674121826622e-06,
+      "loss": 1.68354187,
+      "memory(GiB)": 111.15,
+      "step": 39555,
+      "train_speed(iter/s)": 0.44789
+    },
+    {
+      "acc": 0.65445366,
+      "epoch": 1.0035514967021817,
+      "grad_norm": 6.0,
+      "learning_rate": 5.383628597685474e-06,
+      "loss": 1.60566216,
+      "memory(GiB)": 111.15,
+      "step": 39560,
+      "train_speed(iter/s)": 0.44792
+    },
+    {
+      "acc": 0.67544084,
+      "epoch": 1.0036783358701167,
+      "grad_norm": 5.28125,
+      "learning_rate": 5.382583056670627e-06,
+      "loss": 1.52926083,
+      "memory(GiB)": 111.15,
+      "step": 39565,
+      "train_speed(iter/s)": 0.44795
+    },
+    {
+      "acc": 0.64569597,
+      "epoch": 1.0038051750380517,
+      "grad_norm": 5.9375,
+      "learning_rate": 5.38153749882807e-06,
+      "loss": 1.67619057,
+      "memory(GiB)": 111.15,
+      "step": 39570,
+      "train_speed(iter/s)": 0.44798
+    },
+    {
+      "acc": 0.650702,
+      "epoch": 1.0039320142059869,
+      "grad_norm": 5.875,
+      "learning_rate": 5.38049192420379e-06,
+      "loss": 1.6190979,
+      "memory(GiB)": 111.15,
+      "step": 39575,
+      "train_speed(iter/s)": 0.44801
+    },
+    {
+      "acc": 0.64530878,
+      "epoch": 1.0040588533739219,
+      "grad_norm": 4.375,
+      "learning_rate": 5.3794463328437766e-06,
+      "loss": 1.61990814,
+      "memory(GiB)": 111.15,
+      "step": 39580,
+      "train_speed(iter/s)": 0.44804
+    },
+    {
+      "acc": 0.6591095,
+      "epoch": 1.0041856925418569,
+      "grad_norm": 5.5625,
+      "learning_rate": 5.3784007247940185e-06,
+      "loss": 1.56346836,
+      "memory(GiB)": 111.15,
+      "step": 39585,
+      "train_speed(iter/s)": 0.44807
+    },
+    {
+      "acc": 0.64829483,
+      "epoch": 1.004312531709792,
+      "grad_norm": 6.625,
+      "learning_rate": 5.377355100100508e-06,
+      "loss": 1.52508392,
+      "memory(GiB)": 111.15,
+      "step": 39590,
+      "train_speed(iter/s)": 0.448099
+    },
+    {
+      "acc": 0.66062636,
+      "epoch": 1.004439370877727,
+      "grad_norm": 6.25,
+      "learning_rate": 5.376309458809235e-06,
+      "loss": 1.58911142,
+      "memory(GiB)": 111.15,
+      "step": 39595,
+      "train_speed(iter/s)": 0.448129
+    },
+    {
+      "acc": 0.63790379,
+      "epoch": 1.004566210045662,
+      "grad_norm": 5.46875,
+      "learning_rate": 5.375263800966192e-06,
+      "loss": 1.633465,
+      "memory(GiB)": 111.15,
+      "step": 39600,
+      "train_speed(iter/s)": 0.448159
+    },
+    {
+      "epoch": 1.004566210045662,
+      "eval_acc": 0.6431932963386455,
+      "eval_loss": 1.6082106828689575,
+      "eval_runtime": 114.3675,
+      "eval_samples_per_second": 55.698,
+      "eval_steps_per_second": 27.849,
+      "step": 39600
+    },
+    {
+      "acc": 0.64589062,
+      "epoch": 1.0046930492135973,
+      "grad_norm": 6.53125,
+      "learning_rate": 5.374218126617371e-06,
+      "loss": 1.60336304,
+      "memory(GiB)": 111.15,
+      "step": 39605,
+      "train_speed(iter/s)": 0.447586
+    },
+    {
+      "acc": 0.64720907,
+      "epoch": 1.0048198883815322,
+      "grad_norm": 4.96875,
+      "learning_rate": 5.373172435808768e-06,
+      "loss": 1.66600628,
+      "memory(GiB)": 111.15,
+      "step": 39610,
+      "train_speed(iter/s)": 0.447615
+    },
+    {
+      "acc": 0.64777117,
+      "epoch": 1.0049467275494672,
+      "grad_norm": 5.71875,
+      "learning_rate": 5.372126728586372e-06,
+      "loss": 1.67611465,
+      "memory(GiB)": 111.15,
+      "step": 39615,
+      "train_speed(iter/s)": 0.447645
+    },
+    {
+      "acc": 0.64936905,
+      "epoch": 1.0050735667174022,
+      "grad_norm": 5.28125,
+      "learning_rate": 5.371081004996184e-06,
+      "loss": 1.59677639,
+      "memory(GiB)": 111.15,
+      "step": 39620,
+      "train_speed(iter/s)": 0.447675
+    },
+    {
+      "acc": 0.64281044,
+      "epoch": 1.0052004058853374,
+      "grad_norm": 4.8125,
+      "learning_rate": 5.370035265084195e-06,
+      "loss": 1.61831551,
+      "memory(GiB)": 111.15,
+      "step": 39625,
+      "train_speed(iter/s)": 0.447704
+    },
+    {
+      "acc": 0.64756889,
+      "epoch": 1.0053272450532724,
+      "grad_norm": 6.0,
+      "learning_rate": 5.3689895088964025e-06,
+      "loss": 1.63750305,
+      "memory(GiB)": 111.15,
+      "step": 39630,
+      "train_speed(iter/s)": 0.447734
+    },
+    {
+      "acc": 0.64257288,
+      "epoch": 1.0054540842212074,
+      "grad_norm": 5.5625,
+      "learning_rate": 5.367943736478806e-06,
+      "loss": 1.62911949,
+      "memory(GiB)": 111.15,
+      "step": 39635,
+      "train_speed(iter/s)": 0.447764
+    },
+    {
+      "acc": 0.64446812,
+      "epoch": 1.0055809233891426,
+      "grad_norm": 5.59375,
+      "learning_rate": 5.3668979478774e-06,
+      "loss": 1.69302483,
+      "memory(GiB)": 111.15,
+      "step": 39640,
+      "train_speed(iter/s)": 0.447793
+    },
+    {
+      "acc": 0.66250248,
+      "epoch": 1.0057077625570776,
+      "grad_norm": 5.6875,
+      "learning_rate": 5.3658521431381836e-06,
+      "loss": 1.58643856,
+      "memory(GiB)": 111.15,
+      "step": 39645,
+      "train_speed(iter/s)": 0.447823
+    },
+    {
+      "acc": 0.64807558,
+      "epoch": 1.0058346017250126,
+      "grad_norm": 4.8125,
+      "learning_rate": 5.364806322307158e-06,
+      "loss": 1.59241257,
+      "memory(GiB)": 111.15,
+      "step": 39650,
+      "train_speed(iter/s)": 0.447853
+    },
+    {
+      "acc": 0.6422327,
+      "epoch": 1.0059614408929478,
+      "grad_norm": 5.65625,
+      "learning_rate": 5.363760485430321e-06,
+      "loss": 1.6734705,
+      "memory(GiB)": 111.15,
+      "step": 39655,
+      "train_speed(iter/s)": 0.447883
+    },
+    {
+      "acc": 0.65738487,
+      "epoch": 1.0060882800608828,
+      "grad_norm": 5.5,
+      "learning_rate": 5.3627146325536725e-06,
+      "loss": 1.677174,
+      "memory(GiB)": 111.15,
+      "step": 39660,
+      "train_speed(iter/s)": 0.447913
+    },
+    {
+      "acc": 0.66984663,
+      "epoch": 1.0062151192288178,
+      "grad_norm": 5.6875,
+      "learning_rate": 5.361668763723216e-06,
+      "loss": 1.50745487,
+      "memory(GiB)": 111.15,
+      "step": 39665,
+      "train_speed(iter/s)": 0.447942
+    },
+    {
+      "acc": 0.65139236,
+      "epoch": 1.006341958396753,
+      "grad_norm": 5.1875,
+      "learning_rate": 5.360622878984954e-06,
+      "loss": 1.61013851,
+      "memory(GiB)": 111.15,
+      "step": 39670,
+      "train_speed(iter/s)": 0.447973
+    },
+    {
+      "acc": 0.64651446,
+      "epoch": 1.006468797564688,
+      "grad_norm": 5.15625,
+      "learning_rate": 5.359576978384885e-06,
+      "loss": 1.63361683,
+      "memory(GiB)": 111.15,
+      "step": 39675,
+      "train_speed(iter/s)": 0.448002
+    },
+    {
+      "acc": 0.65711145,
+      "epoch": 1.006595636732623,
+      "grad_norm": 5.0625,
+      "learning_rate": 5.358531061969018e-06,
+      "loss": 1.57543831,
+      "memory(GiB)": 111.15,
+      "step": 39680,
+      "train_speed(iter/s)": 0.448032
+    },
+    {
+      "acc": 0.65204124,
+      "epoch": 1.0067224759005582,
+      "grad_norm": 5.40625,
+      "learning_rate": 5.357485129783351e-06,
+      "loss": 1.70686646,
+      "memory(GiB)": 111.15,
+      "step": 39685,
+      "train_speed(iter/s)": 0.448061
+    },
+    {
+      "acc": 0.64723225,
+      "epoch": 1.0068493150684932,
+      "grad_norm": 5.65625,
+      "learning_rate": 5.356439181873895e-06,
+      "loss": 1.64063587,
+      "memory(GiB)": 111.15,
+      "step": 39690,
+      "train_speed(iter/s)": 0.448091
+    },
+    {
+      "acc": 0.66252131,
+      "epoch": 1.0069761542364282,
+      "grad_norm": 5.34375,
+      "learning_rate": 5.35539321828665e-06,
+      "loss": 1.56069984,
+      "memory(GiB)": 111.15,
+      "step": 39695,
+      "train_speed(iter/s)": 0.44812
+    },
+    {
+      "acc": 0.65507216,
+      "epoch": 1.0071029934043634,
+      "grad_norm": 5.03125,
+      "learning_rate": 5.354347239067625e-06,
+      "loss": 1.61719398,
+      "memory(GiB)": 111.15,
+      "step": 39700,
+      "train_speed(iter/s)": 0.44815
+    },
+    {
+      "epoch": 1.0071029934043634,
+      "eval_acc": 0.6432488593908033,
+      "eval_loss": 1.6081593036651611,
+      "eval_runtime": 114.113,
+      "eval_samples_per_second": 55.822,
+      "eval_steps_per_second": 27.911,
+      "step": 39700
+    },
+    {
+      "acc": 0.65907316,
+      "epoch": 1.0072298325722984,
+      "grad_norm": 5.90625,
+      "learning_rate": 5.3533012442628275e-06,
+      "loss": 1.55026798,
+      "memory(GiB)": 111.15,
+      "step": 39705,
+      "train_speed(iter/s)": 0.44758
+    },
+    {
+      "acc": 0.66580553,
+      "epoch": 1.0073566717402334,
+      "grad_norm": 5.96875,
+      "learning_rate": 5.3522552339182635e-06,
+      "loss": 1.55303135,
+      "memory(GiB)": 111.15,
+      "step": 39710,
+      "train_speed(iter/s)": 0.447609
+    },
+    {
+      "acc": 0.65620108,
+      "epoch": 1.0074835109081683,
+      "grad_norm": 5.59375,
+      "learning_rate": 5.351209208079941e-06,
+      "loss": 1.66382751,
+      "memory(GiB)": 111.15,
+      "step": 39715,
+      "train_speed(iter/s)": 0.447638
+    },
+    {
+      "acc": 0.65113745,
+      "epoch": 1.0076103500761036,
+      "grad_norm": 6.0,
+      "learning_rate": 5.35016316679387e-06,
+      "loss": 1.62946949,
+      "memory(GiB)": 111.15,
+      "step": 39720,
+      "train_speed(iter/s)": 0.447668
+    },
+    {
+      "acc": 0.66325445,
+      "epoch": 1.0077371892440385,
+      "grad_norm": 6.21875,
+      "learning_rate": 5.349117110106059e-06,
+      "loss": 1.50890064,
+      "memory(GiB)": 111.15,
+      "step": 39725,
+      "train_speed(iter/s)": 0.447697
+    },
+    {
+      "acc": 0.65340486,
+      "epoch": 1.0078640284119735,
+      "grad_norm": 5.1875,
+      "learning_rate": 5.34807103806252e-06,
+      "loss": 1.59762974,
+      "memory(GiB)": 111.15,
+      "step": 39730,
+      "train_speed(iter/s)": 0.447726
+    },
+    {
+      "acc": 0.64442921,
+      "epoch": 1.0079908675799087,
+      "grad_norm": 5.65625,
+      "learning_rate": 5.347024950709262e-06,
+      "loss": 1.63154182,
+      "memory(GiB)": 111.15,
+      "step": 39735,
+      "train_speed(iter/s)": 0.447756
+    },
+    {
+      "acc": 0.63947983,
+      "epoch": 1.0081177067478437,
+      "grad_norm": 4.90625,
+      "learning_rate": 5.345978848092297e-06,
+      "loss": 1.68277149,
+      "memory(GiB)": 111.15,
+      "step": 39740,
+      "train_speed(iter/s)": 0.447785
+    },
+    {
+      "acc": 0.64948325,
+      "epoch": 1.0082445459157787,
+      "grad_norm": 7.15625,
+      "learning_rate": 5.344932730257637e-06,
+      "loss": 1.60249767,
+      "memory(GiB)": 111.15,
+      "step": 39745,
+      "train_speed(iter/s)": 0.447815
+    },
+    {
+      "acc": 0.64680572,
+      "epoch": 1.008371385083714,
+      "grad_norm": 7.0625,
+      "learning_rate": 5.343886597251298e-06,
+      "loss": 1.65255222,
+      "memory(GiB)": 111.15,
+      "step": 39750,
+      "train_speed(iter/s)": 0.447844
+    },
+    {
+      "acc": 0.65496683,
+      "epoch": 1.008498224251649,
+      "grad_norm": 5.09375,
+      "learning_rate": 5.342840449119287e-06,
+      "loss": 1.64953575,
+      "memory(GiB)": 111.15,
+      "step": 39755,
+      "train_speed(iter/s)": 0.447873
+    },
+    {
+      "acc": 0.65032244,
+      "epoch": 1.008625063419584,
+      "grad_norm": 5.8125,
+      "learning_rate": 5.341794285907627e-06,
+      "loss": 1.62490177,
+      "memory(GiB)": 111.15,
+      "step": 39760,
+      "train_speed(iter/s)": 0.447903
+    },
+    {
+      "acc": 0.64107056,
+      "epoch": 1.0087519025875191,
+      "grad_norm": 4.875,
+      "learning_rate": 5.340748107662324e-06,
+      "loss": 1.67632484,
+      "memory(GiB)": 111.15,
+      "step": 39765,
+      "train_speed(iter/s)": 0.447932
+    },
+    {
+      "acc": 0.64493189,
+      "epoch": 1.0088787417554541,
+      "grad_norm": 4.90625,
+      "learning_rate": 5.339701914429402e-06,
+      "loss": 1.64155045,
+      "memory(GiB)": 111.15,
+      "step": 39770,
+      "train_speed(iter/s)": 0.447961
+    },
+    {
+      "acc": 0.64131594,
+      "epoch": 1.009005580923389,
+      "grad_norm": 5.78125,
+      "learning_rate": 5.338655706254871e-06,
+      "loss": 1.72737808,
+      "memory(GiB)": 111.15,
+      "step": 39775,
+      "train_speed(iter/s)": 0.44799
+    },
+    {
+      "acc": 0.64466929,
+      "epoch": 1.009132420091324,
+      "grad_norm": 4.3125,
+      "learning_rate": 5.33760948318475e-06,
+      "loss": 1.63873825,
+      "memory(GiB)": 111.15,
+      "step": 39780,
+      "train_speed(iter/s)": 0.448019
+    },
+    {
+      "acc": 0.66228123,
+      "epoch": 1.0092592592592593,
+      "grad_norm": 6.03125,
+      "learning_rate": 5.336563245265056e-06,
+      "loss": 1.63846722,
+      "memory(GiB)": 111.15,
+      "step": 39785,
+      "train_speed(iter/s)": 0.448048
+    },
+    {
+      "acc": 0.6400176,
+      "epoch": 1.0093860984271943,
+      "grad_norm": 5.75,
+      "learning_rate": 5.3355169925418095e-06,
+      "loss": 1.70039463,
+      "memory(GiB)": 111.15,
+      "step": 39790,
+      "train_speed(iter/s)": 0.448078
+    },
+    {
+      "acc": 0.64856739,
+      "epoch": 1.0095129375951293,
+      "grad_norm": 4.59375,
+      "learning_rate": 5.334470725061027e-06,
+      "loss": 1.6694088,
+      "memory(GiB)": 111.15,
+      "step": 39795,
+      "train_speed(iter/s)": 0.448107
+    },
+    {
+      "acc": 0.65386062,
+      "epoch": 1.0096397767630645,
+      "grad_norm": 5.46875,
+      "learning_rate": 5.333424442868729e-06,
+      "loss": 1.6667141,
+      "memory(GiB)": 111.15,
+      "step": 39800,
+      "train_speed(iter/s)": 0.448136
+    },
+    {
+      "epoch": 1.0096397767630645,
+      "eval_acc": 0.6433144488583882,
+      "eval_loss": 1.6081514358520508,
+      "eval_runtime": 114.0822,
+      "eval_samples_per_second": 55.837,
+      "eval_steps_per_second": 27.918,
+      "step": 39800
+    },
+    {
+      "acc": 0.64495335,
+      "epoch": 1.0097666159309995,
+      "grad_norm": 5.9375,
+      "learning_rate": 5.3323781460109345e-06,
+      "loss": 1.67381058,
+      "memory(GiB)": 111.15,
+      "step": 39805,
+      "train_speed(iter/s)": 0.447568
+    },
+    {
+      "acc": 0.65276031,
+      "epoch": 1.0098934550989345,
+      "grad_norm": 5.6875,
+      "learning_rate": 5.3313318345336665e-06,
+      "loss": 1.62089081,
+      "memory(GiB)": 111.15,
+      "step": 39810,
+      "train_speed(iter/s)": 0.447597
+    },
+    {
+      "acc": 0.66422386,
+      "epoch": 1.0100202942668697,
+      "grad_norm": 5.84375,
+      "learning_rate": 5.330285508482944e-06,
+      "loss": 1.61745186,
+      "memory(GiB)": 111.15,
+      "step": 39815,
+      "train_speed(iter/s)": 0.447627
+    },
+    {
+      "acc": 0.65481091,
+      "epoch": 1.0101471334348047,
+      "grad_norm": 7.03125,
+      "learning_rate": 5.3292391679047905e-06,
+      "loss": 1.59996452,
+      "memory(GiB)": 111.15,
+      "step": 39820,
+      "train_speed(iter/s)": 0.447656
+    },
+    {
+      "acc": 0.64787683,
+      "epoch": 1.0102739726027397,
+      "grad_norm": 4.78125,
+      "learning_rate": 5.328192812845228e-06,
+      "loss": 1.66148891,
+      "memory(GiB)": 111.15,
+      "step": 39825,
+      "train_speed(iter/s)": 0.447686
+    },
+    {
+      "acc": 0.65874586,
+      "epoch": 1.0104008117706749,
+      "grad_norm": 5.4375,
+      "learning_rate": 5.3271464433502805e-06,
+      "loss": 1.57473946,
+      "memory(GiB)": 111.15,
+      "step": 39830,
+      "train_speed(iter/s)": 0.447716
+    },
+    {
+      "acc": 0.64933901,
+      "epoch": 1.0105276509386099,
+      "grad_norm": 5.25,
+      "learning_rate": 5.3261000594659715e-06,
+      "loss": 1.65782299,
+      "memory(GiB)": 111.15,
+      "step": 39835,
+      "train_speed(iter/s)": 0.447745
+    },
+    {
+      "acc": 0.62788258,
+      "epoch": 1.0106544901065448,
+      "grad_norm": 5.40625,
+      "learning_rate": 5.3250536612383275e-06,
+      "loss": 1.71120052,
+      "memory(GiB)": 111.15,
+      "step": 39840,
+      "train_speed(iter/s)": 0.447775
+    },
+    {
+      "acc": 0.66780062,
+      "epoch": 1.01078132927448,
+      "grad_norm": 4.375,
+      "learning_rate": 5.32400724871337e-06,
+      "loss": 1.53020706,
+      "memory(GiB)": 111.15,
+      "step": 39845,
+      "train_speed(iter/s)": 0.447804
+    },
+    {
+      "acc": 0.65816269,
+      "epoch": 1.010908168442415,
+      "grad_norm": 5.09375,
+      "learning_rate": 5.322960821937129e-06,
+      "loss": 1.60437107,
+      "memory(GiB)": 111.15,
+      "step": 39850,
+      "train_speed(iter/s)": 0.447834
+    },
+    {
+      "acc": 0.6356698,
+      "epoch": 1.01103500761035,
+      "grad_norm": 6.53125,
+      "learning_rate": 5.321914380955628e-06,
+      "loss": 1.67131119,
+      "memory(GiB)": 111.15,
+      "step": 39855,
+      "train_speed(iter/s)": 0.447864
+    },
+    {
+      "acc": 0.65512314,
+      "epoch": 1.0111618467782852,
+      "grad_norm": 5.46875,
+      "learning_rate": 5.320867925814896e-06,
+      "loss": 1.62351112,
+      "memory(GiB)": 111.15,
+      "step": 39860,
+      "train_speed(iter/s)": 0.447893
+    },
+    {
+      "acc": 0.6532279,
+      "epoch": 1.0112886859462202,
+      "grad_norm": 5.5625,
+      "learning_rate": 5.31982145656096e-06,
+      "loss": 1.63477726,
+      "memory(GiB)": 111.15,
+      "step": 39865,
+      "train_speed(iter/s)": 0.447923
+    },
+    {
+      "acc": 0.65063858,
+      "epoch": 1.0114155251141552,
+      "grad_norm": 4.53125,
+      "learning_rate": 5.318774973239849e-06,
+      "loss": 1.57653027,
+      "memory(GiB)": 111.15,
+      "step": 39870,
+      "train_speed(iter/s)": 0.447952
+    },
+    {
+      "acc": 0.64717431,
+      "epoch": 1.0115423642820902,
+      "grad_norm": 5.03125,
+      "learning_rate": 5.31772847589759e-06,
+      "loss": 1.64279976,
+      "memory(GiB)": 111.15,
+      "step": 39875,
+      "train_speed(iter/s)": 0.447982
+    },
+    {
+      "acc": 0.66402674,
+      "epoch": 1.0116692034500254,
+      "grad_norm": 6.125,
+      "learning_rate": 5.316681964580215e-06,
+      "loss": 1.58774252,
+      "memory(GiB)": 111.15,
+      "step": 39880,
+      "train_speed(iter/s)": 0.448011
+    },
+    {
+      "acc": 0.66032367,
+      "epoch": 1.0117960426179604,
+      "grad_norm": 5.625,
+      "learning_rate": 5.315635439333753e-06,
+      "loss": 1.60470581,
+      "memory(GiB)": 111.15,
+      "step": 39885,
+      "train_speed(iter/s)": 0.44804
+    },
+    {
+      "acc": 0.64424925,
+      "epoch": 1.0119228817858954,
+      "grad_norm": 5.5,
+      "learning_rate": 5.314588900204235e-06,
+      "loss": 1.62823982,
+      "memory(GiB)": 111.15,
+      "step": 39890,
+      "train_speed(iter/s)": 0.44807
+    },
+    {
+      "acc": 0.65040388,
+      "epoch": 1.0120497209538306,
+      "grad_norm": 6.0625,
+      "learning_rate": 5.313542347237692e-06,
+      "loss": 1.68264332,
+      "memory(GiB)": 111.15,
+      "step": 39895,
+      "train_speed(iter/s)": 0.448099
+    },
+    {
+      "acc": 0.6289144,
+      "epoch": 1.0121765601217656,
+      "grad_norm": 6.4375,
+      "learning_rate": 5.312495780480159e-06,
+      "loss": 1.67910194,
+      "memory(GiB)": 111.15,
+      "step": 39900,
+      "train_speed(iter/s)": 0.448129
+    },
+    {
+      "epoch": 1.0121765601217656,
+      "eval_acc": 0.6433186265314828,
+      "eval_loss": 1.6081836223602295,
+      "eval_runtime": 115.0039,
+      "eval_samples_per_second": 55.389,
+      "eval_steps_per_second": 27.695,
+      "step": 39900
+    },
+    {
+      "acc": 0.65393057,
+      "epoch": 1.0123033992897006,
+      "grad_norm": 4.96875,
+      "learning_rate": 5.311449199977664e-06,
+      "loss": 1.61747627,
+      "memory(GiB)": 111.15,
+      "step": 39905,
+      "train_speed(iter/s)": 0.447557
+    },
+    {
+      "acc": 0.66160479,
+      "epoch": 1.0124302384576358,
+      "grad_norm": 5.875,
+      "learning_rate": 5.310402605776245e-06,
+      "loss": 1.59220953,
+      "memory(GiB)": 111.15,
+      "step": 39910,
+      "train_speed(iter/s)": 0.447586
+    },
+    {
+      "acc": 0.65786276,
+      "epoch": 1.0125570776255708,
+      "grad_norm": 5.0,
+      "learning_rate": 5.309355997921931e-06,
+      "loss": 1.59512062,
+      "memory(GiB)": 111.15,
+      "step": 39915,
+      "train_speed(iter/s)": 0.447615
+    },
+    {
+      "acc": 0.67027893,
+      "epoch": 1.0126839167935058,
+      "grad_norm": 5.125,
+      "learning_rate": 5.308309376460761e-06,
+      "loss": 1.61905785,
+      "memory(GiB)": 111.15,
+      "step": 39920,
+      "train_speed(iter/s)": 0.447644
+    },
+    {
+      "acc": 0.66347847,
+      "epoch": 1.012810755961441,
+      "grad_norm": 4.5625,
+      "learning_rate": 5.307262741438767e-06,
+      "loss": 1.5459487,
+      "memory(GiB)": 111.15,
+      "step": 39925,
+      "train_speed(iter/s)": 0.447674
+    },
+    {
+      "acc": 0.65626087,
+      "epoch": 1.012937595129376,
+      "grad_norm": 5.25,
+      "learning_rate": 5.3062160929019855e-06,
+      "loss": 1.63151112,
+      "memory(GiB)": 111.15,
+      "step": 39930,
+      "train_speed(iter/s)": 0.447703
+    },
+    {
+      "acc": 0.66607256,
+      "epoch": 1.013064434297311,
+      "grad_norm": 4.9375,
+      "learning_rate": 5.305169430896454e-06,
+      "loss": 1.57903204,
+      "memory(GiB)": 111.15,
+      "step": 39935,
+      "train_speed(iter/s)": 0.447733
+    },
+    {
+      "acc": 0.65347519,
+      "epoch": 1.013191273465246,
+      "grad_norm": 4.75,
+      "learning_rate": 5.304122755468209e-06,
+      "loss": 1.590135,
+      "memory(GiB)": 111.15,
+      "step": 39940,
+      "train_speed(iter/s)": 0.447762
+    },
+    {
+      "acc": 0.65314207,
+      "epoch": 1.0133181126331812,
+      "grad_norm": 5.875,
+      "learning_rate": 5.303076066663286e-06,
+      "loss": 1.5560667,
+      "memory(GiB)": 111.15,
+      "step": 39945,
+      "train_speed(iter/s)": 0.447791
+    },
+    {
+      "acc": 0.64245901,
+      "epoch": 1.0134449518011162,
+      "grad_norm": 5.28125,
+      "learning_rate": 5.302029364527726e-06,
+      "loss": 1.67264977,
+      "memory(GiB)": 111.15,
+      "step": 39950,
+      "train_speed(iter/s)": 0.447821
+    },
+    {
+      "acc": 0.64368553,
+      "epoch": 1.0135717909690511,
+      "grad_norm": 6.0,
+      "learning_rate": 5.3009826491075645e-06,
+      "loss": 1.68944817,
+      "memory(GiB)": 111.15,
+      "step": 39955,
+      "train_speed(iter/s)": 0.447851
+    },
+    {
+      "acc": 0.65242434,
+      "epoch": 1.0136986301369864,
+      "grad_norm": 5.53125,
+      "learning_rate": 5.299935920448843e-06,
+      "loss": 1.5475214,
+      "memory(GiB)": 111.15,
+      "step": 39960,
+      "train_speed(iter/s)": 0.44788
+    },
+    {
+      "acc": 0.65826397,
+      "epoch": 1.0138254693049213,
+      "grad_norm": 5.1875,
+      "learning_rate": 5.298889178597599e-06,
+      "loss": 1.58585119,
+      "memory(GiB)": 111.15,
+      "step": 39965,
+      "train_speed(iter/s)": 0.447909
+    },
+    {
+      "acc": 0.64279633,
+      "epoch": 1.0139523084728563,
+      "grad_norm": 6.25,
+      "learning_rate": 5.297842423599877e-06,
+      "loss": 1.62738323,
+      "memory(GiB)": 111.15,
+      "step": 39970,
+      "train_speed(iter/s)": 0.447939
+    },
+    {
+      "acc": 0.6587266,
+      "epoch": 1.0140791476407915,
+      "grad_norm": 5.75,
+      "learning_rate": 5.296795655501714e-06,
+      "loss": 1.64810314,
+      "memory(GiB)": 111.15,
+      "step": 39975,
+      "train_speed(iter/s)": 0.447969
+    },
+    {
+      "acc": 0.64716606,
+      "epoch": 1.0142059868087265,
+      "grad_norm": 5.59375,
+      "learning_rate": 5.295748874349155e-06,
+      "loss": 1.64768143,
+      "memory(GiB)": 111.15,
+      "step": 39980,
+      "train_speed(iter/s)": 0.447998
+    },
+    {
+      "acc": 0.64591742,
+      "epoch": 1.0143328259766615,
+      "grad_norm": 5.125,
+      "learning_rate": 5.294702080188236e-06,
+      "loss": 1.56741829,
+      "memory(GiB)": 111.15,
+      "step": 39985,
+      "train_speed(iter/s)": 0.448027
+    },
+    {
+      "acc": 0.64270277,
+      "epoch": 1.0144596651445967,
+      "grad_norm": 5.375,
+      "learning_rate": 5.293655273065008e-06,
+      "loss": 1.62689133,
+      "memory(GiB)": 111.15,
+      "step": 39990,
+      "train_speed(iter/s)": 0.448057
+    },
+    {
+      "acc": 0.65954552,
+      "epoch": 1.0145865043125317,
+      "grad_norm": 4.8125,
+      "learning_rate": 5.2926084530255076e-06,
+      "loss": 1.61682243,
+      "memory(GiB)": 111.15,
+      "step": 39995,
+      "train_speed(iter/s)": 0.448086
+    },
+    {
+      "acc": 0.65227718,
+      "epoch": 1.0147133434804667,
+      "grad_norm": 5.53125,
+      "learning_rate": 5.291561620115781e-06,
+      "loss": 1.60877037,
+      "memory(GiB)": 111.15,
+      "step": 40000,
+      "train_speed(iter/s)": 0.448116
+    },
+    {
+      "epoch": 1.0147133434804667,
+      "eval_acc": 0.6433315773180759,
+      "eval_loss": 1.6080617904663086,
+      "eval_runtime": 114.2967,
+      "eval_samples_per_second": 55.732,
+      "eval_steps_per_second": 27.866,
+      "step": 40000
+    },
+    {
+      "acc": 0.64977036,
+      "epoch": 1.014840182648402,
+      "grad_norm": 5.65625,
+      "learning_rate": 5.290514774381874e-06,
+      "loss": 1.65115051,
+      "memory(GiB)": 111.15,
+      "step": 40005,
+      "train_speed(iter/s)": 0.447549
+    },
+    {
+      "acc": 0.65103402,
+      "epoch": 1.014967021816337,
+      "grad_norm": 6.15625,
+      "learning_rate": 5.289467915869829e-06,
+      "loss": 1.63566742,
+      "memory(GiB)": 111.15,
+      "step": 40010,
+      "train_speed(iter/s)": 0.447579
+    },
+    {
+      "acc": 0.65834255,
+      "epoch": 1.015093860984272,
+      "grad_norm": 6.1875,
+      "learning_rate": 5.288421044625694e-06,
+      "loss": 1.61507778,
+      "memory(GiB)": 111.15,
+      "step": 40015,
+      "train_speed(iter/s)": 0.447608
+    },
+    {
+      "acc": 0.64797544,
+      "epoch": 1.0152207001522071,
+      "grad_norm": 5.09375,
+      "learning_rate": 5.287374160695513e-06,
+      "loss": 1.64077225,
+      "memory(GiB)": 111.15,
+      "step": 40020,
+      "train_speed(iter/s)": 0.447637
+    },
+    {
+      "acc": 0.64045777,
+      "epoch": 1.015347539320142,
+      "grad_norm": 4.84375,
+      "learning_rate": 5.286327264125332e-06,
+      "loss": 1.69212914,
+      "memory(GiB)": 111.15,
+      "step": 40025,
+      "train_speed(iter/s)": 0.447667
+    },
+    {
+      "acc": 0.6399971,
+      "epoch": 1.015474378488077,
+      "grad_norm": 5.5625,
+      "learning_rate": 5.285280354961202e-06,
+      "loss": 1.70978355,
+      "memory(GiB)": 111.15,
+      "step": 40030,
+      "train_speed(iter/s)": 0.447697
+    },
+    {
+      "acc": 0.65272961,
+      "epoch": 1.015601217656012,
+      "grad_norm": 5.3125,
+      "learning_rate": 5.284233433249167e-06,
+      "loss": 1.53898296,
+      "memory(GiB)": 111.15,
+      "step": 40035,
+      "train_speed(iter/s)": 0.447726
+    },
+    {
+      "acc": 0.64337845,
+      "epoch": 1.0157280568239473,
+      "grad_norm": 6.46875,
+      "learning_rate": 5.283186499035276e-06,
+      "loss": 1.5846879,
+      "memory(GiB)": 111.15,
+      "step": 40040,
+      "train_speed(iter/s)": 0.447755
+    },
+    {
+      "acc": 0.66363692,
+      "epoch": 1.0158548959918823,
+      "grad_norm": 5.1875,
+      "learning_rate": 5.2821395523655795e-06,
+      "loss": 1.55863438,
+      "memory(GiB)": 111.15,
+      "step": 40045,
+      "train_speed(iter/s)": 0.447785
+    },
+    {
+      "acc": 0.66166706,
+      "epoch": 1.0159817351598173,
+      "grad_norm": 5.4375,
+      "learning_rate": 5.281092593286127e-06,
+      "loss": 1.56614332,
+      "memory(GiB)": 111.15,
+      "step": 40050,
+      "train_speed(iter/s)": 0.447814
+    },
+    {
+      "acc": 0.64470692,
+      "epoch": 1.0161085743277525,
+      "grad_norm": 5.5625,
+      "learning_rate": 5.280045621842964e-06,
+      "loss": 1.60553131,
+      "memory(GiB)": 111.15,
+      "step": 40055,
+      "train_speed(iter/s)": 0.447843
+    },
+    {
+      "acc": 0.63212118,
+      "epoch": 1.0162354134956875,
+      "grad_norm": 4.65625,
+      "learning_rate": 5.278998638082148e-06,
+      "loss": 1.651824,
+      "memory(GiB)": 111.15,
+      "step": 40060,
+      "train_speed(iter/s)": 0.447872
+    },
+    {
+      "acc": 0.65166306,
+      "epoch": 1.0163622526636225,
+      "grad_norm": 4.75,
+      "learning_rate": 5.277951642049722e-06,
+      "loss": 1.62924156,
+      "memory(GiB)": 111.15,
+      "step": 40065,
+      "train_speed(iter/s)": 0.447902
+    },
+    {
+      "acc": 0.66398573,
+      "epoch": 1.0164890918315577,
+      "grad_norm": 4.65625,
+      "learning_rate": 5.276904633791745e-06,
+      "loss": 1.58433189,
+      "memory(GiB)": 111.15,
+      "step": 40070,
+      "train_speed(iter/s)": 0.447931
+    },
+    {
+      "acc": 0.65241776,
+      "epoch": 1.0166159309994927,
+      "grad_norm": 5.5625,
+      "learning_rate": 5.275857613354265e-06,
+      "loss": 1.58089972,
+      "memory(GiB)": 111.15,
+      "step": 40075,
+      "train_speed(iter/s)": 0.44796
+    },
+    {
+      "acc": 0.66117334,
+      "epoch": 1.0167427701674276,
+      "grad_norm": 4.625,
+      "learning_rate": 5.274810580783335e-06,
+      "loss": 1.58382664,
+      "memory(GiB)": 111.15,
+      "step": 40080,
+      "train_speed(iter/s)": 0.44799
+    },
+    {
+      "acc": 0.67078323,
+      "epoch": 1.0168696093353629,
+      "grad_norm": 5.21875,
+      "learning_rate": 5.2737635361250094e-06,
+      "loss": 1.57147865,
+      "memory(GiB)": 111.15,
+      "step": 40085,
+      "train_speed(iter/s)": 0.448019
+    },
+    {
+      "acc": 0.64773293,
+      "epoch": 1.0169964485032978,
+      "grad_norm": 5.59375,
+      "learning_rate": 5.2727164794253415e-06,
+      "loss": 1.62201405,
+      "memory(GiB)": 111.15,
+      "step": 40090,
+      "train_speed(iter/s)": 0.448049
+    },
+    {
+      "acc": 0.64658189,
+      "epoch": 1.0171232876712328,
+      "grad_norm": 5.4375,
+      "learning_rate": 5.271669410730384e-06,
+      "loss": 1.61984863,
+      "memory(GiB)": 111.15,
+      "step": 40095,
+      "train_speed(iter/s)": 0.448078
+    },
+    {
+      "acc": 0.66722693,
+      "epoch": 1.0172501268391678,
+      "grad_norm": 5.40625,
+      "learning_rate": 5.270622330086194e-06,
+      "loss": 1.60455856,
+      "memory(GiB)": 111.15,
+      "step": 40100,
+      "train_speed(iter/s)": 0.448107
+    },
+    {
+      "epoch": 1.0172501268391678,
+      "eval_acc": 0.6433441103373596,
+      "eval_loss": 1.6080188751220703,
+      "eval_runtime": 116.0743,
+      "eval_samples_per_second": 54.879,
+      "eval_steps_per_second": 27.439,
+      "step": 40100
+    },
+    {
+      "acc": 0.63481288,
+      "epoch": 1.017376966007103,
+      "grad_norm": 4.78125,
+      "learning_rate": 5.269575237538827e-06,
+      "loss": 1.62236443,
+      "memory(GiB)": 111.15,
+      "step": 40105,
+      "train_speed(iter/s)": 0.447532
+    },
+    {
+      "acc": 0.63913541,
+      "epoch": 1.017503805175038,
+      "grad_norm": 5.78125,
+      "learning_rate": 5.268528133134335e-06,
+      "loss": 1.67866859,
+      "memory(GiB)": 111.15,
+      "step": 40110,
+      "train_speed(iter/s)": 0.447562
+    },
+    {
+      "acc": 0.65746269,
+      "epoch": 1.017630644342973,
+      "grad_norm": 5.4375,
+      "learning_rate": 5.267481016918776e-06,
+      "loss": 1.57248344,
+      "memory(GiB)": 111.15,
+      "step": 40115,
+      "train_speed(iter/s)": 0.447591
+    },
+    {
+      "acc": 0.65432539,
+      "epoch": 1.0177574835109082,
+      "grad_norm": 5.65625,
+      "learning_rate": 5.266433888938212e-06,
+      "loss": 1.6101614,
+      "memory(GiB)": 111.15,
+      "step": 40120,
+      "train_speed(iter/s)": 0.44762
+    },
+    {
+      "acc": 0.66521573,
+      "epoch": 1.0178843226788432,
+      "grad_norm": 5.1875,
+      "learning_rate": 5.265386749238691e-06,
+      "loss": 1.57280483,
+      "memory(GiB)": 111.15,
+      "step": 40125,
+      "train_speed(iter/s)": 0.447649
+    },
+    {
+      "acc": 0.64449773,
+      "epoch": 1.0180111618467782,
+      "grad_norm": 5.5,
+      "learning_rate": 5.26433959786628e-06,
+      "loss": 1.61938801,
+      "memory(GiB)": 111.15,
+      "step": 40130,
+      "train_speed(iter/s)": 0.447678
+    },
+    {
+      "acc": 0.64395514,
+      "epoch": 1.0181380010147134,
+      "grad_norm": 5.875,
+      "learning_rate": 5.263292434867031e-06,
+      "loss": 1.60944977,
+      "memory(GiB)": 111.15,
+      "step": 40135,
+      "train_speed(iter/s)": 0.447708
+    },
+    {
+      "acc": 0.67059765,
+      "epoch": 1.0182648401826484,
+      "grad_norm": 4.5,
+      "learning_rate": 5.262245260287006e-06,
+      "loss": 1.52574415,
+      "memory(GiB)": 111.15,
+      "step": 40140,
+      "train_speed(iter/s)": 0.447737
+    },
+    {
+      "acc": 0.63782482,
+      "epoch": 1.0183916793505834,
+      "grad_norm": 7.4375,
+      "learning_rate": 5.261198074172262e-06,
+      "loss": 1.70457802,
+      "memory(GiB)": 111.15,
+      "step": 40145,
+      "train_speed(iter/s)": 0.447766
+    },
+    {
+      "acc": 0.65610008,
+      "epoch": 1.0185185185185186,
+      "grad_norm": 5.59375,
+      "learning_rate": 5.260150876568862e-06,
+      "loss": 1.64210548,
+      "memory(GiB)": 111.15,
+      "step": 40150,
+      "train_speed(iter/s)": 0.447796
+    },
+    {
+      "acc": 0.65463495,
+      "epoch": 1.0186453576864536,
+      "grad_norm": 4.53125,
+      "learning_rate": 5.259103667522866e-06,
+      "loss": 1.62486877,
+      "memory(GiB)": 111.15,
+      "step": 40155,
+      "train_speed(iter/s)": 0.447825
+    },
+    {
+      "acc": 0.65004196,
+      "epoch": 1.0187721968543886,
+      "grad_norm": 4.78125,
+      "learning_rate": 5.258056447080333e-06,
+      "loss": 1.68350677,
+      "memory(GiB)": 111.15,
+      "step": 40160,
+      "train_speed(iter/s)": 0.447854
+    },
+    {
+      "acc": 0.6483242,
+      "epoch": 1.0188990360223238,
+      "grad_norm": 5.0625,
+      "learning_rate": 5.257009215287325e-06,
+      "loss": 1.68151913,
+      "memory(GiB)": 111.15,
+      "step": 40165,
+      "train_speed(iter/s)": 0.447884
+    },
+    {
+      "acc": 0.65709085,
+      "epoch": 1.0190258751902588,
+      "grad_norm": 5.15625,
+      "learning_rate": 5.255961972189905e-06,
+      "loss": 1.62931232,
+      "memory(GiB)": 111.15,
+      "step": 40170,
+      "train_speed(iter/s)": 0.447913
+    },
+    {
+      "acc": 0.64324722,
+      "epoch": 1.0191527143581938,
+      "grad_norm": 5.53125,
+      "learning_rate": 5.254914717834133e-06,
+      "loss": 1.65946484,
+      "memory(GiB)": 111.15,
+      "step": 40175,
+      "train_speed(iter/s)": 0.447942
+    },
+    {
+      "acc": 0.64323854,
+      "epoch": 1.019279553526129,
+      "grad_norm": 4.84375,
+      "learning_rate": 5.253867452266075e-06,
+      "loss": 1.61372318,
+      "memory(GiB)": 111.15,
+      "step": 40180,
+      "train_speed(iter/s)": 0.447971
+    },
+    {
+      "acc": 0.66695662,
+      "epoch": 1.019406392694064,
+      "grad_norm": 6.5625,
+      "learning_rate": 5.252820175531792e-06,
+      "loss": 1.61986389,
+      "memory(GiB)": 111.15,
+      "step": 40185,
+      "train_speed(iter/s)": 0.448
+    },
+    {
+      "acc": 0.63874846,
+      "epoch": 1.019533231861999,
+      "grad_norm": 6.9375,
+      "learning_rate": 5.25177288767735e-06,
+      "loss": 1.65603523,
+      "memory(GiB)": 111.15,
+      "step": 40190,
+      "train_speed(iter/s)": 0.44803
+    },
+    {
+      "acc": 0.65913134,
+      "epoch": 1.019660071029934,
+      "grad_norm": 5.5625,
+      "learning_rate": 5.250725588748811e-06,
+      "loss": 1.59358406,
+      "memory(GiB)": 111.15,
+      "step": 40195,
+      "train_speed(iter/s)": 0.448059
+    },
+    {
+      "acc": 0.6444993,
+      "epoch": 1.0197869101978692,
+      "grad_norm": 5.15625,
+      "learning_rate": 5.249678278792243e-06,
+      "loss": 1.70611305,
+      "memory(GiB)": 111.15,
+      "step": 40200,
+      "train_speed(iter/s)": 0.448087
+    },
+    {
+      "epoch": 1.0197869101978692,
+      "eval_acc": 0.6433311595507665,
+      "eval_loss": 1.608157753944397,
+      "eval_runtime": 114.0998,
+      "eval_samples_per_second": 55.828,
+      "eval_steps_per_second": 27.914,
+      "step": 40200
+    },
+    {
+      "acc": 0.66980801,
+      "epoch": 1.0199137493658041,
+      "grad_norm": 5.375,
+      "learning_rate": 5.248630957853708e-06,
+      "loss": 1.57858696,
+      "memory(GiB)": 111.15,
+      "step": 40205,
+      "train_speed(iter/s)": 0.447524
+    },
+    {
+      "acc": 0.64949827,
+      "epoch": 1.0200405885337391,
+      "grad_norm": 5.28125,
+      "learning_rate": 5.247583625979276e-06,
+      "loss": 1.56204052,
+      "memory(GiB)": 111.15,
+      "step": 40210,
+      "train_speed(iter/s)": 0.447553
+    },
+    {
+      "acc": 0.63844352,
+      "epoch": 1.0201674277016743,
+      "grad_norm": 6.375,
+      "learning_rate": 5.246536283215007e-06,
+      "loss": 1.62905426,
+      "memory(GiB)": 111.15,
+      "step": 40215,
+      "train_speed(iter/s)": 0.447583
+    },
+    {
+      "acc": 0.64625292,
+      "epoch": 1.0202942668696093,
+      "grad_norm": 5.28125,
+      "learning_rate": 5.245488929606974e-06,
+      "loss": 1.64053345,
+      "memory(GiB)": 111.15,
+      "step": 40220,
+      "train_speed(iter/s)": 0.447612
+    },
+    {
+      "acc": 0.64884081,
+      "epoch": 1.0204211060375443,
+      "grad_norm": 4.34375,
+      "learning_rate": 5.244441565201241e-06,
+      "loss": 1.6384655,
+      "memory(GiB)": 111.15,
+      "step": 40225,
+      "train_speed(iter/s)": 0.447641
+    },
+    {
+      "acc": 0.64363327,
+      "epoch": 1.0205479452054795,
+      "grad_norm": 5.375,
+      "learning_rate": 5.243394190043877e-06,
+      "loss": 1.56483517,
+      "memory(GiB)": 111.15,
+      "step": 40230,
+      "train_speed(iter/s)": 0.44767
+    },
+    {
+      "acc": 0.65625615,
+      "epoch": 1.0206747843734145,
+      "grad_norm": 5.28125,
+      "learning_rate": 5.242346804180949e-06,
+      "loss": 1.60521927,
+      "memory(GiB)": 111.15,
+      "step": 40235,
+      "train_speed(iter/s)": 0.447699
+    },
+    {
+      "acc": 0.65169392,
+      "epoch": 1.0208016235413495,
+      "grad_norm": 5.21875,
+      "learning_rate": 5.241299407658528e-06,
+      "loss": 1.62840633,
+      "memory(GiB)": 111.15,
+      "step": 40240,
+      "train_speed(iter/s)": 0.447728
+    },
+    {
+      "acc": 0.65289021,
+      "epoch": 1.0209284627092847,
+      "grad_norm": 5.125,
+      "learning_rate": 5.240252000522681e-06,
+      "loss": 1.57140865,
+      "memory(GiB)": 111.15,
+      "step": 40245,
+      "train_speed(iter/s)": 0.447757
+    },
+    {
+      "acc": 0.64046588,
+      "epoch": 1.0210553018772197,
+      "grad_norm": 5.96875,
+      "learning_rate": 5.239204582819479e-06,
+      "loss": 1.66789856,
+      "memory(GiB)": 111.15,
+      "step": 40250,
+      "train_speed(iter/s)": 0.447786
+    },
+    {
+      "acc": 0.64328222,
+      "epoch": 1.0211821410451547,
+      "grad_norm": 6.40625,
+      "learning_rate": 5.238157154594989e-06,
+      "loss": 1.62314739,
+      "memory(GiB)": 111.15,
+      "step": 40255,
+      "train_speed(iter/s)": 0.447816
+    },
+    {
+      "acc": 0.66804323,
+      "epoch": 1.0213089802130897,
+      "grad_norm": 5.28125,
+      "learning_rate": 5.237109715895287e-06,
+      "loss": 1.50406475,
+      "memory(GiB)": 111.15,
+      "step": 40260,
+      "train_speed(iter/s)": 0.447845
+    },
+    {
+      "acc": 0.65789499,
+      "epoch": 1.021435819381025,
+      "grad_norm": 5.34375,
+      "learning_rate": 5.2360622667664385e-06,
+      "loss": 1.59499855,
+      "memory(GiB)": 111.15,
+      "step": 40265,
+      "train_speed(iter/s)": 0.447874
+    },
+    {
+      "acc": 0.65987034,
+      "epoch": 1.02156265854896,
+      "grad_norm": 5.8125,
+      "learning_rate": 5.235014807254521e-06,
+      "loss": 1.56635761,
+      "memory(GiB)": 111.15,
+      "step": 40270,
+      "train_speed(iter/s)": 0.447903
+    },
+    {
+      "acc": 0.63681631,
+      "epoch": 1.0216894977168949,
+      "grad_norm": 5.9375,
+      "learning_rate": 5.233967337405599e-06,
+      "loss": 1.6512434,
+      "memory(GiB)": 111.15,
+      "step": 40275,
+      "train_speed(iter/s)": 0.447932
+    },
+    {
+      "acc": 0.65742435,
+      "epoch": 1.02181633688483,
+      "grad_norm": 4.9375,
+      "learning_rate": 5.232919857265752e-06,
+      "loss": 1.6080864,
+      "memory(GiB)": 111.15,
+      "step": 40280,
+      "train_speed(iter/s)": 0.447961
+    },
+    {
+      "acc": 0.64107962,
+      "epoch": 1.021943176052765,
+      "grad_norm": 5.125,
+      "learning_rate": 5.231872366881048e-06,
+      "loss": 1.63518219,
+      "memory(GiB)": 111.15,
+      "step": 40285,
+      "train_speed(iter/s)": 0.44799
+    },
+    {
+      "acc": 0.65424418,
+      "epoch": 1.0220700152207,
+      "grad_norm": 4.84375,
+      "learning_rate": 5.230824866297563e-06,
+      "loss": 1.61906376,
+      "memory(GiB)": 111.15,
+      "step": 40290,
+      "train_speed(iter/s)": 0.448019
+    },
+    {
+      "acc": 0.65756526,
+      "epoch": 1.0221968543886353,
+      "grad_norm": 5.5625,
+      "learning_rate": 5.229777355561368e-06,
+      "loss": 1.60591393,
+      "memory(GiB)": 111.15,
+      "step": 40295,
+      "train_speed(iter/s)": 0.448048
+    },
+    {
+      "acc": 0.65153389,
+      "epoch": 1.0223236935565703,
+      "grad_norm": 6.25,
+      "learning_rate": 5.2287298347185415e-06,
+      "loss": 1.60807457,
+      "memory(GiB)": 111.15,
+      "step": 40300,
+      "train_speed(iter/s)": 0.448078
+    },
+    {
+      "epoch": 1.0223236935565703,
+      "eval_acc": 0.6433608210297379,
+      "eval_loss": 1.608086347579956,
+      "eval_runtime": 113.6276,
+      "eval_samples_per_second": 56.06,
+      "eval_steps_per_second": 28.03,
+      "step": 40300
+    },
+    {
+      "acc": 0.63398457,
+      "epoch": 1.0224505327245053,
+      "grad_norm": 5.5,
+      "learning_rate": 5.227682303815155e-06,
+      "loss": 1.6592289,
+      "memory(GiB)": 111.15,
+      "step": 40305,
+      "train_speed(iter/s)": 0.447518
+    },
+    {
+      "acc": 0.64890108,
+      "epoch": 1.0225773718924405,
+      "grad_norm": 4.78125,
+      "learning_rate": 5.226634762897284e-06,
+      "loss": 1.66181583,
+      "memory(GiB)": 111.15,
+      "step": 40310,
+      "train_speed(iter/s)": 0.447547
+    },
+    {
+      "acc": 0.64910316,
+      "epoch": 1.0227042110603755,
+      "grad_norm": 5.125,
+      "learning_rate": 5.225587212011004e-06,
+      "loss": 1.57215853,
+      "memory(GiB)": 111.15,
+      "step": 40315,
+      "train_speed(iter/s)": 0.447576
+    },
+    {
+      "acc": 0.65539274,
+      "epoch": 1.0228310502283104,
+      "grad_norm": 5.25,
+      "learning_rate": 5.224539651202391e-06,
+      "loss": 1.59055653,
+      "memory(GiB)": 111.15,
+      "step": 40320,
+      "train_speed(iter/s)": 0.447605
+    },
+    {
+      "acc": 0.64403586,
+      "epoch": 1.0229578893962457,
+      "grad_norm": 4.9375,
+      "learning_rate": 5.223492080517523e-06,
+      "loss": 1.6279438,
+      "memory(GiB)": 111.15,
+      "step": 40325,
+      "train_speed(iter/s)": 0.447634
+    },
+    {
+      "acc": 0.64567447,
+      "epoch": 1.0230847285641806,
+      "grad_norm": 6.5625,
+      "learning_rate": 5.2224445000024744e-06,
+      "loss": 1.69446888,
+      "memory(GiB)": 111.15,
+      "step": 40330,
+      "train_speed(iter/s)": 0.447663
+    },
+    {
+      "acc": 0.6426548,
+      "epoch": 1.0232115677321156,
+      "grad_norm": 5.78125,
+      "learning_rate": 5.221396909703322e-06,
+      "loss": 1.60868073,
+      "memory(GiB)": 111.15,
+      "step": 40335,
+      "train_speed(iter/s)": 0.447692
+    },
+    {
+      "acc": 0.65774355,
+      "epoch": 1.0233384069000508,
+      "grad_norm": 5.4375,
+      "learning_rate": 5.220349309666148e-06,
+      "loss": 1.55166941,
+      "memory(GiB)": 111.15,
+      "step": 40340,
+      "train_speed(iter/s)": 0.447721
+    },
+    {
+      "acc": 0.64283972,
+      "epoch": 1.0234652460679858,
+      "grad_norm": 6.3125,
+      "learning_rate": 5.2193016999370265e-06,
+      "loss": 1.64165573,
+      "memory(GiB)": 111.15,
+      "step": 40345,
+      "train_speed(iter/s)": 0.447749
+    },
+    {
+      "acc": 0.64905815,
+      "epoch": 1.0235920852359208,
+      "grad_norm": 5.03125,
+      "learning_rate": 5.218254080562038e-06,
+      "loss": 1.58729601,
+      "memory(GiB)": 111.15,
+      "step": 40350,
+      "train_speed(iter/s)": 0.447778
+    },
+    {
+      "acc": 0.67201099,
+      "epoch": 1.0237189244038558,
+      "grad_norm": 6.3125,
+      "learning_rate": 5.2172064515872585e-06,
+      "loss": 1.55817757,
+      "memory(GiB)": 111.15,
+      "step": 40355,
+      "train_speed(iter/s)": 0.447808
+    },
+    {
+      "acc": 0.6558238,
+      "epoch": 1.023845763571791,
+      "grad_norm": 6.125,
+      "learning_rate": 5.21615881305877e-06,
+      "loss": 1.62978954,
+      "memory(GiB)": 111.15,
+      "step": 40360,
+      "train_speed(iter/s)": 0.447837
+    },
+    {
+      "acc": 0.64109697,
+      "epoch": 1.023972602739726,
+      "grad_norm": 5.25,
+      "learning_rate": 5.215111165022653e-06,
+      "loss": 1.60632095,
+      "memory(GiB)": 111.15,
+      "step": 40365,
+      "train_speed(iter/s)": 0.447865
+    },
+    {
+      "acc": 0.66899137,
+      "epoch": 1.024099441907661,
+      "grad_norm": 5.0,
+      "learning_rate": 5.2140635075249856e-06,
+      "loss": 1.53117485,
+      "memory(GiB)": 111.15,
+      "step": 40370,
+      "train_speed(iter/s)": 0.447894
+    },
+    {
+      "acc": 0.6543644,
+      "epoch": 1.0242262810755962,
+      "grad_norm": 5.5,
+      "learning_rate": 5.213015840611851e-06,
+      "loss": 1.60895348,
+      "memory(GiB)": 111.15,
+      "step": 40375,
+      "train_speed(iter/s)": 0.447923
+    },
+    {
+      "acc": 0.6459518,
+      "epoch": 1.0243531202435312,
+      "grad_norm": 6.25,
+      "learning_rate": 5.211968164329328e-06,
+      "loss": 1.67447128,
+      "memory(GiB)": 111.15,
+      "step": 40380,
+      "train_speed(iter/s)": 0.447952
+    },
+    {
+      "acc": 0.65584316,
+      "epoch": 1.0244799594114662,
+      "grad_norm": 5.3125,
+      "learning_rate": 5.210920478723497e-06,
+      "loss": 1.63530731,
+      "memory(GiB)": 111.15,
+      "step": 40385,
+      "train_speed(iter/s)": 0.447981
+    },
+    {
+      "acc": 0.63666363,
+      "epoch": 1.0246067985794014,
+      "grad_norm": 5.3125,
+      "learning_rate": 5.209872783840443e-06,
+      "loss": 1.68106613,
+      "memory(GiB)": 111.15,
+      "step": 40390,
+      "train_speed(iter/s)": 0.448009
+    },
+    {
+      "acc": 0.65629983,
+      "epoch": 1.0247336377473364,
+      "grad_norm": 4.5625,
+      "learning_rate": 5.208825079726248e-06,
+      "loss": 1.6246357,
+      "memory(GiB)": 111.15,
+      "step": 40395,
+      "train_speed(iter/s)": 0.448039
+    },
+    {
+      "acc": 0.65562038,
+      "epoch": 1.0248604769152714,
+      "grad_norm": 5.125,
+      "learning_rate": 5.207777366426992e-06,
+      "loss": 1.61266136,
+      "memory(GiB)": 111.15,
+      "step": 40400,
+      "train_speed(iter/s)": 0.448067
+    },
+    {
+      "epoch": 1.0248604769152714,
+      "eval_acc": 0.6432822807755599,
+      "eval_loss": 1.6082926988601685,
+      "eval_runtime": 114.8666,
+      "eval_samples_per_second": 55.456,
+      "eval_steps_per_second": 27.728,
+      "step": 40400
+    },
+    {
+      "acc": 0.65114346,
+      "epoch": 1.0249873160832066,
+      "grad_norm": 5.3125,
+      "learning_rate": 5.206729643988759e-06,
+      "loss": 1.6144207,
+      "memory(GiB)": 111.15,
+      "step": 40405,
+      "train_speed(iter/s)": 0.447504
+    },
+    {
+      "acc": 0.65620499,
+      "epoch": 1.0251141552511416,
+      "grad_norm": 5.21875,
+      "learning_rate": 5.205681912457635e-06,
+      "loss": 1.5876009,
+      "memory(GiB)": 111.15,
+      "step": 40410,
+      "train_speed(iter/s)": 0.447533
+    },
+    {
+      "acc": 0.63470745,
+      "epoch": 1.0252409944190766,
+      "grad_norm": 6.6875,
+      "learning_rate": 5.204634171879701e-06,
+      "loss": 1.71323051,
+      "memory(GiB)": 111.15,
+      "step": 40415,
+      "train_speed(iter/s)": 0.44753
+    },
+    {
+      "acc": 0.64604206,
+      "epoch": 1.0253678335870116,
+      "grad_norm": 4.59375,
+      "learning_rate": 5.2035864223010445e-06,
+      "loss": 1.52141266,
+      "memory(GiB)": 111.15,
+      "step": 40420,
+      "train_speed(iter/s)": 0.447559
+    },
+    {
+      "acc": 0.65233707,
+      "epoch": 1.0254946727549468,
+      "grad_norm": 5.59375,
+      "learning_rate": 5.202538663767746e-06,
+      "loss": 1.62205582,
+      "memory(GiB)": 111.15,
+      "step": 40425,
+      "train_speed(iter/s)": 0.447589
+    },
+    {
+      "acc": 0.64416108,
+      "epoch": 1.0256215119228818,
+      "grad_norm": 5.53125,
+      "learning_rate": 5.201490896325895e-06,
+      "loss": 1.64863739,
+      "memory(GiB)": 111.15,
+      "step": 40430,
+      "train_speed(iter/s)": 0.447618
+    },
+    {
+      "acc": 0.66002836,
+      "epoch": 1.0257483510908167,
+      "grad_norm": 5.125,
+      "learning_rate": 5.200443120021572e-06,
+      "loss": 1.58110418,
+      "memory(GiB)": 111.15,
+      "step": 40435,
+      "train_speed(iter/s)": 0.447648
+    },
+    {
+      "acc": 0.66408958,
+      "epoch": 1.025875190258752,
+      "grad_norm": 5.3125,
+      "learning_rate": 5.199395334900868e-06,
+      "loss": 1.59011822,
+      "memory(GiB)": 111.15,
+      "step": 40440,
+      "train_speed(iter/s)": 0.447677
+    },
+    {
+      "acc": 0.65090561,
+      "epoch": 1.026002029426687,
+      "grad_norm": 6.1875,
+      "learning_rate": 5.198347541009866e-06,
+      "loss": 1.59583721,
+      "memory(GiB)": 111.15,
+      "step": 40445,
+      "train_speed(iter/s)": 0.447707
+    },
+    {
+      "acc": 0.648947,
+      "epoch": 1.026128868594622,
+      "grad_norm": 5.875,
+      "learning_rate": 5.197299738394654e-06,
+      "loss": 1.66350498,
+      "memory(GiB)": 111.15,
+      "step": 40450,
+      "train_speed(iter/s)": 0.447736
+    },
+    {
+      "acc": 0.64902525,
+      "epoch": 1.0262557077625571,
+      "grad_norm": 5.03125,
+      "learning_rate": 5.196251927101318e-06,
+      "loss": 1.63024521,
+      "memory(GiB)": 111.15,
+      "step": 40455,
+      "train_speed(iter/s)": 0.447765
+    },
+    {
+      "acc": 0.65747595,
+      "epoch": 1.0263825469304921,
+      "grad_norm": 5.90625,
+      "learning_rate": 5.195204107175946e-06,
+      "loss": 1.51528168,
+      "memory(GiB)": 111.15,
+      "step": 40460,
+      "train_speed(iter/s)": 0.447795
+    },
+    {
+      "acc": 0.66066685,
+      "epoch": 1.0265093860984271,
+      "grad_norm": 5.8125,
+      "learning_rate": 5.194156278664627e-06,
+      "loss": 1.63173485,
+      "memory(GiB)": 111.15,
+      "step": 40465,
+      "train_speed(iter/s)": 0.447824
+    },
+    {
+      "acc": 0.65442181,
+      "epoch": 1.0266362252663623,
+      "grad_norm": 4.75,
+      "learning_rate": 5.1931084416134466e-06,
+      "loss": 1.60343056,
+      "memory(GiB)": 111.15,
+      "step": 40470,
+      "train_speed(iter/s)": 0.447854
+    },
+    {
+      "acc": 0.64815531,
+      "epoch": 1.0267630644342973,
+      "grad_norm": 4.40625,
+      "learning_rate": 5.192060596068496e-06,
+      "loss": 1.63886967,
+      "memory(GiB)": 111.15,
+      "step": 40475,
+      "train_speed(iter/s)": 0.447883
+    },
+    {
+      "acc": 0.65427256,
+      "epoch": 1.0268899036022323,
+      "grad_norm": 5.21875,
+      "learning_rate": 5.191012742075863e-06,
+      "loss": 1.61426926,
+      "memory(GiB)": 111.15,
+      "step": 40480,
+      "train_speed(iter/s)": 0.447913
+    },
+    {
+      "acc": 0.66056013,
+      "epoch": 1.0270167427701675,
+      "grad_norm": 7.3125,
+      "learning_rate": 5.189964879681635e-06,
+      "loss": 1.65126152,
+      "memory(GiB)": 111.15,
+      "step": 40485,
+      "train_speed(iter/s)": 0.447942
+    },
+    {
+      "acc": 0.64422908,
+      "epoch": 1.0271435819381025,
+      "grad_norm": 5.53125,
+      "learning_rate": 5.188917008931905e-06,
+      "loss": 1.62142105,
+      "memory(GiB)": 111.15,
+      "step": 40490,
+      "train_speed(iter/s)": 0.447972
+    },
+    {
+      "acc": 0.64890475,
+      "epoch": 1.0272704211060375,
+      "grad_norm": 6.46875,
+      "learning_rate": 5.18786912987276e-06,
+      "loss": 1.59351673,
+      "memory(GiB)": 111.15,
+      "step": 40495,
+      "train_speed(iter/s)": 0.448001
+    },
+    {
+      "acc": 0.65617952,
+      "epoch": 1.0273972602739727,
+      "grad_norm": 5.28125,
+      "learning_rate": 5.186821242550294e-06,
+      "loss": 1.57704592,
+      "memory(GiB)": 111.15,
+      "step": 40500,
+      "train_speed(iter/s)": 0.448031
+    },
+    {
+      "epoch": 1.0273972602739727,
+      "eval_acc": 0.643355390054715,
+      "eval_loss": 1.60795259475708,
+      "eval_runtime": 112.9602,
+      "eval_samples_per_second": 56.392,
+      "eval_steps_per_second": 28.196,
+      "step": 40500
+    },
+    {
+      "acc": 0.63562841,
+      "epoch": 1.0275240994419077,
+      "grad_norm": 5.375,
+      "learning_rate": 5.185773347010594e-06,
+      "loss": 1.65379295,
+      "memory(GiB)": 111.15,
+      "step": 40505,
+      "train_speed(iter/s)": 0.447478
+    },
+    {
+      "acc": 0.65012007,
+      "epoch": 1.0276509386098427,
+      "grad_norm": 5.03125,
+      "learning_rate": 5.184725443299753e-06,
+      "loss": 1.63796329,
+      "memory(GiB)": 111.15,
+      "step": 40510,
+      "train_speed(iter/s)": 0.447507
+    },
+    {
+      "acc": 0.65802174,
+      "epoch": 1.0277777777777777,
+      "grad_norm": 5.59375,
+      "learning_rate": 5.183677531463863e-06,
+      "loss": 1.60880356,
+      "memory(GiB)": 111.15,
+      "step": 40515,
+      "train_speed(iter/s)": 0.447537
+    },
+    {
+      "acc": 0.63450532,
+      "epoch": 1.027904616945713,
+      "grad_norm": 5.15625,
+      "learning_rate": 5.182629611549015e-06,
+      "loss": 1.66586418,
+      "memory(GiB)": 111.15,
+      "step": 40520,
+      "train_speed(iter/s)": 0.447566
+    },
+    {
+      "acc": 0.64967351,
+      "epoch": 1.0280314561136479,
+      "grad_norm": 5.59375,
+      "learning_rate": 5.181581683601301e-06,
+      "loss": 1.57608366,
+      "memory(GiB)": 111.15,
+      "step": 40525,
+      "train_speed(iter/s)": 0.447596
+    },
+    {
+      "acc": 0.65348783,
+      "epoch": 1.0281582952815829,
+      "grad_norm": 6.125,
+      "learning_rate": 5.1805337476668135e-06,
+      "loss": 1.71041298,
+      "memory(GiB)": 111.15,
+      "step": 40530,
+      "train_speed(iter/s)": 0.447625
+    },
+    {
+      "acc": 0.65535736,
+      "epoch": 1.028285134449518,
+      "grad_norm": 3.953125,
+      "learning_rate": 5.179485803791646e-06,
+      "loss": 1.63384514,
+      "memory(GiB)": 111.15,
+      "step": 40535,
+      "train_speed(iter/s)": 0.447654
+    },
+    {
+      "acc": 0.64854808,
+      "epoch": 1.028411973617453,
+      "grad_norm": 5.34375,
+      "learning_rate": 5.178437852021892e-06,
+      "loss": 1.69926491,
+      "memory(GiB)": 111.15,
+      "step": 40540,
+      "train_speed(iter/s)": 0.447683
+    },
+    {
+      "acc": 0.65768862,
+      "epoch": 1.028538812785388,
+      "grad_norm": 5.09375,
+      "learning_rate": 5.177389892403645e-06,
+      "loss": 1.59175692,
+      "memory(GiB)": 111.15,
+      "step": 40545,
+      "train_speed(iter/s)": 0.447713
+    },
+    {
+      "acc": 0.6422122,
+      "epoch": 1.0286656519533233,
+      "grad_norm": 5.21875,
+      "learning_rate": 5.176341924982997e-06,
+      "loss": 1.60292702,
+      "memory(GiB)": 111.15,
+      "step": 40550,
+      "train_speed(iter/s)": 0.447742
+    },
+    {
+      "acc": 0.6605608,
+      "epoch": 1.0287924911212583,
+      "grad_norm": 5.65625,
+      "learning_rate": 5.1752939498060435e-06,
+      "loss": 1.58780041,
+      "memory(GiB)": 111.15,
+      "step": 40555,
+      "train_speed(iter/s)": 0.447771
+    },
+    {
+      "acc": 0.64195137,
+      "epoch": 1.0289193302891932,
+      "grad_norm": 5.28125,
+      "learning_rate": 5.174245966918883e-06,
+      "loss": 1.70906525,
+      "memory(GiB)": 111.15,
+      "step": 40560,
+      "train_speed(iter/s)": 0.447801
+    },
+    {
+      "acc": 0.63318062,
+      "epoch": 1.0290461694571285,
+      "grad_norm": 5.15625,
+      "learning_rate": 5.173197976367603e-06,
+      "loss": 1.62271614,
+      "memory(GiB)": 111.15,
+      "step": 40565,
+      "train_speed(iter/s)": 0.44783
+    },
+    {
+      "acc": 0.65527067,
+      "epoch": 1.0291730086250634,
+      "grad_norm": 5.28125,
+      "learning_rate": 5.1721499781983055e-06,
+      "loss": 1.5782361,
+      "memory(GiB)": 111.15,
+      "step": 40570,
+      "train_speed(iter/s)": 0.44786
+    },
+    {
+      "acc": 0.64043713,
+      "epoch": 1.0292998477929984,
+      "grad_norm": 4.6875,
+      "learning_rate": 5.171101972457081e-06,
+      "loss": 1.62701206,
+      "memory(GiB)": 111.15,
+      "step": 40575,
+      "train_speed(iter/s)": 0.447889
+    },
+    {
+      "acc": 0.64376483,
+      "epoch": 1.0294266869609334,
+      "grad_norm": 5.09375,
+      "learning_rate": 5.170053959190029e-06,
+      "loss": 1.63317795,
+      "memory(GiB)": 111.15,
+      "step": 40580,
+      "train_speed(iter/s)": 0.447918
+    },
+    {
+      "acc": 0.64261417,
+      "epoch": 1.0295535261288686,
+      "grad_norm": 6.0,
+      "learning_rate": 5.169005938443245e-06,
+      "loss": 1.64981098,
+      "memory(GiB)": 111.15,
+      "step": 40585,
+      "train_speed(iter/s)": 0.447948
+    },
+    {
+      "acc": 0.65794153,
+      "epoch": 1.0296803652968036,
+      "grad_norm": 5.25,
+      "learning_rate": 5.1679579102628245e-06,
+      "loss": 1.62129059,
+      "memory(GiB)": 111.15,
+      "step": 40590,
+      "train_speed(iter/s)": 0.447977
+    },
+    {
+      "acc": 0.64069643,
+      "epoch": 1.0298072044647386,
+      "grad_norm": 5.1875,
+      "learning_rate": 5.166909874694866e-06,
+      "loss": 1.63066673,
+      "memory(GiB)": 111.15,
+      "step": 40595,
+      "train_speed(iter/s)": 0.448007
+    },
+    {
+      "acc": 0.6375,
+      "epoch": 1.0299340436326738,
+      "grad_norm": 7.0,
+      "learning_rate": 5.165861831785465e-06,
+      "loss": 1.74127274,
+      "memory(GiB)": 111.15,
+      "step": 40600,
+      "train_speed(iter/s)": 0.448036
+    },
+    {
+      "epoch": 1.0299340436326738,
+      "eval_acc": 0.6433345016892421,
+      "eval_loss": 1.608051061630249,
+      "eval_runtime": 112.9986,
+      "eval_samples_per_second": 56.372,
+      "eval_steps_per_second": 28.186,
+      "step": 40600
+    },
+    {
+      "acc": 0.63999095,
+      "epoch": 1.0300608828006088,
+      "grad_norm": 5.5,
+      "learning_rate": 5.164813781580721e-06,
+      "loss": 1.64957886,
+      "memory(GiB)": 111.15,
+      "step": 40605,
+      "train_speed(iter/s)": 0.447483
+    },
+    {
+      "acc": 0.64852219,
+      "epoch": 1.0301877219685438,
+      "grad_norm": 4.96875,
+      "learning_rate": 5.16376572412673e-06,
+      "loss": 1.60484295,
+      "memory(GiB)": 111.15,
+      "step": 40610,
+      "train_speed(iter/s)": 0.447513
+    },
+    {
+      "acc": 0.66338205,
+      "epoch": 1.030314561136479,
+      "grad_norm": 5.375,
+      "learning_rate": 5.162717659469593e-06,
+      "loss": 1.64841385,
+      "memory(GiB)": 111.15,
+      "step": 40615,
+      "train_speed(iter/s)": 0.447542
+    },
+    {
+      "acc": 0.66090255,
+      "epoch": 1.030441400304414,
+      "grad_norm": 5.3125,
+      "learning_rate": 5.161669587655406e-06,
+      "loss": 1.55668163,
+      "memory(GiB)": 111.15,
+      "step": 40620,
+      "train_speed(iter/s)": 0.447571
+    },
+    {
+      "acc": 0.65121937,
+      "epoch": 1.030568239472349,
+      "grad_norm": 6.625,
+      "learning_rate": 5.160621508730267e-06,
+      "loss": 1.6102356,
+      "memory(GiB)": 111.15,
+      "step": 40625,
+      "train_speed(iter/s)": 0.4476
+    },
+    {
+      "acc": 0.64548273,
+      "epoch": 1.0306950786402842,
+      "grad_norm": 5.375,
+      "learning_rate": 5.15957342274028e-06,
+      "loss": 1.65638199,
+      "memory(GiB)": 111.15,
+      "step": 40630,
+      "train_speed(iter/s)": 0.447629
+    },
+    {
+      "acc": 0.64255619,
+      "epoch": 1.0308219178082192,
+      "grad_norm": 6.78125,
+      "learning_rate": 5.158525329731539e-06,
+      "loss": 1.63898296,
+      "memory(GiB)": 111.15,
+      "step": 40635,
+      "train_speed(iter/s)": 0.447659
+    },
+    {
+      "acc": 0.64803109,
+      "epoch": 1.0309487569761542,
+      "grad_norm": 6.125,
+      "learning_rate": 5.157477229750149e-06,
+      "loss": 1.70335655,
+      "memory(GiB)": 111.15,
+      "step": 40640,
+      "train_speed(iter/s)": 0.447688
+    },
+    {
+      "acc": 0.6595911,
+      "epoch": 1.0310755961440894,
+      "grad_norm": 5.15625,
+      "learning_rate": 5.156429122842204e-06,
+      "loss": 1.64078808,
+      "memory(GiB)": 111.15,
+      "step": 40645,
+      "train_speed(iter/s)": 0.447718
+    },
+    {
+      "acc": 0.65450773,
+      "epoch": 1.0312024353120244,
+      "grad_norm": 5.875,
+      "learning_rate": 5.15538100905381e-06,
+      "loss": 1.58373766,
+      "memory(GiB)": 111.15,
+      "step": 40650,
+      "train_speed(iter/s)": 0.447747
+    },
+    {
+      "acc": 0.65133629,
+      "epoch": 1.0313292744799594,
+      "grad_norm": 4.4375,
+      "learning_rate": 5.154332888431064e-06,
+      "loss": 1.61011696,
+      "memory(GiB)": 111.15,
+      "step": 40655,
+      "train_speed(iter/s)": 0.447776
+    },
+    {
+      "acc": 0.64573202,
+      "epoch": 1.0314561136478946,
+      "grad_norm": 5.71875,
+      "learning_rate": 5.15328476102007e-06,
+      "loss": 1.65489025,
+      "memory(GiB)": 111.15,
+      "step": 40660,
+      "train_speed(iter/s)": 0.447805
+    },
+    {
+      "acc": 0.64169312,
+      "epoch": 1.0315829528158296,
+      "grad_norm": 4.75,
+      "learning_rate": 5.1522366268669264e-06,
+      "loss": 1.6431839,
+      "memory(GiB)": 111.15,
+      "step": 40665,
+      "train_speed(iter/s)": 0.447834
+    },
+    {
+      "acc": 0.64894066,
+      "epoch": 1.0317097919837646,
+      "grad_norm": 5.34375,
+      "learning_rate": 5.1511884860177376e-06,
+      "loss": 1.60927906,
+      "memory(GiB)": 111.15,
+      "step": 40670,
+      "train_speed(iter/s)": 0.447864
+    },
+    {
+      "acc": 0.65176334,
+      "epoch": 1.0318366311516995,
+      "grad_norm": 5.75,
+      "learning_rate": 5.150140338518603e-06,
+      "loss": 1.63491745,
+      "memory(GiB)": 111.15,
+      "step": 40675,
+      "train_speed(iter/s)": 0.447893
+    },
+    {
+      "acc": 0.65949211,
+      "epoch": 1.0319634703196348,
+      "grad_norm": 4.5625,
+      "learning_rate": 5.149092184415627e-06,
+      "loss": 1.52849216,
+      "memory(GiB)": 111.15,
+      "step": 40680,
+      "train_speed(iter/s)": 0.447922
+    },
+    {
+      "acc": 0.67078447,
+      "epoch": 1.0320903094875697,
+      "grad_norm": 5.0,
+      "learning_rate": 5.148044023754911e-06,
+      "loss": 1.58773632,
+      "memory(GiB)": 111.15,
+      "step": 40685,
+      "train_speed(iter/s)": 0.447951
+    },
+    {
+      "acc": 0.63752394,
+      "epoch": 1.0322171486555047,
+      "grad_norm": 4.53125,
+      "learning_rate": 5.146995856582557e-06,
+      "loss": 1.65227089,
+      "memory(GiB)": 111.15,
+      "step": 40690,
+      "train_speed(iter/s)": 0.44798
+    },
+    {
+      "acc": 0.64474263,
+      "epoch": 1.03234398782344,
+      "grad_norm": 5.21875,
+      "learning_rate": 5.14594768294467e-06,
+      "loss": 1.68951874,
+      "memory(GiB)": 111.15,
+      "step": 40695,
+      "train_speed(iter/s)": 0.44801
+    },
+    {
+      "acc": 0.65284805,
+      "epoch": 1.032470826991375,
+      "grad_norm": 5.71875,
+      "learning_rate": 5.1448995028873515e-06,
+      "loss": 1.61398735,
+      "memory(GiB)": 111.15,
+      "step": 40700,
+      "train_speed(iter/s)": 0.448039
+    },
+    {
+      "epoch": 1.032470826991375,
+      "eval_acc": 0.643354554520096,
+      "eval_loss": 1.6081308126449585,
+      "eval_runtime": 114.0068,
+      "eval_samples_per_second": 55.874,
+      "eval_steps_per_second": 27.937,
+      "step": 40700
+    },
+    {
+      "acc": 0.64201126,
+      "epoch": 1.03259766615931,
+      "grad_norm": 5.3125,
+      "learning_rate": 5.143851316456706e-06,
+      "loss": 1.5807785,
+      "memory(GiB)": 111.15,
+      "step": 40705,
+      "train_speed(iter/s)": 0.447483
+    },
+    {
+      "acc": 0.64368792,
+      "epoch": 1.0327245053272451,
+      "grad_norm": 6.0625,
+      "learning_rate": 5.142803123698838e-06,
+      "loss": 1.67756577,
+      "memory(GiB)": 111.15,
+      "step": 40710,
+      "train_speed(iter/s)": 0.447512
+    },
+    {
+      "acc": 0.65963807,
+      "epoch": 1.0328513444951801,
+      "grad_norm": 5.4375,
+      "learning_rate": 5.14175492465985e-06,
+      "loss": 1.57015285,
+      "memory(GiB)": 111.15,
+      "step": 40715,
+      "train_speed(iter/s)": 0.447541
+    },
+    {
+      "acc": 0.6568099,
+      "epoch": 1.0329781836631151,
+      "grad_norm": 5.375,
+      "learning_rate": 5.14070671938585e-06,
+      "loss": 1.61709709,
+      "memory(GiB)": 111.15,
+      "step": 40720,
+      "train_speed(iter/s)": 0.44757
+    },
+    {
+      "acc": 0.65632639,
+      "epoch": 1.0331050228310503,
+      "grad_norm": 4.96875,
+      "learning_rate": 5.139658507922937e-06,
+      "loss": 1.6002697,
+      "memory(GiB)": 111.15,
+      "step": 40725,
+      "train_speed(iter/s)": 0.447598
+    },
+    {
+      "acc": 0.64592943,
+      "epoch": 1.0332318619989853,
+      "grad_norm": 6.03125,
+      "learning_rate": 5.138610290317221e-06,
+      "loss": 1.67325859,
+      "memory(GiB)": 111.15,
+      "step": 40730,
+      "train_speed(iter/s)": 0.447627
+    },
+    {
+      "acc": 0.64382057,
+      "epoch": 1.0333587011669203,
+      "grad_norm": 5.40625,
+      "learning_rate": 5.137562066614805e-06,
+      "loss": 1.64746399,
+      "memory(GiB)": 111.15,
+      "step": 40735,
+      "train_speed(iter/s)": 0.447656
+    },
+    {
+      "acc": 0.65734453,
+      "epoch": 1.0334855403348553,
+      "grad_norm": 7.0625,
+      "learning_rate": 5.136513836861795e-06,
+      "loss": 1.51711617,
+      "memory(GiB)": 111.15,
+      "step": 40740,
+      "train_speed(iter/s)": 0.447685
+    },
+    {
+      "acc": 0.65307245,
+      "epoch": 1.0336123795027905,
+      "grad_norm": 5.0,
+      "learning_rate": 5.135465601104298e-06,
+      "loss": 1.66664238,
+      "memory(GiB)": 111.15,
+      "step": 40745,
+      "train_speed(iter/s)": 0.447714
+    },
+    {
+      "acc": 0.68397794,
+      "epoch": 1.0337392186707255,
+      "grad_norm": 4.96875,
+      "learning_rate": 5.134417359388418e-06,
+      "loss": 1.56502991,
+      "memory(GiB)": 111.15,
+      "step": 40750,
+      "train_speed(iter/s)": 0.447743
+    },
+    {
+      "acc": 0.64395456,
+      "epoch": 1.0338660578386605,
+      "grad_norm": 5.5,
+      "learning_rate": 5.133369111760264e-06,
+      "loss": 1.6396513,
+      "memory(GiB)": 111.15,
+      "step": 40755,
+      "train_speed(iter/s)": 0.447772
+    },
+    {
+      "acc": 0.66405067,
+      "epoch": 1.0339928970065957,
+      "grad_norm": 5.46875,
+      "learning_rate": 5.132320858265939e-06,
+      "loss": 1.59878254,
+      "memory(GiB)": 111.15,
+      "step": 40760,
+      "train_speed(iter/s)": 0.447801
+    },
+    {
+      "acc": 0.66319175,
+      "epoch": 1.0341197361745307,
+      "grad_norm": 6.75,
+      "learning_rate": 5.131272598951554e-06,
+      "loss": 1.61093979,
+      "memory(GiB)": 111.15,
+      "step": 40765,
+      "train_speed(iter/s)": 0.44783
+    },
+    {
+      "acc": 0.65984297,
+      "epoch": 1.0342465753424657,
+      "grad_norm": 4.5,
+      "learning_rate": 5.130224333863212e-06,
+      "loss": 1.52692137,
+      "memory(GiB)": 111.15,
+      "step": 40770,
+      "train_speed(iter/s)": 0.447858
+    },
+    {
+      "acc": 0.64868245,
+      "epoch": 1.0343734145104009,
+      "grad_norm": 5.5,
+      "learning_rate": 5.129176063047022e-06,
+      "loss": 1.63619518,
+      "memory(GiB)": 111.15,
+      "step": 40775,
+      "train_speed(iter/s)": 0.447887
+    },
+    {
+      "acc": 0.6407342,
+      "epoch": 1.0345002536783359,
+      "grad_norm": 5.78125,
+      "learning_rate": 5.128127786549094e-06,
+      "loss": 1.70756321,
+      "memory(GiB)": 111.15,
+      "step": 40780,
+      "train_speed(iter/s)": 0.447916
+    },
+    {
+      "acc": 0.64937325,
+      "epoch": 1.0346270928462709,
+      "grad_norm": 5.21875,
+      "learning_rate": 5.127079504415532e-06,
+      "loss": 1.63127022,
+      "memory(GiB)": 111.15,
+      "step": 40785,
+      "train_speed(iter/s)": 0.447945
+    },
+    {
+      "acc": 0.6689785,
+      "epoch": 1.034753932014206,
+      "grad_norm": 6.28125,
+      "learning_rate": 5.126031216692449e-06,
+      "loss": 1.52826786,
+      "memory(GiB)": 111.15,
+      "step": 40790,
+      "train_speed(iter/s)": 0.447974
+    },
+    {
+      "acc": 0.65140305,
+      "epoch": 1.034880771182141,
+      "grad_norm": 4.5625,
+      "learning_rate": 5.124982923425947e-06,
+      "loss": 1.60285378,
+      "memory(GiB)": 111.15,
+      "step": 40795,
+      "train_speed(iter/s)": 0.448003
+    },
+    {
+      "acc": 0.64701653,
+      "epoch": 1.035007610350076,
+      "grad_norm": 4.78125,
+      "learning_rate": 5.123934624662139e-06,
+      "loss": 1.63468208,
+      "memory(GiB)": 111.15,
+      "step": 40800,
+      "train_speed(iter/s)": 0.448031
+    },
+    {
+      "epoch": 1.035007610350076,
+      "eval_acc": 0.6432973203987004,
+      "eval_loss": 1.6079540252685547,
+      "eval_runtime": 114.3305,
+      "eval_samples_per_second": 55.716,
+      "eval_steps_per_second": 27.858,
+      "step": 40800
+    },
+    {
+      "acc": 0.63488569,
+      "epoch": 1.0351344495180113,
+      "grad_norm": 6.53125,
+      "learning_rate": 5.1228863204471335e-06,
+      "loss": 1.64909077,
+      "memory(GiB)": 111.15,
+      "step": 40805,
+      "train_speed(iter/s)": 0.447476
+    },
+    {
+      "acc": 0.65733476,
+      "epoch": 1.0352612886859462,
+      "grad_norm": 4.375,
+      "learning_rate": 5.121838010827039e-06,
+      "loss": 1.57177639,
+      "memory(GiB)": 111.15,
+      "step": 40810,
+      "train_speed(iter/s)": 0.447504
+    },
+    {
+      "acc": 0.64333277,
+      "epoch": 1.0353881278538812,
+      "grad_norm": 5.21875,
+      "learning_rate": 5.120789695847965e-06,
+      "loss": 1.65285835,
+      "memory(GiB)": 111.15,
+      "step": 40815,
+      "train_speed(iter/s)": 0.447533
+    },
+    {
+      "acc": 0.64745102,
+      "epoch": 1.0355149670218164,
+      "grad_norm": 5.6875,
+      "learning_rate": 5.119741375556021e-06,
+      "loss": 1.65078621,
+      "memory(GiB)": 111.15,
+      "step": 40820,
+      "train_speed(iter/s)": 0.447562
+    },
+    {
+      "acc": 0.67034769,
+      "epoch": 1.0356418061897514,
+      "grad_norm": 5.0625,
+      "learning_rate": 5.118693049997316e-06,
+      "loss": 1.54314833,
+      "memory(GiB)": 111.15,
+      "step": 40825,
+      "train_speed(iter/s)": 0.447591
+    },
+    {
+      "acc": 0.64423437,
+      "epoch": 1.0357686453576864,
+      "grad_norm": 5.875,
+      "learning_rate": 5.117644719217961e-06,
+      "loss": 1.64635735,
+      "memory(GiB)": 111.15,
+      "step": 40830,
+      "train_speed(iter/s)": 0.447619
+    },
+    {
+      "acc": 0.65076056,
+      "epoch": 1.0358954845256214,
+      "grad_norm": 5.59375,
+      "learning_rate": 5.116596383264066e-06,
+      "loss": 1.61809425,
+      "memory(GiB)": 111.15,
+      "step": 40835,
+      "train_speed(iter/s)": 0.447648
+    },
+    {
+      "acc": 0.6380867,
+      "epoch": 1.0360223236935566,
+      "grad_norm": 9.0625,
+      "learning_rate": 5.115548042181742e-06,
+      "loss": 1.67739067,
+      "memory(GiB)": 111.15,
+      "step": 40840,
+      "train_speed(iter/s)": 0.447677
+    },
+    {
+      "acc": 0.65940332,
+      "epoch": 1.0361491628614916,
+      "grad_norm": 4.4375,
+      "learning_rate": 5.114499696017098e-06,
+      "loss": 1.51522026,
+      "memory(GiB)": 111.15,
+      "step": 40845,
+      "train_speed(iter/s)": 0.447706
+    },
+    {
+      "acc": 0.64435668,
+      "epoch": 1.0362760020294266,
+      "grad_norm": 5.0,
+      "learning_rate": 5.1134513448162475e-06,
+      "loss": 1.6797226,
+      "memory(GiB)": 111.15,
+      "step": 40850,
+      "train_speed(iter/s)": 0.447735
+    },
+    {
+      "acc": 0.63998327,
+      "epoch": 1.0364028411973618,
+      "grad_norm": 5.125,
+      "learning_rate": 5.112402988625299e-06,
+      "loss": 1.64177666,
+      "memory(GiB)": 111.15,
+      "step": 40855,
+      "train_speed(iter/s)": 0.447764
+    },
+    {
+      "acc": 0.65968466,
+      "epoch": 1.0365296803652968,
+      "grad_norm": 5.75,
+      "learning_rate": 5.111354627490367e-06,
+      "loss": 1.57887211,
+      "memory(GiB)": 111.15,
+      "step": 40860,
+      "train_speed(iter/s)": 0.447793
+    },
+    {
+      "acc": 0.63749566,
+      "epoch": 1.0366565195332318,
+      "grad_norm": 5.21875,
+      "learning_rate": 5.110306261457559e-06,
+      "loss": 1.695998,
+      "memory(GiB)": 111.15,
+      "step": 40865,
+      "train_speed(iter/s)": 0.447821
+    },
+    {
+      "acc": 0.64302111,
+      "epoch": 1.036783358701167,
+      "grad_norm": 4.65625,
+      "learning_rate": 5.109257890572991e-06,
+      "loss": 1.70650558,
+      "memory(GiB)": 111.15,
+      "step": 40870,
+      "train_speed(iter/s)": 0.44785
+    },
+    {
+      "acc": 0.65584531,
+      "epoch": 1.036910197869102,
+      "grad_norm": 6.0,
+      "learning_rate": 5.108209514882772e-06,
+      "loss": 1.62428818,
+      "memory(GiB)": 111.15,
+      "step": 40875,
+      "train_speed(iter/s)": 0.447879
+    },
+    {
+      "acc": 0.63860765,
+      "epoch": 1.037037037037037,
+      "grad_norm": 5.96875,
+      "learning_rate": 5.107161134433017e-06,
+      "loss": 1.64309654,
+      "memory(GiB)": 111.15,
+      "step": 40880,
+      "train_speed(iter/s)": 0.447908
+    },
+    {
+      "acc": 0.6521987,
+      "epoch": 1.0371638762049722,
+      "grad_norm": 6.09375,
+      "learning_rate": 5.106112749269835e-06,
+      "loss": 1.58687725,
+      "memory(GiB)": 111.15,
+      "step": 40885,
+      "train_speed(iter/s)": 0.447937
+    },
+    {
+      "acc": 0.64667993,
+      "epoch": 1.0372907153729072,
+      "grad_norm": 5.65625,
+      "learning_rate": 5.105064359439341e-06,
+      "loss": 1.66483879,
+      "memory(GiB)": 111.15,
+      "step": 40890,
+      "train_speed(iter/s)": 0.447966
+    },
+    {
+      "acc": 0.66261978,
+      "epoch": 1.0374175545408422,
+      "grad_norm": 5.375,
+      "learning_rate": 5.1040159649876485e-06,
+      "loss": 1.54089003,
+      "memory(GiB)": 111.15,
+      "step": 40895,
+      "train_speed(iter/s)": 0.447995
+    },
+    {
+      "acc": 0.63992376,
+      "epoch": 1.0375443937087772,
+      "grad_norm": 5.875,
+      "learning_rate": 5.102967565960868e-06,
+      "loss": 1.67910347,
+      "memory(GiB)": 111.15,
+      "step": 40900,
+      "train_speed(iter/s)": 0.448024
+    },
+    {
+      "epoch": 1.0375443937087772,
+      "eval_acc": 0.6432864584486545,
+      "eval_loss": 1.6080029010772705,
+      "eval_runtime": 114.4644,
+      "eval_samples_per_second": 55.651,
+      "eval_steps_per_second": 27.825,
+      "step": 40900
+    },
+    {
+      "acc": 0.65248785,
+      "epoch": 1.0376712328767124,
+      "grad_norm": 5.21875,
+      "learning_rate": 5.101919162405116e-06,
+      "loss": 1.62851849,
+      "memory(GiB)": 111.15,
+      "step": 40905,
+      "train_speed(iter/s)": 0.447469
+    },
+    {
+      "acc": 0.65560546,
+      "epoch": 1.0377980720446474,
+      "grad_norm": 5.59375,
+      "learning_rate": 5.100870754366503e-06,
+      "loss": 1.59730148,
+      "memory(GiB)": 111.15,
+      "step": 40910,
+      "train_speed(iter/s)": 0.447498
+    },
+    {
+      "acc": 0.66916599,
+      "epoch": 1.0379249112125823,
+      "grad_norm": 5.75,
+      "learning_rate": 5.099822341891144e-06,
+      "loss": 1.53786001,
+      "memory(GiB)": 111.15,
+      "step": 40915,
+      "train_speed(iter/s)": 0.447526
+    },
+    {
+      "acc": 0.64343257,
+      "epoch": 1.0380517503805176,
+      "grad_norm": 5.5,
+      "learning_rate": 5.098773925025152e-06,
+      "loss": 1.6442028,
+      "memory(GiB)": 111.15,
+      "step": 40920,
+      "train_speed(iter/s)": 0.447555
+    },
+    {
+      "acc": 0.63281708,
+      "epoch": 1.0381785895484525,
+      "grad_norm": 5.59375,
+      "learning_rate": 5.097725503814643e-06,
+      "loss": 1.69906387,
+      "memory(GiB)": 111.15,
+      "step": 40925,
+      "train_speed(iter/s)": 0.447584
+    },
+    {
+      "acc": 0.6451139,
+      "epoch": 1.0383054287163875,
+      "grad_norm": 4.71875,
+      "learning_rate": 5.09667707830573e-06,
+      "loss": 1.58250751,
+      "memory(GiB)": 111.15,
+      "step": 40930,
+      "train_speed(iter/s)": 0.447613
+    },
+    {
+      "acc": 0.67246876,
+      "epoch": 1.0384322678843227,
+      "grad_norm": 5.6875,
+      "learning_rate": 5.095628648544526e-06,
+      "loss": 1.49694986,
+      "memory(GiB)": 111.15,
+      "step": 40935,
+      "train_speed(iter/s)": 0.447642
+    },
+    {
+      "acc": 0.65144882,
+      "epoch": 1.0385591070522577,
+      "grad_norm": 5.5,
+      "learning_rate": 5.0945802145771495e-06,
+      "loss": 1.56341877,
+      "memory(GiB)": 111.15,
+      "step": 40940,
+      "train_speed(iter/s)": 0.44767
+    },
+    {
+      "acc": 0.65438194,
+      "epoch": 1.0386859462201927,
+      "grad_norm": 5.3125,
+      "learning_rate": 5.093531776449711e-06,
+      "loss": 1.57775364,
+      "memory(GiB)": 111.15,
+      "step": 40945,
+      "train_speed(iter/s)": 0.447699
+    },
+    {
+      "acc": 0.6567029,
+      "epoch": 1.038812785388128,
+      "grad_norm": 5.65625,
+      "learning_rate": 5.092483334208327e-06,
+      "loss": 1.64072227,
+      "memory(GiB)": 111.15,
+      "step": 40950,
+      "train_speed(iter/s)": 0.447728
+    },
+    {
+      "acc": 0.63843875,
+      "epoch": 1.038939624556063,
+      "grad_norm": 5.3125,
+      "learning_rate": 5.091434887899114e-06,
+      "loss": 1.65412827,
+      "memory(GiB)": 111.15,
+      "step": 40955,
+      "train_speed(iter/s)": 0.447757
+    },
+    {
+      "acc": 0.65137196,
+      "epoch": 1.039066463723998,
+      "grad_norm": 5.875,
+      "learning_rate": 5.0903864375681866e-06,
+      "loss": 1.63410091,
+      "memory(GiB)": 111.15,
+      "step": 40960,
+      "train_speed(iter/s)": 0.447786
+    },
+    {
+      "acc": 0.65558853,
+      "epoch": 1.0391933028919331,
+      "grad_norm": 5.09375,
+      "learning_rate": 5.0893379832616594e-06,
+      "loss": 1.60920525,
+      "memory(GiB)": 111.15,
+      "step": 40965,
+      "train_speed(iter/s)": 0.447814
+    },
+    {
+      "acc": 0.65729518,
+      "epoch": 1.0393201420598681,
+      "grad_norm": 5.75,
+      "learning_rate": 5.08828952502565e-06,
+      "loss": 1.58674374,
+      "memory(GiB)": 111.15,
+      "step": 40970,
+      "train_speed(iter/s)": 0.447843
+    },
+    {
+      "acc": 0.65411425,
+      "epoch": 1.039446981227803,
+      "grad_norm": 4.8125,
+      "learning_rate": 5.087241062906272e-06,
+      "loss": 1.6174469,
+      "memory(GiB)": 111.15,
+      "step": 40975,
+      "train_speed(iter/s)": 0.447872
+    },
+    {
+      "acc": 0.63433638,
+      "epoch": 1.0395738203957383,
+      "grad_norm": 4.78125,
+      "learning_rate": 5.086192596949643e-06,
+      "loss": 1.65459747,
+      "memory(GiB)": 111.15,
+      "step": 40980,
+      "train_speed(iter/s)": 0.447901
+    },
+    {
+      "acc": 0.65891299,
+      "epoch": 1.0397006595636733,
+      "grad_norm": 5.21875,
+      "learning_rate": 5.085144127201879e-06,
+      "loss": 1.57019787,
+      "memory(GiB)": 111.15,
+      "step": 40985,
+      "train_speed(iter/s)": 0.44793
+    },
+    {
+      "acc": 0.6594985,
+      "epoch": 1.0398274987316083,
+      "grad_norm": 5.875,
+      "learning_rate": 5.084095653709096e-06,
+      "loss": 1.52025614,
+      "memory(GiB)": 111.15,
+      "step": 40990,
+      "train_speed(iter/s)": 0.447959
+    },
+    {
+      "acc": 0.66843004,
+      "epoch": 1.0399543378995433,
+      "grad_norm": 5.4375,
+      "learning_rate": 5.0830471765174096e-06,
+      "loss": 1.61086578,
+      "memory(GiB)": 111.15,
+      "step": 40995,
+      "train_speed(iter/s)": 0.447988
+    },
+    {
+      "acc": 0.64343576,
+      "epoch": 1.0400811770674785,
+      "grad_norm": 5.59375,
+      "learning_rate": 5.0819986956729395e-06,
+      "loss": 1.64727268,
+      "memory(GiB)": 111.15,
+      "step": 41000,
+      "train_speed(iter/s)": 0.448017
+    },
+    {
+      "epoch": 1.0400811770674785,
+      "eval_acc": 0.6433441103373596,
+      "eval_loss": 1.6080927848815918,
+      "eval_runtime": 113.876,
+      "eval_samples_per_second": 55.938,
+      "eval_steps_per_second": 27.969,
+      "step": 41000
+    },
+    {
+      "acc": 0.66668983,
+      "epoch": 1.0402080162354135,
+      "grad_norm": 6.75,
+      "learning_rate": 5.080950211221799e-06,
+      "loss": 1.56072845,
+      "memory(GiB)": 111.15,
+      "step": 41005,
+      "train_speed(iter/s)": 0.447466
+    },
+    {
+      "acc": 0.6455523,
+      "epoch": 1.0403348554033485,
+      "grad_norm": 5.625,
+      "learning_rate": 5.079901723210109e-06,
+      "loss": 1.62132072,
+      "memory(GiB)": 111.15,
+      "step": 41010,
+      "train_speed(iter/s)": 0.447494
+    },
+    {
+      "acc": 0.65115528,
+      "epoch": 1.0404616945712837,
+      "grad_norm": 5.5625,
+      "learning_rate": 5.078853231683981e-06,
+      "loss": 1.601297,
+      "memory(GiB)": 111.15,
+      "step": 41015,
+      "train_speed(iter/s)": 0.447523
+    },
+    {
+      "acc": 0.65062113,
+      "epoch": 1.0405885337392187,
+      "grad_norm": 5.28125,
+      "learning_rate": 5.077804736689539e-06,
+      "loss": 1.67061729,
+      "memory(GiB)": 111.15,
+      "step": 41020,
+      "train_speed(iter/s)": 0.447552
+    },
+    {
+      "acc": 0.65944533,
+      "epoch": 1.0407153729071537,
+      "grad_norm": 5.96875,
+      "learning_rate": 5.0767562382728955e-06,
+      "loss": 1.57506714,
+      "memory(GiB)": 111.15,
+      "step": 41025,
+      "train_speed(iter/s)": 0.447581
+    },
+    {
+      "acc": 0.63766208,
+      "epoch": 1.0408422120750889,
+      "grad_norm": 5.9375,
+      "learning_rate": 5.075707736480171e-06,
+      "loss": 1.70299683,
+      "memory(GiB)": 111.15,
+      "step": 41030,
+      "train_speed(iter/s)": 0.44761
+    },
+    {
+      "acc": 0.64936695,
+      "epoch": 1.0409690512430239,
+      "grad_norm": 5.46875,
+      "learning_rate": 5.074659231357482e-06,
+      "loss": 1.63858891,
+      "memory(GiB)": 111.15,
+      "step": 41035,
+      "train_speed(iter/s)": 0.447639
+    },
+    {
+      "acc": 0.65061126,
+      "epoch": 1.0410958904109588,
+      "grad_norm": 4.4375,
+      "learning_rate": 5.073610722950947e-06,
+      "loss": 1.63703995,
+      "memory(GiB)": 111.15,
+      "step": 41040,
+      "train_speed(iter/s)": 0.447667
+    },
+    {
+      "acc": 0.64435196,
+      "epoch": 1.041222729578894,
+      "grad_norm": 5.9375,
+      "learning_rate": 5.072562211306683e-06,
+      "loss": 1.60127449,
+      "memory(GiB)": 111.15,
+      "step": 41045,
+      "train_speed(iter/s)": 0.447696
+    },
+    {
+      "acc": 0.64154825,
+      "epoch": 1.041349568746829,
+      "grad_norm": 5.8125,
+      "learning_rate": 5.071513696470809e-06,
+      "loss": 1.67070961,
+      "memory(GiB)": 111.15,
+      "step": 41050,
+      "train_speed(iter/s)": 0.447725
+    },
+    {
+      "acc": 0.65889044,
+      "epoch": 1.041476407914764,
+      "grad_norm": 6.6875,
+      "learning_rate": 5.070465178489443e-06,
+      "loss": 1.65068092,
+      "memory(GiB)": 111.15,
+      "step": 41055,
+      "train_speed(iter/s)": 0.447755
+    },
+    {
+      "acc": 0.65784783,
+      "epoch": 1.041603247082699,
+      "grad_norm": 4.90625,
+      "learning_rate": 5.069416657408704e-06,
+      "loss": 1.58803673,
+      "memory(GiB)": 111.15,
+      "step": 41060,
+      "train_speed(iter/s)": 0.447784
+    },
+    {
+      "acc": 0.65429068,
+      "epoch": 1.0417300862506342,
+      "grad_norm": 4.53125,
+      "learning_rate": 5.0683681332747105e-06,
+      "loss": 1.67527542,
+      "memory(GiB)": 111.15,
+      "step": 41065,
+      "train_speed(iter/s)": 0.447813
+    },
+    {
+      "acc": 0.65455174,
+      "epoch": 1.0418569254185692,
+      "grad_norm": 4.625,
+      "learning_rate": 5.067319606133583e-06,
+      "loss": 1.65811615,
+      "memory(GiB)": 111.15,
+      "step": 41070,
+      "train_speed(iter/s)": 0.447842
+    },
+    {
+      "acc": 0.66336813,
+      "epoch": 1.0419837645865042,
+      "grad_norm": 6.09375,
+      "learning_rate": 5.066271076031436e-06,
+      "loss": 1.5706151,
+      "memory(GiB)": 111.15,
+      "step": 41075,
+      "train_speed(iter/s)": 0.447871
+    },
+    {
+      "acc": 0.6484437,
+      "epoch": 1.0421106037544394,
+      "grad_norm": 5.25,
+      "learning_rate": 5.065222543014394e-06,
+      "loss": 1.64866486,
+      "memory(GiB)": 111.15,
+      "step": 41080,
+      "train_speed(iter/s)": 0.4479
+    },
+    {
+      "acc": 0.64865565,
+      "epoch": 1.0422374429223744,
+      "grad_norm": 6.34375,
+      "learning_rate": 5.06417400712857e-06,
+      "loss": 1.64748135,
+      "memory(GiB)": 111.15,
+      "step": 41085,
+      "train_speed(iter/s)": 0.447929
+    },
+    {
+      "acc": 0.6580224,
+      "epoch": 1.0423642820903094,
+      "grad_norm": 5.3125,
+      "learning_rate": 5.0631254684200906e-06,
+      "loss": 1.56194439,
+      "memory(GiB)": 111.15,
+      "step": 41090,
+      "train_speed(iter/s)": 0.447958
+    },
+    {
+      "acc": 0.66102161,
+      "epoch": 1.0424911212582446,
+      "grad_norm": 5.4375,
+      "learning_rate": 5.062076926935068e-06,
+      "loss": 1.61562958,
+      "memory(GiB)": 111.15,
+      "step": 41095,
+      "train_speed(iter/s)": 0.447988
+    },
+    {
+      "acc": 0.65637355,
+      "epoch": 1.0426179604261796,
+      "grad_norm": 5.53125,
+      "learning_rate": 5.061028382719626e-06,
+      "loss": 1.56043463,
+      "memory(GiB)": 111.15,
+      "step": 41100,
+      "train_speed(iter/s)": 0.448017
+    },
+    {
+      "epoch": 1.0426179604261796,
+      "eval_acc": 0.6432789386370843,
+      "eval_loss": 1.6078935861587524,
+      "eval_runtime": 114.3941,
+      "eval_samples_per_second": 55.685,
+      "eval_steps_per_second": 27.842,
+      "step": 41100
+    },
+    {
+      "acc": 0.65185738,
+      "epoch": 1.0427447995941146,
+      "grad_norm": 5.4375,
+      "learning_rate": 5.0599798358198835e-06,
+      "loss": 1.58938799,
+      "memory(GiB)": 111.15,
+      "step": 41105,
+      "train_speed(iter/s)": 0.447465
+    },
+    {
+      "acc": 0.64666548,
+      "epoch": 1.0428716387620498,
+      "grad_norm": 5.34375,
+      "learning_rate": 5.0589312862819605e-06,
+      "loss": 1.61957588,
+      "memory(GiB)": 111.15,
+      "step": 41110,
+      "train_speed(iter/s)": 0.447494
+    },
+    {
+      "acc": 0.66259336,
+      "epoch": 1.0429984779299848,
+      "grad_norm": 5.15625,
+      "learning_rate": 5.057882734151977e-06,
+      "loss": 1.54000654,
+      "memory(GiB)": 111.15,
+      "step": 41115,
+      "train_speed(iter/s)": 0.447523
+    },
+    {
+      "acc": 0.64513125,
+      "epoch": 1.0431253170979198,
+      "grad_norm": 5.3125,
+      "learning_rate": 5.05683417947605e-06,
+      "loss": 1.63933792,
+      "memory(GiB)": 111.15,
+      "step": 41120,
+      "train_speed(iter/s)": 0.447552
+    },
+    {
+      "acc": 0.64459567,
+      "epoch": 1.043252156265855,
+      "grad_norm": 5.8125,
+      "learning_rate": 5.055785622300303e-06,
+      "loss": 1.63526134,
+      "memory(GiB)": 111.15,
+      "step": 41125,
+      "train_speed(iter/s)": 0.447581
+    },
+    {
+      "acc": 0.65142193,
+      "epoch": 1.04337899543379,
+      "grad_norm": 4.59375,
+      "learning_rate": 5.054737062670857e-06,
+      "loss": 1.63840141,
+      "memory(GiB)": 111.15,
+      "step": 41130,
+      "train_speed(iter/s)": 0.447609
+    },
+    {
+      "acc": 0.64377842,
+      "epoch": 1.043505834601725,
+      "grad_norm": 5.21875,
+      "learning_rate": 5.053688500633828e-06,
+      "loss": 1.59433794,
+      "memory(GiB)": 111.15,
+      "step": 41135,
+      "train_speed(iter/s)": 0.447638
+    },
+    {
+      "acc": 0.65733337,
+      "epoch": 1.0436326737696602,
+      "grad_norm": 6.0,
+      "learning_rate": 5.052639936235341e-06,
+      "loss": 1.57682009,
+      "memory(GiB)": 111.15,
+      "step": 41140,
+      "train_speed(iter/s)": 0.447667
+    },
+    {
+      "acc": 0.65228024,
+      "epoch": 1.0437595129375952,
+      "grad_norm": 7.0625,
+      "learning_rate": 5.051591369521513e-06,
+      "loss": 1.62955685,
+      "memory(GiB)": 111.15,
+      "step": 41145,
+      "train_speed(iter/s)": 0.447696
+    },
+    {
+      "acc": 0.64480276,
+      "epoch": 1.0438863521055302,
+      "grad_norm": 5.75,
+      "learning_rate": 5.050542800538469e-06,
+      "loss": 1.60388947,
+      "memory(GiB)": 111.15,
+      "step": 41150,
+      "train_speed(iter/s)": 0.447725
+    },
+    {
+      "acc": 0.65521536,
+      "epoch": 1.0440131912734651,
+      "grad_norm": 5.125,
+      "learning_rate": 5.049494229332324e-06,
+      "loss": 1.66966076,
+      "memory(GiB)": 111.15,
+      "step": 41155,
+      "train_speed(iter/s)": 0.447754
+    },
+    {
+      "acc": 0.65751781,
+      "epoch": 1.0441400304414004,
+      "grad_norm": 5.0,
+      "learning_rate": 5.048445655949204e-06,
+      "loss": 1.61418495,
+      "memory(GiB)": 111.15,
+      "step": 41160,
+      "train_speed(iter/s)": 0.447782
+    },
+    {
+      "acc": 0.63896503,
+      "epoch": 1.0442668696093353,
+      "grad_norm": 5.1875,
+      "learning_rate": 5.047397080435225e-06,
+      "loss": 1.70956783,
+      "memory(GiB)": 111.15,
+      "step": 41165,
+      "train_speed(iter/s)": 0.447811
+    },
+    {
+      "acc": 0.65428047,
+      "epoch": 1.0443937087772703,
+      "grad_norm": 5.28125,
+      "learning_rate": 5.046348502836512e-06,
+      "loss": 1.68791084,
+      "memory(GiB)": 111.15,
+      "step": 41170,
+      "train_speed(iter/s)": 0.447841
+    },
+    {
+      "acc": 0.6444273,
+      "epoch": 1.0445205479452055,
+      "grad_norm": 4.90625,
+      "learning_rate": 5.045299923199186e-06,
+      "loss": 1.62266731,
+      "memory(GiB)": 111.15,
+      "step": 41175,
+      "train_speed(iter/s)": 0.447869
+    },
+    {
+      "acc": 0.65184245,
+      "epoch": 1.0446473871131405,
+      "grad_norm": 4.5,
+      "learning_rate": 5.044251341569366e-06,
+      "loss": 1.57923622,
+      "memory(GiB)": 111.15,
+      "step": 41180,
+      "train_speed(iter/s)": 0.447898
+    },
+    {
+      "acc": 0.63445482,
+      "epoch": 1.0447742262810755,
+      "grad_norm": 6.8125,
+      "learning_rate": 5.043202757993175e-06,
+      "loss": 1.72848911,
+      "memory(GiB)": 111.15,
+      "step": 41185,
+      "train_speed(iter/s)": 0.447927
+    },
+    {
+      "acc": 0.62730656,
+      "epoch": 1.0449010654490107,
+      "grad_norm": 7.78125,
+      "learning_rate": 5.042154172516734e-06,
+      "loss": 1.65335712,
+      "memory(GiB)": 111.15,
+      "step": 41190,
+      "train_speed(iter/s)": 0.447955
+    },
+    {
+      "acc": 0.6533968,
+      "epoch": 1.0450279046169457,
+      "grad_norm": 5.4375,
+      "learning_rate": 5.041105585186164e-06,
+      "loss": 1.61289768,
+      "memory(GiB)": 111.15,
+      "step": 41195,
+      "train_speed(iter/s)": 0.447984
+    },
+    {
+      "acc": 0.66363182,
+      "epoch": 1.0451547437848807,
+      "grad_norm": 4.6875,
+      "learning_rate": 5.040056996047587e-06,
+      "loss": 1.63038387,
+      "memory(GiB)": 111.15,
+      "step": 41200,
+      "train_speed(iter/s)": 0.448012
+    },
+    {
+      "epoch": 1.0451547437848807,
+      "eval_acc": 0.6433278174122908,
+      "eval_loss": 1.607922911643982,
+      "eval_runtime": 113.7005,
+      "eval_samples_per_second": 56.024,
+      "eval_steps_per_second": 28.012,
+      "step": 41200
+    },
+    {
+      "acc": 0.65747271,
+      "epoch": 1.045281582952816,
+      "grad_norm": 5.21875,
+      "learning_rate": 5.039008405147125e-06,
+      "loss": 1.55639734,
+      "memory(GiB)": 111.15,
+      "step": 41205,
+      "train_speed(iter/s)": 0.447465
+    },
+    {
+      "acc": 0.64198084,
+      "epoch": 1.045408422120751,
+      "grad_norm": 6.0625,
+      "learning_rate": 5.0379598125308984e-06,
+      "loss": 1.66575546,
+      "memory(GiB)": 111.15,
+      "step": 41210,
+      "train_speed(iter/s)": 0.447494
+    },
+    {
+      "acc": 0.63691568,
+      "epoch": 1.045535261288686,
+      "grad_norm": 5.5625,
+      "learning_rate": 5.036911218245029e-06,
+      "loss": 1.70568542,
+      "memory(GiB)": 111.15,
+      "step": 41215,
+      "train_speed(iter/s)": 0.447522
+    },
+    {
+      "acc": 0.65117254,
+      "epoch": 1.045662100456621,
+      "grad_norm": 4.75,
+      "learning_rate": 5.035862622335641e-06,
+      "loss": 1.6058918,
+      "memory(GiB)": 111.15,
+      "step": 41220,
+      "train_speed(iter/s)": 0.447551
+    },
+    {
+      "acc": 0.66283898,
+      "epoch": 1.045788939624556,
+      "grad_norm": 5.15625,
+      "learning_rate": 5.034814024848853e-06,
+      "loss": 1.59637547,
+      "memory(GiB)": 111.15,
+      "step": 41225,
+      "train_speed(iter/s)": 0.447579
+    },
+    {
+      "acc": 0.66006317,
+      "epoch": 1.045915778792491,
+      "grad_norm": 5.09375,
+      "learning_rate": 5.033765425830791e-06,
+      "loss": 1.59055967,
+      "memory(GiB)": 111.15,
+      "step": 41230,
+      "train_speed(iter/s)": 0.447608
+    },
+    {
+      "acc": 0.65510993,
+      "epoch": 1.046042617960426,
+      "grad_norm": 6.875,
+      "learning_rate": 5.032716825327573e-06,
+      "loss": 1.61936722,
+      "memory(GiB)": 111.15,
+      "step": 41235,
+      "train_speed(iter/s)": 0.447636
+    },
+    {
+      "acc": 0.65027905,
+      "epoch": 1.0461694571283613,
+      "grad_norm": 5.75,
+      "learning_rate": 5.031668223385323e-06,
+      "loss": 1.59913139,
+      "memory(GiB)": 111.15,
+      "step": 41240,
+      "train_speed(iter/s)": 0.447665
+    },
+    {
+      "acc": 0.64304953,
+      "epoch": 1.0462962962962963,
+      "grad_norm": 5.875,
+      "learning_rate": 5.030619620050163e-06,
+      "loss": 1.64939537,
+      "memory(GiB)": 111.15,
+      "step": 41245,
+      "train_speed(iter/s)": 0.447693
+    },
+    {
+      "acc": 0.67448773,
+      "epoch": 1.0464231354642313,
+      "grad_norm": 5.71875,
+      "learning_rate": 5.029571015368217e-06,
+      "loss": 1.50006161,
+      "memory(GiB)": 111.15,
+      "step": 41250,
+      "train_speed(iter/s)": 0.447722
+    },
+    {
+      "acc": 0.64383898,
+      "epoch": 1.0465499746321665,
+      "grad_norm": 5.15625,
+      "learning_rate": 5.028522409385605e-06,
+      "loss": 1.61359253,
+      "memory(GiB)": 111.15,
+      "step": 41255,
+      "train_speed(iter/s)": 0.447751
+    },
+    {
+      "acc": 0.65242805,
+      "epoch": 1.0466768138001015,
+      "grad_norm": 4.71875,
+      "learning_rate": 5.0274738021484495e-06,
+      "loss": 1.55669518,
+      "memory(GiB)": 111.15,
+      "step": 41260,
+      "train_speed(iter/s)": 0.447779
+    },
+    {
+      "acc": 0.63750105,
+      "epoch": 1.0468036529680365,
+      "grad_norm": 5.78125,
+      "learning_rate": 5.026425193702874e-06,
+      "loss": 1.65287399,
+      "memory(GiB)": 111.15,
+      "step": 41265,
+      "train_speed(iter/s)": 0.447808
+    },
+    {
+      "acc": 0.6729043,
+      "epoch": 1.0469304921359717,
+      "grad_norm": 5.09375,
+      "learning_rate": 5.025376584095001e-06,
+      "loss": 1.49361486,
+      "memory(GiB)": 111.15,
+      "step": 41270,
+      "train_speed(iter/s)": 0.447836
+    },
+    {
+      "acc": 0.66202035,
+      "epoch": 1.0470573313039067,
+      "grad_norm": 6.03125,
+      "learning_rate": 5.024327973370951e-06,
+      "loss": 1.5671957,
+      "memory(GiB)": 111.15,
+      "step": 41275,
+      "train_speed(iter/s)": 0.447865
+    },
+    {
+      "acc": 0.63682976,
+      "epoch": 1.0471841704718416,
+      "grad_norm": 5.96875,
+      "learning_rate": 5.02327936157685e-06,
+      "loss": 1.67426186,
+      "memory(GiB)": 111.15,
+      "step": 41280,
+      "train_speed(iter/s)": 0.447894
+    },
+    {
+      "acc": 0.6498147,
+      "epoch": 1.0473110096397769,
+      "grad_norm": 5.25,
+      "learning_rate": 5.022230748758816e-06,
+      "loss": 1.59235554,
+      "memory(GiB)": 111.15,
+      "step": 41285,
+      "train_speed(iter/s)": 0.447922
+    },
+    {
+      "acc": 0.66580114,
+      "epoch": 1.0474378488077118,
+      "grad_norm": 5.875,
+      "learning_rate": 5.021182134962978e-06,
+      "loss": 1.62084732,
+      "memory(GiB)": 111.15,
+      "step": 41290,
+      "train_speed(iter/s)": 0.447951
+    },
+    {
+      "acc": 0.65972061,
+      "epoch": 1.0475646879756468,
+      "grad_norm": 4.375,
+      "learning_rate": 5.020133520235453e-06,
+      "loss": 1.61086044,
+      "memory(GiB)": 111.15,
+      "step": 41295,
+      "train_speed(iter/s)": 0.447979
+    },
+    {
+      "acc": 0.64280195,
+      "epoch": 1.047691527143582,
+      "grad_norm": 5.0,
+      "learning_rate": 5.019084904622367e-06,
+      "loss": 1.66787224,
+      "memory(GiB)": 111.15,
+      "step": 41300,
+      "train_speed(iter/s)": 0.448008
+    },
+    {
+      "epoch": 1.047691527143582,
+      "eval_acc": 0.6433332483873138,
+      "eval_loss": 1.6079574823379517,
+      "eval_runtime": 113.607,
+      "eval_samples_per_second": 56.07,
+      "eval_steps_per_second": 28.035,
+      "step": 41300
+    },
+    {
+      "acc": 0.64389014,
+      "epoch": 1.047818366311517,
+      "grad_norm": 4.375,
+      "learning_rate": 5.01803628816984e-06,
+      "loss": 1.61635475,
+      "memory(GiB)": 111.15,
+      "step": 41305,
+      "train_speed(iter/s)": 0.447462
+    },
+    {
+      "acc": 0.64811792,
+      "epoch": 1.047945205479452,
+      "grad_norm": 5.96875,
+      "learning_rate": 5.016987670923998e-06,
+      "loss": 1.58635883,
+      "memory(GiB)": 111.15,
+      "step": 41310,
+      "train_speed(iter/s)": 0.44749
+    },
+    {
+      "acc": 0.66456432,
+      "epoch": 1.048072044647387,
+      "grad_norm": 5.65625,
+      "learning_rate": 5.0159390529309615e-06,
+      "loss": 1.51359539,
+      "memory(GiB)": 111.15,
+      "step": 41315,
+      "train_speed(iter/s)": 0.447519
+    },
+    {
+      "acc": 0.6507175,
+      "epoch": 1.0481988838153222,
+      "grad_norm": 5.5,
+      "learning_rate": 5.014890434236854e-06,
+      "loss": 1.589674,
+      "memory(GiB)": 111.15,
+      "step": 41320,
+      "train_speed(iter/s)": 0.447547
+    },
+    {
+      "acc": 0.63273487,
+      "epoch": 1.0483257229832572,
+      "grad_norm": 5.84375,
+      "learning_rate": 5.0138418148878e-06,
+      "loss": 1.69515762,
+      "memory(GiB)": 111.15,
+      "step": 41325,
+      "train_speed(iter/s)": 0.447576
+    },
+    {
+      "acc": 0.66087823,
+      "epoch": 1.0484525621511922,
+      "grad_norm": 6.09375,
+      "learning_rate": 5.01279319492992e-06,
+      "loss": 1.61725693,
+      "memory(GiB)": 111.15,
+      "step": 41330,
+      "train_speed(iter/s)": 0.447604
+    },
+    {
+      "acc": 0.63669882,
+      "epoch": 1.0485794013191274,
+      "grad_norm": 4.84375,
+      "learning_rate": 5.01174457440934e-06,
+      "loss": 1.61847954,
+      "memory(GiB)": 111.15,
+      "step": 41335,
+      "train_speed(iter/s)": 0.447632
+    },
+    {
+      "acc": 0.66644945,
+      "epoch": 1.0487062404870624,
+      "grad_norm": 4.875,
+      "learning_rate": 5.010695953372179e-06,
+      "loss": 1.59719458,
+      "memory(GiB)": 111.15,
+      "step": 41340,
+      "train_speed(iter/s)": 0.447661
+    },
+    {
+      "acc": 0.65537276,
+      "epoch": 1.0488330796549974,
+      "grad_norm": 5.6875,
+      "learning_rate": 5.009647331864563e-06,
+      "loss": 1.59391222,
+      "memory(GiB)": 111.15,
+      "step": 41345,
+      "train_speed(iter/s)": 0.447689
+    },
+    {
+      "acc": 0.65975494,
+      "epoch": 1.0489599188229326,
+      "grad_norm": 5.5625,
+      "learning_rate": 5.008598709932615e-06,
+      "loss": 1.62572289,
+      "memory(GiB)": 111.15,
+      "step": 41350,
+      "train_speed(iter/s)": 0.447718
+    },
+    {
+      "acc": 0.6454555,
+      "epoch": 1.0490867579908676,
+      "grad_norm": 5.4375,
+      "learning_rate": 5.007550087622456e-06,
+      "loss": 1.68592033,
+      "memory(GiB)": 111.15,
+      "step": 41355,
+      "train_speed(iter/s)": 0.447746
+    },
+    {
+      "acc": 0.66192613,
+      "epoch": 1.0492135971588026,
+      "grad_norm": 5.96875,
+      "learning_rate": 5.0065014649802124e-06,
+      "loss": 1.5834548,
+      "memory(GiB)": 111.15,
+      "step": 41360,
+      "train_speed(iter/s)": 0.447775
+    },
+    {
+      "acc": 0.64973631,
+      "epoch": 1.0493404363267378,
+      "grad_norm": 4.84375,
+      "learning_rate": 5.005452842052003e-06,
+      "loss": 1.65350857,
+      "memory(GiB)": 111.15,
+      "step": 41365,
+      "train_speed(iter/s)": 0.447803
+    },
+    {
+      "acc": 0.65237398,
+      "epoch": 1.0494672754946728,
+      "grad_norm": 5.34375,
+      "learning_rate": 5.004404218883955e-06,
+      "loss": 1.63232288,
+      "memory(GiB)": 111.15,
+      "step": 41370,
+      "train_speed(iter/s)": 0.447831
+    },
+    {
+      "acc": 0.66964989,
+      "epoch": 1.0495941146626078,
+      "grad_norm": 6.46875,
+      "learning_rate": 5.0033555955221875e-06,
+      "loss": 1.60175323,
+      "memory(GiB)": 111.15,
+      "step": 41375,
+      "train_speed(iter/s)": 0.44786
+    },
+    {
+      "acc": 0.6546792,
+      "epoch": 1.0497209538305428,
+      "grad_norm": 5.125,
+      "learning_rate": 5.002306972012829e-06,
+      "loss": 1.59816303,
+      "memory(GiB)": 111.15,
+      "step": 41380,
+      "train_speed(iter/s)": 0.447889
+    },
+    {
+      "acc": 0.65405612,
+      "epoch": 1.049847792998478,
+      "grad_norm": 4.625,
+      "learning_rate": 5.001258348401998e-06,
+      "loss": 1.60086021,
+      "memory(GiB)": 111.15,
+      "step": 41385,
+      "train_speed(iter/s)": 0.447917
+    },
+    {
+      "acc": 0.65473151,
+      "epoch": 1.049974632166413,
+      "grad_norm": 5.21875,
+      "learning_rate": 5.000209724735819e-06,
+      "loss": 1.63437271,
+      "memory(GiB)": 111.15,
+      "step": 41390,
+      "train_speed(iter/s)": 0.447946
+    },
+    {
+      "acc": 0.64984846,
+      "epoch": 1.050101471334348,
+      "grad_norm": 5.59375,
+      "learning_rate": 4.999161101060416e-06,
+      "loss": 1.66689453,
+      "memory(GiB)": 111.15,
+      "step": 41395,
+      "train_speed(iter/s)": 0.447974
+    },
+    {
+      "acc": 0.63587079,
+      "epoch": 1.0502283105022832,
+      "grad_norm": 5.78125,
+      "learning_rate": 4.99811247742191e-06,
+      "loss": 1.68938675,
+      "memory(GiB)": 111.15,
+      "step": 41400,
+      "train_speed(iter/s)": 0.448003
+    },
+    {
+      "epoch": 1.0502283105022832,
+      "eval_acc": 0.6433867226029243,
+      "eval_loss": 1.6079118251800537,
+      "eval_runtime": 113.3231,
+      "eval_samples_per_second": 56.211,
+      "eval_steps_per_second": 28.105,
+      "step": 41400
+    },
+    {
+      "acc": 0.64716449,
+      "epoch": 1.0503551496702181,
+      "grad_norm": 5.375,
+      "learning_rate": 4.9970638538664275e-06,
+      "loss": 1.63772545,
+      "memory(GiB)": 111.15,
+      "step": 41405,
+      "train_speed(iter/s)": 0.44746
+    },
+    {
+      "acc": 0.64550753,
+      "epoch": 1.0504819888381531,
+      "grad_norm": 4.375,
+      "learning_rate": 4.996015230440091e-06,
+      "loss": 1.5745451,
+      "memory(GiB)": 111.15,
+      "step": 41410,
+      "train_speed(iter/s)": 0.447488
+    },
+    {
+      "acc": 0.65790439,
+      "epoch": 1.0506088280060883,
+      "grad_norm": 5.53125,
+      "learning_rate": 4.99496660718902e-06,
+      "loss": 1.52142334,
+      "memory(GiB)": 111.15,
+      "step": 41415,
+      "train_speed(iter/s)": 0.447517
+    },
+    {
+      "acc": 0.65228167,
+      "epoch": 1.0507356671740233,
+      "grad_norm": 5.0,
+      "learning_rate": 4.99391798415934e-06,
+      "loss": 1.5975812,
+      "memory(GiB)": 111.15,
+      "step": 41420,
+      "train_speed(iter/s)": 0.447545
+    },
+    {
+      "acc": 0.65375223,
+      "epoch": 1.0508625063419583,
+      "grad_norm": 5.1875,
+      "learning_rate": 4.992869361397175e-06,
+      "loss": 1.61226254,
+      "memory(GiB)": 111.15,
+      "step": 41425,
+      "train_speed(iter/s)": 0.447573
+    },
+    {
+      "acc": 0.64917965,
+      "epoch": 1.0509893455098935,
+      "grad_norm": 4.96875,
+      "learning_rate": 4.991820738948649e-06,
+      "loss": 1.57846651,
+      "memory(GiB)": 111.15,
+      "step": 41430,
+      "train_speed(iter/s)": 0.447602
+    },
+    {
+      "acc": 0.64134197,
+      "epoch": 1.0511161846778285,
+      "grad_norm": 6.40625,
+      "learning_rate": 4.9907721168598805e-06,
+      "loss": 1.64574299,
+      "memory(GiB)": 111.15,
+      "step": 41435,
+      "train_speed(iter/s)": 0.44763
+    },
+    {
+      "acc": 0.66372609,
+      "epoch": 1.0512430238457635,
+      "grad_norm": 4.875,
+      "learning_rate": 4.989723495176997e-06,
+      "loss": 1.58076591,
+      "memory(GiB)": 111.15,
+      "step": 41440,
+      "train_speed(iter/s)": 0.447659
+    },
+    {
+      "acc": 0.66658134,
+      "epoch": 1.0513698630136987,
+      "grad_norm": 5.1875,
+      "learning_rate": 4.988674873946118e-06,
+      "loss": 1.54508991,
+      "memory(GiB)": 111.15,
+      "step": 41445,
+      "train_speed(iter/s)": 0.447687
+    },
+    {
+      "acc": 0.66063328,
+      "epoch": 1.0514967021816337,
+      "grad_norm": 6.1875,
+      "learning_rate": 4.987626253213373e-06,
+      "loss": 1.60391693,
+      "memory(GiB)": 111.15,
+      "step": 41450,
+      "train_speed(iter/s)": 0.447716
+    },
+    {
+      "acc": 0.6602973,
+      "epoch": 1.0516235413495687,
+      "grad_norm": 5.65625,
+      "learning_rate": 4.986577633024877e-06,
+      "loss": 1.63489685,
+      "memory(GiB)": 111.15,
+      "step": 41455,
+      "train_speed(iter/s)": 0.447744
+    },
+    {
+      "acc": 0.64594297,
+      "epoch": 1.051750380517504,
+      "grad_norm": 5.71875,
+      "learning_rate": 4.985529013426758e-06,
+      "loss": 1.64574318,
+      "memory(GiB)": 111.15,
+      "step": 41460,
+      "train_speed(iter/s)": 0.447773
+    },
+    {
+      "acc": 0.65249085,
+      "epoch": 1.051877219685439,
+      "grad_norm": 5.34375,
+      "learning_rate": 4.984480394465136e-06,
+      "loss": 1.55723352,
+      "memory(GiB)": 111.15,
+      "step": 41465,
+      "train_speed(iter/s)": 0.447801
+    },
+    {
+      "acc": 0.64868441,
+      "epoch": 1.052004058853374,
+      "grad_norm": 4.34375,
+      "learning_rate": 4.9834317761861385e-06,
+      "loss": 1.61537743,
+      "memory(GiB)": 111.15,
+      "step": 41470,
+      "train_speed(iter/s)": 0.44783
+    },
+    {
+      "acc": 0.64188175,
+      "epoch": 1.0521308980213089,
+      "grad_norm": 5.71875,
+      "learning_rate": 4.982383158635884e-06,
+      "loss": 1.6617466,
+      "memory(GiB)": 111.15,
+      "step": 41475,
+      "train_speed(iter/s)": 0.447858
+    },
+    {
+      "acc": 0.64264688,
+      "epoch": 1.052257737189244,
+      "grad_norm": 5.59375,
+      "learning_rate": 4.981334541860496e-06,
+      "loss": 1.64584541,
+      "memory(GiB)": 111.15,
+      "step": 41480,
+      "train_speed(iter/s)": 0.447887
+    },
+    {
+      "acc": 0.64641542,
+      "epoch": 1.052384576357179,
+      "grad_norm": 5.59375,
+      "learning_rate": 4.980285925906098e-06,
+      "loss": 1.6408493,
+      "memory(GiB)": 111.15,
+      "step": 41485,
+      "train_speed(iter/s)": 0.447915
+    },
+    {
+      "acc": 0.64465728,
+      "epoch": 1.052511415525114,
+      "grad_norm": 5.09375,
+      "learning_rate": 4.9792373108188155e-06,
+      "loss": 1.63844452,
+      "memory(GiB)": 111.15,
+      "step": 41490,
+      "train_speed(iter/s)": 0.447943
+    },
+    {
+      "acc": 0.65630188,
+      "epoch": 1.0526382546930493,
+      "grad_norm": 6.53125,
+      "learning_rate": 4.978188696644767e-06,
+      "loss": 1.57658367,
+      "memory(GiB)": 111.15,
+      "step": 41495,
+      "train_speed(iter/s)": 0.447972
+    },
+    {
+      "acc": 0.66106791,
+      "epoch": 1.0527650938609843,
+      "grad_norm": 4.8125,
+      "learning_rate": 4.977140083430075e-06,
+      "loss": 1.56866264,
+      "memory(GiB)": 111.15,
+      "step": 41500,
+      "train_speed(iter/s)": 0.448
+    },
+    {
+      "epoch": 1.0527650938609843,
+      "eval_acc": 0.6433771139548068,
+      "eval_loss": 1.6079896688461304,
+      "eval_runtime": 114.4588,
+      "eval_samples_per_second": 55.653,
+      "eval_steps_per_second": 27.827,
+      "step": 41500
+    },
+    {
+      "acc": 0.66230946,
+      "epoch": 1.0528919330289193,
+      "grad_norm": 4.3125,
+      "learning_rate": 4.976091471220867e-06,
+      "loss": 1.60003586,
+      "memory(GiB)": 111.15,
+      "step": 41505,
+      "train_speed(iter/s)": 0.447453
+    },
+    {
+      "acc": 0.64725595,
+      "epoch": 1.0530187721968545,
+      "grad_norm": 4.6875,
+      "learning_rate": 4.975042860063263e-06,
+      "loss": 1.6337513,
+      "memory(GiB)": 111.15,
+      "step": 41510,
+      "train_speed(iter/s)": 0.447481
+    },
+    {
+      "acc": 0.64228354,
+      "epoch": 1.0531456113647895,
+      "grad_norm": 5.375,
+      "learning_rate": 4.973994250003384e-06,
+      "loss": 1.6573494,
+      "memory(GiB)": 111.15,
+      "step": 41515,
+      "train_speed(iter/s)": 0.447509
+    },
+    {
+      "acc": 0.63467693,
+      "epoch": 1.0532724505327244,
+      "grad_norm": 5.1875,
+      "learning_rate": 4.972945641087355e-06,
+      "loss": 1.70228691,
+      "memory(GiB)": 111.15,
+      "step": 41520,
+      "train_speed(iter/s)": 0.447537
+    },
+    {
+      "acc": 0.65360041,
+      "epoch": 1.0533992897006597,
+      "grad_norm": 4.9375,
+      "learning_rate": 4.9718970333612955e-06,
+      "loss": 1.58373804,
+      "memory(GiB)": 111.15,
+      "step": 41525,
+      "train_speed(iter/s)": 0.447565
+    },
+    {
+      "acc": 0.64937391,
+      "epoch": 1.0535261288685946,
+      "grad_norm": 5.71875,
+      "learning_rate": 4.970848426871333e-06,
+      "loss": 1.63750954,
+      "memory(GiB)": 111.15,
+      "step": 41530,
+      "train_speed(iter/s)": 0.447594
+    },
+    {
+      "acc": 0.64278803,
+      "epoch": 1.0536529680365296,
+      "grad_norm": 5.3125,
+      "learning_rate": 4.9697998216635854e-06,
+      "loss": 1.66214066,
+      "memory(GiB)": 111.15,
+      "step": 41535,
+      "train_speed(iter/s)": 0.447622
+    },
+    {
+      "acc": 0.65317836,
+      "epoch": 1.0537798072044646,
+      "grad_norm": 4.78125,
+      "learning_rate": 4.9687512177841765e-06,
+      "loss": 1.57719746,
+      "memory(GiB)": 111.15,
+      "step": 41540,
+      "train_speed(iter/s)": 0.44765
+    },
+    {
+      "acc": 0.64128928,
+      "epoch": 1.0539066463723998,
+      "grad_norm": 5.0,
+      "learning_rate": 4.967702615279227e-06,
+      "loss": 1.64484367,
+      "memory(GiB)": 111.15,
+      "step": 41545,
+      "train_speed(iter/s)": 0.447678
+    },
+    {
+      "acc": 0.64409766,
+      "epoch": 1.0540334855403348,
+      "grad_norm": 5.375,
+      "learning_rate": 4.966654014194863e-06,
+      "loss": 1.67312775,
+      "memory(GiB)": 111.15,
+      "step": 41550,
+      "train_speed(iter/s)": 0.447706
+    },
+    {
+      "acc": 0.65694685,
+      "epoch": 1.0541603247082698,
+      "grad_norm": 4.65625,
+      "learning_rate": 4.965605414577204e-06,
+      "loss": 1.55383034,
+      "memory(GiB)": 111.15,
+      "step": 41555,
+      "train_speed(iter/s)": 0.447735
+    },
+    {
+      "acc": 0.66345983,
+      "epoch": 1.054287163876205,
+      "grad_norm": 5.59375,
+      "learning_rate": 4.964556816472371e-06,
+      "loss": 1.59527283,
+      "memory(GiB)": 111.15,
+      "step": 41560,
+      "train_speed(iter/s)": 0.447763
+    },
+    {
+      "acc": 0.65390444,
+      "epoch": 1.05441400304414,
+      "grad_norm": 4.5625,
+      "learning_rate": 4.9635082199264874e-06,
+      "loss": 1.61077957,
+      "memory(GiB)": 111.15,
+      "step": 41565,
+      "train_speed(iter/s)": 0.447791
+    },
+    {
+      "acc": 0.66283593,
+      "epoch": 1.054540842212075,
+      "grad_norm": 5.0625,
+      "learning_rate": 4.962459624985677e-06,
+      "loss": 1.60091324,
+      "memory(GiB)": 111.15,
+      "step": 41570,
+      "train_speed(iter/s)": 0.447819
+    },
+    {
+      "acc": 0.64899426,
+      "epoch": 1.0546676813800102,
+      "grad_norm": 5.25,
+      "learning_rate": 4.961411031696059e-06,
+      "loss": 1.64444885,
+      "memory(GiB)": 111.15,
+      "step": 41575,
+      "train_speed(iter/s)": 0.447847
+    },
+    {
+      "acc": 0.66245971,
+      "epoch": 1.0547945205479452,
+      "grad_norm": 5.875,
+      "learning_rate": 4.960362440103756e-06,
+      "loss": 1.61947212,
+      "memory(GiB)": 111.15,
+      "step": 41580,
+      "train_speed(iter/s)": 0.447875
+    },
+    {
+      "acc": 0.66432285,
+      "epoch": 1.0549213597158802,
+      "grad_norm": 6.78125,
+      "learning_rate": 4.95931385025489e-06,
+      "loss": 1.55193405,
+      "memory(GiB)": 111.15,
+      "step": 41585,
+      "train_speed(iter/s)": 0.447903
+    },
+    {
+      "acc": 0.65418472,
+      "epoch": 1.0550481988838154,
+      "grad_norm": 4.625,
+      "learning_rate": 4.958265262195584e-06,
+      "loss": 1.6047451,
+      "memory(GiB)": 111.15,
+      "step": 41590,
+      "train_speed(iter/s)": 0.447931
+    },
+    {
+      "acc": 0.67184582,
+      "epoch": 1.0551750380517504,
+      "grad_norm": 5.625,
+      "learning_rate": 4.957216675971955e-06,
+      "loss": 1.60239735,
+      "memory(GiB)": 111.15,
+      "step": 41595,
+      "train_speed(iter/s)": 0.44796
+    },
+    {
+      "acc": 0.65619879,
+      "epoch": 1.0553018772196854,
+      "grad_norm": 5.03125,
+      "learning_rate": 4.9561680916301295e-06,
+      "loss": 1.66729145,
+      "memory(GiB)": 111.15,
+      "step": 41600,
+      "train_speed(iter/s)": 0.447988
+    },
+    {
+      "epoch": 1.0553018772196854,
+      "eval_acc": 0.6433319950853854,
+      "eval_loss": 1.6081465482711792,
+      "eval_runtime": 113.3846,
+      "eval_samples_per_second": 56.18,
+      "eval_steps_per_second": 28.09,
+      "step": 41600
+    },
+    {
+      "acc": 0.65336027,
+      "epoch": 1.0554287163876206,
+      "grad_norm": 5.5625,
+      "learning_rate": 4.955119509216226e-06,
+      "loss": 1.60565681,
+      "memory(GiB)": 111.15,
+      "step": 41605,
+      "train_speed(iter/s)": 0.447448
+    },
+    {
+      "acc": 0.65778151,
+      "epoch": 1.0555555555555556,
+      "grad_norm": 4.6875,
+      "learning_rate": 4.9540709287763685e-06,
+      "loss": 1.63132935,
+      "memory(GiB)": 111.15,
+      "step": 41610,
+      "train_speed(iter/s)": 0.447477
+    },
+    {
+      "acc": 0.64583302,
+      "epoch": 1.0556823947234906,
+      "grad_norm": 6.53125,
+      "learning_rate": 4.953022350356676e-06,
+      "loss": 1.63953476,
+      "memory(GiB)": 111.15,
+      "step": 41615,
+      "train_speed(iter/s)": 0.447505
+    },
+    {
+      "acc": 0.65336466,
+      "epoch": 1.0558092338914258,
+      "grad_norm": 6.125,
+      "learning_rate": 4.951973774003269e-06,
+      "loss": 1.64433517,
+      "memory(GiB)": 111.15,
+      "step": 41620,
+      "train_speed(iter/s)": 0.447534
+    },
+    {
+      "acc": 0.65398035,
+      "epoch": 1.0559360730593608,
+      "grad_norm": 5.53125,
+      "learning_rate": 4.950925199762271e-06,
+      "loss": 1.69238739,
+      "memory(GiB)": 111.15,
+      "step": 41625,
+      "train_speed(iter/s)": 0.447562
+    },
+    {
+      "acc": 0.64929085,
+      "epoch": 1.0560629122272958,
+      "grad_norm": 5.875,
+      "learning_rate": 4.949876627679803e-06,
+      "loss": 1.65933266,
+      "memory(GiB)": 111.15,
+      "step": 41630,
+      "train_speed(iter/s)": 0.447591
+    },
+    {
+      "acc": 0.66287713,
+      "epoch": 1.0561897513952307,
+      "grad_norm": 5.5625,
+      "learning_rate": 4.948828057801983e-06,
+      "loss": 1.61840954,
+      "memory(GiB)": 111.15,
+      "step": 41635,
+      "train_speed(iter/s)": 0.44762
+    },
+    {
+      "acc": 0.63991489,
+      "epoch": 1.056316590563166,
+      "grad_norm": 5.4375,
+      "learning_rate": 4.947779490174933e-06,
+      "loss": 1.65793953,
+      "memory(GiB)": 111.15,
+      "step": 41640,
+      "train_speed(iter/s)": 0.447648
+    },
+    {
+      "acc": 0.64888453,
+      "epoch": 1.056443429731101,
+      "grad_norm": 5.9375,
+      "learning_rate": 4.946730924844775e-06,
+      "loss": 1.65340195,
+      "memory(GiB)": 111.15,
+      "step": 41645,
+      "train_speed(iter/s)": 0.447677
+    },
+    {
+      "acc": 0.64696922,
+      "epoch": 1.056570268899036,
+      "grad_norm": 5.21875,
+      "learning_rate": 4.945682361857631e-06,
+      "loss": 1.63181572,
+      "memory(GiB)": 111.15,
+      "step": 41650,
+      "train_speed(iter/s)": 0.447706
+    },
+    {
+      "acc": 0.65906734,
+      "epoch": 1.0566971080669711,
+      "grad_norm": 5.34375,
+      "learning_rate": 4.944633801259615e-06,
+      "loss": 1.60643387,
+      "memory(GiB)": 111.15,
+      "step": 41655,
+      "train_speed(iter/s)": 0.447735
+    },
+    {
+      "acc": 0.62939491,
+      "epoch": 1.0568239472349061,
+      "grad_norm": 6.09375,
+      "learning_rate": 4.943585243096854e-06,
+      "loss": 1.69056721,
+      "memory(GiB)": 111.15,
+      "step": 41660,
+      "train_speed(iter/s)": 0.447763
+    },
+    {
+      "acc": 0.66375179,
+      "epoch": 1.0569507864028411,
+      "grad_norm": 4.9375,
+      "learning_rate": 4.942536687415465e-06,
+      "loss": 1.55037909,
+      "memory(GiB)": 111.15,
+      "step": 41665,
+      "train_speed(iter/s)": 0.447792
+    },
+    {
+      "acc": 0.63826828,
+      "epoch": 1.0570776255707763,
+      "grad_norm": 6.03125,
+      "learning_rate": 4.941488134261571e-06,
+      "loss": 1.71210632,
+      "memory(GiB)": 111.15,
+      "step": 41670,
+      "train_speed(iter/s)": 0.447821
+    },
+    {
+      "acc": 0.66714935,
+      "epoch": 1.0572044647387113,
+      "grad_norm": 5.75,
+      "learning_rate": 4.940439583681288e-06,
+      "loss": 1.48552799,
+      "memory(GiB)": 111.15,
+      "step": 41675,
+      "train_speed(iter/s)": 0.447849
+    },
+    {
+      "acc": 0.65472527,
+      "epoch": 1.0573313039066463,
+      "grad_norm": 5.59375,
+      "learning_rate": 4.939391035720739e-06,
+      "loss": 1.59369564,
+      "memory(GiB)": 111.15,
+      "step": 41680,
+      "train_speed(iter/s)": 0.447878
+    },
+    {
+      "acc": 0.66626196,
+      "epoch": 1.0574581430745815,
+      "grad_norm": 5.125,
+      "learning_rate": 4.938342490426041e-06,
+      "loss": 1.54022617,
+      "memory(GiB)": 111.15,
+      "step": 41685,
+      "train_speed(iter/s)": 0.447907
+    },
+    {
+      "acc": 0.64749217,
+      "epoch": 1.0575849822425165,
+      "grad_norm": 5.96875,
+      "learning_rate": 4.937293947843318e-06,
+      "loss": 1.62703934,
+      "memory(GiB)": 111.15,
+      "step": 41690,
+      "train_speed(iter/s)": 0.447936
+    },
+    {
+      "acc": 0.66188059,
+      "epoch": 1.0577118214104515,
+      "grad_norm": 4.4375,
+      "learning_rate": 4.936245408018687e-06,
+      "loss": 1.58038101,
+      "memory(GiB)": 111.15,
+      "step": 41695,
+      "train_speed(iter/s)": 0.447964
+    },
+    {
+      "acc": 0.64972219,
+      "epoch": 1.0578386605783865,
+      "grad_norm": 5.46875,
+      "learning_rate": 4.935196870998265e-06,
+      "loss": 1.66318321,
+      "memory(GiB)": 111.15,
+      "step": 41700,
+      "train_speed(iter/s)": 0.447993
+    },
+    {
+      "epoch": 1.0578386605783865,
+      "eval_acc": 0.643321550902649,
+      "eval_loss": 1.6078789234161377,
+      "eval_runtime": 113.1564,
+      "eval_samples_per_second": 56.294,
+      "eval_steps_per_second": 28.147,
+      "step": 41700
+    },
+    {
+      "acc": 0.64919252,
+      "epoch": 1.0579654997463217,
+      "grad_norm": 7.4375,
+      "learning_rate": 4.934148336828176e-06,
+      "loss": 1.67132511,
+      "memory(GiB)": 111.15,
+      "step": 41705,
+      "train_speed(iter/s)": 0.447455
+    },
+    {
+      "acc": 0.63010468,
+      "epoch": 1.0580923389142567,
+      "grad_norm": 6.15625,
+      "learning_rate": 4.933099805554538e-06,
+      "loss": 1.74319992,
+      "memory(GiB)": 111.15,
+      "step": 41710,
+      "train_speed(iter/s)": 0.447483
+    },
+    {
+      "acc": 0.64316578,
+      "epoch": 1.0582191780821917,
+      "grad_norm": 5.1875,
+      "learning_rate": 4.932051277223468e-06,
+      "loss": 1.6727066,
+      "memory(GiB)": 111.15,
+      "step": 41715,
+      "train_speed(iter/s)": 0.447512
+    },
+    {
+      "acc": 0.65144887,
+      "epoch": 1.058346017250127,
+      "grad_norm": 5.8125,
+      "learning_rate": 4.931002751881086e-06,
+      "loss": 1.62946434,
+      "memory(GiB)": 111.15,
+      "step": 41720,
+      "train_speed(iter/s)": 0.44754
+    },
+    {
+      "acc": 0.64521546,
+      "epoch": 1.0584728564180619,
+      "grad_norm": 6.5625,
+      "learning_rate": 4.929954229573512e-06,
+      "loss": 1.63819504,
+      "memory(GiB)": 111.15,
+      "step": 41725,
+      "train_speed(iter/s)": 0.447568
+    },
+    {
+      "acc": 0.64819469,
+      "epoch": 1.0585996955859969,
+      "grad_norm": 5.0625,
+      "learning_rate": 4.9289057103468635e-06,
+      "loss": 1.58806763,
+      "memory(GiB)": 111.15,
+      "step": 41730,
+      "train_speed(iter/s)": 0.447597
+    },
+    {
+      "acc": 0.65480847,
+      "epoch": 1.058726534753932,
+      "grad_norm": 4.8125,
+      "learning_rate": 4.927857194247258e-06,
+      "loss": 1.59844437,
+      "memory(GiB)": 111.15,
+      "step": 41735,
+      "train_speed(iter/s)": 0.447625
+    },
+    {
+      "acc": 0.63103924,
+      "epoch": 1.058853373921867,
+      "grad_norm": 4.90625,
+      "learning_rate": 4.926808681320816e-06,
+      "loss": 1.65533524,
+      "memory(GiB)": 111.15,
+      "step": 41740,
+      "train_speed(iter/s)": 0.447654
+    },
+    {
+      "acc": 0.63293095,
+      "epoch": 1.058980213089802,
+      "grad_norm": 6.78125,
+      "learning_rate": 4.925760171613654e-06,
+      "loss": 1.72081032,
+      "memory(GiB)": 111.15,
+      "step": 41745,
+      "train_speed(iter/s)": 0.447683
+    },
+    {
+      "acc": 0.63749876,
+      "epoch": 1.0591070522577373,
+      "grad_norm": 5.125,
+      "learning_rate": 4.9247116651718925e-06,
+      "loss": 1.67388039,
+      "memory(GiB)": 111.15,
+      "step": 41750,
+      "train_speed(iter/s)": 0.447711
+    },
+    {
+      "acc": 0.65185189,
+      "epoch": 1.0592338914256723,
+      "grad_norm": 6.3125,
+      "learning_rate": 4.9236631620416486e-06,
+      "loss": 1.69824562,
+      "memory(GiB)": 111.15,
+      "step": 41755,
+      "train_speed(iter/s)": 0.44774
+    },
+    {
+      "acc": 0.65148354,
+      "epoch": 1.0593607305936072,
+      "grad_norm": 4.78125,
+      "learning_rate": 4.922614662269038e-06,
+      "loss": 1.64696178,
+      "memory(GiB)": 111.15,
+      "step": 41760,
+      "train_speed(iter/s)": 0.447768
+    },
+    {
+      "acc": 0.66139345,
+      "epoch": 1.0594875697615425,
+      "grad_norm": 4.8125,
+      "learning_rate": 4.9215661659001805e-06,
+      "loss": 1.58040371,
+      "memory(GiB)": 111.15,
+      "step": 41765,
+      "train_speed(iter/s)": 0.447797
+    },
+    {
+      "acc": 0.66876173,
+      "epoch": 1.0596144089294774,
+      "grad_norm": 5.6875,
+      "learning_rate": 4.920517672981195e-06,
+      "loss": 1.54324284,
+      "memory(GiB)": 111.15,
+      "step": 41770,
+      "train_speed(iter/s)": 0.447826
+    },
+    {
+      "acc": 0.65028963,
+      "epoch": 1.0597412480974124,
+      "grad_norm": 5.34375,
+      "learning_rate": 4.919469183558195e-06,
+      "loss": 1.61663628,
+      "memory(GiB)": 111.15,
+      "step": 41775,
+      "train_speed(iter/s)": 0.447854
+    },
+    {
+      "acc": 0.65981278,
+      "epoch": 1.0598680872653476,
+      "grad_norm": 4.9375,
+      "learning_rate": 4.9184206976773e-06,
+      "loss": 1.57383986,
+      "memory(GiB)": 111.15,
+      "step": 41780,
+      "train_speed(iter/s)": 0.447883
+    },
+    {
+      "acc": 0.64819117,
+      "epoch": 1.0599949264332826,
+      "grad_norm": 5.75,
+      "learning_rate": 4.917372215384627e-06,
+      "loss": 1.69450836,
+      "memory(GiB)": 111.15,
+      "step": 41785,
+      "train_speed(iter/s)": 0.447911
+    },
+    {
+      "acc": 0.6503056,
+      "epoch": 1.0601217656012176,
+      "grad_norm": 5.75,
+      "learning_rate": 4.916323736726295e-06,
+      "loss": 1.60568657,
+      "memory(GiB)": 111.15,
+      "step": 41790,
+      "train_speed(iter/s)": 0.44794
+    },
+    {
+      "acc": 0.64542637,
+      "epoch": 1.0602486047691526,
+      "grad_norm": 5.125,
+      "learning_rate": 4.9152752617484156e-06,
+      "loss": 1.60724602,
+      "memory(GiB)": 111.15,
+      "step": 41795,
+      "train_speed(iter/s)": 0.447968
+    },
+    {
+      "acc": 0.64659729,
+      "epoch": 1.0603754439370878,
+      "grad_norm": 5.125,
+      "learning_rate": 4.91422679049711e-06,
+      "loss": 1.65084209,
+      "memory(GiB)": 111.15,
+      "step": 41800,
+      "train_speed(iter/s)": 0.447997
+    },
+    {
+      "epoch": 1.0603754439370878,
+      "eval_acc": 0.6433374260604083,
+      "eval_loss": 1.6078965663909912,
+      "eval_runtime": 113.0609,
+      "eval_samples_per_second": 56.341,
+      "eval_steps_per_second": 28.171,
+      "step": 41800
+    },
+    {
+      "acc": 0.66245699,
+      "epoch": 1.0605022831050228,
+      "grad_norm": 5.40625,
+      "learning_rate": 4.913178323018493e-06,
+      "loss": 1.57084637,
+      "memory(GiB)": 111.15,
+      "step": 41805,
+      "train_speed(iter/s)": 0.44746
+    },
+    {
+      "acc": 0.65230112,
+      "epoch": 1.0606291222729578,
+      "grad_norm": 6.5625,
+      "learning_rate": 4.912129859358682e-06,
+      "loss": 1.63472214,
+      "memory(GiB)": 111.15,
+      "step": 41810,
+      "train_speed(iter/s)": 0.447489
+    },
+    {
+      "acc": 0.66080217,
+      "epoch": 1.060755961440893,
+      "grad_norm": 5.78125,
+      "learning_rate": 4.9110813995637905e-06,
+      "loss": 1.56788025,
+      "memory(GiB)": 111.15,
+      "step": 41815,
+      "train_speed(iter/s)": 0.447517
+    },
+    {
+      "acc": 0.65907879,
+      "epoch": 1.060882800608828,
+      "grad_norm": 4.59375,
+      "learning_rate": 4.910032943679936e-06,
+      "loss": 1.59788551,
+      "memory(GiB)": 111.15,
+      "step": 41820,
+      "train_speed(iter/s)": 0.447545
+    },
+    {
+      "acc": 0.66098442,
+      "epoch": 1.061009639776763,
+      "grad_norm": 5.5,
+      "learning_rate": 4.908984491753234e-06,
+      "loss": 1.58864365,
+      "memory(GiB)": 111.15,
+      "step": 41825,
+      "train_speed(iter/s)": 0.447573
+    },
+    {
+      "acc": 0.64891291,
+      "epoch": 1.0611364789446982,
+      "grad_norm": 5.78125,
+      "learning_rate": 4.907936043829802e-06,
+      "loss": 1.61914139,
+      "memory(GiB)": 111.15,
+      "step": 41830,
+      "train_speed(iter/s)": 0.447602
+    },
+    {
+      "acc": 0.65188279,
+      "epoch": 1.0612633181126332,
+      "grad_norm": 4.75,
+      "learning_rate": 4.906887599955754e-06,
+      "loss": 1.63676891,
+      "memory(GiB)": 111.15,
+      "step": 41835,
+      "train_speed(iter/s)": 0.44763
+    },
+    {
+      "acc": 0.66076803,
+      "epoch": 1.0613901572805682,
+      "grad_norm": 5.625,
+      "learning_rate": 4.905839160177203e-06,
+      "loss": 1.56510029,
+      "memory(GiB)": 111.15,
+      "step": 41840,
+      "train_speed(iter/s)": 0.447658
+    },
+    {
+      "acc": 0.64615254,
+      "epoch": 1.0615169964485034,
+      "grad_norm": 5.90625,
+      "learning_rate": 4.904790724540267e-06,
+      "loss": 1.60787983,
+      "memory(GiB)": 111.15,
+      "step": 41845,
+      "train_speed(iter/s)": 0.447686
+    },
+    {
+      "acc": 0.65833616,
+      "epoch": 1.0616438356164384,
+      "grad_norm": 5.40625,
+      "learning_rate": 4.903742293091061e-06,
+      "loss": 1.59069233,
+      "memory(GiB)": 111.15,
+      "step": 41850,
+      "train_speed(iter/s)": 0.447714
+    },
+    {
+      "acc": 0.64784856,
+      "epoch": 1.0617706747843734,
+      "grad_norm": 5.0,
+      "learning_rate": 4.902693865875698e-06,
+      "loss": 1.65351543,
+      "memory(GiB)": 111.15,
+      "step": 41855,
+      "train_speed(iter/s)": 0.447742
+    },
+    {
+      "acc": 0.65048389,
+      "epoch": 1.0618975139523084,
+      "grad_norm": 6.125,
+      "learning_rate": 4.901645442940293e-06,
+      "loss": 1.62082329,
+      "memory(GiB)": 111.15,
+      "step": 41860,
+      "train_speed(iter/s)": 0.44777
+    },
+    {
+      "acc": 0.65620852,
+      "epoch": 1.0620243531202436,
+      "grad_norm": 5.125,
+      "learning_rate": 4.900597024330961e-06,
+      "loss": 1.60522633,
+      "memory(GiB)": 111.15,
+      "step": 41865,
+      "train_speed(iter/s)": 0.447798
+    },
+    {
+      "acc": 0.65147662,
+      "epoch": 1.0621511922881786,
+      "grad_norm": 5.84375,
+      "learning_rate": 4.899548610093816e-06,
+      "loss": 1.66997337,
+      "memory(GiB)": 111.15,
+      "step": 41870,
+      "train_speed(iter/s)": 0.447826
+    },
+    {
+      "acc": 0.66023006,
+      "epoch": 1.0622780314561135,
+      "grad_norm": 7.1875,
+      "learning_rate": 4.89850020027497e-06,
+      "loss": 1.59744205,
+      "memory(GiB)": 111.15,
+      "step": 41875,
+      "train_speed(iter/s)": 0.447854
+    },
+    {
+      "acc": 0.66146517,
+      "epoch": 1.0624048706240488,
+      "grad_norm": 5.21875,
+      "learning_rate": 4.89745179492054e-06,
+      "loss": 1.57576199,
+      "memory(GiB)": 111.15,
+      "step": 41880,
+      "train_speed(iter/s)": 0.447881
+    },
+    {
+      "acc": 0.65449839,
+      "epoch": 1.0625317097919837,
+      "grad_norm": 5.5625,
+      "learning_rate": 4.896403394076636e-06,
+      "loss": 1.6449482,
+      "memory(GiB)": 111.15,
+      "step": 41885,
+      "train_speed(iter/s)": 0.44791
+    },
+    {
+      "acc": 0.65123515,
+      "epoch": 1.0626585489599187,
+      "grad_norm": 6.59375,
+      "learning_rate": 4.895354997789377e-06,
+      "loss": 1.66186676,
+      "memory(GiB)": 111.15,
+      "step": 41890,
+      "train_speed(iter/s)": 0.447938
+    },
+    {
+      "acc": 0.65771194,
+      "epoch": 1.062785388127854,
+      "grad_norm": 5.09375,
+      "learning_rate": 4.894306606104869e-06,
+      "loss": 1.60809669,
+      "memory(GiB)": 111.15,
+      "step": 41895,
+      "train_speed(iter/s)": 0.447966
+    },
+    {
+      "acc": 0.66397886,
+      "epoch": 1.062912227295789,
+      "grad_norm": 4.71875,
+      "learning_rate": 4.893258219069229e-06,
+      "loss": 1.59437504,
+      "memory(GiB)": 111.15,
+      "step": 41900,
+      "train_speed(iter/s)": 0.447993
+    },
+    {
+      "epoch": 1.062912227295789,
+      "eval_acc": 0.6433177909968638,
+      "eval_loss": 1.6079145669937134,
+      "eval_runtime": 113.4914,
+      "eval_samples_per_second": 56.128,
+      "eval_steps_per_second": 28.064,
+      "step": 41900
+    },
+    {
+      "acc": 0.66107016,
+      "epoch": 1.063039066463724,
+      "grad_norm": 5.15625,
+      "learning_rate": 4.892209836728569e-06,
+      "loss": 1.57260399,
+      "memory(GiB)": 111.15,
+      "step": 41905,
+      "train_speed(iter/s)": 0.447456
+    },
+    {
+      "acc": 0.65187168,
+      "epoch": 1.0631659056316591,
+      "grad_norm": 5.03125,
+      "learning_rate": 4.891161459129003e-06,
+      "loss": 1.62901077,
+      "memory(GiB)": 111.15,
+      "step": 41910,
+      "train_speed(iter/s)": 0.447484
+    },
+    {
+      "acc": 0.66040144,
+      "epoch": 1.0632927447995941,
+      "grad_norm": 5.6875,
+      "learning_rate": 4.890113086316641e-06,
+      "loss": 1.65080624,
+      "memory(GiB)": 111.15,
+      "step": 41915,
+      "train_speed(iter/s)": 0.447512
+    },
+    {
+      "acc": 0.65543137,
+      "epoch": 1.0634195839675291,
+      "grad_norm": 4.84375,
+      "learning_rate": 4.889064718337595e-06,
+      "loss": 1.61014786,
+      "memory(GiB)": 111.15,
+      "step": 41920,
+      "train_speed(iter/s)": 0.44754
+    },
+    {
+      "acc": 0.65282369,
+      "epoch": 1.0635464231354643,
+      "grad_norm": 4.59375,
+      "learning_rate": 4.888016355237979e-06,
+      "loss": 1.6042841,
+      "memory(GiB)": 111.15,
+      "step": 41925,
+      "train_speed(iter/s)": 0.447568
+    },
+    {
+      "acc": 0.64654007,
+      "epoch": 1.0636732623033993,
+      "grad_norm": 9.8125,
+      "learning_rate": 4.886967997063905e-06,
+      "loss": 1.60976868,
+      "memory(GiB)": 111.15,
+      "step": 41930,
+      "train_speed(iter/s)": 0.447595
+    },
+    {
+      "acc": 0.65265007,
+      "epoch": 1.0638001014713343,
+      "grad_norm": 6.0,
+      "learning_rate": 4.885919643861482e-06,
+      "loss": 1.53563662,
+      "memory(GiB)": 111.15,
+      "step": 41935,
+      "train_speed(iter/s)": 0.447623
+    },
+    {
+      "acc": 0.6696969,
+      "epoch": 1.0639269406392695,
+      "grad_norm": 6.25,
+      "learning_rate": 4.884871295676821e-06,
+      "loss": 1.53086767,
+      "memory(GiB)": 111.15,
+      "step": 41940,
+      "train_speed(iter/s)": 0.447652
+    },
+    {
+      "acc": 0.65311594,
+      "epoch": 1.0640537798072045,
+      "grad_norm": 5.3125,
+      "learning_rate": 4.883822952556036e-06,
+      "loss": 1.60818233,
+      "memory(GiB)": 111.15,
+      "step": 41945,
+      "train_speed(iter/s)": 0.44768
+    },
+    {
+      "acc": 0.64462595,
+      "epoch": 1.0641806189751395,
+      "grad_norm": 5.75,
+      "learning_rate": 4.882774614545237e-06,
+      "loss": 1.60149612,
+      "memory(GiB)": 111.15,
+      "step": 41950,
+      "train_speed(iter/s)": 0.447708
+    },
+    {
+      "acc": 0.65336847,
+      "epoch": 1.0643074581430745,
+      "grad_norm": 5.6875,
+      "learning_rate": 4.881726281690531e-06,
+      "loss": 1.63061409,
+      "memory(GiB)": 111.15,
+      "step": 41955,
+      "train_speed(iter/s)": 0.447736
+    },
+    {
+      "acc": 0.64028168,
+      "epoch": 1.0644342973110097,
+      "grad_norm": 6.21875,
+      "learning_rate": 4.8806779540380335e-06,
+      "loss": 1.67095222,
+      "memory(GiB)": 111.15,
+      "step": 41960,
+      "train_speed(iter/s)": 0.447764
+    },
+    {
+      "acc": 0.66788568,
+      "epoch": 1.0645611364789447,
+      "grad_norm": 4.6875,
+      "learning_rate": 4.879629631633851e-06,
+      "loss": 1.61166553,
+      "memory(GiB)": 111.15,
+      "step": 41965,
+      "train_speed(iter/s)": 0.447792
+    },
+    {
+      "acc": 0.63985977,
+      "epoch": 1.0646879756468797,
+      "grad_norm": 6.375,
+      "learning_rate": 4.8785813145240965e-06,
+      "loss": 1.63767319,
+      "memory(GiB)": 111.15,
+      "step": 41970,
+      "train_speed(iter/s)": 0.44782
+    },
+    {
+      "acc": 0.65098057,
+      "epoch": 1.0648148148148149,
+      "grad_norm": 5.3125,
+      "learning_rate": 4.877533002754877e-06,
+      "loss": 1.60758495,
+      "memory(GiB)": 111.15,
+      "step": 41975,
+      "train_speed(iter/s)": 0.447849
+    },
+    {
+      "acc": 0.63141074,
+      "epoch": 1.0649416539827499,
+      "grad_norm": 4.8125,
+      "learning_rate": 4.8764846963723025e-06,
+      "loss": 1.69148827,
+      "memory(GiB)": 111.15,
+      "step": 41980,
+      "train_speed(iter/s)": 0.447877
+    },
+    {
+      "acc": 0.65166168,
+      "epoch": 1.0650684931506849,
+      "grad_norm": 6.09375,
+      "learning_rate": 4.875436395422481e-06,
+      "loss": 1.62675076,
+      "memory(GiB)": 111.15,
+      "step": 41985,
+      "train_speed(iter/s)": 0.447905
+    },
+    {
+      "acc": 0.64788809,
+      "epoch": 1.06519533231862,
+      "grad_norm": 5.15625,
+      "learning_rate": 4.874388099951527e-06,
+      "loss": 1.59000778,
+      "memory(GiB)": 111.15,
+      "step": 41990,
+      "train_speed(iter/s)": 0.447933
+    },
+    {
+      "acc": 0.67918553,
+      "epoch": 1.065322171486555,
+      "grad_norm": 4.8125,
+      "learning_rate": 4.873339810005543e-06,
+      "loss": 1.55519466,
+      "memory(GiB)": 111.15,
+      "step": 41995,
+      "train_speed(iter/s)": 0.447961
+    },
+    {
+      "acc": 0.63840542,
+      "epoch": 1.06544901065449,
+      "grad_norm": 5.3125,
+      "learning_rate": 4.872291525630638e-06,
+      "loss": 1.68950081,
+      "memory(GiB)": 111.15,
+      "step": 42000,
+      "train_speed(iter/s)": 0.447989
+    },
+    {
+      "epoch": 1.06544901065449,
+      "eval_acc": 0.6433340839219327,
+      "eval_loss": 1.6078428030014038,
+      "eval_runtime": 113.3725,
+      "eval_samples_per_second": 56.186,
+      "eval_steps_per_second": 28.093,
+      "step": 42000
+    },
+    {
+      "acc": 0.65729804,
+      "epoch": 1.0655758498224253,
+      "grad_norm": 5.46875,
+      "learning_rate": 4.871243246872923e-06,
+      "loss": 1.59312334,
+      "memory(GiB)": 111.15,
+      "step": 42005,
+      "train_speed(iter/s)": 0.447454
+    },
+    {
+      "acc": 0.65402613,
+      "epoch": 1.0657026889903602,
+      "grad_norm": 5.34375,
+      "learning_rate": 4.870194973778506e-06,
+      "loss": 1.6272253,
+      "memory(GiB)": 111.15,
+      "step": 42010,
+      "train_speed(iter/s)": 0.447481
+    },
+    {
+      "acc": 0.64179764,
+      "epoch": 1.0658295281582952,
+      "grad_norm": 4.875,
+      "learning_rate": 4.869146706393493e-06,
+      "loss": 1.65246601,
+      "memory(GiB)": 111.15,
+      "step": 42015,
+      "train_speed(iter/s)": 0.447509
+    },
+    {
+      "acc": 0.65462732,
+      "epoch": 1.0659563673262302,
+      "grad_norm": 5.9375,
+      "learning_rate": 4.868098444763991e-06,
+      "loss": 1.5815218,
+      "memory(GiB)": 111.15,
+      "step": 42020,
+      "train_speed(iter/s)": 0.447537
+    },
+    {
+      "acc": 0.64720526,
+      "epoch": 1.0660832064941654,
+      "grad_norm": 6.75,
+      "learning_rate": 4.86705018893611e-06,
+      "loss": 1.61470165,
+      "memory(GiB)": 111.15,
+      "step": 42025,
+      "train_speed(iter/s)": 0.447565
+    },
+    {
+      "acc": 0.65128374,
+      "epoch": 1.0662100456621004,
+      "grad_norm": 4.75,
+      "learning_rate": 4.866001938955955e-06,
+      "loss": 1.60142593,
+      "memory(GiB)": 111.15,
+      "step": 42030,
+      "train_speed(iter/s)": 0.447593
+    },
+    {
+      "acc": 0.65026035,
+      "epoch": 1.0663368848300354,
+      "grad_norm": 4.5,
+      "learning_rate": 4.864953694869632e-06,
+      "loss": 1.59540253,
+      "memory(GiB)": 111.15,
+      "step": 42035,
+      "train_speed(iter/s)": 0.447621
+    },
+    {
+      "acc": 0.65704904,
+      "epoch": 1.0664637239979706,
+      "grad_norm": 7.25,
+      "learning_rate": 4.863905456723249e-06,
+      "loss": 1.63357162,
+      "memory(GiB)": 111.15,
+      "step": 42040,
+      "train_speed(iter/s)": 0.447649
+    },
+    {
+      "acc": 0.63413544,
+      "epoch": 1.0665905631659056,
+      "grad_norm": 5.0625,
+      "learning_rate": 4.8628572245629105e-06,
+      "loss": 1.7015274,
+      "memory(GiB)": 111.15,
+      "step": 42045,
+      "train_speed(iter/s)": 0.447677
+    },
+    {
+      "acc": 0.64236126,
+      "epoch": 1.0667174023338406,
+      "grad_norm": 5.84375,
+      "learning_rate": 4.861808998434726e-06,
+      "loss": 1.61057396,
+      "memory(GiB)": 111.15,
+      "step": 42050,
+      "train_speed(iter/s)": 0.447705
+    },
+    {
+      "acc": 0.65882177,
+      "epoch": 1.0668442415017758,
+      "grad_norm": 6.0625,
+      "learning_rate": 4.860760778384797e-06,
+      "loss": 1.56174812,
+      "memory(GiB)": 111.15,
+      "step": 42055,
+      "train_speed(iter/s)": 0.447733
+    },
+    {
+      "acc": 0.64902668,
+      "epoch": 1.0669710806697108,
+      "grad_norm": 4.78125,
+      "learning_rate": 4.85971256445923e-06,
+      "loss": 1.58841963,
+      "memory(GiB)": 111.15,
+      "step": 42060,
+      "train_speed(iter/s)": 0.44776
+    },
+    {
+      "acc": 0.64837356,
+      "epoch": 1.0670979198376458,
+      "grad_norm": 6.375,
+      "learning_rate": 4.858664356704131e-06,
+      "loss": 1.63287716,
+      "memory(GiB)": 111.15,
+      "step": 42065,
+      "train_speed(iter/s)": 0.447788
+    },
+    {
+      "acc": 0.6820281,
+      "epoch": 1.067224759005581,
+      "grad_norm": 6.25,
+      "learning_rate": 4.857616155165606e-06,
+      "loss": 1.49113922,
+      "memory(GiB)": 111.15,
+      "step": 42070,
+      "train_speed(iter/s)": 0.447816
+    },
+    {
+      "acc": 0.62892075,
+      "epoch": 1.067351598173516,
+      "grad_norm": 4.96875,
+      "learning_rate": 4.856567959889758e-06,
+      "loss": 1.71526108,
+      "memory(GiB)": 111.15,
+      "step": 42075,
+      "train_speed(iter/s)": 0.447844
+    },
+    {
+      "acc": 0.6530241,
+      "epoch": 1.067478437341451,
+      "grad_norm": 5.0625,
+      "learning_rate": 4.855519770922691e-06,
+      "loss": 1.65960541,
+      "memory(GiB)": 111.15,
+      "step": 42080,
+      "train_speed(iter/s)": 0.447872
+    },
+    {
+      "acc": 0.64618864,
+      "epoch": 1.0676052765093862,
+      "grad_norm": 6.25,
+      "learning_rate": 4.8544715883105084e-06,
+      "loss": 1.61837482,
+      "memory(GiB)": 111.15,
+      "step": 42085,
+      "train_speed(iter/s)": 0.4479
+    },
+    {
+      "acc": 0.6499299,
+      "epoch": 1.0677321156773212,
+      "grad_norm": 5.5,
+      "learning_rate": 4.853423412099318e-06,
+      "loss": 1.63688354,
+      "memory(GiB)": 111.15,
+      "step": 42090,
+      "train_speed(iter/s)": 0.447928
+    },
+    {
+      "acc": 0.64437094,
+      "epoch": 1.0678589548452562,
+      "grad_norm": 4.90625,
+      "learning_rate": 4.852375242335217e-06,
+      "loss": 1.64836521,
+      "memory(GiB)": 111.15,
+      "step": 42095,
+      "train_speed(iter/s)": 0.447956
+    },
+    {
+      "acc": 0.64936285,
+      "epoch": 1.0679857940131914,
+      "grad_norm": 5.125,
+      "learning_rate": 4.851327079064314e-06,
+      "loss": 1.62126427,
+      "memory(GiB)": 111.15,
+      "step": 42100,
+      "train_speed(iter/s)": 0.447984
+    },
+    {
+      "epoch": 1.0679857940131914,
+      "eval_acc": 0.6432985737006288,
+      "eval_loss": 1.6079578399658203,
+      "eval_runtime": 112.8729,
+      "eval_samples_per_second": 56.435,
+      "eval_steps_per_second": 28.218,
+      "step": 42100
+    },
+    {
+      "acc": 0.64184604,
+      "epoch": 1.0681126331811264,
+      "grad_norm": 5.59375,
+      "learning_rate": 4.850278922332708e-06,
+      "loss": 1.71156197,
+      "memory(GiB)": 111.15,
+      "step": 42105,
+      "train_speed(iter/s)": 0.447452
+    },
+    {
+      "acc": 0.65807724,
+      "epoch": 1.0682394723490614,
+      "grad_norm": 6.09375,
+      "learning_rate": 4.849230772186508e-06,
+      "loss": 1.62731743,
+      "memory(GiB)": 111.15,
+      "step": 42110,
+      "train_speed(iter/s)": 0.447479
+    },
+    {
+      "acc": 0.65833473,
+      "epoch": 1.0683663115169963,
+      "grad_norm": 4.75,
+      "learning_rate": 4.848182628671806e-06,
+      "loss": 1.56651812,
+      "memory(GiB)": 111.15,
+      "step": 42115,
+      "train_speed(iter/s)": 0.447507
+    },
+    {
+      "acc": 0.66958933,
+      "epoch": 1.0684931506849316,
+      "grad_norm": 4.71875,
+      "learning_rate": 4.847134491834713e-06,
+      "loss": 1.54585619,
+      "memory(GiB)": 111.15,
+      "step": 42120,
+      "train_speed(iter/s)": 0.447534
+    },
+    {
+      "acc": 0.6515511,
+      "epoch": 1.0686199898528665,
+      "grad_norm": 4.90625,
+      "learning_rate": 4.846086361721326e-06,
+      "loss": 1.57193289,
+      "memory(GiB)": 111.15,
+      "step": 42125,
+      "train_speed(iter/s)": 0.447562
+    },
+    {
+      "acc": 0.6369154,
+      "epoch": 1.0687468290208015,
+      "grad_norm": 5.71875,
+      "learning_rate": 4.84503823837775e-06,
+      "loss": 1.63303871,
+      "memory(GiB)": 111.15,
+      "step": 42130,
+      "train_speed(iter/s)": 0.44759
+    },
+    {
+      "acc": 0.65595679,
+      "epoch": 1.0688736681887367,
+      "grad_norm": 4.75,
+      "learning_rate": 4.843990121850083e-06,
+      "loss": 1.59799109,
+      "memory(GiB)": 111.15,
+      "step": 42135,
+      "train_speed(iter/s)": 0.447618
+    },
+    {
+      "acc": 0.63519468,
+      "epoch": 1.0690005073566717,
+      "grad_norm": 5.625,
+      "learning_rate": 4.842942012184426e-06,
+      "loss": 1.63287354,
+      "memory(GiB)": 111.15,
+      "step": 42140,
+      "train_speed(iter/s)": 0.447646
+    },
+    {
+      "acc": 0.63613129,
+      "epoch": 1.0691273465246067,
+      "grad_norm": 4.65625,
+      "learning_rate": 4.841893909426881e-06,
+      "loss": 1.66413803,
+      "memory(GiB)": 111.15,
+      "step": 42145,
+      "train_speed(iter/s)": 0.447673
+    },
+    {
+      "acc": 0.64686556,
+      "epoch": 1.069254185692542,
+      "grad_norm": 6.46875,
+      "learning_rate": 4.84084581362355e-06,
+      "loss": 1.6707222,
+      "memory(GiB)": 111.15,
+      "step": 42150,
+      "train_speed(iter/s)": 0.447701
+    },
+    {
+      "acc": 0.65531702,
+      "epoch": 1.069381024860477,
+      "grad_norm": 5.125,
+      "learning_rate": 4.839797724820529e-06,
+      "loss": 1.63433762,
+      "memory(GiB)": 111.15,
+      "step": 42155,
+      "train_speed(iter/s)": 0.447729
+    },
+    {
+      "acc": 0.64087443,
+      "epoch": 1.069507864028412,
+      "grad_norm": 6.375,
+      "learning_rate": 4.838749643063918e-06,
+      "loss": 1.64347954,
+      "memory(GiB)": 111.15,
+      "step": 42160,
+      "train_speed(iter/s)": 0.447757
+    },
+    {
+      "acc": 0.64798174,
+      "epoch": 1.0696347031963471,
+      "grad_norm": 5.15625,
+      "learning_rate": 4.837701568399819e-06,
+      "loss": 1.65603561,
+      "memory(GiB)": 111.15,
+      "step": 42165,
+      "train_speed(iter/s)": 0.447784
+    },
+    {
+      "acc": 0.63539333,
+      "epoch": 1.0697615423642821,
+      "grad_norm": 4.5,
+      "learning_rate": 4.836653500874331e-06,
+      "loss": 1.66145554,
+      "memory(GiB)": 111.15,
+      "step": 42170,
+      "train_speed(iter/s)": 0.447812
+    },
+    {
+      "acc": 0.64523268,
+      "epoch": 1.069888381532217,
+      "grad_norm": 5.25,
+      "learning_rate": 4.835605440533549e-06,
+      "loss": 1.66880531,
+      "memory(GiB)": 111.15,
+      "step": 42175,
+      "train_speed(iter/s)": 0.44784
+    },
+    {
+      "acc": 0.66297474,
+      "epoch": 1.070015220700152,
+      "grad_norm": 5.78125,
+      "learning_rate": 4.834557387423575e-06,
+      "loss": 1.51575947,
+      "memory(GiB)": 111.15,
+      "step": 42180,
+      "train_speed(iter/s)": 0.447868
+    },
+    {
+      "acc": 0.65415649,
+      "epoch": 1.0701420598680873,
+      "grad_norm": 4.5625,
+      "learning_rate": 4.833509341590503e-06,
+      "loss": 1.59952297,
+      "memory(GiB)": 111.15,
+      "step": 42185,
+      "train_speed(iter/s)": 0.447896
+    },
+    {
+      "acc": 0.65597782,
+      "epoch": 1.0702688990360223,
+      "grad_norm": 5.5,
+      "learning_rate": 4.8324613030804374e-06,
+      "loss": 1.56670532,
+      "memory(GiB)": 111.15,
+      "step": 42190,
+      "train_speed(iter/s)": 0.447924
+    },
+    {
+      "acc": 0.64246426,
+      "epoch": 1.0703957382039573,
+      "grad_norm": 5.6875,
+      "learning_rate": 4.83141327193947e-06,
+      "loss": 1.66084213,
+      "memory(GiB)": 111.15,
+      "step": 42195,
+      "train_speed(iter/s)": 0.447952
+    },
+    {
+      "acc": 0.66203041,
+      "epoch": 1.0705225773718925,
+      "grad_norm": 5.4375,
+      "learning_rate": 4.8303652482137e-06,
+      "loss": 1.5848753,
+      "memory(GiB)": 111.15,
+      "step": 42200,
+      "train_speed(iter/s)": 0.447979
+    },
+    {
+      "epoch": 1.0705225773718925,
+      "eval_acc": 0.6433090178833653,
+      "eval_loss": 1.6080025434494019,
+      "eval_runtime": 114.7536,
+      "eval_samples_per_second": 55.51,
+      "eval_steps_per_second": 27.755,
+      "step": 42200
+    },
+    {
+      "acc": 0.63279877,
+      "epoch": 1.0706494165398275,
+      "grad_norm": 5.5625,
+      "learning_rate": 4.829317231949222e-06,
+      "loss": 1.6698967,
+      "memory(GiB)": 111.15,
+      "step": 42205,
+      "train_speed(iter/s)": 0.44744
+    },
+    {
+      "acc": 0.66080055,
+      "epoch": 1.0707762557077625,
+      "grad_norm": 5.6875,
+      "learning_rate": 4.828269223192137e-06,
+      "loss": 1.61632996,
+      "memory(GiB)": 111.15,
+      "step": 42210,
+      "train_speed(iter/s)": 0.447467
+    },
+    {
+      "acc": 0.65124178,
+      "epoch": 1.0709030948756977,
+      "grad_norm": 5.40625,
+      "learning_rate": 4.827221221988537e-06,
+      "loss": 1.60223389,
+      "memory(GiB)": 111.15,
+      "step": 42215,
+      "train_speed(iter/s)": 0.447495
+    },
+    {
+      "acc": 0.65630131,
+      "epoch": 1.0710299340436327,
+      "grad_norm": 4.90625,
+      "learning_rate": 4.826173228384518e-06,
+      "loss": 1.57442532,
+      "memory(GiB)": 111.15,
+      "step": 42220,
+      "train_speed(iter/s)": 0.447522
+    },
+    {
+      "acc": 0.65567865,
+      "epoch": 1.0711567732115677,
+      "grad_norm": 4.9375,
+      "learning_rate": 4.8251252424261775e-06,
+      "loss": 1.62923698,
+      "memory(GiB)": 111.15,
+      "step": 42225,
+      "train_speed(iter/s)": 0.44755
+    },
+    {
+      "acc": 0.67063842,
+      "epoch": 1.0712836123795029,
+      "grad_norm": 4.6875,
+      "learning_rate": 4.8240772641596105e-06,
+      "loss": 1.50680742,
+      "memory(GiB)": 111.15,
+      "step": 42230,
+      "train_speed(iter/s)": 0.447577
+    },
+    {
+      "acc": 0.65935564,
+      "epoch": 1.0714104515474379,
+      "grad_norm": 5.28125,
+      "learning_rate": 4.82302929363091e-06,
+      "loss": 1.63713493,
+      "memory(GiB)": 111.15,
+      "step": 42235,
+      "train_speed(iter/s)": 0.447605
+    },
+    {
+      "acc": 0.64822226,
+      "epoch": 1.0715372907153728,
+      "grad_norm": 5.3125,
+      "learning_rate": 4.8219813308861705e-06,
+      "loss": 1.64099064,
+      "memory(GiB)": 111.15,
+      "step": 42240,
+      "train_speed(iter/s)": 0.447633
+    },
+    {
+      "acc": 0.66384859,
+      "epoch": 1.071664129883308,
+      "grad_norm": 5.15625,
+      "learning_rate": 4.820933375971487e-06,
+      "loss": 1.56793594,
+      "memory(GiB)": 111.15,
+      "step": 42245,
+      "train_speed(iter/s)": 0.447661
+    },
+    {
+      "acc": 0.63692331,
+      "epoch": 1.071790969051243,
+      "grad_norm": 5.4375,
+      "learning_rate": 4.819885428932955e-06,
+      "loss": 1.64721413,
+      "memory(GiB)": 111.15,
+      "step": 42250,
+      "train_speed(iter/s)": 0.447688
+    },
+    {
+      "acc": 0.65747166,
+      "epoch": 1.071917808219178,
+      "grad_norm": 5.28125,
+      "learning_rate": 4.818837489816664e-06,
+      "loss": 1.57155237,
+      "memory(GiB)": 111.15,
+      "step": 42255,
+      "train_speed(iter/s)": 0.447716
+    },
+    {
+      "acc": 0.64331398,
+      "epoch": 1.0720446473871132,
+      "grad_norm": 4.65625,
+      "learning_rate": 4.81778955866871e-06,
+      "loss": 1.71358528,
+      "memory(GiB)": 111.15,
+      "step": 42260,
+      "train_speed(iter/s)": 0.447744
+    },
+    {
+      "acc": 0.65925589,
+      "epoch": 1.0721714865550482,
+      "grad_norm": 5.09375,
+      "learning_rate": 4.816741635535183e-06,
+      "loss": 1.58301716,
+      "memory(GiB)": 111.15,
+      "step": 42265,
+      "train_speed(iter/s)": 0.447772
+    },
+    {
+      "acc": 0.63877544,
+      "epoch": 1.0722983257229832,
+      "grad_norm": 5.09375,
+      "learning_rate": 4.81569372046218e-06,
+      "loss": 1.68303795,
+      "memory(GiB)": 111.15,
+      "step": 42270,
+      "train_speed(iter/s)": 0.4478
+    },
+    {
+      "acc": 0.63884192,
+      "epoch": 1.0724251648909182,
+      "grad_norm": 6.0625,
+      "learning_rate": 4.814645813495788e-06,
+      "loss": 1.68935814,
+      "memory(GiB)": 111.15,
+      "step": 42275,
+      "train_speed(iter/s)": 0.447828
+    },
+    {
+      "acc": 0.65086803,
+      "epoch": 1.0725520040588534,
+      "grad_norm": 4.5,
+      "learning_rate": 4.8135979146821e-06,
+      "loss": 1.6348484,
+      "memory(GiB)": 111.15,
+      "step": 42280,
+      "train_speed(iter/s)": 0.447855
+    },
+    {
+      "acc": 0.63860865,
+      "epoch": 1.0726788432267884,
+      "grad_norm": 5.53125,
+      "learning_rate": 4.81255002406721e-06,
+      "loss": 1.62826576,
+      "memory(GiB)": 111.15,
+      "step": 42285,
+      "train_speed(iter/s)": 0.447883
+    },
+    {
+      "acc": 0.66557293,
+      "epoch": 1.0728056823947234,
+      "grad_norm": 4.71875,
+      "learning_rate": 4.811502141697206e-06,
+      "loss": 1.53216391,
+      "memory(GiB)": 111.15,
+      "step": 42290,
+      "train_speed(iter/s)": 0.44791
+    },
+    {
+      "acc": 0.6535913,
+      "epoch": 1.0729325215626586,
+      "grad_norm": 4.53125,
+      "learning_rate": 4.81045426761818e-06,
+      "loss": 1.60770531,
+      "memory(GiB)": 111.15,
+      "step": 42295,
+      "train_speed(iter/s)": 0.447938
+    },
+    {
+      "acc": 0.65668974,
+      "epoch": 1.0730593607305936,
+      "grad_norm": 4.71875,
+      "learning_rate": 4.80940640187622e-06,
+      "loss": 1.63087654,
+      "memory(GiB)": 111.15,
+      "step": 42300,
+      "train_speed(iter/s)": 0.447966
+    },
+    {
+      "epoch": 1.0730593607305936,
+      "eval_acc": 0.6433975845529701,
+      "eval_loss": 1.6080869436264038,
+      "eval_runtime": 114.6427,
+      "eval_samples_per_second": 55.564,
+      "eval_steps_per_second": 27.782,
+      "step": 42300
+    },
+    {
+      "acc": 0.65788221,
+      "epoch": 1.0731861998985286,
+      "grad_norm": 5.6875,
+      "learning_rate": 4.808358544517418e-06,
+      "loss": 1.54398746,
+      "memory(GiB)": 111.15,
+      "step": 42305,
+      "train_speed(iter/s)": 0.447428
+    },
+    {
+      "acc": 0.65854883,
+      "epoch": 1.0733130390664638,
+      "grad_norm": 5.59375,
+      "learning_rate": 4.807310695587865e-06,
+      "loss": 1.56340799,
+      "memory(GiB)": 111.15,
+      "step": 42310,
+      "train_speed(iter/s)": 0.447456
+    },
+    {
+      "acc": 0.64213314,
+      "epoch": 1.0734398782343988,
+      "grad_norm": 5.15625,
+      "learning_rate": 4.8062628551336445e-06,
+      "loss": 1.69329185,
+      "memory(GiB)": 111.15,
+      "step": 42315,
+      "train_speed(iter/s)": 0.447483
+    },
+    {
+      "acc": 0.65046864,
+      "epoch": 1.0735667174023338,
+      "grad_norm": 5.25,
+      "learning_rate": 4.80521502320085e-06,
+      "loss": 1.65091934,
+      "memory(GiB)": 111.15,
+      "step": 42320,
+      "train_speed(iter/s)": 0.447511
+    },
+    {
+      "acc": 0.64869566,
+      "epoch": 1.073693556570269,
+      "grad_norm": 5.96875,
+      "learning_rate": 4.804167199835567e-06,
+      "loss": 1.60231094,
+      "memory(GiB)": 111.15,
+      "step": 42325,
+      "train_speed(iter/s)": 0.447539
+    },
+    {
+      "acc": 0.65662122,
+      "epoch": 1.073820395738204,
+      "grad_norm": 5.25,
+      "learning_rate": 4.8031193850838894e-06,
+      "loss": 1.56717491,
+      "memory(GiB)": 111.15,
+      "step": 42330,
+      "train_speed(iter/s)": 0.447567
+    },
+    {
+      "acc": 0.64752436,
+      "epoch": 1.073947234906139,
+      "grad_norm": 5.0,
+      "learning_rate": 4.802071578991896e-06,
+      "loss": 1.64022694,
+      "memory(GiB)": 111.15,
+      "step": 42335,
+      "train_speed(iter/s)": 0.447595
+    },
+    {
+      "acc": 0.64729605,
+      "epoch": 1.074074074074074,
+      "grad_norm": 4.8125,
+      "learning_rate": 4.801023781605679e-06,
+      "loss": 1.63269806,
+      "memory(GiB)": 111.15,
+      "step": 42340,
+      "train_speed(iter/s)": 0.447623
+    },
+    {
+      "acc": 0.65244746,
+      "epoch": 1.0742009132420092,
+      "grad_norm": 4.46875,
+      "learning_rate": 4.799975992971325e-06,
+      "loss": 1.62109928,
+      "memory(GiB)": 111.15,
+      "step": 42345,
+      "train_speed(iter/s)": 0.447651
+    },
+    {
+      "acc": 0.65786071,
+      "epoch": 1.0743277524099442,
+      "grad_norm": 5.125,
+      "learning_rate": 4.798928213134921e-06,
+      "loss": 1.57612333,
+      "memory(GiB)": 111.15,
+      "step": 42350,
+      "train_speed(iter/s)": 0.447679
+    },
+    {
+      "acc": 0.65906668,
+      "epoch": 1.0744545915778791,
+      "grad_norm": 5.6875,
+      "learning_rate": 4.797880442142551e-06,
+      "loss": 1.62653961,
+      "memory(GiB)": 111.15,
+      "step": 42355,
+      "train_speed(iter/s)": 0.447707
+    },
+    {
+      "acc": 0.65131454,
+      "epoch": 1.0745814307458144,
+      "grad_norm": 5.53125,
+      "learning_rate": 4.7968326800403e-06,
+      "loss": 1.58531933,
+      "memory(GiB)": 111.15,
+      "step": 42360,
+      "train_speed(iter/s)": 0.447735
+    },
+    {
+      "acc": 0.64075627,
+      "epoch": 1.0747082699137493,
+      "grad_norm": 6.40625,
+      "learning_rate": 4.795784926874255e-06,
+      "loss": 1.65971165,
+      "memory(GiB)": 111.15,
+      "step": 42365,
+      "train_speed(iter/s)": 0.447764
+    },
+    {
+      "acc": 0.6582942,
+      "epoch": 1.0748351090816843,
+      "grad_norm": 5.9375,
+      "learning_rate": 4.794737182690503e-06,
+      "loss": 1.61465836,
+      "memory(GiB)": 111.15,
+      "step": 42370,
+      "train_speed(iter/s)": 0.447792
+    },
+    {
+      "acc": 0.6313972,
+      "epoch": 1.0749619482496195,
+      "grad_norm": 4.65625,
+      "learning_rate": 4.793689447535126e-06,
+      "loss": 1.63567257,
+      "memory(GiB)": 111.15,
+      "step": 42375,
+      "train_speed(iter/s)": 0.44782
+    },
+    {
+      "acc": 0.66560392,
+      "epoch": 1.0750887874175545,
+      "grad_norm": 5.65625,
+      "learning_rate": 4.792641721454206e-06,
+      "loss": 1.59289656,
+      "memory(GiB)": 111.15,
+      "step": 42380,
+      "train_speed(iter/s)": 0.447848
+    },
+    {
+      "acc": 0.65964684,
+      "epoch": 1.0752156265854895,
+      "grad_norm": 5.375,
+      "learning_rate": 4.79159400449383e-06,
+      "loss": 1.57748537,
+      "memory(GiB)": 111.15,
+      "step": 42385,
+      "train_speed(iter/s)": 0.447876
+    },
+    {
+      "acc": 0.65489941,
+      "epoch": 1.0753424657534247,
+      "grad_norm": 4.84375,
+      "learning_rate": 4.7905462967000816e-06,
+      "loss": 1.60706482,
+      "memory(GiB)": 111.15,
+      "step": 42390,
+      "train_speed(iter/s)": 0.447904
+    },
+    {
+      "acc": 0.64812918,
+      "epoch": 1.0754693049213597,
+      "grad_norm": 5.84375,
+      "learning_rate": 4.789498598119039e-06,
+      "loss": 1.65929451,
+      "memory(GiB)": 111.15,
+      "step": 42395,
+      "train_speed(iter/s)": 0.447932
+    },
+    {
+      "acc": 0.64938974,
+      "epoch": 1.0755961440892947,
+      "grad_norm": 4.90625,
+      "learning_rate": 4.78845090879679e-06,
+      "loss": 1.60679092,
+      "memory(GiB)": 111.15,
+      "step": 42400,
+      "train_speed(iter/s)": 0.447961
+    },
+    {
+      "epoch": 1.0755961440892947,
+      "eval_acc": 0.6433750251182595,
+      "eval_loss": 1.6079102754592896,
+      "eval_runtime": 114.4677,
+      "eval_samples_per_second": 55.649,
+      "eval_steps_per_second": 27.824,
+      "step": 42400
+    },
+    {
+      "acc": 0.64990029,
+      "epoch": 1.07572298325723,
+      "grad_norm": 6.125,
+      "learning_rate": 4.787403228779413e-06,
+      "loss": 1.61475754,
+      "memory(GiB)": 111.15,
+      "step": 42405,
+      "train_speed(iter/s)": 0.447426
+    },
+    {
+      "acc": 0.64791603,
+      "epoch": 1.075849822425165,
+      "grad_norm": 6.75,
+      "learning_rate": 4.786355558112994e-06,
+      "loss": 1.68084602,
+      "memory(GiB)": 111.15,
+      "step": 42410,
+      "train_speed(iter/s)": 0.447454
+    },
+    {
+      "acc": 0.66396799,
+      "epoch": 1.0759766615931,
+      "grad_norm": 4.8125,
+      "learning_rate": 4.78530789684361e-06,
+      "loss": 1.57055225,
+      "memory(GiB)": 111.15,
+      "step": 42415,
+      "train_speed(iter/s)": 0.447481
+    },
+    {
+      "acc": 0.63911309,
+      "epoch": 1.0761035007610351,
+      "grad_norm": 4.125,
+      "learning_rate": 4.784260245017343e-06,
+      "loss": 1.67114429,
+      "memory(GiB)": 111.15,
+      "step": 42420,
+      "train_speed(iter/s)": 0.447509
+    },
+    {
+      "acc": 0.6534699,
+      "epoch": 1.07623033992897,
+      "grad_norm": 5.3125,
+      "learning_rate": 4.7832126026802725e-06,
+      "loss": 1.63753948,
+      "memory(GiB)": 111.15,
+      "step": 42425,
+      "train_speed(iter/s)": 0.447537
+    },
+    {
+      "acc": 0.65466781,
+      "epoch": 1.076357179096905,
+      "grad_norm": 5.4375,
+      "learning_rate": 4.782164969878482e-06,
+      "loss": 1.57898817,
+      "memory(GiB)": 111.15,
+      "step": 42430,
+      "train_speed(iter/s)": 0.447565
+    },
+    {
+      "acc": 0.62913675,
+      "epoch": 1.07648401826484,
+      "grad_norm": 4.75,
+      "learning_rate": 4.781117346658047e-06,
+      "loss": 1.6569315,
+      "memory(GiB)": 111.15,
+      "step": 42435,
+      "train_speed(iter/s)": 0.447593
+    },
+    {
+      "acc": 0.64169998,
+      "epoch": 1.0766108574327753,
+      "grad_norm": 5.0625,
+      "learning_rate": 4.780069733065048e-06,
+      "loss": 1.62741814,
+      "memory(GiB)": 111.15,
+      "step": 42440,
+      "train_speed(iter/s)": 0.447621
+    },
+    {
+      "acc": 0.65704737,
+      "epoch": 1.0767376966007103,
+      "grad_norm": 7.4375,
+      "learning_rate": 4.779022129145566e-06,
+      "loss": 1.57679758,
+      "memory(GiB)": 111.15,
+      "step": 42445,
+      "train_speed(iter/s)": 0.447649
+    },
+    {
+      "acc": 0.64747906,
+      "epoch": 1.0768645357686453,
+      "grad_norm": 4.8125,
+      "learning_rate": 4.777974534945677e-06,
+      "loss": 1.65724602,
+      "memory(GiB)": 111.15,
+      "step": 42450,
+      "train_speed(iter/s)": 0.447677
+    },
+    {
+      "acc": 0.64793148,
+      "epoch": 1.0769913749365805,
+      "grad_norm": 4.4375,
+      "learning_rate": 4.776926950511457e-06,
+      "loss": 1.68300209,
+      "memory(GiB)": 111.15,
+      "step": 42455,
+      "train_speed(iter/s)": 0.447705
+    },
+    {
+      "acc": 0.6358758,
+      "epoch": 1.0771182141045155,
+      "grad_norm": 4.71875,
+      "learning_rate": 4.775879375888986e-06,
+      "loss": 1.69937038,
+      "memory(GiB)": 111.15,
+      "step": 42460,
+      "train_speed(iter/s)": 0.447733
+    },
+    {
+      "acc": 0.66269622,
+      "epoch": 1.0772450532724505,
+      "grad_norm": 5.21875,
+      "learning_rate": 4.774831811124343e-06,
+      "loss": 1.58237514,
+      "memory(GiB)": 111.15,
+      "step": 42465,
+      "train_speed(iter/s)": 0.447761
+    },
+    {
+      "acc": 0.65211596,
+      "epoch": 1.0773718924403857,
+      "grad_norm": 5.03125,
+      "learning_rate": 4.773784256263601e-06,
+      "loss": 1.6161253,
+      "memory(GiB)": 111.15,
+      "step": 42470,
+      "train_speed(iter/s)": 0.447789
+    },
+    {
+      "acc": 0.64606943,
+      "epoch": 1.0774987316083207,
+      "grad_norm": 5.15625,
+      "learning_rate": 4.7727367113528374e-06,
+      "loss": 1.63733406,
+      "memory(GiB)": 111.15,
+      "step": 42475,
+      "train_speed(iter/s)": 0.447816
+    },
+    {
+      "acc": 0.64288712,
+      "epoch": 1.0776255707762556,
+      "grad_norm": 4.84375,
+      "learning_rate": 4.771689176438128e-06,
+      "loss": 1.65903435,
+      "memory(GiB)": 111.15,
+      "step": 42480,
+      "train_speed(iter/s)": 0.447844
+    },
+    {
+      "acc": 0.65304546,
+      "epoch": 1.0777524099441909,
+      "grad_norm": 7.09375,
+      "learning_rate": 4.770641651565546e-06,
+      "loss": 1.54605789,
+      "memory(GiB)": 111.15,
+      "step": 42485,
+      "train_speed(iter/s)": 0.447872
+    },
+    {
+      "acc": 0.6501338,
+      "epoch": 1.0778792491121258,
+      "grad_norm": 5.375,
+      "learning_rate": 4.769594136781172e-06,
+      "loss": 1.61108551,
+      "memory(GiB)": 111.15,
+      "step": 42490,
+      "train_speed(iter/s)": 0.4479
+    },
+    {
+      "acc": 0.66053123,
+      "epoch": 1.0780060882800608,
+      "grad_norm": 6.28125,
+      "learning_rate": 4.768546632131074e-06,
+      "loss": 1.62741489,
+      "memory(GiB)": 111.15,
+      "step": 42495,
+      "train_speed(iter/s)": 0.447928
+    },
+    {
+      "acc": 0.6540844,
+      "epoch": 1.0781329274479958,
+      "grad_norm": 6.6875,
+      "learning_rate": 4.767499137661328e-06,
+      "loss": 1.66894722,
+      "memory(GiB)": 111.15,
+      "step": 42500,
+      "train_speed(iter/s)": 0.447956
+    },
+    {
+      "epoch": 1.0781329274479958,
+      "eval_acc": 0.6433140310910787,
+      "eval_loss": 1.608110785484314,
+      "eval_runtime": 112.9595,
+      "eval_samples_per_second": 56.392,
+      "eval_steps_per_second": 28.196,
+      "step": 42500
+    },
+    {
+      "acc": 0.66638837,
+      "epoch": 1.078259766615931,
+      "grad_norm": 4.375,
+      "learning_rate": 4.76645165341801e-06,
+      "loss": 1.51792583,
+      "memory(GiB)": 111.15,
+      "step": 42505,
+      "train_speed(iter/s)": 0.447429
+    },
+    {
+      "acc": 0.63633523,
+      "epoch": 1.078386605783866,
+      "grad_norm": 5.09375,
+      "learning_rate": 4.76540417944719e-06,
+      "loss": 1.62671757,
+      "memory(GiB)": 111.15,
+      "step": 42510,
+      "train_speed(iter/s)": 0.447457
+    },
+    {
+      "acc": 0.66191425,
+      "epoch": 1.078513444951801,
+      "grad_norm": 4.53125,
+      "learning_rate": 4.764356715794942e-06,
+      "loss": 1.62717953,
+      "memory(GiB)": 111.15,
+      "step": 42515,
+      "train_speed(iter/s)": 0.447484
+    },
+    {
+      "acc": 0.65805836,
+      "epoch": 1.0786402841197362,
+      "grad_norm": 6.9375,
+      "learning_rate": 4.763309262507336e-06,
+      "loss": 1.57801075,
+      "memory(GiB)": 111.15,
+      "step": 42520,
+      "train_speed(iter/s)": 0.447512
+    },
+    {
+      "acc": 0.64669514,
+      "epoch": 1.0787671232876712,
+      "grad_norm": 5.8125,
+      "learning_rate": 4.762261819630447e-06,
+      "loss": 1.63321724,
+      "memory(GiB)": 111.15,
+      "step": 42525,
+      "train_speed(iter/s)": 0.447539
+    },
+    {
+      "acc": 0.66242962,
+      "epoch": 1.0788939624556062,
+      "grad_norm": 5.5,
+      "learning_rate": 4.761214387210345e-06,
+      "loss": 1.5374156,
+      "memory(GiB)": 111.15,
+      "step": 42530,
+      "train_speed(iter/s)": 0.447567
+    },
+    {
+      "acc": 0.66498322,
+      "epoch": 1.0790208016235414,
+      "grad_norm": 5.125,
+      "learning_rate": 4.760166965293099e-06,
+      "loss": 1.61086388,
+      "memory(GiB)": 111.15,
+      "step": 42535,
+      "train_speed(iter/s)": 0.447595
+    },
+    {
+      "acc": 0.65004244,
+      "epoch": 1.0791476407914764,
+      "grad_norm": 5.34375,
+      "learning_rate": 4.759119553924781e-06,
+      "loss": 1.62843895,
+      "memory(GiB)": 111.15,
+      "step": 42540,
+      "train_speed(iter/s)": 0.447622
+    },
+    {
+      "acc": 0.64620929,
+      "epoch": 1.0792744799594114,
+      "grad_norm": 5.46875,
+      "learning_rate": 4.758072153151461e-06,
+      "loss": 1.6055687,
+      "memory(GiB)": 111.15,
+      "step": 42545,
+      "train_speed(iter/s)": 0.447649
+    },
+    {
+      "acc": 0.64984074,
+      "epoch": 1.0794013191273466,
+      "grad_norm": 5.0625,
+      "learning_rate": 4.757024763019209e-06,
+      "loss": 1.55049896,
+      "memory(GiB)": 111.15,
+      "step": 42550,
+      "train_speed(iter/s)": 0.447677
+    },
+    {
+      "acc": 0.65108652,
+      "epoch": 1.0795281582952816,
+      "grad_norm": 4.78125,
+      "learning_rate": 4.755977383574091e-06,
+      "loss": 1.61213303,
+      "memory(GiB)": 111.15,
+      "step": 42555,
+      "train_speed(iter/s)": 0.447705
+    },
+    {
+      "acc": 0.65702071,
+      "epoch": 1.0796549974632166,
+      "grad_norm": 5.5,
+      "learning_rate": 4.754930014862177e-06,
+      "loss": 1.63071251,
+      "memory(GiB)": 111.15,
+      "step": 42560,
+      "train_speed(iter/s)": 0.447733
+    },
+    {
+      "acc": 0.6611783,
+      "epoch": 1.0797818366311518,
+      "grad_norm": 4.90625,
+      "learning_rate": 4.753882656929535e-06,
+      "loss": 1.65588474,
+      "memory(GiB)": 111.15,
+      "step": 42565,
+      "train_speed(iter/s)": 0.44776
+    },
+    {
+      "acc": 0.64996538,
+      "epoch": 1.0799086757990868,
+      "grad_norm": 5.09375,
+      "learning_rate": 4.752835309822234e-06,
+      "loss": 1.62630806,
+      "memory(GiB)": 111.15,
+      "step": 42570,
+      "train_speed(iter/s)": 0.447788
+    },
+    {
+      "acc": 0.65728741,
+      "epoch": 1.0800355149670218,
+      "grad_norm": 5.6875,
+      "learning_rate": 4.7517879735863385e-06,
+      "loss": 1.59335899,
+      "memory(GiB)": 111.15,
+      "step": 42575,
+      "train_speed(iter/s)": 0.447815
+    },
+    {
+      "acc": 0.63495207,
+      "epoch": 1.080162354134957,
+      "grad_norm": 4.5625,
+      "learning_rate": 4.750740648267916e-06,
+      "loss": 1.64548187,
+      "memory(GiB)": 111.15,
+      "step": 42580,
+      "train_speed(iter/s)": 0.447843
+    },
+    {
+      "acc": 0.648312,
+      "epoch": 1.080289193302892,
+      "grad_norm": 4.5,
+      "learning_rate": 4.749693333913033e-06,
+      "loss": 1.62279701,
+      "memory(GiB)": 111.15,
+      "step": 42585,
+      "train_speed(iter/s)": 0.447871
+    },
+    {
+      "acc": 0.64716854,
+      "epoch": 1.080416032470827,
+      "grad_norm": 5.3125,
+      "learning_rate": 4.748646030567755e-06,
+      "loss": 1.6170126,
+      "memory(GiB)": 111.15,
+      "step": 42590,
+      "train_speed(iter/s)": 0.447898
+    },
+    {
+      "acc": 0.65540886,
+      "epoch": 1.080542871638762,
+      "grad_norm": 5.75,
+      "learning_rate": 4.747598738278147e-06,
+      "loss": 1.65511131,
+      "memory(GiB)": 111.15,
+      "step": 42595,
+      "train_speed(iter/s)": 0.447926
+    },
+    {
+      "acc": 0.65587034,
+      "epoch": 1.0806697108066972,
+      "grad_norm": 4.5,
+      "learning_rate": 4.746551457090272e-06,
+      "loss": 1.6335247,
+      "memory(GiB)": 111.15,
+      "step": 42600,
+      "train_speed(iter/s)": 0.447953
+    },
+    {
+      "epoch": 1.0806697108066972,
+      "eval_acc": 0.643359985495119,
+      "eval_loss": 1.608039379119873,
+      "eval_runtime": 114.8983,
+      "eval_samples_per_second": 55.44,
+      "eval_steps_per_second": 27.72,
+      "step": 42600
+    },
+    {
+      "acc": 0.6475275,
+      "epoch": 1.0807965499746321,
+      "grad_norm": 5.25,
+      "learning_rate": 4.745504187050197e-06,
+      "loss": 1.66056252,
+      "memory(GiB)": 111.15,
+      "step": 42605,
+      "train_speed(iter/s)": 0.447418
+    },
+    {
+      "acc": 0.63938088,
+      "epoch": 1.0809233891425671,
+      "grad_norm": 5.0,
+      "learning_rate": 4.744456928203985e-06,
+      "loss": 1.64244041,
+      "memory(GiB)": 111.15,
+      "step": 42610,
+      "train_speed(iter/s)": 0.447446
+    },
+    {
+      "acc": 0.6555337,
+      "epoch": 1.0810502283105023,
+      "grad_norm": 6.53125,
+      "learning_rate": 4.743409680597695e-06,
+      "loss": 1.60825748,
+      "memory(GiB)": 111.15,
+      "step": 42615,
+      "train_speed(iter/s)": 0.447473
+    },
+    {
+      "acc": 0.63922367,
+      "epoch": 1.0811770674784373,
+      "grad_norm": 5.65625,
+      "learning_rate": 4.742362444277394e-06,
+      "loss": 1.66628761,
+      "memory(GiB)": 111.15,
+      "step": 42620,
+      "train_speed(iter/s)": 0.4475
+    },
+    {
+      "acc": 0.6513371,
+      "epoch": 1.0813039066463723,
+      "grad_norm": 5.03125,
+      "learning_rate": 4.741315219289142e-06,
+      "loss": 1.6523737,
+      "memory(GiB)": 111.15,
+      "step": 42625,
+      "train_speed(iter/s)": 0.447528
+    },
+    {
+      "acc": 0.65962896,
+      "epoch": 1.0814307458143075,
+      "grad_norm": 5.40625,
+      "learning_rate": 4.740268005679005e-06,
+      "loss": 1.57260571,
+      "memory(GiB)": 111.15,
+      "step": 42630,
+      "train_speed(iter/s)": 0.447555
+    },
+    {
+      "acc": 0.65712008,
+      "epoch": 1.0815575849822425,
+      "grad_norm": 6.75,
+      "learning_rate": 4.739220803493039e-06,
+      "loss": 1.56484509,
+      "memory(GiB)": 111.15,
+      "step": 42635,
+      "train_speed(iter/s)": 0.447582
+    },
+    {
+      "acc": 0.66033769,
+      "epoch": 1.0816844241501775,
+      "grad_norm": 6.40625,
+      "learning_rate": 4.738173612777306e-06,
+      "loss": 1.67986526,
+      "memory(GiB)": 111.15,
+      "step": 42640,
+      "train_speed(iter/s)": 0.44761
+    },
+    {
+      "acc": 0.63509431,
+      "epoch": 1.0818112633181127,
+      "grad_norm": 5.125,
+      "learning_rate": 4.737126433577866e-06,
+      "loss": 1.73638515,
+      "memory(GiB)": 111.15,
+      "step": 42645,
+      "train_speed(iter/s)": 0.447638
+    },
+    {
+      "acc": 0.6361464,
+      "epoch": 1.0819381024860477,
+      "grad_norm": 5.46875,
+      "learning_rate": 4.736079265940781e-06,
+      "loss": 1.64229202,
+      "memory(GiB)": 111.15,
+      "step": 42650,
+      "train_speed(iter/s)": 0.447666
+    },
+    {
+      "acc": 0.63813267,
+      "epoch": 1.0820649416539827,
+      "grad_norm": 5.8125,
+      "learning_rate": 4.735032109912107e-06,
+      "loss": 1.63184185,
+      "memory(GiB)": 111.15,
+      "step": 42655,
+      "train_speed(iter/s)": 0.447693
+    },
+    {
+      "acc": 0.64233227,
+      "epoch": 1.0821917808219177,
+      "grad_norm": 5.0625,
+      "learning_rate": 4.733984965537903e-06,
+      "loss": 1.61498661,
+      "memory(GiB)": 111.15,
+      "step": 42660,
+      "train_speed(iter/s)": 0.447721
+    },
+    {
+      "acc": 0.66911764,
+      "epoch": 1.082318619989853,
+      "grad_norm": 5.34375,
+      "learning_rate": 4.732937832864229e-06,
+      "loss": 1.53687544,
+      "memory(GiB)": 111.15,
+      "step": 42665,
+      "train_speed(iter/s)": 0.447748
+    },
+    {
+      "acc": 0.63870249,
+      "epoch": 1.082445459157788,
+      "grad_norm": 5.40625,
+      "learning_rate": 4.731890711937141e-06,
+      "loss": 1.66874638,
+      "memory(GiB)": 111.15,
+      "step": 42670,
+      "train_speed(iter/s)": 0.447776
+    },
+    {
+      "acc": 0.65349216,
+      "epoch": 1.0825722983257229,
+      "grad_norm": 6.09375,
+      "learning_rate": 4.730843602802696e-06,
+      "loss": 1.56692314,
+      "memory(GiB)": 111.15,
+      "step": 42675,
+      "train_speed(iter/s)": 0.447803
+    },
+    {
+      "acc": 0.65690975,
+      "epoch": 1.082699137493658,
+      "grad_norm": 6.53125,
+      "learning_rate": 4.729796505506951e-06,
+      "loss": 1.58195248,
+      "memory(GiB)": 111.15,
+      "step": 42680,
+      "train_speed(iter/s)": 0.447831
+    },
+    {
+      "acc": 0.63565168,
+      "epoch": 1.082825976661593,
+      "grad_norm": 4.78125,
+      "learning_rate": 4.728749420095964e-06,
+      "loss": 1.68743172,
+      "memory(GiB)": 111.15,
+      "step": 42685,
+      "train_speed(iter/s)": 0.447859
+    },
+    {
+      "acc": 0.65260105,
+      "epoch": 1.082952815829528,
+      "grad_norm": 5.46875,
+      "learning_rate": 4.727702346615788e-06,
+      "loss": 1.67320499,
+      "memory(GiB)": 111.15,
+      "step": 42690,
+      "train_speed(iter/s)": 0.447886
+    },
+    {
+      "acc": 0.6545435,
+      "epoch": 1.0830796549974633,
+      "grad_norm": 4.5,
+      "learning_rate": 4.726655285112477e-06,
+      "loss": 1.58356848,
+      "memory(GiB)": 111.15,
+      "step": 42695,
+      "train_speed(iter/s)": 0.447914
+    },
+    {
+      "acc": 0.64574442,
+      "epoch": 1.0832064941653983,
+      "grad_norm": 5.65625,
+      "learning_rate": 4.725608235632088e-06,
+      "loss": 1.64110832,
+      "memory(GiB)": 111.15,
+      "step": 42700,
+      "train_speed(iter/s)": 0.447942
+    },
+    {
+      "epoch": 1.0832064941653983,
+      "eval_acc": 0.6433048402102707,
+      "eval_loss": 1.6080348491668701,
+      "eval_runtime": 114.3889,
+      "eval_samples_per_second": 55.687,
+      "eval_steps_per_second": 27.844,
+      "step": 42700
+    },
+    {
+      "acc": 0.6555387,
+      "epoch": 1.0833333333333333,
+      "grad_norm": 5.96875,
+      "learning_rate": 4.724561198220672e-06,
+      "loss": 1.61674061,
+      "memory(GiB)": 111.15,
+      "step": 42705,
+      "train_speed(iter/s)": 0.44741
+    },
+    {
+      "acc": 0.64328675,
+      "epoch": 1.0834601725012685,
+      "grad_norm": 5.125,
+      "learning_rate": 4.723514172924287e-06,
+      "loss": 1.63138638,
+      "memory(GiB)": 111.15,
+      "step": 42710,
+      "train_speed(iter/s)": 0.447438
+    },
+    {
+      "acc": 0.64533577,
+      "epoch": 1.0835870116692035,
+      "grad_norm": 4.875,
+      "learning_rate": 4.7224671597889825e-06,
+      "loss": 1.61416206,
+      "memory(GiB)": 111.15,
+      "step": 42715,
+      "train_speed(iter/s)": 0.447465
+    },
+    {
+      "acc": 0.63563566,
+      "epoch": 1.0837138508371384,
+      "grad_norm": 6.15625,
+      "learning_rate": 4.72142015886081e-06,
+      "loss": 1.69171658,
+      "memory(GiB)": 111.15,
+      "step": 42720,
+      "train_speed(iter/s)": 0.447493
+    },
+    {
+      "acc": 0.66792364,
+      "epoch": 1.0838406900050737,
+      "grad_norm": 5.25,
+      "learning_rate": 4.720373170185823e-06,
+      "loss": 1.5581192,
+      "memory(GiB)": 111.15,
+      "step": 42725,
+      "train_speed(iter/s)": 0.44752
+    },
+    {
+      "acc": 0.65652103,
+      "epoch": 1.0839675291730086,
+      "grad_norm": 5.5625,
+      "learning_rate": 4.719326193810075e-06,
+      "loss": 1.646418,
+      "memory(GiB)": 111.15,
+      "step": 42730,
+      "train_speed(iter/s)": 0.447548
+    },
+    {
+      "acc": 0.64024019,
+      "epoch": 1.0840943683409436,
+      "grad_norm": 6.21875,
+      "learning_rate": 4.718279229779612e-06,
+      "loss": 1.64975052,
+      "memory(GiB)": 111.15,
+      "step": 42735,
+      "train_speed(iter/s)": 0.447576
+    },
+    {
+      "acc": 0.64308114,
+      "epoch": 1.0842212075088788,
+      "grad_norm": 5.28125,
+      "learning_rate": 4.717232278140485e-06,
+      "loss": 1.72063713,
+      "memory(GiB)": 111.15,
+      "step": 42740,
+      "train_speed(iter/s)": 0.447603
+    },
+    {
+      "acc": 0.6637732,
+      "epoch": 1.0843480466768138,
+      "grad_norm": 4.6875,
+      "learning_rate": 4.716185338938746e-06,
+      "loss": 1.57291613,
+      "memory(GiB)": 111.15,
+      "step": 42745,
+      "train_speed(iter/s)": 0.447631
+    },
+    {
+      "acc": 0.6394186,
+      "epoch": 1.0844748858447488,
+      "grad_norm": 6.53125,
+      "learning_rate": 4.7151384122204445e-06,
+      "loss": 1.60274467,
+      "memory(GiB)": 111.15,
+      "step": 42750,
+      "train_speed(iter/s)": 0.447659
+    },
+    {
+      "acc": 0.64304848,
+      "epoch": 1.0846017250126838,
+      "grad_norm": 5.6875,
+      "learning_rate": 4.7140914980316254e-06,
+      "loss": 1.60801468,
+      "memory(GiB)": 111.15,
+      "step": 42755,
+      "train_speed(iter/s)": 0.447686
+    },
+    {
+      "acc": 0.64666204,
+      "epoch": 1.084728564180619,
+      "grad_norm": 5.90625,
+      "learning_rate": 4.713044596418339e-06,
+      "loss": 1.6410614,
+      "memory(GiB)": 111.15,
+      "step": 42760,
+      "train_speed(iter/s)": 0.447714
+    },
+    {
+      "acc": 0.65263901,
+      "epoch": 1.084855403348554,
+      "grad_norm": 5.15625,
+      "learning_rate": 4.711997707426632e-06,
+      "loss": 1.61113319,
+      "memory(GiB)": 111.15,
+      "step": 42765,
+      "train_speed(iter/s)": 0.447741
+    },
+    {
+      "acc": 0.64947672,
+      "epoch": 1.084982242516489,
+      "grad_norm": 5.4375,
+      "learning_rate": 4.710950831102555e-06,
+      "loss": 1.65112762,
+      "memory(GiB)": 111.15,
+      "step": 42770,
+      "train_speed(iter/s)": 0.447769
+    },
+    {
+      "acc": 0.65196028,
+      "epoch": 1.0851090816844242,
+      "grad_norm": 5.9375,
+      "learning_rate": 4.709903967492147e-06,
+      "loss": 1.59210529,
+      "memory(GiB)": 111.15,
+      "step": 42775,
+      "train_speed(iter/s)": 0.447797
+    },
+    {
+      "acc": 0.64059129,
+      "epoch": 1.0852359208523592,
+      "grad_norm": 5.375,
+      "learning_rate": 4.7088571166414595e-06,
+      "loss": 1.60884666,
+      "memory(GiB)": 111.15,
+      "step": 42780,
+      "train_speed(iter/s)": 0.447825
+    },
+    {
+      "acc": 0.65471478,
+      "epoch": 1.0853627600202942,
+      "grad_norm": 5.09375,
+      "learning_rate": 4.707810278596534e-06,
+      "loss": 1.63755646,
+      "memory(GiB)": 111.15,
+      "step": 42785,
+      "train_speed(iter/s)": 0.447853
+    },
+    {
+      "acc": 0.65636454,
+      "epoch": 1.0854895991882294,
+      "grad_norm": 6.65625,
+      "learning_rate": 4.7067634534034205e-06,
+      "loss": 1.60719414,
+      "memory(GiB)": 111.15,
+      "step": 42790,
+      "train_speed(iter/s)": 0.44788
+    },
+    {
+      "acc": 0.64232798,
+      "epoch": 1.0856164383561644,
+      "grad_norm": 5.875,
+      "learning_rate": 4.705716641108157e-06,
+      "loss": 1.6291769,
+      "memory(GiB)": 111.15,
+      "step": 42795,
+      "train_speed(iter/s)": 0.447908
+    },
+    {
+      "acc": 0.65043526,
+      "epoch": 1.0857432775240994,
+      "grad_norm": 5.9375,
+      "learning_rate": 4.7046698417567894e-06,
+      "loss": 1.65495186,
+      "memory(GiB)": 111.15,
+      "step": 42800,
+      "train_speed(iter/s)": 0.447936
+    },
+    {
+      "epoch": 1.0857432775240994,
+      "eval_acc": 0.6433257285757435,
+      "eval_loss": 1.6080865859985352,
+      "eval_runtime": 114.082,
+      "eval_samples_per_second": 55.837,
+      "eval_steps_per_second": 27.919,
+      "step": 42800
+    },
+    {
+      "acc": 0.65143194,
+      "epoch": 1.0858701166920346,
+      "grad_norm": 5.8125,
+      "learning_rate": 4.7036230553953616e-06,
+      "loss": 1.62103233,
+      "memory(GiB)": 111.15,
+      "step": 42805,
+      "train_speed(iter/s)": 0.447407
+    },
+    {
+      "acc": 0.66299734,
+      "epoch": 1.0859969558599696,
+      "grad_norm": 6.0625,
+      "learning_rate": 4.702576282069916e-06,
+      "loss": 1.54169788,
+      "memory(GiB)": 111.15,
+      "step": 42810,
+      "train_speed(iter/s)": 0.447434
+    },
+    {
+      "acc": 0.64317827,
+      "epoch": 1.0861237950279046,
+      "grad_norm": 5.875,
+      "learning_rate": 4.701529521826492e-06,
+      "loss": 1.68515339,
+      "memory(GiB)": 111.15,
+      "step": 42815,
+      "train_speed(iter/s)": 0.447462
+    },
+    {
+      "acc": 0.66326375,
+      "epoch": 1.0862506341958396,
+      "grad_norm": 5.125,
+      "learning_rate": 4.700482774711131e-06,
+      "loss": 1.62345314,
+      "memory(GiB)": 111.15,
+      "step": 42820,
+      "train_speed(iter/s)": 0.44749
+    },
+    {
+      "acc": 0.66727629,
+      "epoch": 1.0863774733637748,
+      "grad_norm": 5.65625,
+      "learning_rate": 4.699436040769877e-06,
+      "loss": 1.51841269,
+      "memory(GiB)": 111.15,
+      "step": 42825,
+      "train_speed(iter/s)": 0.447517
+    },
+    {
+      "acc": 0.6602231,
+      "epoch": 1.0865043125317098,
+      "grad_norm": 5.21875,
+      "learning_rate": 4.698389320048768e-06,
+      "loss": 1.59528408,
+      "memory(GiB)": 111.15,
+      "step": 42830,
+      "train_speed(iter/s)": 0.447545
+    },
+    {
+      "acc": 0.63144603,
+      "epoch": 1.0866311516996447,
+      "grad_norm": 5.3125,
+      "learning_rate": 4.697342612593841e-06,
+      "loss": 1.67240829,
+      "memory(GiB)": 111.15,
+      "step": 42835,
+      "train_speed(iter/s)": 0.447572
+    },
+    {
+      "acc": 0.64681754,
+      "epoch": 1.08675799086758,
+      "grad_norm": 4.71875,
+      "learning_rate": 4.696295918451139e-06,
+      "loss": 1.59435062,
+      "memory(GiB)": 111.15,
+      "step": 42840,
+      "train_speed(iter/s)": 0.4476
+    },
+    {
+      "acc": 0.65802159,
+      "epoch": 1.086884830035515,
+      "grad_norm": 4.9375,
+      "learning_rate": 4.695249237666697e-06,
+      "loss": 1.59759254,
+      "memory(GiB)": 111.15,
+      "step": 42845,
+      "train_speed(iter/s)": 0.447628
+    },
+    {
+      "acc": 0.66968393,
+      "epoch": 1.08701166920345,
+      "grad_norm": 5.78125,
+      "learning_rate": 4.694202570286556e-06,
+      "loss": 1.56533194,
+      "memory(GiB)": 111.15,
+      "step": 42850,
+      "train_speed(iter/s)": 0.447655
+    },
+    {
+      "acc": 0.64820061,
+      "epoch": 1.0871385083713851,
+      "grad_norm": 5.0625,
+      "learning_rate": 4.693155916356751e-06,
+      "loss": 1.64918976,
+      "memory(GiB)": 111.15,
+      "step": 42855,
+      "train_speed(iter/s)": 0.447683
+    },
+    {
+      "acc": 0.63204174,
+      "epoch": 1.0872653475393201,
+      "grad_norm": 5.53125,
+      "learning_rate": 4.692109275923318e-06,
+      "loss": 1.72071457,
+      "memory(GiB)": 111.15,
+      "step": 42860,
+      "train_speed(iter/s)": 0.44771
+    },
+    {
+      "acc": 0.65164766,
+      "epoch": 1.0873921867072551,
+      "grad_norm": 6.09375,
+      "learning_rate": 4.6910626490322925e-06,
+      "loss": 1.67460384,
+      "memory(GiB)": 111.15,
+      "step": 42865,
+      "train_speed(iter/s)": 0.447738
+    },
+    {
+      "acc": 0.64980364,
+      "epoch": 1.0875190258751903,
+      "grad_norm": 6.375,
+      "learning_rate": 4.690016035729714e-06,
+      "loss": 1.62289696,
+      "memory(GiB)": 111.15,
+      "step": 42870,
+      "train_speed(iter/s)": 0.447766
+    },
+    {
+      "acc": 0.64433002,
+      "epoch": 1.0876458650431253,
+      "grad_norm": 6.25,
+      "learning_rate": 4.688969436061612e-06,
+      "loss": 1.6158556,
+      "memory(GiB)": 111.15,
+      "step": 42875,
+      "train_speed(iter/s)": 0.447793
+    },
+    {
+      "acc": 0.65760841,
+      "epoch": 1.0877727042110603,
+      "grad_norm": 5.9375,
+      "learning_rate": 4.687922850074022e-06,
+      "loss": 1.59640808,
+      "memory(GiB)": 111.15,
+      "step": 42880,
+      "train_speed(iter/s)": 0.447821
+    },
+    {
+      "acc": 0.65554414,
+      "epoch": 1.0878995433789955,
+      "grad_norm": 5.09375,
+      "learning_rate": 4.686876277812981e-06,
+      "loss": 1.66610069,
+      "memory(GiB)": 111.15,
+      "step": 42885,
+      "train_speed(iter/s)": 0.447849
+    },
+    {
+      "acc": 0.63980007,
+      "epoch": 1.0880263825469305,
+      "grad_norm": 5.5,
+      "learning_rate": 4.685829719324519e-06,
+      "loss": 1.69300232,
+      "memory(GiB)": 111.15,
+      "step": 42890,
+      "train_speed(iter/s)": 0.447877
+    },
+    {
+      "acc": 0.63820162,
+      "epoch": 1.0881532217148655,
+      "grad_norm": 5.5625,
+      "learning_rate": 4.6847831746546664e-06,
+      "loss": 1.69423447,
+      "memory(GiB)": 111.15,
+      "step": 42895,
+      "train_speed(iter/s)": 0.447904
+    },
+    {
+      "acc": 0.65422244,
+      "epoch": 1.0882800608828007,
+      "grad_norm": 7.1875,
+      "learning_rate": 4.683736643849459e-06,
+      "loss": 1.64154873,
+      "memory(GiB)": 111.15,
+      "step": 42900,
+      "train_speed(iter/s)": 0.447932
+    },
+    {
+      "epoch": 1.0882800608828007,
+      "eval_acc": 0.6432868762159639,
+      "eval_loss": 1.6078615188598633,
+      "eval_runtime": 113.4697,
+      "eval_samples_per_second": 56.138,
+      "eval_steps_per_second": 28.069,
+      "step": 42900
+    },
+    {
+      "acc": 0.65394912,
+      "epoch": 1.0884069000507357,
+      "grad_norm": 5.65625,
+      "learning_rate": 4.6826901269549255e-06,
+      "loss": 1.58369274,
+      "memory(GiB)": 111.15,
+      "step": 42905,
+      "train_speed(iter/s)": 0.447408
+    },
+    {
+      "acc": 0.64701324,
+      "epoch": 1.0885337392186707,
+      "grad_norm": 6.15625,
+      "learning_rate": 4.681643624017097e-06,
+      "loss": 1.64469929,
+      "memory(GiB)": 111.15,
+      "step": 42910,
+      "train_speed(iter/s)": 0.447435
+    },
+    {
+      "acc": 0.66808262,
+      "epoch": 1.0886605783866057,
+      "grad_norm": 5.78125,
+      "learning_rate": 4.680597135082002e-06,
+      "loss": 1.5405324,
+      "memory(GiB)": 111.15,
+      "step": 42915,
+      "train_speed(iter/s)": 0.447463
+    },
+    {
+      "acc": 0.67221107,
+      "epoch": 1.088787417554541,
+      "grad_norm": 5.9375,
+      "learning_rate": 4.679550660195673e-06,
+      "loss": 1.58627586,
+      "memory(GiB)": 111.15,
+      "step": 42920,
+      "train_speed(iter/s)": 0.44749
+    },
+    {
+      "acc": 0.64403071,
+      "epoch": 1.0889142567224759,
+      "grad_norm": 6.1875,
+      "learning_rate": 4.6785041994041345e-06,
+      "loss": 1.64165344,
+      "memory(GiB)": 111.15,
+      "step": 42925,
+      "train_speed(iter/s)": 0.447518
+    },
+    {
+      "acc": 0.63942022,
+      "epoch": 1.0890410958904109,
+      "grad_norm": 5.59375,
+      "learning_rate": 4.6774577527534195e-06,
+      "loss": 1.68262138,
+      "memory(GiB)": 111.15,
+      "step": 42930,
+      "train_speed(iter/s)": 0.447546
+    },
+    {
+      "acc": 0.65656362,
+      "epoch": 1.089167935058346,
+      "grad_norm": 4.78125,
+      "learning_rate": 4.676411320289551e-06,
+      "loss": 1.65069294,
+      "memory(GiB)": 111.15,
+      "step": 42935,
+      "train_speed(iter/s)": 0.447573
+    },
+    {
+      "acc": 0.65362797,
+      "epoch": 1.089294774226281,
+      "grad_norm": 5.78125,
+      "learning_rate": 4.675364902058556e-06,
+      "loss": 1.62113438,
+      "memory(GiB)": 111.15,
+      "step": 42940,
+      "train_speed(iter/s)": 0.447601
+    },
+    {
+      "acc": 0.6762516,
+      "epoch": 1.089421613394216,
+      "grad_norm": 5.75,
+      "learning_rate": 4.674318498106464e-06,
+      "loss": 1.58532314,
+      "memory(GiB)": 111.15,
+      "step": 42945,
+      "train_speed(iter/s)": 0.447629
+    },
+    {
+      "acc": 0.66250973,
+      "epoch": 1.0895484525621513,
+      "grad_norm": 6.28125,
+      "learning_rate": 4.6732721084792985e-06,
+      "loss": 1.61214523,
+      "memory(GiB)": 111.15,
+      "step": 42950,
+      "train_speed(iter/s)": 0.447657
+    },
+    {
+      "acc": 0.63973207,
+      "epoch": 1.0896752917300863,
+      "grad_norm": 5.625,
+      "learning_rate": 4.672225733223084e-06,
+      "loss": 1.68354359,
+      "memory(GiB)": 111.15,
+      "step": 42955,
+      "train_speed(iter/s)": 0.447685
+    },
+    {
+      "acc": 0.66553125,
+      "epoch": 1.0898021308980212,
+      "grad_norm": 5.90625,
+      "learning_rate": 4.671179372383844e-06,
+      "loss": 1.59900837,
+      "memory(GiB)": 111.15,
+      "step": 42960,
+      "train_speed(iter/s)": 0.447712
+    },
+    {
+      "acc": 0.64338713,
+      "epoch": 1.0899289700659565,
+      "grad_norm": 5.15625,
+      "learning_rate": 4.670133026007604e-06,
+      "loss": 1.67145157,
+      "memory(GiB)": 111.15,
+      "step": 42965,
+      "train_speed(iter/s)": 0.44774
+    },
+    {
+      "acc": 0.65400829,
+      "epoch": 1.0900558092338914,
+      "grad_norm": 5.9375,
+      "learning_rate": 4.669086694140388e-06,
+      "loss": 1.68493576,
+      "memory(GiB)": 111.15,
+      "step": 42970,
+      "train_speed(iter/s)": 0.447767
+    },
+    {
+      "acc": 0.64420414,
+      "epoch": 1.0901826484018264,
+      "grad_norm": 4.5,
+      "learning_rate": 4.668040376828214e-06,
+      "loss": 1.58679953,
+      "memory(GiB)": 111.15,
+      "step": 42975,
+      "train_speed(iter/s)": 0.447795
+    },
+    {
+      "acc": 0.66479387,
+      "epoch": 1.0903094875697614,
+      "grad_norm": 5.5,
+      "learning_rate": 4.666994074117108e-06,
+      "loss": 1.61896133,
+      "memory(GiB)": 111.15,
+      "step": 42980,
+      "train_speed(iter/s)": 0.447822
+    },
+    {
+      "acc": 0.64758492,
+      "epoch": 1.0904363267376966,
+      "grad_norm": 5.25,
+      "learning_rate": 4.665947786053088e-06,
+      "loss": 1.67446289,
+      "memory(GiB)": 111.15,
+      "step": 42985,
+      "train_speed(iter/s)": 0.44785
+    },
+    {
+      "acc": 0.64877167,
+      "epoch": 1.0905631659056316,
+      "grad_norm": 5.3125,
+      "learning_rate": 4.664901512682179e-06,
+      "loss": 1.61705761,
+      "memory(GiB)": 111.15,
+      "step": 42990,
+      "train_speed(iter/s)": 0.447878
+    },
+    {
+      "acc": 0.65659275,
+      "epoch": 1.0906900050735666,
+      "grad_norm": 6.59375,
+      "learning_rate": 4.663855254050394e-06,
+      "loss": 1.5930562,
+      "memory(GiB)": 111.15,
+      "step": 42995,
+      "train_speed(iter/s)": 0.447906
+    },
+    {
+      "acc": 0.6341464,
+      "epoch": 1.0908168442415018,
+      "grad_norm": 5.5,
+      "learning_rate": 4.662809010203757e-06,
+      "loss": 1.6670826,
+      "memory(GiB)": 111.15,
+      "step": 43000,
+      "train_speed(iter/s)": 0.447934
+    },
+    {
+      "epoch": 1.0908168442415018,
+      "eval_acc": 0.6433073468141274,
+      "eval_loss": 1.6077696084976196,
+      "eval_runtime": 114.1001,
+      "eval_samples_per_second": 55.828,
+      "eval_steps_per_second": 27.914,
+      "step": 43000
+    },
+    {
+      "acc": 0.64584084,
+      "epoch": 1.0909436834094368,
+      "grad_norm": 5.1875,
+      "learning_rate": 4.661762781188284e-06,
+      "loss": 1.63387032,
+      "memory(GiB)": 111.15,
+      "step": 43005,
+      "train_speed(iter/s)": 0.447408
+    },
+    {
+      "acc": 0.64543142,
+      "epoch": 1.0910705225773718,
+      "grad_norm": 4.6875,
+      "learning_rate": 4.660716567049997e-06,
+      "loss": 1.62504539,
+      "memory(GiB)": 111.15,
+      "step": 43010,
+      "train_speed(iter/s)": 0.447436
+    },
+    {
+      "acc": 0.6500843,
+      "epoch": 1.091197361745307,
+      "grad_norm": 5.5625,
+      "learning_rate": 4.659670367834908e-06,
+      "loss": 1.62744827,
+      "memory(GiB)": 111.15,
+      "step": 43015,
+      "train_speed(iter/s)": 0.447464
+    },
+    {
+      "acc": 0.64741364,
+      "epoch": 1.091324200913242,
+      "grad_norm": 6.3125,
+      "learning_rate": 4.658624183589035e-06,
+      "loss": 1.64770241,
+      "memory(GiB)": 111.15,
+      "step": 43020,
+      "train_speed(iter/s)": 0.447492
+    },
+    {
+      "acc": 0.65534477,
+      "epoch": 1.091451040081177,
+      "grad_norm": 4.625,
+      "learning_rate": 4.657578014358395e-06,
+      "loss": 1.63118877,
+      "memory(GiB)": 111.15,
+      "step": 43025,
+      "train_speed(iter/s)": 0.447519
+    },
+    {
+      "acc": 0.64144487,
+      "epoch": 1.0915778792491122,
+      "grad_norm": 5.15625,
+      "learning_rate": 4.656531860189005e-06,
+      "loss": 1.63590393,
+      "memory(GiB)": 111.15,
+      "step": 43030,
+      "train_speed(iter/s)": 0.447547
+    },
+    {
+      "acc": 0.6399765,
+      "epoch": 1.0917047184170472,
+      "grad_norm": 5.15625,
+      "learning_rate": 4.655485721126875e-06,
+      "loss": 1.62361069,
+      "memory(GiB)": 111.15,
+      "step": 43035,
+      "train_speed(iter/s)": 0.447574
+    },
+    {
+      "acc": 0.63829618,
+      "epoch": 1.0918315575849822,
+      "grad_norm": 6.5,
+      "learning_rate": 4.6544395972180214e-06,
+      "loss": 1.65863419,
+      "memory(GiB)": 111.15,
+      "step": 43040,
+      "train_speed(iter/s)": 0.447602
+    },
+    {
+      "acc": 0.63826284,
+      "epoch": 1.0919583967529174,
+      "grad_norm": 5.15625,
+      "learning_rate": 4.653393488508457e-06,
+      "loss": 1.65007706,
+      "memory(GiB)": 111.15,
+      "step": 43045,
+      "train_speed(iter/s)": 0.44763
+    },
+    {
+      "acc": 0.64083128,
+      "epoch": 1.0920852359208524,
+      "grad_norm": 5.9375,
+      "learning_rate": 4.652347395044197e-06,
+      "loss": 1.60255299,
+      "memory(GiB)": 111.15,
+      "step": 43050,
+      "train_speed(iter/s)": 0.447657
+    },
+    {
+      "acc": 0.65764699,
+      "epoch": 1.0922120750887874,
+      "grad_norm": 4.65625,
+      "learning_rate": 4.651301316871247e-06,
+      "loss": 1.63141975,
+      "memory(GiB)": 111.15,
+      "step": 43055,
+      "train_speed(iter/s)": 0.447685
+    },
+    {
+      "acc": 0.64725056,
+      "epoch": 1.0923389142567226,
+      "grad_norm": 5.28125,
+      "learning_rate": 4.6502552540356235e-06,
+      "loss": 1.62078667,
+      "memory(GiB)": 111.15,
+      "step": 43060,
+      "train_speed(iter/s)": 0.447713
+    },
+    {
+      "acc": 0.65702257,
+      "epoch": 1.0924657534246576,
+      "grad_norm": 5.4375,
+      "learning_rate": 4.649209206583335e-06,
+      "loss": 1.66143494,
+      "memory(GiB)": 111.15,
+      "step": 43065,
+      "train_speed(iter/s)": 0.447741
+    },
+    {
+      "acc": 0.67002554,
+      "epoch": 1.0925925925925926,
+      "grad_norm": 4.96875,
+      "learning_rate": 4.648163174560393e-06,
+      "loss": 1.60738335,
+      "memory(GiB)": 111.15,
+      "step": 43070,
+      "train_speed(iter/s)": 0.447769
+    },
+    {
+      "acc": 0.65469995,
+      "epoch": 1.0927194317605275,
+      "grad_norm": 5.15625,
+      "learning_rate": 4.647117158012804e-06,
+      "loss": 1.62020607,
+      "memory(GiB)": 111.15,
+      "step": 43075,
+      "train_speed(iter/s)": 0.447796
+    },
+    {
+      "acc": 0.64555955,
+      "epoch": 1.0928462709284628,
+      "grad_norm": 5.25,
+      "learning_rate": 4.646071156986579e-06,
+      "loss": 1.58331337,
+      "memory(GiB)": 111.15,
+      "step": 43080,
+      "train_speed(iter/s)": 0.447824
+    },
+    {
+      "acc": 0.64111156,
+      "epoch": 1.0929731100963977,
+      "grad_norm": 5.78125,
+      "learning_rate": 4.645025171527723e-06,
+      "loss": 1.67377243,
+      "memory(GiB)": 111.15,
+      "step": 43085,
+      "train_speed(iter/s)": 0.447852
+    },
+    {
+      "acc": 0.64014711,
+      "epoch": 1.0930999492643327,
+      "grad_norm": 5.0,
+      "learning_rate": 4.643979201682247e-06,
+      "loss": 1.65312767,
+      "memory(GiB)": 111.15,
+      "step": 43090,
+      "train_speed(iter/s)": 0.44788
+    },
+    {
+      "acc": 0.64275312,
+      "epoch": 1.093226788432268,
+      "grad_norm": 5.6875,
+      "learning_rate": 4.642933247496155e-06,
+      "loss": 1.65204659,
+      "memory(GiB)": 111.15,
+      "step": 43095,
+      "train_speed(iter/s)": 0.447908
+    },
+    {
+      "acc": 0.64876466,
+      "epoch": 1.093353627600203,
+      "grad_norm": 6.34375,
+      "learning_rate": 4.641887309015451e-06,
+      "loss": 1.64270668,
+      "memory(GiB)": 111.15,
+      "step": 43100,
+      "train_speed(iter/s)": 0.447936
+    },
+    {
+      "epoch": 1.093353627600203,
+      "eval_acc": 0.6433900647413999,
+      "eval_loss": 1.6079121828079224,
+      "eval_runtime": 113.8484,
+      "eval_samples_per_second": 55.952,
+      "eval_steps_per_second": 27.976,
+      "step": 43100
+    },
+    {
+      "acc": 0.65540686,
+      "epoch": 1.093480466768138,
+      "grad_norm": 4.5625,
+      "learning_rate": 4.640841386286143e-06,
+      "loss": 1.5706913,
+      "memory(GiB)": 111.15,
+      "step": 43105,
+      "train_speed(iter/s)": 0.447412
+    },
+    {
+      "acc": 0.64994993,
+      "epoch": 1.0936073059360731,
+      "grad_norm": 5.5,
+      "learning_rate": 4.639795479354236e-06,
+      "loss": 1.69318714,
+      "memory(GiB)": 111.15,
+      "step": 43110,
+      "train_speed(iter/s)": 0.44744
+    },
+    {
+      "acc": 0.66305676,
+      "epoch": 1.0937341451040081,
+      "grad_norm": 7.9375,
+      "learning_rate": 4.6387495882657295e-06,
+      "loss": 1.64373035,
+      "memory(GiB)": 111.15,
+      "step": 43115,
+      "train_speed(iter/s)": 0.447468
+    },
+    {
+      "acc": 0.65417633,
+      "epoch": 1.0938609842719431,
+      "grad_norm": 5.125,
+      "learning_rate": 4.63770371306663e-06,
+      "loss": 1.6305233,
+      "memory(GiB)": 111.15,
+      "step": 43120,
+      "train_speed(iter/s)": 0.447495
+    },
+    {
+      "acc": 0.6518446,
+      "epoch": 1.0939878234398783,
+      "grad_norm": 5.59375,
+      "learning_rate": 4.636657853802939e-06,
+      "loss": 1.55965977,
+      "memory(GiB)": 111.15,
+      "step": 43125,
+      "train_speed(iter/s)": 0.447523
+    },
+    {
+      "acc": 0.66722093,
+      "epoch": 1.0941146626078133,
+      "grad_norm": 5.78125,
+      "learning_rate": 4.635612010520659e-06,
+      "loss": 1.6997118,
+      "memory(GiB)": 111.15,
+      "step": 43130,
+      "train_speed(iter/s)": 0.447551
+    },
+    {
+      "acc": 0.64425454,
+      "epoch": 1.0942415017757483,
+      "grad_norm": 5.875,
+      "learning_rate": 4.6345661832657866e-06,
+      "loss": 1.64130669,
+      "memory(GiB)": 111.15,
+      "step": 43135,
+      "train_speed(iter/s)": 0.447578
+    },
+    {
+      "acc": 0.65306797,
+      "epoch": 1.0943683409436833,
+      "grad_norm": 5.09375,
+      "learning_rate": 4.633520372084327e-06,
+      "loss": 1.60207863,
+      "memory(GiB)": 111.15,
+      "step": 43140,
+      "train_speed(iter/s)": 0.447606
+    },
+    {
+      "acc": 0.64471245,
+      "epoch": 1.0944951801116185,
+      "grad_norm": 5.3125,
+      "learning_rate": 4.632474577022276e-06,
+      "loss": 1.68639107,
+      "memory(GiB)": 111.15,
+      "step": 43145,
+      "train_speed(iter/s)": 0.447634
+    },
+    {
+      "acc": 0.66564145,
+      "epoch": 1.0946220192795535,
+      "grad_norm": 5.21875,
+      "learning_rate": 4.631428798125637e-06,
+      "loss": 1.60233879,
+      "memory(GiB)": 111.15,
+      "step": 43150,
+      "train_speed(iter/s)": 0.447661
+    },
+    {
+      "acc": 0.65127916,
+      "epoch": 1.0947488584474885,
+      "grad_norm": 4.46875,
+      "learning_rate": 4.630383035440403e-06,
+      "loss": 1.61197567,
+      "memory(GiB)": 111.15,
+      "step": 43155,
+      "train_speed(iter/s)": 0.447689
+    },
+    {
+      "acc": 0.66479182,
+      "epoch": 1.0948756976154237,
+      "grad_norm": 5.0,
+      "learning_rate": 4.6293372890125724e-06,
+      "loss": 1.61481304,
+      "memory(GiB)": 111.15,
+      "step": 43160,
+      "train_speed(iter/s)": 0.447717
+    },
+    {
+      "acc": 0.65257854,
+      "epoch": 1.0950025367833587,
+      "grad_norm": 4.4375,
+      "learning_rate": 4.628291558888144e-06,
+      "loss": 1.65578022,
+      "memory(GiB)": 111.15,
+      "step": 43165,
+      "train_speed(iter/s)": 0.447744
+    },
+    {
+      "acc": 0.65413942,
+      "epoch": 1.0951293759512937,
+      "grad_norm": 5.4375,
+      "learning_rate": 4.627245845113113e-06,
+      "loss": 1.63474026,
+      "memory(GiB)": 111.15,
+      "step": 43170,
+      "train_speed(iter/s)": 0.447772
+    },
+    {
+      "acc": 0.64557409,
+      "epoch": 1.0952562151192289,
+      "grad_norm": 5.71875,
+      "learning_rate": 4.626200147733474e-06,
+      "loss": 1.60908928,
+      "memory(GiB)": 111.15,
+      "step": 43175,
+      "train_speed(iter/s)": 0.447799
+    },
+    {
+      "acc": 0.64561458,
+      "epoch": 1.0953830542871639,
+      "grad_norm": 5.15625,
+      "learning_rate": 4.62515446679522e-06,
+      "loss": 1.69374199,
+      "memory(GiB)": 111.15,
+      "step": 43180,
+      "train_speed(iter/s)": 0.447827
+    },
+    {
+      "acc": 0.67279644,
+      "epoch": 1.0955098934550989,
+      "grad_norm": 4.84375,
+      "learning_rate": 4.624108802344347e-06,
+      "loss": 1.52150116,
+      "memory(GiB)": 111.15,
+      "step": 43185,
+      "train_speed(iter/s)": 0.447855
+    },
+    {
+      "acc": 0.66117582,
+      "epoch": 1.095636732623034,
+      "grad_norm": 6.5625,
+      "learning_rate": 4.623063154426848e-06,
+      "loss": 1.60155468,
+      "memory(GiB)": 111.15,
+      "step": 43190,
+      "train_speed(iter/s)": 0.447882
+    },
+    {
+      "acc": 0.64417887,
+      "epoch": 1.095763571790969,
+      "grad_norm": 5.3125,
+      "learning_rate": 4.622017523088712e-06,
+      "loss": 1.62947731,
+      "memory(GiB)": 111.15,
+      "step": 43195,
+      "train_speed(iter/s)": 0.44791
+    },
+    {
+      "acc": 0.64856844,
+      "epoch": 1.095890410958904,
+      "grad_norm": 5.59375,
+      "learning_rate": 4.620971908375934e-06,
+      "loss": 1.64301128,
+      "memory(GiB)": 111.15,
+      "step": 43200,
+      "train_speed(iter/s)": 0.447937
+    },
+    {
+      "epoch": 1.095890410958904,
+      "eval_acc": 0.6432672411524195,
+      "eval_loss": 1.6079301834106445,
+      "eval_runtime": 114.4255,
+      "eval_samples_per_second": 55.669,
+      "eval_steps_per_second": 27.835,
+      "step": 43200
+    },
+    {
+      "acc": 0.66859722,
+      "epoch": 1.0960172501268393,
+      "grad_norm": 6.46875,
+      "learning_rate": 4.619926310334503e-06,
+      "loss": 1.55285549,
+      "memory(GiB)": 111.15,
+      "step": 43205,
+      "train_speed(iter/s)": 0.447413
+    },
+    {
+      "acc": 0.64241614,
+      "epoch": 1.0961440892947742,
+      "grad_norm": 5.53125,
+      "learning_rate": 4.618880729010413e-06,
+      "loss": 1.63571796,
+      "memory(GiB)": 111.15,
+      "step": 43210,
+      "train_speed(iter/s)": 0.447441
+    },
+    {
+      "acc": 0.66556234,
+      "epoch": 1.0962709284627092,
+      "grad_norm": 5.28125,
+      "learning_rate": 4.617835164449647e-06,
+      "loss": 1.54211273,
+      "memory(GiB)": 111.15,
+      "step": 43215,
+      "train_speed(iter/s)": 0.447468
+    },
+    {
+      "acc": 0.65664206,
+      "epoch": 1.0963977676306444,
+      "grad_norm": 6.28125,
+      "learning_rate": 4.616789616698197e-06,
+      "loss": 1.61631546,
+      "memory(GiB)": 111.15,
+      "step": 43220,
+      "train_speed(iter/s)": 0.447496
+    },
+    {
+      "acc": 0.6360239,
+      "epoch": 1.0965246067985794,
+      "grad_norm": 6.25,
+      "learning_rate": 4.61574408580205e-06,
+      "loss": 1.68419266,
+      "memory(GiB)": 111.15,
+      "step": 43225,
+      "train_speed(iter/s)": 0.447524
+    },
+    {
+      "acc": 0.66399536,
+      "epoch": 1.0966514459665144,
+      "grad_norm": 5.65625,
+      "learning_rate": 4.614698571807196e-06,
+      "loss": 1.57540979,
+      "memory(GiB)": 111.15,
+      "step": 43230,
+      "train_speed(iter/s)": 0.447552
+    },
+    {
+      "acc": 0.65063257,
+      "epoch": 1.0967782851344494,
+      "grad_norm": 5.4375,
+      "learning_rate": 4.6136530747596185e-06,
+      "loss": 1.63200531,
+      "memory(GiB)": 111.15,
+      "step": 43235,
+      "train_speed(iter/s)": 0.447579
+    },
+    {
+      "acc": 0.64680958,
+      "epoch": 1.0969051243023846,
+      "grad_norm": 5.125,
+      "learning_rate": 4.612607594705301e-06,
+      "loss": 1.67614746,
+      "memory(GiB)": 111.15,
+      "step": 43240,
+      "train_speed(iter/s)": 0.447607
+    },
+    {
+      "acc": 0.66331425,
+      "epoch": 1.0970319634703196,
+      "grad_norm": 5.25,
+      "learning_rate": 4.611562131690234e-06,
+      "loss": 1.6006815,
+      "memory(GiB)": 111.15,
+      "step": 43245,
+      "train_speed(iter/s)": 0.447635
+    },
+    {
+      "acc": 0.6593277,
+      "epoch": 1.0971588026382546,
+      "grad_norm": 5.4375,
+      "learning_rate": 4.610516685760399e-06,
+      "loss": 1.59404202,
+      "memory(GiB)": 111.15,
+      "step": 43250,
+      "train_speed(iter/s)": 0.447662
+    },
+    {
+      "acc": 0.6653554,
+      "epoch": 1.0972856418061898,
+      "grad_norm": 5.1875,
+      "learning_rate": 4.6094712569617775e-06,
+      "loss": 1.54944744,
+      "memory(GiB)": 111.15,
+      "step": 43255,
+      "train_speed(iter/s)": 0.44769
+    },
+    {
+      "acc": 0.64194574,
+      "epoch": 1.0974124809741248,
+      "grad_norm": 5.09375,
+      "learning_rate": 4.608425845340353e-06,
+      "loss": 1.66923714,
+      "memory(GiB)": 111.15,
+      "step": 43260,
+      "train_speed(iter/s)": 0.447718
+    },
+    {
+      "acc": 0.63083611,
+      "epoch": 1.0975393201420598,
+      "grad_norm": 5.8125,
+      "learning_rate": 4.607380450942109e-06,
+      "loss": 1.67406273,
+      "memory(GiB)": 111.15,
+      "step": 43265,
+      "train_speed(iter/s)": 0.447746
+    },
+    {
+      "acc": 0.64443703,
+      "epoch": 1.097666159309995,
+      "grad_norm": 5.78125,
+      "learning_rate": 4.606335073813028e-06,
+      "loss": 1.67276096,
+      "memory(GiB)": 111.15,
+      "step": 43270,
+      "train_speed(iter/s)": 0.447774
+    },
+    {
+      "acc": 0.63445864,
+      "epoch": 1.09779299847793,
+      "grad_norm": 4.84375,
+      "learning_rate": 4.605289713999085e-06,
+      "loss": 1.68042507,
+      "memory(GiB)": 111.15,
+      "step": 43275,
+      "train_speed(iter/s)": 0.447801
+    },
+    {
+      "acc": 0.64469566,
+      "epoch": 1.097919837645865,
+      "grad_norm": 4.375,
+      "learning_rate": 4.604244371546263e-06,
+      "loss": 1.62685776,
+      "memory(GiB)": 111.15,
+      "step": 43280,
+      "train_speed(iter/s)": 0.447829
+    },
+    {
+      "acc": 0.63526926,
+      "epoch": 1.0980466768138002,
+      "grad_norm": 4.9375,
+      "learning_rate": 4.603199046500539e-06,
+      "loss": 1.68029537,
+      "memory(GiB)": 111.15,
+      "step": 43285,
+      "train_speed(iter/s)": 0.447857
+    },
+    {
+      "acc": 0.6506074,
+      "epoch": 1.0981735159817352,
+      "grad_norm": 5.46875,
+      "learning_rate": 4.602153738907896e-06,
+      "loss": 1.64666214,
+      "memory(GiB)": 111.15,
+      "step": 43290,
+      "train_speed(iter/s)": 0.447884
+    },
+    {
+      "acc": 0.65821037,
+      "epoch": 1.0983003551496702,
+      "grad_norm": 5.40625,
+      "learning_rate": 4.601108448814306e-06,
+      "loss": 1.60583076,
+      "memory(GiB)": 111.15,
+      "step": 43295,
+      "train_speed(iter/s)": 0.447912
+    },
+    {
+      "acc": 0.63974838,
+      "epoch": 1.0984271943176052,
+      "grad_norm": 4.59375,
+      "learning_rate": 4.600063176265749e-06,
+      "loss": 1.55254173,
+      "memory(GiB)": 111.15,
+      "step": 43300,
+      "train_speed(iter/s)": 0.44794
+    },
+    {
+      "epoch": 1.0984271943176052,
+      "eval_acc": 0.6433152843930071,
+      "eval_loss": 1.6079305410385132,
+      "eval_runtime": 113.0512,
+      "eval_samples_per_second": 56.346,
+      "eval_steps_per_second": 28.173,
+      "step": 43300
+    },
+    {
+      "acc": 0.65727563,
+      "epoch": 1.0985540334855404,
+      "grad_norm": 5.53125,
+      "learning_rate": 4.599017921308196e-06,
+      "loss": 1.60708199,
+      "memory(GiB)": 111.15,
+      "step": 43305,
+      "train_speed(iter/s)": 0.447423
+    },
+    {
+      "acc": 0.63844452,
+      "epoch": 1.0986808726534754,
+      "grad_norm": 5.3125,
+      "learning_rate": 4.5979726839876285e-06,
+      "loss": 1.6336071,
+      "memory(GiB)": 111.15,
+      "step": 43310,
+      "train_speed(iter/s)": 0.44745
+    },
+    {
+      "acc": 0.63467751,
+      "epoch": 1.0988077118214103,
+      "grad_norm": 4.96875,
+      "learning_rate": 4.596927464350015e-06,
+      "loss": 1.62585945,
+      "memory(GiB)": 111.15,
+      "step": 43315,
+      "train_speed(iter/s)": 0.447478
+    },
+    {
+      "acc": 0.63524923,
+      "epoch": 1.0989345509893456,
+      "grad_norm": 5.0625,
+      "learning_rate": 4.595882262441331e-06,
+      "loss": 1.63681736,
+      "memory(GiB)": 111.15,
+      "step": 43320,
+      "train_speed(iter/s)": 0.447506
+    },
+    {
+      "acc": 0.66428719,
+      "epoch": 1.0990613901572805,
+      "grad_norm": 4.25,
+      "learning_rate": 4.5948370783075505e-06,
+      "loss": 1.56777344,
+      "memory(GiB)": 111.15,
+      "step": 43325,
+      "train_speed(iter/s)": 0.447533
+    },
+    {
+      "acc": 0.65139337,
+      "epoch": 1.0991882293252155,
+      "grad_norm": 5.9375,
+      "learning_rate": 4.5937919119946445e-06,
+      "loss": 1.64537086,
+      "memory(GiB)": 111.15,
+      "step": 43330,
+      "train_speed(iter/s)": 0.447561
+    },
+    {
+      "acc": 0.66201086,
+      "epoch": 1.0993150684931507,
+      "grad_norm": 6.09375,
+      "learning_rate": 4.592746763548582e-06,
+      "loss": 1.58151798,
+      "memory(GiB)": 111.15,
+      "step": 43335,
+      "train_speed(iter/s)": 0.447588
+    },
+    {
+      "acc": 0.6571106,
+      "epoch": 1.0994419076610857,
+      "grad_norm": 5.0625,
+      "learning_rate": 4.591701633015336e-06,
+      "loss": 1.63487015,
+      "memory(GiB)": 111.15,
+      "step": 43340,
+      "train_speed(iter/s)": 0.447616
+    },
+    {
+      "acc": 0.66150961,
+      "epoch": 1.0995687468290207,
+      "grad_norm": 4.8125,
+      "learning_rate": 4.590656520440876e-06,
+      "loss": 1.63231621,
+      "memory(GiB)": 111.15,
+      "step": 43345,
+      "train_speed(iter/s)": 0.447644
+    },
+    {
+      "acc": 0.67355814,
+      "epoch": 1.099695585996956,
+      "grad_norm": 5.28125,
+      "learning_rate": 4.58961142587117e-06,
+      "loss": 1.54215012,
+      "memory(GiB)": 111.15,
+      "step": 43350,
+      "train_speed(iter/s)": 0.447671
+    },
+    {
+      "acc": 0.64136171,
+      "epoch": 1.099822425164891,
+      "grad_norm": 5.375,
+      "learning_rate": 4.588566349352185e-06,
+      "loss": 1.57358217,
+      "memory(GiB)": 111.15,
+      "step": 43355,
+      "train_speed(iter/s)": 0.447699
+    },
+    {
+      "acc": 0.65167885,
+      "epoch": 1.099949264332826,
+      "grad_norm": 5.90625,
+      "learning_rate": 4.5875212909298885e-06,
+      "loss": 1.59133663,
+      "memory(GiB)": 111.15,
+      "step": 43360,
+      "train_speed(iter/s)": 0.447726
+    },
+    {
+      "acc": 0.66197891,
+      "epoch": 1.1000761035007611,
+      "grad_norm": 4.90625,
+      "learning_rate": 4.586476250650246e-06,
+      "loss": 1.56490755,
+      "memory(GiB)": 111.15,
+      "step": 43365,
+      "train_speed(iter/s)": 0.447754
+    },
+    {
+      "acc": 0.65178537,
+      "epoch": 1.1002029426686961,
+      "grad_norm": 4.75,
+      "learning_rate": 4.585431228559228e-06,
+      "loss": 1.5937314,
+      "memory(GiB)": 111.15,
+      "step": 43370,
+      "train_speed(iter/s)": 0.447782
+    },
+    {
+      "acc": 0.6509562,
+      "epoch": 1.100329781836631,
+      "grad_norm": 5.0,
+      "learning_rate": 4.584386224702792e-06,
+      "loss": 1.57431412,
+      "memory(GiB)": 111.15,
+      "step": 43375,
+      "train_speed(iter/s)": 0.447809
+    },
+    {
+      "acc": 0.65648108,
+      "epoch": 1.1004566210045663,
+      "grad_norm": 6.0,
+      "learning_rate": 4.583341239126906e-06,
+      "loss": 1.629426,
+      "memory(GiB)": 111.15,
+      "step": 43380,
+      "train_speed(iter/s)": 0.447837
+    },
+    {
+      "acc": 0.6466567,
+      "epoch": 1.1005834601725013,
+      "grad_norm": 5.25,
+      "learning_rate": 4.582296271877534e-06,
+      "loss": 1.68363113,
+      "memory(GiB)": 111.15,
+      "step": 43385,
+      "train_speed(iter/s)": 0.447864
+    },
+    {
+      "acc": 0.64667435,
+      "epoch": 1.1007102993404363,
+      "grad_norm": 5.75,
+      "learning_rate": 4.581251323000636e-06,
+      "loss": 1.63045006,
+      "memory(GiB)": 111.15,
+      "step": 43390,
+      "train_speed(iter/s)": 0.447892
+    },
+    {
+      "acc": 0.63172913,
+      "epoch": 1.1008371385083713,
+      "grad_norm": 4.9375,
+      "learning_rate": 4.580206392542175e-06,
+      "loss": 1.66979218,
+      "memory(GiB)": 111.15,
+      "step": 43395,
+      "train_speed(iter/s)": 0.447919
+    },
+    {
+      "acc": 0.66061268,
+      "epoch": 1.1009639776763065,
+      "grad_norm": 5.15625,
+      "learning_rate": 4.579161480548109e-06,
+      "loss": 1.64188118,
+      "memory(GiB)": 111.15,
+      "step": 43400,
+      "train_speed(iter/s)": 0.447947
+    },
+    {
+      "epoch": 1.1009639776763065,
+      "eval_acc": 0.6432902183544397,
+      "eval_loss": 1.6081310510635376,
+      "eval_runtime": 114.5032,
+      "eval_samples_per_second": 55.632,
+      "eval_steps_per_second": 27.816,
+      "step": 43400
+    },
+    {
+      "acc": 0.65021391,
+      "epoch": 1.1010908168442415,
+      "grad_norm": 4.71875,
+      "learning_rate": 4.578116587064402e-06,
+      "loss": 1.65231171,
+      "memory(GiB)": 111.15,
+      "step": 43405,
+      "train_speed(iter/s)": 0.447424
+    },
+    {
+      "acc": 0.65788941,
+      "epoch": 1.1012176560121765,
+      "grad_norm": 8.0,
+      "learning_rate": 4.577071712137012e-06,
+      "loss": 1.61938438,
+      "memory(GiB)": 111.15,
+      "step": 43410,
+      "train_speed(iter/s)": 0.447451
+    },
+    {
+      "acc": 0.65242443,
+      "epoch": 1.1013444951801117,
+      "grad_norm": 5.1875,
+      "learning_rate": 4.576026855811893e-06,
+      "loss": 1.63090172,
+      "memory(GiB)": 111.15,
+      "step": 43415,
+      "train_speed(iter/s)": 0.447478
+    },
+    {
+      "acc": 0.66317925,
+      "epoch": 1.1014713343480467,
+      "grad_norm": 8.8125,
+      "learning_rate": 4.5749820181350095e-06,
+      "loss": 1.60119286,
+      "memory(GiB)": 111.15,
+      "step": 43420,
+      "train_speed(iter/s)": 0.447506
+    },
+    {
+      "acc": 0.64037914,
+      "epoch": 1.1015981735159817,
+      "grad_norm": 5.125,
+      "learning_rate": 4.57393719915231e-06,
+      "loss": 1.64320908,
+      "memory(GiB)": 111.15,
+      "step": 43425,
+      "train_speed(iter/s)": 0.447533
+    },
+    {
+      "acc": 0.64961319,
+      "epoch": 1.1017250126839169,
+      "grad_norm": 5.28125,
+      "learning_rate": 4.5728923989097604e-06,
+      "loss": 1.59660254,
+      "memory(GiB)": 111.15,
+      "step": 43430,
+      "train_speed(iter/s)": 0.44756
+    },
+    {
+      "acc": 0.64875803,
+      "epoch": 1.1018518518518519,
+      "grad_norm": 5.46875,
+      "learning_rate": 4.571847617453306e-06,
+      "loss": 1.56322613,
+      "memory(GiB)": 111.15,
+      "step": 43435,
+      "train_speed(iter/s)": 0.447587
+    },
+    {
+      "acc": 0.65476894,
+      "epoch": 1.1019786910197868,
+      "grad_norm": 5.375,
+      "learning_rate": 4.570802854828906e-06,
+      "loss": 1.6484024,
+      "memory(GiB)": 111.15,
+      "step": 43440,
+      "train_speed(iter/s)": 0.447615
+    },
+    {
+      "acc": 0.65546503,
+      "epoch": 1.102105530187722,
+      "grad_norm": 5.4375,
+      "learning_rate": 4.569758111082512e-06,
+      "loss": 1.56123734,
+      "memory(GiB)": 111.15,
+      "step": 43445,
+      "train_speed(iter/s)": 0.447642
+    },
+    {
+      "acc": 0.66491127,
+      "epoch": 1.102232369355657,
+      "grad_norm": 6.125,
+      "learning_rate": 4.568713386260078e-06,
+      "loss": 1.54644613,
+      "memory(GiB)": 111.15,
+      "step": 43450,
+      "train_speed(iter/s)": 0.447669
+    },
+    {
+      "acc": 0.6680563,
+      "epoch": 1.102359208523592,
+      "grad_norm": 6.0625,
+      "learning_rate": 4.567668680407555e-06,
+      "loss": 1.59939766,
+      "memory(GiB)": 111.15,
+      "step": 43455,
+      "train_speed(iter/s)": 0.447697
+    },
+    {
+      "acc": 0.64586029,
+      "epoch": 1.102486047691527,
+      "grad_norm": 6.1875,
+      "learning_rate": 4.566623993570893e-06,
+      "loss": 1.66532745,
+      "memory(GiB)": 111.15,
+      "step": 43460,
+      "train_speed(iter/s)": 0.447724
+    },
+    {
+      "acc": 0.63109884,
+      "epoch": 1.1026128868594622,
+      "grad_norm": 5.46875,
+      "learning_rate": 4.565579325796043e-06,
+      "loss": 1.73518524,
+      "memory(GiB)": 111.15,
+      "step": 43465,
+      "train_speed(iter/s)": 0.447752
+    },
+    {
+      "acc": 0.65850573,
+      "epoch": 1.1027397260273972,
+      "grad_norm": 5.09375,
+      "learning_rate": 4.564534677128954e-06,
+      "loss": 1.63165188,
+      "memory(GiB)": 111.15,
+      "step": 43470,
+      "train_speed(iter/s)": 0.447779
+    },
+    {
+      "acc": 0.64889488,
+      "epoch": 1.1028665651953322,
+      "grad_norm": 4.59375,
+      "learning_rate": 4.563490047615574e-06,
+      "loss": 1.62906837,
+      "memory(GiB)": 111.15,
+      "step": 43475,
+      "train_speed(iter/s)": 0.447806
+    },
+    {
+      "acc": 0.65114002,
+      "epoch": 1.1029934043632674,
+      "grad_norm": 5.75,
+      "learning_rate": 4.56244543730185e-06,
+      "loss": 1.61588478,
+      "memory(GiB)": 111.15,
+      "step": 43480,
+      "train_speed(iter/s)": 0.447834
+    },
+    {
+      "acc": 0.65293856,
+      "epoch": 1.1031202435312024,
+      "grad_norm": 4.90625,
+      "learning_rate": 4.561400846233729e-06,
+      "loss": 1.57419949,
+      "memory(GiB)": 111.15,
+      "step": 43485,
+      "train_speed(iter/s)": 0.447861
+    },
+    {
+      "acc": 0.64807096,
+      "epoch": 1.1032470826991374,
+      "grad_norm": 4.75,
+      "learning_rate": 4.56035627445716e-06,
+      "loss": 1.57269135,
+      "memory(GiB)": 111.15,
+      "step": 43490,
+      "train_speed(iter/s)": 0.447888
+    },
+    {
+      "acc": 0.63613081,
+      "epoch": 1.1033739218670726,
+      "grad_norm": 6.0,
+      "learning_rate": 4.55931172201808e-06,
+      "loss": 1.7466217,
+      "memory(GiB)": 111.15,
+      "step": 43495,
+      "train_speed(iter/s)": 0.447915
+    },
+    {
+      "acc": 0.64539809,
+      "epoch": 1.1035007610350076,
+      "grad_norm": 5.09375,
+      "learning_rate": 4.558267188962441e-06,
+      "loss": 1.59908066,
+      "memory(GiB)": 111.15,
+      "step": 43500,
+      "train_speed(iter/s)": 0.447943
+    },
+    {
+      "epoch": 1.1035007610350076,
+      "eval_acc": 0.6432735076620614,
+      "eval_loss": 1.6079615354537964,
+      "eval_runtime": 115.645,
+      "eval_samples_per_second": 55.082,
+      "eval_steps_per_second": 27.541,
+      "step": 43500
+    },
+    {
+      "acc": 0.65048227,
+      "epoch": 1.1036276002029426,
+      "grad_norm": 4.5625,
+      "learning_rate": 4.557222675336182e-06,
+      "loss": 1.66699333,
+      "memory(GiB)": 111.15,
+      "step": 43505,
+      "train_speed(iter/s)": 0.447415
+    },
+    {
+      "acc": 0.64676151,
+      "epoch": 1.1037544393708778,
+      "grad_norm": 5.4375,
+      "learning_rate": 4.556178181185249e-06,
+      "loss": 1.5879631,
+      "memory(GiB)": 111.15,
+      "step": 43510,
+      "train_speed(iter/s)": 0.447442
+    },
+    {
+      "acc": 0.64554763,
+      "epoch": 1.1038812785388128,
+      "grad_norm": 4.90625,
+      "learning_rate": 4.555133706555579e-06,
+      "loss": 1.68190308,
+      "memory(GiB)": 111.15,
+      "step": 43515,
+      "train_speed(iter/s)": 0.44747
+    },
+    {
+      "acc": 0.64101658,
+      "epoch": 1.1040081177067478,
+      "grad_norm": 5.875,
+      "learning_rate": 4.554089251493115e-06,
+      "loss": 1.68351669,
+      "memory(GiB)": 111.15,
+      "step": 43520,
+      "train_speed(iter/s)": 0.447497
+    },
+    {
+      "acc": 0.66073627,
+      "epoch": 1.104134956874683,
+      "grad_norm": 5.71875,
+      "learning_rate": 4.553044816043796e-06,
+      "loss": 1.5887537,
+      "memory(GiB)": 111.15,
+      "step": 43525,
+      "train_speed(iter/s)": 0.447524
+    },
+    {
+      "acc": 0.65184112,
+      "epoch": 1.104261796042618,
+      "grad_norm": 6.125,
+      "learning_rate": 4.552000400253563e-06,
+      "loss": 1.61050129,
+      "memory(GiB)": 111.15,
+      "step": 43530,
+      "train_speed(iter/s)": 0.447551
+    },
+    {
+      "acc": 0.65982385,
+      "epoch": 1.104388635210553,
+      "grad_norm": 5.9375,
+      "learning_rate": 4.550956004168352e-06,
+      "loss": 1.6211298,
+      "memory(GiB)": 111.15,
+      "step": 43535,
+      "train_speed(iter/s)": 0.447579
+    },
+    {
+      "acc": 0.64694424,
+      "epoch": 1.1045154743784882,
+      "grad_norm": 4.5625,
+      "learning_rate": 4.5499116278341e-06,
+      "loss": 1.6568264,
+      "memory(GiB)": 111.15,
+      "step": 43540,
+      "train_speed(iter/s)": 0.447606
+    },
+    {
+      "acc": 0.64717407,
+      "epoch": 1.1046423135464232,
+      "grad_norm": 5.5625,
+      "learning_rate": 4.548867271296745e-06,
+      "loss": 1.63925514,
+      "memory(GiB)": 111.15,
+      "step": 43545,
+      "train_speed(iter/s)": 0.447633
+    },
+    {
+      "acc": 0.668786,
+      "epoch": 1.1047691527143582,
+      "grad_norm": 5.34375,
+      "learning_rate": 4.547822934602222e-06,
+      "loss": 1.56878967,
+      "memory(GiB)": 111.15,
+      "step": 43550,
+      "train_speed(iter/s)": 0.44766
+    },
+    {
+      "acc": 0.65407186,
+      "epoch": 1.1048959918822931,
+      "grad_norm": 6.03125,
+      "learning_rate": 4.5467786177964635e-06,
+      "loss": 1.61240654,
+      "memory(GiB)": 111.15,
+      "step": 43555,
+      "train_speed(iter/s)": 0.447687
+    },
+    {
+      "acc": 0.64877152,
+      "epoch": 1.1050228310502284,
+      "grad_norm": 5.28125,
+      "learning_rate": 4.545734320925406e-06,
+      "loss": 1.64874153,
+      "memory(GiB)": 111.15,
+      "step": 43560,
+      "train_speed(iter/s)": 0.447714
+    },
+    {
+      "acc": 0.66243849,
+      "epoch": 1.1051496702181633,
+      "grad_norm": 6.21875,
+      "learning_rate": 4.544690044034981e-06,
+      "loss": 1.63725128,
+      "memory(GiB)": 111.15,
+      "step": 43565,
+      "train_speed(iter/s)": 0.447742
+    },
+    {
+      "acc": 0.65426559,
+      "epoch": 1.1052765093860983,
+      "grad_norm": 5.15625,
+      "learning_rate": 4.543645787171122e-06,
+      "loss": 1.61616249,
+      "memory(GiB)": 111.15,
+      "step": 43570,
+      "train_speed(iter/s)": 0.447769
+    },
+    {
+      "acc": 0.63866663,
+      "epoch": 1.1054033485540335,
+      "grad_norm": 5.0625,
+      "learning_rate": 4.5426015503797565e-06,
+      "loss": 1.67352505,
+      "memory(GiB)": 111.15,
+      "step": 43575,
+      "train_speed(iter/s)": 0.447796
+    },
+    {
+      "acc": 0.64731407,
+      "epoch": 1.1055301877219685,
+      "grad_norm": 5.65625,
+      "learning_rate": 4.5415573337068185e-06,
+      "loss": 1.65331612,
+      "memory(GiB)": 111.15,
+      "step": 43580,
+      "train_speed(iter/s)": 0.447823
+    },
+    {
+      "acc": 0.64814091,
+      "epoch": 1.1056570268899035,
+      "grad_norm": 6.0625,
+      "learning_rate": 4.540513137198233e-06,
+      "loss": 1.65565243,
+      "memory(GiB)": 111.15,
+      "step": 43585,
+      "train_speed(iter/s)": 0.44785
+    },
+    {
+      "acc": 0.66227474,
+      "epoch": 1.1057838660578387,
+      "grad_norm": 5.375,
+      "learning_rate": 4.539468960899936e-06,
+      "loss": 1.52074642,
+      "memory(GiB)": 111.15,
+      "step": 43590,
+      "train_speed(iter/s)": 0.447877
+    },
+    {
+      "acc": 0.63618751,
+      "epoch": 1.1059107052257737,
+      "grad_norm": 6.96875,
+      "learning_rate": 4.538424804857847e-06,
+      "loss": 1.68571815,
+      "memory(GiB)": 111.15,
+      "step": 43595,
+      "train_speed(iter/s)": 0.447904
+    },
+    {
+      "acc": 0.65476508,
+      "epoch": 1.1060375443937087,
+      "grad_norm": 4.78125,
+      "learning_rate": 4.537380669117896e-06,
+      "loss": 1.64121552,
+      "memory(GiB)": 111.15,
+      "step": 43600,
+      "train_speed(iter/s)": 0.447931
+    },
+    {
+      "epoch": 1.1060375443937087,
+      "eval_acc": 0.6433604032624285,
+      "eval_loss": 1.6079680919647217,
+      "eval_runtime": 114.0327,
+      "eval_samples_per_second": 55.861,
+      "eval_steps_per_second": 27.931,
+      "step": 43600
+    },
+    {
+      "acc": 0.65443902,
+      "epoch": 1.106164383561644,
+      "grad_norm": 6.375,
+      "learning_rate": 4.536336553726008e-06,
+      "loss": 1.58929148,
+      "memory(GiB)": 111.15,
+      "step": 43605,
+      "train_speed(iter/s)": 0.447413
+    },
+    {
+      "acc": 0.65535836,
+      "epoch": 1.106291222729579,
+      "grad_norm": 4.8125,
+      "learning_rate": 4.535292458728112e-06,
+      "loss": 1.61774578,
+      "memory(GiB)": 111.15,
+      "step": 43610,
+      "train_speed(iter/s)": 0.44744
+    },
+    {
+      "acc": 0.6451571,
+      "epoch": 1.106418061897514,
+      "grad_norm": 5.84375,
+      "learning_rate": 4.534248384170126e-06,
+      "loss": 1.63786201,
+      "memory(GiB)": 111.15,
+      "step": 43615,
+      "train_speed(iter/s)": 0.447467
+    },
+    {
+      "acc": 0.64870329,
+      "epoch": 1.106544901065449,
+      "grad_norm": 5.4375,
+      "learning_rate": 4.533204330097974e-06,
+      "loss": 1.62143669,
+      "memory(GiB)": 111.15,
+      "step": 43620,
+      "train_speed(iter/s)": 0.447494
+    },
+    {
+      "acc": 0.66259298,
+      "epoch": 1.106671740233384,
+      "grad_norm": 4.4375,
+      "learning_rate": 4.532160296557581e-06,
+      "loss": 1.62355938,
+      "memory(GiB)": 111.15,
+      "step": 43625,
+      "train_speed(iter/s)": 0.447521
+    },
+    {
+      "acc": 0.66635122,
+      "epoch": 1.106798579401319,
+      "grad_norm": 7.53125,
+      "learning_rate": 4.531116283594868e-06,
+      "loss": 1.55716248,
+      "memory(GiB)": 111.15,
+      "step": 43630,
+      "train_speed(iter/s)": 0.447548
+    },
+    {
+      "acc": 0.67196503,
+      "epoch": 1.106925418569254,
+      "grad_norm": 5.75,
+      "learning_rate": 4.530072291255753e-06,
+      "loss": 1.57118921,
+      "memory(GiB)": 111.15,
+      "step": 43635,
+      "train_speed(iter/s)": 0.447575
+    },
+    {
+      "acc": 0.65551481,
+      "epoch": 1.1070522577371893,
+      "grad_norm": 5.34375,
+      "learning_rate": 4.529028319586157e-06,
+      "loss": 1.61909847,
+      "memory(GiB)": 111.15,
+      "step": 43640,
+      "train_speed(iter/s)": 0.447603
+    },
+    {
+      "acc": 0.64416184,
+      "epoch": 1.1071790969051243,
+      "grad_norm": 6.03125,
+      "learning_rate": 4.527984368631997e-06,
+      "loss": 1.71984138,
+      "memory(GiB)": 111.15,
+      "step": 43645,
+      "train_speed(iter/s)": 0.44763
+    },
+    {
+      "acc": 0.64371533,
+      "epoch": 1.1073059360730593,
+      "grad_norm": 5.4375,
+      "learning_rate": 4.526940438439196e-06,
+      "loss": 1.53390865,
+      "memory(GiB)": 111.15,
+      "step": 43650,
+      "train_speed(iter/s)": 0.447657
+    },
+    {
+      "acc": 0.65462222,
+      "epoch": 1.1074327752409945,
+      "grad_norm": 6.84375,
+      "learning_rate": 4.525896529053662e-06,
+      "loss": 1.63867989,
+      "memory(GiB)": 111.15,
+      "step": 43655,
+      "train_speed(iter/s)": 0.447684
+    },
+    {
+      "acc": 0.6484807,
+      "epoch": 1.1075596144089295,
+      "grad_norm": 4.9375,
+      "learning_rate": 4.524852640521318e-06,
+      "loss": 1.63207855,
+      "memory(GiB)": 111.15,
+      "step": 43660,
+      "train_speed(iter/s)": 0.447712
+    },
+    {
+      "acc": 0.65583491,
+      "epoch": 1.1076864535768645,
+      "grad_norm": 5.25,
+      "learning_rate": 4.523808772888073e-06,
+      "loss": 1.57315559,
+      "memory(GiB)": 111.15,
+      "step": 43665,
+      "train_speed(iter/s)": 0.447739
+    },
+    {
+      "acc": 0.65190787,
+      "epoch": 1.1078132927447997,
+      "grad_norm": 4.6875,
+      "learning_rate": 4.522764926199848e-06,
+      "loss": 1.63750877,
+      "memory(GiB)": 111.15,
+      "step": 43670,
+      "train_speed(iter/s)": 0.447766
+    },
+    {
+      "acc": 0.64582796,
+      "epoch": 1.1079401319127347,
+      "grad_norm": 5.625,
+      "learning_rate": 4.5217211005025516e-06,
+      "loss": 1.57468548,
+      "memory(GiB)": 111.15,
+      "step": 43675,
+      "train_speed(iter/s)": 0.447793
+    },
+    {
+      "acc": 0.64481063,
+      "epoch": 1.1080669710806696,
+      "grad_norm": 5.9375,
+      "learning_rate": 4.520677295842095e-06,
+      "loss": 1.59120722,
+      "memory(GiB)": 111.15,
+      "step": 43680,
+      "train_speed(iter/s)": 0.44782
+    },
+    {
+      "acc": 0.6792923,
+      "epoch": 1.1081938102486049,
+      "grad_norm": 6.375,
+      "learning_rate": 4.5196335122643915e-06,
+      "loss": 1.50496445,
+      "memory(GiB)": 111.15,
+      "step": 43685,
+      "train_speed(iter/s)": 0.447848
+    },
+    {
+      "acc": 0.65321269,
+      "epoch": 1.1083206494165398,
+      "grad_norm": 5.65625,
+      "learning_rate": 4.518589749815352e-06,
+      "loss": 1.57540808,
+      "memory(GiB)": 111.15,
+      "step": 43690,
+      "train_speed(iter/s)": 0.447875
+    },
+    {
+      "acc": 0.64867992,
+      "epoch": 1.1084474885844748,
+      "grad_norm": 5.6875,
+      "learning_rate": 4.517546008540884e-06,
+      "loss": 1.62391605,
+      "memory(GiB)": 111.15,
+      "step": 43695,
+      "train_speed(iter/s)": 0.447902
+    },
+    {
+      "acc": 0.64859099,
+      "epoch": 1.10857432775241,
+      "grad_norm": 5.21875,
+      "learning_rate": 4.5165022884868946e-06,
+      "loss": 1.61436348,
+      "memory(GiB)": 111.15,
+      "step": 43700,
+      "train_speed(iter/s)": 0.447929
+    },
+    {
+      "epoch": 1.10857432775241,
+      "eval_acc": 0.6433299062488381,
+      "eval_loss": 1.607836365699768,
+      "eval_runtime": 113.4399,
+      "eval_samples_per_second": 56.153,
+      "eval_steps_per_second": 28.077,
+      "step": 43700
+    },
+    {
+      "acc": 0.63205709,
+      "epoch": 1.108701166920345,
+      "grad_norm": 5.78125,
+      "learning_rate": 4.515458589699295e-06,
+      "loss": 1.70671482,
+      "memory(GiB)": 111.15,
+      "step": 43705,
+      "train_speed(iter/s)": 0.447415
+    },
+    {
+      "acc": 0.65764709,
+      "epoch": 1.10882800608828,
+      "grad_norm": 4.65625,
+      "learning_rate": 4.514414912223991e-06,
+      "loss": 1.59906254,
+      "memory(GiB)": 111.15,
+      "step": 43710,
+      "train_speed(iter/s)": 0.447442
+    },
+    {
+      "acc": 0.66517401,
+      "epoch": 1.108954845256215,
+      "grad_norm": 5.625,
+      "learning_rate": 4.513371256106885e-06,
+      "loss": 1.57330589,
+      "memory(GiB)": 111.15,
+      "step": 43715,
+      "train_speed(iter/s)": 0.447469
+    },
+    {
+      "acc": 0.63972378,
+      "epoch": 1.1090816844241502,
+      "grad_norm": 5.9375,
+      "learning_rate": 4.512327621393885e-06,
+      "loss": 1.63225956,
+      "memory(GiB)": 111.15,
+      "step": 43720,
+      "train_speed(iter/s)": 0.447496
+    },
+    {
+      "acc": 0.67330337,
+      "epoch": 1.1092085235920852,
+      "grad_norm": 5.28125,
+      "learning_rate": 4.511284008130892e-06,
+      "loss": 1.55555668,
+      "memory(GiB)": 111.15,
+      "step": 43725,
+      "train_speed(iter/s)": 0.447523
+    },
+    {
+      "acc": 0.64832211,
+      "epoch": 1.1093353627600202,
+      "grad_norm": 5.25,
+      "learning_rate": 4.510240416363813e-06,
+      "loss": 1.60936871,
+      "memory(GiB)": 111.15,
+      "step": 43730,
+      "train_speed(iter/s)": 0.44755
+    },
+    {
+      "acc": 0.63588448,
+      "epoch": 1.1094622019279554,
+      "grad_norm": 4.90625,
+      "learning_rate": 4.5091968461385455e-06,
+      "loss": 1.67983971,
+      "memory(GiB)": 111.15,
+      "step": 43735,
+      "train_speed(iter/s)": 0.447577
+    },
+    {
+      "acc": 0.6545136,
+      "epoch": 1.1095890410958904,
+      "grad_norm": 5.09375,
+      "learning_rate": 4.508153297500993e-06,
+      "loss": 1.60611191,
+      "memory(GiB)": 111.15,
+      "step": 43740,
+      "train_speed(iter/s)": 0.447604
+    },
+    {
+      "acc": 0.65158997,
+      "epoch": 1.1097158802638254,
+      "grad_norm": 5.3125,
+      "learning_rate": 4.507109770497052e-06,
+      "loss": 1.60791626,
+      "memory(GiB)": 111.15,
+      "step": 43745,
+      "train_speed(iter/s)": 0.447631
+    },
+    {
+      "acc": 0.6608737,
+      "epoch": 1.1098427194317606,
+      "grad_norm": 5.15625,
+      "learning_rate": 4.506066265172626e-06,
+      "loss": 1.57341871,
+      "memory(GiB)": 111.15,
+      "step": 43750,
+      "train_speed(iter/s)": 0.447658
+    },
+    {
+      "acc": 0.62668147,
+      "epoch": 1.1099695585996956,
+      "grad_norm": 5.4375,
+      "learning_rate": 4.505022781573611e-06,
+      "loss": 1.70450211,
+      "memory(GiB)": 111.15,
+      "step": 43755,
+      "train_speed(iter/s)": 0.447685
+    },
+    {
+      "acc": 0.65914383,
+      "epoch": 1.1100963977676306,
+      "grad_norm": 4.84375,
+      "learning_rate": 4.503979319745902e-06,
+      "loss": 1.65097389,
+      "memory(GiB)": 111.15,
+      "step": 43760,
+      "train_speed(iter/s)": 0.447712
+    },
+    {
+      "acc": 0.64734373,
+      "epoch": 1.1102232369355658,
+      "grad_norm": 5.15625,
+      "learning_rate": 4.502935879735398e-06,
+      "loss": 1.6246088,
+      "memory(GiB)": 111.15,
+      "step": 43765,
+      "train_speed(iter/s)": 0.447738
+    },
+    {
+      "acc": 0.65419312,
+      "epoch": 1.1103500761035008,
+      "grad_norm": 4.9375,
+      "learning_rate": 4.5018924615879956e-06,
+      "loss": 1.61998558,
+      "memory(GiB)": 111.15,
+      "step": 43770,
+      "train_speed(iter/s)": 0.447765
+    },
+    {
+      "acc": 0.65592775,
+      "epoch": 1.1104769152714358,
+      "grad_norm": 4.78125,
+      "learning_rate": 4.500849065349584e-06,
+      "loss": 1.6009388,
+      "memory(GiB)": 111.15,
+      "step": 43775,
+      "train_speed(iter/s)": 0.447792
+    },
+    {
+      "acc": 0.64072948,
+      "epoch": 1.1106037544393708,
+      "grad_norm": 6.34375,
+      "learning_rate": 4.499805691066059e-06,
+      "loss": 1.59774771,
+      "memory(GiB)": 111.15,
+      "step": 43780,
+      "train_speed(iter/s)": 0.447819
+    },
+    {
+      "acc": 0.64454565,
+      "epoch": 1.110730593607306,
+      "grad_norm": 5.8125,
+      "learning_rate": 4.498762338783314e-06,
+      "loss": 1.63502274,
+      "memory(GiB)": 111.15,
+      "step": 43785,
+      "train_speed(iter/s)": 0.447845
+    },
+    {
+      "acc": 0.65958037,
+      "epoch": 1.110857432775241,
+      "grad_norm": 5.28125,
+      "learning_rate": 4.49771900854724e-06,
+      "loss": 1.58114986,
+      "memory(GiB)": 111.15,
+      "step": 43790,
+      "train_speed(iter/s)": 0.447872
+    },
+    {
+      "acc": 0.64242678,
+      "epoch": 1.110984271943176,
+      "grad_norm": 5.8125,
+      "learning_rate": 4.496675700403724e-06,
+      "loss": 1.69098415,
+      "memory(GiB)": 111.15,
+      "step": 43795,
+      "train_speed(iter/s)": 0.447899
+    },
+    {
+      "acc": 0.64786968,
+      "epoch": 1.1111111111111112,
+      "grad_norm": 6.0,
+      "learning_rate": 4.495632414398659e-06,
+      "loss": 1.69711342,
+      "memory(GiB)": 111.15,
+      "step": 43800,
+      "train_speed(iter/s)": 0.447926
+    },
+    {
+      "epoch": 1.1111111111111112,
+      "eval_acc": 0.6432442639503994,
+      "eval_loss": 1.607789158821106,
+      "eval_runtime": 114.488,
+      "eval_samples_per_second": 55.639,
+      "eval_steps_per_second": 27.82,
+      "step": 43800
+    },
+    {
+      "acc": 0.63777924,
+      "epoch": 1.1112379502790461,
+      "grad_norm": 5.40625,
+      "learning_rate": 4.494589150577932e-06,
+      "loss": 1.71778812,
+      "memory(GiB)": 111.15,
+      "step": 43805,
+      "train_speed(iter/s)": 0.447408
+    },
+    {
+      "acc": 0.66468453,
+      "epoch": 1.1113647894469811,
+      "grad_norm": 5.96875,
+      "learning_rate": 4.493545908987432e-06,
+      "loss": 1.63095341,
+      "memory(GiB)": 111.15,
+      "step": 43810,
+      "train_speed(iter/s)": 0.447435
+    },
+    {
+      "acc": 0.63431921,
+      "epoch": 1.1114916286149163,
+      "grad_norm": 4.90625,
+      "learning_rate": 4.492502689673044e-06,
+      "loss": 1.71169815,
+      "memory(GiB)": 111.15,
+      "step": 43815,
+      "train_speed(iter/s)": 0.447462
+    },
+    {
+      "acc": 0.66547384,
+      "epoch": 1.1116184677828513,
+      "grad_norm": 5.53125,
+      "learning_rate": 4.491459492680651e-06,
+      "loss": 1.60673866,
+      "memory(GiB)": 111.15,
+      "step": 43820,
+      "train_speed(iter/s)": 0.447488
+    },
+    {
+      "acc": 0.65815578,
+      "epoch": 1.1117453069507863,
+      "grad_norm": 5.59375,
+      "learning_rate": 4.4904163180561425e-06,
+      "loss": 1.53903627,
+      "memory(GiB)": 111.15,
+      "step": 43825,
+      "train_speed(iter/s)": 0.447515
+    },
+    {
+      "acc": 0.63364606,
+      "epoch": 1.1118721461187215,
+      "grad_norm": 4.9375,
+      "learning_rate": 4.4893731658453996e-06,
+      "loss": 1.62379837,
+      "memory(GiB)": 111.15,
+      "step": 43830,
+      "train_speed(iter/s)": 0.447542
+    },
+    {
+      "acc": 0.65906,
+      "epoch": 1.1119989852866565,
+      "grad_norm": 4.96875,
+      "learning_rate": 4.4883300360943035e-06,
+      "loss": 1.60301685,
+      "memory(GiB)": 111.15,
+      "step": 43835,
+      "train_speed(iter/s)": 0.447569
+    },
+    {
+      "acc": 0.64513493,
+      "epoch": 1.1121258244545915,
+      "grad_norm": 5.5625,
+      "learning_rate": 4.4872869288487366e-06,
+      "loss": 1.61025333,
+      "memory(GiB)": 111.15,
+      "step": 43840,
+      "train_speed(iter/s)": 0.447595
+    },
+    {
+      "acc": 0.64752474,
+      "epoch": 1.1122526636225267,
+      "grad_norm": 4.71875,
+      "learning_rate": 4.48624384415458e-06,
+      "loss": 1.56753292,
+      "memory(GiB)": 111.15,
+      "step": 43845,
+      "train_speed(iter/s)": 0.447622
+    },
+    {
+      "acc": 0.65127726,
+      "epoch": 1.1123795027904617,
+      "grad_norm": 5.34375,
+      "learning_rate": 4.485200782057715e-06,
+      "loss": 1.67358112,
+      "memory(GiB)": 111.15,
+      "step": 43850,
+      "train_speed(iter/s)": 0.447649
+    },
+    {
+      "acc": 0.64066677,
+      "epoch": 1.1125063419583967,
+      "grad_norm": 5.84375,
+      "learning_rate": 4.4841577426040145e-06,
+      "loss": 1.64540443,
+      "memory(GiB)": 111.15,
+      "step": 43855,
+      "train_speed(iter/s)": 0.447676
+    },
+    {
+      "acc": 0.65520682,
+      "epoch": 1.112633181126332,
+      "grad_norm": 5.1875,
+      "learning_rate": 4.483114725839361e-06,
+      "loss": 1.61334229,
+      "memory(GiB)": 111.15,
+      "step": 43860,
+      "train_speed(iter/s)": 0.447702
+    },
+    {
+      "acc": 0.64900894,
+      "epoch": 1.112760020294267,
+      "grad_norm": 5.875,
+      "learning_rate": 4.482071731809629e-06,
+      "loss": 1.65554008,
+      "memory(GiB)": 111.15,
+      "step": 43865,
+      "train_speed(iter/s)": 0.447729
+    },
+    {
+      "acc": 0.63979573,
+      "epoch": 1.112886859462202,
+      "grad_norm": 5.5,
+      "learning_rate": 4.481028760560697e-06,
+      "loss": 1.65602264,
+      "memory(GiB)": 111.15,
+      "step": 43870,
+      "train_speed(iter/s)": 0.447755
+    },
+    {
+      "acc": 0.65832863,
+      "epoch": 1.1130136986301369,
+      "grad_norm": 5.1875,
+      "learning_rate": 4.479985812138435e-06,
+      "loss": 1.61183891,
+      "memory(GiB)": 111.15,
+      "step": 43875,
+      "train_speed(iter/s)": 0.447782
+    },
+    {
+      "acc": 0.64696579,
+      "epoch": 1.113140537798072,
+      "grad_norm": 5.40625,
+      "learning_rate": 4.478942886588719e-06,
+      "loss": 1.58558369,
+      "memory(GiB)": 111.15,
+      "step": 43880,
+      "train_speed(iter/s)": 0.447809
+    },
+    {
+      "acc": 0.64988232,
+      "epoch": 1.113267376966007,
+      "grad_norm": 4.875,
+      "learning_rate": 4.47789998395742e-06,
+      "loss": 1.614501,
+      "memory(GiB)": 111.15,
+      "step": 43885,
+      "train_speed(iter/s)": 0.447836
+    },
+    {
+      "acc": 0.65577488,
+      "epoch": 1.113394216133942,
+      "grad_norm": 6.40625,
+      "learning_rate": 4.476857104290413e-06,
+      "loss": 1.65937443,
+      "memory(GiB)": 111.15,
+      "step": 43890,
+      "train_speed(iter/s)": 0.447863
+    },
+    {
+      "acc": 0.66699953,
+      "epoch": 1.1135210553018773,
+      "grad_norm": 6.5,
+      "learning_rate": 4.4758142476335655e-06,
+      "loss": 1.61105213,
+      "memory(GiB)": 111.15,
+      "step": 43895,
+      "train_speed(iter/s)": 0.44789
+    },
+    {
+      "acc": 0.66692457,
+      "epoch": 1.1136478944698123,
+      "grad_norm": 4.46875,
+      "learning_rate": 4.474771414032747e-06,
+      "loss": 1.68279419,
+      "memory(GiB)": 111.15,
+      "step": 43900,
+      "train_speed(iter/s)": 0.447916
+    },
+    {
+      "epoch": 1.1136478944698123,
+      "eval_acc": 0.6432785208697748,
+      "eval_loss": 1.607942819595337,
+      "eval_runtime": 115.4914,
+      "eval_samples_per_second": 55.156,
+      "eval_steps_per_second": 27.578,
+      "step": 43900
+    },
+    {
+      "acc": 0.65618267,
+      "epoch": 1.1137747336377473,
+      "grad_norm": 5.5625,
+      "learning_rate": 4.473728603533827e-06,
+      "loss": 1.60887527,
+      "memory(GiB)": 111.15,
+      "step": 43905,
+      "train_speed(iter/s)": 0.447395
+    },
+    {
+      "acc": 0.64473619,
+      "epoch": 1.1139015728056825,
+      "grad_norm": 6.09375,
+      "learning_rate": 4.472685816182674e-06,
+      "loss": 1.65027294,
+      "memory(GiB)": 111.15,
+      "step": 43910,
+      "train_speed(iter/s)": 0.447422
+    },
+    {
+      "acc": 0.64944496,
+      "epoch": 1.1140284119736175,
+      "grad_norm": 5.90625,
+      "learning_rate": 4.471643052025152e-06,
+      "loss": 1.6497776,
+      "memory(GiB)": 111.15,
+      "step": 43915,
+      "train_speed(iter/s)": 0.447449
+    },
+    {
+      "acc": 0.63943596,
+      "epoch": 1.1141552511415524,
+      "grad_norm": 5.53125,
+      "learning_rate": 4.470600311107127e-06,
+      "loss": 1.69407959,
+      "memory(GiB)": 111.15,
+      "step": 43920,
+      "train_speed(iter/s)": 0.447475
+    },
+    {
+      "acc": 0.64081774,
+      "epoch": 1.1142820903094877,
+      "grad_norm": 5.3125,
+      "learning_rate": 4.469557593474464e-06,
+      "loss": 1.61218548,
+      "memory(GiB)": 111.15,
+      "step": 43925,
+      "train_speed(iter/s)": 0.447502
+    },
+    {
+      "acc": 0.64238997,
+      "epoch": 1.1144089294774226,
+      "grad_norm": 5.59375,
+      "learning_rate": 4.468514899173027e-06,
+      "loss": 1.63466797,
+      "memory(GiB)": 111.15,
+      "step": 43930,
+      "train_speed(iter/s)": 0.447529
+    },
+    {
+      "acc": 0.66194081,
+      "epoch": 1.1145357686453576,
+      "grad_norm": 5.46875,
+      "learning_rate": 4.4674722282486775e-06,
+      "loss": 1.57595196,
+      "memory(GiB)": 111.15,
+      "step": 43935,
+      "train_speed(iter/s)": 0.447556
+    },
+    {
+      "acc": 0.65851707,
+      "epoch": 1.1146626078132926,
+      "grad_norm": 5.59375,
+      "learning_rate": 4.4664295807472765e-06,
+      "loss": 1.60494995,
+      "memory(GiB)": 111.15,
+      "step": 43940,
+      "train_speed(iter/s)": 0.447583
+    },
+    {
+      "acc": 0.64260588,
+      "epoch": 1.1147894469812278,
+      "grad_norm": 6.3125,
+      "learning_rate": 4.465386956714684e-06,
+      "loss": 1.61171074,
+      "memory(GiB)": 111.15,
+      "step": 43945,
+      "train_speed(iter/s)": 0.44761
+    },
+    {
+      "acc": 0.64786301,
+      "epoch": 1.1149162861491628,
+      "grad_norm": 5.59375,
+      "learning_rate": 4.4643443561967625e-06,
+      "loss": 1.62274284,
+      "memory(GiB)": 111.15,
+      "step": 43950,
+      "train_speed(iter/s)": 0.447637
+    },
+    {
+      "acc": 0.65653734,
+      "epoch": 1.1150431253170978,
+      "grad_norm": 5.4375,
+      "learning_rate": 4.463301779239366e-06,
+      "loss": 1.52905922,
+      "memory(GiB)": 111.15,
+      "step": 43955,
+      "train_speed(iter/s)": 0.447663
+    },
+    {
+      "acc": 0.67558603,
+      "epoch": 1.115169964485033,
+      "grad_norm": 5.25,
+      "learning_rate": 4.462259225888354e-06,
+      "loss": 1.56166439,
+      "memory(GiB)": 111.15,
+      "step": 43960,
+      "train_speed(iter/s)": 0.44769
+    },
+    {
+      "acc": 0.64364748,
+      "epoch": 1.115296803652968,
+      "grad_norm": 5.0625,
+      "learning_rate": 4.4612166961895805e-06,
+      "loss": 1.68547668,
+      "memory(GiB)": 111.15,
+      "step": 43965,
+      "train_speed(iter/s)": 0.447717
+    },
+    {
+      "acc": 0.65125332,
+      "epoch": 1.115423642820903,
+      "grad_norm": 4.8125,
+      "learning_rate": 4.460174190188905e-06,
+      "loss": 1.59385376,
+      "memory(GiB)": 111.15,
+      "step": 43970,
+      "train_speed(iter/s)": 0.447743
+    },
+    {
+      "acc": 0.64289832,
+      "epoch": 1.1155504819888382,
+      "grad_norm": 5.75,
+      "learning_rate": 4.459131707932177e-06,
+      "loss": 1.69408722,
+      "memory(GiB)": 111.15,
+      "step": 43975,
+      "train_speed(iter/s)": 0.44777
+    },
+    {
+      "acc": 0.6463275,
+      "epoch": 1.1156773211567732,
+      "grad_norm": 5.28125,
+      "learning_rate": 4.458089249465251e-06,
+      "loss": 1.66346512,
+      "memory(GiB)": 111.15,
+      "step": 43980,
+      "train_speed(iter/s)": 0.447797
+    },
+    {
+      "acc": 0.64140282,
+      "epoch": 1.1158041603247082,
+      "grad_norm": 4.625,
+      "learning_rate": 4.45704681483398e-06,
+      "loss": 1.66770821,
+      "memory(GiB)": 111.15,
+      "step": 43985,
+      "train_speed(iter/s)": 0.447823
+    },
+    {
+      "acc": 0.6409235,
+      "epoch": 1.1159309994926434,
+      "grad_norm": 5.09375,
+      "learning_rate": 4.456004404084215e-06,
+      "loss": 1.63699207,
+      "memory(GiB)": 111.15,
+      "step": 43990,
+      "train_speed(iter/s)": 0.447851
+    },
+    {
+      "acc": 0.63896856,
+      "epoch": 1.1160578386605784,
+      "grad_norm": 6.8125,
+      "learning_rate": 4.454962017261803e-06,
+      "loss": 1.69916878,
+      "memory(GiB)": 111.15,
+      "step": 43995,
+      "train_speed(iter/s)": 0.447877
+    },
+    {
+      "acc": 0.64159613,
+      "epoch": 1.1161846778285134,
+      "grad_norm": 5.3125,
+      "learning_rate": 4.453919654412596e-06,
+      "loss": 1.64852219,
+      "memory(GiB)": 111.15,
+      "step": 44000,
+      "train_speed(iter/s)": 0.447904
+    },
+    {
+      "epoch": 1.1161846778285134,
+      "eval_acc": 0.6433432748027407,
+      "eval_loss": 1.607741355895996,
+      "eval_runtime": 115.5934,
+      "eval_samples_per_second": 55.107,
+      "eval_steps_per_second": 27.553,
+      "step": 44000
+    },
+    {
+      "acc": 0.65112696,
+      "epoch": 1.1163115169964486,
+      "grad_norm": 5.25,
+      "learning_rate": 4.45287731558244e-06,
+      "loss": 1.57612791,
+      "memory(GiB)": 111.15,
+      "step": 44005,
+      "train_speed(iter/s)": 0.447384
+    },
+    {
+      "acc": 0.65021548,
+      "epoch": 1.1164383561643836,
+      "grad_norm": 4.4375,
+      "learning_rate": 4.451835000817185e-06,
+      "loss": 1.60348492,
+      "memory(GiB)": 111.15,
+      "step": 44010,
+      "train_speed(iter/s)": 0.44741
+    },
+    {
+      "acc": 0.65743942,
+      "epoch": 1.1165651953323186,
+      "grad_norm": 5.46875,
+      "learning_rate": 4.450792710162672e-06,
+      "loss": 1.63968811,
+      "memory(GiB)": 111.15,
+      "step": 44015,
+      "train_speed(iter/s)": 0.447437
+    },
+    {
+      "acc": 0.64624481,
+      "epoch": 1.1166920345002538,
+      "grad_norm": 5.46875,
+      "learning_rate": 4.449750443664747e-06,
+      "loss": 1.61443634,
+      "memory(GiB)": 111.15,
+      "step": 44020,
+      "train_speed(iter/s)": 0.447464
+    },
+    {
+      "acc": 0.65451622,
+      "epoch": 1.1168188736681888,
+      "grad_norm": 4.5625,
+      "learning_rate": 4.448708201369254e-06,
+      "loss": 1.60247784,
+      "memory(GiB)": 111.15,
+      "step": 44025,
+      "train_speed(iter/s)": 0.447491
+    },
+    {
+      "acc": 0.64684162,
+      "epoch": 1.1169457128361238,
+      "grad_norm": 5.125,
+      "learning_rate": 4.4476659833220374e-06,
+      "loss": 1.63735123,
+      "memory(GiB)": 111.15,
+      "step": 44030,
+      "train_speed(iter/s)": 0.447518
+    },
+    {
+      "acc": 0.66011486,
+      "epoch": 1.1170725520040587,
+      "grad_norm": 5.53125,
+      "learning_rate": 4.4466237895689365e-06,
+      "loss": 1.57280703,
+      "memory(GiB)": 111.15,
+      "step": 44035,
+      "train_speed(iter/s)": 0.447545
+    },
+    {
+      "acc": 0.65363779,
+      "epoch": 1.117199391171994,
+      "grad_norm": 6.25,
+      "learning_rate": 4.44558162015579e-06,
+      "loss": 1.61035843,
+      "memory(GiB)": 111.15,
+      "step": 44040,
+      "train_speed(iter/s)": 0.447572
+    },
+    {
+      "acc": 0.64679914,
+      "epoch": 1.117326230339929,
+      "grad_norm": 5.90625,
+      "learning_rate": 4.444539475128441e-06,
+      "loss": 1.63318138,
+      "memory(GiB)": 111.15,
+      "step": 44045,
+      "train_speed(iter/s)": 0.447599
+    },
+    {
+      "acc": 0.64766855,
+      "epoch": 1.117453069507864,
+      "grad_norm": 5.03125,
+      "learning_rate": 4.443497354532726e-06,
+      "loss": 1.65816517,
+      "memory(GiB)": 111.15,
+      "step": 44050,
+      "train_speed(iter/s)": 0.447626
+    },
+    {
+      "acc": 0.65258675,
+      "epoch": 1.1175799086757991,
+      "grad_norm": 5.5625,
+      "learning_rate": 4.442455258414482e-06,
+      "loss": 1.56705914,
+      "memory(GiB)": 111.15,
+      "step": 44055,
+      "train_speed(iter/s)": 0.447653
+    },
+    {
+      "acc": 0.63883114,
+      "epoch": 1.1177067478437341,
+      "grad_norm": 5.34375,
+      "learning_rate": 4.441413186819543e-06,
+      "loss": 1.6178257,
+      "memory(GiB)": 111.15,
+      "step": 44060,
+      "train_speed(iter/s)": 0.44768
+    },
+    {
+      "acc": 0.65384569,
+      "epoch": 1.1178335870116691,
+      "grad_norm": 6.625,
+      "learning_rate": 4.440371139793747e-06,
+      "loss": 1.5860672,
+      "memory(GiB)": 111.15,
+      "step": 44065,
+      "train_speed(iter/s)": 0.447707
+    },
+    {
+      "acc": 0.65505285,
+      "epoch": 1.1179604261796043,
+      "grad_norm": 5.03125,
+      "learning_rate": 4.43932911738293e-06,
+      "loss": 1.64198551,
+      "memory(GiB)": 111.15,
+      "step": 44070,
+      "train_speed(iter/s)": 0.447734
+    },
+    {
+      "acc": 0.64321499,
+      "epoch": 1.1180872653475393,
+      "grad_norm": 5.96875,
+      "learning_rate": 4.438287119632917e-06,
+      "loss": 1.6269474,
+      "memory(GiB)": 111.15,
+      "step": 44075,
+      "train_speed(iter/s)": 0.447761
+    },
+    {
+      "acc": 0.64389811,
+      "epoch": 1.1182141045154743,
+      "grad_norm": 9.125,
+      "learning_rate": 4.4372451465895465e-06,
+      "loss": 1.61616402,
+      "memory(GiB)": 111.15,
+      "step": 44080,
+      "train_speed(iter/s)": 0.447788
+    },
+    {
+      "acc": 0.64391565,
+      "epoch": 1.1183409436834095,
+      "grad_norm": 5.4375,
+      "learning_rate": 4.436203198298645e-06,
+      "loss": 1.62471066,
+      "memory(GiB)": 111.15,
+      "step": 44085,
+      "train_speed(iter/s)": 0.447815
+    },
+    {
+      "acc": 0.64482422,
+      "epoch": 1.1184677828513445,
+      "grad_norm": 4.75,
+      "learning_rate": 4.435161274806049e-06,
+      "loss": 1.61286068,
+      "memory(GiB)": 111.15,
+      "step": 44090,
+      "train_speed(iter/s)": 0.447842
+    },
+    {
+      "acc": 0.63948755,
+      "epoch": 1.1185946220192795,
+      "grad_norm": 4.71875,
+      "learning_rate": 4.4341193761575765e-06,
+      "loss": 1.67480049,
+      "memory(GiB)": 111.15,
+      "step": 44095,
+      "train_speed(iter/s)": 0.447869
+    },
+    {
+      "acc": 0.66657171,
+      "epoch": 1.1187214611872145,
+      "grad_norm": 5.9375,
+      "learning_rate": 4.433077502399063e-06,
+      "loss": 1.61271782,
+      "memory(GiB)": 111.15,
+      "step": 44100,
+      "train_speed(iter/s)": 0.447896
+    },
+    {
+      "epoch": 1.1187214611872145,
+      "eval_acc": 0.6433202976007205,
+      "eval_loss": 1.6078840494155884,
+      "eval_runtime": 113.5781,
+      "eval_samples_per_second": 56.085,
+      "eval_steps_per_second": 28.042,
+      "step": 44100
+    },
+    {
+      "acc": 0.65443869,
+      "epoch": 1.1188483003551497,
+      "grad_norm": 4.90625,
+      "learning_rate": 4.43203565357633e-06,
+      "loss": 1.54661493,
+      "memory(GiB)": 111.15,
+      "step": 44105,
+      "train_speed(iter/s)": 0.447385
+    },
+    {
+      "acc": 0.650489,
+      "epoch": 1.1189751395230847,
+      "grad_norm": 5.09375,
+      "learning_rate": 4.430993829735208e-06,
+      "loss": 1.6056778,
+      "memory(GiB)": 111.15,
+      "step": 44110,
+      "train_speed(iter/s)": 0.447412
+    },
+    {
+      "acc": 0.65703754,
+      "epoch": 1.1191019786910197,
+      "grad_norm": 5.1875,
+      "learning_rate": 4.429952030921516e-06,
+      "loss": 1.52913475,
+      "memory(GiB)": 111.15,
+      "step": 44115,
+      "train_speed(iter/s)": 0.447438
+    },
+    {
+      "acc": 0.6673522,
+      "epoch": 1.119228817858955,
+      "grad_norm": 6.65625,
+      "learning_rate": 4.428910257181077e-06,
+      "loss": 1.61710567,
+      "memory(GiB)": 111.15,
+      "step": 44120,
+      "train_speed(iter/s)": 0.447464
+    },
+    {
+      "acc": 0.65801573,
+      "epoch": 1.1193556570268899,
+      "grad_norm": 7.6875,
+      "learning_rate": 4.427868508559717e-06,
+      "loss": 1.6121624,
+      "memory(GiB)": 111.15,
+      "step": 44125,
+      "train_speed(iter/s)": 0.447491
+    },
+    {
+      "acc": 0.67140007,
+      "epoch": 1.1194824961948249,
+      "grad_norm": 6.3125,
+      "learning_rate": 4.426826785103256e-06,
+      "loss": 1.53208256,
+      "memory(GiB)": 111.15,
+      "step": 44130,
+      "train_speed(iter/s)": 0.447518
+    },
+    {
+      "acc": 0.6505619,
+      "epoch": 1.11960933536276,
+      "grad_norm": 6.5625,
+      "learning_rate": 4.425785086857509e-06,
+      "loss": 1.64225731,
+      "memory(GiB)": 111.15,
+      "step": 44135,
+      "train_speed(iter/s)": 0.447544
+    },
+    {
+      "acc": 0.64814262,
+      "epoch": 1.119736174530695,
+      "grad_norm": 5.3125,
+      "learning_rate": 4.424743413868298e-06,
+      "loss": 1.64004974,
+      "memory(GiB)": 111.15,
+      "step": 44140,
+      "train_speed(iter/s)": 0.44757
+    },
+    {
+      "acc": 0.65566292,
+      "epoch": 1.11986301369863,
+      "grad_norm": 6.125,
+      "learning_rate": 4.42370176618144e-06,
+      "loss": 1.59869289,
+      "memory(GiB)": 111.15,
+      "step": 44145,
+      "train_speed(iter/s)": 0.447597
+    },
+    {
+      "acc": 0.63815413,
+      "epoch": 1.1199898528665653,
+      "grad_norm": 5.03125,
+      "learning_rate": 4.422660143842753e-06,
+      "loss": 1.61365929,
+      "memory(GiB)": 111.15,
+      "step": 44150,
+      "train_speed(iter/s)": 0.447623
+    },
+    {
+      "acc": 0.64841948,
+      "epoch": 1.1201166920345003,
+      "grad_norm": 6.15625,
+      "learning_rate": 4.421618546898048e-06,
+      "loss": 1.668256,
+      "memory(GiB)": 111.15,
+      "step": 44155,
+      "train_speed(iter/s)": 0.44765
+    },
+    {
+      "acc": 0.6525094,
+      "epoch": 1.1202435312024352,
+      "grad_norm": 5.0,
+      "learning_rate": 4.420576975393143e-06,
+      "loss": 1.53784256,
+      "memory(GiB)": 111.15,
+      "step": 44160,
+      "train_speed(iter/s)": 0.447677
+    },
+    {
+      "acc": 0.66498985,
+      "epoch": 1.1203703703703705,
+      "grad_norm": 5.125,
+      "learning_rate": 4.4195354293738484e-06,
+      "loss": 1.55815372,
+      "memory(GiB)": 111.15,
+      "step": 44165,
+      "train_speed(iter/s)": 0.447703
+    },
+    {
+      "acc": 0.64175463,
+      "epoch": 1.1204972095383054,
+      "grad_norm": 5.34375,
+      "learning_rate": 4.418493908885979e-06,
+      "loss": 1.57835846,
+      "memory(GiB)": 111.15,
+      "step": 44170,
+      "train_speed(iter/s)": 0.44773
+    },
+    {
+      "acc": 0.65107002,
+      "epoch": 1.1206240487062404,
+      "grad_norm": 4.71875,
+      "learning_rate": 4.417452413975343e-06,
+      "loss": 1.61611595,
+      "memory(GiB)": 111.15,
+      "step": 44175,
+      "train_speed(iter/s)": 0.447756
+    },
+    {
+      "acc": 0.65821552,
+      "epoch": 1.1207508878741756,
+      "grad_norm": 4.78125,
+      "learning_rate": 4.4164109446877514e-06,
+      "loss": 1.61503448,
+      "memory(GiB)": 111.15,
+      "step": 44180,
+      "train_speed(iter/s)": 0.447782
+    },
+    {
+      "acc": 0.65994129,
+      "epoch": 1.1208777270421106,
+      "grad_norm": 4.5625,
+      "learning_rate": 4.41536950106901e-06,
+      "loss": 1.58942909,
+      "memory(GiB)": 111.15,
+      "step": 44185,
+      "train_speed(iter/s)": 0.447809
+    },
+    {
+      "acc": 0.66450405,
+      "epoch": 1.1210045662100456,
+      "grad_norm": 6.0625,
+      "learning_rate": 4.414328083164931e-06,
+      "loss": 1.5735651,
+      "memory(GiB)": 111.15,
+      "step": 44190,
+      "train_speed(iter/s)": 0.447835
+    },
+    {
+      "acc": 0.6425241,
+      "epoch": 1.1211314053779806,
+      "grad_norm": 5.1875,
+      "learning_rate": 4.4132866910213154e-06,
+      "loss": 1.68819065,
+      "memory(GiB)": 111.15,
+      "step": 44195,
+      "train_speed(iter/s)": 0.447861
+    },
+    {
+      "acc": 0.65582895,
+      "epoch": 1.1212582445459158,
+      "grad_norm": 5.28125,
+      "learning_rate": 4.41224532468397e-06,
+      "loss": 1.52001848,
+      "memory(GiB)": 111.15,
+      "step": 44200,
+      "train_speed(iter/s)": 0.447888
+    },
+    {
+      "epoch": 1.1212582445459158,
+      "eval_acc": 0.6433754428855689,
+      "eval_loss": 1.6078749895095825,
+      "eval_runtime": 115.018,
+      "eval_samples_per_second": 55.383,
+      "eval_steps_per_second": 27.691,
+      "step": 44200
+    },
+    {
+      "acc": 0.65578642,
+      "epoch": 1.1213850837138508,
+      "grad_norm": 5.65625,
+      "learning_rate": 4.411203984198701e-06,
+      "loss": 1.64828663,
+      "memory(GiB)": 111.15,
+      "step": 44205,
+      "train_speed(iter/s)": 0.447372
+    },
+    {
+      "acc": 0.63984108,
+      "epoch": 1.1215119228817858,
+      "grad_norm": 4.28125,
+      "learning_rate": 4.41016266961131e-06,
+      "loss": 1.61994762,
+      "memory(GiB)": 111.15,
+      "step": 44210,
+      "train_speed(iter/s)": 0.447398
+    },
+    {
+      "acc": 0.64766026,
+      "epoch": 1.121638762049721,
+      "grad_norm": 7.59375,
+      "learning_rate": 4.409121380967597e-06,
+      "loss": 1.66457253,
+      "memory(GiB)": 111.15,
+      "step": 44215,
+      "train_speed(iter/s)": 0.447425
+    },
+    {
+      "acc": 0.66569662,
+      "epoch": 1.121765601217656,
+      "grad_norm": 7.625,
+      "learning_rate": 4.408080118313364e-06,
+      "loss": 1.60522537,
+      "memory(GiB)": 111.15,
+      "step": 44220,
+      "train_speed(iter/s)": 0.447451
+    },
+    {
+      "acc": 0.64866714,
+      "epoch": 1.121892440385591,
+      "grad_norm": 6.125,
+      "learning_rate": 4.40703888169441e-06,
+      "loss": 1.65662689,
+      "memory(GiB)": 111.15,
+      "step": 44225,
+      "train_speed(iter/s)": 0.447478
+    },
+    {
+      "acc": 0.65370255,
+      "epoch": 1.1220192795535262,
+      "grad_norm": 5.40625,
+      "learning_rate": 4.4059976711565355e-06,
+      "loss": 1.55274525,
+      "memory(GiB)": 111.15,
+      "step": 44230,
+      "train_speed(iter/s)": 0.447504
+    },
+    {
+      "acc": 0.64949899,
+      "epoch": 1.1221461187214612,
+      "grad_norm": 5.5625,
+      "learning_rate": 4.404956486745532e-06,
+      "loss": 1.6032217,
+      "memory(GiB)": 111.15,
+      "step": 44235,
+      "train_speed(iter/s)": 0.447531
+    },
+    {
+      "acc": 0.64297504,
+      "epoch": 1.1222729578893962,
+      "grad_norm": 6.625,
+      "learning_rate": 4.403915328507201e-06,
+      "loss": 1.66941166,
+      "memory(GiB)": 111.15,
+      "step": 44240,
+      "train_speed(iter/s)": 0.447558
+    },
+    {
+      "acc": 0.64786777,
+      "epoch": 1.1223997970573314,
+      "grad_norm": 5.125,
+      "learning_rate": 4.4028741964873334e-06,
+      "loss": 1.60844574,
+      "memory(GiB)": 111.15,
+      "step": 44245,
+      "train_speed(iter/s)": 0.447585
+    },
+    {
+      "acc": 0.63982377,
+      "epoch": 1.1225266362252664,
+      "grad_norm": 6.6875,
+      "learning_rate": 4.4018330907317275e-06,
+      "loss": 1.61652489,
+      "memory(GiB)": 111.15,
+      "step": 44250,
+      "train_speed(iter/s)": 0.447611
+    },
+    {
+      "acc": 0.63406534,
+      "epoch": 1.1226534753932014,
+      "grad_norm": 5.375,
+      "learning_rate": 4.400792011286171e-06,
+      "loss": 1.74306545,
+      "memory(GiB)": 111.15,
+      "step": 44255,
+      "train_speed(iter/s)": 0.447638
+    },
+    {
+      "acc": 0.66363192,
+      "epoch": 1.1227803145611364,
+      "grad_norm": 5.21875,
+      "learning_rate": 4.3997509581964566e-06,
+      "loss": 1.59445553,
+      "memory(GiB)": 111.15,
+      "step": 44260,
+      "train_speed(iter/s)": 0.447664
+    },
+    {
+      "acc": 0.6495513,
+      "epoch": 1.1229071537290716,
+      "grad_norm": 5.5,
+      "learning_rate": 4.398709931508376e-06,
+      "loss": 1.56180058,
+      "memory(GiB)": 111.15,
+      "step": 44265,
+      "train_speed(iter/s)": 0.447691
+    },
+    {
+      "acc": 0.65189104,
+      "epoch": 1.1230339928970066,
+      "grad_norm": 6.375,
+      "learning_rate": 4.397668931267718e-06,
+      "loss": 1.54950695,
+      "memory(GiB)": 111.15,
+      "step": 44270,
+      "train_speed(iter/s)": 0.447717
+    },
+    {
+      "acc": 0.65029039,
+      "epoch": 1.1231608320649416,
+      "grad_norm": 5.125,
+      "learning_rate": 4.396627957520269e-06,
+      "loss": 1.65279121,
+      "memory(GiB)": 111.15,
+      "step": 44275,
+      "train_speed(iter/s)": 0.447743
+    },
+    {
+      "acc": 0.634725,
+      "epoch": 1.1232876712328768,
+      "grad_norm": 5.5,
+      "learning_rate": 4.395587010311815e-06,
+      "loss": 1.65929642,
+      "memory(GiB)": 111.15,
+      "step": 44280,
+      "train_speed(iter/s)": 0.44777
+    },
+    {
+      "acc": 0.65903997,
+      "epoch": 1.1234145104008117,
+      "grad_norm": 4.875,
+      "learning_rate": 4.394546089688143e-06,
+      "loss": 1.60289326,
+      "memory(GiB)": 111.15,
+      "step": 44285,
+      "train_speed(iter/s)": 0.447796
+    },
+    {
+      "acc": 0.65372772,
+      "epoch": 1.1235413495687467,
+      "grad_norm": 6.46875,
+      "learning_rate": 4.3935051956950395e-06,
+      "loss": 1.63487148,
+      "memory(GiB)": 111.15,
+      "step": 44290,
+      "train_speed(iter/s)": 0.447823
+    },
+    {
+      "acc": 0.64541187,
+      "epoch": 1.123668188736682,
+      "grad_norm": 5.21875,
+      "learning_rate": 4.3924643283782824e-06,
+      "loss": 1.63864079,
+      "memory(GiB)": 111.15,
+      "step": 44295,
+      "train_speed(iter/s)": 0.447849
+    },
+    {
+      "acc": 0.65878868,
+      "epoch": 1.123795027904617,
+      "grad_norm": 6.15625,
+      "learning_rate": 4.391423487783657e-06,
+      "loss": 1.60517616,
+      "memory(GiB)": 111.15,
+      "step": 44300,
+      "train_speed(iter/s)": 0.447875
+    },
+    {
+      "epoch": 1.123795027904617,
+      "eval_acc": 0.6433595677278096,
+      "eval_loss": 1.6079118251800537,
+      "eval_runtime": 115.0935,
+      "eval_samples_per_second": 55.346,
+      "eval_steps_per_second": 27.673,
+      "step": 44300
+    },
+    {
+      "acc": 0.65777192,
+      "epoch": 1.123921867072552,
+      "grad_norm": 5.71875,
+      "learning_rate": 4.3903826739569444e-06,
+      "loss": 1.60267563,
+      "memory(GiB)": 111.15,
+      "step": 44305,
+      "train_speed(iter/s)": 0.44736
+    },
+    {
+      "acc": 0.66067238,
+      "epoch": 1.1240487062404871,
+      "grad_norm": 5.875,
+      "learning_rate": 4.389341886943926e-06,
+      "loss": 1.59889183,
+      "memory(GiB)": 111.15,
+      "step": 44310,
+      "train_speed(iter/s)": 0.447386
+    },
+    {
+      "acc": 0.64479022,
+      "epoch": 1.1241755454084221,
+      "grad_norm": 5.46875,
+      "learning_rate": 4.388301126790374e-06,
+      "loss": 1.63187466,
+      "memory(GiB)": 111.15,
+      "step": 44315,
+      "train_speed(iter/s)": 0.447413
+    },
+    {
+      "acc": 0.6545929,
+      "epoch": 1.1243023845763571,
+      "grad_norm": 5.5,
+      "learning_rate": 4.387260393542071e-06,
+      "loss": 1.64414196,
+      "memory(GiB)": 111.15,
+      "step": 44320,
+      "train_speed(iter/s)": 0.447439
+    },
+    {
+      "acc": 0.64408798,
+      "epoch": 1.1244292237442923,
+      "grad_norm": 5.28125,
+      "learning_rate": 4.38621968724479e-06,
+      "loss": 1.70518379,
+      "memory(GiB)": 111.15,
+      "step": 44325,
+      "train_speed(iter/s)": 0.447465
+    },
+    {
+      "acc": 0.64886532,
+      "epoch": 1.1245560629122273,
+      "grad_norm": 5.25,
+      "learning_rate": 4.385179007944311e-06,
+      "loss": 1.58664742,
+      "memory(GiB)": 111.15,
+      "step": 44330,
+      "train_speed(iter/s)": 0.447491
+    },
+    {
+      "acc": 0.64567008,
+      "epoch": 1.1246829020801623,
+      "grad_norm": 7.34375,
+      "learning_rate": 4.384138355686402e-06,
+      "loss": 1.67950497,
+      "memory(GiB)": 111.15,
+      "step": 44335,
+      "train_speed(iter/s)": 0.447518
+    },
+    {
+      "acc": 0.63414545,
+      "epoch": 1.1248097412480975,
+      "grad_norm": 5.21875,
+      "learning_rate": 4.383097730516837e-06,
+      "loss": 1.66204834,
+      "memory(GiB)": 111.15,
+      "step": 44340,
+      "train_speed(iter/s)": 0.447544
+    },
+    {
+      "acc": 0.66399784,
+      "epoch": 1.1249365804160325,
+      "grad_norm": 5.5,
+      "learning_rate": 4.382057132481389e-06,
+      "loss": 1.58795309,
+      "memory(GiB)": 111.15,
+      "step": 44345,
+      "train_speed(iter/s)": 0.447571
+    },
+    {
+      "acc": 0.64943981,
+      "epoch": 1.1250634195839675,
+      "grad_norm": 6.3125,
+      "learning_rate": 4.381016561625829e-06,
+      "loss": 1.55676098,
+      "memory(GiB)": 111.15,
+      "step": 44350,
+      "train_speed(iter/s)": 0.447597
+    },
+    {
+      "acc": 0.64191642,
+      "epoch": 1.1251902587519025,
+      "grad_norm": 5.84375,
+      "learning_rate": 4.379976017995922e-06,
+      "loss": 1.70260162,
+      "memory(GiB)": 111.15,
+      "step": 44355,
+      "train_speed(iter/s)": 0.447623
+    },
+    {
+      "acc": 0.6549799,
+      "epoch": 1.1253170979198377,
+      "grad_norm": 6.15625,
+      "learning_rate": 4.378935501637438e-06,
+      "loss": 1.65214729,
+      "memory(GiB)": 111.15,
+      "step": 44360,
+      "train_speed(iter/s)": 0.44765
+    },
+    {
+      "acc": 0.65513363,
+      "epoch": 1.1254439370877727,
+      "grad_norm": 5.5625,
+      "learning_rate": 4.377895012596144e-06,
+      "loss": 1.59331493,
+      "memory(GiB)": 111.15,
+      "step": 44365,
+      "train_speed(iter/s)": 0.447677
+    },
+    {
+      "acc": 0.64305301,
+      "epoch": 1.1255707762557077,
+      "grad_norm": 5.40625,
+      "learning_rate": 4.376854550917805e-06,
+      "loss": 1.67815609,
+      "memory(GiB)": 111.15,
+      "step": 44370,
+      "train_speed(iter/s)": 0.447703
+    },
+    {
+      "acc": 0.64244843,
+      "epoch": 1.1256976154236429,
+      "grad_norm": 5.40625,
+      "learning_rate": 4.375814116648184e-06,
+      "loss": 1.67063408,
+      "memory(GiB)": 111.15,
+      "step": 44375,
+      "train_speed(iter/s)": 0.44773
+    },
+    {
+      "acc": 0.65648556,
+      "epoch": 1.1258244545915779,
+      "grad_norm": 4.6875,
+      "learning_rate": 4.374773709833045e-06,
+      "loss": 1.6102253,
+      "memory(GiB)": 111.15,
+      "step": 44380,
+      "train_speed(iter/s)": 0.447756
+    },
+    {
+      "acc": 0.66167498,
+      "epoch": 1.1259512937595129,
+      "grad_norm": 7.03125,
+      "learning_rate": 4.37373333051815e-06,
+      "loss": 1.6173193,
+      "memory(GiB)": 111.15,
+      "step": 44385,
+      "train_speed(iter/s)": 0.447782
+    },
+    {
+      "acc": 0.63655729,
+      "epoch": 1.126078132927448,
+      "grad_norm": 5.34375,
+      "learning_rate": 4.37269297874926e-06,
+      "loss": 1.70184288,
+      "memory(GiB)": 111.15,
+      "step": 44390,
+      "train_speed(iter/s)": 0.447809
+    },
+    {
+      "acc": 0.64288807,
+      "epoch": 1.126204972095383,
+      "grad_norm": 5.28125,
+      "learning_rate": 4.371652654572134e-06,
+      "loss": 1.70077591,
+      "memory(GiB)": 111.15,
+      "step": 44395,
+      "train_speed(iter/s)": 0.447835
+    },
+    {
+      "acc": 0.65500755,
+      "epoch": 1.126331811263318,
+      "grad_norm": 5.40625,
+      "learning_rate": 4.370612358032529e-06,
+      "loss": 1.57173691,
+      "memory(GiB)": 111.15,
+      "step": 44400,
+      "train_speed(iter/s)": 0.447861
+    },
+    {
+      "epoch": 1.126331811263318,
+      "eval_acc": 0.6433712652124743,
+      "eval_loss": 1.6079192161560059,
+      "eval_runtime": 114.13,
+      "eval_samples_per_second": 55.814,
+      "eval_steps_per_second": 27.907,
+      "step": 44400
+    },
+    {
+      "acc": 0.65262108,
+      "epoch": 1.1264586504312533,
+      "grad_norm": 6.5625,
+      "learning_rate": 4.369572089176201e-06,
+      "loss": 1.56066046,
+      "memory(GiB)": 111.15,
+      "step": 44405,
+      "train_speed(iter/s)": 0.447352
+    },
+    {
+      "acc": 0.64441929,
+      "epoch": 1.1265854895991883,
+      "grad_norm": 6.03125,
+      "learning_rate": 4.3685318480489095e-06,
+      "loss": 1.62346668,
+      "memory(GiB)": 111.15,
+      "step": 44410,
+      "train_speed(iter/s)": 0.447378
+    },
+    {
+      "acc": 0.66127205,
+      "epoch": 1.1267123287671232,
+      "grad_norm": 5.71875,
+      "learning_rate": 4.367491634696405e-06,
+      "loss": 1.56290569,
+      "memory(GiB)": 111.15,
+      "step": 44415,
+      "train_speed(iter/s)": 0.447405
+    },
+    {
+      "acc": 0.6432724,
+      "epoch": 1.1268391679350582,
+      "grad_norm": 6.28125,
+      "learning_rate": 4.366451449164442e-06,
+      "loss": 1.6180481,
+      "memory(GiB)": 111.15,
+      "step": 44420,
+      "train_speed(iter/s)": 0.447431
+    },
+    {
+      "acc": 0.65104713,
+      "epoch": 1.1269660071029934,
+      "grad_norm": 4.84375,
+      "learning_rate": 4.365411291498774e-06,
+      "loss": 1.63149815,
+      "memory(GiB)": 111.15,
+      "step": 44425,
+      "train_speed(iter/s)": 0.447458
+    },
+    {
+      "acc": 0.64610243,
+      "epoch": 1.1270928462709284,
+      "grad_norm": 5.6875,
+      "learning_rate": 4.364371161745151e-06,
+      "loss": 1.68140335,
+      "memory(GiB)": 111.15,
+      "step": 44430,
+      "train_speed(iter/s)": 0.447484
+    },
+    {
+      "acc": 0.6367178,
+      "epoch": 1.1272196854388636,
+      "grad_norm": 5.1875,
+      "learning_rate": 4.363331059949321e-06,
+      "loss": 1.64778919,
+      "memory(GiB)": 111.15,
+      "step": 44435,
+      "train_speed(iter/s)": 0.447511
+    },
+    {
+      "acc": 0.65939946,
+      "epoch": 1.1273465246067986,
+      "grad_norm": 4.9375,
+      "learning_rate": 4.362290986157034e-06,
+      "loss": 1.61843014,
+      "memory(GiB)": 111.15,
+      "step": 44440,
+      "train_speed(iter/s)": 0.447537
+    },
+    {
+      "acc": 0.64637117,
+      "epoch": 1.1274733637747336,
+      "grad_norm": 5.40625,
+      "learning_rate": 4.361250940414036e-06,
+      "loss": 1.63354836,
+      "memory(GiB)": 111.15,
+      "step": 44445,
+      "train_speed(iter/s)": 0.447564
+    },
+    {
+      "acc": 0.64943676,
+      "epoch": 1.1276002029426686,
+      "grad_norm": 5.96875,
+      "learning_rate": 4.360210922766076e-06,
+      "loss": 1.5989336,
+      "memory(GiB)": 111.15,
+      "step": 44450,
+      "train_speed(iter/s)": 0.44759
+    },
+    {
+      "acc": 0.62589984,
+      "epoch": 1.1277270421106038,
+      "grad_norm": 5.375,
+      "learning_rate": 4.359170933258893e-06,
+      "loss": 1.70158501,
+      "memory(GiB)": 111.15,
+      "step": 44455,
+      "train_speed(iter/s)": 0.447617
+    },
+    {
+      "acc": 0.66030955,
+      "epoch": 1.1278538812785388,
+      "grad_norm": 5.15625,
+      "learning_rate": 4.358130971938235e-06,
+      "loss": 1.59031773,
+      "memory(GiB)": 111.15,
+      "step": 44460,
+      "train_speed(iter/s)": 0.447643
+    },
+    {
+      "acc": 0.64051161,
+      "epoch": 1.1279807204464738,
+      "grad_norm": 5.125,
+      "learning_rate": 4.357091038849841e-06,
+      "loss": 1.66350937,
+      "memory(GiB)": 111.15,
+      "step": 44465,
+      "train_speed(iter/s)": 0.44767
+    },
+    {
+      "acc": 0.65867968,
+      "epoch": 1.128107559614409,
+      "grad_norm": 5.46875,
+      "learning_rate": 4.356051134039455e-06,
+      "loss": 1.6016777,
+      "memory(GiB)": 111.15,
+      "step": 44470,
+      "train_speed(iter/s)": 0.447696
+    },
+    {
+      "acc": 0.66057205,
+      "epoch": 1.128234398782344,
+      "grad_norm": 4.875,
+      "learning_rate": 4.3550112575528155e-06,
+      "loss": 1.59703064,
+      "memory(GiB)": 111.15,
+      "step": 44475,
+      "train_speed(iter/s)": 0.447723
+    },
+    {
+      "acc": 0.66386662,
+      "epoch": 1.128361237950279,
+      "grad_norm": 4.9375,
+      "learning_rate": 4.353971409435659e-06,
+      "loss": 1.52899818,
+      "memory(GiB)": 111.15,
+      "step": 44480,
+      "train_speed(iter/s)": 0.447749
+    },
+    {
+      "acc": 0.65949125,
+      "epoch": 1.1284880771182142,
+      "grad_norm": 6.21875,
+      "learning_rate": 4.352931589733725e-06,
+      "loss": 1.57208672,
+      "memory(GiB)": 111.15,
+      "step": 44485,
+      "train_speed(iter/s)": 0.447776
+    },
+    {
+      "acc": 0.6396142,
+      "epoch": 1.1286149162861492,
+      "grad_norm": 7.25,
+      "learning_rate": 4.35189179849275e-06,
+      "loss": 1.66934242,
+      "memory(GiB)": 111.15,
+      "step": 44490,
+      "train_speed(iter/s)": 0.447803
+    },
+    {
+      "acc": 0.65546818,
+      "epoch": 1.1287417554540842,
+      "grad_norm": 5.09375,
+      "learning_rate": 4.350852035758466e-06,
+      "loss": 1.70654545,
+      "memory(GiB)": 111.15,
+      "step": 44495,
+      "train_speed(iter/s)": 0.447829
+    },
+    {
+      "acc": 0.63755651,
+      "epoch": 1.1288685946220194,
+      "grad_norm": 4.4375,
+      "learning_rate": 4.3498123015766066e-06,
+      "loss": 1.65399857,
+      "memory(GiB)": 111.15,
+      "step": 44500,
+      "train_speed(iter/s)": 0.447856
+    },
+    {
+      "epoch": 1.1288685946220194,
+      "eval_acc": 0.64337460735095,
+      "eval_loss": 1.6078941822052002,
+      "eval_runtime": 114.7377,
+      "eval_samples_per_second": 55.518,
+      "eval_steps_per_second": 27.759,
+      "step": 44500
+    },
+    {
+      "acc": 0.66181526,
+      "epoch": 1.1289954337899544,
+      "grad_norm": 6.71875,
+      "learning_rate": 4.348772595992906e-06,
+      "loss": 1.59675512,
+      "memory(GiB)": 111.15,
+      "step": 44505,
+      "train_speed(iter/s)": 0.447345
+    },
+    {
+      "acc": 0.63864489,
+      "epoch": 1.1291222729578894,
+      "grad_norm": 5.46875,
+      "learning_rate": 4.347732919053096e-06,
+      "loss": 1.60583763,
+      "memory(GiB)": 111.15,
+      "step": 44510,
+      "train_speed(iter/s)": 0.447371
+    },
+    {
+      "acc": 0.64036913,
+      "epoch": 1.1292491121258244,
+      "grad_norm": 5.1875,
+      "learning_rate": 4.346693270802902e-06,
+      "loss": 1.66709995,
+      "memory(GiB)": 111.15,
+      "step": 44515,
+      "train_speed(iter/s)": 0.447397
+    },
+    {
+      "acc": 0.65434275,
+      "epoch": 1.1293759512937596,
+      "grad_norm": 5.0625,
+      "learning_rate": 4.345653651288055e-06,
+      "loss": 1.57456503,
+      "memory(GiB)": 111.15,
+      "step": 44520,
+      "train_speed(iter/s)": 0.447423
+    },
+    {
+      "acc": 0.64219542,
+      "epoch": 1.1295027904616946,
+      "grad_norm": 5.84375,
+      "learning_rate": 4.344614060554281e-06,
+      "loss": 1.59333324,
+      "memory(GiB)": 111.15,
+      "step": 44525,
+      "train_speed(iter/s)": 0.447449
+    },
+    {
+      "acc": 0.65165234,
+      "epoch": 1.1296296296296295,
+      "grad_norm": 5.3125,
+      "learning_rate": 4.343574498647311e-06,
+      "loss": 1.62638092,
+      "memory(GiB)": 111.15,
+      "step": 44530,
+      "train_speed(iter/s)": 0.447476
+    },
+    {
+      "acc": 0.65469542,
+      "epoch": 1.1297564687975648,
+      "grad_norm": 5.28125,
+      "learning_rate": 4.342534965612861e-06,
+      "loss": 1.57522259,
+      "memory(GiB)": 111.15,
+      "step": 44535,
+      "train_speed(iter/s)": 0.447502
+    },
+    {
+      "acc": 0.64744778,
+      "epoch": 1.1298833079654997,
+      "grad_norm": 5.65625,
+      "learning_rate": 4.34149546149666e-06,
+      "loss": 1.59292679,
+      "memory(GiB)": 111.15,
+      "step": 44540,
+      "train_speed(iter/s)": 0.447528
+    },
+    {
+      "acc": 0.65541029,
+      "epoch": 1.1300101471334347,
+      "grad_norm": 5.1875,
+      "learning_rate": 4.340455986344428e-06,
+      "loss": 1.67056522,
+      "memory(GiB)": 111.15,
+      "step": 44545,
+      "train_speed(iter/s)": 0.447554
+    },
+    {
+      "acc": 0.65752726,
+      "epoch": 1.13013698630137,
+      "grad_norm": 5.4375,
+      "learning_rate": 4.3394165402018875e-06,
+      "loss": 1.61908607,
+      "memory(GiB)": 111.15,
+      "step": 44550,
+      "train_speed(iter/s)": 0.447581
+    },
+    {
+      "acc": 0.64977808,
+      "epoch": 1.130263825469305,
+      "grad_norm": 5.40625,
+      "learning_rate": 4.338377123114757e-06,
+      "loss": 1.6142868,
+      "memory(GiB)": 111.15,
+      "step": 44555,
+      "train_speed(iter/s)": 0.447607
+    },
+    {
+      "acc": 0.6419672,
+      "epoch": 1.13039066463724,
+      "grad_norm": 4.875,
+      "learning_rate": 4.337337735128752e-06,
+      "loss": 1.67025986,
+      "memory(GiB)": 111.15,
+      "step": 44560,
+      "train_speed(iter/s)": 0.447634
+    },
+    {
+      "acc": 0.65293622,
+      "epoch": 1.1305175038051751,
+      "grad_norm": 4.15625,
+      "learning_rate": 4.336298376289594e-06,
+      "loss": 1.6309948,
+      "memory(GiB)": 111.15,
+      "step": 44565,
+      "train_speed(iter/s)": 0.44766
+    },
+    {
+      "acc": 0.63311815,
+      "epoch": 1.1306443429731101,
+      "grad_norm": 5.96875,
+      "learning_rate": 4.335259046642998e-06,
+      "loss": 1.68553944,
+      "memory(GiB)": 111.15,
+      "step": 44570,
+      "train_speed(iter/s)": 0.447687
+    },
+    {
+      "acc": 0.6459197,
+      "epoch": 1.130771182141045,
+      "grad_norm": 4.59375,
+      "learning_rate": 4.334219746234675e-06,
+      "loss": 1.63104992,
+      "memory(GiB)": 111.15,
+      "step": 44575,
+      "train_speed(iter/s)": 0.447713
+    },
+    {
+      "acc": 0.64463377,
+      "epoch": 1.13089802130898,
+      "grad_norm": 5.21875,
+      "learning_rate": 4.3331804751103395e-06,
+      "loss": 1.61752815,
+      "memory(GiB)": 111.15,
+      "step": 44580,
+      "train_speed(iter/s)": 0.44774
+    },
+    {
+      "acc": 0.6461257,
+      "epoch": 1.1310248604769153,
+      "grad_norm": 6.40625,
+      "learning_rate": 4.332141233315705e-06,
+      "loss": 1.62877007,
+      "memory(GiB)": 111.15,
+      "step": 44585,
+      "train_speed(iter/s)": 0.447766
+    },
+    {
+      "acc": 0.65750513,
+      "epoch": 1.1311516996448503,
+      "grad_norm": 5.0,
+      "learning_rate": 4.331102020896482e-06,
+      "loss": 1.64890251,
+      "memory(GiB)": 111.15,
+      "step": 44590,
+      "train_speed(iter/s)": 0.447793
+    },
+    {
+      "acc": 0.66294122,
+      "epoch": 1.1312785388127855,
+      "grad_norm": 6.28125,
+      "learning_rate": 4.330062837898376e-06,
+      "loss": 1.55516186,
+      "memory(GiB)": 111.15,
+      "step": 44595,
+      "train_speed(iter/s)": 0.44782
+    },
+    {
+      "acc": 0.64195776,
+      "epoch": 1.1314053779807205,
+      "grad_norm": 5.3125,
+      "learning_rate": 4.3290236843670985e-06,
+      "loss": 1.65180855,
+      "memory(GiB)": 111.15,
+      "step": 44600,
+      "train_speed(iter/s)": 0.447847
+    },
+    {
+      "epoch": 1.1314053779807205,
+      "eval_acc": 0.6433232219718867,
+      "eval_loss": 1.607893705368042,
+      "eval_runtime": 113.6202,
+      "eval_samples_per_second": 56.064,
+      "eval_steps_per_second": 28.032,
+      "step": 44600
+    },
+    {
+      "acc": 0.65265818,
+      "epoch": 1.1315322171486555,
+      "grad_norm": 5.40625,
+      "learning_rate": 4.327984560348354e-06,
+      "loss": 1.64216805,
+      "memory(GiB)": 111.15,
+      "step": 44605,
+      "train_speed(iter/s)": 0.447342
+    },
+    {
+      "acc": 0.66440697,
+      "epoch": 1.1316590563165905,
+      "grad_norm": 5.0,
+      "learning_rate": 4.3269454658878516e-06,
+      "loss": 1.60079765,
+      "memory(GiB)": 111.15,
+      "step": 44610,
+      "train_speed(iter/s)": 0.447368
+    },
+    {
+      "acc": 0.66019144,
+      "epoch": 1.1317858954845257,
+      "grad_norm": 4.84375,
+      "learning_rate": 4.325906401031291e-06,
+      "loss": 1.63402786,
+      "memory(GiB)": 111.15,
+      "step": 44615,
+      "train_speed(iter/s)": 0.447395
+    },
+    {
+      "acc": 0.65743327,
+      "epoch": 1.1319127346524607,
+      "grad_norm": 5.65625,
+      "learning_rate": 4.324867365824376e-06,
+      "loss": 1.58513508,
+      "memory(GiB)": 111.15,
+      "step": 44620,
+      "train_speed(iter/s)": 0.447421
+    },
+    {
+      "acc": 0.65438323,
+      "epoch": 1.1320395738203957,
+      "grad_norm": 5.40625,
+      "learning_rate": 4.323828360312809e-06,
+      "loss": 1.63268127,
+      "memory(GiB)": 111.15,
+      "step": 44625,
+      "train_speed(iter/s)": 0.447448
+    },
+    {
+      "acc": 0.65129538,
+      "epoch": 1.1321664129883309,
+      "grad_norm": 5.53125,
+      "learning_rate": 4.32278938454229e-06,
+      "loss": 1.58695202,
+      "memory(GiB)": 111.15,
+      "step": 44630,
+      "train_speed(iter/s)": 0.447474
+    },
+    {
+      "acc": 0.656599,
+      "epoch": 1.1322932521562659,
+      "grad_norm": 6.21875,
+      "learning_rate": 4.321750438558517e-06,
+      "loss": 1.54436321,
+      "memory(GiB)": 111.15,
+      "step": 44635,
+      "train_speed(iter/s)": 0.447501
+    },
+    {
+      "acc": 0.64657326,
+      "epoch": 1.1324200913242009,
+      "grad_norm": 5.03125,
+      "learning_rate": 4.3207115224071874e-06,
+      "loss": 1.54409609,
+      "memory(GiB)": 111.15,
+      "step": 44640,
+      "train_speed(iter/s)": 0.447527
+    },
+    {
+      "acc": 0.63263578,
+      "epoch": 1.132546930492136,
+      "grad_norm": 5.25,
+      "learning_rate": 4.319672636133998e-06,
+      "loss": 1.68333588,
+      "memory(GiB)": 111.15,
+      "step": 44645,
+      "train_speed(iter/s)": 0.447553
+    },
+    {
+      "acc": 0.6551465,
+      "epoch": 1.132673769660071,
+      "grad_norm": 5.6875,
+      "learning_rate": 4.318633779784646e-06,
+      "loss": 1.65211239,
+      "memory(GiB)": 111.15,
+      "step": 44650,
+      "train_speed(iter/s)": 0.44758
+    },
+    {
+      "acc": 0.64118099,
+      "epoch": 1.132800608828006,
+      "grad_norm": 5.34375,
+      "learning_rate": 4.317594953404818e-06,
+      "loss": 1.66570492,
+      "memory(GiB)": 111.15,
+      "step": 44655,
+      "train_speed(iter/s)": 0.447606
+    },
+    {
+      "acc": 0.65399265,
+      "epoch": 1.1329274479959413,
+      "grad_norm": 4.46875,
+      "learning_rate": 4.316556157040213e-06,
+      "loss": 1.59479761,
+      "memory(GiB)": 111.15,
+      "step": 44660,
+      "train_speed(iter/s)": 0.447633
+    },
+    {
+      "acc": 0.63089466,
+      "epoch": 1.1330542871638762,
+      "grad_norm": 5.28125,
+      "learning_rate": 4.315517390736519e-06,
+      "loss": 1.65857143,
+      "memory(GiB)": 111.15,
+      "step": 44665,
+      "train_speed(iter/s)": 0.44766
+    },
+    {
+      "acc": 0.64124131,
+      "epoch": 1.1331811263318112,
+      "grad_norm": 4.34375,
+      "learning_rate": 4.314478654539429e-06,
+      "loss": 1.60869389,
+      "memory(GiB)": 111.15,
+      "step": 44670,
+      "train_speed(iter/s)": 0.447661
+    },
+    {
+      "acc": 0.64692812,
+      "epoch": 1.1333079654997462,
+      "grad_norm": 4.875,
+      "learning_rate": 4.313439948494625e-06,
+      "loss": 1.64736538,
+      "memory(GiB)": 111.15,
+      "step": 44675,
+      "train_speed(iter/s)": 0.447687
+    },
+    {
+      "acc": 0.65326467,
+      "epoch": 1.1334348046676814,
+      "grad_norm": 6.53125,
+      "learning_rate": 4.312401272647799e-06,
+      "loss": 1.59976978,
+      "memory(GiB)": 111.15,
+      "step": 44680,
+      "train_speed(iter/s)": 0.447714
+    },
+    {
+      "acc": 0.64872317,
+      "epoch": 1.1335616438356164,
+      "grad_norm": 5.125,
+      "learning_rate": 4.311362627044633e-06,
+      "loss": 1.60678692,
+      "memory(GiB)": 111.15,
+      "step": 44685,
+      "train_speed(iter/s)": 0.44774
+    },
+    {
+      "acc": 0.65031595,
+      "epoch": 1.1336884830035514,
+      "grad_norm": 5.71875,
+      "learning_rate": 4.310324011730816e-06,
+      "loss": 1.62481575,
+      "memory(GiB)": 111.15,
+      "step": 44690,
+      "train_speed(iter/s)": 0.447766
+    },
+    {
+      "acc": 0.64237304,
+      "epoch": 1.1338153221714866,
+      "grad_norm": 5.5,
+      "learning_rate": 4.309285426752027e-06,
+      "loss": 1.66444435,
+      "memory(GiB)": 111.15,
+      "step": 44695,
+      "train_speed(iter/s)": 0.447793
+    },
+    {
+      "acc": 0.65581474,
+      "epoch": 1.1339421613394216,
+      "grad_norm": 5.375,
+      "learning_rate": 4.308246872153947e-06,
+      "loss": 1.6261097,
+      "memory(GiB)": 111.15,
+      "step": 44700,
+      "train_speed(iter/s)": 0.447819
+    },
+    {
+      "epoch": 1.1339421613394216,
+      "eval_acc": 0.6433420215008123,
+      "eval_loss": 1.6078213453292847,
+      "eval_runtime": 115.0178,
+      "eval_samples_per_second": 55.383,
+      "eval_steps_per_second": 27.691,
+      "step": 44700
+    },
+    {
+      "acc": 0.65990391,
+      "epoch": 1.1340690005073566,
+      "grad_norm": 4.90625,
+      "learning_rate": 4.307208347982259e-06,
+      "loss": 1.52997751,
+      "memory(GiB)": 111.15,
+      "step": 44705,
+      "train_speed(iter/s)": 0.447309
+    },
+    {
+      "acc": 0.66295257,
+      "epoch": 1.1341958396752918,
+      "grad_norm": 5.5625,
+      "learning_rate": 4.306169854282643e-06,
+      "loss": 1.55549612,
+      "memory(GiB)": 111.15,
+      "step": 44710,
+      "train_speed(iter/s)": 0.447336
+    },
+    {
+      "acc": 0.65863123,
+      "epoch": 1.1343226788432268,
+      "grad_norm": 6.1875,
+      "learning_rate": 4.305131391100773e-06,
+      "loss": 1.6091053,
+      "memory(GiB)": 111.15,
+      "step": 44715,
+      "train_speed(iter/s)": 0.447362
+    },
+    {
+      "acc": 0.66823378,
+      "epoch": 1.1344495180111618,
+      "grad_norm": 4.90625,
+      "learning_rate": 4.304092958482325e-06,
+      "loss": 1.57553587,
+      "memory(GiB)": 111.15,
+      "step": 44720,
+      "train_speed(iter/s)": 0.447388
+    },
+    {
+      "acc": 0.64841604,
+      "epoch": 1.134576357179097,
+      "grad_norm": 7.78125,
+      "learning_rate": 4.303054556472978e-06,
+      "loss": 1.60884628,
+      "memory(GiB)": 111.15,
+      "step": 44725,
+      "train_speed(iter/s)": 0.447415
+    },
+    {
+      "acc": 0.65681896,
+      "epoch": 1.134703196347032,
+      "grad_norm": 5.15625,
+      "learning_rate": 4.3020161851184036e-06,
+      "loss": 1.63113213,
+      "memory(GiB)": 111.15,
+      "step": 44730,
+      "train_speed(iter/s)": 0.447441
+    },
+    {
+      "acc": 0.64134669,
+      "epoch": 1.134830035514967,
+      "grad_norm": 5.84375,
+      "learning_rate": 4.300977844464273e-06,
+      "loss": 1.61652412,
+      "memory(GiB)": 111.15,
+      "step": 44735,
+      "train_speed(iter/s)": 0.447468
+    },
+    {
+      "acc": 0.65704737,
+      "epoch": 1.134956874682902,
+      "grad_norm": 5.65625,
+      "learning_rate": 4.2999395345562564e-06,
+      "loss": 1.57149048,
+      "memory(GiB)": 111.15,
+      "step": 44740,
+      "train_speed(iter/s)": 0.447494
+    },
+    {
+      "acc": 0.63782835,
+      "epoch": 1.1350837138508372,
+      "grad_norm": 7.21875,
+      "learning_rate": 4.298901255440025e-06,
+      "loss": 1.64432793,
+      "memory(GiB)": 111.15,
+      "step": 44745,
+      "train_speed(iter/s)": 0.447521
+    },
+    {
+      "acc": 0.64547672,
+      "epoch": 1.1352105530187722,
+      "grad_norm": 6.90625,
+      "learning_rate": 4.297863007161249e-06,
+      "loss": 1.64089737,
+      "memory(GiB)": 111.15,
+      "step": 44750,
+      "train_speed(iter/s)": 0.447547
+    },
+    {
+      "acc": 0.64888906,
+      "epoch": 1.1353373921867074,
+      "grad_norm": 4.625,
+      "learning_rate": 4.29682478976559e-06,
+      "loss": 1.56311178,
+      "memory(GiB)": 111.15,
+      "step": 44755,
+      "train_speed(iter/s)": 0.447574
+    },
+    {
+      "acc": 0.65365257,
+      "epoch": 1.1354642313546424,
+      "grad_norm": 5.71875,
+      "learning_rate": 4.295786603298717e-06,
+      "loss": 1.58876095,
+      "memory(GiB)": 111.15,
+      "step": 44760,
+      "train_speed(iter/s)": 0.447601
+    },
+    {
+      "acc": 0.65111709,
+      "epoch": 1.1355910705225774,
+      "grad_norm": 4.75,
+      "learning_rate": 4.294748447806293e-06,
+      "loss": 1.60851212,
+      "memory(GiB)": 111.15,
+      "step": 44765,
+      "train_speed(iter/s)": 0.447627
+    },
+    {
+      "acc": 0.65492334,
+      "epoch": 1.1357179096905123,
+      "grad_norm": 5.90625,
+      "learning_rate": 4.293710323333983e-06,
+      "loss": 1.60140438,
+      "memory(GiB)": 111.15,
+      "step": 44770,
+      "train_speed(iter/s)": 0.447654
+    },
+    {
+      "acc": 0.65428615,
+      "epoch": 1.1358447488584476,
+      "grad_norm": 5.4375,
+      "learning_rate": 4.292672229927445e-06,
+      "loss": 1.60452995,
+      "memory(GiB)": 111.15,
+      "step": 44775,
+      "train_speed(iter/s)": 0.44768
+    },
+    {
+      "acc": 0.66485419,
+      "epoch": 1.1359715880263825,
+      "grad_norm": 5.21875,
+      "learning_rate": 4.2916341676323386e-06,
+      "loss": 1.59235992,
+      "memory(GiB)": 111.15,
+      "step": 44780,
+      "train_speed(iter/s)": 0.447707
+    },
+    {
+      "acc": 0.66126938,
+      "epoch": 1.1360984271943175,
+      "grad_norm": 5.6875,
+      "learning_rate": 4.290596136494326e-06,
+      "loss": 1.5681448,
+      "memory(GiB)": 111.15,
+      "step": 44785,
+      "train_speed(iter/s)": 0.447733
+    },
+    {
+      "acc": 0.64210567,
+      "epoch": 1.1362252663622527,
+      "grad_norm": 6.8125,
+      "learning_rate": 4.289558136559063e-06,
+      "loss": 1.69922714,
+      "memory(GiB)": 111.15,
+      "step": 44790,
+      "train_speed(iter/s)": 0.44776
+    },
+    {
+      "acc": 0.64447508,
+      "epoch": 1.1363521055301877,
+      "grad_norm": 5.125,
+      "learning_rate": 4.288520167872203e-06,
+      "loss": 1.58402319,
+      "memory(GiB)": 111.15,
+      "step": 44795,
+      "train_speed(iter/s)": 0.447787
+    },
+    {
+      "acc": 0.63325844,
+      "epoch": 1.1364789446981227,
+      "grad_norm": 5.09375,
+      "learning_rate": 4.287482230479404e-06,
+      "loss": 1.70664062,
+      "memory(GiB)": 111.15,
+      "step": 44800,
+      "train_speed(iter/s)": 0.447813
+    },
+    {
+      "epoch": 1.1364789446981227,
+      "eval_acc": 0.6433457814065975,
+      "eval_loss": 1.6078972816467285,
+      "eval_runtime": 113.862,
+      "eval_samples_per_second": 55.945,
+      "eval_steps_per_second": 27.972,
+      "step": 44800
+    },
+    {
+      "acc": 0.63784957,
+      "epoch": 1.136605783866058,
+      "grad_norm": 6.03125,
+      "learning_rate": 4.286444324426318e-06,
+      "loss": 1.66635513,
+      "memory(GiB)": 111.15,
+      "step": 44805,
+      "train_speed(iter/s)": 0.44731
+    },
+    {
+      "acc": 0.65475955,
+      "epoch": 1.136732623033993,
+      "grad_norm": 4.9375,
+      "learning_rate": 4.2854064497585964e-06,
+      "loss": 1.60457191,
+      "memory(GiB)": 111.15,
+      "step": 44810,
+      "train_speed(iter/s)": 0.447336
+    },
+    {
+      "acc": 0.64360304,
+      "epoch": 1.136859462201928,
+      "grad_norm": 5.1875,
+      "learning_rate": 4.284368606521888e-06,
+      "loss": 1.66360283,
+      "memory(GiB)": 111.15,
+      "step": 44815,
+      "train_speed(iter/s)": 0.447362
+    },
+    {
+      "acc": 0.67575889,
+      "epoch": 1.1369863013698631,
+      "grad_norm": 4.84375,
+      "learning_rate": 4.283330794761845e-06,
+      "loss": 1.60619316,
+      "memory(GiB)": 111.15,
+      "step": 44820,
+      "train_speed(iter/s)": 0.447388
+    },
+    {
+      "acc": 0.65168228,
+      "epoch": 1.137113140537798,
+      "grad_norm": 4.84375,
+      "learning_rate": 4.282293014524112e-06,
+      "loss": 1.59728832,
+      "memory(GiB)": 111.15,
+      "step": 44825,
+      "train_speed(iter/s)": 0.447414
+    },
+    {
+      "acc": 0.64944725,
+      "epoch": 1.137239979705733,
+      "grad_norm": 4.6875,
+      "learning_rate": 4.281255265854338e-06,
+      "loss": 1.61133175,
+      "memory(GiB)": 111.15,
+      "step": 44830,
+      "train_speed(iter/s)": 0.447441
+    },
+    {
+      "acc": 0.65651388,
+      "epoch": 1.137366818873668,
+      "grad_norm": 4.71875,
+      "learning_rate": 4.280217548798166e-06,
+      "loss": 1.57524509,
+      "memory(GiB)": 111.15,
+      "step": 44835,
+      "train_speed(iter/s)": 0.447467
+    },
+    {
+      "acc": 0.64412088,
+      "epoch": 1.1374936580416033,
+      "grad_norm": 6.125,
+      "learning_rate": 4.279179863401239e-06,
+      "loss": 1.64911118,
+      "memory(GiB)": 111.15,
+      "step": 44840,
+      "train_speed(iter/s)": 0.447494
+    },
+    {
+      "acc": 0.66259184,
+      "epoch": 1.1376204972095383,
+      "grad_norm": 6.34375,
+      "learning_rate": 4.278142209709199e-06,
+      "loss": 1.56671677,
+      "memory(GiB)": 111.15,
+      "step": 44845,
+      "train_speed(iter/s)": 0.44752
+    },
+    {
+      "acc": 0.65551834,
+      "epoch": 1.1377473363774733,
+      "grad_norm": 5.84375,
+      "learning_rate": 4.277104587767691e-06,
+      "loss": 1.65050697,
+      "memory(GiB)": 111.15,
+      "step": 44850,
+      "train_speed(iter/s)": 0.447547
+    },
+    {
+      "acc": 0.64185448,
+      "epoch": 1.1378741755454085,
+      "grad_norm": 7.71875,
+      "learning_rate": 4.276066997622348e-06,
+      "loss": 1.64568253,
+      "memory(GiB)": 111.15,
+      "step": 44855,
+      "train_speed(iter/s)": 0.447573
+    },
+    {
+      "acc": 0.66512671,
+      "epoch": 1.1380010147133435,
+      "grad_norm": 6.15625,
+      "learning_rate": 4.27502943931881e-06,
+      "loss": 1.56770077,
+      "memory(GiB)": 111.15,
+      "step": 44860,
+      "train_speed(iter/s)": 0.4476
+    },
+    {
+      "acc": 0.64297218,
+      "epoch": 1.1381278538812785,
+      "grad_norm": 4.875,
+      "learning_rate": 4.273991912902716e-06,
+      "loss": 1.64431419,
+      "memory(GiB)": 111.15,
+      "step": 44865,
+      "train_speed(iter/s)": 0.447627
+    },
+    {
+      "acc": 0.64143085,
+      "epoch": 1.1382546930492137,
+      "grad_norm": 5.3125,
+      "learning_rate": 4.272954418419699e-06,
+      "loss": 1.63828869,
+      "memory(GiB)": 111.15,
+      "step": 44870,
+      "train_speed(iter/s)": 0.447653
+    },
+    {
+      "acc": 0.65571337,
+      "epoch": 1.1383815322171487,
+      "grad_norm": 5.40625,
+      "learning_rate": 4.2719169559153905e-06,
+      "loss": 1.57127457,
+      "memory(GiB)": 111.15,
+      "step": 44875,
+      "train_speed(iter/s)": 0.44768
+    },
+    {
+      "acc": 0.66970882,
+      "epoch": 1.1385083713850837,
+      "grad_norm": 4.90625,
+      "learning_rate": 4.270879525435426e-06,
+      "loss": 1.57865715,
+      "memory(GiB)": 111.15,
+      "step": 44880,
+      "train_speed(iter/s)": 0.447706
+    },
+    {
+      "acc": 0.65452795,
+      "epoch": 1.1386352105530189,
+      "grad_norm": 4.9375,
+      "learning_rate": 4.269842127025435e-06,
+      "loss": 1.62263565,
+      "memory(GiB)": 111.15,
+      "step": 44885,
+      "train_speed(iter/s)": 0.447732
+    },
+    {
+      "acc": 0.64971747,
+      "epoch": 1.1387620497209539,
+      "grad_norm": 5.34375,
+      "learning_rate": 4.2688047607310504e-06,
+      "loss": 1.60528603,
+      "memory(GiB)": 111.15,
+      "step": 44890,
+      "train_speed(iter/s)": 0.447759
+    },
+    {
+      "acc": 0.63943243,
+      "epoch": 1.1388888888888888,
+      "grad_norm": 5.5625,
+      "learning_rate": 4.267767426597893e-06,
+      "loss": 1.67741432,
+      "memory(GiB)": 111.15,
+      "step": 44895,
+      "train_speed(iter/s)": 0.447785
+    },
+    {
+      "acc": 0.65345116,
+      "epoch": 1.1390157280568238,
+      "grad_norm": 4.03125,
+      "learning_rate": 4.266730124671594e-06,
+      "loss": 1.58672047,
+      "memory(GiB)": 111.15,
+      "step": 44900,
+      "train_speed(iter/s)": 0.447812
+    },
+    {
+      "epoch": 1.1390157280568238,
+      "eval_acc": 0.6433984200875891,
+      "eval_loss": 1.6078051328659058,
+      "eval_runtime": 114.6062,
+      "eval_samples_per_second": 55.582,
+      "eval_steps_per_second": 27.791,
+      "step": 44900
+    },
+    {
+      "acc": 0.65645156,
+      "epoch": 1.139142567224759,
+      "grad_norm": 5.34375,
+      "learning_rate": 4.265692854997778e-06,
+      "loss": 1.60282154,
+      "memory(GiB)": 111.15,
+      "step": 44905,
+      "train_speed(iter/s)": 0.447306
+    },
+    {
+      "acc": 0.66472616,
+      "epoch": 1.139269406392694,
+      "grad_norm": 5.0625,
+      "learning_rate": 4.2646556176220714e-06,
+      "loss": 1.58359585,
+      "memory(GiB)": 111.15,
+      "step": 44910,
+      "train_speed(iter/s)": 0.447333
+    },
+    {
+      "acc": 0.65980868,
+      "epoch": 1.1393962455606292,
+      "grad_norm": 5.03125,
+      "learning_rate": 4.263618412590092e-06,
+      "loss": 1.56915112,
+      "memory(GiB)": 111.15,
+      "step": 44915,
+      "train_speed(iter/s)": 0.447359
+    },
+    {
+      "acc": 0.63603125,
+      "epoch": 1.1395230847285642,
+      "grad_norm": 5.21875,
+      "learning_rate": 4.2625812399474604e-06,
+      "loss": 1.63994274,
+      "memory(GiB)": 111.15,
+      "step": 44920,
+      "train_speed(iter/s)": 0.447385
+    },
+    {
+      "acc": 0.6582839,
+      "epoch": 1.1396499238964992,
+      "grad_norm": 4.9375,
+      "learning_rate": 4.2615440997398e-06,
+      "loss": 1.64318962,
+      "memory(GiB)": 111.15,
+      "step": 44925,
+      "train_speed(iter/s)": 0.447411
+    },
+    {
+      "acc": 0.65905972,
+      "epoch": 1.1397767630644342,
+      "grad_norm": 5.90625,
+      "learning_rate": 4.2605069920127284e-06,
+      "loss": 1.56430721,
+      "memory(GiB)": 111.15,
+      "step": 44930,
+      "train_speed(iter/s)": 0.447438
+    },
+    {
+      "acc": 0.66130757,
+      "epoch": 1.1399036022323694,
+      "grad_norm": 5.65625,
+      "learning_rate": 4.25946991681186e-06,
+      "loss": 1.60133877,
+      "memory(GiB)": 111.15,
+      "step": 44935,
+      "train_speed(iter/s)": 0.447464
+    },
+    {
+      "acc": 0.64481907,
+      "epoch": 1.1400304414003044,
+      "grad_norm": 5.3125,
+      "learning_rate": 4.258432874182809e-06,
+      "loss": 1.65277824,
+      "memory(GiB)": 111.15,
+      "step": 44940,
+      "train_speed(iter/s)": 0.44749
+    },
+    {
+      "acc": 0.64446163,
+      "epoch": 1.1401572805682394,
+      "grad_norm": 5.125,
+      "learning_rate": 4.2573958641711925e-06,
+      "loss": 1.65079155,
+      "memory(GiB)": 111.15,
+      "step": 44945,
+      "train_speed(iter/s)": 0.447516
+    },
+    {
+      "acc": 0.65792527,
+      "epoch": 1.1402841197361746,
+      "grad_norm": 4.625,
+      "learning_rate": 4.256358886822622e-06,
+      "loss": 1.55748215,
+      "memory(GiB)": 111.15,
+      "step": 44950,
+      "train_speed(iter/s)": 0.447542
+    },
+    {
+      "acc": 0.6582077,
+      "epoch": 1.1404109589041096,
+      "grad_norm": 6.40625,
+      "learning_rate": 4.255321942182707e-06,
+      "loss": 1.57377377,
+      "memory(GiB)": 111.15,
+      "step": 44955,
+      "train_speed(iter/s)": 0.447569
+    },
+    {
+      "acc": 0.64529648,
+      "epoch": 1.1405377980720446,
+      "grad_norm": 5.15625,
+      "learning_rate": 4.254285030297058e-06,
+      "loss": 1.64692459,
+      "memory(GiB)": 111.15,
+      "step": 44960,
+      "train_speed(iter/s)": 0.447594
+    },
+    {
+      "acc": 0.65990734,
+      "epoch": 1.1406646372399798,
+      "grad_norm": 4.8125,
+      "learning_rate": 4.2532481512112814e-06,
+      "loss": 1.64500065,
+      "memory(GiB)": 111.15,
+      "step": 44965,
+      "train_speed(iter/s)": 0.447621
+    },
+    {
+      "acc": 0.64051323,
+      "epoch": 1.1407914764079148,
+      "grad_norm": 6.15625,
+      "learning_rate": 4.252211304970988e-06,
+      "loss": 1.6603941,
+      "memory(GiB)": 111.15,
+      "step": 44970,
+      "train_speed(iter/s)": 0.447647
+    },
+    {
+      "acc": 0.64884377,
+      "epoch": 1.1409183155758498,
+      "grad_norm": 6.3125,
+      "learning_rate": 4.251174491621778e-06,
+      "loss": 1.60946922,
+      "memory(GiB)": 111.15,
+      "step": 44975,
+      "train_speed(iter/s)": 0.447673
+    },
+    {
+      "acc": 0.6506639,
+      "epoch": 1.141045154743785,
+      "grad_norm": 4.90625,
+      "learning_rate": 4.250137711209258e-06,
+      "loss": 1.67017517,
+      "memory(GiB)": 111.15,
+      "step": 44980,
+      "train_speed(iter/s)": 0.447699
+    },
+    {
+      "acc": 0.64830098,
+      "epoch": 1.14117199391172,
+      "grad_norm": 5.59375,
+      "learning_rate": 4.249100963779028e-06,
+      "loss": 1.7100935,
+      "memory(GiB)": 111.15,
+      "step": 44985,
+      "train_speed(iter/s)": 0.447725
+    },
+    {
+      "acc": 0.65711031,
+      "epoch": 1.141298833079655,
+      "grad_norm": 6.1875,
+      "learning_rate": 4.248064249376692e-06,
+      "loss": 1.61508427,
+      "memory(GiB)": 111.15,
+      "step": 44990,
+      "train_speed(iter/s)": 0.447751
+    },
+    {
+      "acc": 0.65331855,
+      "epoch": 1.14142567224759,
+      "grad_norm": 5.09375,
+      "learning_rate": 4.2470275680478466e-06,
+      "loss": 1.59913597,
+      "memory(GiB)": 111.15,
+      "step": 44995,
+      "train_speed(iter/s)": 0.447778
+    },
+    {
+      "acc": 0.65907564,
+      "epoch": 1.1415525114155252,
+      "grad_norm": 5.9375,
+      "learning_rate": 4.2459909198380886e-06,
+      "loss": 1.58414555,
+      "memory(GiB)": 111.15,
+      "step": 45000,
+      "train_speed(iter/s)": 0.447803
+    },
+    {
+      "epoch": 1.1415525114155252,
+      "eval_acc": 0.6433624920989758,
+      "eval_loss": 1.607709288597107,
+      "eval_runtime": 114.3564,
+      "eval_samples_per_second": 55.703,
+      "eval_steps_per_second": 27.852,
+      "step": 45000
+    },
+    {
+      "acc": 0.66488857,
+      "epoch": 1.1416793505834602,
+      "grad_norm": 5.34375,
+      "learning_rate": 4.244954304793019e-06,
+      "loss": 1.56073761,
+      "memory(GiB)": 111.15,
+      "step": 45005,
+      "train_speed(iter/s)": 0.4473
+    },
+    {
+      "acc": 0.6437233,
+      "epoch": 1.1418061897513951,
+      "grad_norm": 5.125,
+      "learning_rate": 4.2439177229582304e-06,
+      "loss": 1.63757057,
+      "memory(GiB)": 111.15,
+      "step": 45010,
+      "train_speed(iter/s)": 0.447326
+    },
+    {
+      "acc": 0.65384283,
+      "epoch": 1.1419330289193304,
+      "grad_norm": 5.1875,
+      "learning_rate": 4.242881174379313e-06,
+      "loss": 1.60467892,
+      "memory(GiB)": 111.15,
+      "step": 45015,
+      "train_speed(iter/s)": 0.447352
+    },
+    {
+      "acc": 0.64354811,
+      "epoch": 1.1420598680872653,
+      "grad_norm": 5.1875,
+      "learning_rate": 4.241844659101865e-06,
+      "loss": 1.64326077,
+      "memory(GiB)": 111.15,
+      "step": 45020,
+      "train_speed(iter/s)": 0.447378
+    },
+    {
+      "acc": 0.63499041,
+      "epoch": 1.1421867072552003,
+      "grad_norm": 4.59375,
+      "learning_rate": 4.240808177171472e-06,
+      "loss": 1.71998444,
+      "memory(GiB)": 111.15,
+      "step": 45025,
+      "train_speed(iter/s)": 0.447404
+    },
+    {
+      "acc": 0.64933777,
+      "epoch": 1.1423135464231355,
+      "grad_norm": 5.53125,
+      "learning_rate": 4.239771728633727e-06,
+      "loss": 1.59443846,
+      "memory(GiB)": 111.15,
+      "step": 45030,
+      "train_speed(iter/s)": 0.447431
+    },
+    {
+      "acc": 0.61932917,
+      "epoch": 1.1424403855910705,
+      "grad_norm": 4.78125,
+      "learning_rate": 4.238735313534213e-06,
+      "loss": 1.7109457,
+      "memory(GiB)": 111.15,
+      "step": 45035,
+      "train_speed(iter/s)": 0.447457
+    },
+    {
+      "acc": 0.6501318,
+      "epoch": 1.1425672247590055,
+      "grad_norm": 5.875,
+      "learning_rate": 4.23769893191852e-06,
+      "loss": 1.67295132,
+      "memory(GiB)": 111.15,
+      "step": 45040,
+      "train_speed(iter/s)": 0.447483
+    },
+    {
+      "acc": 0.6526823,
+      "epoch": 1.1426940639269407,
+      "grad_norm": 4.8125,
+      "learning_rate": 4.236662583832229e-06,
+      "loss": 1.5519186,
+      "memory(GiB)": 111.15,
+      "step": 45045,
+      "train_speed(iter/s)": 0.447509
+    },
+    {
+      "acc": 0.63970671,
+      "epoch": 1.1428209030948757,
+      "grad_norm": 5.03125,
+      "learning_rate": 4.23562626932093e-06,
+      "loss": 1.73732872,
+      "memory(GiB)": 111.15,
+      "step": 45050,
+      "train_speed(iter/s)": 0.447536
+    },
+    {
+      "acc": 0.63720961,
+      "epoch": 1.1429477422628107,
+      "grad_norm": 5.28125,
+      "learning_rate": 4.234589988430198e-06,
+      "loss": 1.64321747,
+      "memory(GiB)": 111.15,
+      "step": 45055,
+      "train_speed(iter/s)": 0.447562
+    },
+    {
+      "acc": 0.64486284,
+      "epoch": 1.1430745814307457,
+      "grad_norm": 5.5625,
+      "learning_rate": 4.233553741205615e-06,
+      "loss": 1.67430878,
+      "memory(GiB)": 111.15,
+      "step": 45060,
+      "train_speed(iter/s)": 0.447588
+    },
+    {
+      "acc": 0.63723578,
+      "epoch": 1.143201420598681,
+      "grad_norm": 5.75,
+      "learning_rate": 4.2325175276927614e-06,
+      "loss": 1.61616135,
+      "memory(GiB)": 111.15,
+      "step": 45065,
+      "train_speed(iter/s)": 0.447615
+    },
+    {
+      "acc": 0.64830894,
+      "epoch": 1.143328259766616,
+      "grad_norm": 5.0625,
+      "learning_rate": 4.231481347937214e-06,
+      "loss": 1.60404282,
+      "memory(GiB)": 111.15,
+      "step": 45070,
+      "train_speed(iter/s)": 0.447641
+    },
+    {
+      "acc": 0.65453186,
+      "epoch": 1.143455098934551,
+      "grad_norm": 5.25,
+      "learning_rate": 4.230445201984547e-06,
+      "loss": 1.61684265,
+      "memory(GiB)": 111.15,
+      "step": 45075,
+      "train_speed(iter/s)": 0.447667
+    },
+    {
+      "acc": 0.64846401,
+      "epoch": 1.143581938102486,
+      "grad_norm": 4.78125,
+      "learning_rate": 4.229409089880336e-06,
+      "loss": 1.64810181,
+      "memory(GiB)": 111.15,
+      "step": 45080,
+      "train_speed(iter/s)": 0.447693
+    },
+    {
+      "acc": 0.64508514,
+      "epoch": 1.143708777270421,
+      "grad_norm": 5.78125,
+      "learning_rate": 4.2283730116701535e-06,
+      "loss": 1.65871544,
+      "memory(GiB)": 111.15,
+      "step": 45085,
+      "train_speed(iter/s)": 0.44772
+    },
+    {
+      "acc": 0.65791316,
+      "epoch": 1.143835616438356,
+      "grad_norm": 5.65625,
+      "learning_rate": 4.227336967399573e-06,
+      "loss": 1.62084579,
+      "memory(GiB)": 111.15,
+      "step": 45090,
+      "train_speed(iter/s)": 0.447746
+    },
+    {
+      "acc": 0.65844827,
+      "epoch": 1.1439624556062913,
+      "grad_norm": 5.3125,
+      "learning_rate": 4.2263009571141585e-06,
+      "loss": 1.59415226,
+      "memory(GiB)": 111.15,
+      "step": 45095,
+      "train_speed(iter/s)": 0.447772
+    },
+    {
+      "acc": 0.65585384,
+      "epoch": 1.1440892947742263,
+      "grad_norm": 5.03125,
+      "learning_rate": 4.225264980859485e-06,
+      "loss": 1.62433815,
+      "memory(GiB)": 111.15,
+      "step": 45100,
+      "train_speed(iter/s)": 0.447799
+    },
+    {
+      "epoch": 1.1440892947742263,
+      "eval_acc": 0.6433290707142192,
+      "eval_loss": 1.6076991558074951,
+      "eval_runtime": 113.7255,
+      "eval_samples_per_second": 56.012,
+      "eval_steps_per_second": 28.006,
+      "step": 45100
+    },
+    {
+      "acc": 0.64157009,
+      "epoch": 1.1442161339421613,
+      "grad_norm": 5.46875,
+      "learning_rate": 4.224229038681115e-06,
+      "loss": 1.66799831,
+      "memory(GiB)": 111.15,
+      "step": 45105,
+      "train_speed(iter/s)": 0.4473
+    },
+    {
+      "acc": 0.64234676,
+      "epoch": 1.1443429731100965,
+      "grad_norm": 5.1875,
+      "learning_rate": 4.223193130624619e-06,
+      "loss": 1.66464672,
+      "memory(GiB)": 111.15,
+      "step": 45110,
+      "train_speed(iter/s)": 0.447326
+    },
+    {
+      "acc": 0.6652236,
+      "epoch": 1.1444698122780315,
+      "grad_norm": 5.25,
+      "learning_rate": 4.222157256735553e-06,
+      "loss": 1.53412838,
+      "memory(GiB)": 111.15,
+      "step": 45115,
+      "train_speed(iter/s)": 0.447352
+    },
+    {
+      "acc": 0.66031313,
+      "epoch": 1.1445966514459665,
+      "grad_norm": 5.59375,
+      "learning_rate": 4.2211214170594865e-06,
+      "loss": 1.60161018,
+      "memory(GiB)": 111.15,
+      "step": 45120,
+      "train_speed(iter/s)": 0.447378
+    },
+    {
+      "acc": 0.6410696,
+      "epoch": 1.1447234906139017,
+      "grad_norm": 6.0,
+      "learning_rate": 4.220085611641976e-06,
+      "loss": 1.64588242,
+      "memory(GiB)": 111.15,
+      "step": 45125,
+      "train_speed(iter/s)": 0.447404
+    },
+    {
+      "acc": 0.65715427,
+      "epoch": 1.1448503297818367,
+      "grad_norm": 4.75,
+      "learning_rate": 4.2190498405285826e-06,
+      "loss": 1.68535824,
+      "memory(GiB)": 111.15,
+      "step": 45130,
+      "train_speed(iter/s)": 0.44743
+    },
+    {
+      "acc": 0.65598812,
+      "epoch": 1.1449771689497716,
+      "grad_norm": 5.40625,
+      "learning_rate": 4.218014103764865e-06,
+      "loss": 1.61414146,
+      "memory(GiB)": 111.15,
+      "step": 45135,
+      "train_speed(iter/s)": 0.447457
+    },
+    {
+      "acc": 0.63089905,
+      "epoch": 1.1451040081177069,
+      "grad_norm": 5.0625,
+      "learning_rate": 4.216978401396376e-06,
+      "loss": 1.68057976,
+      "memory(GiB)": 111.15,
+      "step": 45140,
+      "train_speed(iter/s)": 0.447483
+    },
+    {
+      "acc": 0.64114971,
+      "epoch": 1.1452308472856418,
+      "grad_norm": 6.09375,
+      "learning_rate": 4.215942733468675e-06,
+      "loss": 1.66314812,
+      "memory(GiB)": 111.15,
+      "step": 45145,
+      "train_speed(iter/s)": 0.447509
+    },
+    {
+      "acc": 0.67007871,
+      "epoch": 1.1453576864535768,
+      "grad_norm": 5.375,
+      "learning_rate": 4.2149071000273134e-06,
+      "loss": 1.55185585,
+      "memory(GiB)": 111.15,
+      "step": 45150,
+      "train_speed(iter/s)": 0.447535
+    },
+    {
+      "acc": 0.65442743,
+      "epoch": 1.1454845256215118,
+      "grad_norm": 6.5625,
+      "learning_rate": 4.213871501117842e-06,
+      "loss": 1.55826378,
+      "memory(GiB)": 111.15,
+      "step": 45155,
+      "train_speed(iter/s)": 0.447561
+    },
+    {
+      "acc": 0.64640036,
+      "epoch": 1.145611364789447,
+      "grad_norm": 5.3125,
+      "learning_rate": 4.212835936785811e-06,
+      "loss": 1.74158249,
+      "memory(GiB)": 111.15,
+      "step": 45160,
+      "train_speed(iter/s)": 0.447587
+    },
+    {
+      "acc": 0.6636385,
+      "epoch": 1.145738203957382,
+      "grad_norm": 5.40625,
+      "learning_rate": 4.21180040707677e-06,
+      "loss": 1.54877739,
+      "memory(GiB)": 111.15,
+      "step": 45165,
+      "train_speed(iter/s)": 0.447614
+    },
+    {
+      "acc": 0.65347195,
+      "epoch": 1.145865043125317,
+      "grad_norm": 4.96875,
+      "learning_rate": 4.2107649120362684e-06,
+      "loss": 1.66960812,
+      "memory(GiB)": 111.15,
+      "step": 45170,
+      "train_speed(iter/s)": 0.44764
+    },
+    {
+      "acc": 0.63969984,
+      "epoch": 1.1459918822932522,
+      "grad_norm": 4.46875,
+      "learning_rate": 4.2097294517098465e-06,
+      "loss": 1.6722599,
+      "memory(GiB)": 111.15,
+      "step": 45175,
+      "train_speed(iter/s)": 0.447666
+    },
+    {
+      "acc": 0.65433836,
+      "epoch": 1.1461187214611872,
+      "grad_norm": 5.15625,
+      "learning_rate": 4.208694026143054e-06,
+      "loss": 1.68519917,
+      "memory(GiB)": 111.15,
+      "step": 45180,
+      "train_speed(iter/s)": 0.447692
+    },
+    {
+      "acc": 0.65259008,
+      "epoch": 1.1462455606291222,
+      "grad_norm": 6.09375,
+      "learning_rate": 4.2076586353814295e-06,
+      "loss": 1.71392841,
+      "memory(GiB)": 111.15,
+      "step": 45185,
+      "train_speed(iter/s)": 0.447718
+    },
+    {
+      "acc": 0.65216694,
+      "epoch": 1.1463723997970574,
+      "grad_norm": 5.03125,
+      "learning_rate": 4.2066232794705174e-06,
+      "loss": 1.60369568,
+      "memory(GiB)": 111.15,
+      "step": 45190,
+      "train_speed(iter/s)": 0.447744
+    },
+    {
+      "acc": 0.64312439,
+      "epoch": 1.1464992389649924,
+      "grad_norm": 5.125,
+      "learning_rate": 4.205587958455854e-06,
+      "loss": 1.61999855,
+      "memory(GiB)": 111.15,
+      "step": 45195,
+      "train_speed(iter/s)": 0.44777
+    },
+    {
+      "acc": 0.64466305,
+      "epoch": 1.1466260781329274,
+      "grad_norm": 4.96875,
+      "learning_rate": 4.204552672382981e-06,
+      "loss": 1.66653423,
+      "memory(GiB)": 111.15,
+      "step": 45200,
+      "train_speed(iter/s)": 0.447796
+    },
+    {
+      "epoch": 1.1466260781329274,
+      "eval_acc": 0.6433487057777637,
+      "eval_loss": 1.6078672409057617,
+      "eval_runtime": 113.5799,
+      "eval_samples_per_second": 56.084,
+      "eval_steps_per_second": 28.042,
+      "step": 45200
+    },
+    {
+      "acc": 0.64580183,
+      "epoch": 1.1467529173008626,
+      "grad_norm": 4.8125,
+      "learning_rate": 4.203517421297431e-06,
+      "loss": 1.59700603,
+      "memory(GiB)": 111.15,
+      "step": 45205,
+      "train_speed(iter/s)": 0.447299
+    },
+    {
+      "acc": 0.63825407,
+      "epoch": 1.1468797564687976,
+      "grad_norm": 5.3125,
+      "learning_rate": 4.202482205244742e-06,
+      "loss": 1.60356331,
+      "memory(GiB)": 111.15,
+      "step": 45210,
+      "train_speed(iter/s)": 0.447325
+    },
+    {
+      "acc": 0.66770859,
+      "epoch": 1.1470065956367326,
+      "grad_norm": 5.5,
+      "learning_rate": 4.201447024270446e-06,
+      "loss": 1.5577117,
+      "memory(GiB)": 111.15,
+      "step": 45215,
+      "train_speed(iter/s)": 0.447351
+    },
+    {
+      "acc": 0.64789791,
+      "epoch": 1.1471334348046676,
+      "grad_norm": 5.125,
+      "learning_rate": 4.200411878420074e-06,
+      "loss": 1.67158813,
+      "memory(GiB)": 111.15,
+      "step": 45220,
+      "train_speed(iter/s)": 0.447377
+    },
+    {
+      "acc": 0.6459281,
+      "epoch": 1.1472602739726028,
+      "grad_norm": 5.65625,
+      "learning_rate": 4.199376767739158e-06,
+      "loss": 1.61804886,
+      "memory(GiB)": 111.15,
+      "step": 45225,
+      "train_speed(iter/s)": 0.447403
+    },
+    {
+      "acc": 0.66516528,
+      "epoch": 1.1473871131405378,
+      "grad_norm": 5.90625,
+      "learning_rate": 4.1983416922732276e-06,
+      "loss": 1.61684914,
+      "memory(GiB)": 111.15,
+      "step": 45230,
+      "train_speed(iter/s)": 0.447429
+    },
+    {
+      "acc": 0.64896107,
+      "epoch": 1.147513952308473,
+      "grad_norm": 4.875,
+      "learning_rate": 4.197306652067807e-06,
+      "loss": 1.58107491,
+      "memory(GiB)": 111.15,
+      "step": 45235,
+      "train_speed(iter/s)": 0.447455
+    },
+    {
+      "acc": 0.66222744,
+      "epoch": 1.147640791476408,
+      "grad_norm": 5.8125,
+      "learning_rate": 4.196271647168425e-06,
+      "loss": 1.57762699,
+      "memory(GiB)": 111.15,
+      "step": 45240,
+      "train_speed(iter/s)": 0.447481
+    },
+    {
+      "acc": 0.63739042,
+      "epoch": 1.147767630644343,
+      "grad_norm": 5.5625,
+      "learning_rate": 4.195236677620604e-06,
+      "loss": 1.68059273,
+      "memory(GiB)": 111.15,
+      "step": 45245,
+      "train_speed(iter/s)": 0.447507
+    },
+    {
+      "acc": 0.66593103,
+      "epoch": 1.147894469812278,
+      "grad_norm": 6.46875,
+      "learning_rate": 4.1942017434698675e-06,
+      "loss": 1.49003239,
+      "memory(GiB)": 111.15,
+      "step": 45250,
+      "train_speed(iter/s)": 0.447533
+    },
+    {
+      "acc": 0.65071239,
+      "epoch": 1.1480213089802132,
+      "grad_norm": 4.8125,
+      "learning_rate": 4.1931668447617346e-06,
+      "loss": 1.60624237,
+      "memory(GiB)": 111.15,
+      "step": 45255,
+      "train_speed(iter/s)": 0.447559
+    },
+    {
+      "acc": 0.66678309,
+      "epoch": 1.1481481481481481,
+      "grad_norm": 5.78125,
+      "learning_rate": 4.192131981541727e-06,
+      "loss": 1.6613369,
+      "memory(GiB)": 111.15,
+      "step": 45260,
+      "train_speed(iter/s)": 0.447586
+    },
+    {
+      "acc": 0.65607386,
+      "epoch": 1.1482749873160831,
+      "grad_norm": 5.21875,
+      "learning_rate": 4.19109715385536e-06,
+      "loss": 1.5743391,
+      "memory(GiB)": 111.15,
+      "step": 45265,
+      "train_speed(iter/s)": 0.447612
+    },
+    {
+      "acc": 0.63558378,
+      "epoch": 1.1484018264840183,
+      "grad_norm": 5.03125,
+      "learning_rate": 4.190062361748154e-06,
+      "loss": 1.62784996,
+      "memory(GiB)": 111.15,
+      "step": 45270,
+      "train_speed(iter/s)": 0.447638
+    },
+    {
+      "acc": 0.64226389,
+      "epoch": 1.1485286656519533,
+      "grad_norm": 6.125,
+      "learning_rate": 4.189027605265621e-06,
+      "loss": 1.62233315,
+      "memory(GiB)": 111.15,
+      "step": 45275,
+      "train_speed(iter/s)": 0.447664
+    },
+    {
+      "acc": 0.64902964,
+      "epoch": 1.1486555048198883,
+      "grad_norm": 6.25,
+      "learning_rate": 4.187992884453273e-06,
+      "loss": 1.63907604,
+      "memory(GiB)": 111.15,
+      "step": 45280,
+      "train_speed(iter/s)": 0.44769
+    },
+    {
+      "acc": 0.65071526,
+      "epoch": 1.1487823439878235,
+      "grad_norm": 4.9375,
+      "learning_rate": 4.186958199356624e-06,
+      "loss": 1.64843178,
+      "memory(GiB)": 111.15,
+      "step": 45285,
+      "train_speed(iter/s)": 0.447716
+    },
+    {
+      "acc": 0.64693403,
+      "epoch": 1.1489091831557585,
+      "grad_norm": 5.5,
+      "learning_rate": 4.185923550021185e-06,
+      "loss": 1.6569416,
+      "memory(GiB)": 111.15,
+      "step": 45290,
+      "train_speed(iter/s)": 0.447742
+    },
+    {
+      "acc": 0.65490723,
+      "epoch": 1.1490360223236935,
+      "grad_norm": 4.59375,
+      "learning_rate": 4.1848889364924625e-06,
+      "loss": 1.61062965,
+      "memory(GiB)": 111.15,
+      "step": 45295,
+      "train_speed(iter/s)": 0.447768
+    },
+    {
+      "acc": 0.64903302,
+      "epoch": 1.1491628614916287,
+      "grad_norm": 5.71875,
+      "learning_rate": 4.183854358815962e-06,
+      "loss": 1.66614342,
+      "memory(GiB)": 111.15,
+      "step": 45300,
+      "train_speed(iter/s)": 0.447795
+    },
+    {
+      "epoch": 1.1491628614916287,
+      "eval_acc": 0.6433487057777637,
+      "eval_loss": 1.6079432964324951,
+      "eval_runtime": 114.2185,
+      "eval_samples_per_second": 55.77,
+      "eval_steps_per_second": 27.885,
+      "step": 45300
+    },
+    {
+      "acc": 0.64780688,
+      "epoch": 1.1492897006595637,
+      "grad_norm": 6.125,
+      "learning_rate": 4.182819817037192e-06,
+      "loss": 1.61782818,
+      "memory(GiB)": 111.15,
+      "step": 45305,
+      "train_speed(iter/s)": 0.447295
+    },
+    {
+      "acc": 0.64410229,
+      "epoch": 1.1494165398274987,
+      "grad_norm": 5.5,
+      "learning_rate": 4.181785311201655e-06,
+      "loss": 1.61783447,
+      "memory(GiB)": 111.15,
+      "step": 45310,
+      "train_speed(iter/s)": 0.447321
+    },
+    {
+      "acc": 0.64807615,
+      "epoch": 1.1495433789954337,
+      "grad_norm": 5.21875,
+      "learning_rate": 4.1807508413548515e-06,
+      "loss": 1.67056999,
+      "memory(GiB)": 111.15,
+      "step": 45315,
+      "train_speed(iter/s)": 0.447347
+    },
+    {
+      "acc": 0.65412989,
+      "epoch": 1.149670218163369,
+      "grad_norm": 5.09375,
+      "learning_rate": 4.179716407542285e-06,
+      "loss": 1.55940466,
+      "memory(GiB)": 111.15,
+      "step": 45320,
+      "train_speed(iter/s)": 0.447373
+    },
+    {
+      "acc": 0.64235516,
+      "epoch": 1.1497970573313039,
+      "grad_norm": 5.375,
+      "learning_rate": 4.178682009809452e-06,
+      "loss": 1.64976883,
+      "memory(GiB)": 111.15,
+      "step": 45325,
+      "train_speed(iter/s)": 0.4474
+    },
+    {
+      "acc": 0.64815207,
+      "epoch": 1.1499238964992389,
+      "grad_norm": 4.40625,
+      "learning_rate": 4.177647648201854e-06,
+      "loss": 1.61502342,
+      "memory(GiB)": 111.15,
+      "step": 45330,
+      "train_speed(iter/s)": 0.447426
+    },
+    {
+      "acc": 0.64597325,
+      "epoch": 1.150050735667174,
+      "grad_norm": 5.28125,
+      "learning_rate": 4.1766133227649815e-06,
+      "loss": 1.61486626,
+      "memory(GiB)": 111.15,
+      "step": 45335,
+      "train_speed(iter/s)": 0.447452
+    },
+    {
+      "acc": 0.65643806,
+      "epoch": 1.150177574835109,
+      "grad_norm": 5.0,
+      "learning_rate": 4.175579033544332e-06,
+      "loss": 1.57170238,
+      "memory(GiB)": 111.15,
+      "step": 45340,
+      "train_speed(iter/s)": 0.447478
+    },
+    {
+      "acc": 0.63630414,
+      "epoch": 1.150304414003044,
+      "grad_norm": 5.34375,
+      "learning_rate": 4.174544780585395e-06,
+      "loss": 1.66457138,
+      "memory(GiB)": 111.15,
+      "step": 45345,
+      "train_speed(iter/s)": 0.447504
+    },
+    {
+      "acc": 0.63696241,
+      "epoch": 1.1504312531709793,
+      "grad_norm": 9.125,
+      "learning_rate": 4.1735105639336686e-06,
+      "loss": 1.75595474,
+      "memory(GiB)": 111.15,
+      "step": 45350,
+      "train_speed(iter/s)": 0.44753
+    },
+    {
+      "acc": 0.6445446,
+      "epoch": 1.1505580923389143,
+      "grad_norm": 4.84375,
+      "learning_rate": 4.172476383634635e-06,
+      "loss": 1.66150551,
+      "memory(GiB)": 111.15,
+      "step": 45355,
+      "train_speed(iter/s)": 0.447556
+    },
+    {
+      "acc": 0.65328083,
+      "epoch": 1.1506849315068493,
+      "grad_norm": 5.75,
+      "learning_rate": 4.171442239733783e-06,
+      "loss": 1.6988678,
+      "memory(GiB)": 111.15,
+      "step": 45360,
+      "train_speed(iter/s)": 0.447582
+    },
+    {
+      "acc": 0.63236966,
+      "epoch": 1.1508117706747845,
+      "grad_norm": 4.84375,
+      "learning_rate": 4.170408132276603e-06,
+      "loss": 1.71014271,
+      "memory(GiB)": 111.15,
+      "step": 45365,
+      "train_speed(iter/s)": 0.447608
+    },
+    {
+      "acc": 0.6446887,
+      "epoch": 1.1509386098427195,
+      "grad_norm": 7.15625,
+      "learning_rate": 4.1693740613085776e-06,
+      "loss": 1.65525208,
+      "memory(GiB)": 111.15,
+      "step": 45370,
+      "train_speed(iter/s)": 0.447634
+    },
+    {
+      "acc": 0.66644487,
+      "epoch": 1.1510654490106544,
+      "grad_norm": 5.34375,
+      "learning_rate": 4.168340026875188e-06,
+      "loss": 1.59343204,
+      "memory(GiB)": 111.15,
+      "step": 45375,
+      "train_speed(iter/s)": 0.447661
+    },
+    {
+      "acc": 0.65400028,
+      "epoch": 1.1511922881785894,
+      "grad_norm": 4.78125,
+      "learning_rate": 4.167306029021917e-06,
+      "loss": 1.61788998,
+      "memory(GiB)": 111.15,
+      "step": 45380,
+      "train_speed(iter/s)": 0.447687
+    },
+    {
+      "acc": 0.648281,
+      "epoch": 1.1513191273465246,
+      "grad_norm": 5.9375,
+      "learning_rate": 4.166272067794246e-06,
+      "loss": 1.67480583,
+      "memory(GiB)": 111.15,
+      "step": 45385,
+      "train_speed(iter/s)": 0.447713
+    },
+    {
+      "acc": 0.64124966,
+      "epoch": 1.1514459665144596,
+      "grad_norm": 4.84375,
+      "learning_rate": 4.165238143237651e-06,
+      "loss": 1.67270679,
+      "memory(GiB)": 111.15,
+      "step": 45390,
+      "train_speed(iter/s)": 0.447739
+    },
+    {
+      "acc": 0.63464108,
+      "epoch": 1.1515728056823948,
+      "grad_norm": 4.90625,
+      "learning_rate": 4.164204255397608e-06,
+      "loss": 1.64561214,
+      "memory(GiB)": 111.15,
+      "step": 45395,
+      "train_speed(iter/s)": 0.447765
+    },
+    {
+      "acc": 0.63913436,
+      "epoch": 1.1516996448503298,
+      "grad_norm": 4.53125,
+      "learning_rate": 4.163170404319596e-06,
+      "loss": 1.64672394,
+      "memory(GiB)": 111.15,
+      "step": 45400,
+      "train_speed(iter/s)": 0.447791
+    },
+    {
+      "epoch": 1.1516996448503298,
+      "eval_acc": 0.6433269818776719,
+      "eval_loss": 1.6078561544418335,
+      "eval_runtime": 114.3438,
+      "eval_samples_per_second": 55.709,
+      "eval_steps_per_second": 27.855,
+      "step": 45400
+    },
+    {
+      "acc": 0.65607281,
+      "epoch": 1.1518264840182648,
+      "grad_norm": 5.28125,
+      "learning_rate": 4.1621365900490825e-06,
+      "loss": 1.64979572,
+      "memory(GiB)": 111.15,
+      "step": 45405,
+      "train_speed(iter/s)": 0.447292
+    },
+    {
+      "acc": 0.65594492,
+      "epoch": 1.1519533231861998,
+      "grad_norm": 5.875,
+      "learning_rate": 4.1611028126315455e-06,
+      "loss": 1.58164721,
+      "memory(GiB)": 111.15,
+      "step": 45410,
+      "train_speed(iter/s)": 0.447318
+    },
+    {
+      "acc": 0.64823623,
+      "epoch": 1.152080162354135,
+      "grad_norm": 5.25,
+      "learning_rate": 4.160069072112451e-06,
+      "loss": 1.62986145,
+      "memory(GiB)": 111.15,
+      "step": 45415,
+      "train_speed(iter/s)": 0.447343
+    },
+    {
+      "acc": 0.65335965,
+      "epoch": 1.15220700152207,
+      "grad_norm": 4.5625,
+      "learning_rate": 4.1590353685372695e-06,
+      "loss": 1.53595076,
+      "memory(GiB)": 111.15,
+      "step": 45420,
+      "train_speed(iter/s)": 0.447369
+    },
+    {
+      "acc": 0.66108227,
+      "epoch": 1.152333840690005,
+      "grad_norm": 6.09375,
+      "learning_rate": 4.158001701951465e-06,
+      "loss": 1.56029129,
+      "memory(GiB)": 111.15,
+      "step": 45425,
+      "train_speed(iter/s)": 0.447395
+    },
+    {
+      "acc": 0.64758368,
+      "epoch": 1.1524606798579402,
+      "grad_norm": 5.71875,
+      "learning_rate": 4.156968072400508e-06,
+      "loss": 1.64130363,
+      "memory(GiB)": 111.15,
+      "step": 45430,
+      "train_speed(iter/s)": 0.44742
+    },
+    {
+      "acc": 0.64628553,
+      "epoch": 1.1525875190258752,
+      "grad_norm": 6.15625,
+      "learning_rate": 4.155934479929858e-06,
+      "loss": 1.65735149,
+      "memory(GiB)": 111.15,
+      "step": 45435,
+      "train_speed(iter/s)": 0.447446
+    },
+    {
+      "acc": 0.67608609,
+      "epoch": 1.1527143581938102,
+      "grad_norm": 7.65625,
+      "learning_rate": 4.154900924584976e-06,
+      "loss": 1.49414806,
+      "memory(GiB)": 111.15,
+      "step": 45440,
+      "train_speed(iter/s)": 0.447472
+    },
+    {
+      "acc": 0.63613725,
+      "epoch": 1.1528411973617454,
+      "grad_norm": 5.09375,
+      "learning_rate": 4.153867406411327e-06,
+      "loss": 1.69173279,
+      "memory(GiB)": 111.15,
+      "step": 45445,
+      "train_speed(iter/s)": 0.447498
+    },
+    {
+      "acc": 0.66287889,
+      "epoch": 1.1529680365296804,
+      "grad_norm": 5.46875,
+      "learning_rate": 4.152833925454367e-06,
+      "loss": 1.5360528,
+      "memory(GiB)": 111.15,
+      "step": 45450,
+      "train_speed(iter/s)": 0.447524
+    },
+    {
+      "acc": 0.65611873,
+      "epoch": 1.1530948756976154,
+      "grad_norm": 4.96875,
+      "learning_rate": 4.1518004817595515e-06,
+      "loss": 1.57973156,
+      "memory(GiB)": 111.15,
+      "step": 45455,
+      "train_speed(iter/s)": 0.447549
+    },
+    {
+      "acc": 0.62621942,
+      "epoch": 1.1532217148655506,
+      "grad_norm": 6.1875,
+      "learning_rate": 4.150767075372338e-06,
+      "loss": 1.7481163,
+      "memory(GiB)": 111.15,
+      "step": 45460,
+      "train_speed(iter/s)": 0.447575
+    },
+    {
+      "acc": 0.65387621,
+      "epoch": 1.1533485540334856,
+      "grad_norm": 5.09375,
+      "learning_rate": 4.149733706338182e-06,
+      "loss": 1.56980419,
+      "memory(GiB)": 111.15,
+      "step": 45465,
+      "train_speed(iter/s)": 0.447601
+    },
+    {
+      "acc": 0.65518246,
+      "epoch": 1.1534753932014206,
+      "grad_norm": 5.5625,
+      "learning_rate": 4.148700374702533e-06,
+      "loss": 1.6238739,
+      "memory(GiB)": 111.15,
+      "step": 45470,
+      "train_speed(iter/s)": 0.447627
+    },
+    {
+      "acc": 0.65790477,
+      "epoch": 1.1536022323693556,
+      "grad_norm": 4.78125,
+      "learning_rate": 4.147667080510841e-06,
+      "loss": 1.60335903,
+      "memory(GiB)": 111.15,
+      "step": 45475,
+      "train_speed(iter/s)": 0.447652
+    },
+    {
+      "acc": 0.65946169,
+      "epoch": 1.1537290715372908,
+      "grad_norm": 4.75,
+      "learning_rate": 4.146633823808557e-06,
+      "loss": 1.57947006,
+      "memory(GiB)": 111.15,
+      "step": 45480,
+      "train_speed(iter/s)": 0.447678
+    },
+    {
+      "acc": 0.63158779,
+      "epoch": 1.1538559107052258,
+      "grad_norm": 5.75,
+      "learning_rate": 4.145600604641127e-06,
+      "loss": 1.64386711,
+      "memory(GiB)": 111.15,
+      "step": 45485,
+      "train_speed(iter/s)": 0.447704
+    },
+    {
+      "acc": 0.65775585,
+      "epoch": 1.1539827498731607,
+      "grad_norm": 5.90625,
+      "learning_rate": 4.1445674230539985e-06,
+      "loss": 1.60229645,
+      "memory(GiB)": 111.15,
+      "step": 45490,
+      "train_speed(iter/s)": 0.44773
+    },
+    {
+      "acc": 0.66226811,
+      "epoch": 1.154109589041096,
+      "grad_norm": 5.84375,
+      "learning_rate": 4.143534279092613e-06,
+      "loss": 1.58984165,
+      "memory(GiB)": 111.15,
+      "step": 45495,
+      "train_speed(iter/s)": 0.447756
+    },
+    {
+      "acc": 0.64538217,
+      "epoch": 1.154236428209031,
+      "grad_norm": 6.03125,
+      "learning_rate": 4.142501172802412e-06,
+      "loss": 1.69725189,
+      "memory(GiB)": 111.15,
+      "step": 45500,
+      "train_speed(iter/s)": 0.447782
+    },
+    {
+      "epoch": 1.154236428209031,
+      "eval_acc": 0.6433040046756517,
+      "eval_loss": 1.6078029870986938,
+      "eval_runtime": 114.9312,
+      "eval_samples_per_second": 55.424,
+      "eval_steps_per_second": 27.712,
+      "step": 45500
+    },
+    {
+      "acc": 0.64054174,
+      "epoch": 1.154363267376966,
+      "grad_norm": 5.59375,
+      "learning_rate": 4.14146810422884e-06,
+      "loss": 1.67145557,
+      "memory(GiB)": 111.15,
+      "step": 45505,
+      "train_speed(iter/s)": 0.447281
+    },
+    {
+      "acc": 0.64140358,
+      "epoch": 1.1544901065449011,
+      "grad_norm": 5.6875,
+      "learning_rate": 4.140435073417335e-06,
+      "loss": 1.59997787,
+      "memory(GiB)": 111.15,
+      "step": 45510,
+      "train_speed(iter/s)": 0.447307
+    },
+    {
+      "acc": 0.6527741,
+      "epoch": 1.1546169457128361,
+      "grad_norm": 4.8125,
+      "learning_rate": 4.139402080413331e-06,
+      "loss": 1.64723988,
+      "memory(GiB)": 111.15,
+      "step": 45515,
+      "train_speed(iter/s)": 0.447332
+    },
+    {
+      "acc": 0.65843873,
+      "epoch": 1.1547437848807711,
+      "grad_norm": 5.25,
+      "learning_rate": 4.138369125262266e-06,
+      "loss": 1.63645401,
+      "memory(GiB)": 111.15,
+      "step": 45520,
+      "train_speed(iter/s)": 0.447358
+    },
+    {
+      "acc": 0.65536804,
+      "epoch": 1.1548706240487063,
+      "grad_norm": 5.09375,
+      "learning_rate": 4.137336208009574e-06,
+      "loss": 1.62714195,
+      "memory(GiB)": 111.15,
+      "step": 45525,
+      "train_speed(iter/s)": 0.447384
+    },
+    {
+      "acc": 0.64162169,
+      "epoch": 1.1549974632166413,
+      "grad_norm": 5.15625,
+      "learning_rate": 4.136303328700688e-06,
+      "loss": 1.66807919,
+      "memory(GiB)": 111.15,
+      "step": 45530,
+      "train_speed(iter/s)": 0.447409
+    },
+    {
+      "acc": 0.62809343,
+      "epoch": 1.1551243023845763,
+      "grad_norm": 5.375,
+      "learning_rate": 4.135270487381037e-06,
+      "loss": 1.66909676,
+      "memory(GiB)": 111.15,
+      "step": 45535,
+      "train_speed(iter/s)": 0.447435
+    },
+    {
+      "acc": 0.65639286,
+      "epoch": 1.1552511415525113,
+      "grad_norm": 4.78125,
+      "learning_rate": 4.13423768409605e-06,
+      "loss": 1.56652775,
+      "memory(GiB)": 111.15,
+      "step": 45540,
+      "train_speed(iter/s)": 0.447461
+    },
+    {
+      "acc": 0.64756355,
+      "epoch": 1.1553779807204465,
+      "grad_norm": 4.84375,
+      "learning_rate": 4.133204918891155e-06,
+      "loss": 1.67517319,
+      "memory(GiB)": 111.15,
+      "step": 45545,
+      "train_speed(iter/s)": 0.447487
+    },
+    {
+      "acc": 0.65246973,
+      "epoch": 1.1555048198883815,
+      "grad_norm": 5.4375,
+      "learning_rate": 4.132172191811781e-06,
+      "loss": 1.6293499,
+      "memory(GiB)": 111.15,
+      "step": 45550,
+      "train_speed(iter/s)": 0.447512
+    },
+    {
+      "acc": 0.65187426,
+      "epoch": 1.1556316590563167,
+      "grad_norm": 5.03125,
+      "learning_rate": 4.131139502903345e-06,
+      "loss": 1.63129807,
+      "memory(GiB)": 111.15,
+      "step": 45555,
+      "train_speed(iter/s)": 0.447538
+    },
+    {
+      "acc": 0.64164233,
+      "epoch": 1.1557584982242517,
+      "grad_norm": 4.59375,
+      "learning_rate": 4.130106852211273e-06,
+      "loss": 1.66203976,
+      "memory(GiB)": 111.15,
+      "step": 45560,
+      "train_speed(iter/s)": 0.447564
+    },
+    {
+      "acc": 0.65331469,
+      "epoch": 1.1558853373921867,
+      "grad_norm": 5.40625,
+      "learning_rate": 4.129074239780986e-06,
+      "loss": 1.57181702,
+      "memory(GiB)": 111.15,
+      "step": 45565,
+      "train_speed(iter/s)": 0.44759
+    },
+    {
+      "acc": 0.66523986,
+      "epoch": 1.1560121765601217,
+      "grad_norm": 5.65625,
+      "learning_rate": 4.128041665657903e-06,
+      "loss": 1.60903664,
+      "memory(GiB)": 111.15,
+      "step": 45570,
+      "train_speed(iter/s)": 0.447616
+    },
+    {
+      "acc": 0.65577946,
+      "epoch": 1.1561390157280569,
+      "grad_norm": 5.1875,
+      "learning_rate": 4.127009129887441e-06,
+      "loss": 1.58849163,
+      "memory(GiB)": 111.15,
+      "step": 45575,
+      "train_speed(iter/s)": 0.447642
+    },
+    {
+      "acc": 0.64465618,
+      "epoch": 1.1562658548959919,
+      "grad_norm": 5.4375,
+      "learning_rate": 4.125976632515013e-06,
+      "loss": 1.63075867,
+      "memory(GiB)": 111.15,
+      "step": 45580,
+      "train_speed(iter/s)": 0.447668
+    },
+    {
+      "acc": 0.64686885,
+      "epoch": 1.1563926940639269,
+      "grad_norm": 4.84375,
+      "learning_rate": 4.124944173586036e-06,
+      "loss": 1.6418396,
+      "memory(GiB)": 111.15,
+      "step": 45585,
+      "train_speed(iter/s)": 0.447693
+    },
+    {
+      "acc": 0.64398208,
+      "epoch": 1.156519533231862,
+      "grad_norm": 5.75,
+      "learning_rate": 4.123911753145922e-06,
+      "loss": 1.66530151,
+      "memory(GiB)": 111.15,
+      "step": 45590,
+      "train_speed(iter/s)": 0.447718
+    },
+    {
+      "acc": 0.65579815,
+      "epoch": 1.156646372399797,
+      "grad_norm": 5.28125,
+      "learning_rate": 4.12287937124008e-06,
+      "loss": 1.62653942,
+      "memory(GiB)": 111.15,
+      "step": 45595,
+      "train_speed(iter/s)": 0.447744
+    },
+    {
+      "acc": 0.64812365,
+      "epoch": 1.156773211567732,
+      "grad_norm": 7.0625,
+      "learning_rate": 4.121847027913918e-06,
+      "loss": 1.67217884,
+      "memory(GiB)": 111.15,
+      "step": 45600,
+      "train_speed(iter/s)": 0.44777
+    },
+    {
+      "epoch": 1.156773211567732,
+      "eval_acc": 0.6433023336064139,
+      "eval_loss": 1.607658863067627,
+      "eval_runtime": 114.1318,
+      "eval_samples_per_second": 55.813,
+      "eval_steps_per_second": 27.906,
+      "step": 45600
+    },
+    {
+      "acc": 0.65976901,
+      "epoch": 1.1569000507356673,
+      "grad_norm": 5.84375,
+      "learning_rate": 4.1208147232128456e-06,
+      "loss": 1.61994743,
+      "memory(GiB)": 111.15,
+      "step": 45605,
+      "train_speed(iter/s)": 0.447274
+    },
+    {
+      "acc": 0.63547106,
+      "epoch": 1.1570268899036023,
+      "grad_norm": 5.5625,
+      "learning_rate": 4.119782457182267e-06,
+      "loss": 1.67374229,
+      "memory(GiB)": 111.15,
+      "step": 45610,
+      "train_speed(iter/s)": 0.4473
+    },
+    {
+      "acc": 0.65958085,
+      "epoch": 1.1571537290715372,
+      "grad_norm": 5.3125,
+      "learning_rate": 4.118750229867585e-06,
+      "loss": 1.62442532,
+      "memory(GiB)": 111.15,
+      "step": 45615,
+      "train_speed(iter/s)": 0.447325
+    },
+    {
+      "acc": 0.64503198,
+      "epoch": 1.1572805682394725,
+      "grad_norm": 5.84375,
+      "learning_rate": 4.117718041314204e-06,
+      "loss": 1.65934982,
+      "memory(GiB)": 111.15,
+      "step": 45620,
+      "train_speed(iter/s)": 0.447351
+    },
+    {
+      "acc": 0.64340916,
+      "epoch": 1.1574074074074074,
+      "grad_norm": 5.0,
+      "learning_rate": 4.11668589156752e-06,
+      "loss": 1.63297386,
+      "memory(GiB)": 111.15,
+      "step": 45625,
+      "train_speed(iter/s)": 0.447377
+    },
+    {
+      "acc": 0.66505585,
+      "epoch": 1.1575342465753424,
+      "grad_norm": 5.34375,
+      "learning_rate": 4.115653780672937e-06,
+      "loss": 1.55832024,
+      "memory(GiB)": 111.15,
+      "step": 45630,
+      "train_speed(iter/s)": 0.447403
+    },
+    {
+      "acc": 0.64674506,
+      "epoch": 1.1576610857432774,
+      "grad_norm": 5.375,
+      "learning_rate": 4.1146217086758475e-06,
+      "loss": 1.61876583,
+      "memory(GiB)": 111.15,
+      "step": 45635,
+      "train_speed(iter/s)": 0.447428
+    },
+    {
+      "acc": 0.66942453,
+      "epoch": 1.1577879249112126,
+      "grad_norm": 5.5,
+      "learning_rate": 4.113589675621649e-06,
+      "loss": 1.52456083,
+      "memory(GiB)": 111.15,
+      "step": 45640,
+      "train_speed(iter/s)": 0.447454
+    },
+    {
+      "acc": 0.66353416,
+      "epoch": 1.1579147640791476,
+      "grad_norm": 4.65625,
+      "learning_rate": 4.112557681555733e-06,
+      "loss": 1.56752682,
+      "memory(GiB)": 111.15,
+      "step": 45645,
+      "train_speed(iter/s)": 0.44748
+    },
+    {
+      "acc": 0.65083132,
+      "epoch": 1.1580416032470826,
+      "grad_norm": 5.375,
+      "learning_rate": 4.111525726523494e-06,
+      "loss": 1.64165688,
+      "memory(GiB)": 111.15,
+      "step": 45650,
+      "train_speed(iter/s)": 0.447506
+    },
+    {
+      "acc": 0.66319232,
+      "epoch": 1.1581684424150178,
+      "grad_norm": 4.59375,
+      "learning_rate": 4.110493810570319e-06,
+      "loss": 1.53055897,
+      "memory(GiB)": 111.15,
+      "step": 45655,
+      "train_speed(iter/s)": 0.447532
+    },
+    {
+      "acc": 0.64710317,
+      "epoch": 1.1582952815829528,
+      "grad_norm": 6.28125,
+      "learning_rate": 4.109461933741598e-06,
+      "loss": 1.63489361,
+      "memory(GiB)": 111.15,
+      "step": 45660,
+      "train_speed(iter/s)": 0.447557
+    },
+    {
+      "acc": 0.64023962,
+      "epoch": 1.1584221207508878,
+      "grad_norm": 6.25,
+      "learning_rate": 4.108430096082716e-06,
+      "loss": 1.6917078,
+      "memory(GiB)": 111.15,
+      "step": 45665,
+      "train_speed(iter/s)": 0.447583
+    },
+    {
+      "acc": 0.64796915,
+      "epoch": 1.158548959918823,
+      "grad_norm": 5.09375,
+      "learning_rate": 4.107398297639062e-06,
+      "loss": 1.64578552,
+      "memory(GiB)": 111.15,
+      "step": 45670,
+      "train_speed(iter/s)": 0.447609
+    },
+    {
+      "acc": 0.64194632,
+      "epoch": 1.158675799086758,
+      "grad_norm": 5.46875,
+      "learning_rate": 4.106366538456013e-06,
+      "loss": 1.66036797,
+      "memory(GiB)": 111.15,
+      "step": 45675,
+      "train_speed(iter/s)": 0.447635
+    },
+    {
+      "acc": 0.65915813,
+      "epoch": 1.158802638254693,
+      "grad_norm": 5.15625,
+      "learning_rate": 4.105334818578954e-06,
+      "loss": 1.56280708,
+      "memory(GiB)": 111.15,
+      "step": 45680,
+      "train_speed(iter/s)": 0.447661
+    },
+    {
+      "acc": 0.65026851,
+      "epoch": 1.1589294774226282,
+      "grad_norm": 5.25,
+      "learning_rate": 4.104303138053265e-06,
+      "loss": 1.64805145,
+      "memory(GiB)": 111.15,
+      "step": 45685,
+      "train_speed(iter/s)": 0.447687
+    },
+    {
+      "acc": 0.66475115,
+      "epoch": 1.1590563165905632,
+      "grad_norm": 6.09375,
+      "learning_rate": 4.103271496924323e-06,
+      "loss": 1.59839268,
+      "memory(GiB)": 111.15,
+      "step": 45690,
+      "train_speed(iter/s)": 0.447712
+    },
+    {
+      "acc": 0.66686687,
+      "epoch": 1.1591831557584982,
+      "grad_norm": 6.8125,
+      "learning_rate": 4.102239895237503e-06,
+      "loss": 1.6438694,
+      "memory(GiB)": 111.15,
+      "step": 45695,
+      "train_speed(iter/s)": 0.447738
+    },
+    {
+      "acc": 0.66317778,
+      "epoch": 1.1593099949264332,
+      "grad_norm": 5.28125,
+      "learning_rate": 4.101208333038181e-06,
+      "loss": 1.53769169,
+      "memory(GiB)": 111.15,
+      "step": 45700,
+      "train_speed(iter/s)": 0.447764
+    },
+    {
+      "epoch": 1.1593099949264332,
+      "eval_acc": 0.6432935604929153,
+      "eval_loss": 1.6078063249588013,
+      "eval_runtime": 113.6306,
+      "eval_samples_per_second": 56.059,
+      "eval_steps_per_second": 28.029,
+      "step": 45700
+    },
+    {
+      "acc": 0.64994173,
+      "epoch": 1.1594368340943684,
+      "grad_norm": 6.15625,
+      "learning_rate": 4.1001768103717285e-06,
+      "loss": 1.64268684,
+      "memory(GiB)": 111.15,
+      "step": 45705,
+      "train_speed(iter/s)": 0.447272
+    },
+    {
+      "acc": 0.64308176,
+      "epoch": 1.1595636732623034,
+      "grad_norm": 5.28125,
+      "learning_rate": 4.09914532728352e-06,
+      "loss": 1.55346394,
+      "memory(GiB)": 111.15,
+      "step": 45710,
+      "train_speed(iter/s)": 0.447297
+    },
+    {
+      "acc": 0.63947086,
+      "epoch": 1.1596905124302386,
+      "grad_norm": 5.875,
+      "learning_rate": 4.09811388381892e-06,
+      "loss": 1.67384262,
+      "memory(GiB)": 111.15,
+      "step": 45715,
+      "train_speed(iter/s)": 0.447323
+    },
+    {
+      "acc": 0.65748339,
+      "epoch": 1.1598173515981736,
+      "grad_norm": 6.0625,
+      "learning_rate": 4.097082480023298e-06,
+      "loss": 1.62435818,
+      "memory(GiB)": 111.15,
+      "step": 45720,
+      "train_speed(iter/s)": 0.447349
+    },
+    {
+      "acc": 0.6362113,
+      "epoch": 1.1599441907661086,
+      "grad_norm": 4.96875,
+      "learning_rate": 4.09605111594202e-06,
+      "loss": 1.67507992,
+      "memory(GiB)": 111.15,
+      "step": 45725,
+      "train_speed(iter/s)": 0.447374
+    },
+    {
+      "acc": 0.65049434,
+      "epoch": 1.1600710299340435,
+      "grad_norm": 5.0625,
+      "learning_rate": 4.095019791620451e-06,
+      "loss": 1.62788467,
+      "memory(GiB)": 111.15,
+      "step": 45730,
+      "train_speed(iter/s)": 0.447399
+    },
+    {
+      "acc": 0.64847665,
+      "epoch": 1.1601978691019788,
+      "grad_norm": 5.0625,
+      "learning_rate": 4.093988507103951e-06,
+      "loss": 1.60939465,
+      "memory(GiB)": 111.15,
+      "step": 45735,
+      "train_speed(iter/s)": 0.447425
+    },
+    {
+      "acc": 0.65839224,
+      "epoch": 1.1603247082699137,
+      "grad_norm": 5.71875,
+      "learning_rate": 4.09295726243788e-06,
+      "loss": 1.55846262,
+      "memory(GiB)": 111.15,
+      "step": 45740,
+      "train_speed(iter/s)": 0.447451
+    },
+    {
+      "acc": 0.66410222,
+      "epoch": 1.1604515474378487,
+      "grad_norm": 6.9375,
+      "learning_rate": 4.091926057667601e-06,
+      "loss": 1.62758484,
+      "memory(GiB)": 111.15,
+      "step": 45745,
+      "train_speed(iter/s)": 0.447476
+    },
+    {
+      "acc": 0.64161997,
+      "epoch": 1.160578386605784,
+      "grad_norm": 5.90625,
+      "learning_rate": 4.0908948928384675e-06,
+      "loss": 1.58707008,
+      "memory(GiB)": 111.15,
+      "step": 45750,
+      "train_speed(iter/s)": 0.447502
+    },
+    {
+      "acc": 0.66184263,
+      "epoch": 1.160705225773719,
+      "grad_norm": 5.8125,
+      "learning_rate": 4.089863767995835e-06,
+      "loss": 1.6365799,
+      "memory(GiB)": 111.15,
+      "step": 45755,
+      "train_speed(iter/s)": 0.447528
+    },
+    {
+      "acc": 0.64182158,
+      "epoch": 1.160832064941654,
+      "grad_norm": 5.09375,
+      "learning_rate": 4.088832683185057e-06,
+      "loss": 1.62642612,
+      "memory(GiB)": 111.15,
+      "step": 45760,
+      "train_speed(iter/s)": 0.447554
+    },
+    {
+      "acc": 0.63541751,
+      "epoch": 1.1609589041095891,
+      "grad_norm": 6.0625,
+      "learning_rate": 4.087801638451485e-06,
+      "loss": 1.6716898,
+      "memory(GiB)": 111.15,
+      "step": 45765,
+      "train_speed(iter/s)": 0.44758
+    },
+    {
+      "acc": 0.65397739,
+      "epoch": 1.1610857432775241,
+      "grad_norm": 4.75,
+      "learning_rate": 4.086770633840472e-06,
+      "loss": 1.61799469,
+      "memory(GiB)": 111.15,
+      "step": 45770,
+      "train_speed(iter/s)": 0.447605
+    },
+    {
+      "acc": 0.64849253,
+      "epoch": 1.161212582445459,
+      "grad_norm": 6.1875,
+      "learning_rate": 4.085739669397362e-06,
+      "loss": 1.61183987,
+      "memory(GiB)": 111.15,
+      "step": 45775,
+      "train_speed(iter/s)": 0.447631
+    },
+    {
+      "acc": 0.65369635,
+      "epoch": 1.1613394216133943,
+      "grad_norm": 4.34375,
+      "learning_rate": 4.084708745167504e-06,
+      "loss": 1.60100403,
+      "memory(GiB)": 111.15,
+      "step": 45780,
+      "train_speed(iter/s)": 0.447657
+    },
+    {
+      "acc": 0.63951945,
+      "epoch": 1.1614662607813293,
+      "grad_norm": 5.40625,
+      "learning_rate": 4.08367786119624e-06,
+      "loss": 1.73204765,
+      "memory(GiB)": 111.15,
+      "step": 45785,
+      "train_speed(iter/s)": 0.447683
+    },
+    {
+      "acc": 0.66286597,
+      "epoch": 1.1615930999492643,
+      "grad_norm": 6.09375,
+      "learning_rate": 4.082647017528918e-06,
+      "loss": 1.62752571,
+      "memory(GiB)": 111.15,
+      "step": 45790,
+      "train_speed(iter/s)": 0.447709
+    },
+    {
+      "acc": 0.64861603,
+      "epoch": 1.1617199391171993,
+      "grad_norm": 6.6875,
+      "learning_rate": 4.081616214210874e-06,
+      "loss": 1.64290352,
+      "memory(GiB)": 111.15,
+      "step": 45795,
+      "train_speed(iter/s)": 0.447734
+    },
+    {
+      "acc": 0.65319643,
+      "epoch": 1.1618467782851345,
+      "grad_norm": 4.65625,
+      "learning_rate": 4.0805854512874485e-06,
+      "loss": 1.61591434,
+      "memory(GiB)": 111.15,
+      "step": 45800,
+      "train_speed(iter/s)": 0.44776
+    },
+    {
+      "epoch": 1.1618467782851345,
+      "eval_acc": 0.6434848979206468,
+      "eval_loss": 1.6077747344970703,
+      "eval_runtime": 114.6564,
+      "eval_samples_per_second": 55.557,
+      "eval_steps_per_second": 27.779,
+      "step": 45800
+    },
+    {
+      "acc": 0.65668774,
+      "epoch": 1.1619736174530695,
+      "grad_norm": 4.8125,
+      "learning_rate": 4.079554728803981e-06,
+      "loss": 1.59205494,
+      "memory(GiB)": 111.15,
+      "step": 45805,
+      "train_speed(iter/s)": 0.447264
+    },
+    {
+      "acc": 0.65983052,
+      "epoch": 1.1621004566210045,
+      "grad_norm": 5.84375,
+      "learning_rate": 4.078524046805806e-06,
+      "loss": 1.6224741,
+      "memory(GiB)": 111.15,
+      "step": 45810,
+      "train_speed(iter/s)": 0.44729
+    },
+    {
+      "acc": 0.64889336,
+      "epoch": 1.1622272957889397,
+      "grad_norm": 6.125,
+      "learning_rate": 4.0774934053382576e-06,
+      "loss": 1.60647774,
+      "memory(GiB)": 111.15,
+      "step": 45815,
+      "train_speed(iter/s)": 0.447316
+    },
+    {
+      "acc": 0.66649923,
+      "epoch": 1.1623541349568747,
+      "grad_norm": 5.625,
+      "learning_rate": 4.076462804446667e-06,
+      "loss": 1.6184082,
+      "memory(GiB)": 111.15,
+      "step": 45820,
+      "train_speed(iter/s)": 0.447342
+    },
+    {
+      "acc": 0.64974861,
+      "epoch": 1.1624809741248097,
+      "grad_norm": 6.1875,
+      "learning_rate": 4.0754322441763654e-06,
+      "loss": 1.66992378,
+      "memory(GiB)": 111.15,
+      "step": 45825,
+      "train_speed(iter/s)": 0.447368
+    },
+    {
+      "acc": 0.64464083,
+      "epoch": 1.1626078132927449,
+      "grad_norm": 4.75,
+      "learning_rate": 4.0744017245726834e-06,
+      "loss": 1.66198196,
+      "memory(GiB)": 111.15,
+      "step": 45830,
+      "train_speed(iter/s)": 0.447394
+    },
+    {
+      "acc": 0.64075418,
+      "epoch": 1.1627346524606799,
+      "grad_norm": 5.65625,
+      "learning_rate": 4.073371245680944e-06,
+      "loss": 1.66034889,
+      "memory(GiB)": 111.15,
+      "step": 45835,
+      "train_speed(iter/s)": 0.447419
+    },
+    {
+      "acc": 0.62818413,
+      "epoch": 1.1628614916286149,
+      "grad_norm": 5.15625,
+      "learning_rate": 4.0723408075464754e-06,
+      "loss": 1.69263763,
+      "memory(GiB)": 111.15,
+      "step": 45840,
+      "train_speed(iter/s)": 0.447445
+    },
+    {
+      "acc": 0.63677998,
+      "epoch": 1.16298833079655,
+      "grad_norm": 5.5625,
+      "learning_rate": 4.071310410214598e-06,
+      "loss": 1.67338676,
+      "memory(GiB)": 111.15,
+      "step": 45845,
+      "train_speed(iter/s)": 0.447471
+    },
+    {
+      "acc": 0.64223471,
+      "epoch": 1.163115169964485,
+      "grad_norm": 4.78125,
+      "learning_rate": 4.070280053730639e-06,
+      "loss": 1.71758041,
+      "memory(GiB)": 111.15,
+      "step": 45850,
+      "train_speed(iter/s)": 0.447497
+    },
+    {
+      "acc": 0.65228548,
+      "epoch": 1.16324200913242,
+      "grad_norm": 5.5625,
+      "learning_rate": 4.069249738139911e-06,
+      "loss": 1.62090607,
+      "memory(GiB)": 111.15,
+      "step": 45855,
+      "train_speed(iter/s)": 0.447523
+    },
+    {
+      "acc": 0.64800463,
+      "epoch": 1.163368848300355,
+      "grad_norm": 6.4375,
+      "learning_rate": 4.068219463487736e-06,
+      "loss": 1.63394356,
+      "memory(GiB)": 111.15,
+      "step": 45860,
+      "train_speed(iter/s)": 0.447549
+    },
+    {
+      "acc": 0.66189575,
+      "epoch": 1.1634956874682902,
+      "grad_norm": 5.21875,
+      "learning_rate": 4.0671892298194286e-06,
+      "loss": 1.61612167,
+      "memory(GiB)": 111.15,
+      "step": 45865,
+      "train_speed(iter/s)": 0.447574
+    },
+    {
+      "acc": 0.65849876,
+      "epoch": 1.1636225266362252,
+      "grad_norm": 5.03125,
+      "learning_rate": 4.066159037180304e-06,
+      "loss": 1.60366001,
+      "memory(GiB)": 111.15,
+      "step": 45870,
+      "train_speed(iter/s)": 0.4476
+    },
+    {
+      "acc": 0.65422478,
+      "epoch": 1.1637493658041604,
+      "grad_norm": 5.21875,
+      "learning_rate": 4.065128885615674e-06,
+      "loss": 1.62468624,
+      "memory(GiB)": 111.15,
+      "step": 45875,
+      "train_speed(iter/s)": 0.447626
+    },
+    {
+      "acc": 0.62929687,
+      "epoch": 1.1638762049720954,
+      "grad_norm": 5.0,
+      "learning_rate": 4.064098775170849e-06,
+      "loss": 1.65980148,
+      "memory(GiB)": 111.15,
+      "step": 45880,
+      "train_speed(iter/s)": 0.447652
+    },
+    {
+      "acc": 0.64589415,
+      "epoch": 1.1640030441400304,
+      "grad_norm": 5.5,
+      "learning_rate": 4.063068705891139e-06,
+      "loss": 1.6472477,
+      "memory(GiB)": 111.15,
+      "step": 45885,
+      "train_speed(iter/s)": 0.447678
+    },
+    {
+      "acc": 0.643749,
+      "epoch": 1.1641298833079654,
+      "grad_norm": 4.5625,
+      "learning_rate": 4.062038677821852e-06,
+      "loss": 1.63458862,
+      "memory(GiB)": 111.15,
+      "step": 45890,
+      "train_speed(iter/s)": 0.447703
+    },
+    {
+      "acc": 0.65820608,
+      "epoch": 1.1642567224759006,
+      "grad_norm": 5.40625,
+      "learning_rate": 4.061008691008289e-06,
+      "loss": 1.61216373,
+      "memory(GiB)": 111.15,
+      "step": 45895,
+      "train_speed(iter/s)": 0.447729
+    },
+    {
+      "acc": 0.65834498,
+      "epoch": 1.1643835616438356,
+      "grad_norm": 5.125,
+      "learning_rate": 4.059978745495757e-06,
+      "loss": 1.58290539,
+      "memory(GiB)": 111.15,
+      "step": 45900,
+      "train_speed(iter/s)": 0.447755
+    },
+    {
+      "epoch": 1.1643835616438356,
+      "eval_acc": 0.643369176375927,
+      "eval_loss": 1.6077266931533813,
+      "eval_runtime": 114.6908,
+      "eval_samples_per_second": 55.541,
+      "eval_steps_per_second": 27.77,
+      "step": 45900
+    },
+    {
+      "acc": 0.65442433,
+      "epoch": 1.1645104008117706,
+      "grad_norm": 4.4375,
+      "learning_rate": 4.058948841329557e-06,
+      "loss": 1.60035591,
+      "memory(GiB)": 111.15,
+      "step": 45905,
+      "train_speed(iter/s)": 0.44726
+    },
+    {
+      "acc": 0.64542093,
+      "epoch": 1.1646372399797058,
+      "grad_norm": 5.375,
+      "learning_rate": 4.057918978554989e-06,
+      "loss": 1.71731987,
+      "memory(GiB)": 111.15,
+      "step": 45910,
+      "train_speed(iter/s)": 0.447286
+    },
+    {
+      "acc": 0.66465864,
+      "epoch": 1.1647640791476408,
+      "grad_norm": 5.40625,
+      "learning_rate": 4.056889157217348e-06,
+      "loss": 1.57858686,
+      "memory(GiB)": 111.15,
+      "step": 45915,
+      "train_speed(iter/s)": 0.447312
+    },
+    {
+      "acc": 0.63360643,
+      "epoch": 1.1648909183155758,
+      "grad_norm": 5.96875,
+      "learning_rate": 4.0558593773619346e-06,
+      "loss": 1.6993248,
+      "memory(GiB)": 111.15,
+      "step": 45920,
+      "train_speed(iter/s)": 0.447338
+    },
+    {
+      "acc": 0.63893189,
+      "epoch": 1.165017757483511,
+      "grad_norm": 5.8125,
+      "learning_rate": 4.05482963903404e-06,
+      "loss": 1.64424839,
+      "memory(GiB)": 111.15,
+      "step": 45925,
+      "train_speed(iter/s)": 0.447364
+    },
+    {
+      "acc": 0.6455472,
+      "epoch": 1.165144596651446,
+      "grad_norm": 5.03125,
+      "learning_rate": 4.05379994227896e-06,
+      "loss": 1.70573654,
+      "memory(GiB)": 111.15,
+      "step": 45930,
+      "train_speed(iter/s)": 0.44739
+    },
+    {
+      "acc": 0.63540254,
+      "epoch": 1.165271435819381,
+      "grad_norm": 6.0,
+      "learning_rate": 4.052770287141981e-06,
+      "loss": 1.65506001,
+      "memory(GiB)": 111.15,
+      "step": 45935,
+      "train_speed(iter/s)": 0.447416
+    },
+    {
+      "acc": 0.65357742,
+      "epoch": 1.1653982749873162,
+      "grad_norm": 5.78125,
+      "learning_rate": 4.051740673668393e-06,
+      "loss": 1.52992878,
+      "memory(GiB)": 111.15,
+      "step": 45940,
+      "train_speed(iter/s)": 0.447442
+    },
+    {
+      "acc": 0.65047092,
+      "epoch": 1.1655251141552512,
+      "grad_norm": 5.46875,
+      "learning_rate": 4.0507111019034855e-06,
+      "loss": 1.63694744,
+      "memory(GiB)": 111.15,
+      "step": 45945,
+      "train_speed(iter/s)": 0.447467
+    },
+    {
+      "acc": 0.64717169,
+      "epoch": 1.1656519533231862,
+      "grad_norm": 5.75,
+      "learning_rate": 4.049681571892543e-06,
+      "loss": 1.63361263,
+      "memory(GiB)": 111.15,
+      "step": 45950,
+      "train_speed(iter/s)": 0.447493
+    },
+    {
+      "acc": 0.6507236,
+      "epoch": 1.1657787924911212,
+      "grad_norm": 5.0625,
+      "learning_rate": 4.048652083680847e-06,
+      "loss": 1.62778625,
+      "memory(GiB)": 111.15,
+      "step": 45955,
+      "train_speed(iter/s)": 0.447519
+    },
+    {
+      "acc": 0.63706827,
+      "epoch": 1.1659056316590564,
+      "grad_norm": 4.90625,
+      "learning_rate": 4.047622637313678e-06,
+      "loss": 1.74024296,
+      "memory(GiB)": 111.15,
+      "step": 45960,
+      "train_speed(iter/s)": 0.447545
+    },
+    {
+      "acc": 0.65976381,
+      "epoch": 1.1660324708269914,
+      "grad_norm": 5.25,
+      "learning_rate": 4.046593232836319e-06,
+      "loss": 1.59403715,
+      "memory(GiB)": 111.15,
+      "step": 45965,
+      "train_speed(iter/s)": 0.44757
+    },
+    {
+      "acc": 0.65821991,
+      "epoch": 1.1661593099949263,
+      "grad_norm": 5.34375,
+      "learning_rate": 4.045563870294047e-06,
+      "loss": 1.65757065,
+      "memory(GiB)": 111.15,
+      "step": 45970,
+      "train_speed(iter/s)": 0.447596
+    },
+    {
+      "acc": 0.66371403,
+      "epoch": 1.1662861491628616,
+      "grad_norm": 5.71875,
+      "learning_rate": 4.044534549732135e-06,
+      "loss": 1.51997395,
+      "memory(GiB)": 111.15,
+      "step": 45975,
+      "train_speed(iter/s)": 0.447621
+    },
+    {
+      "acc": 0.66796732,
+      "epoch": 1.1664129883307965,
+      "grad_norm": 5.34375,
+      "learning_rate": 4.043505271195861e-06,
+      "loss": 1.54382343,
+      "memory(GiB)": 111.15,
+      "step": 45980,
+      "train_speed(iter/s)": 0.447647
+    },
+    {
+      "acc": 0.65047317,
+      "epoch": 1.1665398274987315,
+      "grad_norm": 6.375,
+      "learning_rate": 4.042476034730494e-06,
+      "loss": 1.68490982,
+      "memory(GiB)": 111.15,
+      "step": 45985,
+      "train_speed(iter/s)": 0.447672
+    },
+    {
+      "acc": 0.64315152,
+      "epoch": 1.1666666666666667,
+      "grad_norm": 5.65625,
+      "learning_rate": 4.041446840381309e-06,
+      "loss": 1.69502392,
+      "memory(GiB)": 111.15,
+      "step": 45990,
+      "train_speed(iter/s)": 0.447698
+    },
+    {
+      "acc": 0.65586853,
+      "epoch": 1.1667935058346017,
+      "grad_norm": 5.21875,
+      "learning_rate": 4.040417688193569e-06,
+      "loss": 1.608494,
+      "memory(GiB)": 111.15,
+      "step": 45995,
+      "train_speed(iter/s)": 0.447723
+    },
+    {
+      "acc": 0.65223169,
+      "epoch": 1.1669203450025367,
+      "grad_norm": 5.3125,
+      "learning_rate": 4.039388578212545e-06,
+      "loss": 1.59654255,
+      "memory(GiB)": 111.15,
+      "step": 46000,
+      "train_speed(iter/s)": 0.447749
+    },
+    {
+      "epoch": 1.1669203450025367,
+      "eval_acc": 0.6433533012181677,
+      "eval_loss": 1.6076205968856812,
+      "eval_runtime": 114.8764,
+      "eval_samples_per_second": 55.451,
+      "eval_steps_per_second": 27.725,
+      "step": 46000
+    },
+    {
+      "acc": 0.65129728,
+      "epoch": 1.167047184170472,
+      "grad_norm": 5.65625,
+      "learning_rate": 4.0383595104834975e-06,
+      "loss": 1.62004433,
+      "memory(GiB)": 111.15,
+      "step": 46005,
+      "train_speed(iter/s)": 0.447254
+    },
+    {
+      "acc": 0.64594607,
+      "epoch": 1.167174023338407,
+      "grad_norm": 5.59375,
+      "learning_rate": 4.037330485051695e-06,
+      "loss": 1.64879303,
+      "memory(GiB)": 111.15,
+      "step": 46010,
+      "train_speed(iter/s)": 0.447279
+    },
+    {
+      "acc": 0.63482361,
+      "epoch": 1.167300862506342,
+      "grad_norm": 4.375,
+      "learning_rate": 4.0363015019623955e-06,
+      "loss": 1.63845749,
+      "memory(GiB)": 111.15,
+      "step": 46015,
+      "train_speed(iter/s)": 0.447305
+    },
+    {
+      "acc": 0.661023,
+      "epoch": 1.167427701674277,
+      "grad_norm": 4.5625,
+      "learning_rate": 4.0352725612608565e-06,
+      "loss": 1.59599619,
+      "memory(GiB)": 111.15,
+      "step": 46020,
+      "train_speed(iter/s)": 0.44733
+    },
+    {
+      "acc": 0.64989014,
+      "epoch": 1.167554540842212,
+      "grad_norm": 6.0,
+      "learning_rate": 4.0342436629923385e-06,
+      "loss": 1.64050159,
+      "memory(GiB)": 111.15,
+      "step": 46025,
+      "train_speed(iter/s)": 0.447356
+    },
+    {
+      "acc": 0.65782065,
+      "epoch": 1.167681380010147,
+      "grad_norm": 5.375,
+      "learning_rate": 4.033214807202098e-06,
+      "loss": 1.61310482,
+      "memory(GiB)": 111.15,
+      "step": 46030,
+      "train_speed(iter/s)": 0.447381
+    },
+    {
+      "acc": 0.65424347,
+      "epoch": 1.1678082191780823,
+      "grad_norm": 5.625,
+      "learning_rate": 4.032185993935385e-06,
+      "loss": 1.63646259,
+      "memory(GiB)": 111.15,
+      "step": 46035,
+      "train_speed(iter/s)": 0.447407
+    },
+    {
+      "acc": 0.65436678,
+      "epoch": 1.1679350583460173,
+      "grad_norm": 5.875,
+      "learning_rate": 4.031157223237452e-06,
+      "loss": 1.56024246,
+      "memory(GiB)": 111.15,
+      "step": 46040,
+      "train_speed(iter/s)": 0.447432
+    },
+    {
+      "acc": 0.665942,
+      "epoch": 1.1680618975139523,
+      "grad_norm": 5.5625,
+      "learning_rate": 4.0301284951535504e-06,
+      "loss": 1.54558783,
+      "memory(GiB)": 111.15,
+      "step": 46045,
+      "train_speed(iter/s)": 0.447458
+    },
+    {
+      "acc": 0.66312885,
+      "epoch": 1.1681887366818873,
+      "grad_norm": 5.03125,
+      "learning_rate": 4.029099809728929e-06,
+      "loss": 1.62627144,
+      "memory(GiB)": 111.15,
+      "step": 46050,
+      "train_speed(iter/s)": 0.447483
+    },
+    {
+      "acc": 0.64464793,
+      "epoch": 1.1683155758498225,
+      "grad_norm": 5.71875,
+      "learning_rate": 4.028071167008831e-06,
+      "loss": 1.6737175,
+      "memory(GiB)": 111.15,
+      "step": 46055,
+      "train_speed(iter/s)": 0.447509
+    },
+    {
+      "acc": 0.65565872,
+      "epoch": 1.1684424150177575,
+      "grad_norm": 5.28125,
+      "learning_rate": 4.027042567038503e-06,
+      "loss": 1.58504276,
+      "memory(GiB)": 111.15,
+      "step": 46060,
+      "train_speed(iter/s)": 0.447535
+    },
+    {
+      "acc": 0.65335665,
+      "epoch": 1.1685692541856925,
+      "grad_norm": 4.59375,
+      "learning_rate": 4.026014009863186e-06,
+      "loss": 1.65901375,
+      "memory(GiB)": 111.15,
+      "step": 46065,
+      "train_speed(iter/s)": 0.44756
+    },
+    {
+      "acc": 0.65064082,
+      "epoch": 1.1686960933536277,
+      "grad_norm": 5.59375,
+      "learning_rate": 4.024985495528124e-06,
+      "loss": 1.63496971,
+      "memory(GiB)": 111.15,
+      "step": 46070,
+      "train_speed(iter/s)": 0.447586
+    },
+    {
+      "acc": 0.65284586,
+      "epoch": 1.1688229325215627,
+      "grad_norm": 5.5625,
+      "learning_rate": 4.023957024078552e-06,
+      "loss": 1.64229202,
+      "memory(GiB)": 111.15,
+      "step": 46075,
+      "train_speed(iter/s)": 0.447611
+    },
+    {
+      "acc": 0.65518007,
+      "epoch": 1.1689497716894977,
+      "grad_norm": 6.53125,
+      "learning_rate": 4.022928595559707e-06,
+      "loss": 1.56659632,
+      "memory(GiB)": 111.15,
+      "step": 46080,
+      "train_speed(iter/s)": 0.447637
+    },
+    {
+      "acc": 0.65121336,
+      "epoch": 1.1690766108574329,
+      "grad_norm": 5.28125,
+      "learning_rate": 4.021900210016824e-06,
+      "loss": 1.64282799,
+      "memory(GiB)": 111.15,
+      "step": 46085,
+      "train_speed(iter/s)": 0.447662
+    },
+    {
+      "acc": 0.65985565,
+      "epoch": 1.1692034500253679,
+      "grad_norm": 5.25,
+      "learning_rate": 4.020871867495139e-06,
+      "loss": 1.56763611,
+      "memory(GiB)": 111.15,
+      "step": 46090,
+      "train_speed(iter/s)": 0.447688
+    },
+    {
+      "acc": 0.66572523,
+      "epoch": 1.1693302891933028,
+      "grad_norm": 5.5,
+      "learning_rate": 4.01984356803988e-06,
+      "loss": 1.58113136,
+      "memory(GiB)": 111.15,
+      "step": 46095,
+      "train_speed(iter/s)": 0.447713
+    },
+    {
+      "acc": 0.65982389,
+      "epoch": 1.169457128361238,
+      "grad_norm": 4.9375,
+      "learning_rate": 4.018815311696274e-06,
+      "loss": 1.61116714,
+      "memory(GiB)": 111.15,
+      "step": 46100,
+      "train_speed(iter/s)": 0.447739
+    },
+    {
+      "epoch": 1.169457128361238,
+      "eval_acc": 0.6433729362817122,
+      "eval_loss": 1.6077944040298462,
+      "eval_runtime": 116.3192,
+      "eval_samples_per_second": 54.763,
+      "eval_steps_per_second": 27.382,
+      "step": 46100
+    },
+    {
+      "acc": 0.64126377,
+      "epoch": 1.169583967529173,
+      "grad_norm": 6.53125,
+      "learning_rate": 4.017787098509555e-06,
+      "loss": 1.63943253,
+      "memory(GiB)": 111.15,
+      "step": 46105,
+      "train_speed(iter/s)": 0.447239
+    },
+    {
+      "acc": 0.64962978,
+      "epoch": 1.169710806697108,
+      "grad_norm": 5.3125,
+      "learning_rate": 4.016758928524944e-06,
+      "loss": 1.59499207,
+      "memory(GiB)": 111.15,
+      "step": 46110,
+      "train_speed(iter/s)": 0.447264
+    },
+    {
+      "acc": 0.66243248,
+      "epoch": 1.169837645865043,
+      "grad_norm": 5.21875,
+      "learning_rate": 4.015730801787663e-06,
+      "loss": 1.53319874,
+      "memory(GiB)": 111.15,
+      "step": 46115,
+      "train_speed(iter/s)": 0.44729
+    },
+    {
+      "acc": 0.63749385,
+      "epoch": 1.1699644850329782,
+      "grad_norm": 5.25,
+      "learning_rate": 4.014702718342938e-06,
+      "loss": 1.6792057,
+      "memory(GiB)": 111.15,
+      "step": 46120,
+      "train_speed(iter/s)": 0.447316
+    },
+    {
+      "acc": 0.64103279,
+      "epoch": 1.1700913242009132,
+      "grad_norm": 5.125,
+      "learning_rate": 4.013674678235985e-06,
+      "loss": 1.61349277,
+      "memory(GiB)": 111.15,
+      "step": 46125,
+      "train_speed(iter/s)": 0.447341
+    },
+    {
+      "acc": 0.64736233,
+      "epoch": 1.1702181633688482,
+      "grad_norm": 5.25,
+      "learning_rate": 4.012646681512026e-06,
+      "loss": 1.6162899,
+      "memory(GiB)": 111.15,
+      "step": 46130,
+      "train_speed(iter/s)": 0.447367
+    },
+    {
+      "acc": 0.65025172,
+      "epoch": 1.1703450025367834,
+      "grad_norm": 5.46875,
+      "learning_rate": 4.011618728216271e-06,
+      "loss": 1.69266548,
+      "memory(GiB)": 111.15,
+      "step": 46135,
+      "train_speed(iter/s)": 0.447393
+    },
+    {
+      "acc": 0.64566078,
+      "epoch": 1.1704718417047184,
+      "grad_norm": 5.5,
+      "learning_rate": 4.010590818393938e-06,
+      "loss": 1.68417892,
+      "memory(GiB)": 111.15,
+      "step": 46140,
+      "train_speed(iter/s)": 0.447418
+    },
+    {
+      "acc": 0.67257004,
+      "epoch": 1.1705986808726534,
+      "grad_norm": 5.59375,
+      "learning_rate": 4.009562952090238e-06,
+      "loss": 1.58950996,
+      "memory(GiB)": 111.15,
+      "step": 46145,
+      "train_speed(iter/s)": 0.447444
+    },
+    {
+      "acc": 0.64861879,
+      "epoch": 1.1707255200405886,
+      "grad_norm": 5.15625,
+      "learning_rate": 4.0085351293503825e-06,
+      "loss": 1.54161606,
+      "memory(GiB)": 111.15,
+      "step": 46150,
+      "train_speed(iter/s)": 0.44747
+    },
+    {
+      "acc": 0.64405947,
+      "epoch": 1.1708523592085236,
+      "grad_norm": 4.34375,
+      "learning_rate": 4.007507350219578e-06,
+      "loss": 1.70124702,
+      "memory(GiB)": 111.15,
+      "step": 46155,
+      "train_speed(iter/s)": 0.447496
+    },
+    {
+      "acc": 0.65996575,
+      "epoch": 1.1709791983764586,
+      "grad_norm": 5.25,
+      "learning_rate": 4.0064796147430305e-06,
+      "loss": 1.55694695,
+      "memory(GiB)": 111.15,
+      "step": 46160,
+      "train_speed(iter/s)": 0.447521
+    },
+    {
+      "acc": 0.65849524,
+      "epoch": 1.1711060375443938,
+      "grad_norm": 5.21875,
+      "learning_rate": 4.005451922965946e-06,
+      "loss": 1.63474541,
+      "memory(GiB)": 111.15,
+      "step": 46165,
+      "train_speed(iter/s)": 0.447547
+    },
+    {
+      "acc": 0.65836525,
+      "epoch": 1.1712328767123288,
+      "grad_norm": 4.875,
+      "learning_rate": 4.0044242749335285e-06,
+      "loss": 1.57953014,
+      "memory(GiB)": 111.15,
+      "step": 46170,
+      "train_speed(iter/s)": 0.447573
+    },
+    {
+      "acc": 0.64201012,
+      "epoch": 1.1713597158802638,
+      "grad_norm": 4.90625,
+      "learning_rate": 4.0033966706909735e-06,
+      "loss": 1.70995865,
+      "memory(GiB)": 111.15,
+      "step": 46175,
+      "train_speed(iter/s)": 0.447598
+    },
+    {
+      "acc": 0.6452179,
+      "epoch": 1.1714865550481988,
+      "grad_norm": 5.375,
+      "learning_rate": 4.002369110283482e-06,
+      "loss": 1.61254444,
+      "memory(GiB)": 111.15,
+      "step": 46180,
+      "train_speed(iter/s)": 0.447624
+    },
+    {
+      "acc": 0.63404064,
+      "epoch": 1.171613394216134,
+      "grad_norm": 5.0,
+      "learning_rate": 4.001341593756253e-06,
+      "loss": 1.66566048,
+      "memory(GiB)": 111.15,
+      "step": 46185,
+      "train_speed(iter/s)": 0.447649
+    },
+    {
+      "acc": 0.65483942,
+      "epoch": 1.171740233384069,
+      "grad_norm": 6.6875,
+      "learning_rate": 4.00031412115448e-06,
+      "loss": 1.65460205,
+      "memory(GiB)": 111.15,
+      "step": 46190,
+      "train_speed(iter/s)": 0.447675
+    },
+    {
+      "acc": 0.65235558,
+      "epoch": 1.1718670725520042,
+      "grad_norm": 5.5,
+      "learning_rate": 3.999286692523352e-06,
+      "loss": 1.5821825,
+      "memory(GiB)": 111.15,
+      "step": 46195,
+      "train_speed(iter/s)": 0.447701
+    },
+    {
+      "acc": 0.66271048,
+      "epoch": 1.1719939117199392,
+      "grad_norm": 4.71875,
+      "learning_rate": 3.998259307908065e-06,
+      "loss": 1.55272045,
+      "memory(GiB)": 111.15,
+      "step": 46200,
+      "train_speed(iter/s)": 0.447726
+    },
+    {
+      "epoch": 1.1719939117199392,
+      "eval_acc": 0.6433996733895174,
+      "eval_loss": 1.6077109575271606,
+      "eval_runtime": 115.1298,
+      "eval_samples_per_second": 55.329,
+      "eval_steps_per_second": 27.664,
+      "step": 46200
+    },
+    {
+      "acc": 0.64018459,
+      "epoch": 1.1721207508878742,
+      "grad_norm": 6.21875,
+      "learning_rate": 3.997231967353806e-06,
+      "loss": 1.63310089,
+      "memory(GiB)": 111.15,
+      "step": 46205,
+      "train_speed(iter/s)": 0.447233
+    },
+    {
+      "acc": 0.64996023,
+      "epoch": 1.1722475900558091,
+      "grad_norm": 4.875,
+      "learning_rate": 3.996204670905765e-06,
+      "loss": 1.5922576,
+      "memory(GiB)": 111.15,
+      "step": 46210,
+      "train_speed(iter/s)": 0.447259
+    },
+    {
+      "acc": 0.65717735,
+      "epoch": 1.1723744292237444,
+      "grad_norm": 5.09375,
+      "learning_rate": 3.9951774186091195e-06,
+      "loss": 1.61988792,
+      "memory(GiB)": 111.15,
+      "step": 46215,
+      "train_speed(iter/s)": 0.447285
+    },
+    {
+      "acc": 0.67146969,
+      "epoch": 1.1725012683916793,
+      "grad_norm": 6.1875,
+      "learning_rate": 3.9941502105090594e-06,
+      "loss": 1.55701609,
+      "memory(GiB)": 111.15,
+      "step": 46220,
+      "train_speed(iter/s)": 0.44731
+    },
+    {
+      "acc": 0.67363214,
+      "epoch": 1.1726281075596143,
+      "grad_norm": 4.9375,
+      "learning_rate": 3.9931230466507634e-06,
+      "loss": 1.53920803,
+      "memory(GiB)": 111.15,
+      "step": 46225,
+      "train_speed(iter/s)": 0.447336
+    },
+    {
+      "acc": 0.65837116,
+      "epoch": 1.1727549467275495,
+      "grad_norm": 4.9375,
+      "learning_rate": 3.992095927079412e-06,
+      "loss": 1.65090275,
+      "memory(GiB)": 111.15,
+      "step": 46230,
+      "train_speed(iter/s)": 0.447361
+    },
+    {
+      "acc": 0.66441689,
+      "epoch": 1.1728817858954845,
+      "grad_norm": 6.25,
+      "learning_rate": 3.991068851840182e-06,
+      "loss": 1.55966234,
+      "memory(GiB)": 111.15,
+      "step": 46235,
+      "train_speed(iter/s)": 0.447387
+    },
+    {
+      "acc": 0.66298695,
+      "epoch": 1.1730086250634195,
+      "grad_norm": 5.6875,
+      "learning_rate": 3.990041820978246e-06,
+      "loss": 1.57655296,
+      "memory(GiB)": 111.15,
+      "step": 46240,
+      "train_speed(iter/s)": 0.447412
+    },
+    {
+      "acc": 0.66457729,
+      "epoch": 1.1731354642313547,
+      "grad_norm": 6.0,
+      "learning_rate": 3.989014834538782e-06,
+      "loss": 1.56523371,
+      "memory(GiB)": 111.15,
+      "step": 46245,
+      "train_speed(iter/s)": 0.447437
+    },
+    {
+      "acc": 0.66084538,
+      "epoch": 1.1732623033992897,
+      "grad_norm": 6.46875,
+      "learning_rate": 3.987987892566959e-06,
+      "loss": 1.62080421,
+      "memory(GiB)": 111.15,
+      "step": 46250,
+      "train_speed(iter/s)": 0.447463
+    },
+    {
+      "acc": 0.66980453,
+      "epoch": 1.1733891425672247,
+      "grad_norm": 4.5625,
+      "learning_rate": 3.986960995107948e-06,
+      "loss": 1.58061581,
+      "memory(GiB)": 111.15,
+      "step": 46255,
+      "train_speed(iter/s)": 0.447489
+    },
+    {
+      "acc": 0.65931501,
+      "epoch": 1.17351598173516,
+      "grad_norm": 5.0,
+      "learning_rate": 3.985934142206912e-06,
+      "loss": 1.61051922,
+      "memory(GiB)": 111.15,
+      "step": 46260,
+      "train_speed(iter/s)": 0.447514
+    },
+    {
+      "acc": 0.65506196,
+      "epoch": 1.173642820903095,
+      "grad_norm": 5.03125,
+      "learning_rate": 3.984907333909022e-06,
+      "loss": 1.619557,
+      "memory(GiB)": 111.15,
+      "step": 46265,
+      "train_speed(iter/s)": 0.44754
+    },
+    {
+      "acc": 0.64671917,
+      "epoch": 1.17376966007103,
+      "grad_norm": 5.46875,
+      "learning_rate": 3.983880570259441e-06,
+      "loss": 1.65152912,
+      "memory(GiB)": 111.15,
+      "step": 46270,
+      "train_speed(iter/s)": 0.447565
+    },
+    {
+      "acc": 0.65532055,
+      "epoch": 1.1738964992389649,
+      "grad_norm": 5.65625,
+      "learning_rate": 3.982853851303327e-06,
+      "loss": 1.5661068,
+      "memory(GiB)": 111.15,
+      "step": 46275,
+      "train_speed(iter/s)": 0.447591
+    },
+    {
+      "acc": 0.63184781,
+      "epoch": 1.1740233384069,
+      "grad_norm": 6.125,
+      "learning_rate": 3.981827177085842e-06,
+      "loss": 1.68110352,
+      "memory(GiB)": 111.15,
+      "step": 46280,
+      "train_speed(iter/s)": 0.447617
+    },
+    {
+      "acc": 0.64716177,
+      "epoch": 1.174150177574835,
+      "grad_norm": 5.90625,
+      "learning_rate": 3.980800547652143e-06,
+      "loss": 1.62350597,
+      "memory(GiB)": 111.15,
+      "step": 46285,
+      "train_speed(iter/s)": 0.447642
+    },
+    {
+      "acc": 0.63062458,
+      "epoch": 1.17427701674277,
+      "grad_norm": 5.0625,
+      "learning_rate": 3.979773963047388e-06,
+      "loss": 1.7672123,
+      "memory(GiB)": 111.15,
+      "step": 46290,
+      "train_speed(iter/s)": 0.447668
+    },
+    {
+      "acc": 0.65572424,
+      "epoch": 1.1744038559107053,
+      "grad_norm": 5.375,
+      "learning_rate": 3.978747423316729e-06,
+      "loss": 1.57507458,
+      "memory(GiB)": 111.15,
+      "step": 46295,
+      "train_speed(iter/s)": 0.447693
+    },
+    {
+      "acc": 0.64159074,
+      "epoch": 1.1745306950786403,
+      "grad_norm": 5.03125,
+      "learning_rate": 3.977720928505317e-06,
+      "loss": 1.67647572,
+      "memory(GiB)": 111.15,
+      "step": 46300,
+      "train_speed(iter/s)": 0.447719
+    },
+    {
+      "epoch": 1.1745306950786403,
+      "eval_acc": 0.6433378438277177,
+      "eval_loss": 1.6077017784118652,
+      "eval_runtime": 114.1271,
+      "eval_samples_per_second": 55.815,
+      "eval_steps_per_second": 27.907,
+      "step": 46300
+    },
+    {
+      "acc": 0.64731064,
+      "epoch": 1.1746575342465753,
+      "grad_norm": 7.0,
+      "learning_rate": 3.976694478658301e-06,
+      "loss": 1.6575676,
+      "memory(GiB)": 111.15,
+      "step": 46305,
+      "train_speed(iter/s)": 0.447231
+    },
+    {
+      "acc": 0.65658069,
+      "epoch": 1.1747843734145105,
+      "grad_norm": 6.21875,
+      "learning_rate": 3.975668073820834e-06,
+      "loss": 1.60651627,
+      "memory(GiB)": 111.15,
+      "step": 46310,
+      "train_speed(iter/s)": 0.447256
+    },
+    {
+      "acc": 0.67964954,
+      "epoch": 1.1749112125824455,
+      "grad_norm": 6.1875,
+      "learning_rate": 3.9746417140380576e-06,
+      "loss": 1.49111948,
+      "memory(GiB)": 111.15,
+      "step": 46315,
+      "train_speed(iter/s)": 0.447282
+    },
+    {
+      "acc": 0.64998856,
+      "epoch": 1.1750380517503805,
+      "grad_norm": 6.8125,
+      "learning_rate": 3.973615399355114e-06,
+      "loss": 1.65594902,
+      "memory(GiB)": 111.15,
+      "step": 46320,
+      "train_speed(iter/s)": 0.447307
+    },
+    {
+      "acc": 0.6516017,
+      "epoch": 1.1751648909183157,
+      "grad_norm": 5.0,
+      "learning_rate": 3.97258912981715e-06,
+      "loss": 1.65487804,
+      "memory(GiB)": 111.15,
+      "step": 46325,
+      "train_speed(iter/s)": 0.447332
+    },
+    {
+      "acc": 0.65798597,
+      "epoch": 1.1752917300862507,
+      "grad_norm": 5.6875,
+      "learning_rate": 3.9715629054693035e-06,
+      "loss": 1.56240063,
+      "memory(GiB)": 111.15,
+      "step": 46330,
+      "train_speed(iter/s)": 0.447358
+    },
+    {
+      "acc": 0.65895128,
+      "epoch": 1.1754185692541856,
+      "grad_norm": 5.21875,
+      "learning_rate": 3.970536726356711e-06,
+      "loss": 1.59832468,
+      "memory(GiB)": 111.15,
+      "step": 46335,
+      "train_speed(iter/s)": 0.447383
+    },
+    {
+      "acc": 0.64337683,
+      "epoch": 1.1755454084221206,
+      "grad_norm": 4.46875,
+      "learning_rate": 3.969510592524509e-06,
+      "loss": 1.64710369,
+      "memory(GiB)": 111.15,
+      "step": 46340,
+      "train_speed(iter/s)": 0.447409
+    },
+    {
+      "acc": 0.65196567,
+      "epoch": 1.1756722475900558,
+      "grad_norm": 4.71875,
+      "learning_rate": 3.968484504017833e-06,
+      "loss": 1.65350075,
+      "memory(GiB)": 111.15,
+      "step": 46345,
+      "train_speed(iter/s)": 0.447434
+    },
+    {
+      "acc": 0.66584568,
+      "epoch": 1.1757990867579908,
+      "grad_norm": 6.28125,
+      "learning_rate": 3.967458460881815e-06,
+      "loss": 1.58108406,
+      "memory(GiB)": 111.15,
+      "step": 46350,
+      "train_speed(iter/s)": 0.447459
+    },
+    {
+      "acc": 0.66394091,
+      "epoch": 1.175925925925926,
+      "grad_norm": 5.40625,
+      "learning_rate": 3.96643246316158e-06,
+      "loss": 1.56845341,
+      "memory(GiB)": 111.15,
+      "step": 46355,
+      "train_speed(iter/s)": 0.447485
+    },
+    {
+      "acc": 0.65722733,
+      "epoch": 1.176052765093861,
+      "grad_norm": 4.5625,
+      "learning_rate": 3.965406510902263e-06,
+      "loss": 1.56991081,
+      "memory(GiB)": 111.15,
+      "step": 46360,
+      "train_speed(iter/s)": 0.44751
+    },
+    {
+      "acc": 0.6644145,
+      "epoch": 1.176179604261796,
+      "grad_norm": 5.9375,
+      "learning_rate": 3.9643806041489855e-06,
+      "loss": 1.5855032,
+      "memory(GiB)": 111.15,
+      "step": 46365,
+      "train_speed(iter/s)": 0.447536
+    },
+    {
+      "acc": 0.64371548,
+      "epoch": 1.176306443429731,
+      "grad_norm": 5.125,
+      "learning_rate": 3.963354742946874e-06,
+      "loss": 1.61697254,
+      "memory(GiB)": 111.15,
+      "step": 46370,
+      "train_speed(iter/s)": 0.447561
+    },
+    {
+      "acc": 0.65071883,
+      "epoch": 1.1764332825976662,
+      "grad_norm": 4.34375,
+      "learning_rate": 3.962328927341048e-06,
+      "loss": 1.64102936,
+      "memory(GiB)": 111.15,
+      "step": 46375,
+      "train_speed(iter/s)": 0.447587
+    },
+    {
+      "acc": 0.66896429,
+      "epoch": 1.1765601217656012,
+      "grad_norm": 6.25,
+      "learning_rate": 3.961303157376628e-06,
+      "loss": 1.57396908,
+      "memory(GiB)": 111.15,
+      "step": 46380,
+      "train_speed(iter/s)": 0.447612
+    },
+    {
+      "acc": 0.64574375,
+      "epoch": 1.1766869609335362,
+      "grad_norm": 5.625,
+      "learning_rate": 3.960277433098734e-06,
+      "loss": 1.6046608,
+      "memory(GiB)": 111.15,
+      "step": 46385,
+      "train_speed(iter/s)": 0.447638
+    },
+    {
+      "acc": 0.6451169,
+      "epoch": 1.1768138001014714,
+      "grad_norm": 6.03125,
+      "learning_rate": 3.959251754552481e-06,
+      "loss": 1.69671974,
+      "memory(GiB)": 111.15,
+      "step": 46390,
+      "train_speed(iter/s)": 0.447664
+    },
+    {
+      "acc": 0.6438715,
+      "epoch": 1.1769406392694064,
+      "grad_norm": 4.78125,
+      "learning_rate": 3.958226121782982e-06,
+      "loss": 1.64787369,
+      "memory(GiB)": 111.15,
+      "step": 46395,
+      "train_speed(iter/s)": 0.447689
+    },
+    {
+      "acc": 0.65169549,
+      "epoch": 1.1770674784373414,
+      "grad_norm": 5.1875,
+      "learning_rate": 3.9572005348353486e-06,
+      "loss": 1.5928566,
+      "memory(GiB)": 111.15,
+      "step": 46400,
+      "train_speed(iter/s)": 0.447714
+    },
+    {
+      "epoch": 1.1770674784373414,
+      "eval_acc": 0.6434343480762025,
+      "eval_loss": 1.6076468229293823,
+      "eval_runtime": 116.1477,
+      "eval_samples_per_second": 54.844,
+      "eval_steps_per_second": 27.422,
+      "step": 46400
+    },
+    {
+      "acc": 0.63697977,
+      "epoch": 1.1771943176052766,
+      "grad_norm": 6.90625,
+      "learning_rate": 3.956174993754691e-06,
+      "loss": 1.66369038,
+      "memory(GiB)": 111.15,
+      "step": 46405,
+      "train_speed(iter/s)": 0.447219
+    },
+    {
+      "acc": 0.66791525,
+      "epoch": 1.1773211567732116,
+      "grad_norm": 4.4375,
+      "learning_rate": 3.955149498586119e-06,
+      "loss": 1.51250553,
+      "memory(GiB)": 111.15,
+      "step": 46410,
+      "train_speed(iter/s)": 0.447244
+    },
+    {
+      "acc": 0.64407272,
+      "epoch": 1.1774479959411466,
+      "grad_norm": 6.34375,
+      "learning_rate": 3.954124049374736e-06,
+      "loss": 1.66300163,
+      "memory(GiB)": 111.15,
+      "step": 46415,
+      "train_speed(iter/s)": 0.447269
+    },
+    {
+      "acc": 0.65990496,
+      "epoch": 1.1775748351090818,
+      "grad_norm": 4.625,
+      "learning_rate": 3.9530986461656465e-06,
+      "loss": 1.54421759,
+      "memory(GiB)": 111.15,
+      "step": 46420,
+      "train_speed(iter/s)": 0.447295
+    },
+    {
+      "acc": 0.6535862,
+      "epoch": 1.1777016742770168,
+      "grad_norm": 5.8125,
+      "learning_rate": 3.952073289003953e-06,
+      "loss": 1.59470539,
+      "memory(GiB)": 111.15,
+      "step": 46425,
+      "train_speed(iter/s)": 0.44732
+    },
+    {
+      "acc": 0.66695662,
+      "epoch": 1.1778285134449518,
+      "grad_norm": 5.46875,
+      "learning_rate": 3.9510479779347566e-06,
+      "loss": 1.54427795,
+      "memory(GiB)": 111.15,
+      "step": 46430,
+      "train_speed(iter/s)": 0.447345
+    },
+    {
+      "acc": 0.64840736,
+      "epoch": 1.1779553526128868,
+      "grad_norm": 5.46875,
+      "learning_rate": 3.950022713003151e-06,
+      "loss": 1.6231411,
+      "memory(GiB)": 111.15,
+      "step": 46435,
+      "train_speed(iter/s)": 0.447371
+    },
+    {
+      "acc": 0.64396362,
+      "epoch": 1.178082191780822,
+      "grad_norm": 5.15625,
+      "learning_rate": 3.9489974942542355e-06,
+      "loss": 1.64093227,
+      "memory(GiB)": 111.15,
+      "step": 46440,
+      "train_speed(iter/s)": 0.447396
+    },
+    {
+      "acc": 0.65322843,
+      "epoch": 1.178209030948757,
+      "grad_norm": 5.53125,
+      "learning_rate": 3.947972321733101e-06,
+      "loss": 1.59906521,
+      "memory(GiB)": 111.15,
+      "step": 46445,
+      "train_speed(iter/s)": 0.447422
+    },
+    {
+      "acc": 0.65581274,
+      "epoch": 1.178335870116692,
+      "grad_norm": 4.9375,
+      "learning_rate": 3.946947195484843e-06,
+      "loss": 1.63855019,
+      "memory(GiB)": 111.15,
+      "step": 46450,
+      "train_speed(iter/s)": 0.447447
+    },
+    {
+      "acc": 0.6486804,
+      "epoch": 1.1784627092846272,
+      "grad_norm": 5.6875,
+      "learning_rate": 3.945922115554548e-06,
+      "loss": 1.65615807,
+      "memory(GiB)": 111.15,
+      "step": 46455,
+      "train_speed(iter/s)": 0.447473
+    },
+    {
+      "acc": 0.661484,
+      "epoch": 1.1785895484525621,
+      "grad_norm": 4.9375,
+      "learning_rate": 3.944897081987303e-06,
+      "loss": 1.6774065,
+      "memory(GiB)": 111.15,
+      "step": 46460,
+      "train_speed(iter/s)": 0.447498
+    },
+    {
+      "acc": 0.64812217,
+      "epoch": 1.1787163876204971,
+      "grad_norm": 7.40625,
+      "learning_rate": 3.943872094828197e-06,
+      "loss": 1.64675961,
+      "memory(GiB)": 111.15,
+      "step": 46465,
+      "train_speed(iter/s)": 0.447524
+    },
+    {
+      "acc": 0.66516151,
+      "epoch": 1.1788432267884323,
+      "grad_norm": 4.84375,
+      "learning_rate": 3.942847154122312e-06,
+      "loss": 1.55543537,
+      "memory(GiB)": 111.15,
+      "step": 46470,
+      "train_speed(iter/s)": 0.44755
+    },
+    {
+      "acc": 0.66608601,
+      "epoch": 1.1789700659563673,
+      "grad_norm": 6.0,
+      "learning_rate": 3.941822259914728e-06,
+      "loss": 1.56402445,
+      "memory(GiB)": 111.15,
+      "step": 46475,
+      "train_speed(iter/s)": 0.447575
+    },
+    {
+      "acc": 0.65318666,
+      "epoch": 1.1790969051243023,
+      "grad_norm": 4.5,
+      "learning_rate": 3.940797412250524e-06,
+      "loss": 1.60932426,
+      "memory(GiB)": 111.15,
+      "step": 46480,
+      "train_speed(iter/s)": 0.447601
+    },
+    {
+      "acc": 0.65920687,
+      "epoch": 1.1792237442922375,
+      "grad_norm": 4.375,
+      "learning_rate": 3.93977261117478e-06,
+      "loss": 1.63443127,
+      "memory(GiB)": 111.15,
+      "step": 46485,
+      "train_speed(iter/s)": 0.447626
+    },
+    {
+      "acc": 0.65180326,
+      "epoch": 1.1793505834601725,
+      "grad_norm": 4.78125,
+      "learning_rate": 3.938747856732572e-06,
+      "loss": 1.61324806,
+      "memory(GiB)": 111.15,
+      "step": 46490,
+      "train_speed(iter/s)": 0.447652
+    },
+    {
+      "acc": 0.66408238,
+      "epoch": 1.1794774226281075,
+      "grad_norm": 5.40625,
+      "learning_rate": 3.9377231489689685e-06,
+      "loss": 1.61795235,
+      "memory(GiB)": 111.15,
+      "step": 46495,
+      "train_speed(iter/s)": 0.447677
+    },
+    {
+      "acc": 0.64385667,
+      "epoch": 1.1796042617960425,
+      "grad_norm": 5.28125,
+      "learning_rate": 3.936698487929045e-06,
+      "loss": 1.63654137,
+      "memory(GiB)": 111.15,
+      "step": 46500,
+      "train_speed(iter/s)": 0.447703
+    },
+    {
+      "epoch": 1.1796042617960425,
+      "eval_acc": 0.6433512123816204,
+      "eval_loss": 1.6077419519424438,
+      "eval_runtime": 115.2692,
+      "eval_samples_per_second": 55.262,
+      "eval_steps_per_second": 27.631,
+      "step": 46500
+    },
+    {
+      "acc": 0.6648531,
+      "epoch": 1.1797311009639777,
+      "grad_norm": 4.84375,
+      "learning_rate": 3.935673873657868e-06,
+      "loss": 1.55594215,
+      "memory(GiB)": 111.15,
+      "step": 46505,
+      "train_speed(iter/s)": 0.447212
+    },
+    {
+      "acc": 0.64736304,
+      "epoch": 1.1798579401319127,
+      "grad_norm": 6.21875,
+      "learning_rate": 3.934649306200508e-06,
+      "loss": 1.65629082,
+      "memory(GiB)": 111.15,
+      "step": 46510,
+      "train_speed(iter/s)": 0.447237
+    },
+    {
+      "acc": 0.65347881,
+      "epoch": 1.179984779299848,
+      "grad_norm": 5.09375,
+      "learning_rate": 3.933624785602027e-06,
+      "loss": 1.61072102,
+      "memory(GiB)": 111.15,
+      "step": 46515,
+      "train_speed(iter/s)": 0.447262
+    },
+    {
+      "acc": 0.63701611,
+      "epoch": 1.180111618467783,
+      "grad_norm": 4.90625,
+      "learning_rate": 3.932600311907489e-06,
+      "loss": 1.63558807,
+      "memory(GiB)": 111.15,
+      "step": 46520,
+      "train_speed(iter/s)": 0.447287
+    },
+    {
+      "acc": 0.64496632,
+      "epoch": 1.1802384576357179,
+      "grad_norm": 4.65625,
+      "learning_rate": 3.931575885161955e-06,
+      "loss": 1.65544777,
+      "memory(GiB)": 111.15,
+      "step": 46525,
+      "train_speed(iter/s)": 0.447313
+    },
+    {
+      "acc": 0.64037528,
+      "epoch": 1.1803652968036529,
+      "grad_norm": 5.25,
+      "learning_rate": 3.930551505410484e-06,
+      "loss": 1.62607574,
+      "memory(GiB)": 111.15,
+      "step": 46530,
+      "train_speed(iter/s)": 0.447338
+    },
+    {
+      "acc": 0.65760565,
+      "epoch": 1.180492135971588,
+      "grad_norm": 5.375,
+      "learning_rate": 3.929527172698132e-06,
+      "loss": 1.6124197,
+      "memory(GiB)": 111.15,
+      "step": 46535,
+      "train_speed(iter/s)": 0.447363
+    },
+    {
+      "acc": 0.64342122,
+      "epoch": 1.180618975139523,
+      "grad_norm": 4.75,
+      "learning_rate": 3.928502887069954e-06,
+      "loss": 1.63453407,
+      "memory(GiB)": 111.15,
+      "step": 46540,
+      "train_speed(iter/s)": 0.447389
+    },
+    {
+      "acc": 0.67477942,
+      "epoch": 1.180745814307458,
+      "grad_norm": 5.09375,
+      "learning_rate": 3.927478648571003e-06,
+      "loss": 1.5179882,
+      "memory(GiB)": 111.15,
+      "step": 46545,
+      "train_speed(iter/s)": 0.447414
+    },
+    {
+      "acc": 0.64556885,
+      "epoch": 1.1808726534753933,
+      "grad_norm": 6.6875,
+      "learning_rate": 3.926454457246331e-06,
+      "loss": 1.61301403,
+      "memory(GiB)": 111.15,
+      "step": 46550,
+      "train_speed(iter/s)": 0.447439
+    },
+    {
+      "acc": 0.64081244,
+      "epoch": 1.1809994926433283,
+      "grad_norm": 5.78125,
+      "learning_rate": 3.9254303131409834e-06,
+      "loss": 1.66604939,
+      "memory(GiB)": 111.15,
+      "step": 46555,
+      "train_speed(iter/s)": 0.447465
+    },
+    {
+      "acc": 0.64670782,
+      "epoch": 1.1811263318112633,
+      "grad_norm": 6.3125,
+      "learning_rate": 3.924406216300009e-06,
+      "loss": 1.59214859,
+      "memory(GiB)": 111.15,
+      "step": 46560,
+      "train_speed(iter/s)": 0.44749
+    },
+    {
+      "acc": 0.65820322,
+      "epoch": 1.1812531709791985,
+      "grad_norm": 5.375,
+      "learning_rate": 3.92338216676845e-06,
+      "loss": 1.62463894,
+      "memory(GiB)": 111.15,
+      "step": 46565,
+      "train_speed(iter/s)": 0.447515
+    },
+    {
+      "acc": 0.64439669,
+      "epoch": 1.1813800101471335,
+      "grad_norm": 5.71875,
+      "learning_rate": 3.922358164591353e-06,
+      "loss": 1.68105087,
+      "memory(GiB)": 111.15,
+      "step": 46570,
+      "train_speed(iter/s)": 0.447541
+    },
+    {
+      "acc": 0.64659362,
+      "epoch": 1.1815068493150684,
+      "grad_norm": 4.90625,
+      "learning_rate": 3.921334209813752e-06,
+      "loss": 1.64357643,
+      "memory(GiB)": 111.15,
+      "step": 46575,
+      "train_speed(iter/s)": 0.447566
+    },
+    {
+      "acc": 0.64592791,
+      "epoch": 1.1816336884830037,
+      "grad_norm": 4.9375,
+      "learning_rate": 3.92031030248069e-06,
+      "loss": 1.64956264,
+      "memory(GiB)": 111.15,
+      "step": 46580,
+      "train_speed(iter/s)": 0.447591
+    },
+    {
+      "acc": 0.63438368,
+      "epoch": 1.1817605276509386,
+      "grad_norm": 5.125,
+      "learning_rate": 3.9192864426372e-06,
+      "loss": 1.66991539,
+      "memory(GiB)": 111.15,
+      "step": 46585,
+      "train_speed(iter/s)": 0.447616
+    },
+    {
+      "acc": 0.66563625,
+      "epoch": 1.1818873668188736,
+      "grad_norm": 5.3125,
+      "learning_rate": 3.918262630328319e-06,
+      "loss": 1.55806255,
+      "memory(GiB)": 111.15,
+      "step": 46590,
+      "train_speed(iter/s)": 0.447642
+    },
+    {
+      "acc": 0.65755582,
+      "epoch": 1.1820142059868086,
+      "grad_norm": 4.65625,
+      "learning_rate": 3.917238865599077e-06,
+      "loss": 1.61739502,
+      "memory(GiB)": 111.15,
+      "step": 46595,
+      "train_speed(iter/s)": 0.447667
+    },
+    {
+      "acc": 0.67645588,
+      "epoch": 1.1821410451547438,
+      "grad_norm": 5.125,
+      "learning_rate": 3.916215148494502e-06,
+      "loss": 1.55741835,
+      "memory(GiB)": 111.15,
+      "step": 46600,
+      "train_speed(iter/s)": 0.447692
+    },
+    {
+      "epoch": 1.1821410451547438,
+      "eval_acc": 0.6433340839219327,
+      "eval_loss": 1.607783555984497,
+      "eval_runtime": 113.5108,
+      "eval_samples_per_second": 56.118,
+      "eval_steps_per_second": 28.059,
+      "step": 46600
+    },
+    {
+      "acc": 0.63433313,
+      "epoch": 1.1822678843226788,
+      "grad_norm": 6.15625,
+      "learning_rate": 3.9151914790596255e-06,
+      "loss": 1.68751411,
+      "memory(GiB)": 111.15,
+      "step": 46605,
+      "train_speed(iter/s)": 0.44721
+    },
+    {
+      "acc": 0.65694666,
+      "epoch": 1.1823947234906138,
+      "grad_norm": 5.46875,
+      "learning_rate": 3.914167857339472e-06,
+      "loss": 1.59329948,
+      "memory(GiB)": 111.15,
+      "step": 46610,
+      "train_speed(iter/s)": 0.447235
+    },
+    {
+      "acc": 0.6377717,
+      "epoch": 1.182521562658549,
+      "grad_norm": 5.53125,
+      "learning_rate": 3.913144283379061e-06,
+      "loss": 1.65581551,
+      "memory(GiB)": 111.15,
+      "step": 46615,
+      "train_speed(iter/s)": 0.44726
+    },
+    {
+      "acc": 0.65438347,
+      "epoch": 1.182648401826484,
+      "grad_norm": 5.40625,
+      "learning_rate": 3.912120757223418e-06,
+      "loss": 1.68463211,
+      "memory(GiB)": 111.15,
+      "step": 46620,
+      "train_speed(iter/s)": 0.447285
+    },
+    {
+      "acc": 0.66205082,
+      "epoch": 1.182775240994419,
+      "grad_norm": 5.8125,
+      "learning_rate": 3.911097278917561e-06,
+      "loss": 1.60170631,
+      "memory(GiB)": 111.15,
+      "step": 46625,
+      "train_speed(iter/s)": 0.44731
+    },
+    {
+      "acc": 0.64891191,
+      "epoch": 1.1829020801623542,
+      "grad_norm": 5.71875,
+      "learning_rate": 3.91007384850651e-06,
+      "loss": 1.59540462,
+      "memory(GiB)": 111.15,
+      "step": 46630,
+      "train_speed(iter/s)": 0.447335
+    },
+    {
+      "acc": 0.65784578,
+      "epoch": 1.1830289193302892,
+      "grad_norm": 4.84375,
+      "learning_rate": 3.909050466035274e-06,
+      "loss": 1.54751396,
+      "memory(GiB)": 111.15,
+      "step": 46635,
+      "train_speed(iter/s)": 0.44736
+    },
+    {
+      "acc": 0.64930005,
+      "epoch": 1.1831557584982242,
+      "grad_norm": 4.9375,
+      "learning_rate": 3.90802713154887e-06,
+      "loss": 1.61828537,
+      "memory(GiB)": 111.15,
+      "step": 46640,
+      "train_speed(iter/s)": 0.447385
+    },
+    {
+      "acc": 0.66440458,
+      "epoch": 1.1832825976661594,
+      "grad_norm": 5.34375,
+      "learning_rate": 3.9070038450923074e-06,
+      "loss": 1.54139538,
+      "memory(GiB)": 111.15,
+      "step": 46645,
+      "train_speed(iter/s)": 0.447411
+    },
+    {
+      "acc": 0.64255705,
+      "epoch": 1.1834094368340944,
+      "grad_norm": 5.78125,
+      "learning_rate": 3.9059806067105985e-06,
+      "loss": 1.62912636,
+      "memory(GiB)": 111.15,
+      "step": 46650,
+      "train_speed(iter/s)": 0.447436
+    },
+    {
+      "acc": 0.64266562,
+      "epoch": 1.1835362760020294,
+      "grad_norm": 5.4375,
+      "learning_rate": 3.904957416448744e-06,
+      "loss": 1.6719738,
+      "memory(GiB)": 111.15,
+      "step": 46655,
+      "train_speed(iter/s)": 0.447461
+    },
+    {
+      "acc": 0.663482,
+      "epoch": 1.1836631151699644,
+      "grad_norm": 5.9375,
+      "learning_rate": 3.903934274351753e-06,
+      "loss": 1.60834236,
+      "memory(GiB)": 111.15,
+      "step": 46660,
+      "train_speed(iter/s)": 0.447486
+    },
+    {
+      "acc": 0.66064787,
+      "epoch": 1.1837899543378996,
+      "grad_norm": 5.5625,
+      "learning_rate": 3.9029111804646245e-06,
+      "loss": 1.58206253,
+      "memory(GiB)": 111.15,
+      "step": 46665,
+      "train_speed(iter/s)": 0.447511
+    },
+    {
+      "acc": 0.64769602,
+      "epoch": 1.1839167935058346,
+      "grad_norm": 5.8125,
+      "learning_rate": 3.9018881348323626e-06,
+      "loss": 1.61800766,
+      "memory(GiB)": 111.15,
+      "step": 46670,
+      "train_speed(iter/s)": 0.447537
+    },
+    {
+      "acc": 0.65959716,
+      "epoch": 1.1840436326737698,
+      "grad_norm": 4.5625,
+      "learning_rate": 3.9008651374999615e-06,
+      "loss": 1.56911325,
+      "memory(GiB)": 111.15,
+      "step": 46675,
+      "train_speed(iter/s)": 0.447562
+    },
+    {
+      "acc": 0.64995155,
+      "epoch": 1.1841704718417048,
+      "grad_norm": 4.9375,
+      "learning_rate": 3.899842188512419e-06,
+      "loss": 1.59900951,
+      "memory(GiB)": 111.15,
+      "step": 46680,
+      "train_speed(iter/s)": 0.447587
+    },
+    {
+      "acc": 0.64757471,
+      "epoch": 1.1842973110096398,
+      "grad_norm": 4.5625,
+      "learning_rate": 3.898819287914729e-06,
+      "loss": 1.60531654,
+      "memory(GiB)": 111.15,
+      "step": 46685,
+      "train_speed(iter/s)": 0.447612
+    },
+    {
+      "acc": 0.64098101,
+      "epoch": 1.1844241501775747,
+      "grad_norm": 5.6875,
+      "learning_rate": 3.897796435751885e-06,
+      "loss": 1.64190083,
+      "memory(GiB)": 111.15,
+      "step": 46690,
+      "train_speed(iter/s)": 0.447637
+    },
+    {
+      "acc": 0.63481112,
+      "epoch": 1.18455098934551,
+      "grad_norm": 5.6875,
+      "learning_rate": 3.896773632068873e-06,
+      "loss": 1.69057503,
+      "memory(GiB)": 111.15,
+      "step": 46695,
+      "train_speed(iter/s)": 0.447662
+    },
+    {
+      "acc": 0.64360027,
+      "epoch": 1.184677828513445,
+      "grad_norm": 5.375,
+      "learning_rate": 3.8957508769106825e-06,
+      "loss": 1.63173294,
+      "memory(GiB)": 111.15,
+      "step": 46700,
+      "train_speed(iter/s)": 0.447687
+    },
+    {
+      "epoch": 1.184677828513445,
+      "eval_acc": 0.6433741895836406,
+      "eval_loss": 1.6077251434326172,
+      "eval_runtime": 114.5728,
+      "eval_samples_per_second": 55.598,
+      "eval_steps_per_second": 27.799,
+      "step": 46700
+    },
+    {
+      "acc": 0.65898213,
+      "epoch": 1.18480466768138,
+      "grad_norm": 4.625,
+      "learning_rate": 3.894728170322298e-06,
+      "loss": 1.62031174,
+      "memory(GiB)": 111.15,
+      "step": 46705,
+      "train_speed(iter/s)": 0.447201
+    },
+    {
+      "acc": 0.66822023,
+      "epoch": 1.1849315068493151,
+      "grad_norm": 5.1875,
+      "learning_rate": 3.893705512348705e-06,
+      "loss": 1.5440136,
+      "memory(GiB)": 111.15,
+      "step": 46710,
+      "train_speed(iter/s)": 0.447226
+    },
+    {
+      "acc": 0.66980667,
+      "epoch": 1.1850583460172501,
+      "grad_norm": 4.4375,
+      "learning_rate": 3.89268290303488e-06,
+      "loss": 1.61800003,
+      "memory(GiB)": 111.15,
+      "step": 46715,
+      "train_speed(iter/s)": 0.447251
+    },
+    {
+      "acc": 0.65823202,
+      "epoch": 1.1851851851851851,
+      "grad_norm": 5.21875,
+      "learning_rate": 3.891660342425807e-06,
+      "loss": 1.53548946,
+      "memory(GiB)": 111.15,
+      "step": 46720,
+      "train_speed(iter/s)": 0.447276
+    },
+    {
+      "acc": 0.67416177,
+      "epoch": 1.1853120243531203,
+      "grad_norm": 6.1875,
+      "learning_rate": 3.890637830566459e-06,
+      "loss": 1.53503933,
+      "memory(GiB)": 111.15,
+      "step": 46725,
+      "train_speed(iter/s)": 0.447302
+    },
+    {
+      "acc": 0.6474494,
+      "epoch": 1.1854388635210553,
+      "grad_norm": 6.71875,
+      "learning_rate": 3.889615367501815e-06,
+      "loss": 1.66917133,
+      "memory(GiB)": 111.15,
+      "step": 46730,
+      "train_speed(iter/s)": 0.447327
+    },
+    {
+      "acc": 0.65724311,
+      "epoch": 1.1855657026889903,
+      "grad_norm": 4.65625,
+      "learning_rate": 3.888592953276842e-06,
+      "loss": 1.62222252,
+      "memory(GiB)": 111.15,
+      "step": 46735,
+      "train_speed(iter/s)": 0.447352
+    },
+    {
+      "acc": 0.66495566,
+      "epoch": 1.1856925418569255,
+      "grad_norm": 4.625,
+      "learning_rate": 3.8875705879365135e-06,
+      "loss": 1.50800276,
+      "memory(GiB)": 111.15,
+      "step": 46740,
+      "train_speed(iter/s)": 0.447377
+    },
+    {
+      "acc": 0.65422091,
+      "epoch": 1.1858193810248605,
+      "grad_norm": 5.78125,
+      "learning_rate": 3.886548271525797e-06,
+      "loss": 1.56123781,
+      "memory(GiB)": 111.15,
+      "step": 46745,
+      "train_speed(iter/s)": 0.447403
+    },
+    {
+      "acc": 0.6607801,
+      "epoch": 1.1859462201927955,
+      "grad_norm": 5.84375,
+      "learning_rate": 3.88552600408966e-06,
+      "loss": 1.55842762,
+      "memory(GiB)": 111.15,
+      "step": 46750,
+      "train_speed(iter/s)": 0.447428
+    },
+    {
+      "acc": 0.64826517,
+      "epoch": 1.1860730593607305,
+      "grad_norm": 5.15625,
+      "learning_rate": 3.8845037856730646e-06,
+      "loss": 1.68134766,
+      "memory(GiB)": 111.15,
+      "step": 46755,
+      "train_speed(iter/s)": 0.447453
+    },
+    {
+      "acc": 0.6506875,
+      "epoch": 1.1861998985286657,
+      "grad_norm": 5.375,
+      "learning_rate": 3.883481616320972e-06,
+      "loss": 1.65179234,
+      "memory(GiB)": 111.15,
+      "step": 46760,
+      "train_speed(iter/s)": 0.447479
+    },
+    {
+      "acc": 0.65702763,
+      "epoch": 1.1863267376966007,
+      "grad_norm": 5.1875,
+      "learning_rate": 3.882459496078343e-06,
+      "loss": 1.64037895,
+      "memory(GiB)": 111.15,
+      "step": 46765,
+      "train_speed(iter/s)": 0.447504
+    },
+    {
+      "acc": 0.65741482,
+      "epoch": 1.1864535768645357,
+      "grad_norm": 6.9375,
+      "learning_rate": 3.881437424990137e-06,
+      "loss": 1.58025188,
+      "memory(GiB)": 111.15,
+      "step": 46770,
+      "train_speed(iter/s)": 0.447529
+    },
+    {
+      "acc": 0.65182114,
+      "epoch": 1.1865804160324709,
+      "grad_norm": 5.8125,
+      "learning_rate": 3.880415403101304e-06,
+      "loss": 1.6149725,
+      "memory(GiB)": 111.15,
+      "step": 46775,
+      "train_speed(iter/s)": 0.447555
+    },
+    {
+      "acc": 0.66503105,
+      "epoch": 1.1867072552004059,
+      "grad_norm": 5.0625,
+      "learning_rate": 3.879393430456801e-06,
+      "loss": 1.54321346,
+      "memory(GiB)": 111.15,
+      "step": 46780,
+      "train_speed(iter/s)": 0.44758
+    },
+    {
+      "acc": 0.64614697,
+      "epoch": 1.1868340943683409,
+      "grad_norm": 5.1875,
+      "learning_rate": 3.87837150710158e-06,
+      "loss": 1.66871834,
+      "memory(GiB)": 111.15,
+      "step": 46785,
+      "train_speed(iter/s)": 0.447605
+    },
+    {
+      "acc": 0.66030612,
+      "epoch": 1.186960933536276,
+      "grad_norm": 5.90625,
+      "learning_rate": 3.877349633080587e-06,
+      "loss": 1.52540379,
+      "memory(GiB)": 111.15,
+      "step": 46790,
+      "train_speed(iter/s)": 0.44763
+    },
+    {
+      "acc": 0.65793371,
+      "epoch": 1.187087772704211,
+      "grad_norm": 5.40625,
+      "learning_rate": 3.876327808438767e-06,
+      "loss": 1.6509758,
+      "memory(GiB)": 111.15,
+      "step": 46795,
+      "train_speed(iter/s)": 0.447656
+    },
+    {
+      "acc": 0.64991207,
+      "epoch": 1.187214611872146,
+      "grad_norm": 5.25,
+      "learning_rate": 3.875306033221069e-06,
+      "loss": 1.54582911,
+      "memory(GiB)": 111.15,
+      "step": 46800,
+      "train_speed(iter/s)": 0.447681
+    },
+    {
+      "epoch": 1.187214611872146,
+      "eval_acc": 0.6433411859661934,
+      "eval_loss": 1.6078166961669922,
+      "eval_runtime": 113.7343,
+      "eval_samples_per_second": 56.008,
+      "eval_steps_per_second": 28.004,
+      "step": 46800
+    },
+    {
+      "acc": 0.63877516,
+      "epoch": 1.1873414510400813,
+      "grad_norm": 5.84375,
+      "learning_rate": 3.874284307472432e-06,
+      "loss": 1.69477615,
+      "memory(GiB)": 111.15,
+      "step": 46805,
+      "train_speed(iter/s)": 0.4472
+    },
+    {
+      "acc": 0.65301046,
+      "epoch": 1.1874682902080163,
+      "grad_norm": 5.28125,
+      "learning_rate": 3.873262631237799e-06,
+      "loss": 1.65873566,
+      "memory(GiB)": 111.15,
+      "step": 46810,
+      "train_speed(iter/s)": 0.447225
+    },
+    {
+      "acc": 0.64105935,
+      "epoch": 1.1875951293759512,
+      "grad_norm": 5.5625,
+      "learning_rate": 3.872241004562105e-06,
+      "loss": 1.71467495,
+      "memory(GiB)": 111.15,
+      "step": 46815,
+      "train_speed(iter/s)": 0.44725
+    },
+    {
+      "acc": 0.66651692,
+      "epoch": 1.1877219685438862,
+      "grad_norm": 6.53125,
+      "learning_rate": 3.871219427490285e-06,
+      "loss": 1.54091167,
+      "memory(GiB)": 111.15,
+      "step": 46820,
+      "train_speed(iter/s)": 0.447276
+    },
+    {
+      "acc": 0.63732157,
+      "epoch": 1.1878488077118214,
+      "grad_norm": 5.96875,
+      "learning_rate": 3.870197900067276e-06,
+      "loss": 1.66475563,
+      "memory(GiB)": 111.15,
+      "step": 46825,
+      "train_speed(iter/s)": 0.447302
+    },
+    {
+      "acc": 0.64778442,
+      "epoch": 1.1879756468797564,
+      "grad_norm": 5.25,
+      "learning_rate": 3.869176422338009e-06,
+      "loss": 1.6131958,
+      "memory(GiB)": 111.15,
+      "step": 46830,
+      "train_speed(iter/s)": 0.447327
+    },
+    {
+      "acc": 0.65855842,
+      "epoch": 1.1881024860476916,
+      "grad_norm": 6.09375,
+      "learning_rate": 3.868154994347409e-06,
+      "loss": 1.62099552,
+      "memory(GiB)": 111.15,
+      "step": 46835,
+      "train_speed(iter/s)": 0.447353
+    },
+    {
+      "acc": 0.67050047,
+      "epoch": 1.1882293252156266,
+      "grad_norm": 6.21875,
+      "learning_rate": 3.867133616140406e-06,
+      "loss": 1.53940811,
+      "memory(GiB)": 111.15,
+      "step": 46840,
+      "train_speed(iter/s)": 0.447378
+    },
+    {
+      "acc": 0.65345144,
+      "epoch": 1.1883561643835616,
+      "grad_norm": 5.8125,
+      "learning_rate": 3.866112287761926e-06,
+      "loss": 1.64423256,
+      "memory(GiB)": 111.15,
+      "step": 46845,
+      "train_speed(iter/s)": 0.447403
+    },
+    {
+      "acc": 0.6415453,
+      "epoch": 1.1884830035514966,
+      "grad_norm": 6.5,
+      "learning_rate": 3.86509100925689e-06,
+      "loss": 1.64514389,
+      "memory(GiB)": 111.15,
+      "step": 46850,
+      "train_speed(iter/s)": 0.447429
+    },
+    {
+      "acc": 0.65050068,
+      "epoch": 1.1886098427194318,
+      "grad_norm": 4.96875,
+      "learning_rate": 3.8640697806702166e-06,
+      "loss": 1.58821697,
+      "memory(GiB)": 111.15,
+      "step": 46855,
+      "train_speed(iter/s)": 0.447454
+    },
+    {
+      "acc": 0.6538517,
+      "epoch": 1.1887366818873668,
+      "grad_norm": 6.09375,
+      "learning_rate": 3.8630486020468265e-06,
+      "loss": 1.65535355,
+      "memory(GiB)": 111.15,
+      "step": 46860,
+      "train_speed(iter/s)": 0.44748
+    },
+    {
+      "acc": 0.64641705,
+      "epoch": 1.1888635210553018,
+      "grad_norm": 5.71875,
+      "learning_rate": 3.862027473431634e-06,
+      "loss": 1.61022339,
+      "memory(GiB)": 111.15,
+      "step": 46865,
+      "train_speed(iter/s)": 0.447505
+    },
+    {
+      "acc": 0.66413507,
+      "epoch": 1.188990360223237,
+      "grad_norm": 6.71875,
+      "learning_rate": 3.861006394869558e-06,
+      "loss": 1.57503166,
+      "memory(GiB)": 111.15,
+      "step": 46870,
+      "train_speed(iter/s)": 0.447531
+    },
+    {
+      "acc": 0.64258285,
+      "epoch": 1.189117199391172,
+      "grad_norm": 5.03125,
+      "learning_rate": 3.859985366405502e-06,
+      "loss": 1.66073227,
+      "memory(GiB)": 111.15,
+      "step": 46875,
+      "train_speed(iter/s)": 0.447556
+    },
+    {
+      "acc": 0.64807539,
+      "epoch": 1.189244038559107,
+      "grad_norm": 4.40625,
+      "learning_rate": 3.85896438808438e-06,
+      "loss": 1.61729336,
+      "memory(GiB)": 111.15,
+      "step": 46880,
+      "train_speed(iter/s)": 0.447582
+    },
+    {
+      "acc": 0.645749,
+      "epoch": 1.1893708777270422,
+      "grad_norm": 5.6875,
+      "learning_rate": 3.857943459951099e-06,
+      "loss": 1.641465,
+      "memory(GiB)": 111.15,
+      "step": 46885,
+      "train_speed(iter/s)": 0.447607
+    },
+    {
+      "acc": 0.64825687,
+      "epoch": 1.1894977168949772,
+      "grad_norm": 5.71875,
+      "learning_rate": 3.856922582050565e-06,
+      "loss": 1.65048752,
+      "memory(GiB)": 111.15,
+      "step": 46890,
+      "train_speed(iter/s)": 0.447632
+    },
+    {
+      "acc": 0.67235918,
+      "epoch": 1.1896245560629122,
+      "grad_norm": 5.46875,
+      "learning_rate": 3.855901754427678e-06,
+      "loss": 1.54907627,
+      "memory(GiB)": 111.15,
+      "step": 46895,
+      "train_speed(iter/s)": 0.447658
+    },
+    {
+      "acc": 0.62520919,
+      "epoch": 1.1897513952308474,
+      "grad_norm": 5.6875,
+      "learning_rate": 3.854880977127339e-06,
+      "loss": 1.69621677,
+      "memory(GiB)": 111.15,
+      "step": 46900,
+      "train_speed(iter/s)": 0.447683
+    },
+    {
+      "epoch": 1.1897513952308474,
+      "eval_acc": 0.6433762784201879,
+      "eval_loss": 1.607796549797058,
+      "eval_runtime": 113.2496,
+      "eval_samples_per_second": 56.247,
+      "eval_steps_per_second": 28.124,
+      "step": 46900
+    },
+    {
+      "acc": 0.64865847,
+      "epoch": 1.1898782343987824,
+      "grad_norm": 5.4375,
+      "learning_rate": 3.8538602501944475e-06,
+      "loss": 1.5939394,
+      "memory(GiB)": 111.15,
+      "step": 46905,
+      "train_speed(iter/s)": 0.447205
+    },
+    {
+      "acc": 0.65164728,
+      "epoch": 1.1900050735667174,
+      "grad_norm": 6.34375,
+      "learning_rate": 3.852839573673902e-06,
+      "loss": 1.60291367,
+      "memory(GiB)": 111.15,
+      "step": 46910,
+      "train_speed(iter/s)": 0.44723
+    },
+    {
+      "acc": 0.65956063,
+      "epoch": 1.1901319127346524,
+      "grad_norm": 4.9375,
+      "learning_rate": 3.851818947610591e-06,
+      "loss": 1.5942565,
+      "memory(GiB)": 111.15,
+      "step": 46915,
+      "train_speed(iter/s)": 0.447256
+    },
+    {
+      "acc": 0.65292206,
+      "epoch": 1.1902587519025876,
+      "grad_norm": 5.46875,
+      "learning_rate": 3.850798372049409e-06,
+      "loss": 1.60742855,
+      "memory(GiB)": 111.15,
+      "step": 46920,
+      "train_speed(iter/s)": 0.447281
+    },
+    {
+      "acc": 0.6544528,
+      "epoch": 1.1903855910705226,
+      "grad_norm": 5.21875,
+      "learning_rate": 3.849777847035246e-06,
+      "loss": 1.57942448,
+      "memory(GiB)": 111.15,
+      "step": 46925,
+      "train_speed(iter/s)": 0.447306
+    },
+    {
+      "acc": 0.66555243,
+      "epoch": 1.1905124302384575,
+      "grad_norm": 5.4375,
+      "learning_rate": 3.84875737261299e-06,
+      "loss": 1.51958065,
+      "memory(GiB)": 111.15,
+      "step": 46930,
+      "train_speed(iter/s)": 0.447331
+    },
+    {
+      "acc": 0.64966784,
+      "epoch": 1.1906392694063928,
+      "grad_norm": 5.75,
+      "learning_rate": 3.847736948827523e-06,
+      "loss": 1.66825829,
+      "memory(GiB)": 111.15,
+      "step": 46935,
+      "train_speed(iter/s)": 0.447356
+    },
+    {
+      "acc": 0.66295085,
+      "epoch": 1.1907661085743277,
+      "grad_norm": 5.75,
+      "learning_rate": 3.846716575723729e-06,
+      "loss": 1.58078728,
+      "memory(GiB)": 111.15,
+      "step": 46940,
+      "train_speed(iter/s)": 0.447382
+    },
+    {
+      "acc": 0.6453351,
+      "epoch": 1.1908929477422627,
+      "grad_norm": 4.71875,
+      "learning_rate": 3.845696253346489e-06,
+      "loss": 1.66081696,
+      "memory(GiB)": 111.15,
+      "step": 46945,
+      "train_speed(iter/s)": 0.447407
+    },
+    {
+      "acc": 0.6588696,
+      "epoch": 1.191019786910198,
+      "grad_norm": 5.34375,
+      "learning_rate": 3.8446759817406835e-06,
+      "loss": 1.6150034,
+      "memory(GiB)": 111.15,
+      "step": 46950,
+      "train_speed(iter/s)": 0.447431
+    },
+    {
+      "acc": 0.65619712,
+      "epoch": 1.191146626078133,
+      "grad_norm": 4.71875,
+      "learning_rate": 3.8436557609511856e-06,
+      "loss": 1.63253288,
+      "memory(GiB)": 111.15,
+      "step": 46955,
+      "train_speed(iter/s)": 0.447457
+    },
+    {
+      "acc": 0.67505159,
+      "epoch": 1.191273465246068,
+      "grad_norm": 5.40625,
+      "learning_rate": 3.842635591022869e-06,
+      "loss": 1.49584599,
+      "memory(GiB)": 111.15,
+      "step": 46960,
+      "train_speed(iter/s)": 0.447481
+    },
+    {
+      "acc": 0.64804583,
+      "epoch": 1.1914003044140031,
+      "grad_norm": 6.71875,
+      "learning_rate": 3.8416154720006065e-06,
+      "loss": 1.60227165,
+      "memory(GiB)": 111.15,
+      "step": 46965,
+      "train_speed(iter/s)": 0.447507
+    },
+    {
+      "acc": 0.6511301,
+      "epoch": 1.1915271435819381,
+      "grad_norm": 4.4375,
+      "learning_rate": 3.840595403929269e-06,
+      "loss": 1.60385323,
+      "memory(GiB)": 111.15,
+      "step": 46970,
+      "train_speed(iter/s)": 0.447532
+    },
+    {
+      "acc": 0.63888903,
+      "epoch": 1.191653982749873,
+      "grad_norm": 5.59375,
+      "learning_rate": 3.839575386853721e-06,
+      "loss": 1.59445953,
+      "memory(GiB)": 111.15,
+      "step": 46975,
+      "train_speed(iter/s)": 0.447557
+    },
+    {
+      "acc": 0.65102034,
+      "epoch": 1.191780821917808,
+      "grad_norm": 5.125,
+      "learning_rate": 3.838555420818827e-06,
+      "loss": 1.59000874,
+      "memory(GiB)": 111.15,
+      "step": 46980,
+      "train_speed(iter/s)": 0.447582
+    },
+    {
+      "acc": 0.65353889,
+      "epoch": 1.1919076610857433,
+      "grad_norm": 5.84375,
+      "learning_rate": 3.837535505869453e-06,
+      "loss": 1.61040154,
+      "memory(GiB)": 111.15,
+      "step": 46985,
+      "train_speed(iter/s)": 0.447607
+    },
+    {
+      "acc": 0.65334883,
+      "epoch": 1.1920345002536783,
+      "grad_norm": 4.90625,
+      "learning_rate": 3.836515642050458e-06,
+      "loss": 1.62214642,
+      "memory(GiB)": 111.15,
+      "step": 46990,
+      "train_speed(iter/s)": 0.447632
+    },
+    {
+      "acc": 0.62742748,
+      "epoch": 1.1921613394216135,
+      "grad_norm": 4.875,
+      "learning_rate": 3.835495829406698e-06,
+      "loss": 1.64981174,
+      "memory(GiB)": 111.15,
+      "step": 46995,
+      "train_speed(iter/s)": 0.447657
+    },
+    {
+      "acc": 0.65620804,
+      "epoch": 1.1922881785895485,
+      "grad_norm": 5.59375,
+      "learning_rate": 3.834476067983031e-06,
+      "loss": 1.62131004,
+      "memory(GiB)": 111.15,
+      "step": 47000,
+      "train_speed(iter/s)": 0.447683
+    },
+    {
+      "epoch": 1.1922881785895485,
+      "eval_acc": 0.6433336661546232,
+      "eval_loss": 1.6078417301177979,
+      "eval_runtime": 113.2386,
+      "eval_samples_per_second": 56.253,
+      "eval_steps_per_second": 28.126,
+      "step": 47000
+    },
+    {
+      "acc": 0.64372883,
+      "epoch": 1.1924150177574835,
+      "grad_norm": 5.28125,
+      "learning_rate": 3.83345635782431e-06,
+      "loss": 1.68912373,
+      "memory(GiB)": 111.15,
+      "step": 47005,
+      "train_speed(iter/s)": 0.447206
+    },
+    {
+      "acc": 0.6544651,
+      "epoch": 1.1925418569254185,
+      "grad_norm": 5.78125,
+      "learning_rate": 3.832436698975388e-06,
+      "loss": 1.64183083,
+      "memory(GiB)": 111.15,
+      "step": 47010,
+      "train_speed(iter/s)": 0.447231
+    },
+    {
+      "acc": 0.66400108,
+      "epoch": 1.1926686960933537,
+      "grad_norm": 5.21875,
+      "learning_rate": 3.831417091481111e-06,
+      "loss": 1.54812889,
+      "memory(GiB)": 111.15,
+      "step": 47015,
+      "train_speed(iter/s)": 0.447256
+    },
+    {
+      "acc": 0.67001028,
+      "epoch": 1.1927955352612887,
+      "grad_norm": 5.15625,
+      "learning_rate": 3.830397535386328e-06,
+      "loss": 1.57026052,
+      "memory(GiB)": 111.15,
+      "step": 47020,
+      "train_speed(iter/s)": 0.447281
+    },
+    {
+      "acc": 0.65019093,
+      "epoch": 1.1929223744292237,
+      "grad_norm": 5.8125,
+      "learning_rate": 3.829378030735883e-06,
+      "loss": 1.64121895,
+      "memory(GiB)": 111.15,
+      "step": 47025,
+      "train_speed(iter/s)": 0.447306
+    },
+    {
+      "acc": 0.65588799,
+      "epoch": 1.1930492135971589,
+      "grad_norm": 5.0,
+      "learning_rate": 3.82835857757462e-06,
+      "loss": 1.61480503,
+      "memory(GiB)": 111.15,
+      "step": 47030,
+      "train_speed(iter/s)": 0.447331
+    },
+    {
+      "acc": 0.64989557,
+      "epoch": 1.1931760527650939,
+      "grad_norm": 4.4375,
+      "learning_rate": 3.827339175947378e-06,
+      "loss": 1.64257927,
+      "memory(GiB)": 111.15,
+      "step": 47035,
+      "train_speed(iter/s)": 0.447356
+    },
+    {
+      "acc": 0.64739208,
+      "epoch": 1.1933028919330289,
+      "grad_norm": 5.46875,
+      "learning_rate": 3.826319825898992e-06,
+      "loss": 1.57474098,
+      "memory(GiB)": 111.15,
+      "step": 47040,
+      "train_speed(iter/s)": 0.447381
+    },
+    {
+      "acc": 0.65963697,
+      "epoch": 1.193429731100964,
+      "grad_norm": 5.6875,
+      "learning_rate": 3.825300527474302e-06,
+      "loss": 1.61434097,
+      "memory(GiB)": 111.15,
+      "step": 47045,
+      "train_speed(iter/s)": 0.447406
+    },
+    {
+      "acc": 0.64703913,
+      "epoch": 1.193556570268899,
+      "grad_norm": 6.15625,
+      "learning_rate": 3.824281280718141e-06,
+      "loss": 1.65535545,
+      "memory(GiB)": 111.15,
+      "step": 47050,
+      "train_speed(iter/s)": 0.447431
+    },
+    {
+      "acc": 0.65695896,
+      "epoch": 1.193683409436834,
+      "grad_norm": 6.59375,
+      "learning_rate": 3.823262085675337e-06,
+      "loss": 1.62028427,
+      "memory(GiB)": 111.15,
+      "step": 47055,
+      "train_speed(iter/s)": 0.447456
+    },
+    {
+      "acc": 0.64035463,
+      "epoch": 1.1938102486047693,
+      "grad_norm": 5.875,
+      "learning_rate": 3.822242942390718e-06,
+      "loss": 1.6708004,
+      "memory(GiB)": 111.15,
+      "step": 47060,
+      "train_speed(iter/s)": 0.447481
+    },
+    {
+      "acc": 0.65534563,
+      "epoch": 1.1939370877727042,
+      "grad_norm": 4.9375,
+      "learning_rate": 3.821223850909115e-06,
+      "loss": 1.62452946,
+      "memory(GiB)": 111.15,
+      "step": 47065,
+      "train_speed(iter/s)": 0.447506
+    },
+    {
+      "acc": 0.6459826,
+      "epoch": 1.1940639269406392,
+      "grad_norm": 5.8125,
+      "learning_rate": 3.820204811275351e-06,
+      "loss": 1.66202126,
+      "memory(GiB)": 111.15,
+      "step": 47070,
+      "train_speed(iter/s)": 0.447531
+    },
+    {
+      "acc": 0.6526494,
+      "epoch": 1.1941907661085742,
+      "grad_norm": 4.90625,
+      "learning_rate": 3.8191858235342446e-06,
+      "loss": 1.63852158,
+      "memory(GiB)": 111.15,
+      "step": 47075,
+      "train_speed(iter/s)": 0.447556
+    },
+    {
+      "acc": 0.63766775,
+      "epoch": 1.1943176052765094,
+      "grad_norm": 6.59375,
+      "learning_rate": 3.818166887730618e-06,
+      "loss": 1.65203171,
+      "memory(GiB)": 111.15,
+      "step": 47080,
+      "train_speed(iter/s)": 0.447582
+    },
+    {
+      "acc": 0.6425415,
+      "epoch": 1.1944444444444444,
+      "grad_norm": 5.25,
+      "learning_rate": 3.817148003909288e-06,
+      "loss": 1.68977394,
+      "memory(GiB)": 111.15,
+      "step": 47085,
+      "train_speed(iter/s)": 0.447607
+    },
+    {
+      "acc": 0.64908423,
+      "epoch": 1.1945712836123794,
+      "grad_norm": 4.8125,
+      "learning_rate": 3.816129172115073e-06,
+      "loss": 1.60046387,
+      "memory(GiB)": 111.15,
+      "step": 47090,
+      "train_speed(iter/s)": 0.447632
+    },
+    {
+      "acc": 0.63893442,
+      "epoch": 1.1946981227803146,
+      "grad_norm": 5.15625,
+      "learning_rate": 3.815110392392778e-06,
+      "loss": 1.63302174,
+      "memory(GiB)": 111.15,
+      "step": 47095,
+      "train_speed(iter/s)": 0.447657
+    },
+    {
+      "acc": 0.64791975,
+      "epoch": 1.1948249619482496,
+      "grad_norm": 5.0625,
+      "learning_rate": 3.8140916647872204e-06,
+      "loss": 1.62084579,
+      "memory(GiB)": 111.15,
+      "step": 47100,
+      "train_speed(iter/s)": 0.447683
+    },
+    {
+      "epoch": 1.1948249619482496,
+      "eval_acc": 0.6433152843930071,
+      "eval_loss": 1.607810616493225,
+      "eval_runtime": 114.2868,
+      "eval_samples_per_second": 55.737,
+      "eval_steps_per_second": 27.868,
+      "step": 47100
+    },
+    {
+      "acc": 0.64452467,
+      "epoch": 1.1949518011161846,
+      "grad_norm": 5.65625,
+      "learning_rate": 3.813072989343205e-06,
+      "loss": 1.65487766,
+      "memory(GiB)": 111.15,
+      "step": 47105,
+      "train_speed(iter/s)": 0.447202
+    },
+    {
+      "acc": 0.65524359,
+      "epoch": 1.1950786402841198,
+      "grad_norm": 5.03125,
+      "learning_rate": 3.812054366105541e-06,
+      "loss": 1.60009232,
+      "memory(GiB)": 111.15,
+      "step": 47110,
+      "train_speed(iter/s)": 0.447227
+    },
+    {
+      "acc": 0.66587877,
+      "epoch": 1.1952054794520548,
+      "grad_norm": 4.9375,
+      "learning_rate": 3.8110357951190284e-06,
+      "loss": 1.51372757,
+      "memory(GiB)": 111.15,
+      "step": 47115,
+      "train_speed(iter/s)": 0.447252
+    },
+    {
+      "acc": 0.62035208,
+      "epoch": 1.1953323186199898,
+      "grad_norm": 4.65625,
+      "learning_rate": 3.8100172764284694e-06,
+      "loss": 1.69509659,
+      "memory(GiB)": 111.15,
+      "step": 47120,
+      "train_speed(iter/s)": 0.447276
+    },
+    {
+      "acc": 0.66741858,
+      "epoch": 1.195459157787925,
+      "grad_norm": 5.125,
+      "learning_rate": 3.8089988100786635e-06,
+      "loss": 1.57264538,
+      "memory(GiB)": 111.15,
+      "step": 47125,
+      "train_speed(iter/s)": 0.447301
+    },
+    {
+      "acc": 0.65391297,
+      "epoch": 1.19558599695586,
+      "grad_norm": 5.90625,
+      "learning_rate": 3.807980396114409e-06,
+      "loss": 1.58162422,
+      "memory(GiB)": 111.15,
+      "step": 47130,
+      "train_speed(iter/s)": 0.447326
+    },
+    {
+      "acc": 0.63872185,
+      "epoch": 1.195712836123795,
+      "grad_norm": 5.125,
+      "learning_rate": 3.8069620345804974e-06,
+      "loss": 1.62677727,
+      "memory(GiB)": 111.15,
+      "step": 47135,
+      "train_speed(iter/s)": 0.447351
+    },
+    {
+      "acc": 0.65035658,
+      "epoch": 1.19583967529173,
+      "grad_norm": 5.21875,
+      "learning_rate": 3.8059437255217214e-06,
+      "loss": 1.66274986,
+      "memory(GiB)": 111.15,
+      "step": 47140,
+      "train_speed(iter/s)": 0.447376
+    },
+    {
+      "acc": 0.66393356,
+      "epoch": 1.1959665144596652,
+      "grad_norm": 5.3125,
+      "learning_rate": 3.8049254689828723e-06,
+      "loss": 1.59361563,
+      "memory(GiB)": 111.15,
+      "step": 47145,
+      "train_speed(iter/s)": 0.447401
+    },
+    {
+      "acc": 0.65213041,
+      "epoch": 1.1960933536276002,
+      "grad_norm": 5.875,
+      "learning_rate": 3.8039072650087377e-06,
+      "loss": 1.60386372,
+      "memory(GiB)": 111.15,
+      "step": 47150,
+      "train_speed(iter/s)": 0.447426
+    },
+    {
+      "acc": 0.65136499,
+      "epoch": 1.1962201927955354,
+      "grad_norm": 4.65625,
+      "learning_rate": 3.8028891136440994e-06,
+      "loss": 1.56730862,
+      "memory(GiB)": 111.15,
+      "step": 47155,
+      "train_speed(iter/s)": 0.447451
+    },
+    {
+      "acc": 0.64433413,
+      "epoch": 1.1963470319634704,
+      "grad_norm": 4.71875,
+      "learning_rate": 3.801871014933744e-06,
+      "loss": 1.6102293,
+      "memory(GiB)": 111.15,
+      "step": 47160,
+      "train_speed(iter/s)": 0.447476
+    },
+    {
+      "acc": 0.64815998,
+      "epoch": 1.1964738711314054,
+      "grad_norm": 5.90625,
+      "learning_rate": 3.8008529689224493e-06,
+      "loss": 1.61478386,
+      "memory(GiB)": 111.15,
+      "step": 47165,
+      "train_speed(iter/s)": 0.447501
+    },
+    {
+      "acc": 0.64651251,
+      "epoch": 1.1966007102993403,
+      "grad_norm": 5.78125,
+      "learning_rate": 3.7998349756549974e-06,
+      "loss": 1.63293419,
+      "memory(GiB)": 111.15,
+      "step": 47170,
+      "train_speed(iter/s)": 0.447526
+    },
+    {
+      "acc": 0.6304461,
+      "epoch": 1.1967275494672756,
+      "grad_norm": 5.375,
+      "learning_rate": 3.79881703517616e-06,
+      "loss": 1.75762939,
+      "memory(GiB)": 111.15,
+      "step": 47175,
+      "train_speed(iter/s)": 0.447551
+    },
+    {
+      "acc": 0.65583591,
+      "epoch": 1.1968543886352105,
+      "grad_norm": 6.28125,
+      "learning_rate": 3.797799147530713e-06,
+      "loss": 1.60827045,
+      "memory(GiB)": 111.15,
+      "step": 47180,
+      "train_speed(iter/s)": 0.447576
+    },
+    {
+      "acc": 0.64915967,
+      "epoch": 1.1969812278031455,
+      "grad_norm": 5.84375,
+      "learning_rate": 3.796781312763425e-06,
+      "loss": 1.58828526,
+      "memory(GiB)": 111.15,
+      "step": 47185,
+      "train_speed(iter/s)": 0.447601
+    },
+    {
+      "acc": 0.65143828,
+      "epoch": 1.1971080669710807,
+      "grad_norm": 5.125,
+      "learning_rate": 3.79576353091907e-06,
+      "loss": 1.58469896,
+      "memory(GiB)": 111.15,
+      "step": 47190,
+      "train_speed(iter/s)": 0.447626
+    },
+    {
+      "acc": 0.66928282,
+      "epoch": 1.1972349061390157,
+      "grad_norm": 6.0,
+      "learning_rate": 3.7947458020424094e-06,
+      "loss": 1.5973175,
+      "memory(GiB)": 111.15,
+      "step": 47195,
+      "train_speed(iter/s)": 0.447651
+    },
+    {
+      "acc": 0.65493622,
+      "epoch": 1.1973617453069507,
+      "grad_norm": 4.78125,
+      "learning_rate": 3.793728126178209e-06,
+      "loss": 1.62752819,
+      "memory(GiB)": 111.15,
+      "step": 47200,
+      "train_speed(iter/s)": 0.447676
+    },
+    {
+      "epoch": 1.1973617453069507,
+      "eval_acc": 0.6433804560932824,
+      "eval_loss": 1.6077016592025757,
+      "eval_runtime": 113.7248,
+      "eval_samples_per_second": 56.012,
+      "eval_steps_per_second": 28.006,
+      "step": 47200
+    },
+    {
+      "acc": 0.65599833,
+      "epoch": 1.197488584474886,
+      "grad_norm": 5.5625,
+      "learning_rate": 3.792710503371232e-06,
+      "loss": 1.548736,
+      "memory(GiB)": 111.15,
+      "step": 47205,
+      "train_speed(iter/s)": 0.447199
+    },
+    {
+      "acc": 0.64238148,
+      "epoch": 1.197615423642821,
+      "grad_norm": 5.8125,
+      "learning_rate": 3.7916929336662386e-06,
+      "loss": 1.75370884,
+      "memory(GiB)": 111.15,
+      "step": 47210,
+      "train_speed(iter/s)": 0.447224
+    },
+    {
+      "acc": 0.65672865,
+      "epoch": 1.197742262810756,
+      "grad_norm": 5.15625,
+      "learning_rate": 3.790675417107982e-06,
+      "loss": 1.58055677,
+      "memory(GiB)": 111.15,
+      "step": 47215,
+      "train_speed(iter/s)": 0.447249
+    },
+    {
+      "acc": 0.65181417,
+      "epoch": 1.1978691019786911,
+      "grad_norm": 5.40625,
+      "learning_rate": 3.7896579537412213e-06,
+      "loss": 1.60296822,
+      "memory(GiB)": 111.15,
+      "step": 47220,
+      "train_speed(iter/s)": 0.447275
+    },
+    {
+      "acc": 0.62953358,
+      "epoch": 1.197995941146626,
+      "grad_norm": 5.25,
+      "learning_rate": 3.7886405436107076e-06,
+      "loss": 1.7062458,
+      "memory(GiB)": 111.15,
+      "step": 47225,
+      "train_speed(iter/s)": 0.447301
+    },
+    {
+      "acc": 0.64399862,
+      "epoch": 1.198122780314561,
+      "grad_norm": 5.5625,
+      "learning_rate": 3.7876231867611917e-06,
+      "loss": 1.61711826,
+      "memory(GiB)": 111.15,
+      "step": 47230,
+      "train_speed(iter/s)": 0.447326
+    },
+    {
+      "acc": 0.6409482,
+      "epoch": 1.198249619482496,
+      "grad_norm": 5.09375,
+      "learning_rate": 3.7866058832374197e-06,
+      "loss": 1.65873909,
+      "memory(GiB)": 111.15,
+      "step": 47235,
+      "train_speed(iter/s)": 0.447351
+    },
+    {
+      "acc": 0.6465476,
+      "epoch": 1.1983764586504313,
+      "grad_norm": 5.46875,
+      "learning_rate": 3.7855886330841383e-06,
+      "loss": 1.65072479,
+      "memory(GiB)": 111.15,
+      "step": 47240,
+      "train_speed(iter/s)": 0.447376
+    },
+    {
+      "acc": 0.64928226,
+      "epoch": 1.1985032978183663,
+      "grad_norm": 6.3125,
+      "learning_rate": 3.7845714363460908e-06,
+      "loss": 1.62824821,
+      "memory(GiB)": 111.15,
+      "step": 47245,
+      "train_speed(iter/s)": 0.447401
+    },
+    {
+      "acc": 0.65132589,
+      "epoch": 1.1986301369863013,
+      "grad_norm": 5.0625,
+      "learning_rate": 3.78355429306802e-06,
+      "loss": 1.6526844,
+      "memory(GiB)": 111.15,
+      "step": 47250,
+      "train_speed(iter/s)": 0.447427
+    },
+    {
+      "acc": 0.66083665,
+      "epoch": 1.1987569761542365,
+      "grad_norm": 5.71875,
+      "learning_rate": 3.7825372032946605e-06,
+      "loss": 1.58583622,
+      "memory(GiB)": 111.15,
+      "step": 47255,
+      "train_speed(iter/s)": 0.447452
+    },
+    {
+      "acc": 0.66323175,
+      "epoch": 1.1988838153221715,
+      "grad_norm": 5.4375,
+      "learning_rate": 3.7815201670707502e-06,
+      "loss": 1.61432533,
+      "memory(GiB)": 111.15,
+      "step": 47260,
+      "train_speed(iter/s)": 0.447477
+    },
+    {
+      "acc": 0.64575815,
+      "epoch": 1.1990106544901065,
+      "grad_norm": 5.40625,
+      "learning_rate": 3.7805031844410235e-06,
+      "loss": 1.71331177,
+      "memory(GiB)": 111.15,
+      "step": 47265,
+      "train_speed(iter/s)": 0.447503
+    },
+    {
+      "acc": 0.66020565,
+      "epoch": 1.1991374936580417,
+      "grad_norm": 5.09375,
+      "learning_rate": 3.7794862554502126e-06,
+      "loss": 1.5668499,
+      "memory(GiB)": 111.15,
+      "step": 47270,
+      "train_speed(iter/s)": 0.447528
+    },
+    {
+      "acc": 0.65035701,
+      "epoch": 1.1992643328259767,
+      "grad_norm": 5.96875,
+      "learning_rate": 3.778469380143045e-06,
+      "loss": 1.58033581,
+      "memory(GiB)": 111.15,
+      "step": 47275,
+      "train_speed(iter/s)": 0.447554
+    },
+    {
+      "acc": 0.65289326,
+      "epoch": 1.1993911719939117,
+      "grad_norm": 5.3125,
+      "learning_rate": 3.777452558564246e-06,
+      "loss": 1.61503963,
+      "memory(GiB)": 111.15,
+      "step": 47280,
+      "train_speed(iter/s)": 0.447579
+    },
+    {
+      "acc": 0.65649085,
+      "epoch": 1.1995180111618469,
+      "grad_norm": 5.46875,
+      "learning_rate": 3.776435790758543e-06,
+      "loss": 1.5854475,
+      "memory(GiB)": 111.15,
+      "step": 47285,
+      "train_speed(iter/s)": 0.447605
+    },
+    {
+      "acc": 0.66239305,
+      "epoch": 1.1996448503297819,
+      "grad_norm": 5.96875,
+      "learning_rate": 3.7754190767706577e-06,
+      "loss": 1.50329571,
+      "memory(GiB)": 111.15,
+      "step": 47290,
+      "train_speed(iter/s)": 0.44763
+    },
+    {
+      "acc": 0.64972925,
+      "epoch": 1.1997716894977168,
+      "grad_norm": 5.875,
+      "learning_rate": 3.774402416645307e-06,
+      "loss": 1.64218693,
+      "memory(GiB)": 111.15,
+      "step": 47295,
+      "train_speed(iter/s)": 0.447656
+    },
+    {
+      "acc": 0.64684868,
+      "epoch": 1.1998985286656518,
+      "grad_norm": 4.9375,
+      "learning_rate": 3.77338581042721e-06,
+      "loss": 1.64996586,
+      "memory(GiB)": 111.15,
+      "step": 47300,
+      "train_speed(iter/s)": 0.447681
+    },
+    {
+      "epoch": 1.1998985286656518,
+      "eval_acc": 0.64337460735095,
+      "eval_loss": 1.6077994108200073,
+      "eval_runtime": 113.9927,
+      "eval_samples_per_second": 55.881,
+      "eval_steps_per_second": 27.94,
+      "step": 47300
+    },
+    {
+      "acc": 0.66063423,
+      "epoch": 1.200025367833587,
+      "grad_norm": 6.25,
+      "learning_rate": 3.7723692581610817e-06,
+      "loss": 1.63490067,
+      "memory(GiB)": 111.15,
+      "step": 47305,
+      "train_speed(iter/s)": 0.447204
+    },
+    {
+      "acc": 0.65235252,
+      "epoch": 1.200152207001522,
+      "grad_norm": 5.09375,
+      "learning_rate": 3.771352759891637e-06,
+      "loss": 1.66440639,
+      "memory(GiB)": 111.15,
+      "step": 47310,
+      "train_speed(iter/s)": 0.447229
+    },
+    {
+      "acc": 0.64651155,
+      "epoch": 1.2002790461694572,
+      "grad_norm": 5.34375,
+      "learning_rate": 3.7703363156635807e-06,
+      "loss": 1.70540962,
+      "memory(GiB)": 111.15,
+      "step": 47315,
+      "train_speed(iter/s)": 0.447254
+    },
+    {
+      "acc": 0.65964055,
+      "epoch": 1.2004058853373922,
+      "grad_norm": 5.21875,
+      "learning_rate": 3.769319925521624e-06,
+      "loss": 1.64245872,
+      "memory(GiB)": 111.15,
+      "step": 47320,
+      "train_speed(iter/s)": 0.447279
+    },
+    {
+      "acc": 0.65863333,
+      "epoch": 1.2005327245053272,
+      "grad_norm": 5.75,
+      "learning_rate": 3.76830358951047e-06,
+      "loss": 1.63877335,
+      "memory(GiB)": 111.15,
+      "step": 47325,
+      "train_speed(iter/s)": 0.447305
+    },
+    {
+      "acc": 0.65368929,
+      "epoch": 1.2006595636732622,
+      "grad_norm": 6.0625,
+      "learning_rate": 3.767287307674826e-06,
+      "loss": 1.56880226,
+      "memory(GiB)": 111.15,
+      "step": 47330,
+      "train_speed(iter/s)": 0.44733
+    },
+    {
+      "acc": 0.65094099,
+      "epoch": 1.2007864028411974,
+      "grad_norm": 5.65625,
+      "learning_rate": 3.766271080059389e-06,
+      "loss": 1.63790665,
+      "memory(GiB)": 111.15,
+      "step": 47335,
+      "train_speed(iter/s)": 0.447355
+    },
+    {
+      "acc": 0.65386715,
+      "epoch": 1.2009132420091324,
+      "grad_norm": 6.21875,
+      "learning_rate": 3.7652549067088568e-06,
+      "loss": 1.58669739,
+      "memory(GiB)": 111.15,
+      "step": 47340,
+      "train_speed(iter/s)": 0.44738
+    },
+    {
+      "acc": 0.6585969,
+      "epoch": 1.2010400811770674,
+      "grad_norm": 6.59375,
+      "learning_rate": 3.7642387876679275e-06,
+      "loss": 1.67277603,
+      "memory(GiB)": 111.15,
+      "step": 47345,
+      "train_speed(iter/s)": 0.447405
+    },
+    {
+      "acc": 0.64913068,
+      "epoch": 1.2011669203450026,
+      "grad_norm": 4.21875,
+      "learning_rate": 3.7632227229812947e-06,
+      "loss": 1.61513691,
+      "memory(GiB)": 111.15,
+      "step": 47350,
+      "train_speed(iter/s)": 0.44743
+    },
+    {
+      "acc": 0.64804773,
+      "epoch": 1.2012937595129376,
+      "grad_norm": 5.9375,
+      "learning_rate": 3.7622067126936475e-06,
+      "loss": 1.64707146,
+      "memory(GiB)": 111.15,
+      "step": 47355,
+      "train_speed(iter/s)": 0.447454
+    },
+    {
+      "acc": 0.64691219,
+      "epoch": 1.2014205986808726,
+      "grad_norm": 5.3125,
+      "learning_rate": 3.761190756849674e-06,
+      "loss": 1.60236073,
+      "memory(GiB)": 111.15,
+      "step": 47360,
+      "train_speed(iter/s)": 0.44748
+    },
+    {
+      "acc": 0.64791112,
+      "epoch": 1.2015474378488078,
+      "grad_norm": 5.71875,
+      "learning_rate": 3.7601748554940633e-06,
+      "loss": 1.6262598,
+      "memory(GiB)": 111.15,
+      "step": 47365,
+      "train_speed(iter/s)": 0.447505
+    },
+    {
+      "acc": 0.65453033,
+      "epoch": 1.2016742770167428,
+      "grad_norm": 5.09375,
+      "learning_rate": 3.7591590086714984e-06,
+      "loss": 1.56902199,
+      "memory(GiB)": 111.15,
+      "step": 47370,
+      "train_speed(iter/s)": 0.44753
+    },
+    {
+      "acc": 0.64505119,
+      "epoch": 1.2018011161846778,
+      "grad_norm": 6.9375,
+      "learning_rate": 3.7581432164266587e-06,
+      "loss": 1.58591843,
+      "memory(GiB)": 111.15,
+      "step": 47375,
+      "train_speed(iter/s)": 0.447555
+    },
+    {
+      "acc": 0.65155611,
+      "epoch": 1.201927955352613,
+      "grad_norm": 5.15625,
+      "learning_rate": 3.7571274788042255e-06,
+      "loss": 1.60366821,
+      "memory(GiB)": 111.15,
+      "step": 47380,
+      "train_speed(iter/s)": 0.44758
+    },
+    {
+      "acc": 0.64582577,
+      "epoch": 1.202054794520548,
+      "grad_norm": 5.46875,
+      "learning_rate": 3.756111795848874e-06,
+      "loss": 1.65439987,
+      "memory(GiB)": 111.15,
+      "step": 47385,
+      "train_speed(iter/s)": 0.447605
+    },
+    {
+      "acc": 0.64738846,
+      "epoch": 1.202181633688483,
+      "grad_norm": 5.5,
+      "learning_rate": 3.755096167605281e-06,
+      "loss": 1.6521347,
+      "memory(GiB)": 111.15,
+      "step": 47390,
+      "train_speed(iter/s)": 0.44763
+    },
+    {
+      "acc": 0.65458045,
+      "epoch": 1.202308472856418,
+      "grad_norm": 5.1875,
+      "learning_rate": 3.7540805941181165e-06,
+      "loss": 1.58372736,
+      "memory(GiB)": 111.15,
+      "step": 47395,
+      "train_speed(iter/s)": 0.447655
+    },
+    {
+      "acc": 0.65066504,
+      "epoch": 1.2024353120243532,
+      "grad_norm": 4.90625,
+      "learning_rate": 3.7530650754320492e-06,
+      "loss": 1.66861324,
+      "memory(GiB)": 111.15,
+      "step": 47400,
+      "train_speed(iter/s)": 0.447681
+    },
+    {
+      "epoch": 1.2024353120243532,
+      "eval_acc": 0.6434055221318499,
+      "eval_loss": 1.6076984405517578,
+      "eval_runtime": 113.6676,
+      "eval_samples_per_second": 56.041,
+      "eval_steps_per_second": 28.02,
+      "step": 47400
+    },
+    {
+      "acc": 0.67682047,
+      "epoch": 1.2025621511922882,
+      "grad_norm": 4.71875,
+      "learning_rate": 3.752049611591746e-06,
+      "loss": 1.4845768,
+      "memory(GiB)": 111.15,
+      "step": 47405,
+      "train_speed(iter/s)": 0.447206
+    },
+    {
+      "acc": 0.65043101,
+      "epoch": 1.2026889903602231,
+      "grad_norm": 5.5,
+      "learning_rate": 3.7510342026418756e-06,
+      "loss": 1.64132957,
+      "memory(GiB)": 111.15,
+      "step": 47410,
+      "train_speed(iter/s)": 0.447231
+    },
+    {
+      "acc": 0.65255251,
+      "epoch": 1.2028158295281584,
+      "grad_norm": 5.78125,
+      "learning_rate": 3.7500188486270948e-06,
+      "loss": 1.62099266,
+      "memory(GiB)": 111.15,
+      "step": 47415,
+      "train_speed(iter/s)": 0.447256
+    },
+    {
+      "acc": 0.64229746,
+      "epoch": 1.2029426686960933,
+      "grad_norm": 5.75,
+      "learning_rate": 3.7490035495920664e-06,
+      "loss": 1.67899933,
+      "memory(GiB)": 111.15,
+      "step": 47420,
+      "train_speed(iter/s)": 0.447281
+    },
+    {
+      "acc": 0.66219988,
+      "epoch": 1.2030695078640283,
+      "grad_norm": 4.96875,
+      "learning_rate": 3.747988305581447e-06,
+      "loss": 1.55836086,
+      "memory(GiB)": 111.15,
+      "step": 47425,
+      "train_speed(iter/s)": 0.447306
+    },
+    {
+      "acc": 0.64597006,
+      "epoch": 1.2031963470319635,
+      "grad_norm": 5.4375,
+      "learning_rate": 3.7469731166398933e-06,
+      "loss": 1.64388199,
+      "memory(GiB)": 111.15,
+      "step": 47430,
+      "train_speed(iter/s)": 0.44733
+    },
+    {
+      "acc": 0.64388843,
+      "epoch": 1.2033231861998985,
+      "grad_norm": 5.125,
+      "learning_rate": 3.745957982812054e-06,
+      "loss": 1.65910416,
+      "memory(GiB)": 111.15,
+      "step": 47435,
+      "train_speed(iter/s)": 0.447355
+    },
+    {
+      "acc": 0.6432899,
+      "epoch": 1.2034500253678335,
+      "grad_norm": 5.46875,
+      "learning_rate": 3.744942904142582e-06,
+      "loss": 1.6235733,
+      "memory(GiB)": 111.15,
+      "step": 47440,
+      "train_speed(iter/s)": 0.44738
+    },
+    {
+      "acc": 0.66812091,
+      "epoch": 1.2035768645357687,
+      "grad_norm": 4.59375,
+      "learning_rate": 3.743927880676125e-06,
+      "loss": 1.54810514,
+      "memory(GiB)": 111.15,
+      "step": 47445,
+      "train_speed(iter/s)": 0.447405
+    },
+    {
+      "acc": 0.66300983,
+      "epoch": 1.2037037037037037,
+      "grad_norm": 4.40625,
+      "learning_rate": 3.742912912457329e-06,
+      "loss": 1.56910543,
+      "memory(GiB)": 111.15,
+      "step": 47450,
+      "train_speed(iter/s)": 0.44743
+    },
+    {
+      "acc": 0.64727383,
+      "epoch": 1.2038305428716387,
+      "grad_norm": 5.40625,
+      "learning_rate": 3.7418979995308336e-06,
+      "loss": 1.59051266,
+      "memory(GiB)": 111.15,
+      "step": 47455,
+      "train_speed(iter/s)": 0.447455
+    },
+    {
+      "acc": 0.65251174,
+      "epoch": 1.2039573820395737,
+      "grad_norm": 5.03125,
+      "learning_rate": 3.740883141941282e-06,
+      "loss": 1.593297,
+      "memory(GiB)": 111.15,
+      "step": 47460,
+      "train_speed(iter/s)": 0.447479
+    },
+    {
+      "acc": 0.6620513,
+      "epoch": 1.204084221207509,
+      "grad_norm": 5.53125,
+      "learning_rate": 3.7398683397333103e-06,
+      "loss": 1.63043518,
+      "memory(GiB)": 111.15,
+      "step": 47465,
+      "train_speed(iter/s)": 0.447504
+    },
+    {
+      "acc": 0.64778442,
+      "epoch": 1.204211060375444,
+      "grad_norm": 4.5625,
+      "learning_rate": 3.7388535929515573e-06,
+      "loss": 1.59478455,
+      "memory(GiB)": 111.15,
+      "step": 47470,
+      "train_speed(iter/s)": 0.447529
+    },
+    {
+      "acc": 0.66306729,
+      "epoch": 1.204337899543379,
+      "grad_norm": 6.0,
+      "learning_rate": 3.737838901640653e-06,
+      "loss": 1.5375061,
+      "memory(GiB)": 111.15,
+      "step": 47475,
+      "train_speed(iter/s)": 0.447554
+    },
+    {
+      "acc": 0.6575891,
+      "epoch": 1.204464738711314,
+      "grad_norm": 7.40625,
+      "learning_rate": 3.736824265845228e-06,
+      "loss": 1.58714552,
+      "memory(GiB)": 111.15,
+      "step": 47480,
+      "train_speed(iter/s)": 0.447579
+    },
+    {
+      "acc": 0.65470543,
+      "epoch": 1.204591577879249,
+      "grad_norm": 5.125,
+      "learning_rate": 3.7358096856099118e-06,
+      "loss": 1.60038395,
+      "memory(GiB)": 111.15,
+      "step": 47485,
+      "train_speed(iter/s)": 0.447603
+    },
+    {
+      "acc": 0.65879736,
+      "epoch": 1.204718417047184,
+      "grad_norm": 5.375,
+      "learning_rate": 3.7347951609793315e-06,
+      "loss": 1.57160978,
+      "memory(GiB)": 111.15,
+      "step": 47490,
+      "train_speed(iter/s)": 0.447628
+    },
+    {
+      "acc": 0.64342966,
+      "epoch": 1.2048452562151193,
+      "grad_norm": 5.59375,
+      "learning_rate": 3.7337806919981077e-06,
+      "loss": 1.6381731,
+      "memory(GiB)": 111.15,
+      "step": 47495,
+      "train_speed(iter/s)": 0.447653
+    },
+    {
+      "acc": 0.6579772,
+      "epoch": 1.2049720953830543,
+      "grad_norm": 5.75,
+      "learning_rate": 3.732766278710861e-06,
+      "loss": 1.60898933,
+      "memory(GiB)": 111.15,
+      "step": 47500,
+      "train_speed(iter/s)": 0.447678
+    },
+    {
+      "epoch": 1.2049720953830543,
+      "eval_acc": 0.6433980023202797,
+      "eval_loss": 1.6077312231063843,
+      "eval_runtime": 114.7563,
+      "eval_samples_per_second": 55.509,
+      "eval_steps_per_second": 27.754,
+      "step": 47500
+    },
+    {
+      "acc": 0.6547832,
+      "epoch": 1.2050989345509893,
+      "grad_norm": 4.90625,
+      "learning_rate": 3.7317519211622123e-06,
+      "loss": 1.62187233,
+      "memory(GiB)": 111.15,
+      "step": 47505,
+      "train_speed(iter/s)": 0.447199
+    },
+    {
+      "acc": 0.65012894,
+      "epoch": 1.2052257737189245,
+      "grad_norm": 5.15625,
+      "learning_rate": 3.7307376193967772e-06,
+      "loss": 1.65923386,
+      "memory(GiB)": 111.15,
+      "step": 47510,
+      "train_speed(iter/s)": 0.447224
+    },
+    {
+      "acc": 0.64516664,
+      "epoch": 1.2053526128868595,
+      "grad_norm": 4.96875,
+      "learning_rate": 3.7297233734591664e-06,
+      "loss": 1.63121109,
+      "memory(GiB)": 111.15,
+      "step": 47515,
+      "train_speed(iter/s)": 0.447248
+    },
+    {
+      "acc": 0.64669795,
+      "epoch": 1.2054794520547945,
+      "grad_norm": 6.25,
+      "learning_rate": 3.7287091833939948e-06,
+      "loss": 1.66650696,
+      "memory(GiB)": 111.15,
+      "step": 47520,
+      "train_speed(iter/s)": 0.447273
+    },
+    {
+      "acc": 0.66835423,
+      "epoch": 1.2056062912227297,
+      "grad_norm": 4.9375,
+      "learning_rate": 3.7276950492458675e-06,
+      "loss": 1.54574051,
+      "memory(GiB)": 111.15,
+      "step": 47525,
+      "train_speed(iter/s)": 0.447298
+    },
+    {
+      "acc": 0.65246973,
+      "epoch": 1.2057331303906647,
+      "grad_norm": 5.375,
+      "learning_rate": 3.7266809710593956e-06,
+      "loss": 1.62127075,
+      "memory(GiB)": 111.15,
+      "step": 47530,
+      "train_speed(iter/s)": 0.447323
+    },
+    {
+      "acc": 0.65464272,
+      "epoch": 1.2058599695585996,
+      "grad_norm": 5.5625,
+      "learning_rate": 3.7256669488791763e-06,
+      "loss": 1.58897781,
+      "memory(GiB)": 111.15,
+      "step": 47535,
+      "train_speed(iter/s)": 0.447348
+    },
+    {
+      "acc": 0.65780854,
+      "epoch": 1.2059868087265349,
+      "grad_norm": 5.4375,
+      "learning_rate": 3.7246529827498156e-06,
+      "loss": 1.52052889,
+      "memory(GiB)": 111.15,
+      "step": 47540,
+      "train_speed(iter/s)": 0.447373
+    },
+    {
+      "acc": 0.65141678,
+      "epoch": 1.2061136478944698,
+      "grad_norm": 4.9375,
+      "learning_rate": 3.7236390727159094e-06,
+      "loss": 1.61569424,
+      "memory(GiB)": 111.15,
+      "step": 47545,
+      "train_speed(iter/s)": 0.447398
+    },
+    {
+      "acc": 0.658813,
+      "epoch": 1.2062404870624048,
+      "grad_norm": 4.875,
+      "learning_rate": 3.7226252188220573e-06,
+      "loss": 1.54030838,
+      "memory(GiB)": 111.15,
+      "step": 47550,
+      "train_speed(iter/s)": 0.447422
+    },
+    {
+      "acc": 0.65997934,
+      "epoch": 1.2063673262303398,
+      "grad_norm": 5.78125,
+      "learning_rate": 3.7216114211128505e-06,
+      "loss": 1.60118923,
+      "memory(GiB)": 111.15,
+      "step": 47555,
+      "train_speed(iter/s)": 0.447447
+    },
+    {
+      "acc": 0.65768738,
+      "epoch": 1.206494165398275,
+      "grad_norm": 5.6875,
+      "learning_rate": 3.720597679632879e-06,
+      "loss": 1.57945309,
+      "memory(GiB)": 111.15,
+      "step": 47560,
+      "train_speed(iter/s)": 0.447472
+    },
+    {
+      "acc": 0.64723349,
+      "epoch": 1.20662100456621,
+      "grad_norm": 7.15625,
+      "learning_rate": 3.7195839944267357e-06,
+      "loss": 1.68111839,
+      "memory(GiB)": 111.15,
+      "step": 47565,
+      "train_speed(iter/s)": 0.447497
+    },
+    {
+      "acc": 0.66303234,
+      "epoch": 1.206747843734145,
+      "grad_norm": 4.75,
+      "learning_rate": 3.718570365539006e-06,
+      "loss": 1.5292613,
+      "memory(GiB)": 111.15,
+      "step": 47570,
+      "train_speed(iter/s)": 0.447521
+    },
+    {
+      "acc": 0.65656977,
+      "epoch": 1.2068746829020802,
+      "grad_norm": 5.96875,
+      "learning_rate": 3.717556793014271e-06,
+      "loss": 1.63489723,
+      "memory(GiB)": 111.15,
+      "step": 47575,
+      "train_speed(iter/s)": 0.447546
+    },
+    {
+      "acc": 0.6491662,
+      "epoch": 1.2070015220700152,
+      "grad_norm": 4.84375,
+      "learning_rate": 3.716543276897113e-06,
+      "loss": 1.66815987,
+      "memory(GiB)": 111.15,
+      "step": 47580,
+      "train_speed(iter/s)": 0.447571
+    },
+    {
+      "acc": 0.64680214,
+      "epoch": 1.2071283612379502,
+      "grad_norm": 4.75,
+      "learning_rate": 3.715529817232114e-06,
+      "loss": 1.61519375,
+      "memory(GiB)": 111.15,
+      "step": 47585,
+      "train_speed(iter/s)": 0.447596
+    },
+    {
+      "acc": 0.64570065,
+      "epoch": 1.2072552004058854,
+      "grad_norm": 5.75,
+      "learning_rate": 3.7145164140638483e-06,
+      "loss": 1.61480827,
+      "memory(GiB)": 111.15,
+      "step": 47590,
+      "train_speed(iter/s)": 0.447621
+    },
+    {
+      "acc": 0.64466009,
+      "epoch": 1.2073820395738204,
+      "grad_norm": 5.21875,
+      "learning_rate": 3.713503067436889e-06,
+      "loss": 1.64471035,
+      "memory(GiB)": 111.15,
+      "step": 47595,
+      "train_speed(iter/s)": 0.447645
+    },
+    {
+      "acc": 0.64371881,
+      "epoch": 1.2075088787417554,
+      "grad_norm": 5.84375,
+      "learning_rate": 3.7124897773958084e-06,
+      "loss": 1.61705055,
+      "memory(GiB)": 111.15,
+      "step": 47600,
+      "train_speed(iter/s)": 0.44767
+    },
+    {
+      "epoch": 1.2075088787417554,
+      "eval_acc": 0.6434051043645405,
+      "eval_loss": 1.6077505350112915,
+      "eval_runtime": 113.8312,
+      "eval_samples_per_second": 55.96,
+      "eval_steps_per_second": 27.98,
+      "step": 47600
+    },
+    {
+      "acc": 0.64630804,
+      "epoch": 1.2076357179096906,
+      "grad_norm": 5.875,
+      "learning_rate": 3.7114765439851752e-06,
+      "loss": 1.6979126,
+      "memory(GiB)": 111.15,
+      "step": 47605,
+      "train_speed(iter/s)": 0.447197
+    },
+    {
+      "acc": 0.66235161,
+      "epoch": 1.2077625570776256,
+      "grad_norm": 4.65625,
+      "learning_rate": 3.7104633672495584e-06,
+      "loss": 1.56708546,
+      "memory(GiB)": 111.15,
+      "step": 47610,
+      "train_speed(iter/s)": 0.447221
+    },
+    {
+      "acc": 0.66539803,
+      "epoch": 1.2078893962455606,
+      "grad_norm": 6.59375,
+      "learning_rate": 3.709450247233519e-06,
+      "loss": 1.4865097,
+      "memory(GiB)": 111.15,
+      "step": 47615,
+      "train_speed(iter/s)": 0.447246
+    },
+    {
+      "acc": 0.63140802,
+      "epoch": 1.2080162354134956,
+      "grad_norm": 8.5625,
+      "learning_rate": 3.7084371839816204e-06,
+      "loss": 1.68726883,
+      "memory(GiB)": 111.15,
+      "step": 47620,
+      "train_speed(iter/s)": 0.447271
+    },
+    {
+      "acc": 0.66654081,
+      "epoch": 1.2081430745814308,
+      "grad_norm": 4.375,
+      "learning_rate": 3.707424177538419e-06,
+      "loss": 1.55566435,
+      "memory(GiB)": 111.15,
+      "step": 47625,
+      "train_speed(iter/s)": 0.447296
+    },
+    {
+      "acc": 0.65799713,
+      "epoch": 1.2082699137493658,
+      "grad_norm": 5.3125,
+      "learning_rate": 3.7064112279484753e-06,
+      "loss": 1.59993982,
+      "memory(GiB)": 111.15,
+      "step": 47630,
+      "train_speed(iter/s)": 0.44732
+    },
+    {
+      "acc": 0.65974917,
+      "epoch": 1.208396752917301,
+      "grad_norm": 6.03125,
+      "learning_rate": 3.7053983352563407e-06,
+      "loss": 1.61474133,
+      "memory(GiB)": 111.15,
+      "step": 47635,
+      "train_speed(iter/s)": 0.447345
+    },
+    {
+      "acc": 0.65772419,
+      "epoch": 1.208523592085236,
+      "grad_norm": 4.5,
+      "learning_rate": 3.704385499506565e-06,
+      "loss": 1.58415384,
+      "memory(GiB)": 111.15,
+      "step": 47640,
+      "train_speed(iter/s)": 0.44737
+    },
+    {
+      "acc": 0.6479146,
+      "epoch": 1.208650431253171,
+      "grad_norm": 4.96875,
+      "learning_rate": 3.703372720743702e-06,
+      "loss": 1.61236,
+      "memory(GiB)": 111.15,
+      "step": 47645,
+      "train_speed(iter/s)": 0.447394
+    },
+    {
+      "acc": 0.64465985,
+      "epoch": 1.208777270421106,
+      "grad_norm": 5.4375,
+      "learning_rate": 3.7023599990122966e-06,
+      "loss": 1.60457916,
+      "memory(GiB)": 111.15,
+      "step": 47650,
+      "train_speed(iter/s)": 0.447419
+    },
+    {
+      "acc": 0.64368415,
+      "epoch": 1.2089041095890412,
+      "grad_norm": 5.3125,
+      "learning_rate": 3.7013473343568897e-06,
+      "loss": 1.62619667,
+      "memory(GiB)": 111.15,
+      "step": 47655,
+      "train_speed(iter/s)": 0.447444
+    },
+    {
+      "acc": 0.66768713,
+      "epoch": 1.2090309487569761,
+      "grad_norm": 5.65625,
+      "learning_rate": 3.700334726822026e-06,
+      "loss": 1.57417669,
+      "memory(GiB)": 111.15,
+      "step": 47660,
+      "train_speed(iter/s)": 0.447469
+    },
+    {
+      "acc": 0.67035952,
+      "epoch": 1.2091577879249111,
+      "grad_norm": 5.75,
+      "learning_rate": 3.6993221764522435e-06,
+      "loss": 1.52637615,
+      "memory(GiB)": 111.15,
+      "step": 47665,
+      "train_speed(iter/s)": 0.447493
+    },
+    {
+      "acc": 0.65587769,
+      "epoch": 1.2092846270928463,
+      "grad_norm": 4.96875,
+      "learning_rate": 3.6983096832920806e-06,
+      "loss": 1.60864296,
+      "memory(GiB)": 111.15,
+      "step": 47670,
+      "train_speed(iter/s)": 0.447518
+    },
+    {
+      "acc": 0.66529856,
+      "epoch": 1.2094114662607813,
+      "grad_norm": 5.4375,
+      "learning_rate": 3.697297247386066e-06,
+      "loss": 1.63312664,
+      "memory(GiB)": 111.15,
+      "step": 47675,
+      "train_speed(iter/s)": 0.447543
+    },
+    {
+      "acc": 0.65390258,
+      "epoch": 1.2095383054287163,
+      "grad_norm": 4.96875,
+      "learning_rate": 3.6962848687787365e-06,
+      "loss": 1.6984911,
+      "memory(GiB)": 111.15,
+      "step": 47680,
+      "train_speed(iter/s)": 0.447568
+    },
+    {
+      "acc": 0.65136628,
+      "epoch": 1.2096651445966515,
+      "grad_norm": 4.875,
+      "learning_rate": 3.6952725475146183e-06,
+      "loss": 1.58290577,
+      "memory(GiB)": 111.15,
+      "step": 47685,
+      "train_speed(iter/s)": 0.447592
+    },
+    {
+      "acc": 0.65189271,
+      "epoch": 1.2097919837645865,
+      "grad_norm": 5.25,
+      "learning_rate": 3.69426028363824e-06,
+      "loss": 1.60921211,
+      "memory(GiB)": 111.15,
+      "step": 47690,
+      "train_speed(iter/s)": 0.447617
+    },
+    {
+      "acc": 0.65687299,
+      "epoch": 1.2099188229325215,
+      "grad_norm": 6.1875,
+      "learning_rate": 3.6932480771941237e-06,
+      "loss": 1.55680113,
+      "memory(GiB)": 111.15,
+      "step": 47695,
+      "train_speed(iter/s)": 0.447641
+    },
+    {
+      "acc": 0.65945048,
+      "epoch": 1.2100456621004567,
+      "grad_norm": 5.40625,
+      "learning_rate": 3.6922359282267904e-06,
+      "loss": 1.57848682,
+      "memory(GiB)": 111.15,
+      "step": 47700,
+      "train_speed(iter/s)": 0.447666
+    },
+    {
+      "epoch": 1.2100456621004567,
+      "eval_acc": 0.6433980023202797,
+      "eval_loss": 1.6077300310134888,
+      "eval_runtime": 115.4301,
+      "eval_samples_per_second": 55.185,
+      "eval_steps_per_second": 27.592,
+      "step": 47700
+    },
+    {
+      "acc": 0.65141521,
+      "epoch": 1.2101725012683917,
+      "grad_norm": 4.6875,
+      "learning_rate": 3.6912238367807606e-06,
+      "loss": 1.61986694,
+      "memory(GiB)": 111.15,
+      "step": 47705,
+      "train_speed(iter/s)": 0.447187
+    },
+    {
+      "acc": 0.63594704,
+      "epoch": 1.2102993404363267,
+      "grad_norm": 5.8125,
+      "learning_rate": 3.6902118029005507e-06,
+      "loss": 1.65860729,
+      "memory(GiB)": 111.15,
+      "step": 47710,
+      "train_speed(iter/s)": 0.447212
+    },
+    {
+      "acc": 0.6520504,
+      "epoch": 1.2104261796042617,
+      "grad_norm": 5.46875,
+      "learning_rate": 3.6891998266306717e-06,
+      "loss": 1.64313602,
+      "memory(GiB)": 111.15,
+      "step": 47715,
+      "train_speed(iter/s)": 0.447237
+    },
+    {
+      "acc": 0.65523911,
+      "epoch": 1.210553018772197,
+      "grad_norm": 5.53125,
+      "learning_rate": 3.688187908015636e-06,
+      "loss": 1.61708775,
+      "memory(GiB)": 111.15,
+      "step": 47720,
+      "train_speed(iter/s)": 0.447262
+    },
+    {
+      "acc": 0.6569603,
+      "epoch": 1.2106798579401319,
+      "grad_norm": 6.90625,
+      "learning_rate": 3.6871760470999546e-06,
+      "loss": 1.66032448,
+      "memory(GiB)": 111.15,
+      "step": 47725,
+      "train_speed(iter/s)": 0.447287
+    },
+    {
+      "acc": 0.65249434,
+      "epoch": 1.2108066971080669,
+      "grad_norm": 5.34375,
+      "learning_rate": 3.6861642439281325e-06,
+      "loss": 1.58661079,
+      "memory(GiB)": 111.15,
+      "step": 47730,
+      "train_speed(iter/s)": 0.447312
+    },
+    {
+      "acc": 0.64394808,
+      "epoch": 1.210933536276002,
+      "grad_norm": 5.0,
+      "learning_rate": 3.6851524985446707e-06,
+      "loss": 1.66791325,
+      "memory(GiB)": 111.15,
+      "step": 47735,
+      "train_speed(iter/s)": 0.447337
+    },
+    {
+      "acc": 0.65306182,
+      "epoch": 1.211060375443937,
+      "grad_norm": 5.5625,
+      "learning_rate": 3.6841408109940737e-06,
+      "loss": 1.58619537,
+      "memory(GiB)": 111.15,
+      "step": 47740,
+      "train_speed(iter/s)": 0.447363
+    },
+    {
+      "acc": 0.64388714,
+      "epoch": 1.211187214611872,
+      "grad_norm": 6.1875,
+      "learning_rate": 3.6831291813208377e-06,
+      "loss": 1.61109238,
+      "memory(GiB)": 111.15,
+      "step": 47745,
+      "train_speed(iter/s)": 0.447388
+    },
+    {
+      "acc": 0.63552046,
+      "epoch": 1.2113140537798073,
+      "grad_norm": 5.90625,
+      "learning_rate": 3.682117609569462e-06,
+      "loss": 1.66452255,
+      "memory(GiB)": 111.15,
+      "step": 47750,
+      "train_speed(iter/s)": 0.447413
+    },
+    {
+      "acc": 0.63942208,
+      "epoch": 1.2114408929477423,
+      "grad_norm": 4.84375,
+      "learning_rate": 3.681106095784436e-06,
+      "loss": 1.67119751,
+      "memory(GiB)": 111.15,
+      "step": 47755,
+      "train_speed(iter/s)": 0.447438
+    },
+    {
+      "acc": 0.67147889,
+      "epoch": 1.2115677321156773,
+      "grad_norm": 4.0625,
+      "learning_rate": 3.6800946400102522e-06,
+      "loss": 1.5054884,
+      "memory(GiB)": 111.15,
+      "step": 47760,
+      "train_speed(iter/s)": 0.447463
+    },
+    {
+      "acc": 0.65671682,
+      "epoch": 1.2116945712836125,
+      "grad_norm": 5.5625,
+      "learning_rate": 3.6790832422913984e-06,
+      "loss": 1.62184353,
+      "memory(GiB)": 111.15,
+      "step": 47765,
+      "train_speed(iter/s)": 0.447488
+    },
+    {
+      "acc": 0.65650301,
+      "epoch": 1.2118214104515475,
+      "grad_norm": 6.8125,
+      "learning_rate": 3.6780719026723632e-06,
+      "loss": 1.59287777,
+      "memory(GiB)": 111.15,
+      "step": 47770,
+      "train_speed(iter/s)": 0.447513
+    },
+    {
+      "acc": 0.64112058,
+      "epoch": 1.2119482496194824,
+      "grad_norm": 5.65625,
+      "learning_rate": 3.677060621197627e-06,
+      "loss": 1.71733704,
+      "memory(GiB)": 111.15,
+      "step": 47775,
+      "train_speed(iter/s)": 0.447538
+    },
+    {
+      "acc": 0.64410601,
+      "epoch": 1.2120750887874174,
+      "grad_norm": 4.8125,
+      "learning_rate": 3.6760493979116696e-06,
+      "loss": 1.61598816,
+      "memory(GiB)": 111.15,
+      "step": 47780,
+      "train_speed(iter/s)": 0.447563
+    },
+    {
+      "acc": 0.65623865,
+      "epoch": 1.2122019279553526,
+      "grad_norm": 4.90625,
+      "learning_rate": 3.6750382328589725e-06,
+      "loss": 1.60107498,
+      "memory(GiB)": 111.15,
+      "step": 47785,
+      "train_speed(iter/s)": 0.447588
+    },
+    {
+      "acc": 0.63281446,
+      "epoch": 1.2123287671232876,
+      "grad_norm": 7.03125,
+      "learning_rate": 3.67402712608401e-06,
+      "loss": 1.66122513,
+      "memory(GiB)": 111.15,
+      "step": 47790,
+      "train_speed(iter/s)": 0.447613
+    },
+    {
+      "acc": 0.65852118,
+      "epoch": 1.2124556062912228,
+      "grad_norm": 5.03125,
+      "learning_rate": 3.673016077631253e-06,
+      "loss": 1.61151543,
+      "memory(GiB)": 111.15,
+      "step": 47795,
+      "train_speed(iter/s)": 0.447638
+    },
+    {
+      "acc": 0.64196701,
+      "epoch": 1.2125824454591578,
+      "grad_norm": 5.9375,
+      "learning_rate": 3.672005087545173e-06,
+      "loss": 1.61143017,
+      "memory(GiB)": 111.15,
+      "step": 47800,
+      "train_speed(iter/s)": 0.447663
+    },
+    {
+      "epoch": 1.2125824454591578,
+      "eval_acc": 0.6434259927300133,
+      "eval_loss": 1.6077433824539185,
+      "eval_runtime": 114.1561,
+      "eval_samples_per_second": 55.801,
+      "eval_steps_per_second": 27.9,
+      "step": 47800
+    },
+    {
+      "acc": 0.65422726,
+      "epoch": 1.2127092846270928,
+      "grad_norm": 4.9375,
+      "learning_rate": 3.6709941558702393e-06,
+      "loss": 1.62622223,
+      "memory(GiB)": 111.15,
+      "step": 47805,
+      "train_speed(iter/s)": 0.44719
+    },
+    {
+      "acc": 0.65045505,
+      "epoch": 1.2128361237950278,
+      "grad_norm": 5.5,
+      "learning_rate": 3.6699832826509174e-06,
+      "loss": 1.63952866,
+      "memory(GiB)": 111.15,
+      "step": 47810,
+      "train_speed(iter/s)": 0.447215
+    },
+    {
+      "acc": 0.64424953,
+      "epoch": 1.212962962962963,
+      "grad_norm": 5.25,
+      "learning_rate": 3.6689724679316665e-06,
+      "loss": 1.68489914,
+      "memory(GiB)": 111.15,
+      "step": 47815,
+      "train_speed(iter/s)": 0.44724
+    },
+    {
+      "acc": 0.64231186,
+      "epoch": 1.213089802130898,
+      "grad_norm": 5.6875,
+      "learning_rate": 3.66796171175695e-06,
+      "loss": 1.67084084,
+      "memory(GiB)": 111.15,
+      "step": 47820,
+      "train_speed(iter/s)": 0.447265
+    },
+    {
+      "acc": 0.65276976,
+      "epoch": 1.213216641298833,
+      "grad_norm": 5.09375,
+      "learning_rate": 3.666951014171224e-06,
+      "loss": 1.61187248,
+      "memory(GiB)": 111.15,
+      "step": 47825,
+      "train_speed(iter/s)": 0.44729
+    },
+    {
+      "acc": 0.64309301,
+      "epoch": 1.2133434804667682,
+      "grad_norm": 4.71875,
+      "learning_rate": 3.6659403752189453e-06,
+      "loss": 1.60531235,
+      "memory(GiB)": 111.15,
+      "step": 47830,
+      "train_speed(iter/s)": 0.447314
+    },
+    {
+      "acc": 0.65282698,
+      "epoch": 1.2134703196347032,
+      "grad_norm": 5.25,
+      "learning_rate": 3.664929794944565e-06,
+      "loss": 1.59204578,
+      "memory(GiB)": 111.15,
+      "step": 47835,
+      "train_speed(iter/s)": 0.447339
+    },
+    {
+      "acc": 0.66545134,
+      "epoch": 1.2135971588026382,
+      "grad_norm": 5.28125,
+      "learning_rate": 3.663919273392532e-06,
+      "loss": 1.57408562,
+      "memory(GiB)": 111.15,
+      "step": 47840,
+      "train_speed(iter/s)": 0.447364
+    },
+    {
+      "acc": 0.67837734,
+      "epoch": 1.2137239979705734,
+      "grad_norm": 4.65625,
+      "learning_rate": 3.662908810607294e-06,
+      "loss": 1.50195189,
+      "memory(GiB)": 111.15,
+      "step": 47845,
+      "train_speed(iter/s)": 0.447389
+    },
+    {
+      "acc": 0.65614805,
+      "epoch": 1.2138508371385084,
+      "grad_norm": 5.125,
+      "learning_rate": 3.6618984066332986e-06,
+      "loss": 1.65863113,
+      "memory(GiB)": 111.15,
+      "step": 47850,
+      "train_speed(iter/s)": 0.447414
+    },
+    {
+      "acc": 0.65701585,
+      "epoch": 1.2139776763064434,
+      "grad_norm": 6.4375,
+      "learning_rate": 3.660888061514984e-06,
+      "loss": 1.6179821,
+      "memory(GiB)": 111.15,
+      "step": 47855,
+      "train_speed(iter/s)": 0.447439
+    },
+    {
+      "acc": 0.66167822,
+      "epoch": 1.2141045154743786,
+      "grad_norm": 5.8125,
+      "learning_rate": 3.6598777752967896e-06,
+      "loss": 1.64049988,
+      "memory(GiB)": 111.15,
+      "step": 47860,
+      "train_speed(iter/s)": 0.447464
+    },
+    {
+      "acc": 0.6537859,
+      "epoch": 1.2142313546423136,
+      "grad_norm": 5.6875,
+      "learning_rate": 3.658867548023156e-06,
+      "loss": 1.64080276,
+      "memory(GiB)": 111.15,
+      "step": 47865,
+      "train_speed(iter/s)": 0.447489
+    },
+    {
+      "acc": 0.65503445,
+      "epoch": 1.2143581938102486,
+      "grad_norm": 6.34375,
+      "learning_rate": 3.657857379738515e-06,
+      "loss": 1.64621544,
+      "memory(GiB)": 111.15,
+      "step": 47870,
+      "train_speed(iter/s)": 0.447514
+    },
+    {
+      "acc": 0.65130949,
+      "epoch": 1.2144850329781836,
+      "grad_norm": 5.96875,
+      "learning_rate": 3.656847270487298e-06,
+      "loss": 1.66771469,
+      "memory(GiB)": 111.15,
+      "step": 47875,
+      "train_speed(iter/s)": 0.447539
+    },
+    {
+      "acc": 0.6452878,
+      "epoch": 1.2146118721461188,
+      "grad_norm": 5.21875,
+      "learning_rate": 3.655837220313936e-06,
+      "loss": 1.61989803,
+      "memory(GiB)": 111.15,
+      "step": 47880,
+      "train_speed(iter/s)": 0.447564
+    },
+    {
+      "acc": 0.63829598,
+      "epoch": 1.2147387113140538,
+      "grad_norm": 4.25,
+      "learning_rate": 3.654827229262852e-06,
+      "loss": 1.67354317,
+      "memory(GiB)": 111.15,
+      "step": 47885,
+      "train_speed(iter/s)": 0.447589
+    },
+    {
+      "acc": 0.66510448,
+      "epoch": 1.2148655504819887,
+      "grad_norm": 5.59375,
+      "learning_rate": 3.653817297378476e-06,
+      "loss": 1.57378635,
+      "memory(GiB)": 111.15,
+      "step": 47890,
+      "train_speed(iter/s)": 0.447614
+    },
+    {
+      "acc": 0.66895037,
+      "epoch": 1.214992389649924,
+      "grad_norm": 5.125,
+      "learning_rate": 3.6528074247052225e-06,
+      "loss": 1.54359665,
+      "memory(GiB)": 111.15,
+      "step": 47895,
+      "train_speed(iter/s)": 0.447639
+    },
+    {
+      "acc": 0.65845246,
+      "epoch": 1.215119228817859,
+      "grad_norm": 4.3125,
+      "learning_rate": 3.651797611287514e-06,
+      "loss": 1.52852211,
+      "memory(GiB)": 111.15,
+      "step": 47900,
+      "train_speed(iter/s)": 0.447663
+    },
+    {
+      "epoch": 1.215119228817859,
+      "eval_acc": 0.6433574788912623,
+      "eval_loss": 1.6077561378479004,
+      "eval_runtime": 114.4003,
+      "eval_samples_per_second": 55.682,
+      "eval_steps_per_second": 27.841,
+      "step": 47900
+    },
+    {
+      "acc": 0.66938353,
+      "epoch": 1.215246067985794,
+      "grad_norm": 5.96875,
+      "learning_rate": 3.6507878571697646e-06,
+      "loss": 1.5638504,
+      "memory(GiB)": 111.15,
+      "step": 47905,
+      "train_speed(iter/s)": 0.447191
+    },
+    {
+      "acc": 0.65448694,
+      "epoch": 1.2153729071537291,
+      "grad_norm": 4.75,
+      "learning_rate": 3.6497781623963915e-06,
+      "loss": 1.61602745,
+      "memory(GiB)": 111.15,
+      "step": 47910,
+      "train_speed(iter/s)": 0.447216
+    },
+    {
+      "acc": 0.65453444,
+      "epoch": 1.2154997463216641,
+      "grad_norm": 4.96875,
+      "learning_rate": 3.648768527011802e-06,
+      "loss": 1.62160873,
+      "memory(GiB)": 111.15,
+      "step": 47915,
+      "train_speed(iter/s)": 0.447241
+    },
+    {
+      "acc": 0.65369759,
+      "epoch": 1.2156265854895991,
+      "grad_norm": 5.15625,
+      "learning_rate": 3.6477589510604044e-06,
+      "loss": 1.65145912,
+      "memory(GiB)": 111.15,
+      "step": 47920,
+      "train_speed(iter/s)": 0.447266
+    },
+    {
+      "acc": 0.64625349,
+      "epoch": 1.2157534246575343,
+      "grad_norm": 4.71875,
+      "learning_rate": 3.646749434586607e-06,
+      "loss": 1.62981644,
+      "memory(GiB)": 111.15,
+      "step": 47925,
+      "train_speed(iter/s)": 0.44729
+    },
+    {
+      "acc": 0.66276236,
+      "epoch": 1.2158802638254693,
+      "grad_norm": 6.65625,
+      "learning_rate": 3.645739977634811e-06,
+      "loss": 1.58160534,
+      "memory(GiB)": 111.15,
+      "step": 47930,
+      "train_speed(iter/s)": 0.447315
+    },
+    {
+      "acc": 0.65069604,
+      "epoch": 1.2160071029934043,
+      "grad_norm": 5.3125,
+      "learning_rate": 3.6447305802494177e-06,
+      "loss": 1.61468315,
+      "memory(GiB)": 111.15,
+      "step": 47935,
+      "train_speed(iter/s)": 0.44734
+    },
+    {
+      "acc": 0.65809236,
+      "epoch": 1.2161339421613393,
+      "grad_norm": 5.46875,
+      "learning_rate": 3.6437212424748227e-06,
+      "loss": 1.66192245,
+      "memory(GiB)": 111.15,
+      "step": 47940,
+      "train_speed(iter/s)": 0.447365
+    },
+    {
+      "acc": 0.65046949,
+      "epoch": 1.2162607813292745,
+      "grad_norm": 6.5625,
+      "learning_rate": 3.642711964355423e-06,
+      "loss": 1.66111946,
+      "memory(GiB)": 111.15,
+      "step": 47945,
+      "train_speed(iter/s)": 0.44739
+    },
+    {
+      "acc": 0.63981104,
+      "epoch": 1.2163876204972095,
+      "grad_norm": 5.65625,
+      "learning_rate": 3.6417027459356134e-06,
+      "loss": 1.65926552,
+      "memory(GiB)": 111.15,
+      "step": 47950,
+      "train_speed(iter/s)": 0.447415
+    },
+    {
+      "acc": 0.62649975,
+      "epoch": 1.2165144596651447,
+      "grad_norm": 5.5,
+      "learning_rate": 3.640693587259778e-06,
+      "loss": 1.73616142,
+      "memory(GiB)": 111.15,
+      "step": 47955,
+      "train_speed(iter/s)": 0.44744
+    },
+    {
+      "acc": 0.64227886,
+      "epoch": 1.2166412988330797,
+      "grad_norm": 4.375,
+      "learning_rate": 3.6396844883723092e-06,
+      "loss": 1.69049416,
+      "memory(GiB)": 111.15,
+      "step": 47960,
+      "train_speed(iter/s)": 0.447465
+    },
+    {
+      "acc": 0.65092874,
+      "epoch": 1.2167681380010147,
+      "grad_norm": 5.0625,
+      "learning_rate": 3.6386754493175893e-06,
+      "loss": 1.64562416,
+      "memory(GiB)": 111.15,
+      "step": 47965,
+      "train_speed(iter/s)": 0.44749
+    },
+    {
+      "acc": 0.64990368,
+      "epoch": 1.2168949771689497,
+      "grad_norm": 4.375,
+      "learning_rate": 3.637666470140003e-06,
+      "loss": 1.60775814,
+      "memory(GiB)": 111.15,
+      "step": 47970,
+      "train_speed(iter/s)": 0.447515
+    },
+    {
+      "acc": 0.65966177,
+      "epoch": 1.2170218163368849,
+      "grad_norm": 5.3125,
+      "learning_rate": 3.6366575508839265e-06,
+      "loss": 1.61353378,
+      "memory(GiB)": 111.15,
+      "step": 47975,
+      "train_speed(iter/s)": 0.44754
+    },
+    {
+      "acc": 0.64418468,
+      "epoch": 1.2171486555048199,
+      "grad_norm": 5.8125,
+      "learning_rate": 3.635648691593737e-06,
+      "loss": 1.70213966,
+      "memory(GiB)": 111.15,
+      "step": 47980,
+      "train_speed(iter/s)": 0.447564
+    },
+    {
+      "acc": 0.64952192,
+      "epoch": 1.2172754946727549,
+      "grad_norm": 5.0,
+      "learning_rate": 3.6346398923138094e-06,
+      "loss": 1.63174782,
+      "memory(GiB)": 111.15,
+      "step": 47985,
+      "train_speed(iter/s)": 0.44759
+    },
+    {
+      "acc": 0.65460558,
+      "epoch": 1.21740233384069,
+      "grad_norm": 4.875,
+      "learning_rate": 3.633631153088517e-06,
+      "loss": 1.59307308,
+      "memory(GiB)": 111.15,
+      "step": 47990,
+      "train_speed(iter/s)": 0.447615
+    },
+    {
+      "acc": 0.64008503,
+      "epoch": 1.217529173008625,
+      "grad_norm": 5.625,
+      "learning_rate": 3.6326224739622255e-06,
+      "loss": 1.70322704,
+      "memory(GiB)": 111.15,
+      "step": 47995,
+      "train_speed(iter/s)": 0.447616
+    },
+    {
+      "acc": 0.64503198,
+      "epoch": 1.21765601217656,
+      "grad_norm": 5.78125,
+      "learning_rate": 3.6316138549793024e-06,
+      "loss": 1.59764442,
+      "memory(GiB)": 111.15,
+      "step": 48000,
+      "train_speed(iter/s)": 0.447641
+    },
+    {
+      "epoch": 1.21765601217656,
+      "eval_acc": 0.6433766961874973,
+      "eval_loss": 1.6077216863632202,
+      "eval_runtime": 114.5905,
+      "eval_samples_per_second": 55.589,
+      "eval_steps_per_second": 27.795,
+      "step": 48000
+    },
+    {
+      "acc": 0.65124836,
+      "epoch": 1.2177828513444953,
+      "grad_norm": 5.40625,
+      "learning_rate": 3.630605296184111e-06,
+      "loss": 1.57235489,
+      "memory(GiB)": 111.15,
+      "step": 48005,
+      "train_speed(iter/s)": 0.447169
+    },
+    {
+      "acc": 0.63286295,
+      "epoch": 1.2179096905124303,
+      "grad_norm": 5.46875,
+      "learning_rate": 3.6295967976210146e-06,
+      "loss": 1.70333519,
+      "memory(GiB)": 111.15,
+      "step": 48010,
+      "train_speed(iter/s)": 0.447194
+    },
+    {
+      "acc": 0.63348994,
+      "epoch": 1.2180365296803652,
+      "grad_norm": 5.40625,
+      "learning_rate": 3.6285883593343685e-06,
+      "loss": 1.70695877,
+      "memory(GiB)": 111.15,
+      "step": 48015,
+      "train_speed(iter/s)": 0.447219
+    },
+    {
+      "acc": 0.65232325,
+      "epoch": 1.2181633688483005,
+      "grad_norm": 5.8125,
+      "learning_rate": 3.6275799813685274e-06,
+      "loss": 1.61698189,
+      "memory(GiB)": 111.15,
+      "step": 48020,
+      "train_speed(iter/s)": 0.447244
+    },
+    {
+      "acc": 0.65834684,
+      "epoch": 1.2182902080162354,
+      "grad_norm": 5.3125,
+      "learning_rate": 3.6265716637678484e-06,
+      "loss": 1.61616592,
+      "memory(GiB)": 111.15,
+      "step": 48025,
+      "train_speed(iter/s)": 0.447269
+    },
+    {
+      "acc": 0.64778399,
+      "epoch": 1.2184170471841704,
+      "grad_norm": 6.375,
+      "learning_rate": 3.62556340657668e-06,
+      "loss": 1.63860226,
+      "memory(GiB)": 111.15,
+      "step": 48030,
+      "train_speed(iter/s)": 0.447294
+    },
+    {
+      "acc": 0.65683537,
+      "epoch": 1.2185438863521054,
+      "grad_norm": 5.375,
+      "learning_rate": 3.6245552098393665e-06,
+      "loss": 1.63143463,
+      "memory(GiB)": 111.15,
+      "step": 48035,
+      "train_speed(iter/s)": 0.447319
+    },
+    {
+      "acc": 0.64933019,
+      "epoch": 1.2186707255200406,
+      "grad_norm": 5.34375,
+      "learning_rate": 3.6235470736002576e-06,
+      "loss": 1.60983467,
+      "memory(GiB)": 111.15,
+      "step": 48040,
+      "train_speed(iter/s)": 0.447343
+    },
+    {
+      "acc": 0.65772276,
+      "epoch": 1.2187975646879756,
+      "grad_norm": 4.75,
+      "learning_rate": 3.622538997903693e-06,
+      "loss": 1.634832,
+      "memory(GiB)": 111.15,
+      "step": 48045,
+      "train_speed(iter/s)": 0.447368
+    },
+    {
+      "acc": 0.64407678,
+      "epoch": 1.2189244038559106,
+      "grad_norm": 5.3125,
+      "learning_rate": 3.621530982794015e-06,
+      "loss": 1.65220604,
+      "memory(GiB)": 111.15,
+      "step": 48050,
+      "train_speed(iter/s)": 0.447393
+    },
+    {
+      "acc": 0.64979753,
+      "epoch": 1.2190512430238458,
+      "grad_norm": 5.53125,
+      "learning_rate": 3.620523028315558e-06,
+      "loss": 1.68992348,
+      "memory(GiB)": 111.15,
+      "step": 48055,
+      "train_speed(iter/s)": 0.447418
+    },
+    {
+      "acc": 0.64577208,
+      "epoch": 1.2191780821917808,
+      "grad_norm": 5.71875,
+      "learning_rate": 3.6195151345126556e-06,
+      "loss": 1.72460766,
+      "memory(GiB)": 111.15,
+      "step": 48060,
+      "train_speed(iter/s)": 0.447443
+    },
+    {
+      "acc": 0.65759902,
+      "epoch": 1.2193049213597158,
+      "grad_norm": 4.6875,
+      "learning_rate": 3.6185073014296425e-06,
+      "loss": 1.62168846,
+      "memory(GiB)": 111.15,
+      "step": 48065,
+      "train_speed(iter/s)": 0.447467
+    },
+    {
+      "acc": 0.65458035,
+      "epoch": 1.219431760527651,
+      "grad_norm": 6.28125,
+      "learning_rate": 3.6174995291108474e-06,
+      "loss": 1.56610241,
+      "memory(GiB)": 111.15,
+      "step": 48070,
+      "train_speed(iter/s)": 0.447492
+    },
+    {
+      "acc": 0.63579173,
+      "epoch": 1.219558599695586,
+      "grad_norm": 5.9375,
+      "learning_rate": 3.6164918176005937e-06,
+      "loss": 1.69299622,
+      "memory(GiB)": 111.15,
+      "step": 48075,
+      "train_speed(iter/s)": 0.447517
+    },
+    {
+      "acc": 0.64314928,
+      "epoch": 1.219685438863521,
+      "grad_norm": 5.34375,
+      "learning_rate": 3.6154841669432062e-06,
+      "loss": 1.59218025,
+      "memory(GiB)": 111.15,
+      "step": 48080,
+      "train_speed(iter/s)": 0.447542
+    },
+    {
+      "acc": 0.65766201,
+      "epoch": 1.2198122780314562,
+      "grad_norm": 5.28125,
+      "learning_rate": 3.614476577183007e-06,
+      "loss": 1.59719334,
+      "memory(GiB)": 111.15,
+      "step": 48085,
+      "train_speed(iter/s)": 0.447566
+    },
+    {
+      "acc": 0.65623488,
+      "epoch": 1.2199391171993912,
+      "grad_norm": 4.75,
+      "learning_rate": 3.6134690483643154e-06,
+      "loss": 1.57829704,
+      "memory(GiB)": 111.15,
+      "step": 48090,
+      "train_speed(iter/s)": 0.447591
+    },
+    {
+      "acc": 0.64585705,
+      "epoch": 1.2200659563673262,
+      "grad_norm": 5.71875,
+      "learning_rate": 3.6124615805314434e-06,
+      "loss": 1.64439926,
+      "memory(GiB)": 111.15,
+      "step": 48095,
+      "train_speed(iter/s)": 0.447616
+    },
+    {
+      "acc": 0.63885517,
+      "epoch": 1.2201927955352612,
+      "grad_norm": 5.0625,
+      "learning_rate": 3.611454173728707e-06,
+      "loss": 1.63103638,
+      "memory(GiB)": 111.15,
+      "step": 48100,
+      "train_speed(iter/s)": 0.447641
+    },
+    {
+      "epoch": 1.2201927955352612,
+      "eval_acc": 0.6433503768470015,
+      "eval_loss": 1.6077296733856201,
+      "eval_runtime": 114.6304,
+      "eval_samples_per_second": 55.57,
+      "eval_steps_per_second": 27.785,
+      "step": 48100
+    },
+    {
+      "acc": 0.66144776,
+      "epoch": 1.2203196347031964,
+      "grad_norm": 5.09375,
+      "learning_rate": 3.610446828000414e-06,
+      "loss": 1.59583511,
+      "memory(GiB)": 111.15,
+      "step": 48105,
+      "train_speed(iter/s)": 0.447169
+    },
+    {
+      "acc": 0.64330454,
+      "epoch": 1.2204464738711314,
+      "grad_norm": 4.8125,
+      "learning_rate": 3.609439543390877e-06,
+      "loss": 1.6276289,
+      "memory(GiB)": 111.15,
+      "step": 48110,
+      "train_speed(iter/s)": 0.447194
+    },
+    {
+      "acc": 0.65280132,
+      "epoch": 1.2205733130390666,
+      "grad_norm": 5.1875,
+      "learning_rate": 3.608432319944394e-06,
+      "loss": 1.65336361,
+      "memory(GiB)": 111.15,
+      "step": 48115,
+      "train_speed(iter/s)": 0.447219
+    },
+    {
+      "acc": 0.65101633,
+      "epoch": 1.2207001522070016,
+      "grad_norm": 6.59375,
+      "learning_rate": 3.607425157705271e-06,
+      "loss": 1.58845482,
+      "memory(GiB)": 111.15,
+      "step": 48120,
+      "train_speed(iter/s)": 0.447243
+    },
+    {
+      "acc": 0.64587588,
+      "epoch": 1.2208269913749366,
+      "grad_norm": 4.8125,
+      "learning_rate": 3.6064180567178064e-06,
+      "loss": 1.63901043,
+      "memory(GiB)": 111.15,
+      "step": 48125,
+      "train_speed(iter/s)": 0.447268
+    },
+    {
+      "acc": 0.66341476,
+      "epoch": 1.2209538305428715,
+      "grad_norm": 5.0,
+      "learning_rate": 3.6054110170263002e-06,
+      "loss": 1.58412638,
+      "memory(GiB)": 111.15,
+      "step": 48130,
+      "train_speed(iter/s)": 0.447292
+    },
+    {
+      "acc": 0.63947487,
+      "epoch": 1.2210806697108068,
+      "grad_norm": 7.15625,
+      "learning_rate": 3.6044040386750423e-06,
+      "loss": 1.62334328,
+      "memory(GiB)": 111.15,
+      "step": 48135,
+      "train_speed(iter/s)": 0.447316
+    },
+    {
+      "acc": 0.66491022,
+      "epoch": 1.2212075088787417,
+      "grad_norm": 6.21875,
+      "learning_rate": 3.6033971217083242e-06,
+      "loss": 1.57158766,
+      "memory(GiB)": 111.15,
+      "step": 48140,
+      "train_speed(iter/s)": 0.447341
+    },
+    {
+      "acc": 0.66050806,
+      "epoch": 1.2213343480466767,
+      "grad_norm": 4.90625,
+      "learning_rate": 3.602390266170438e-06,
+      "loss": 1.57898731,
+      "memory(GiB)": 111.15,
+      "step": 48145,
+      "train_speed(iter/s)": 0.447365
+    },
+    {
+      "acc": 0.64657922,
+      "epoch": 1.221461187214612,
+      "grad_norm": 7.03125,
+      "learning_rate": 3.6013834721056683e-06,
+      "loss": 1.62901497,
+      "memory(GiB)": 111.15,
+      "step": 48150,
+      "train_speed(iter/s)": 0.44739
+    },
+    {
+      "acc": 0.65540609,
+      "epoch": 1.221588026382547,
+      "grad_norm": 6.09375,
+      "learning_rate": 3.6003767395582967e-06,
+      "loss": 1.49912052,
+      "memory(GiB)": 111.15,
+      "step": 48155,
+      "train_speed(iter/s)": 0.447415
+    },
+    {
+      "acc": 0.65618868,
+      "epoch": 1.221714865550482,
+      "grad_norm": 6.03125,
+      "learning_rate": 3.599370068572604e-06,
+      "loss": 1.51594601,
+      "memory(GiB)": 111.15,
+      "step": 48160,
+      "train_speed(iter/s)": 0.447439
+    },
+    {
+      "acc": 0.65926113,
+      "epoch": 1.2218417047184171,
+      "grad_norm": 5.59375,
+      "learning_rate": 3.5983634591928705e-06,
+      "loss": 1.57809429,
+      "memory(GiB)": 111.15,
+      "step": 48165,
+      "train_speed(iter/s)": 0.447464
+    },
+    {
+      "acc": 0.66431522,
+      "epoch": 1.2219685438863521,
+      "grad_norm": 5.46875,
+      "learning_rate": 3.5973569114633704e-06,
+      "loss": 1.61279316,
+      "memory(GiB)": 111.15,
+      "step": 48170,
+      "train_speed(iter/s)": 0.447488
+    },
+    {
+      "acc": 0.66413121,
+      "epoch": 1.222095383054287,
+      "grad_norm": 6.0625,
+      "learning_rate": 3.5963504254283743e-06,
+      "loss": 1.66380348,
+      "memory(GiB)": 111.15,
+      "step": 48175,
+      "train_speed(iter/s)": 0.447513
+    },
+    {
+      "acc": 0.65199256,
+      "epoch": 1.2222222222222223,
+      "grad_norm": 4.75,
+      "learning_rate": 3.595344001132154e-06,
+      "loss": 1.57534294,
+      "memory(GiB)": 111.15,
+      "step": 48180,
+      "train_speed(iter/s)": 0.447537
+    },
+    {
+      "acc": 0.64947338,
+      "epoch": 1.2223490613901573,
+      "grad_norm": 4.875,
+      "learning_rate": 3.5943376386189744e-06,
+      "loss": 1.60487061,
+      "memory(GiB)": 111.15,
+      "step": 48185,
+      "train_speed(iter/s)": 0.447562
+    },
+    {
+      "acc": 0.65768194,
+      "epoch": 1.2224759005580923,
+      "grad_norm": 5.9375,
+      "learning_rate": 3.5933313379331047e-06,
+      "loss": 1.61257477,
+      "memory(GiB)": 111.15,
+      "step": 48190,
+      "train_speed(iter/s)": 0.447586
+    },
+    {
+      "acc": 0.63983412,
+      "epoch": 1.2226027397260273,
+      "grad_norm": 5.125,
+      "learning_rate": 3.5923250991188e-06,
+      "loss": 1.63574295,
+      "memory(GiB)": 111.15,
+      "step": 48195,
+      "train_speed(iter/s)": 0.44761
+    },
+    {
+      "acc": 0.64277277,
+      "epoch": 1.2227295788939625,
+      "grad_norm": 5.5,
+      "learning_rate": 3.591318922220324e-06,
+      "loss": 1.65039158,
+      "memory(GiB)": 111.15,
+      "step": 48200,
+      "train_speed(iter/s)": 0.447635
+    },
+    {
+      "epoch": 1.2227295788939625,
+      "eval_acc": 0.6434105353395634,
+      "eval_loss": 1.6078860759735107,
+      "eval_runtime": 116.3517,
+      "eval_samples_per_second": 54.748,
+      "eval_steps_per_second": 27.374,
+      "step": 48200
+    },
+    {
+      "acc": 0.65231667,
+      "epoch": 1.2228564180618975,
+      "grad_norm": 6.5,
+      "learning_rate": 3.5903128072819287e-06,
+      "loss": 1.66494789,
+      "memory(GiB)": 111.15,
+      "step": 48205,
+      "train_speed(iter/s)": 0.447157
+    },
+    {
+      "acc": 0.63991966,
+      "epoch": 1.2229832572298325,
+      "grad_norm": 5.46875,
+      "learning_rate": 3.5893067543478733e-06,
+      "loss": 1.67309532,
+      "memory(GiB)": 111.15,
+      "step": 48210,
+      "train_speed(iter/s)": 0.447182
+    },
+    {
+      "acc": 0.63511734,
+      "epoch": 1.2231100963977677,
+      "grad_norm": 5.53125,
+      "learning_rate": 3.5883007634624033e-06,
+      "loss": 1.69841976,
+      "memory(GiB)": 111.15,
+      "step": 48215,
+      "train_speed(iter/s)": 0.447207
+    },
+    {
+      "acc": 0.63905597,
+      "epoch": 1.2232369355657027,
+      "grad_norm": 4.84375,
+      "learning_rate": 3.5872948346697676e-06,
+      "loss": 1.61943626,
+      "memory(GiB)": 111.15,
+      "step": 48220,
+      "train_speed(iter/s)": 0.447232
+    },
+    {
+      "acc": 0.68012533,
+      "epoch": 1.2233637747336377,
+      "grad_norm": 5.40625,
+      "learning_rate": 3.5862889680142133e-06,
+      "loss": 1.54296989,
+      "memory(GiB)": 111.15,
+      "step": 48225,
+      "train_speed(iter/s)": 0.447256
+    },
+    {
+      "acc": 0.65258899,
+      "epoch": 1.2234906139015729,
+      "grad_norm": 5.40625,
+      "learning_rate": 3.5852831635399833e-06,
+      "loss": 1.63334255,
+      "memory(GiB)": 111.15,
+      "step": 48230,
+      "train_speed(iter/s)": 0.447281
+    },
+    {
+      "acc": 0.65408697,
+      "epoch": 1.2236174530695079,
+      "grad_norm": 6.0,
+      "learning_rate": 3.5842774212913144e-06,
+      "loss": 1.6583849,
+      "memory(GiB)": 111.15,
+      "step": 48235,
+      "train_speed(iter/s)": 0.447306
+    },
+    {
+      "acc": 0.6459578,
+      "epoch": 1.2237442922374429,
+      "grad_norm": 5.5625,
+      "learning_rate": 3.583271741312445e-06,
+      "loss": 1.64370422,
+      "memory(GiB)": 111.15,
+      "step": 48240,
+      "train_speed(iter/s)": 0.44733
+    },
+    {
+      "acc": 0.64814959,
+      "epoch": 1.223871131405378,
+      "grad_norm": 7.0625,
+      "learning_rate": 3.58226612364761e-06,
+      "loss": 1.59727707,
+      "memory(GiB)": 111.15,
+      "step": 48245,
+      "train_speed(iter/s)": 0.447355
+    },
+    {
+      "acc": 0.66084051,
+      "epoch": 1.223997970573313,
+      "grad_norm": 4.78125,
+      "learning_rate": 3.581260568341042e-06,
+      "loss": 1.59529686,
+      "memory(GiB)": 111.15,
+      "step": 48250,
+      "train_speed(iter/s)": 0.44738
+    },
+    {
+      "acc": 0.64121184,
+      "epoch": 1.224124809741248,
+      "grad_norm": 5.46875,
+      "learning_rate": 3.580255075436967e-06,
+      "loss": 1.69327927,
+      "memory(GiB)": 111.15,
+      "step": 48255,
+      "train_speed(iter/s)": 0.447405
+    },
+    {
+      "acc": 0.64513178,
+      "epoch": 1.224251648909183,
+      "grad_norm": 4.90625,
+      "learning_rate": 3.5792496449796127e-06,
+      "loss": 1.62184906,
+      "memory(GiB)": 111.15,
+      "step": 48260,
+      "train_speed(iter/s)": 0.447429
+    },
+    {
+      "acc": 0.66440115,
+      "epoch": 1.2243784880771182,
+      "grad_norm": 5.0625,
+      "learning_rate": 3.578244277013201e-06,
+      "loss": 1.58008366,
+      "memory(GiB)": 111.15,
+      "step": 48265,
+      "train_speed(iter/s)": 0.447454
+    },
+    {
+      "acc": 0.66057987,
+      "epoch": 1.2245053272450532,
+      "grad_norm": 4.1875,
+      "learning_rate": 3.5772389715819568e-06,
+      "loss": 1.60743828,
+      "memory(GiB)": 111.15,
+      "step": 48270,
+      "train_speed(iter/s)": 0.447479
+    },
+    {
+      "acc": 0.66055861,
+      "epoch": 1.2246321664129884,
+      "grad_norm": 5.375,
+      "learning_rate": 3.5762337287300925e-06,
+      "loss": 1.59810162,
+      "memory(GiB)": 111.15,
+      "step": 48275,
+      "train_speed(iter/s)": 0.447504
+    },
+    {
+      "acc": 0.6402153,
+      "epoch": 1.2247590055809234,
+      "grad_norm": 5.09375,
+      "learning_rate": 3.575228548501825e-06,
+      "loss": 1.63626614,
+      "memory(GiB)": 111.15,
+      "step": 48280,
+      "train_speed(iter/s)": 0.447529
+    },
+    {
+      "acc": 0.6397727,
+      "epoch": 1.2248858447488584,
+      "grad_norm": 5.625,
+      "learning_rate": 3.574223430941368e-06,
+      "loss": 1.65031281,
+      "memory(GiB)": 111.15,
+      "step": 48285,
+      "train_speed(iter/s)": 0.447553
+    },
+    {
+      "acc": 0.64009237,
+      "epoch": 1.2250126839167934,
+      "grad_norm": 6.25,
+      "learning_rate": 3.573218376092932e-06,
+      "loss": 1.71342697,
+      "memory(GiB)": 111.15,
+      "step": 48290,
+      "train_speed(iter/s)": 0.447578
+    },
+    {
+      "acc": 0.65148759,
+      "epoch": 1.2251395230847286,
+      "grad_norm": 6.6875,
+      "learning_rate": 3.5722133840007197e-06,
+      "loss": 1.64213409,
+      "memory(GiB)": 111.15,
+      "step": 48295,
+      "train_speed(iter/s)": 0.447603
+    },
+    {
+      "acc": 0.64038968,
+      "epoch": 1.2252663622526636,
+      "grad_norm": 6.125,
+      "learning_rate": 3.5712084547089367e-06,
+      "loss": 1.63766079,
+      "memory(GiB)": 111.15,
+      "step": 48300,
+      "train_speed(iter/s)": 0.447628
+    },
+    {
+      "epoch": 1.2252663622526636,
+      "eval_acc": 0.6433996733895174,
+      "eval_loss": 1.6077450513839722,
+      "eval_runtime": 113.8353,
+      "eval_samples_per_second": 55.958,
+      "eval_steps_per_second": 27.979,
+      "step": 48300
+    },
+    {
+      "acc": 0.65468769,
+      "epoch": 1.2253932014205986,
+      "grad_norm": 5.71875,
+      "learning_rate": 3.5702035882617857e-06,
+      "loss": 1.59920387,
+      "memory(GiB)": 111.15,
+      "step": 48305,
+      "train_speed(iter/s)": 0.447162
+    },
+    {
+      "acc": 0.63794231,
+      "epoch": 1.2255200405885338,
+      "grad_norm": 5.75,
+      "learning_rate": 3.5691987847034667e-06,
+      "loss": 1.67073975,
+      "memory(GiB)": 111.15,
+      "step": 48310,
+      "train_speed(iter/s)": 0.447186
+    },
+    {
+      "acc": 0.64178362,
+      "epoch": 1.2256468797564688,
+      "grad_norm": 5.71875,
+      "learning_rate": 3.5681940440781705e-06,
+      "loss": 1.6426281,
+      "memory(GiB)": 111.15,
+      "step": 48315,
+      "train_speed(iter/s)": 0.447211
+    },
+    {
+      "acc": 0.66678324,
+      "epoch": 1.2257737189244038,
+      "grad_norm": 4.9375,
+      "learning_rate": 3.5671893664300934e-06,
+      "loss": 1.55286713,
+      "memory(GiB)": 111.15,
+      "step": 48320,
+      "train_speed(iter/s)": 0.447236
+    },
+    {
+      "acc": 0.66302948,
+      "epoch": 1.225900558092339,
+      "grad_norm": 4.9375,
+      "learning_rate": 3.5661847518034244e-06,
+      "loss": 1.53236265,
+      "memory(GiB)": 111.15,
+      "step": 48325,
+      "train_speed(iter/s)": 0.447261
+    },
+    {
+      "acc": 0.63411884,
+      "epoch": 1.226027397260274,
+      "grad_norm": 4.9375,
+      "learning_rate": 3.5651802002423543e-06,
+      "loss": 1.61926174,
+      "memory(GiB)": 111.15,
+      "step": 48330,
+      "train_speed(iter/s)": 0.447286
+    },
+    {
+      "acc": 0.66400146,
+      "epoch": 1.226154236428209,
+      "grad_norm": 5.875,
+      "learning_rate": 3.5641757117910625e-06,
+      "loss": 1.59985371,
+      "memory(GiB)": 111.15,
+      "step": 48335,
+      "train_speed(iter/s)": 0.447311
+    },
+    {
+      "acc": 0.63565955,
+      "epoch": 1.2262810755961442,
+      "grad_norm": 5.75,
+      "learning_rate": 3.563171286493734e-06,
+      "loss": 1.68648033,
+      "memory(GiB)": 111.15,
+      "step": 48340,
+      "train_speed(iter/s)": 0.447335
+    },
+    {
+      "acc": 0.62883015,
+      "epoch": 1.2264079147640792,
+      "grad_norm": 5.25,
+      "learning_rate": 3.5621669243945457e-06,
+      "loss": 1.63255749,
+      "memory(GiB)": 111.15,
+      "step": 48345,
+      "train_speed(iter/s)": 0.44736
+    },
+    {
+      "acc": 0.64603376,
+      "epoch": 1.2265347539320142,
+      "grad_norm": 4.75,
+      "learning_rate": 3.5611626255376785e-06,
+      "loss": 1.65365391,
+      "memory(GiB)": 111.15,
+      "step": 48350,
+      "train_speed(iter/s)": 0.447385
+    },
+    {
+      "acc": 0.66827164,
+      "epoch": 1.2266615930999492,
+      "grad_norm": 5.34375,
+      "learning_rate": 3.560158389967302e-06,
+      "loss": 1.60416393,
+      "memory(GiB)": 111.15,
+      "step": 48355,
+      "train_speed(iter/s)": 0.44741
+    },
+    {
+      "acc": 0.64616065,
+      "epoch": 1.2267884322678844,
+      "grad_norm": 6.125,
+      "learning_rate": 3.559154217727586e-06,
+      "loss": 1.66946545,
+      "memory(GiB)": 111.15,
+      "step": 48360,
+      "train_speed(iter/s)": 0.447435
+    },
+    {
+      "acc": 0.64815755,
+      "epoch": 1.2269152714358194,
+      "grad_norm": 5.6875,
+      "learning_rate": 3.5581501088627026e-06,
+      "loss": 1.70807571,
+      "memory(GiB)": 111.15,
+      "step": 48365,
+      "train_speed(iter/s)": 0.44746
+    },
+    {
+      "acc": 0.65196028,
+      "epoch": 1.2270421106037543,
+      "grad_norm": 5.46875,
+      "learning_rate": 3.557146063416815e-06,
+      "loss": 1.60556145,
+      "memory(GiB)": 111.15,
+      "step": 48370,
+      "train_speed(iter/s)": 0.447484
+    },
+    {
+      "acc": 0.64248352,
+      "epoch": 1.2271689497716896,
+      "grad_norm": 5.40625,
+      "learning_rate": 3.5561420814340843e-06,
+      "loss": 1.66571541,
+      "memory(GiB)": 111.15,
+      "step": 48375,
+      "train_speed(iter/s)": 0.447509
+    },
+    {
+      "acc": 0.64004059,
+      "epoch": 1.2272957889396245,
+      "grad_norm": 5.5625,
+      "learning_rate": 3.555138162958671e-06,
+      "loss": 1.68097878,
+      "memory(GiB)": 111.15,
+      "step": 48380,
+      "train_speed(iter/s)": 0.447534
+    },
+    {
+      "acc": 0.65901833,
+      "epoch": 1.2274226281075595,
+      "grad_norm": 6.09375,
+      "learning_rate": 3.5541343080347325e-06,
+      "loss": 1.53210182,
+      "memory(GiB)": 111.15,
+      "step": 48385,
+      "train_speed(iter/s)": 0.447559
+    },
+    {
+      "acc": 0.65319448,
+      "epoch": 1.2275494672754947,
+      "grad_norm": 5.21875,
+      "learning_rate": 3.5531305167064234e-06,
+      "loss": 1.61542301,
+      "memory(GiB)": 111.15,
+      "step": 48390,
+      "train_speed(iter/s)": 0.447584
+    },
+    {
+      "acc": 0.66001253,
+      "epoch": 1.2276763064434297,
+      "grad_norm": 5.5625,
+      "learning_rate": 3.5521267890178922e-06,
+      "loss": 1.60195866,
+      "memory(GiB)": 111.15,
+      "step": 48395,
+      "train_speed(iter/s)": 0.447609
+    },
+    {
+      "acc": 0.64768724,
+      "epoch": 1.2278031456113647,
+      "grad_norm": 4.59375,
+      "learning_rate": 3.5511231250132905e-06,
+      "loss": 1.58399429,
+      "memory(GiB)": 111.15,
+      "step": 48400,
+      "train_speed(iter/s)": 0.447633
+    },
+    {
+      "epoch": 1.2278031456113647,
+      "eval_acc": 0.6433378438277177,
+      "eval_loss": 1.607682228088379,
+      "eval_runtime": 113.3471,
+      "eval_samples_per_second": 56.199,
+      "eval_steps_per_second": 28.1,
+      "step": 48400
+    },
+    {
+      "acc": 0.65700526,
+      "epoch": 1.2279299847793,
+      "grad_norm": 4.71875,
+      "learning_rate": 3.550119524736761e-06,
+      "loss": 1.68506794,
+      "memory(GiB)": 111.15,
+      "step": 48405,
+      "train_speed(iter/s)": 0.44717
+    },
+    {
+      "acc": 0.6405057,
+      "epoch": 1.228056823947235,
+      "grad_norm": 5.84375,
+      "learning_rate": 3.5491159882324513e-06,
+      "loss": 1.59755764,
+      "memory(GiB)": 111.15,
+      "step": 48410,
+      "train_speed(iter/s)": 0.447195
+    },
+    {
+      "acc": 0.64818821,
+      "epoch": 1.22818366311517,
+      "grad_norm": 5.21875,
+      "learning_rate": 3.548112515544495e-06,
+      "loss": 1.61488247,
+      "memory(GiB)": 111.15,
+      "step": 48415,
+      "train_speed(iter/s)": 0.44722
+    },
+    {
+      "acc": 0.65388908,
+      "epoch": 1.228310502283105,
+      "grad_norm": 6.8125,
+      "learning_rate": 3.547109106717034e-06,
+      "loss": 1.62739983,
+      "memory(GiB)": 111.15,
+      "step": 48420,
+      "train_speed(iter/s)": 0.447244
+    },
+    {
+      "acc": 0.65466604,
+      "epoch": 1.22843734145104,
+      "grad_norm": 5.21875,
+      "learning_rate": 3.546105761794199e-06,
+      "loss": 1.65891991,
+      "memory(GiB)": 111.15,
+      "step": 48425,
+      "train_speed(iter/s)": 0.447269
+    },
+    {
+      "acc": 0.64934115,
+      "epoch": 1.228564180618975,
+      "grad_norm": 5.5625,
+      "learning_rate": 3.5451024808201268e-06,
+      "loss": 1.60069733,
+      "memory(GiB)": 111.15,
+      "step": 48430,
+      "train_speed(iter/s)": 0.447294
+    },
+    {
+      "acc": 0.63662152,
+      "epoch": 1.2286910197869103,
+      "grad_norm": 5.3125,
+      "learning_rate": 3.5440992638389417e-06,
+      "loss": 1.69261818,
+      "memory(GiB)": 111.15,
+      "step": 48435,
+      "train_speed(iter/s)": 0.447318
+    },
+    {
+      "acc": 0.66415682,
+      "epoch": 1.2288178589548453,
+      "grad_norm": 5.125,
+      "learning_rate": 3.5430961108947705e-06,
+      "loss": 1.60691833,
+      "memory(GiB)": 111.15,
+      "step": 48440,
+      "train_speed(iter/s)": 0.447343
+    },
+    {
+      "acc": 0.63833866,
+      "epoch": 1.2289446981227803,
+      "grad_norm": 4.8125,
+      "learning_rate": 3.5420930220317373e-06,
+      "loss": 1.62704468,
+      "memory(GiB)": 111.15,
+      "step": 48445,
+      "train_speed(iter/s)": 0.447367
+    },
+    {
+      "acc": 0.6588203,
+      "epoch": 1.2290715372907153,
+      "grad_norm": 5.4375,
+      "learning_rate": 3.541089997293964e-06,
+      "loss": 1.57238865,
+      "memory(GiB)": 111.15,
+      "step": 48450,
+      "train_speed(iter/s)": 0.447392
+    },
+    {
+      "acc": 0.65343819,
+      "epoch": 1.2291983764586505,
+      "grad_norm": 6.40625,
+      "learning_rate": 3.5400870367255635e-06,
+      "loss": 1.5675498,
+      "memory(GiB)": 111.15,
+      "step": 48455,
+      "train_speed(iter/s)": 0.447416
+    },
+    {
+      "acc": 0.64011688,
+      "epoch": 1.2293252156265855,
+      "grad_norm": 6.1875,
+      "learning_rate": 3.539084140370654e-06,
+      "loss": 1.61940556,
+      "memory(GiB)": 111.15,
+      "step": 48460,
+      "train_speed(iter/s)": 0.447441
+    },
+    {
+      "acc": 0.65087452,
+      "epoch": 1.2294520547945205,
+      "grad_norm": 5.03125,
+      "learning_rate": 3.538081308273347e-06,
+      "loss": 1.64639969,
+      "memory(GiB)": 111.15,
+      "step": 48465,
+      "train_speed(iter/s)": 0.447466
+    },
+    {
+      "acc": 0.64846716,
+      "epoch": 1.2295788939624557,
+      "grad_norm": 6.0625,
+      "learning_rate": 3.537078540477752e-06,
+      "loss": 1.61550369,
+      "memory(GiB)": 111.15,
+      "step": 48470,
+      "train_speed(iter/s)": 0.44749
+    },
+    {
+      "acc": 0.63463354,
+      "epoch": 1.2297057331303907,
+      "grad_norm": 5.53125,
+      "learning_rate": 3.5360758370279722e-06,
+      "loss": 1.66868553,
+      "memory(GiB)": 111.15,
+      "step": 48475,
+      "train_speed(iter/s)": 0.447515
+    },
+    {
+      "acc": 0.65601492,
+      "epoch": 1.2298325722983257,
+      "grad_norm": 5.125,
+      "learning_rate": 3.535073197968114e-06,
+      "loss": 1.57357988,
+      "memory(GiB)": 111.15,
+      "step": 48480,
+      "train_speed(iter/s)": 0.447539
+    },
+    {
+      "acc": 0.65463295,
+      "epoch": 1.2299594114662609,
+      "grad_norm": 5.625,
+      "learning_rate": 3.5340706233422763e-06,
+      "loss": 1.65845432,
+      "memory(GiB)": 111.15,
+      "step": 48485,
+      "train_speed(iter/s)": 0.447563
+    },
+    {
+      "acc": 0.64762444,
+      "epoch": 1.2300862506341959,
+      "grad_norm": 5.9375,
+      "learning_rate": 3.5330681131945588e-06,
+      "loss": 1.61692352,
+      "memory(GiB)": 111.15,
+      "step": 48490,
+      "train_speed(iter/s)": 0.447588
+    },
+    {
+      "acc": 0.64837775,
+      "epoch": 1.2302130898021308,
+      "grad_norm": 4.9375,
+      "learning_rate": 3.5320656675690546e-06,
+      "loss": 1.58299866,
+      "memory(GiB)": 111.15,
+      "step": 48495,
+      "train_speed(iter/s)": 0.447612
+    },
+    {
+      "acc": 0.64653273,
+      "epoch": 1.230339928970066,
+      "grad_norm": 5.5625,
+      "learning_rate": 3.531063286509855e-06,
+      "loss": 1.58698254,
+      "memory(GiB)": 111.15,
+      "step": 48500,
+      "train_speed(iter/s)": 0.447637
+    },
+    {
+      "epoch": 1.230339928970066,
+      "eval_acc": 0.6434142952453484,
+      "eval_loss": 1.6076165437698364,
+      "eval_runtime": 113.0784,
+      "eval_samples_per_second": 56.333,
+      "eval_steps_per_second": 28.166,
+      "step": 48500
+    },
+    {
+      "acc": 0.65749564,
+      "epoch": 1.230466768138001,
+      "grad_norm": 5.78125,
+      "learning_rate": 3.530060970061051e-06,
+      "loss": 1.61763039,
+      "memory(GiB)": 111.15,
+      "step": 48505,
+      "train_speed(iter/s)": 0.447176
+    },
+    {
+      "acc": 0.64310007,
+      "epoch": 1.230593607305936,
+      "grad_norm": 5.4375,
+      "learning_rate": 3.52905871826673e-06,
+      "loss": 1.6685524,
+      "memory(GiB)": 111.15,
+      "step": 48510,
+      "train_speed(iter/s)": 0.447201
+    },
+    {
+      "acc": 0.65273113,
+      "epoch": 1.230720446473871,
+      "grad_norm": 5.25,
+      "learning_rate": 3.5280565311709725e-06,
+      "loss": 1.5775939,
+      "memory(GiB)": 111.15,
+      "step": 48515,
+      "train_speed(iter/s)": 0.447225
+    },
+    {
+      "acc": 0.63829331,
+      "epoch": 1.2308472856418062,
+      "grad_norm": 5.59375,
+      "learning_rate": 3.5270544088178597e-06,
+      "loss": 1.68294716,
+      "memory(GiB)": 111.15,
+      "step": 48520,
+      "train_speed(iter/s)": 0.44725
+    },
+    {
+      "acc": 0.64387627,
+      "epoch": 1.2309741248097412,
+      "grad_norm": 5.1875,
+      "learning_rate": 3.526052351251471e-06,
+      "loss": 1.66275482,
+      "memory(GiB)": 111.15,
+      "step": 48525,
+      "train_speed(iter/s)": 0.447274
+    },
+    {
+      "acc": 0.65400419,
+      "epoch": 1.2311009639776762,
+      "grad_norm": 5.5625,
+      "learning_rate": 3.5250503585158825e-06,
+      "loss": 1.65723991,
+      "memory(GiB)": 111.15,
+      "step": 48530,
+      "train_speed(iter/s)": 0.447299
+    },
+    {
+      "acc": 0.65357847,
+      "epoch": 1.2312278031456114,
+      "grad_norm": 4.9375,
+      "learning_rate": 3.5240484306551615e-06,
+      "loss": 1.60450497,
+      "memory(GiB)": 111.15,
+      "step": 48535,
+      "train_speed(iter/s)": 0.447323
+    },
+    {
+      "acc": 0.6513917,
+      "epoch": 1.2313546423135464,
+      "grad_norm": 6.0,
+      "learning_rate": 3.5230465677133813e-06,
+      "loss": 1.68011398,
+      "memory(GiB)": 111.15,
+      "step": 48540,
+      "train_speed(iter/s)": 0.447348
+    },
+    {
+      "acc": 0.64177494,
+      "epoch": 1.2314814814814814,
+      "grad_norm": 5.59375,
+      "learning_rate": 3.5220447697346063e-06,
+      "loss": 1.66310463,
+      "memory(GiB)": 111.15,
+      "step": 48545,
+      "train_speed(iter/s)": 0.447373
+    },
+    {
+      "acc": 0.64201803,
+      "epoch": 1.2316083206494166,
+      "grad_norm": 6.40625,
+      "learning_rate": 3.521043036762903e-06,
+      "loss": 1.6947319,
+      "memory(GiB)": 111.15,
+      "step": 48550,
+      "train_speed(iter/s)": 0.447397
+    },
+    {
+      "acc": 0.64817438,
+      "epoch": 1.2317351598173516,
+      "grad_norm": 4.875,
+      "learning_rate": 3.5200413688423284e-06,
+      "loss": 1.60929165,
+      "memory(GiB)": 111.15,
+      "step": 48555,
+      "train_speed(iter/s)": 0.447422
+    },
+    {
+      "acc": 0.64759083,
+      "epoch": 1.2318619989852866,
+      "grad_norm": 5.875,
+      "learning_rate": 3.519039766016943e-06,
+      "loss": 1.66282883,
+      "memory(GiB)": 111.15,
+      "step": 48560,
+      "train_speed(iter/s)": 0.447446
+    },
+    {
+      "acc": 0.64191623,
+      "epoch": 1.2319888381532218,
+      "grad_norm": 5.40625,
+      "learning_rate": 3.5180382283307983e-06,
+      "loss": 1.73141937,
+      "memory(GiB)": 111.15,
+      "step": 48565,
+      "train_speed(iter/s)": 0.447471
+    },
+    {
+      "acc": 0.66150303,
+      "epoch": 1.2321156773211568,
+      "grad_norm": 4.75,
+      "learning_rate": 3.517036755827952e-06,
+      "loss": 1.56300755,
+      "memory(GiB)": 111.15,
+      "step": 48570,
+      "train_speed(iter/s)": 0.447496
+    },
+    {
+      "acc": 0.66354017,
+      "epoch": 1.2322425164890918,
+      "grad_norm": 4.875,
+      "learning_rate": 3.516035348552449e-06,
+      "loss": 1.60456715,
+      "memory(GiB)": 111.15,
+      "step": 48575,
+      "train_speed(iter/s)": 0.44752
+    },
+    {
+      "acc": 0.65221281,
+      "epoch": 1.2323693556570268,
+      "grad_norm": 5.375,
+      "learning_rate": 3.515034006548335e-06,
+      "loss": 1.6315712,
+      "memory(GiB)": 111.15,
+      "step": 48580,
+      "train_speed(iter/s)": 0.447545
+    },
+    {
+      "acc": 0.66313457,
+      "epoch": 1.232496194824962,
+      "grad_norm": 6.15625,
+      "learning_rate": 3.5140327298596565e-06,
+      "loss": 1.62119503,
+      "memory(GiB)": 111.15,
+      "step": 48585,
+      "train_speed(iter/s)": 0.44757
+    },
+    {
+      "acc": 0.65094929,
+      "epoch": 1.232623033992897,
+      "grad_norm": 4.75,
+      "learning_rate": 3.5130315185304547e-06,
+      "loss": 1.60042706,
+      "memory(GiB)": 111.15,
+      "step": 48590,
+      "train_speed(iter/s)": 0.447595
+    },
+    {
+      "acc": 0.64624205,
+      "epoch": 1.2327498731608322,
+      "grad_norm": 5.28125,
+      "learning_rate": 3.5120303726047642e-06,
+      "loss": 1.62732277,
+      "memory(GiB)": 111.15,
+      "step": 48595,
+      "train_speed(iter/s)": 0.447619
+    },
+    {
+      "acc": 0.64343548,
+      "epoch": 1.2328767123287672,
+      "grad_norm": 5.1875,
+      "learning_rate": 3.51102929212662e-06,
+      "loss": 1.70556946,
+      "memory(GiB)": 111.15,
+      "step": 48600,
+      "train_speed(iter/s)": 0.447644
+    },
+    {
+      "epoch": 1.2328767123287672,
+      "eval_acc": 0.6433775317221162,
+      "eval_loss": 1.6076533794403076,
+      "eval_runtime": 113.4499,
+      "eval_samples_per_second": 56.148,
+      "eval_steps_per_second": 28.074,
+      "step": 48600
+    },
+    {
+      "acc": 0.64466639,
+      "epoch": 1.2330035514967022,
+      "grad_norm": 5.28125,
+      "learning_rate": 3.5100282771400563e-06,
+      "loss": 1.67453079,
+      "memory(GiB)": 111.15,
+      "step": 48605,
+      "train_speed(iter/s)": 0.447182
+    },
+    {
+      "acc": 0.6420476,
+      "epoch": 1.2331303906646371,
+      "grad_norm": 4.6875,
+      "learning_rate": 3.5090273276891023e-06,
+      "loss": 1.63339481,
+      "memory(GiB)": 111.15,
+      "step": 48610,
+      "train_speed(iter/s)": 0.447206
+    },
+    {
+      "acc": 0.65115547,
+      "epoch": 1.2332572298325724,
+      "grad_norm": 5.0,
+      "learning_rate": 3.5080264438177815e-06,
+      "loss": 1.59460316,
+      "memory(GiB)": 111.15,
+      "step": 48615,
+      "train_speed(iter/s)": 0.447231
+    },
+    {
+      "acc": 0.6451108,
+      "epoch": 1.2333840690005073,
+      "grad_norm": 4.9375,
+      "learning_rate": 3.50702562557012e-06,
+      "loss": 1.68040962,
+      "memory(GiB)": 111.15,
+      "step": 48620,
+      "train_speed(iter/s)": 0.447255
+    },
+    {
+      "acc": 0.64252353,
+      "epoch": 1.2335109081684423,
+      "grad_norm": 4.46875,
+      "learning_rate": 3.506024872990135e-06,
+      "loss": 1.64815178,
+      "memory(GiB)": 111.15,
+      "step": 48625,
+      "train_speed(iter/s)": 0.447279
+    },
+    {
+      "acc": 0.65641232,
+      "epoch": 1.2336377473363775,
+      "grad_norm": 5.375,
+      "learning_rate": 3.5050241861218493e-06,
+      "loss": 1.59169426,
+      "memory(GiB)": 111.15,
+      "step": 48630,
+      "train_speed(iter/s)": 0.447303
+    },
+    {
+      "acc": 0.65107546,
+      "epoch": 1.2337645865043125,
+      "grad_norm": 5.15625,
+      "learning_rate": 3.5040235650092725e-06,
+      "loss": 1.60214787,
+      "memory(GiB)": 111.15,
+      "step": 48635,
+      "train_speed(iter/s)": 0.447327
+    },
+    {
+      "acc": 0.67317133,
+      "epoch": 1.2338914256722475,
+      "grad_norm": 5.78125,
+      "learning_rate": 3.503023009696419e-06,
+      "loss": 1.50187607,
+      "memory(GiB)": 111.15,
+      "step": 48640,
+      "train_speed(iter/s)": 0.447352
+    },
+    {
+      "acc": 0.64834929,
+      "epoch": 1.2340182648401827,
+      "grad_norm": 5.34375,
+      "learning_rate": 3.5020225202272963e-06,
+      "loss": 1.66751289,
+      "memory(GiB)": 111.15,
+      "step": 48645,
+      "train_speed(iter/s)": 0.447376
+    },
+    {
+      "acc": 0.63368406,
+      "epoch": 1.2341451040081177,
+      "grad_norm": 4.96875,
+      "learning_rate": 3.501022096645913e-06,
+      "loss": 1.66699142,
+      "memory(GiB)": 111.15,
+      "step": 48650,
+      "train_speed(iter/s)": 0.4474
+    },
+    {
+      "acc": 0.64129848,
+      "epoch": 1.2342719431760527,
+      "grad_norm": 5.625,
+      "learning_rate": 3.5000217389962685e-06,
+      "loss": 1.68236542,
+      "memory(GiB)": 111.15,
+      "step": 48655,
+      "train_speed(iter/s)": 0.447425
+    },
+    {
+      "acc": 0.64692621,
+      "epoch": 1.234398782343988,
+      "grad_norm": 4.78125,
+      "learning_rate": 3.499021447322365e-06,
+      "loss": 1.68555813,
+      "memory(GiB)": 111.15,
+      "step": 48660,
+      "train_speed(iter/s)": 0.447449
+    },
+    {
+      "acc": 0.65333366,
+      "epoch": 1.234525621511923,
+      "grad_norm": 4.75,
+      "learning_rate": 3.4980212216681997e-06,
+      "loss": 1.63369255,
+      "memory(GiB)": 111.15,
+      "step": 48665,
+      "train_speed(iter/s)": 0.447473
+    },
+    {
+      "acc": 0.65068264,
+      "epoch": 1.234652460679858,
+      "grad_norm": 4.625,
+      "learning_rate": 3.4970210620777687e-06,
+      "loss": 1.62500362,
+      "memory(GiB)": 111.15,
+      "step": 48670,
+      "train_speed(iter/s)": 0.447498
+    },
+    {
+      "acc": 0.66776838,
+      "epoch": 1.2347792998477929,
+      "grad_norm": 4.625,
+      "learning_rate": 3.496020968595059e-06,
+      "loss": 1.60911884,
+      "memory(GiB)": 111.15,
+      "step": 48675,
+      "train_speed(iter/s)": 0.447522
+    },
+    {
+      "acc": 0.66511164,
+      "epoch": 1.234906139015728,
+      "grad_norm": 4.40625,
+      "learning_rate": 3.4950209412640634e-06,
+      "loss": 1.5661068,
+      "memory(GiB)": 111.15,
+      "step": 48680,
+      "train_speed(iter/s)": 0.447547
+    },
+    {
+      "acc": 0.66271653,
+      "epoch": 1.235032978183663,
+      "grad_norm": 5.09375,
+      "learning_rate": 3.494020980128766e-06,
+      "loss": 1.55168858,
+      "memory(GiB)": 111.15,
+      "step": 48685,
+      "train_speed(iter/s)": 0.447571
+    },
+    {
+      "acc": 0.65602899,
+      "epoch": 1.235159817351598,
+      "grad_norm": 6.15625,
+      "learning_rate": 3.4930210852331505e-06,
+      "loss": 1.53536873,
+      "memory(GiB)": 111.15,
+      "step": 48690,
+      "train_speed(iter/s)": 0.447596
+    },
+    {
+      "acc": 0.6568099,
+      "epoch": 1.2352866565195333,
+      "grad_norm": 5.78125,
+      "learning_rate": 3.4920212566211943e-06,
+      "loss": 1.51329212,
+      "memory(GiB)": 111.15,
+      "step": 48695,
+      "train_speed(iter/s)": 0.44762
+    },
+    {
+      "acc": 0.6457448,
+      "epoch": 1.2354134956874683,
+      "grad_norm": 5.09375,
+      "learning_rate": 3.491021494336876e-06,
+      "loss": 1.60937843,
+      "memory(GiB)": 111.15,
+      "step": 48700,
+      "train_speed(iter/s)": 0.447645
+    },
+    {
+      "epoch": 1.2354134956874683,
+      "eval_acc": 0.6433716829797839,
+      "eval_loss": 1.6076589822769165,
+      "eval_runtime": 113.2674,
+      "eval_samples_per_second": 56.239,
+      "eval_steps_per_second": 28.119,
+      "step": 48700
+    },
+    {
+      "acc": 0.64705515,
+      "epoch": 1.2355403348554033,
+      "grad_norm": 5.25,
+      "learning_rate": 3.4900217984241692e-06,
+      "loss": 1.63211498,
+      "memory(GiB)": 111.15,
+      "step": 48705,
+      "train_speed(iter/s)": 0.447185
+    },
+    {
+      "acc": 0.64690456,
+      "epoch": 1.2356671740233385,
+      "grad_norm": 7.5,
+      "learning_rate": 3.4890221689270466e-06,
+      "loss": 1.62593212,
+      "memory(GiB)": 111.15,
+      "step": 48710,
+      "train_speed(iter/s)": 0.44721
+    },
+    {
+      "acc": 0.6611805,
+      "epoch": 1.2357940131912735,
+      "grad_norm": 5.6875,
+      "learning_rate": 3.488022605889475e-06,
+      "loss": 1.61149101,
+      "memory(GiB)": 111.15,
+      "step": 48715,
+      "train_speed(iter/s)": 0.447234
+    },
+    {
+      "acc": 0.65489163,
+      "epoch": 1.2359208523592085,
+      "grad_norm": 5.5625,
+      "learning_rate": 3.4870231093554172e-06,
+      "loss": 1.56131058,
+      "memory(GiB)": 111.15,
+      "step": 48720,
+      "train_speed(iter/s)": 0.447259
+    },
+    {
+      "acc": 0.64137802,
+      "epoch": 1.2360476915271437,
+      "grad_norm": 4.9375,
+      "learning_rate": 3.4860236793688407e-06,
+      "loss": 1.65983181,
+      "memory(GiB)": 111.15,
+      "step": 48725,
+      "train_speed(iter/s)": 0.447283
+    },
+    {
+      "acc": 0.64410429,
+      "epoch": 1.2361745306950787,
+      "grad_norm": 5.625,
+      "learning_rate": 3.4850243159737024e-06,
+      "loss": 1.63901558,
+      "memory(GiB)": 111.15,
+      "step": 48730,
+      "train_speed(iter/s)": 0.447308
+    },
+    {
+      "acc": 0.64913092,
+      "epoch": 1.2363013698630136,
+      "grad_norm": 5.03125,
+      "learning_rate": 3.4840250192139574e-06,
+      "loss": 1.64675503,
+      "memory(GiB)": 111.15,
+      "step": 48735,
+      "train_speed(iter/s)": 0.447332
+    },
+    {
+      "acc": 0.66435585,
+      "epoch": 1.2364282090309486,
+      "grad_norm": 5.8125,
+      "learning_rate": 3.4830257891335595e-06,
+      "loss": 1.54313917,
+      "memory(GiB)": 111.15,
+      "step": 48740,
+      "train_speed(iter/s)": 0.447357
+    },
+    {
+      "acc": 0.65373578,
+      "epoch": 1.2365550481988838,
+      "grad_norm": 4.625,
+      "learning_rate": 3.4820266257764613e-06,
+      "loss": 1.52093887,
+      "memory(GiB)": 111.15,
+      "step": 48745,
+      "train_speed(iter/s)": 0.447381
+    },
+    {
+      "acc": 0.66371965,
+      "epoch": 1.2366818873668188,
+      "grad_norm": 4.71875,
+      "learning_rate": 3.4810275291866103e-06,
+      "loss": 1.57616272,
+      "memory(GiB)": 111.15,
+      "step": 48750,
+      "train_speed(iter/s)": 0.447406
+    },
+    {
+      "acc": 0.64770765,
+      "epoch": 1.236808726534754,
+      "grad_norm": 5.34375,
+      "learning_rate": 3.4800284994079487e-06,
+      "loss": 1.60170422,
+      "memory(GiB)": 111.15,
+      "step": 48755,
+      "train_speed(iter/s)": 0.447431
+    },
+    {
+      "acc": 0.6428175,
+      "epoch": 1.236935565702689,
+      "grad_norm": 5.125,
+      "learning_rate": 3.4790295364844207e-06,
+      "loss": 1.6957243,
+      "memory(GiB)": 111.15,
+      "step": 48760,
+      "train_speed(iter/s)": 0.447456
+    },
+    {
+      "acc": 0.64462008,
+      "epoch": 1.237062404870624,
+      "grad_norm": 5.0,
+      "learning_rate": 3.4780306404599628e-06,
+      "loss": 1.64175396,
+      "memory(GiB)": 111.15,
+      "step": 48765,
+      "train_speed(iter/s)": 0.44748
+    },
+    {
+      "acc": 0.64029064,
+      "epoch": 1.237189244038559,
+      "grad_norm": 6.375,
+      "learning_rate": 3.4770318113785164e-06,
+      "loss": 1.71056328,
+      "memory(GiB)": 111.15,
+      "step": 48770,
+      "train_speed(iter/s)": 0.447505
+    },
+    {
+      "acc": 0.64581404,
+      "epoch": 1.2373160832064942,
+      "grad_norm": 5.96875,
+      "learning_rate": 3.4760330492840065e-06,
+      "loss": 1.6722332,
+      "memory(GiB)": 111.15,
+      "step": 48775,
+      "train_speed(iter/s)": 0.44753
+    },
+    {
+      "acc": 0.65162172,
+      "epoch": 1.2374429223744292,
+      "grad_norm": 5.4375,
+      "learning_rate": 3.4750343542203684e-06,
+      "loss": 1.63969269,
+      "memory(GiB)": 111.15,
+      "step": 48780,
+      "train_speed(iter/s)": 0.447554
+    },
+    {
+      "acc": 0.64893274,
+      "epoch": 1.2375697615423642,
+      "grad_norm": 5.34375,
+      "learning_rate": 3.474035726231527e-06,
+      "loss": 1.66862717,
+      "memory(GiB)": 111.15,
+      "step": 48785,
+      "train_speed(iter/s)": 0.447579
+    },
+    {
+      "acc": 0.66153164,
+      "epoch": 1.2376966007102994,
+      "grad_norm": 4.78125,
+      "learning_rate": 3.473037165361409e-06,
+      "loss": 1.64559212,
+      "memory(GiB)": 111.15,
+      "step": 48790,
+      "train_speed(iter/s)": 0.447603
+    },
+    {
+      "acc": 0.65718732,
+      "epoch": 1.2378234398782344,
+      "grad_norm": 5.78125,
+      "learning_rate": 3.4720386716539333e-06,
+      "loss": 1.62682304,
+      "memory(GiB)": 111.15,
+      "step": 48795,
+      "train_speed(iter/s)": 0.447628
+    },
+    {
+      "acc": 0.65095978,
+      "epoch": 1.2379502790461694,
+      "grad_norm": 4.9375,
+      "learning_rate": 3.471040245153018e-06,
+      "loss": 1.63098545,
+      "memory(GiB)": 111.15,
+      "step": 48800,
+      "train_speed(iter/s)": 0.447652
+    },
+    {
+      "epoch": 1.2379502790461694,
+      "eval_acc": 0.643369176375927,
+      "eval_loss": 1.6076757907867432,
+      "eval_runtime": 113.9231,
+      "eval_samples_per_second": 55.915,
+      "eval_steps_per_second": 27.957,
+      "step": 48800
+    },
+    {
+      "acc": 0.64742002,
+      "epoch": 1.2380771182141046,
+      "grad_norm": 5.0,
+      "learning_rate": 3.4700418859025793e-06,
+      "loss": 1.65631065,
+      "memory(GiB)": 111.15,
+      "step": 48805,
+      "train_speed(iter/s)": 0.44719
+    },
+    {
+      "acc": 0.65148692,
+      "epoch": 1.2382039573820396,
+      "grad_norm": 6.15625,
+      "learning_rate": 3.4690435939465307e-06,
+      "loss": 1.61284256,
+      "memory(GiB)": 111.15,
+      "step": 48810,
+      "train_speed(iter/s)": 0.447215
+    },
+    {
+      "acc": 0.64553642,
+      "epoch": 1.2383307965499746,
+      "grad_norm": 4.6875,
+      "learning_rate": 3.4680453693287786e-06,
+      "loss": 1.57030849,
+      "memory(GiB)": 111.15,
+      "step": 48815,
+      "train_speed(iter/s)": 0.447239
+    },
+    {
+      "acc": 0.6467567,
+      "epoch": 1.2384576357179098,
+      "grad_norm": 6.53125,
+      "learning_rate": 3.4670472120932297e-06,
+      "loss": 1.6541893,
+      "memory(GiB)": 111.15,
+      "step": 48820,
+      "train_speed(iter/s)": 0.447263
+    },
+    {
+      "acc": 0.64933043,
+      "epoch": 1.2385844748858448,
+      "grad_norm": 5.59375,
+      "learning_rate": 3.46604912228379e-06,
+      "loss": 1.65247498,
+      "memory(GiB)": 111.15,
+      "step": 48825,
+      "train_speed(iter/s)": 0.447287
+    },
+    {
+      "acc": 0.65466018,
+      "epoch": 1.2387113140537798,
+      "grad_norm": 5.65625,
+      "learning_rate": 3.46505109994436e-06,
+      "loss": 1.62160606,
+      "memory(GiB)": 111.15,
+      "step": 48830,
+      "train_speed(iter/s)": 0.447311
+    },
+    {
+      "acc": 0.65206327,
+      "epoch": 1.2388381532217148,
+      "grad_norm": 5.1875,
+      "learning_rate": 3.464053145118833e-06,
+      "loss": 1.54203215,
+      "memory(GiB)": 111.15,
+      "step": 48835,
+      "train_speed(iter/s)": 0.447336
+    },
+    {
+      "acc": 0.65799227,
+      "epoch": 1.23896499238965,
+      "grad_norm": 6.125,
+      "learning_rate": 3.4630552578511073e-06,
+      "loss": 1.61441498,
+      "memory(GiB)": 111.15,
+      "step": 48840,
+      "train_speed(iter/s)": 0.44736
+    },
+    {
+      "acc": 0.64305401,
+      "epoch": 1.239091831557585,
+      "grad_norm": 5.5,
+      "learning_rate": 3.4620574381850723e-06,
+      "loss": 1.63160305,
+      "memory(GiB)": 111.15,
+      "step": 48845,
+      "train_speed(iter/s)": 0.447384
+    },
+    {
+      "acc": 0.64893341,
+      "epoch": 1.23921867072552,
+      "grad_norm": 5.125,
+      "learning_rate": 3.4610596861646194e-06,
+      "loss": 1.64888382,
+      "memory(GiB)": 111.15,
+      "step": 48850,
+      "train_speed(iter/s)": 0.447408
+    },
+    {
+      "acc": 0.65980868,
+      "epoch": 1.2393455098934552,
+      "grad_norm": 5.6875,
+      "learning_rate": 3.460062001833632e-06,
+      "loss": 1.58177738,
+      "memory(GiB)": 111.15,
+      "step": 48855,
+      "train_speed(iter/s)": 0.447433
+    },
+    {
+      "acc": 0.6769659,
+      "epoch": 1.2394723490613901,
+      "grad_norm": 6.0625,
+      "learning_rate": 3.459064385235993e-06,
+      "loss": 1.62156563,
+      "memory(GiB)": 111.15,
+      "step": 48860,
+      "train_speed(iter/s)": 0.447457
+    },
+    {
+      "acc": 0.64337158,
+      "epoch": 1.2395991882293251,
+      "grad_norm": 5.4375,
+      "learning_rate": 3.45806683641558e-06,
+      "loss": 1.59443493,
+      "memory(GiB)": 111.15,
+      "step": 48865,
+      "train_speed(iter/s)": 0.447481
+    },
+    {
+      "acc": 0.66179509,
+      "epoch": 1.2397260273972603,
+      "grad_norm": 4.75,
+      "learning_rate": 3.457069355416275e-06,
+      "loss": 1.55963287,
+      "memory(GiB)": 111.15,
+      "step": 48870,
+      "train_speed(iter/s)": 0.447506
+    },
+    {
+      "acc": 0.65426464,
+      "epoch": 1.2398528665651953,
+      "grad_norm": 5.90625,
+      "learning_rate": 3.456071942281947e-06,
+      "loss": 1.64134731,
+      "memory(GiB)": 111.15,
+      "step": 48875,
+      "train_speed(iter/s)": 0.44753
+    },
+    {
+      "acc": 0.63707943,
+      "epoch": 1.2399797057331303,
+      "grad_norm": 4.75,
+      "learning_rate": 3.455074597056467e-06,
+      "loss": 1.67736721,
+      "memory(GiB)": 111.15,
+      "step": 48880,
+      "train_speed(iter/s)": 0.447554
+    },
+    {
+      "acc": 0.65599403,
+      "epoch": 1.2401065449010655,
+      "grad_norm": 5.875,
+      "learning_rate": 3.454077319783705e-06,
+      "loss": 1.52524014,
+      "memory(GiB)": 111.15,
+      "step": 48885,
+      "train_speed(iter/s)": 0.447579
+    },
+    {
+      "acc": 0.63523231,
+      "epoch": 1.2402333840690005,
+      "grad_norm": 5.0625,
+      "learning_rate": 3.4530801105075257e-06,
+      "loss": 1.68555393,
+      "memory(GiB)": 111.15,
+      "step": 48890,
+      "train_speed(iter/s)": 0.447603
+    },
+    {
+      "acc": 0.64404144,
+      "epoch": 1.2403602232369355,
+      "grad_norm": 5.46875,
+      "learning_rate": 3.4520829692717874e-06,
+      "loss": 1.65428925,
+      "memory(GiB)": 111.15,
+      "step": 48895,
+      "train_speed(iter/s)": 0.447627
+    },
+    {
+      "acc": 0.63935881,
+      "epoch": 1.2404870624048705,
+      "grad_norm": 4.875,
+      "learning_rate": 3.451085896120352e-06,
+      "loss": 1.67799664,
+      "memory(GiB)": 111.15,
+      "step": 48900,
+      "train_speed(iter/s)": 0.447651
+    },
+    {
+      "epoch": 1.2404870624048705,
+      "eval_acc": 0.6433562255893339,
+      "eval_loss": 1.6077183485031128,
+      "eval_runtime": 113.1893,
+      "eval_samples_per_second": 56.277,
+      "eval_steps_per_second": 28.139,
+      "step": 48900
+    },
+    {
+      "acc": 0.64526196,
+      "epoch": 1.2406139015728057,
+      "grad_norm": 4.875,
+      "learning_rate": 3.450088891097074e-06,
+      "loss": 1.61622143,
+      "memory(GiB)": 111.15,
+      "step": 48905,
+      "train_speed(iter/s)": 0.447193
+    },
+    {
+      "acc": 0.64613528,
+      "epoch": 1.2407407407407407,
+      "grad_norm": 5.40625,
+      "learning_rate": 3.4490919542458085e-06,
+      "loss": 1.62443962,
+      "memory(GiB)": 111.15,
+      "step": 48910,
+      "train_speed(iter/s)": 0.447217
+    },
+    {
+      "acc": 0.6288744,
+      "epoch": 1.240867579908676,
+      "grad_norm": 4.90625,
+      "learning_rate": 3.4480950856104002e-06,
+      "loss": 1.69640293,
+      "memory(GiB)": 111.15,
+      "step": 48915,
+      "train_speed(iter/s)": 0.447242
+    },
+    {
+      "acc": 0.64367266,
+      "epoch": 1.240994419076611,
+      "grad_norm": 5.53125,
+      "learning_rate": 3.4470982852347e-06,
+      "loss": 1.63576107,
+      "memory(GiB)": 111.15,
+      "step": 48920,
+      "train_speed(iter/s)": 0.447266
+    },
+    {
+      "acc": 0.63034573,
+      "epoch": 1.2411212582445459,
+      "grad_norm": 5.375,
+      "learning_rate": 3.44610155316255e-06,
+      "loss": 1.68067989,
+      "memory(GiB)": 111.15,
+      "step": 48925,
+      "train_speed(iter/s)": 0.447291
+    },
+    {
+      "acc": 0.65280385,
+      "epoch": 1.2412480974124809,
+      "grad_norm": 5.375,
+      "learning_rate": 3.4451048894377925e-06,
+      "loss": 1.62335567,
+      "memory(GiB)": 111.15,
+      "step": 48930,
+      "train_speed(iter/s)": 0.447315
+    },
+    {
+      "acc": 0.65480399,
+      "epoch": 1.241374936580416,
+      "grad_norm": 5.375,
+      "learning_rate": 3.444108294104264e-06,
+      "loss": 1.61859989,
+      "memory(GiB)": 111.15,
+      "step": 48935,
+      "train_speed(iter/s)": 0.44734
+    },
+    {
+      "acc": 0.66189294,
+      "epoch": 1.241501775748351,
+      "grad_norm": 4.875,
+      "learning_rate": 3.443111767205797e-06,
+      "loss": 1.61389885,
+      "memory(GiB)": 111.15,
+      "step": 48940,
+      "train_speed(iter/s)": 0.447364
+    },
+    {
+      "acc": 0.64492064,
+      "epoch": 1.241628614916286,
+      "grad_norm": 6.1875,
+      "learning_rate": 3.442115308786227e-06,
+      "loss": 1.6649395,
+      "memory(GiB)": 111.15,
+      "step": 48945,
+      "train_speed(iter/s)": 0.447388
+    },
+    {
+      "acc": 0.64809465,
+      "epoch": 1.2417554540842213,
+      "grad_norm": 6.375,
+      "learning_rate": 3.4411189188893822e-06,
+      "loss": 1.63323631,
+      "memory(GiB)": 111.15,
+      "step": 48950,
+      "train_speed(iter/s)": 0.447413
+    },
+    {
+      "acc": 0.64324331,
+      "epoch": 1.2418822932521563,
+      "grad_norm": 5.0,
+      "learning_rate": 3.4401225975590867e-06,
+      "loss": 1.6561779,
+      "memory(GiB)": 111.15,
+      "step": 48955,
+      "train_speed(iter/s)": 0.447437
+    },
+    {
+      "acc": 0.62490501,
+      "epoch": 1.2420091324200913,
+      "grad_norm": 4.3125,
+      "learning_rate": 3.439126344839163e-06,
+      "loss": 1.64347038,
+      "memory(GiB)": 111.15,
+      "step": 48960,
+      "train_speed(iter/s)": 0.447461
+    },
+    {
+      "acc": 0.65505581,
+      "epoch": 1.2421359715880265,
+      "grad_norm": 4.84375,
+      "learning_rate": 3.438130160773431e-06,
+      "loss": 1.60981789,
+      "memory(GiB)": 111.15,
+      "step": 48965,
+      "train_speed(iter/s)": 0.447486
+    },
+    {
+      "acc": 0.64646158,
+      "epoch": 1.2422628107559615,
+      "grad_norm": 4.6875,
+      "learning_rate": 3.43713404540571e-06,
+      "loss": 1.68303413,
+      "memory(GiB)": 111.15,
+      "step": 48970,
+      "train_speed(iter/s)": 0.44751
+    },
+    {
+      "acc": 0.65450583,
+      "epoch": 1.2423896499238964,
+      "grad_norm": 4.8125,
+      "learning_rate": 3.4361379987798094e-06,
+      "loss": 1.67326241,
+      "memory(GiB)": 111.15,
+      "step": 48975,
+      "train_speed(iter/s)": 0.447535
+    },
+    {
+      "acc": 0.65456457,
+      "epoch": 1.2425164890918317,
+      "grad_norm": 5.40625,
+      "learning_rate": 3.435142020939542e-06,
+      "loss": 1.60166702,
+      "memory(GiB)": 111.15,
+      "step": 48980,
+      "train_speed(iter/s)": 0.447559
+    },
+    {
+      "acc": 0.65886717,
+      "epoch": 1.2426433282597666,
+      "grad_norm": 5.84375,
+      "learning_rate": 3.4341461119287144e-06,
+      "loss": 1.58966904,
+      "memory(GiB)": 111.15,
+      "step": 48985,
+      "train_speed(iter/s)": 0.447583
+    },
+    {
+      "acc": 0.65887871,
+      "epoch": 1.2427701674277016,
+      "grad_norm": 6.0,
+      "learning_rate": 3.433150271791135e-06,
+      "loss": 1.64013176,
+      "memory(GiB)": 111.15,
+      "step": 48990,
+      "train_speed(iter/s)": 0.447607
+    },
+    {
+      "acc": 0.65224743,
+      "epoch": 1.2428970065956366,
+      "grad_norm": 5.90625,
+      "learning_rate": 3.432154500570599e-06,
+      "loss": 1.57339935,
+      "memory(GiB)": 111.15,
+      "step": 48995,
+      "train_speed(iter/s)": 0.447632
+    },
+    {
+      "acc": 0.65456362,
+      "epoch": 1.2430238457635718,
+      "grad_norm": 4.65625,
+      "learning_rate": 3.431158798310909e-06,
+      "loss": 1.60520725,
+      "memory(GiB)": 111.15,
+      "step": 49000,
+      "train_speed(iter/s)": 0.447656
+    },
+    {
+      "epoch": 1.2430238457635718,
+      "eval_acc": 0.6433775317221162,
+      "eval_loss": 1.6076040267944336,
+      "eval_runtime": 113.3308,
+      "eval_samples_per_second": 56.207,
+      "eval_steps_per_second": 28.104,
+      "step": 49000
+    },
+    {
+      "acc": 0.64319963,
+      "epoch": 1.2431506849315068,
+      "grad_norm": 5.625,
+      "learning_rate": 3.4301631650558588e-06,
+      "loss": 1.66964378,
+      "memory(GiB)": 111.15,
+      "step": 49005,
+      "train_speed(iter/s)": 0.447199
+    },
+    {
+      "acc": 0.64152808,
+      "epoch": 1.2432775240994418,
+      "grad_norm": 5.125,
+      "learning_rate": 3.4291676008492424e-06,
+      "loss": 1.6140274,
+      "memory(GiB)": 111.15,
+      "step": 49010,
+      "train_speed(iter/s)": 0.447223
+    },
+    {
+      "acc": 0.66194391,
+      "epoch": 1.243404363267377,
+      "grad_norm": 5.0,
+      "learning_rate": 3.428172105734848e-06,
+      "loss": 1.58728962,
+      "memory(GiB)": 111.15,
+      "step": 49015,
+      "train_speed(iter/s)": 0.447248
+    },
+    {
+      "acc": 0.65138168,
+      "epoch": 1.243531202435312,
+      "grad_norm": 5.3125,
+      "learning_rate": 3.4271766797564608e-06,
+      "loss": 1.66522026,
+      "memory(GiB)": 111.15,
+      "step": 49020,
+      "train_speed(iter/s)": 0.447272
+    },
+    {
+      "acc": 0.65441256,
+      "epoch": 1.243658041603247,
+      "grad_norm": 6.0625,
+      "learning_rate": 3.4261813229578665e-06,
+      "loss": 1.64024277,
+      "memory(GiB)": 111.15,
+      "step": 49025,
+      "train_speed(iter/s)": 0.447296
+    },
+    {
+      "acc": 0.66397886,
+      "epoch": 1.2437848807711822,
+      "grad_norm": 5.78125,
+      "learning_rate": 3.425186035382846e-06,
+      "loss": 1.58736181,
+      "memory(GiB)": 111.15,
+      "step": 49030,
+      "train_speed(iter/s)": 0.44732
+    },
+    {
+      "acc": 0.6532177,
+      "epoch": 1.2439117199391172,
+      "grad_norm": 5.78125,
+      "learning_rate": 3.4241908170751727e-06,
+      "loss": 1.60149059,
+      "memory(GiB)": 111.15,
+      "step": 49035,
+      "train_speed(iter/s)": 0.447344
+    },
+    {
+      "acc": 0.65128465,
+      "epoch": 1.2440385591070522,
+      "grad_norm": 5.34375,
+      "learning_rate": 3.4231956680786217e-06,
+      "loss": 1.55498686,
+      "memory(GiB)": 111.15,
+      "step": 49040,
+      "train_speed(iter/s)": 0.447368
+    },
+    {
+      "acc": 0.64979658,
+      "epoch": 1.2441653982749874,
+      "grad_norm": 5.125,
+      "learning_rate": 3.422200588436967e-06,
+      "loss": 1.64173603,
+      "memory(GiB)": 111.15,
+      "step": 49045,
+      "train_speed(iter/s)": 0.447393
+    },
+    {
+      "acc": 0.6390007,
+      "epoch": 1.2442922374429224,
+      "grad_norm": 4.34375,
+      "learning_rate": 3.4212055781939744e-06,
+      "loss": 1.65371819,
+      "memory(GiB)": 111.15,
+      "step": 49050,
+      "train_speed(iter/s)": 0.447417
+    },
+    {
+      "acc": 0.64368839,
+      "epoch": 1.2444190766108574,
+      "grad_norm": 6.03125,
+      "learning_rate": 3.4202106373934085e-06,
+      "loss": 1.68721008,
+      "memory(GiB)": 111.15,
+      "step": 49055,
+      "train_speed(iter/s)": 0.447442
+    },
+    {
+      "acc": 0.64833117,
+      "epoch": 1.2445459157787924,
+      "grad_norm": 5.625,
+      "learning_rate": 3.4192157660790324e-06,
+      "loss": 1.65247574,
+      "memory(GiB)": 111.15,
+      "step": 49060,
+      "train_speed(iter/s)": 0.447466
+    },
+    {
+      "acc": 0.63940954,
+      "epoch": 1.2446727549467276,
+      "grad_norm": 4.6875,
+      "learning_rate": 3.418220964294604e-06,
+      "loss": 1.65498924,
+      "memory(GiB)": 111.15,
+      "step": 49065,
+      "train_speed(iter/s)": 0.44749
+    },
+    {
+      "acc": 0.63992791,
+      "epoch": 1.2447995941146626,
+      "grad_norm": 5.125,
+      "learning_rate": 3.417226232083881e-06,
+      "loss": 1.65420341,
+      "memory(GiB)": 111.15,
+      "step": 49070,
+      "train_speed(iter/s)": 0.447514
+    },
+    {
+      "acc": 0.65059514,
+      "epoch": 1.2449264332825978,
+      "grad_norm": 5.4375,
+      "learning_rate": 3.416231569490615e-06,
+      "loss": 1.64563332,
+      "memory(GiB)": 111.15,
+      "step": 49075,
+      "train_speed(iter/s)": 0.447538
+    },
+    {
+      "acc": 0.68372536,
+      "epoch": 1.2450532724505328,
+      "grad_norm": 5.40625,
+      "learning_rate": 3.4152369765585545e-06,
+      "loss": 1.45453882,
+      "memory(GiB)": 111.15,
+      "step": 49080,
+      "train_speed(iter/s)": 0.447563
+    },
+    {
+      "acc": 0.65816212,
+      "epoch": 1.2451801116184678,
+      "grad_norm": 5.75,
+      "learning_rate": 3.4142424533314474e-06,
+      "loss": 1.59034824,
+      "memory(GiB)": 111.15,
+      "step": 49085,
+      "train_speed(iter/s)": 0.447587
+    },
+    {
+      "acc": 0.6326067,
+      "epoch": 1.2453069507864027,
+      "grad_norm": 5.375,
+      "learning_rate": 3.4132479998530383e-06,
+      "loss": 1.70315514,
+      "memory(GiB)": 111.15,
+      "step": 49090,
+      "train_speed(iter/s)": 0.447611
+    },
+    {
+      "acc": 0.64563961,
+      "epoch": 1.245433789954338,
+      "grad_norm": 4.9375,
+      "learning_rate": 3.4122536161670656e-06,
+      "loss": 1.63955822,
+      "memory(GiB)": 111.15,
+      "step": 49095,
+      "train_speed(iter/s)": 0.447636
+    },
+    {
+      "acc": 0.66026382,
+      "epoch": 1.245560629122273,
+      "grad_norm": 6.125,
+      "learning_rate": 3.411259302317267e-06,
+      "loss": 1.57469902,
+      "memory(GiB)": 111.15,
+      "step": 49100,
+      "train_speed(iter/s)": 0.44766
+    },
+    {
+      "epoch": 1.245560629122273,
+      "eval_acc": 0.6433817093952108,
+      "eval_loss": 1.6076385974884033,
+      "eval_runtime": 114.3337,
+      "eval_samples_per_second": 55.714,
+      "eval_steps_per_second": 27.857,
+      "step": 49100
+    },
+    {
+      "acc": 0.64499559,
+      "epoch": 1.245687468290208,
+      "grad_norm": 5.1875,
+      "learning_rate": 3.410265058347378e-06,
+      "loss": 1.58654079,
+      "memory(GiB)": 111.15,
+      "step": 49105,
+      "train_speed(iter/s)": 0.447199
+    },
+    {
+      "acc": 0.65859175,
+      "epoch": 1.2458143074581431,
+      "grad_norm": 5.5,
+      "learning_rate": 3.4092708843011303e-06,
+      "loss": 1.59958725,
+      "memory(GiB)": 111.15,
+      "step": 49110,
+      "train_speed(iter/s)": 0.447223
+    },
+    {
+      "acc": 0.64040709,
+      "epoch": 1.2459411466260781,
+      "grad_norm": 5.1875,
+      "learning_rate": 3.4082767802222493e-06,
+      "loss": 1.65055237,
+      "memory(GiB)": 111.15,
+      "step": 49115,
+      "train_speed(iter/s)": 0.447248
+    },
+    {
+      "acc": 0.64962206,
+      "epoch": 1.2460679857940131,
+      "grad_norm": 5.6875,
+      "learning_rate": 3.4072827461544635e-06,
+      "loss": 1.62768002,
+      "memory(GiB)": 111.15,
+      "step": 49120,
+      "train_speed(iter/s)": 0.447272
+    },
+    {
+      "acc": 0.64899106,
+      "epoch": 1.2461948249619483,
+      "grad_norm": 5.34375,
+      "learning_rate": 3.4062887821414935e-06,
+      "loss": 1.59830742,
+      "memory(GiB)": 111.15,
+      "step": 49125,
+      "train_speed(iter/s)": 0.447296
+    },
+    {
+      "acc": 0.64635859,
+      "epoch": 1.2463216641298833,
+      "grad_norm": 5.0625,
+      "learning_rate": 3.4052948882270585e-06,
+      "loss": 1.64351921,
+      "memory(GiB)": 111.15,
+      "step": 49130,
+      "train_speed(iter/s)": 0.447321
+    },
+    {
+      "acc": 0.64756603,
+      "epoch": 1.2464485032978183,
+      "grad_norm": 6.25,
+      "learning_rate": 3.404301064454873e-06,
+      "loss": 1.70827904,
+      "memory(GiB)": 111.15,
+      "step": 49135,
+      "train_speed(iter/s)": 0.447345
+    },
+    {
+      "acc": 0.64985676,
+      "epoch": 1.2465753424657535,
+      "grad_norm": 5.625,
+      "learning_rate": 3.4033073108686515e-06,
+      "loss": 1.65390434,
+      "memory(GiB)": 111.15,
+      "step": 49140,
+      "train_speed(iter/s)": 0.447369
+    },
+    {
+      "acc": 0.63497066,
+      "epoch": 1.2467021816336885,
+      "grad_norm": 4.96875,
+      "learning_rate": 3.4023136275121026e-06,
+      "loss": 1.64470329,
+      "memory(GiB)": 111.15,
+      "step": 49145,
+      "train_speed(iter/s)": 0.447394
+    },
+    {
+      "acc": 0.63120346,
+      "epoch": 1.2468290208016235,
+      "grad_norm": 6.34375,
+      "learning_rate": 3.401320014428935e-06,
+      "loss": 1.75466042,
+      "memory(GiB)": 111.15,
+      "step": 49150,
+      "train_speed(iter/s)": 0.447418
+    },
+    {
+      "acc": 0.65225224,
+      "epoch": 1.2469558599695585,
+      "grad_norm": 5.0,
+      "learning_rate": 3.40032647166285e-06,
+      "loss": 1.60120087,
+      "memory(GiB)": 111.15,
+      "step": 49155,
+      "train_speed(iter/s)": 0.447442
+    },
+    {
+      "acc": 0.66244841,
+      "epoch": 1.2470826991374937,
+      "grad_norm": 4.78125,
+      "learning_rate": 3.3993329992575473e-06,
+      "loss": 1.56963711,
+      "memory(GiB)": 111.15,
+      "step": 49160,
+      "train_speed(iter/s)": 0.447467
+    },
+    {
+      "acc": 0.63989258,
+      "epoch": 1.2472095383054287,
+      "grad_norm": 5.15625,
+      "learning_rate": 3.3983395972567277e-06,
+      "loss": 1.64743423,
+      "memory(GiB)": 111.15,
+      "step": 49165,
+      "train_speed(iter/s)": 0.447491
+    },
+    {
+      "acc": 0.65267544,
+      "epoch": 1.2473363774733637,
+      "grad_norm": 5.375,
+      "learning_rate": 3.397346265704084e-06,
+      "loss": 1.57650585,
+      "memory(GiB)": 111.15,
+      "step": 49170,
+      "train_speed(iter/s)": 0.447515
+    },
+    {
+      "acc": 0.66418056,
+      "epoch": 1.2474632166412989,
+      "grad_norm": 5.9375,
+      "learning_rate": 3.396353004643306e-06,
+      "loss": 1.56908693,
+      "memory(GiB)": 111.15,
+      "step": 49175,
+      "train_speed(iter/s)": 0.44754
+    },
+    {
+      "acc": 0.64381652,
+      "epoch": 1.2475900558092339,
+      "grad_norm": 5.0,
+      "learning_rate": 3.3953598141180817e-06,
+      "loss": 1.6576685,
+      "memory(GiB)": 111.15,
+      "step": 49180,
+      "train_speed(iter/s)": 0.447564
+    },
+    {
+      "acc": 0.65605912,
+      "epoch": 1.2477168949771689,
+      "grad_norm": 7.78125,
+      "learning_rate": 3.3943666941720978e-06,
+      "loss": 1.59639292,
+      "memory(GiB)": 111.15,
+      "step": 49185,
+      "train_speed(iter/s)": 0.447588
+    },
+    {
+      "acc": 0.64956937,
+      "epoch": 1.247843734145104,
+      "grad_norm": 5.125,
+      "learning_rate": 3.3933736448490363e-06,
+      "loss": 1.64381027,
+      "memory(GiB)": 111.15,
+      "step": 49190,
+      "train_speed(iter/s)": 0.447612
+    },
+    {
+      "acc": 0.65077314,
+      "epoch": 1.247970573313039,
+      "grad_norm": 7.3125,
+      "learning_rate": 3.392380666192573e-06,
+      "loss": 1.62496681,
+      "memory(GiB)": 111.15,
+      "step": 49195,
+      "train_speed(iter/s)": 0.447636
+    },
+    {
+      "acc": 0.64216852,
+      "epoch": 1.248097412480974,
+      "grad_norm": 5.09375,
+      "learning_rate": 3.391387758246386e-06,
+      "loss": 1.6827528,
+      "memory(GiB)": 111.15,
+      "step": 49200,
+      "train_speed(iter/s)": 0.447661
+    },
+    {
+      "epoch": 1.248097412480974,
+      "eval_acc": 0.6433708474451649,
+      "eval_loss": 1.6076924800872803,
+      "eval_runtime": 113.2839,
+      "eval_samples_per_second": 56.23,
+      "eval_steps_per_second": 28.115,
+      "step": 49200
+    },
+    {
+      "acc": 0.66762838,
+      "epoch": 1.2482242516489093,
+      "grad_norm": 5.15625,
+      "learning_rate": 3.3903949210541477e-06,
+      "loss": 1.48552923,
+      "memory(GiB)": 111.15,
+      "step": 49205,
+      "train_speed(iter/s)": 0.447205
+    },
+    {
+      "acc": 0.65161018,
+      "epoch": 1.2483510908168443,
+      "grad_norm": 4.6875,
+      "learning_rate": 3.389402154659529e-06,
+      "loss": 1.62856903,
+      "memory(GiB)": 111.15,
+      "step": 49210,
+      "train_speed(iter/s)": 0.447229
+    },
+    {
+      "acc": 0.63972769,
+      "epoch": 1.2484779299847792,
+      "grad_norm": 6.0625,
+      "learning_rate": 3.388409459106192e-06,
+      "loss": 1.68159561,
+      "memory(GiB)": 111.15,
+      "step": 49215,
+      "train_speed(iter/s)": 0.447253
+    },
+    {
+      "acc": 0.64183111,
+      "epoch": 1.2486047691527142,
+      "grad_norm": 5.09375,
+      "learning_rate": 3.3874168344378024e-06,
+      "loss": 1.59677792,
+      "memory(GiB)": 111.15,
+      "step": 49220,
+      "train_speed(iter/s)": 0.447277
+    },
+    {
+      "acc": 0.65485888,
+      "epoch": 1.2487316083206494,
+      "grad_norm": 5.75,
+      "learning_rate": 3.38642428069802e-06,
+      "loss": 1.58704414,
+      "memory(GiB)": 111.15,
+      "step": 49225,
+      "train_speed(iter/s)": 0.447301
+    },
+    {
+      "acc": 0.66307507,
+      "epoch": 1.2488584474885844,
+      "grad_norm": 6.59375,
+      "learning_rate": 3.385431797930503e-06,
+      "loss": 1.63087082,
+      "memory(GiB)": 111.15,
+      "step": 49230,
+      "train_speed(iter/s)": 0.447325
+    },
+    {
+      "acc": 0.64457331,
+      "epoch": 1.2489852866565196,
+      "grad_norm": 4.90625,
+      "learning_rate": 3.3844393861789036e-06,
+      "loss": 1.68529167,
+      "memory(GiB)": 111.15,
+      "step": 49235,
+      "train_speed(iter/s)": 0.447349
+    },
+    {
+      "acc": 0.64283681,
+      "epoch": 1.2491121258244546,
+      "grad_norm": 6.40625,
+      "learning_rate": 3.383447045486872e-06,
+      "loss": 1.69280281,
+      "memory(GiB)": 111.15,
+      "step": 49240,
+      "train_speed(iter/s)": 0.447373
+    },
+    {
+      "acc": 0.63322163,
+      "epoch": 1.2492389649923896,
+      "grad_norm": 4.84375,
+      "learning_rate": 3.382454775898057e-06,
+      "loss": 1.69146004,
+      "memory(GiB)": 111.15,
+      "step": 49245,
+      "train_speed(iter/s)": 0.447398
+    },
+    {
+      "acc": 0.65584135,
+      "epoch": 1.2493658041603246,
+      "grad_norm": 6.125,
+      "learning_rate": 3.381462577456104e-06,
+      "loss": 1.62672729,
+      "memory(GiB)": 111.15,
+      "step": 49250,
+      "train_speed(iter/s)": 0.447422
+    },
+    {
+      "acc": 0.65596514,
+      "epoch": 1.2494926433282598,
+      "grad_norm": 5.1875,
+      "learning_rate": 3.3804704502046527e-06,
+      "loss": 1.58230486,
+      "memory(GiB)": 111.15,
+      "step": 49255,
+      "train_speed(iter/s)": 0.447446
+    },
+    {
+      "acc": 0.66090832,
+      "epoch": 1.2496194824961948,
+      "grad_norm": 4.96875,
+      "learning_rate": 3.3794783941873406e-06,
+      "loss": 1.58688755,
+      "memory(GiB)": 111.15,
+      "step": 49260,
+      "train_speed(iter/s)": 0.447469
+    },
+    {
+      "acc": 0.63651228,
+      "epoch": 1.2497463216641298,
+      "grad_norm": 6.8125,
+      "learning_rate": 3.3784864094478044e-06,
+      "loss": 1.68297882,
+      "memory(GiB)": 111.15,
+      "step": 49265,
+      "train_speed(iter/s)": 0.447493
+    },
+    {
+      "acc": 0.64228449,
+      "epoch": 1.249873160832065,
+      "grad_norm": 4.90625,
+      "learning_rate": 3.377494496029677e-06,
+      "loss": 1.62428322,
+      "memory(GiB)": 111.15,
+      "step": 49270,
+      "train_speed(iter/s)": 0.447517
+    },
+    {
+      "acc": 0.65510368,
+      "epoch": 1.25,
+      "grad_norm": 5.4375,
+      "learning_rate": 3.3765026539765832e-06,
+      "loss": 1.60106888,
+      "memory(GiB)": 111.15,
+      "step": 49275,
+      "train_speed(iter/s)": 0.447542
+    },
+    {
+      "acc": 0.64825206,
+      "epoch": 1.250126839167935,
+      "grad_norm": 5.625,
+      "learning_rate": 3.375510883332152e-06,
+      "loss": 1.66017799,
+      "memory(GiB)": 111.15,
+      "step": 49280,
+      "train_speed(iter/s)": 0.447566
+    },
+    {
+      "acc": 0.63165236,
+      "epoch": 1.2502536783358702,
+      "grad_norm": 4.90625,
+      "learning_rate": 3.3745191841400037e-06,
+      "loss": 1.63583183,
+      "memory(GiB)": 111.15,
+      "step": 49285,
+      "train_speed(iter/s)": 0.44759
+    },
+    {
+      "acc": 0.64153414,
+      "epoch": 1.2503805175038052,
+      "grad_norm": 4.78125,
+      "learning_rate": 3.373527556443762e-06,
+      "loss": 1.67360916,
+      "memory(GiB)": 111.15,
+      "step": 49290,
+      "train_speed(iter/s)": 0.447614
+    },
+    {
+      "acc": 0.64354115,
+      "epoch": 1.2505073566717402,
+      "grad_norm": 5.0,
+      "learning_rate": 3.372536000287038e-06,
+      "loss": 1.62333031,
+      "memory(GiB)": 111.15,
+      "step": 49295,
+      "train_speed(iter/s)": 0.447638
+    },
+    {
+      "acc": 0.6555388,
+      "epoch": 1.2506341958396754,
+      "grad_norm": 6.65625,
+      "learning_rate": 3.3715445157134474e-06,
+      "loss": 1.59570789,
+      "memory(GiB)": 111.15,
+      "step": 49300,
+      "train_speed(iter/s)": 0.447662
+    },
+    {
+      "epoch": 1.2506341958396754,
+      "eval_acc": 0.6434372724473686,
+      "eval_loss": 1.607690453529358,
+      "eval_runtime": 113.0943,
+      "eval_samples_per_second": 56.325,
+      "eval_steps_per_second": 28.162,
+      "step": 49300
+    },
+    {
+      "acc": 0.64631157,
+      "epoch": 1.2507610350076104,
+      "grad_norm": 5.0625,
+      "learning_rate": 3.370553102766598e-06,
+      "loss": 1.58627701,
+      "memory(GiB)": 111.15,
+      "step": 49305,
+      "train_speed(iter/s)": 0.447208
+    },
+    {
+      "acc": 0.64021306,
+      "epoch": 1.2508878741755454,
+      "grad_norm": 4.75,
+      "learning_rate": 3.369561761490101e-06,
+      "loss": 1.65874596,
+      "memory(GiB)": 111.15,
+      "step": 49310,
+      "train_speed(iter/s)": 0.447232
+    },
+    {
+      "acc": 0.64964557,
+      "epoch": 1.2510147133434804,
+      "grad_norm": 5.59375,
+      "learning_rate": 3.3685704919275553e-06,
+      "loss": 1.65846748,
+      "memory(GiB)": 111.15,
+      "step": 49315,
+      "train_speed(iter/s)": 0.447256
+    },
+    {
+      "acc": 0.66633897,
+      "epoch": 1.2511415525114156,
+      "grad_norm": 5.5,
+      "learning_rate": 3.3675792941225625e-06,
+      "loss": 1.53507061,
+      "memory(GiB)": 111.15,
+      "step": 49320,
+      "train_speed(iter/s)": 0.447281
+    },
+    {
+      "acc": 0.65372977,
+      "epoch": 1.2512683916793506,
+      "grad_norm": 6.1875,
+      "learning_rate": 3.3665881681187214e-06,
+      "loss": 1.63561668,
+      "memory(GiB)": 111.15,
+      "step": 49325,
+      "train_speed(iter/s)": 0.447304
+    },
+    {
+      "acc": 0.66151257,
+      "epoch": 1.2513952308472858,
+      "grad_norm": 6.0,
+      "learning_rate": 3.3655971139596265e-06,
+      "loss": 1.63202095,
+      "memory(GiB)": 111.15,
+      "step": 49330,
+      "train_speed(iter/s)": 0.447328
+    },
+    {
+      "acc": 0.64431915,
+      "epoch": 1.2515220700152208,
+      "grad_norm": 5.1875,
+      "learning_rate": 3.3646061316888655e-06,
+      "loss": 1.65445023,
+      "memory(GiB)": 111.15,
+      "step": 49335,
+      "train_speed(iter/s)": 0.447352
+    },
+    {
+      "acc": 0.64349756,
+      "epoch": 1.2516489091831557,
+      "grad_norm": 6.78125,
+      "learning_rate": 3.3636152213500295e-06,
+      "loss": 1.69140091,
+      "memory(GiB)": 111.15,
+      "step": 49340,
+      "train_speed(iter/s)": 0.447376
+    },
+    {
+      "acc": 0.64340553,
+      "epoch": 1.2517757483510907,
+      "grad_norm": 6.125,
+      "learning_rate": 3.362624382986702e-06,
+      "loss": 1.63783226,
+      "memory(GiB)": 111.15,
+      "step": 49345,
+      "train_speed(iter/s)": 0.4474
+    },
+    {
+      "acc": 0.65807638,
+      "epoch": 1.251902587519026,
+      "grad_norm": 4.75,
+      "learning_rate": 3.3616336166424653e-06,
+      "loss": 1.63149414,
+      "memory(GiB)": 111.15,
+      "step": 49350,
+      "train_speed(iter/s)": 0.447424
+    },
+    {
+      "acc": 0.66561518,
+      "epoch": 1.252029426686961,
+      "grad_norm": 5.5625,
+      "learning_rate": 3.360642922360895e-06,
+      "loss": 1.52724924,
+      "memory(GiB)": 111.15,
+      "step": 49355,
+      "train_speed(iter/s)": 0.447448
+    },
+    {
+      "acc": 0.63456125,
+      "epoch": 1.252156265854896,
+      "grad_norm": 5.375,
+      "learning_rate": 3.3596523001855684e-06,
+      "loss": 1.72871857,
+      "memory(GiB)": 111.15,
+      "step": 49360,
+      "train_speed(iter/s)": 0.447472
+    },
+    {
+      "acc": 0.6618794,
+      "epoch": 1.2522831050228311,
+      "grad_norm": 5.0625,
+      "learning_rate": 3.358661750160057e-06,
+      "loss": 1.53018379,
+      "memory(GiB)": 111.15,
+      "step": 49365,
+      "train_speed(iter/s)": 0.447496
+    },
+    {
+      "acc": 0.64800406,
+      "epoch": 1.2524099441907661,
+      "grad_norm": 4.4375,
+      "learning_rate": 3.3576712723279326e-06,
+      "loss": 1.59512291,
+      "memory(GiB)": 111.15,
+      "step": 49370,
+      "train_speed(iter/s)": 0.44752
+    },
+    {
+      "acc": 0.64051256,
+      "epoch": 1.2525367833587011,
+      "grad_norm": 5.125,
+      "learning_rate": 3.3566808667327566e-06,
+      "loss": 1.71679211,
+      "memory(GiB)": 111.15,
+      "step": 49375,
+      "train_speed(iter/s)": 0.447545
+    },
+    {
+      "acc": 0.66605201,
+      "epoch": 1.252663622526636,
+      "grad_norm": 5.75,
+      "learning_rate": 3.355690533418091e-06,
+      "loss": 1.59448929,
+      "memory(GiB)": 111.15,
+      "step": 49380,
+      "train_speed(iter/s)": 0.447569
+    },
+    {
+      "acc": 0.64036608,
+      "epoch": 1.2527904616945713,
+      "grad_norm": 4.78125,
+      "learning_rate": 3.354700272427499e-06,
+      "loss": 1.68655624,
+      "memory(GiB)": 111.15,
+      "step": 49385,
+      "train_speed(iter/s)": 0.447593
+    },
+    {
+      "acc": 0.65051999,
+      "epoch": 1.2529173008625063,
+      "grad_norm": 5.1875,
+      "learning_rate": 3.3537100838045356e-06,
+      "loss": 1.66414127,
+      "memory(GiB)": 111.15,
+      "step": 49390,
+      "train_speed(iter/s)": 0.447617
+    },
+    {
+      "acc": 0.65529194,
+      "epoch": 1.2530441400304415,
+      "grad_norm": 6.1875,
+      "learning_rate": 3.3527199675927526e-06,
+      "loss": 1.64701462,
+      "memory(GiB)": 111.15,
+      "step": 49395,
+      "train_speed(iter/s)": 0.447641
+    },
+    {
+      "acc": 0.64048071,
+      "epoch": 1.2531709791983765,
+      "grad_norm": 5.59375,
+      "learning_rate": 3.3517299238356982e-06,
+      "loss": 1.69436646,
+      "memory(GiB)": 111.15,
+      "step": 49400,
+      "train_speed(iter/s)": 0.447666
+    },
+    {
+      "epoch": 1.2531709791983765,
+      "eval_acc": 0.6433721007470933,
+      "eval_loss": 1.6077090501785278,
+      "eval_runtime": 113.4022,
+      "eval_samples_per_second": 56.172,
+      "eval_steps_per_second": 28.086,
+      "step": 49400
+    },
+    {
+      "acc": 0.65228214,
+      "epoch": 1.2532978183663115,
+      "grad_norm": 4.84375,
+      "learning_rate": 3.3507399525769214e-06,
+      "loss": 1.58131704,
+      "memory(GiB)": 111.15,
+      "step": 49405,
+      "train_speed(iter/s)": 0.447211
+    },
+    {
+      "acc": 0.638311,
+      "epoch": 1.2534246575342465,
+      "grad_norm": 5.875,
+      "learning_rate": 3.3497500538599664e-06,
+      "loss": 1.6939537,
+      "memory(GiB)": 111.15,
+      "step": 49410,
+      "train_speed(iter/s)": 0.447235
+    },
+    {
+      "acc": 0.64646006,
+      "epoch": 1.2535514967021817,
+      "grad_norm": 5.125,
+      "learning_rate": 3.34876022772837e-06,
+      "loss": 1.65379753,
+      "memory(GiB)": 111.15,
+      "step": 49415,
+      "train_speed(iter/s)": 0.447259
+    },
+    {
+      "acc": 0.65120029,
+      "epoch": 1.2536783358701167,
+      "grad_norm": 5.15625,
+      "learning_rate": 3.347770474225672e-06,
+      "loss": 1.66930695,
+      "memory(GiB)": 111.15,
+      "step": 49420,
+      "train_speed(iter/s)": 0.447283
+    },
+    {
+      "acc": 0.65045428,
+      "epoch": 1.2538051750380519,
+      "grad_norm": 5.25,
+      "learning_rate": 3.3467807933954034e-06,
+      "loss": 1.60740013,
+      "memory(GiB)": 111.15,
+      "step": 49425,
+      "train_speed(iter/s)": 0.447307
+    },
+    {
+      "acc": 0.64233446,
+      "epoch": 1.2539320142059869,
+      "grad_norm": 4.625,
+      "learning_rate": 3.345791185281101e-06,
+      "loss": 1.62311172,
+      "memory(GiB)": 111.15,
+      "step": 49430,
+      "train_speed(iter/s)": 0.447331
+    },
+    {
+      "acc": 0.66269822,
+      "epoch": 1.2540588533739219,
+      "grad_norm": 5.5,
+      "learning_rate": 3.3448016499262836e-06,
+      "loss": 1.61623363,
+      "memory(GiB)": 111.15,
+      "step": 49435,
+      "train_speed(iter/s)": 0.447355
+    },
+    {
+      "acc": 0.643612,
+      "epoch": 1.2541856925418569,
+      "grad_norm": 5.5,
+      "learning_rate": 3.3438121873744812e-06,
+      "loss": 1.66169243,
+      "memory(GiB)": 111.15,
+      "step": 49440,
+      "train_speed(iter/s)": 0.447379
+    },
+    {
+      "acc": 0.64761777,
+      "epoch": 1.254312531709792,
+      "grad_norm": 4.875,
+      "learning_rate": 3.342822797669212e-06,
+      "loss": 1.59341545,
+      "memory(GiB)": 111.15,
+      "step": 49445,
+      "train_speed(iter/s)": 0.447403
+    },
+    {
+      "acc": 0.65080962,
+      "epoch": 1.254439370877727,
+      "grad_norm": 5.5625,
+      "learning_rate": 3.3418334808539966e-06,
+      "loss": 1.69867363,
+      "memory(GiB)": 111.15,
+      "step": 49450,
+      "train_speed(iter/s)": 0.447427
+    },
+    {
+      "acc": 0.63429437,
+      "epoch": 1.254566210045662,
+      "grad_norm": 4.96875,
+      "learning_rate": 3.340844236972347e-06,
+      "loss": 1.69941521,
+      "memory(GiB)": 111.15,
+      "step": 49455,
+      "train_speed(iter/s)": 0.447451
+    },
+    {
+      "acc": 0.652666,
+      "epoch": 1.2546930492135973,
+      "grad_norm": 5.875,
+      "learning_rate": 3.3398550660677748e-06,
+      "loss": 1.63648682,
+      "memory(GiB)": 111.15,
+      "step": 49460,
+      "train_speed(iter/s)": 0.447475
+    },
+    {
+      "acc": 0.63806076,
+      "epoch": 1.2548198883815322,
+      "grad_norm": 6.84375,
+      "learning_rate": 3.3388659681837898e-06,
+      "loss": 1.66788216,
+      "memory(GiB)": 111.15,
+      "step": 49465,
+      "train_speed(iter/s)": 0.447499
+    },
+    {
+      "acc": 0.63527985,
+      "epoch": 1.2549467275494672,
+      "grad_norm": 7.0,
+      "learning_rate": 3.3378769433638965e-06,
+      "loss": 1.72672253,
+      "memory(GiB)": 111.15,
+      "step": 49470,
+      "train_speed(iter/s)": 0.447523
+    },
+    {
+      "acc": 0.64112625,
+      "epoch": 1.2550735667174022,
+      "grad_norm": 5.6875,
+      "learning_rate": 3.336887991651595e-06,
+      "loss": 1.6590641,
+      "memory(GiB)": 111.15,
+      "step": 49475,
+      "train_speed(iter/s)": 0.447547
+    },
+    {
+      "acc": 0.64667664,
+      "epoch": 1.2552004058853374,
+      "grad_norm": 4.65625,
+      "learning_rate": 3.3358991130903845e-06,
+      "loss": 1.63830051,
+      "memory(GiB)": 111.15,
+      "step": 49480,
+      "train_speed(iter/s)": 0.447571
+    },
+    {
+      "acc": 0.67880611,
+      "epoch": 1.2553272450532724,
+      "grad_norm": 5.28125,
+      "learning_rate": 3.334910307723761e-06,
+      "loss": 1.53107319,
+      "memory(GiB)": 111.15,
+      "step": 49485,
+      "train_speed(iter/s)": 0.447595
+    },
+    {
+      "acc": 0.65748158,
+      "epoch": 1.2554540842212076,
+      "grad_norm": 6.09375,
+      "learning_rate": 3.333921575595218e-06,
+      "loss": 1.60756893,
+      "memory(GiB)": 111.15,
+      "step": 49490,
+      "train_speed(iter/s)": 0.447619
+    },
+    {
+      "acc": 0.62698889,
+      "epoch": 1.2555809233891426,
+      "grad_norm": 5.1875,
+      "learning_rate": 3.3329329167482404e-06,
+      "loss": 1.65502281,
+      "memory(GiB)": 111.15,
+      "step": 49495,
+      "train_speed(iter/s)": 0.447643
+    },
+    {
+      "acc": 0.66843319,
+      "epoch": 1.2557077625570776,
+      "grad_norm": 5.5625,
+      "learning_rate": 3.331944331226317e-06,
+      "loss": 1.59684105,
+      "memory(GiB)": 111.15,
+      "step": 49500,
+      "train_speed(iter/s)": 0.447668
+    },
+    {
+      "epoch": 1.2557077625570776,
+      "eval_acc": 0.6434113708741823,
+      "eval_loss": 1.6076092720031738,
+      "eval_runtime": 114.1594,
+      "eval_samples_per_second": 55.799,
+      "eval_steps_per_second": 27.9,
+      "step": 49500
+    },
+    {
+      "acc": 0.66473956,
+      "epoch": 1.2558346017250126,
+      "grad_norm": 4.71875,
+      "learning_rate": 3.330955819072928e-06,
+      "loss": 1.60876446,
+      "memory(GiB)": 111.15,
+      "step": 49505,
+      "train_speed(iter/s)": 0.447211
+    },
+    {
+      "acc": 0.678582,
+      "epoch": 1.2559614408929478,
+      "grad_norm": 5.90625,
+      "learning_rate": 3.329967380331556e-06,
+      "loss": 1.54485989,
+      "memory(GiB)": 111.15,
+      "step": 49510,
+      "train_speed(iter/s)": 0.447235
+    },
+    {
+      "acc": 0.63830576,
+      "epoch": 1.2560882800608828,
+      "grad_norm": 8.25,
+      "learning_rate": 3.3289790150456737e-06,
+      "loss": 1.65448608,
+      "memory(GiB)": 111.15,
+      "step": 49515,
+      "train_speed(iter/s)": 0.447259
+    },
+    {
+      "acc": 0.64525385,
+      "epoch": 1.2562151192288178,
+      "grad_norm": 4.84375,
+      "learning_rate": 3.327990723258755e-06,
+      "loss": 1.62041512,
+      "memory(GiB)": 111.15,
+      "step": 49520,
+      "train_speed(iter/s)": 0.447283
+    },
+    {
+      "acc": 0.64608965,
+      "epoch": 1.256341958396753,
+      "grad_norm": 5.0,
+      "learning_rate": 3.3270025050142684e-06,
+      "loss": 1.61028614,
+      "memory(GiB)": 111.15,
+      "step": 49525,
+      "train_speed(iter/s)": 0.447307
+    },
+    {
+      "acc": 0.65216894,
+      "epoch": 1.256468797564688,
+      "grad_norm": 4.75,
+      "learning_rate": 3.3260143603556827e-06,
+      "loss": 1.58564663,
+      "memory(GiB)": 111.15,
+      "step": 49530,
+      "train_speed(iter/s)": 0.44733
+    },
+    {
+      "acc": 0.63838272,
+      "epoch": 1.256595636732623,
+      "grad_norm": 5.375,
+      "learning_rate": 3.3250262893264583e-06,
+      "loss": 1.64035435,
+      "memory(GiB)": 111.15,
+      "step": 49535,
+      "train_speed(iter/s)": 0.447354
+    },
+    {
+      "acc": 0.64145112,
+      "epoch": 1.256722475900558,
+      "grad_norm": 5.8125,
+      "learning_rate": 3.3240382919700555e-06,
+      "loss": 1.61284409,
+      "memory(GiB)": 111.15,
+      "step": 49540,
+      "train_speed(iter/s)": 0.447378
+    },
+    {
+      "acc": 0.64376984,
+      "epoch": 1.2568493150684932,
+      "grad_norm": 5.59375,
+      "learning_rate": 3.3230503683299316e-06,
+      "loss": 1.62973766,
+      "memory(GiB)": 111.15,
+      "step": 49545,
+      "train_speed(iter/s)": 0.447402
+    },
+    {
+      "acc": 0.65102882,
+      "epoch": 1.2569761542364282,
+      "grad_norm": 6.0625,
+      "learning_rate": 3.3220625184495404e-06,
+      "loss": 1.63315163,
+      "memory(GiB)": 111.15,
+      "step": 49550,
+      "train_speed(iter/s)": 0.447426
+    },
+    {
+      "acc": 0.64776707,
+      "epoch": 1.2571029934043634,
+      "grad_norm": 6.15625,
+      "learning_rate": 3.3210747423723293e-06,
+      "loss": 1.64625931,
+      "memory(GiB)": 111.15,
+      "step": 49555,
+      "train_speed(iter/s)": 0.44745
+    },
+    {
+      "acc": 0.65332451,
+      "epoch": 1.2572298325722984,
+      "grad_norm": 4.9375,
+      "learning_rate": 3.3200870401417486e-06,
+      "loss": 1.65684853,
+      "memory(GiB)": 111.15,
+      "step": 49560,
+      "train_speed(iter/s)": 0.447474
+    },
+    {
+      "acc": 0.65729885,
+      "epoch": 1.2573566717402334,
+      "grad_norm": 4.96875,
+      "learning_rate": 3.3190994118012387e-06,
+      "loss": 1.639501,
+      "memory(GiB)": 111.15,
+      "step": 49565,
+      "train_speed(iter/s)": 0.447498
+    },
+    {
+      "acc": 0.65120606,
+      "epoch": 1.2574835109081683,
+      "grad_norm": 5.625,
+      "learning_rate": 3.318111857394244e-06,
+      "loss": 1.65075169,
+      "memory(GiB)": 111.15,
+      "step": 49570,
+      "train_speed(iter/s)": 0.447521
+    },
+    {
+      "acc": 0.66114082,
+      "epoch": 1.2576103500761036,
+      "grad_norm": 5.25,
+      "learning_rate": 3.3171243769641957e-06,
+      "loss": 1.60966644,
+      "memory(GiB)": 111.15,
+      "step": 49575,
+      "train_speed(iter/s)": 0.447545
+    },
+    {
+      "acc": 0.64666195,
+      "epoch": 1.2577371892440385,
+      "grad_norm": 5.875,
+      "learning_rate": 3.316136970554532e-06,
+      "loss": 1.65261974,
+      "memory(GiB)": 111.15,
+      "step": 49580,
+      "train_speed(iter/s)": 0.447569
+    },
+    {
+      "acc": 0.66348505,
+      "epoch": 1.2578640284119738,
+      "grad_norm": 5.8125,
+      "learning_rate": 3.315149638208681e-06,
+      "loss": 1.64910336,
+      "memory(GiB)": 111.15,
+      "step": 49585,
+      "train_speed(iter/s)": 0.447593
+    },
+    {
+      "acc": 0.65573225,
+      "epoch": 1.2579908675799087,
+      "grad_norm": 6.3125,
+      "learning_rate": 3.3141623799700738e-06,
+      "loss": 1.62964745,
+      "memory(GiB)": 111.15,
+      "step": 49590,
+      "train_speed(iter/s)": 0.447616
+    },
+    {
+      "acc": 0.63740196,
+      "epoch": 1.2581177067478437,
+      "grad_norm": 6.03125,
+      "learning_rate": 3.3131751958821313e-06,
+      "loss": 1.70681553,
+      "memory(GiB)": 111.15,
+      "step": 49595,
+      "train_speed(iter/s)": 0.44764
+    },
+    {
+      "acc": 0.65528936,
+      "epoch": 1.2582445459157787,
+      "grad_norm": 5.8125,
+      "learning_rate": 3.312188085988273e-06,
+      "loss": 1.59557323,
+      "memory(GiB)": 111.15,
+      "step": 49600,
+      "train_speed(iter/s)": 0.447664
+    },
+    {
+      "epoch": 1.2582445459157787,
+      "eval_acc": 0.6433499590796921,
+      "eval_loss": 1.6076806783676147,
+      "eval_runtime": 113.8192,
+      "eval_samples_per_second": 55.966,
+      "eval_steps_per_second": 27.983,
+      "step": 49600
+    },
+    {
+      "acc": 0.65832691,
+      "epoch": 1.258371385083714,
+      "grad_norm": 4.59375,
+      "learning_rate": 3.311201050331919e-06,
+      "loss": 1.6289156,
+      "memory(GiB)": 111.15,
+      "step": 49605,
+      "train_speed(iter/s)": 0.44721
+    },
+    {
+      "acc": 0.66615701,
+      "epoch": 1.258498224251649,
+      "grad_norm": 5.28125,
+      "learning_rate": 3.310214088956485e-06,
+      "loss": 1.59623337,
+      "memory(GiB)": 111.15,
+      "step": 49610,
+      "train_speed(iter/s)": 0.447233
+    },
+    {
+      "acc": 0.67176485,
+      "epoch": 1.258625063419584,
+      "grad_norm": 5.4375,
+      "learning_rate": 3.3092272019053773e-06,
+      "loss": 1.49739609,
+      "memory(GiB)": 111.15,
+      "step": 49615,
+      "train_speed(iter/s)": 0.447257
+    },
+    {
+      "acc": 0.67713718,
+      "epoch": 1.2587519025875191,
+      "grad_norm": 4.5,
+      "learning_rate": 3.308240389222006e-06,
+      "loss": 1.52206173,
+      "memory(GiB)": 111.15,
+      "step": 49620,
+      "train_speed(iter/s)": 0.447281
+    },
+    {
+      "acc": 0.6580256,
+      "epoch": 1.2588787417554541,
+      "grad_norm": 4.9375,
+      "learning_rate": 3.3072536509497762e-06,
+      "loss": 1.60775108,
+      "memory(GiB)": 111.15,
+      "step": 49625,
+      "train_speed(iter/s)": 0.447305
+    },
+    {
+      "acc": 0.65086432,
+      "epoch": 1.259005580923389,
+      "grad_norm": 4.71875,
+      "learning_rate": 3.306266987132089e-06,
+      "loss": 1.59987583,
+      "memory(GiB)": 111.15,
+      "step": 49630,
+      "train_speed(iter/s)": 0.447328
+    },
+    {
+      "acc": 0.67071438,
+      "epoch": 1.259132420091324,
+      "grad_norm": 5.125,
+      "learning_rate": 3.3052803978123405e-06,
+      "loss": 1.54824343,
+      "memory(GiB)": 111.15,
+      "step": 49635,
+      "train_speed(iter/s)": 0.447352
+    },
+    {
+      "acc": 0.66048903,
+      "epoch": 1.2592592592592593,
+      "grad_norm": 4.34375,
+      "learning_rate": 3.3042938830339264e-06,
+      "loss": 1.57975731,
+      "memory(GiB)": 111.15,
+      "step": 49640,
+      "train_speed(iter/s)": 0.447376
+    },
+    {
+      "acc": 0.65136147,
+      "epoch": 1.2593860984271943,
+      "grad_norm": 5.15625,
+      "learning_rate": 3.303307442840238e-06,
+      "loss": 1.57258816,
+      "memory(GiB)": 111.15,
+      "step": 49645,
+      "train_speed(iter/s)": 0.447401
+    },
+    {
+      "acc": 0.66036024,
+      "epoch": 1.2595129375951295,
+      "grad_norm": 4.53125,
+      "learning_rate": 3.302321077274666e-06,
+      "loss": 1.52835417,
+      "memory(GiB)": 111.15,
+      "step": 49650,
+      "train_speed(iter/s)": 0.447424
+    },
+    {
+      "acc": 0.63626728,
+      "epoch": 1.2596397767630645,
+      "grad_norm": 4.8125,
+      "learning_rate": 3.30133478638059e-06,
+      "loss": 1.69717178,
+      "memory(GiB)": 111.15,
+      "step": 49655,
+      "train_speed(iter/s)": 0.447448
+    },
+    {
+      "acc": 0.65202742,
+      "epoch": 1.2597666159309995,
+      "grad_norm": 4.5625,
+      "learning_rate": 3.300348570201395e-06,
+      "loss": 1.58965607,
+      "memory(GiB)": 111.15,
+      "step": 49660,
+      "train_speed(iter/s)": 0.447472
+    },
+    {
+      "acc": 0.63750868,
+      "epoch": 1.2598934550989345,
+      "grad_norm": 5.21875,
+      "learning_rate": 3.299362428780457e-06,
+      "loss": 1.65280762,
+      "memory(GiB)": 111.15,
+      "step": 49665,
+      "train_speed(iter/s)": 0.447496
+    },
+    {
+      "acc": 0.66005955,
+      "epoch": 1.2600202942668697,
+      "grad_norm": 5.46875,
+      "learning_rate": 3.298376362161154e-06,
+      "loss": 1.46238651,
+      "memory(GiB)": 111.15,
+      "step": 49670,
+      "train_speed(iter/s)": 0.44752
+    },
+    {
+      "acc": 0.66012735,
+      "epoch": 1.2601471334348047,
+      "grad_norm": 5.65625,
+      "learning_rate": 3.297390370386856e-06,
+      "loss": 1.6438961,
+      "memory(GiB)": 111.15,
+      "step": 49675,
+      "train_speed(iter/s)": 0.447544
+    },
+    {
+      "acc": 0.63883343,
+      "epoch": 1.2602739726027397,
+      "grad_norm": 5.09375,
+      "learning_rate": 3.2964044535009288e-06,
+      "loss": 1.67120399,
+      "memory(GiB)": 111.15,
+      "step": 49680,
+      "train_speed(iter/s)": 0.447568
+    },
+    {
+      "acc": 0.6512063,
+      "epoch": 1.2604008117706749,
+      "grad_norm": 5.3125,
+      "learning_rate": 3.2954186115467412e-06,
+      "loss": 1.61113033,
+      "memory(GiB)": 111.15,
+      "step": 49685,
+      "train_speed(iter/s)": 0.447592
+    },
+    {
+      "acc": 0.63943386,
+      "epoch": 1.2605276509386099,
+      "grad_norm": 5.46875,
+      "learning_rate": 3.2944328445676543e-06,
+      "loss": 1.66049576,
+      "memory(GiB)": 111.15,
+      "step": 49690,
+      "train_speed(iter/s)": 0.447615
+    },
+    {
+      "acc": 0.63678656,
+      "epoch": 1.2606544901065448,
+      "grad_norm": 5.25,
+      "learning_rate": 3.2934471526070254e-06,
+      "loss": 1.69283905,
+      "memory(GiB)": 111.15,
+      "step": 49695,
+      "train_speed(iter/s)": 0.447639
+    },
+    {
+      "acc": 0.661273,
+      "epoch": 1.2607813292744798,
+      "grad_norm": 6.75,
+      "learning_rate": 3.2924615357082078e-06,
+      "loss": 1.61276741,
+      "memory(GiB)": 111.15,
+      "step": 49700,
+      "train_speed(iter/s)": 0.447664
+    },
+    {
+      "epoch": 1.2607813292744798,
+      "eval_acc": 0.6433904825087094,
+      "eval_loss": 1.6076984405517578,
+      "eval_runtime": 114.6755,
+      "eval_samples_per_second": 55.548,
+      "eval_steps_per_second": 27.774,
+      "step": 49700
+    },
+    {
+      "acc": 0.64198875,
+      "epoch": 1.260908168442415,
+      "grad_norm": 5.8125,
+      "learning_rate": 3.2914759939145574e-06,
+      "loss": 1.65168419,
+      "memory(GiB)": 111.15,
+      "step": 49705,
+      "train_speed(iter/s)": 0.447207
+    },
+    {
+      "acc": 0.64660845,
+      "epoch": 1.26103500761035,
+      "grad_norm": 6.03125,
+      "learning_rate": 3.2904905272694214e-06,
+      "loss": 1.65793076,
+      "memory(GiB)": 111.15,
+      "step": 49710,
+      "train_speed(iter/s)": 0.447231
+    },
+    {
+      "acc": 0.66063571,
+      "epoch": 1.2611618467782852,
+      "grad_norm": 4.78125,
+      "learning_rate": 3.289505135816142e-06,
+      "loss": 1.57222519,
+      "memory(GiB)": 111.15,
+      "step": 49715,
+      "train_speed(iter/s)": 0.447255
+    },
+    {
+      "acc": 0.64570284,
+      "epoch": 1.2612886859462202,
+      "grad_norm": 5.375,
+      "learning_rate": 3.2885198195980653e-06,
+      "loss": 1.64826965,
+      "memory(GiB)": 111.15,
+      "step": 49720,
+      "train_speed(iter/s)": 0.447279
+    },
+    {
+      "acc": 0.65148373,
+      "epoch": 1.2614155251141552,
+      "grad_norm": 5.375,
+      "learning_rate": 3.287534578658527e-06,
+      "loss": 1.62056065,
+      "memory(GiB)": 111.15,
+      "step": 49725,
+      "train_speed(iter/s)": 0.447303
+    },
+    {
+      "acc": 0.64085803,
+      "epoch": 1.2615423642820902,
+      "grad_norm": 5.625,
+      "learning_rate": 3.2865494130408657e-06,
+      "loss": 1.62778339,
+      "memory(GiB)": 111.15,
+      "step": 49730,
+      "train_speed(iter/s)": 0.447327
+    },
+    {
+      "acc": 0.64268665,
+      "epoch": 1.2616692034500254,
+      "grad_norm": 6.4375,
+      "learning_rate": 3.2855643227884097e-06,
+      "loss": 1.65933952,
+      "memory(GiB)": 111.15,
+      "step": 49735,
+      "train_speed(iter/s)": 0.447351
+    },
+    {
+      "acc": 0.66326632,
+      "epoch": 1.2617960426179604,
+      "grad_norm": 4.8125,
+      "learning_rate": 3.28457930794449e-06,
+      "loss": 1.57587681,
+      "memory(GiB)": 111.15,
+      "step": 49740,
+      "train_speed(iter/s)": 0.447375
+    },
+    {
+      "acc": 0.66428385,
+      "epoch": 1.2619228817858956,
+      "grad_norm": 5.34375,
+      "learning_rate": 3.283594368552429e-06,
+      "loss": 1.59262066,
+      "memory(GiB)": 111.15,
+      "step": 49745,
+      "train_speed(iter/s)": 0.447399
+    },
+    {
+      "acc": 0.65019517,
+      "epoch": 1.2620497209538306,
+      "grad_norm": 5.90625,
+      "learning_rate": 3.282609504655554e-06,
+      "loss": 1.65750294,
+      "memory(GiB)": 111.15,
+      "step": 49750,
+      "train_speed(iter/s)": 0.447423
+    },
+    {
+      "acc": 0.65336809,
+      "epoch": 1.2621765601217656,
+      "grad_norm": 6.6875,
+      "learning_rate": 3.281624716297179e-06,
+      "loss": 1.56346664,
+      "memory(GiB)": 111.15,
+      "step": 49755,
+      "train_speed(iter/s)": 0.447447
+    },
+    {
+      "acc": 0.64546194,
+      "epoch": 1.2623033992897006,
+      "grad_norm": 5.65625,
+      "learning_rate": 3.28064000352062e-06,
+      "loss": 1.64669781,
+      "memory(GiB)": 111.15,
+      "step": 49760,
+      "train_speed(iter/s)": 0.447471
+    },
+    {
+      "acc": 0.64831867,
+      "epoch": 1.2624302384576358,
+      "grad_norm": 5.28125,
+      "learning_rate": 3.279655366369191e-06,
+      "loss": 1.60423889,
+      "memory(GiB)": 111.15,
+      "step": 49765,
+      "train_speed(iter/s)": 0.447495
+    },
+    {
+      "acc": 0.64295177,
+      "epoch": 1.2625570776255708,
+      "grad_norm": 5.03125,
+      "learning_rate": 3.2786708048862e-06,
+      "loss": 1.67472649,
+      "memory(GiB)": 111.15,
+      "step": 49770,
+      "train_speed(iter/s)": 0.447519
+    },
+    {
+      "acc": 0.66158743,
+      "epoch": 1.2626839167935058,
+      "grad_norm": 6.25,
+      "learning_rate": 3.2776863191149517e-06,
+      "loss": 1.63628845,
+      "memory(GiB)": 111.15,
+      "step": 49775,
+      "train_speed(iter/s)": 0.447543
+    },
+    {
+      "acc": 0.64841137,
+      "epoch": 1.262810755961441,
+      "grad_norm": 5.6875,
+      "learning_rate": 3.2767019090987483e-06,
+      "loss": 1.67584095,
+      "memory(GiB)": 111.15,
+      "step": 49780,
+      "train_speed(iter/s)": 0.447567
+    },
+    {
+      "acc": 0.64042554,
+      "epoch": 1.262937595129376,
+      "grad_norm": 4.71875,
+      "learning_rate": 3.27571757488089e-06,
+      "loss": 1.71496735,
+      "memory(GiB)": 111.15,
+      "step": 49785,
+      "train_speed(iter/s)": 0.44759
+    },
+    {
+      "acc": 0.65434012,
+      "epoch": 1.263064434297311,
+      "grad_norm": 5.3125,
+      "learning_rate": 3.274733316504672e-06,
+      "loss": 1.59161377,
+      "memory(GiB)": 111.15,
+      "step": 49790,
+      "train_speed(iter/s)": 0.447614
+    },
+    {
+      "acc": 0.65235205,
+      "epoch": 1.263191273465246,
+      "grad_norm": 4.4375,
+      "learning_rate": 3.273749134013383e-06,
+      "loss": 1.5418685,
+      "memory(GiB)": 111.15,
+      "step": 49795,
+      "train_speed(iter/s)": 0.447638
+    },
+    {
+      "acc": 0.65715837,
+      "epoch": 1.2633181126331812,
+      "grad_norm": 4.90625,
+      "learning_rate": 3.2727650274503154e-06,
+      "loss": 1.59599981,
+      "memory(GiB)": 111.15,
+      "step": 49800,
+      "train_speed(iter/s)": 0.447662
+    },
+    {
+      "epoch": 1.2633181126331812,
+      "eval_acc": 0.6434243216607755,
+      "eval_loss": 1.6075972318649292,
+      "eval_runtime": 113.795,
+      "eval_samples_per_second": 55.978,
+      "eval_steps_per_second": 27.989,
+      "step": 49800
+    },
+    {
+      "acc": 0.65128951,
+      "epoch": 1.2634449518011162,
+      "grad_norm": 6.0625,
+      "learning_rate": 3.2717809968587523e-06,
+      "loss": 1.58955154,
+      "memory(GiB)": 111.15,
+      "step": 49805,
+      "train_speed(iter/s)": 0.44721
+    },
+    {
+      "acc": 0.64873362,
+      "epoch": 1.2635717909690514,
+      "grad_norm": 5.71875,
+      "learning_rate": 3.270797042281979e-06,
+      "loss": 1.60637321,
+      "memory(GiB)": 111.15,
+      "step": 49810,
+      "train_speed(iter/s)": 0.447234
+    },
+    {
+      "acc": 0.63749685,
+      "epoch": 1.2636986301369864,
+      "grad_norm": 4.65625,
+      "learning_rate": 3.269813163763271e-06,
+      "loss": 1.7353672,
+      "memory(GiB)": 111.15,
+      "step": 49815,
+      "train_speed(iter/s)": 0.447257
+    },
+    {
+      "acc": 0.6500968,
+      "epoch": 1.2638254693049213,
+      "grad_norm": 5.71875,
+      "learning_rate": 3.268829361345904e-06,
+      "loss": 1.6207653,
+      "memory(GiB)": 111.15,
+      "step": 49820,
+      "train_speed(iter/s)": 0.447281
+    },
+    {
+      "acc": 0.65395808,
+      "epoch": 1.2639523084728563,
+      "grad_norm": 5.375,
+      "learning_rate": 3.2678456350731526e-06,
+      "loss": 1.59151535,
+      "memory(GiB)": 111.15,
+      "step": 49825,
+      "train_speed(iter/s)": 0.447305
+    },
+    {
+      "acc": 0.67056036,
+      "epoch": 1.2640791476407915,
+      "grad_norm": 6.0,
+      "learning_rate": 3.266861984988283e-06,
+      "loss": 1.55549793,
+      "memory(GiB)": 111.15,
+      "step": 49830,
+      "train_speed(iter/s)": 0.447329
+    },
+    {
+      "acc": 0.66144791,
+      "epoch": 1.2642059868087265,
+      "grad_norm": 6.4375,
+      "learning_rate": 3.2658784111345614e-06,
+      "loss": 1.61143227,
+      "memory(GiB)": 111.15,
+      "step": 49835,
+      "train_speed(iter/s)": 0.447353
+    },
+    {
+      "acc": 0.64963503,
+      "epoch": 1.2643328259766615,
+      "grad_norm": 5.1875,
+      "learning_rate": 3.2648949135552482e-06,
+      "loss": 1.5689086,
+      "memory(GiB)": 111.15,
+      "step": 49840,
+      "train_speed(iter/s)": 0.447377
+    },
+    {
+      "acc": 0.64650221,
+      "epoch": 1.2644596651445967,
+      "grad_norm": 7.96875,
+      "learning_rate": 3.2639114922936045e-06,
+      "loss": 1.66356239,
+      "memory(GiB)": 111.15,
+      "step": 49845,
+      "train_speed(iter/s)": 0.4474
+    },
+    {
+      "acc": 0.66122494,
+      "epoch": 1.2645865043125317,
+      "grad_norm": 6.8125,
+      "learning_rate": 3.2629281473928855e-06,
+      "loss": 1.54492779,
+      "memory(GiB)": 111.15,
+      "step": 49850,
+      "train_speed(iter/s)": 0.447424
+    },
+    {
+      "acc": 0.65090766,
+      "epoch": 1.2647133434804667,
+      "grad_norm": 4.5625,
+      "learning_rate": 3.26194487889634e-06,
+      "loss": 1.60642681,
+      "memory(GiB)": 111.15,
+      "step": 49855,
+      "train_speed(iter/s)": 0.447448
+    },
+    {
+      "acc": 0.65949221,
+      "epoch": 1.2648401826484017,
+      "grad_norm": 6.21875,
+      "learning_rate": 3.2609616868472192e-06,
+      "loss": 1.56322803,
+      "memory(GiB)": 111.15,
+      "step": 49860,
+      "train_speed(iter/s)": 0.447472
+    },
+    {
+      "acc": 0.65364795,
+      "epoch": 1.264967021816337,
+      "grad_norm": 5.96875,
+      "learning_rate": 3.259978571288767e-06,
+      "loss": 1.58070297,
+      "memory(GiB)": 111.15,
+      "step": 49865,
+      "train_speed(iter/s)": 0.447496
+    },
+    {
+      "acc": 0.6398654,
+      "epoch": 1.265093860984272,
+      "grad_norm": 4.8125,
+      "learning_rate": 3.2589955322642293e-06,
+      "loss": 1.68270073,
+      "memory(GiB)": 111.15,
+      "step": 49870,
+      "train_speed(iter/s)": 0.44752
+    },
+    {
+      "acc": 0.64357014,
+      "epoch": 1.2652207001522071,
+      "grad_norm": 4.3125,
+      "learning_rate": 3.2580125698168376e-06,
+      "loss": 1.58939495,
+      "memory(GiB)": 111.15,
+      "step": 49875,
+      "train_speed(iter/s)": 0.447543
+    },
+    {
+      "acc": 0.64326792,
+      "epoch": 1.265347539320142,
+      "grad_norm": 5.1875,
+      "learning_rate": 3.2570296839898314e-06,
+      "loss": 1.67074432,
+      "memory(GiB)": 111.15,
+      "step": 49880,
+      "train_speed(iter/s)": 0.447567
+    },
+    {
+      "acc": 0.65201669,
+      "epoch": 1.265474378488077,
+      "grad_norm": 5.90625,
+      "learning_rate": 3.2560468748264405e-06,
+      "loss": 1.59917355,
+      "memory(GiB)": 111.15,
+      "step": 49885,
+      "train_speed(iter/s)": 0.447591
+    },
+    {
+      "acc": 0.64176607,
+      "epoch": 1.265601217656012,
+      "grad_norm": 5.34375,
+      "learning_rate": 3.2550641423698965e-06,
+      "loss": 1.66149101,
+      "memory(GiB)": 111.15,
+      "step": 49890,
+      "train_speed(iter/s)": 0.447614
+    },
+    {
+      "acc": 0.62546263,
+      "epoch": 1.2657280568239473,
+      "grad_norm": 5.03125,
+      "learning_rate": 3.2540814866634206e-06,
+      "loss": 1.70406952,
+      "memory(GiB)": 111.15,
+      "step": 49895,
+      "train_speed(iter/s)": 0.447638
+    },
+    {
+      "acc": 0.64594569,
+      "epoch": 1.2658548959918823,
+      "grad_norm": 5.375,
+      "learning_rate": 3.2530989077502355e-06,
+      "loss": 1.60852127,
+      "memory(GiB)": 111.15,
+      "step": 49900,
+      "train_speed(iter/s)": 0.447662
+    },
+    {
+      "epoch": 1.2658548959918823,
+      "eval_acc": 0.6433921535779472,
+      "eval_loss": 1.6075422763824463,
+      "eval_runtime": 114.6682,
+      "eval_samples_per_second": 55.552,
+      "eval_steps_per_second": 27.776,
+      "step": 49900
+    },
+    {
+      "acc": 0.66452971,
+      "epoch": 1.2659817351598175,
+      "grad_norm": 6.34375,
+      "learning_rate": 3.252116405673561e-06,
+      "loss": 1.56108389,
+      "memory(GiB)": 111.15,
+      "step": 49905,
+      "train_speed(iter/s)": 0.447207
+    },
+    {
+      "acc": 0.66003122,
+      "epoch": 1.2661085743277525,
+      "grad_norm": 6.0,
+      "learning_rate": 3.2511339804766107e-06,
+      "loss": 1.56979637,
+      "memory(GiB)": 111.15,
+      "step": 49910,
+      "train_speed(iter/s)": 0.447231
+    },
+    {
+      "acc": 0.6620224,
+      "epoch": 1.2662354134956875,
+      "grad_norm": 5.78125,
+      "learning_rate": 3.250151632202596e-06,
+      "loss": 1.58418846,
+      "memory(GiB)": 111.15,
+      "step": 49915,
+      "train_speed(iter/s)": 0.447254
+    },
+    {
+      "acc": 0.66003041,
+      "epoch": 1.2663622526636225,
+      "grad_norm": 6.4375,
+      "learning_rate": 3.249169360894724e-06,
+      "loss": 1.61683006,
+      "memory(GiB)": 111.15,
+      "step": 49920,
+      "train_speed(iter/s)": 0.447278
+    },
+    {
+      "acc": 0.63450928,
+      "epoch": 1.2664890918315577,
+      "grad_norm": 6.1875,
+      "learning_rate": 3.2481871665962006e-06,
+      "loss": 1.7150898,
+      "memory(GiB)": 111.15,
+      "step": 49925,
+      "train_speed(iter/s)": 0.447302
+    },
+    {
+      "acc": 0.66307163,
+      "epoch": 1.2666159309994927,
+      "grad_norm": 5.21875,
+      "learning_rate": 3.2472050493502282e-06,
+      "loss": 1.56990261,
+      "memory(GiB)": 111.15,
+      "step": 49930,
+      "train_speed(iter/s)": 0.447325
+    },
+    {
+      "acc": 0.66680093,
+      "epoch": 1.2667427701674276,
+      "grad_norm": 5.21875,
+      "learning_rate": 3.2462230092000017e-06,
+      "loss": 1.55625334,
+      "memory(GiB)": 111.15,
+      "step": 49935,
+      "train_speed(iter/s)": 0.447349
+    },
+    {
+      "acc": 0.65933809,
+      "epoch": 1.2668696093353629,
+      "grad_norm": 5.28125,
+      "learning_rate": 3.2452410461887184e-06,
+      "loss": 1.56375885,
+      "memory(GiB)": 111.15,
+      "step": 49940,
+      "train_speed(iter/s)": 0.447373
+    },
+    {
+      "acc": 0.66160002,
+      "epoch": 1.2669964485032978,
+      "grad_norm": 5.0625,
+      "learning_rate": 3.244259160359567e-06,
+      "loss": 1.58950901,
+      "memory(GiB)": 111.15,
+      "step": 49945,
+      "train_speed(iter/s)": 0.447397
+    },
+    {
+      "acc": 0.65437698,
+      "epoch": 1.2671232876712328,
+      "grad_norm": 5.28125,
+      "learning_rate": 3.2432773517557385e-06,
+      "loss": 1.62954597,
+      "memory(GiB)": 111.15,
+      "step": 49950,
+      "train_speed(iter/s)": 0.44742
+    },
+    {
+      "acc": 0.6426115,
+      "epoch": 1.2672501268391678,
+      "grad_norm": 4.4375,
+      "learning_rate": 3.2422956204204147e-06,
+      "loss": 1.58818636,
+      "memory(GiB)": 111.15,
+      "step": 49955,
+      "train_speed(iter/s)": 0.447444
+    },
+    {
+      "acc": 0.65747938,
+      "epoch": 1.267376966007103,
+      "grad_norm": 5.78125,
+      "learning_rate": 3.2413139663967763e-06,
+      "loss": 1.64875641,
+      "memory(GiB)": 111.15,
+      "step": 49960,
+      "train_speed(iter/s)": 0.447468
+    },
+    {
+      "acc": 0.66909957,
+      "epoch": 1.267503805175038,
+      "grad_norm": 5.40625,
+      "learning_rate": 3.2403323897280013e-06,
+      "loss": 1.51689234,
+      "memory(GiB)": 111.15,
+      "step": 49965,
+      "train_speed(iter/s)": 0.447492
+    },
+    {
+      "acc": 0.64251814,
+      "epoch": 1.2676306443429732,
+      "grad_norm": 5.75,
+      "learning_rate": 3.2393508904572663e-06,
+      "loss": 1.58810606,
+      "memory(GiB)": 111.15,
+      "step": 49970,
+      "train_speed(iter/s)": 0.447516
+    },
+    {
+      "acc": 0.64263349,
+      "epoch": 1.2677574835109082,
+      "grad_norm": 4.46875,
+      "learning_rate": 3.2383694686277382e-06,
+      "loss": 1.66216736,
+      "memory(GiB)": 111.15,
+      "step": 49975,
+      "train_speed(iter/s)": 0.44754
+    },
+    {
+      "acc": 0.64217749,
+      "epoch": 1.2678843226788432,
+      "grad_norm": 4.84375,
+      "learning_rate": 3.2373881242825857e-06,
+      "loss": 1.63963165,
+      "memory(GiB)": 111.15,
+      "step": 49980,
+      "train_speed(iter/s)": 0.447563
+    },
+    {
+      "acc": 0.65042772,
+      "epoch": 1.2680111618467782,
+      "grad_norm": 5.0,
+      "learning_rate": 3.236406857464973e-06,
+      "loss": 1.59802704,
+      "memory(GiB)": 111.15,
+      "step": 49985,
+      "train_speed(iter/s)": 0.447587
+    },
+    {
+      "acc": 0.64161005,
+      "epoch": 1.2681380010147134,
+      "grad_norm": 5.03125,
+      "learning_rate": 3.235425668218063e-06,
+      "loss": 1.64140434,
+      "memory(GiB)": 111.15,
+      "step": 49990,
+      "train_speed(iter/s)": 0.447611
+    },
+    {
+      "acc": 0.64202852,
+      "epoch": 1.2682648401826484,
+      "grad_norm": 4.8125,
+      "learning_rate": 3.234444556585007e-06,
+      "loss": 1.63023472,
+      "memory(GiB)": 111.15,
+      "step": 49995,
+      "train_speed(iter/s)": 0.447634
+    },
+    {
+      "acc": 0.64770455,
+      "epoch": 1.2683916793505834,
+      "grad_norm": 5.1875,
+      "learning_rate": 3.233463522608964e-06,
+      "loss": 1.63790684,
+      "memory(GiB)": 111.15,
+      "step": 50000,
+      "train_speed(iter/s)": 0.447658
+    },
+    {
+      "epoch": 1.2683916793505834,
+      "eval_acc": 0.6433950779491134,
+      "eval_loss": 1.6075520515441895,
+      "eval_runtime": 113.3333,
+      "eval_samples_per_second": 56.206,
+      "eval_steps_per_second": 28.103,
+      "step": 50000
+    },
+    {
+      "acc": 0.66678371,
+      "epoch": 1.2685185185185186,
+      "grad_norm": 5.5625,
+      "learning_rate": 3.2324825663330818e-06,
+      "loss": 1.61853924,
+      "memory(GiB)": 111.15,
+      "step": 50005,
+      "train_speed(iter/s)": 0.44721
+    },
+    {
+      "acc": 0.6590148,
+      "epoch": 1.2686453576864536,
+      "grad_norm": 6.0625,
+      "learning_rate": 3.231501687800509e-06,
+      "loss": 1.56504583,
+      "memory(GiB)": 111.15,
+      "step": 50010,
+      "train_speed(iter/s)": 0.447233
+    },
+    {
+      "acc": 0.65355253,
+      "epoch": 1.2687721968543886,
+      "grad_norm": 5.28125,
+      "learning_rate": 3.2305208870543857e-06,
+      "loss": 1.60804939,
+      "memory(GiB)": 111.15,
+      "step": 50015,
+      "train_speed(iter/s)": 0.447257
+    },
+    {
+      "acc": 0.65685959,
+      "epoch": 1.2688990360223236,
+      "grad_norm": 6.21875,
+      "learning_rate": 3.2295401641378544e-06,
+      "loss": 1.61958733,
+      "memory(GiB)": 111.15,
+      "step": 50020,
+      "train_speed(iter/s)": 0.44728
+    },
+    {
+      "acc": 0.65463109,
+      "epoch": 1.2690258751902588,
+      "grad_norm": 5.84375,
+      "learning_rate": 3.2285595190940513e-06,
+      "loss": 1.62055893,
+      "memory(GiB)": 111.15,
+      "step": 50025,
+      "train_speed(iter/s)": 0.447304
+    },
+    {
+      "acc": 0.64562864,
+      "epoch": 1.2691527143581938,
+      "grad_norm": 5.6875,
+      "learning_rate": 3.2275789519661103e-06,
+      "loss": 1.70457592,
+      "memory(GiB)": 111.15,
+      "step": 50030,
+      "train_speed(iter/s)": 0.447327
+    },
+    {
+      "acc": 0.65711589,
+      "epoch": 1.269279553526129,
+      "grad_norm": 5.25,
+      "learning_rate": 3.2265984627971595e-06,
+      "loss": 1.62931366,
+      "memory(GiB)": 111.15,
+      "step": 50035,
+      "train_speed(iter/s)": 0.447351
+    },
+    {
+      "acc": 0.63208475,
+      "epoch": 1.269406392694064,
+      "grad_norm": 5.25,
+      "learning_rate": 3.225618051630326e-06,
+      "loss": 1.6696455,
+      "memory(GiB)": 111.15,
+      "step": 50040,
+      "train_speed(iter/s)": 0.447374
+    },
+    {
+      "acc": 0.65890055,
+      "epoch": 1.269533231861999,
+      "grad_norm": 5.0625,
+      "learning_rate": 3.2246377185087325e-06,
+      "loss": 1.65114021,
+      "memory(GiB)": 111.15,
+      "step": 50045,
+      "train_speed(iter/s)": 0.447398
+    },
+    {
+      "acc": 0.64868407,
+      "epoch": 1.269660071029934,
+      "grad_norm": 6.0,
+      "learning_rate": 3.2236574634755003e-06,
+      "loss": 1.67368011,
+      "memory(GiB)": 111.15,
+      "step": 50050,
+      "train_speed(iter/s)": 0.447422
+    },
+    {
+      "acc": 0.63104134,
+      "epoch": 1.2697869101978692,
+      "grad_norm": 5.09375,
+      "learning_rate": 3.222677286573742e-06,
+      "loss": 1.75072517,
+      "memory(GiB)": 111.15,
+      "step": 50055,
+      "train_speed(iter/s)": 0.447445
+    },
+    {
+      "acc": 0.64478464,
+      "epoch": 1.2699137493658041,
+      "grad_norm": 5.28125,
+      "learning_rate": 3.221697187846571e-06,
+      "loss": 1.65889206,
+      "memory(GiB)": 111.15,
+      "step": 50060,
+      "train_speed(iter/s)": 0.447469
+    },
+    {
+      "acc": 0.65687389,
+      "epoch": 1.2700405885337394,
+      "grad_norm": 6.46875,
+      "learning_rate": 3.2207171673370984e-06,
+      "loss": 1.67837906,
+      "memory(GiB)": 111.15,
+      "step": 50065,
+      "train_speed(iter/s)": 0.447492
+    },
+    {
+      "acc": 0.64970446,
+      "epoch": 1.2701674277016743,
+      "grad_norm": 5.0,
+      "learning_rate": 3.2197372250884295e-06,
+      "loss": 1.65374565,
+      "memory(GiB)": 111.15,
+      "step": 50070,
+      "train_speed(iter/s)": 0.447516
+    },
+    {
+      "acc": 0.6524261,
+      "epoch": 1.2702942668696093,
+      "grad_norm": 5.625,
+      "learning_rate": 3.218757361143664e-06,
+      "loss": 1.65465393,
+      "memory(GiB)": 111.15,
+      "step": 50075,
+      "train_speed(iter/s)": 0.447539
+    },
+    {
+      "acc": 0.6502749,
+      "epoch": 1.2704211060375443,
+      "grad_norm": 5.46875,
+      "learning_rate": 3.2177775755459034e-06,
+      "loss": 1.6404068,
+      "memory(GiB)": 111.15,
+      "step": 50080,
+      "train_speed(iter/s)": 0.447563
+    },
+    {
+      "acc": 0.6484786,
+      "epoch": 1.2705479452054795,
+      "grad_norm": 4.875,
+      "learning_rate": 3.216797868338241e-06,
+      "loss": 1.64378738,
+      "memory(GiB)": 111.15,
+      "step": 50085,
+      "train_speed(iter/s)": 0.447586
+    },
+    {
+      "acc": 0.6538517,
+      "epoch": 1.2706747843734145,
+      "grad_norm": 5.09375,
+      "learning_rate": 3.215818239563773e-06,
+      "loss": 1.62832222,
+      "memory(GiB)": 111.15,
+      "step": 50090,
+      "train_speed(iter/s)": 0.44761
+    },
+    {
+      "acc": 0.6560288,
+      "epoch": 1.2708016235413495,
+      "grad_norm": 4.9375,
+      "learning_rate": 3.2148386892655814e-06,
+      "loss": 1.56558037,
+      "memory(GiB)": 111.15,
+      "step": 50095,
+      "train_speed(iter/s)": 0.447634
+    },
+    {
+      "acc": 0.64755011,
+      "epoch": 1.2709284627092847,
+      "grad_norm": 5.53125,
+      "learning_rate": 3.2138592174867556e-06,
+      "loss": 1.68871346,
+      "memory(GiB)": 111.15,
+      "step": 50100,
+      "train_speed(iter/s)": 0.447657
+    },
+    {
+      "epoch": 1.2709284627092847,
+      "eval_acc": 0.6433921535779472,
+      "eval_loss": 1.6076438426971436,
+      "eval_runtime": 114.9238,
+      "eval_samples_per_second": 55.428,
+      "eval_steps_per_second": 27.714,
+      "step": 50100
+    },
+    {
+      "acc": 0.65881186,
+      "epoch": 1.2710553018772197,
+      "grad_norm": 6.3125,
+      "learning_rate": 3.2128798242703745e-06,
+      "loss": 1.6033308,
+      "memory(GiB)": 111.15,
+      "step": 50105,
+      "train_speed(iter/s)": 0.447203
+    },
+    {
+      "acc": 0.65730991,
+      "epoch": 1.2711821410451547,
+      "grad_norm": 4.9375,
+      "learning_rate": 3.2119005096595203e-06,
+      "loss": 1.61953011,
+      "memory(GiB)": 111.15,
+      "step": 50110,
+      "train_speed(iter/s)": 0.447227
+    },
+    {
+      "acc": 0.66475868,
+      "epoch": 1.2713089802130897,
+      "grad_norm": 4.65625,
+      "learning_rate": 3.2109212736972636e-06,
+      "loss": 1.59062853,
+      "memory(GiB)": 111.15,
+      "step": 50115,
+      "train_speed(iter/s)": 0.44725
+    },
+    {
+      "acc": 0.65360527,
+      "epoch": 1.271435819381025,
+      "grad_norm": 5.5,
+      "learning_rate": 3.2099421164266758e-06,
+      "loss": 1.54943886,
+      "memory(GiB)": 111.15,
+      "step": 50120,
+      "train_speed(iter/s)": 0.447273
+    },
+    {
+      "acc": 0.65443211,
+      "epoch": 1.27156265854896,
+      "grad_norm": 6.6875,
+      "learning_rate": 3.2089630378908264e-06,
+      "loss": 1.62703686,
+      "memory(GiB)": 111.15,
+      "step": 50125,
+      "train_speed(iter/s)": 0.447297
+    },
+    {
+      "acc": 0.66433592,
+      "epoch": 1.271689497716895,
+      "grad_norm": 4.34375,
+      "learning_rate": 3.207984038132781e-06,
+      "loss": 1.56784687,
+      "memory(GiB)": 111.15,
+      "step": 50130,
+      "train_speed(iter/s)": 0.44732
+    },
+    {
+      "acc": 0.6558876,
+      "epoch": 1.27181633688483,
+      "grad_norm": 4.875,
+      "learning_rate": 3.2070051171955966e-06,
+      "loss": 1.62478352,
+      "memory(GiB)": 111.15,
+      "step": 50135,
+      "train_speed(iter/s)": 0.447344
+    },
+    {
+      "acc": 0.67122297,
+      "epoch": 1.271943176052765,
+      "grad_norm": 4.9375,
+      "learning_rate": 3.206026275122332e-06,
+      "loss": 1.49917755,
+      "memory(GiB)": 111.15,
+      "step": 50140,
+      "train_speed(iter/s)": 0.447367
+    },
+    {
+      "acc": 0.67349014,
+      "epoch": 1.2720700152207,
+      "grad_norm": 5.5,
+      "learning_rate": 3.205047511956042e-06,
+      "loss": 1.56338634,
+      "memory(GiB)": 111.15,
+      "step": 50145,
+      "train_speed(iter/s)": 0.447391
+    },
+    {
+      "acc": 0.65452662,
+      "epoch": 1.2721968543886353,
+      "grad_norm": 5.40625,
+      "learning_rate": 3.204068827739777e-06,
+      "loss": 1.68532066,
+      "memory(GiB)": 111.15,
+      "step": 50150,
+      "train_speed(iter/s)": 0.447414
+    },
+    {
+      "acc": 0.65037675,
+      "epoch": 1.2723236935565703,
+      "grad_norm": 5.34375,
+      "learning_rate": 3.2030902225165814e-06,
+      "loss": 1.65561619,
+      "memory(GiB)": 111.15,
+      "step": 50155,
+      "train_speed(iter/s)": 0.447438
+    },
+    {
+      "acc": 0.65763569,
+      "epoch": 1.2724505327245053,
+      "grad_norm": 4.375,
+      "learning_rate": 3.2021116963295016e-06,
+      "loss": 1.60267143,
+      "memory(GiB)": 111.15,
+      "step": 50160,
+      "train_speed(iter/s)": 0.447461
+    },
+    {
+      "acc": 0.64391456,
+      "epoch": 1.2725773718924405,
+      "grad_norm": 4.8125,
+      "learning_rate": 3.2011332492215753e-06,
+      "loss": 1.65124207,
+      "memory(GiB)": 111.15,
+      "step": 50165,
+      "train_speed(iter/s)": 0.447485
+    },
+    {
+      "acc": 0.6535676,
+      "epoch": 1.2727042110603755,
+      "grad_norm": 5.53125,
+      "learning_rate": 3.200154881235842e-06,
+      "loss": 1.61708755,
+      "memory(GiB)": 111.15,
+      "step": 50170,
+      "train_speed(iter/s)": 0.447508
+    },
+    {
+      "acc": 0.6567946,
+      "epoch": 1.2728310502283104,
+      "grad_norm": 5.53125,
+      "learning_rate": 3.1991765924153316e-06,
+      "loss": 1.62024879,
+      "memory(GiB)": 111.15,
+      "step": 50175,
+      "train_speed(iter/s)": 0.447532
+    },
+    {
+      "acc": 0.64222221,
+      "epoch": 1.2729578893962454,
+      "grad_norm": 5.0625,
+      "learning_rate": 3.198198382803075e-06,
+      "loss": 1.61872482,
+      "memory(GiB)": 111.15,
+      "step": 50180,
+      "train_speed(iter/s)": 0.447556
+    },
+    {
+      "acc": 0.63628402,
+      "epoch": 1.2730847285641806,
+      "grad_norm": 5.78125,
+      "learning_rate": 3.197220252442097e-06,
+      "loss": 1.63465767,
+      "memory(GiB)": 111.15,
+      "step": 50185,
+      "train_speed(iter/s)": 0.447579
+    },
+    {
+      "acc": 0.641926,
+      "epoch": 1.2732115677321156,
+      "grad_norm": 5.09375,
+      "learning_rate": 3.1962422013754237e-06,
+      "loss": 1.63595409,
+      "memory(GiB)": 111.15,
+      "step": 50190,
+      "train_speed(iter/s)": 0.447603
+    },
+    {
+      "acc": 0.66985378,
+      "epoch": 1.2733384069000508,
+      "grad_norm": 5.25,
+      "learning_rate": 3.1952642296460696e-06,
+      "loss": 1.53056126,
+      "memory(GiB)": 111.15,
+      "step": 50195,
+      "train_speed(iter/s)": 0.447627
+    },
+    {
+      "acc": 0.63048429,
+      "epoch": 1.2734652460679858,
+      "grad_norm": 5.40625,
+      "learning_rate": 3.194286337297051e-06,
+      "loss": 1.66971245,
+      "memory(GiB)": 111.15,
+      "step": 50200,
+      "train_speed(iter/s)": 0.44765
+    },
+    {
+      "epoch": 1.2734652460679858,
+      "eval_acc": 0.6434351836108213,
+      "eval_loss": 1.6076834201812744,
+      "eval_runtime": 113.9471,
+      "eval_samples_per_second": 55.903,
+      "eval_steps_per_second": 27.952,
+      "step": 50200
+    },
+    {
+      "acc": 0.64885273,
+      "epoch": 1.2735920852359208,
+      "grad_norm": 8.0625,
+      "learning_rate": 3.1933085243713837e-06,
+      "loss": 1.58140507,
+      "memory(GiB)": 111.15,
+      "step": 50205,
+      "train_speed(iter/s)": 0.447201
+    },
+    {
+      "acc": 0.65860119,
+      "epoch": 1.2737189244038558,
+      "grad_norm": 5.21875,
+      "learning_rate": 3.1923307909120736e-06,
+      "loss": 1.65360985,
+      "memory(GiB)": 111.15,
+      "step": 50210,
+      "train_speed(iter/s)": 0.447224
+    },
+    {
+      "acc": 0.65188298,
+      "epoch": 1.273845763571791,
+      "grad_norm": 4.90625,
+      "learning_rate": 3.1913531369621243e-06,
+      "loss": 1.62068176,
+      "memory(GiB)": 111.15,
+      "step": 50215,
+      "train_speed(iter/s)": 0.447248
+    },
+    {
+      "acc": 0.65496397,
+      "epoch": 1.273972602739726,
+      "grad_norm": 5.46875,
+      "learning_rate": 3.19037556256454e-06,
+      "loss": 1.61668816,
+      "memory(GiB)": 111.15,
+      "step": 50220,
+      "train_speed(iter/s)": 0.447271
+    },
+    {
+      "acc": 0.64114323,
+      "epoch": 1.2740994419076612,
+      "grad_norm": 5.90625,
+      "learning_rate": 3.189398067762318e-06,
+      "loss": 1.67316666,
+      "memory(GiB)": 111.15,
+      "step": 50225,
+      "train_speed(iter/s)": 0.447295
+    },
+    {
+      "acc": 0.65216227,
+      "epoch": 1.2742262810755962,
+      "grad_norm": 6.09375,
+      "learning_rate": 3.1884206525984535e-06,
+      "loss": 1.66436729,
+      "memory(GiB)": 111.15,
+      "step": 50230,
+      "train_speed(iter/s)": 0.447319
+    },
+    {
+      "acc": 0.64429302,
+      "epoch": 1.2743531202435312,
+      "grad_norm": 5.40625,
+      "learning_rate": 3.1874433171159348e-06,
+      "loss": 1.67595749,
+      "memory(GiB)": 111.15,
+      "step": 50235,
+      "train_speed(iter/s)": 0.447342
+    },
+    {
+      "acc": 0.652425,
+      "epoch": 1.2744799594114662,
+      "grad_norm": 4.875,
+      "learning_rate": 3.1864660613577523e-06,
+      "loss": 1.64321938,
+      "memory(GiB)": 111.15,
+      "step": 50240,
+      "train_speed(iter/s)": 0.447366
+    },
+    {
+      "acc": 0.65790148,
+      "epoch": 1.2746067985794014,
+      "grad_norm": 5.9375,
+      "learning_rate": 3.185488885366889e-06,
+      "loss": 1.54103336,
+      "memory(GiB)": 111.15,
+      "step": 50245,
+      "train_speed(iter/s)": 0.447389
+    },
+    {
+      "acc": 0.64930525,
+      "epoch": 1.2747336377473364,
+      "grad_norm": 4.65625,
+      "learning_rate": 3.1845117891863274e-06,
+      "loss": 1.56862106,
+      "memory(GiB)": 111.15,
+      "step": 50250,
+      "train_speed(iter/s)": 0.447412
+    },
+    {
+      "acc": 0.64608421,
+      "epoch": 1.2748604769152714,
+      "grad_norm": 4.96875,
+      "learning_rate": 3.1835347728590414e-06,
+      "loss": 1.62138138,
+      "memory(GiB)": 111.15,
+      "step": 50255,
+      "train_speed(iter/s)": 0.447436
+    },
+    {
+      "acc": 0.64177723,
+      "epoch": 1.2749873160832066,
+      "grad_norm": 5.375,
+      "learning_rate": 3.1825578364280064e-06,
+      "loss": 1.59158344,
+      "memory(GiB)": 111.15,
+      "step": 50260,
+      "train_speed(iter/s)": 0.447459
+    },
+    {
+      "acc": 0.65852103,
+      "epoch": 1.2751141552511416,
+      "grad_norm": 5.0625,
+      "learning_rate": 3.181580979936192e-06,
+      "loss": 1.60603333,
+      "memory(GiB)": 111.15,
+      "step": 50265,
+      "train_speed(iter/s)": 0.447483
+    },
+    {
+      "acc": 0.64020967,
+      "epoch": 1.2752409944190766,
+      "grad_norm": 5.09375,
+      "learning_rate": 3.1806042034265656e-06,
+      "loss": 1.6715271,
+      "memory(GiB)": 111.15,
+      "step": 50270,
+      "train_speed(iter/s)": 0.447506
+    },
+    {
+      "acc": 0.6485239,
+      "epoch": 1.2753678335870116,
+      "grad_norm": 5.8125,
+      "learning_rate": 3.179627506942089e-06,
+      "loss": 1.63843193,
+      "memory(GiB)": 111.15,
+      "step": 50275,
+      "train_speed(iter/s)": 0.44753
+    },
+    {
+      "acc": 0.66278744,
+      "epoch": 1.2754946727549468,
+      "grad_norm": 5.125,
+      "learning_rate": 3.17865089052572e-06,
+      "loss": 1.6263195,
+      "memory(GiB)": 111.15,
+      "step": 50280,
+      "train_speed(iter/s)": 0.447553
+    },
+    {
+      "acc": 0.65776415,
+      "epoch": 1.2756215119228818,
+      "grad_norm": 4.875,
+      "learning_rate": 3.177674354220418e-06,
+      "loss": 1.59134083,
+      "memory(GiB)": 111.15,
+      "step": 50285,
+      "train_speed(iter/s)": 0.447576
+    },
+    {
+      "acc": 0.65003228,
+      "epoch": 1.275748351090817,
+      "grad_norm": 5.4375,
+      "learning_rate": 3.1766978980691355e-06,
+      "loss": 1.60378475,
+      "memory(GiB)": 111.15,
+      "step": 50290,
+      "train_speed(iter/s)": 0.4476
+    },
+    {
+      "acc": 0.66763821,
+      "epoch": 1.275875190258752,
+      "grad_norm": 4.75,
+      "learning_rate": 3.1757215221148173e-06,
+      "loss": 1.60213184,
+      "memory(GiB)": 111.15,
+      "step": 50295,
+      "train_speed(iter/s)": 0.447623
+    },
+    {
+      "acc": 0.64865694,
+      "epoch": 1.276002029426687,
+      "grad_norm": 5.0625,
+      "learning_rate": 3.174745226400413e-06,
+      "loss": 1.62512321,
+      "memory(GiB)": 111.15,
+      "step": 50300,
+      "train_speed(iter/s)": 0.447647
+    },
+    {
+      "epoch": 1.276002029426687,
+      "eval_acc": 0.6433687586086176,
+      "eval_loss": 1.6076085567474365,
+      "eval_runtime": 114.6834,
+      "eval_samples_per_second": 55.544,
+      "eval_steps_per_second": 27.772,
+      "step": 50300
+    },
+    {
+      "acc": 0.66438375,
+      "epoch": 1.276128868594622,
+      "grad_norm": 5.40625,
+      "learning_rate": 3.1737690109688613e-06,
+      "loss": 1.57721672,
+      "memory(GiB)": 111.15,
+      "step": 50305,
+      "train_speed(iter/s)": 0.447195
+    },
+    {
+      "acc": 0.64973593,
+      "epoch": 1.2762557077625571,
+      "grad_norm": 5.28125,
+      "learning_rate": 3.1727928758631054e-06,
+      "loss": 1.58800011,
+      "memory(GiB)": 111.15,
+      "step": 50310,
+      "train_speed(iter/s)": 0.447219
+    },
+    {
+      "acc": 0.64813776,
+      "epoch": 1.2763825469304921,
+      "grad_norm": 5.375,
+      "learning_rate": 3.1718168211260734e-06,
+      "loss": 1.69037819,
+      "memory(GiB)": 111.15,
+      "step": 50315,
+      "train_speed(iter/s)": 0.447242
+    },
+    {
+      "acc": 0.64027934,
+      "epoch": 1.2765093860984271,
+      "grad_norm": 6.65625,
+      "learning_rate": 3.1708408468007014e-06,
+      "loss": 1.67929554,
+      "memory(GiB)": 111.15,
+      "step": 50320,
+      "train_speed(iter/s)": 0.447265
+    },
+    {
+      "acc": 0.6445962,
+      "epoch": 1.2766362252663623,
+      "grad_norm": 4.8125,
+      "learning_rate": 3.169864952929914e-06,
+      "loss": 1.6591568,
+      "memory(GiB)": 111.15,
+      "step": 50325,
+      "train_speed(iter/s)": 0.447289
+    },
+    {
+      "acc": 0.64590302,
+      "epoch": 1.2767630644342973,
+      "grad_norm": 4.65625,
+      "learning_rate": 3.168889139556639e-06,
+      "loss": 1.6343956,
+      "memory(GiB)": 111.15,
+      "step": 50330,
+      "train_speed(iter/s)": 0.447312
+    },
+    {
+      "acc": 0.64891787,
+      "epoch": 1.2768899036022323,
+      "grad_norm": 4.46875,
+      "learning_rate": 3.1679134067237942e-06,
+      "loss": 1.62290688,
+      "memory(GiB)": 111.15,
+      "step": 50335,
+      "train_speed(iter/s)": 0.447336
+    },
+    {
+      "acc": 0.65314322,
+      "epoch": 1.2770167427701673,
+      "grad_norm": 5.65625,
+      "learning_rate": 3.166937754474296e-06,
+      "loss": 1.60902157,
+      "memory(GiB)": 111.15,
+      "step": 50340,
+      "train_speed(iter/s)": 0.447359
+    },
+    {
+      "acc": 0.66177564,
+      "epoch": 1.2771435819381025,
+      "grad_norm": 5.25,
+      "learning_rate": 3.165962182851061e-06,
+      "loss": 1.59812059,
+      "memory(GiB)": 111.15,
+      "step": 50345,
+      "train_speed(iter/s)": 0.447383
+    },
+    {
+      "acc": 0.6567729,
+      "epoch": 1.2772704211060375,
+      "grad_norm": 5.75,
+      "learning_rate": 3.1649866918969984e-06,
+      "loss": 1.60915451,
+      "memory(GiB)": 111.15,
+      "step": 50350,
+      "train_speed(iter/s)": 0.447406
+    },
+    {
+      "acc": 0.64549398,
+      "epoch": 1.2773972602739727,
+      "grad_norm": 5.125,
+      "learning_rate": 3.164011281655013e-06,
+      "loss": 1.64837074,
+      "memory(GiB)": 111.15,
+      "step": 50355,
+      "train_speed(iter/s)": 0.447429
+    },
+    {
+      "acc": 0.63942294,
+      "epoch": 1.2775240994419077,
+      "grad_norm": 5.65625,
+      "learning_rate": 3.163035952168007e-06,
+      "loss": 1.66848755,
+      "memory(GiB)": 111.15,
+      "step": 50360,
+      "train_speed(iter/s)": 0.447453
+    },
+    {
+      "acc": 0.66552134,
+      "epoch": 1.2776509386098427,
+      "grad_norm": 7.5625,
+      "learning_rate": 3.1620607034788832e-06,
+      "loss": 1.70404453,
+      "memory(GiB)": 111.15,
+      "step": 50365,
+      "train_speed(iter/s)": 0.447476
+    },
+    {
+      "acc": 0.64841681,
+      "epoch": 1.2777777777777777,
+      "grad_norm": 4.78125,
+      "learning_rate": 3.1610855356305354e-06,
+      "loss": 1.68361511,
+      "memory(GiB)": 111.15,
+      "step": 50370,
+      "train_speed(iter/s)": 0.4475
+    },
+    {
+      "acc": 0.64920897,
+      "epoch": 1.277904616945713,
+      "grad_norm": 5.625,
+      "learning_rate": 3.160110448665854e-06,
+      "loss": 1.64806404,
+      "memory(GiB)": 111.15,
+      "step": 50375,
+      "train_speed(iter/s)": 0.447523
+    },
+    {
+      "acc": 0.65678291,
+      "epoch": 1.2780314561136479,
+      "grad_norm": 4.53125,
+      "learning_rate": 3.159135442627731e-06,
+      "loss": 1.56589661,
+      "memory(GiB)": 111.15,
+      "step": 50380,
+      "train_speed(iter/s)": 0.447546
+    },
+    {
+      "acc": 0.66540689,
+      "epoch": 1.278158295281583,
+      "grad_norm": 5.03125,
+      "learning_rate": 3.158160517559049e-06,
+      "loss": 1.59690685,
+      "memory(GiB)": 111.15,
+      "step": 50385,
+      "train_speed(iter/s)": 0.447569
+    },
+    {
+      "acc": 0.65143428,
+      "epoch": 1.278285134449518,
+      "grad_norm": 5.15625,
+      "learning_rate": 3.157185673502693e-06,
+      "loss": 1.6384306,
+      "memory(GiB)": 111.15,
+      "step": 50390,
+      "train_speed(iter/s)": 0.447592
+    },
+    {
+      "acc": 0.64414091,
+      "epoch": 1.278411973617453,
+      "grad_norm": 6.40625,
+      "learning_rate": 3.156210910501537e-06,
+      "loss": 1.6053072,
+      "memory(GiB)": 111.15,
+      "step": 50395,
+      "train_speed(iter/s)": 0.447615
+    },
+    {
+      "acc": 0.64345655,
+      "epoch": 1.278538812785388,
+      "grad_norm": 4.625,
+      "learning_rate": 3.155236228598457e-06,
+      "loss": 1.61986542,
+      "memory(GiB)": 111.15,
+      "step": 50400,
+      "train_speed(iter/s)": 0.447638
+    },
+    {
+      "epoch": 1.278538812785388,
+      "eval_acc": 0.6433591499605001,
+      "eval_loss": 1.6075512170791626,
+      "eval_runtime": 114.4829,
+      "eval_samples_per_second": 55.641,
+      "eval_steps_per_second": 27.821,
+      "step": 50400
+    },
+    {
+      "acc": 0.6458962,
+      "epoch": 1.2786656519533233,
+      "grad_norm": 5.84375,
+      "learning_rate": 3.1542616278363238e-06,
+      "loss": 1.63003159,
+      "memory(GiB)": 111.15,
+      "step": 50405,
+      "train_speed(iter/s)": 0.447188
+    },
+    {
+      "acc": 0.6450963,
+      "epoch": 1.2787924911212583,
+      "grad_norm": 5.6875,
+      "learning_rate": 3.1532871082580064e-06,
+      "loss": 1.65014191,
+      "memory(GiB)": 111.15,
+      "step": 50410,
+      "train_speed(iter/s)": 0.447212
+    },
+    {
+      "acc": 0.65298405,
+      "epoch": 1.2789193302891932,
+      "grad_norm": 5.40625,
+      "learning_rate": 3.152312669906366e-06,
+      "loss": 1.62638969,
+      "memory(GiB)": 111.15,
+      "step": 50415,
+      "train_speed(iter/s)": 0.447235
+    },
+    {
+      "acc": 0.66571107,
+      "epoch": 1.2790461694571285,
+      "grad_norm": 5.15625,
+      "learning_rate": 3.1513383128242624e-06,
+      "loss": 1.55525541,
+      "memory(GiB)": 111.15,
+      "step": 50420,
+      "train_speed(iter/s)": 0.447258
+    },
+    {
+      "acc": 0.66219096,
+      "epoch": 1.2791730086250634,
+      "grad_norm": 6.28125,
+      "learning_rate": 3.150364037054555e-06,
+      "loss": 1.65317535,
+      "memory(GiB)": 111.15,
+      "step": 50425,
+      "train_speed(iter/s)": 0.447282
+    },
+    {
+      "acc": 0.64776382,
+      "epoch": 1.2792998477929984,
+      "grad_norm": 5.59375,
+      "learning_rate": 3.149389842640096e-06,
+      "loss": 1.58974571,
+      "memory(GiB)": 111.15,
+      "step": 50430,
+      "train_speed(iter/s)": 0.447305
+    },
+    {
+      "acc": 0.66061811,
+      "epoch": 1.2794266869609334,
+      "grad_norm": 6.125,
+      "learning_rate": 3.148415729623732e-06,
+      "loss": 1.61202927,
+      "memory(GiB)": 111.15,
+      "step": 50435,
+      "train_speed(iter/s)": 0.447328
+    },
+    {
+      "acc": 0.66365891,
+      "epoch": 1.2795535261288686,
+      "grad_norm": 4.5,
+      "learning_rate": 3.1474416980483126e-06,
+      "loss": 1.66959534,
+      "memory(GiB)": 111.15,
+      "step": 50440,
+      "train_speed(iter/s)": 0.447352
+    },
+    {
+      "acc": 0.66404982,
+      "epoch": 1.2796803652968036,
+      "grad_norm": 6.4375,
+      "learning_rate": 3.1464677479566774e-06,
+      "loss": 1.61831131,
+      "memory(GiB)": 111.15,
+      "step": 50445,
+      "train_speed(iter/s)": 0.447375
+    },
+    {
+      "acc": 0.65554304,
+      "epoch": 1.2798072044647388,
+      "grad_norm": 5.46875,
+      "learning_rate": 3.1454938793916677e-06,
+      "loss": 1.66830254,
+      "memory(GiB)": 111.15,
+      "step": 50450,
+      "train_speed(iter/s)": 0.447399
+    },
+    {
+      "acc": 0.64016218,
+      "epoch": 1.2799340436326738,
+      "grad_norm": 5.4375,
+      "learning_rate": 3.144520092396115e-06,
+      "loss": 1.64622402,
+      "memory(GiB)": 111.15,
+      "step": 50455,
+      "train_speed(iter/s)": 0.447422
+    },
+    {
+      "acc": 0.64364614,
+      "epoch": 1.2800608828006088,
+      "grad_norm": 4.71875,
+      "learning_rate": 3.1435463870128536e-06,
+      "loss": 1.65517769,
+      "memory(GiB)": 111.15,
+      "step": 50460,
+      "train_speed(iter/s)": 0.447445
+    },
+    {
+      "acc": 0.66514854,
+      "epoch": 1.2801877219685438,
+      "grad_norm": 5.4375,
+      "learning_rate": 3.142572763284709e-06,
+      "loss": 1.56312637,
+      "memory(GiB)": 111.15,
+      "step": 50465,
+      "train_speed(iter/s)": 0.447469
+    },
+    {
+      "acc": 0.63974895,
+      "epoch": 1.280314561136479,
+      "grad_norm": 5.375,
+      "learning_rate": 3.14159922125451e-06,
+      "loss": 1.66173534,
+      "memory(GiB)": 111.15,
+      "step": 50470,
+      "train_speed(iter/s)": 0.447492
+    },
+    {
+      "acc": 0.65010772,
+      "epoch": 1.280441400304414,
+      "grad_norm": 4.28125,
+      "learning_rate": 3.1406257609650724e-06,
+      "loss": 1.61982365,
+      "memory(GiB)": 111.15,
+      "step": 50475,
+      "train_speed(iter/s)": 0.447516
+    },
+    {
+      "acc": 0.65566902,
+      "epoch": 1.280568239472349,
+      "grad_norm": 6.78125,
+      "learning_rate": 3.139652382459215e-06,
+      "loss": 1.65226421,
+      "memory(GiB)": 111.15,
+      "step": 50480,
+      "train_speed(iter/s)": 0.447539
+    },
+    {
+      "acc": 0.64348707,
+      "epoch": 1.2806950786402842,
+      "grad_norm": 5.53125,
+      "learning_rate": 3.1386790857797535e-06,
+      "loss": 1.67672119,
+      "memory(GiB)": 111.15,
+      "step": 50485,
+      "train_speed(iter/s)": 0.447563
+    },
+    {
+      "acc": 0.66968789,
+      "epoch": 1.2808219178082192,
+      "grad_norm": 6.6875,
+      "learning_rate": 3.1377058709694957e-06,
+      "loss": 1.59041128,
+      "memory(GiB)": 111.15,
+      "step": 50490,
+      "train_speed(iter/s)": 0.447586
+    },
+    {
+      "acc": 0.64699817,
+      "epoch": 1.2809487569761542,
+      "grad_norm": 4.71875,
+      "learning_rate": 3.1367327380712477e-06,
+      "loss": 1.59387321,
+      "memory(GiB)": 111.15,
+      "step": 50495,
+      "train_speed(iter/s)": 0.447609
+    },
+    {
+      "acc": 0.64478717,
+      "epoch": 1.2810755961440892,
+      "grad_norm": 4.71875,
+      "learning_rate": 3.135759687127812e-06,
+      "loss": 1.61802063,
+      "memory(GiB)": 111.15,
+      "step": 50500,
+      "train_speed(iter/s)": 0.447633
+    },
+    {
+      "epoch": 1.2810755961440892,
+      "eval_acc": 0.6433750251182595,
+      "eval_loss": 1.6075987815856934,
+      "eval_runtime": 113.8571,
+      "eval_samples_per_second": 55.947,
+      "eval_steps_per_second": 27.974,
+      "step": 50500
+    },
+    {
+      "acc": 0.65162392,
+      "epoch": 1.2812024353120244,
+      "grad_norm": 4.28125,
+      "learning_rate": 3.134786718181989e-06,
+      "loss": 1.617519,
+      "memory(GiB)": 111.15,
+      "step": 50505,
+      "train_speed(iter/s)": 0.447186
+    },
+    {
+      "acc": 0.65153871,
+      "epoch": 1.2813292744799594,
+      "grad_norm": 5.65625,
+      "learning_rate": 3.133813831276575e-06,
+      "loss": 1.62299995,
+      "memory(GiB)": 111.15,
+      "step": 50510,
+      "train_speed(iter/s)": 0.44721
+    },
+    {
+      "acc": 0.65000887,
+      "epoch": 1.2814561136478946,
+      "grad_norm": 6.21875,
+      "learning_rate": 3.1328410264543585e-06,
+      "loss": 1.64032192,
+      "memory(GiB)": 111.15,
+      "step": 50515,
+      "train_speed(iter/s)": 0.447233
+    },
+    {
+      "acc": 0.65616465,
+      "epoch": 1.2815829528158296,
+      "grad_norm": 5.5625,
+      "learning_rate": 3.131868303758131e-06,
+      "loss": 1.58066502,
+      "memory(GiB)": 111.15,
+      "step": 50520,
+      "train_speed(iter/s)": 0.447257
+    },
+    {
+      "acc": 0.65110846,
+      "epoch": 1.2817097919837646,
+      "grad_norm": 6.03125,
+      "learning_rate": 3.1308956632306754e-06,
+      "loss": 1.58990259,
+      "memory(GiB)": 111.15,
+      "step": 50525,
+      "train_speed(iter/s)": 0.44728
+    },
+    {
+      "acc": 0.65341525,
+      "epoch": 1.2818366311516995,
+      "grad_norm": 5.21875,
+      "learning_rate": 3.129923104914776e-06,
+      "loss": 1.63359623,
+      "memory(GiB)": 111.15,
+      "step": 50530,
+      "train_speed(iter/s)": 0.447304
+    },
+    {
+      "acc": 0.65989337,
+      "epoch": 1.2819634703196348,
+      "grad_norm": 5.875,
+      "learning_rate": 3.1289506288532045e-06,
+      "loss": 1.4942646,
+      "memory(GiB)": 111.15,
+      "step": 50535,
+      "train_speed(iter/s)": 0.447328
+    },
+    {
+      "acc": 0.63742547,
+      "epoch": 1.2820903094875697,
+      "grad_norm": 6.03125,
+      "learning_rate": 3.12797823508874e-06,
+      "loss": 1.64737492,
+      "memory(GiB)": 111.15,
+      "step": 50540,
+      "train_speed(iter/s)": 0.447351
+    },
+    {
+      "acc": 0.65663347,
+      "epoch": 1.282217148655505,
+      "grad_norm": 5.0625,
+      "learning_rate": 3.127005923664149e-06,
+      "loss": 1.59725389,
+      "memory(GiB)": 111.15,
+      "step": 50545,
+      "train_speed(iter/s)": 0.447374
+    },
+    {
+      "acc": 0.6539197,
+      "epoch": 1.28234398782344,
+      "grad_norm": 4.9375,
+      "learning_rate": 3.1260336946222014e-06,
+      "loss": 1.57346001,
+      "memory(GiB)": 111.15,
+      "step": 50550,
+      "train_speed(iter/s)": 0.447398
+    },
+    {
+      "acc": 0.65294638,
+      "epoch": 1.282470826991375,
+      "grad_norm": 5.75,
+      "learning_rate": 3.1250615480056584e-06,
+      "loss": 1.53654938,
+      "memory(GiB)": 111.15,
+      "step": 50555,
+      "train_speed(iter/s)": 0.447422
+    },
+    {
+      "acc": 0.66913114,
+      "epoch": 1.28259766615931,
+      "grad_norm": 4.84375,
+      "learning_rate": 3.124089483857278e-06,
+      "loss": 1.52652807,
+      "memory(GiB)": 111.15,
+      "step": 50560,
+      "train_speed(iter/s)": 0.447445
+    },
+    {
+      "acc": 0.64907255,
+      "epoch": 1.2827245053272451,
+      "grad_norm": 7.4375,
+      "learning_rate": 3.123117502219819e-06,
+      "loss": 1.65857506,
+      "memory(GiB)": 111.15,
+      "step": 50565,
+      "train_speed(iter/s)": 0.447469
+    },
+    {
+      "acc": 0.65550747,
+      "epoch": 1.2828513444951801,
+      "grad_norm": 5.75,
+      "learning_rate": 3.122145603136032e-06,
+      "loss": 1.59926786,
+      "memory(GiB)": 111.15,
+      "step": 50570,
+      "train_speed(iter/s)": 0.447492
+    },
+    {
+      "acc": 0.65806832,
+      "epoch": 1.2829781836631151,
+      "grad_norm": 6.1875,
+      "learning_rate": 3.1211737866486653e-06,
+      "loss": 1.66119041,
+      "memory(GiB)": 111.15,
+      "step": 50575,
+      "train_speed(iter/s)": 0.447516
+    },
+    {
+      "acc": 0.65358038,
+      "epoch": 1.2831050228310503,
+      "grad_norm": 4.6875,
+      "learning_rate": 3.1202020528004627e-06,
+      "loss": 1.58854828,
+      "memory(GiB)": 111.15,
+      "step": 50580,
+      "train_speed(iter/s)": 0.447539
+    },
+    {
+      "acc": 0.64953403,
+      "epoch": 1.2832318619989853,
+      "grad_norm": 5.03125,
+      "learning_rate": 3.119230401634167e-06,
+      "loss": 1.60453911,
+      "memory(GiB)": 111.15,
+      "step": 50585,
+      "train_speed(iter/s)": 0.447562
+    },
+    {
+      "acc": 0.65336227,
+      "epoch": 1.2833587011669203,
+      "grad_norm": 5.1875,
+      "learning_rate": 3.118258833192517e-06,
+      "loss": 1.56720285,
+      "memory(GiB)": 111.15,
+      "step": 50590,
+      "train_speed(iter/s)": 0.447586
+    },
+    {
+      "acc": 0.6413856,
+      "epoch": 1.2834855403348553,
+      "grad_norm": 5.0625,
+      "learning_rate": 3.117287347518242e-06,
+      "loss": 1.61443825,
+      "memory(GiB)": 111.15,
+      "step": 50595,
+      "train_speed(iter/s)": 0.44761
+    },
+    {
+      "acc": 0.65168505,
+      "epoch": 1.2836123795027905,
+      "grad_norm": 6.1875,
+      "learning_rate": 3.116315944654077e-06,
+      "loss": 1.72866554,
+      "memory(GiB)": 111.15,
+      "step": 50600,
+      "train_speed(iter/s)": 0.447633
+    },
+    {
+      "epoch": 1.2836123795027905,
+      "eval_acc": 0.6433704296778554,
+      "eval_loss": 1.6075800657272339,
+      "eval_runtime": 113.4854,
+      "eval_samples_per_second": 56.131,
+      "eval_steps_per_second": 28.065,
+      "step": 50600
+    },
+    {
+      "acc": 0.64321423,
+      "epoch": 1.2837392186707255,
+      "grad_norm": 5.65625,
+      "learning_rate": 3.115344624642745e-06,
+      "loss": 1.65816727,
+      "memory(GiB)": 111.15,
+      "step": 50605,
+      "train_speed(iter/s)": 0.447189
+    },
+    {
+      "acc": 0.66692905,
+      "epoch": 1.2838660578386607,
+      "grad_norm": 6.125,
+      "learning_rate": 3.1143733875269734e-06,
+      "loss": 1.64355583,
+      "memory(GiB)": 111.15,
+      "step": 50610,
+      "train_speed(iter/s)": 0.447213
+    },
+    {
+      "acc": 0.67056551,
+      "epoch": 1.2839928970065957,
+      "grad_norm": 5.59375,
+      "learning_rate": 3.1134022333494774e-06,
+      "loss": 1.5481576,
+      "memory(GiB)": 111.15,
+      "step": 50615,
+      "train_speed(iter/s)": 0.447236
+    },
+    {
+      "acc": 0.66538715,
+      "epoch": 1.2841197361745307,
+      "grad_norm": 5.25,
+      "learning_rate": 3.1124311621529744e-06,
+      "loss": 1.56469498,
+      "memory(GiB)": 111.15,
+      "step": 50620,
+      "train_speed(iter/s)": 0.44726
+    },
+    {
+      "acc": 0.65030689,
+      "epoch": 1.2842465753424657,
+      "grad_norm": 6.125,
+      "learning_rate": 3.111460173980175e-06,
+      "loss": 1.67110977,
+      "memory(GiB)": 111.15,
+      "step": 50625,
+      "train_speed(iter/s)": 0.447283
+    },
+    {
+      "acc": 0.64902205,
+      "epoch": 1.2843734145104009,
+      "grad_norm": 5.09375,
+      "learning_rate": 3.110489268873792e-06,
+      "loss": 1.58635387,
+      "memory(GiB)": 111.15,
+      "step": 50630,
+      "train_speed(iter/s)": 0.447307
+    },
+    {
+      "acc": 0.65909595,
+      "epoch": 1.2845002536783359,
+      "grad_norm": 5.875,
+      "learning_rate": 3.1095184468765248e-06,
+      "loss": 1.65138359,
+      "memory(GiB)": 111.15,
+      "step": 50635,
+      "train_speed(iter/s)": 0.44733
+    },
+    {
+      "acc": 0.64538879,
+      "epoch": 1.2846270928462709,
+      "grad_norm": 4.5,
+      "learning_rate": 3.1085477080310766e-06,
+      "loss": 1.6245882,
+      "memory(GiB)": 111.15,
+      "step": 50640,
+      "train_speed(iter/s)": 0.447353
+    },
+    {
+      "acc": 0.66140027,
+      "epoch": 1.284753932014206,
+      "grad_norm": 5.4375,
+      "learning_rate": 3.1075770523801453e-06,
+      "loss": 1.54511099,
+      "memory(GiB)": 111.15,
+      "step": 50645,
+      "train_speed(iter/s)": 0.447377
+    },
+    {
+      "acc": 0.65383897,
+      "epoch": 1.284880771182141,
+      "grad_norm": 4.96875,
+      "learning_rate": 3.106606479966426e-06,
+      "loss": 1.59237652,
+      "memory(GiB)": 111.15,
+      "step": 50650,
+      "train_speed(iter/s)": 0.4474
+    },
+    {
+      "acc": 0.67240281,
+      "epoch": 1.285007610350076,
+      "grad_norm": 5.65625,
+      "learning_rate": 3.1056359908326044e-06,
+      "loss": 1.60171757,
+      "memory(GiB)": 111.15,
+      "step": 50655,
+      "train_speed(iter/s)": 0.447424
+    },
+    {
+      "acc": 0.64167595,
+      "epoch": 1.285134449518011,
+      "grad_norm": 5.4375,
+      "learning_rate": 3.1046655850213707e-06,
+      "loss": 1.61559563,
+      "memory(GiB)": 111.15,
+      "step": 50660,
+      "train_speed(iter/s)": 0.447447
+    },
+    {
+      "acc": 0.64164371,
+      "epoch": 1.2852612886859462,
+      "grad_norm": 5.625,
+      "learning_rate": 3.103695262575407e-06,
+      "loss": 1.64900932,
+      "memory(GiB)": 111.15,
+      "step": 50665,
+      "train_speed(iter/s)": 0.447471
+    },
+    {
+      "acc": 0.6503665,
+      "epoch": 1.2853881278538812,
+      "grad_norm": 5.1875,
+      "learning_rate": 3.102725023537393e-06,
+      "loss": 1.63714943,
+      "memory(GiB)": 111.15,
+      "step": 50670,
+      "train_speed(iter/s)": 0.447494
+    },
+    {
+      "acc": 0.65457869,
+      "epoch": 1.2855149670218164,
+      "grad_norm": 5.0,
+      "learning_rate": 3.1017548679500008e-06,
+      "loss": 1.52845592,
+      "memory(GiB)": 111.15,
+      "step": 50675,
+      "train_speed(iter/s)": 0.447518
+    },
+    {
+      "acc": 0.64397726,
+      "epoch": 1.2856418061897514,
+      "grad_norm": 6.59375,
+      "learning_rate": 3.1007847958559057e-06,
+      "loss": 1.62584267,
+      "memory(GiB)": 111.15,
+      "step": 50680,
+      "train_speed(iter/s)": 0.447541
+    },
+    {
+      "acc": 0.64530878,
+      "epoch": 1.2857686453576864,
+      "grad_norm": 5.3125,
+      "learning_rate": 3.099814807297774e-06,
+      "loss": 1.66882706,
+      "memory(GiB)": 111.15,
+      "step": 50685,
+      "train_speed(iter/s)": 0.447564
+    },
+    {
+      "acc": 0.66609206,
+      "epoch": 1.2858954845256214,
+      "grad_norm": 5.25,
+      "learning_rate": 3.098844902318272e-06,
+      "loss": 1.55015755,
+      "memory(GiB)": 111.15,
+      "step": 50690,
+      "train_speed(iter/s)": 0.447588
+    },
+    {
+      "acc": 0.66356387,
+      "epoch": 1.2860223236935566,
+      "grad_norm": 5.1875,
+      "learning_rate": 3.0978750809600596e-06,
+      "loss": 1.61108189,
+      "memory(GiB)": 111.15,
+      "step": 50695,
+      "train_speed(iter/s)": 0.447611
+    },
+    {
+      "acc": 0.66041918,
+      "epoch": 1.2861491628614916,
+      "grad_norm": 5.71875,
+      "learning_rate": 3.0969053432657913e-06,
+      "loss": 1.57763882,
+      "memory(GiB)": 111.15,
+      "step": 50700,
+      "train_speed(iter/s)": 0.447634
+    },
+    {
+      "epoch": 1.2861491628614916,
+      "eval_acc": 0.6433658342374514,
+      "eval_loss": 1.6075608730316162,
+      "eval_runtime": 113.2198,
+      "eval_samples_per_second": 56.262,
+      "eval_steps_per_second": 28.131,
+      "step": 50700
+    },
+    {
+      "acc": 0.65405664,
+      "epoch": 1.2862760020294268,
+      "grad_norm": 5.34375,
+      "learning_rate": 3.0959356892781246e-06,
+      "loss": 1.58841686,
+      "memory(GiB)": 111.15,
+      "step": 50705,
+      "train_speed(iter/s)": 0.447193
+    },
+    {
+      "acc": 0.66551991,
+      "epoch": 1.2864028411973618,
+      "grad_norm": 6.15625,
+      "learning_rate": 3.0949661190397072e-06,
+      "loss": 1.60581379,
+      "memory(GiB)": 111.15,
+      "step": 50710,
+      "train_speed(iter/s)": 0.447216
+    },
+    {
+      "acc": 0.65257435,
+      "epoch": 1.2865296803652968,
+      "grad_norm": 5.59375,
+      "learning_rate": 3.0939966325931852e-06,
+      "loss": 1.68313103,
+      "memory(GiB)": 111.15,
+      "step": 50715,
+      "train_speed(iter/s)": 0.447239
+    },
+    {
+      "acc": 0.63156157,
+      "epoch": 1.2866565195332318,
+      "grad_norm": 4.90625,
+      "learning_rate": 3.0930272299812e-06,
+      "loss": 1.68850803,
+      "memory(GiB)": 111.15,
+      "step": 50720,
+      "train_speed(iter/s)": 0.447263
+    },
+    {
+      "acc": 0.64759459,
+      "epoch": 1.286783358701167,
+      "grad_norm": 5.03125,
+      "learning_rate": 3.0920579112463916e-06,
+      "loss": 1.59468002,
+      "memory(GiB)": 111.15,
+      "step": 50725,
+      "train_speed(iter/s)": 0.447286
+    },
+    {
+      "acc": 0.64817781,
+      "epoch": 1.286910197869102,
+      "grad_norm": 5.21875,
+      "learning_rate": 3.0910886764313964e-06,
+      "loss": 1.70804024,
+      "memory(GiB)": 111.15,
+      "step": 50730,
+      "train_speed(iter/s)": 0.44731
+    },
+    {
+      "acc": 0.66556273,
+      "epoch": 1.287037037037037,
+      "grad_norm": 4.96875,
+      "learning_rate": 3.0901195255788406e-06,
+      "loss": 1.57845955,
+      "memory(GiB)": 111.15,
+      "step": 50735,
+      "train_speed(iter/s)": 0.447333
+    },
+    {
+      "acc": 0.66189728,
+      "epoch": 1.2871638762049722,
+      "grad_norm": 5.3125,
+      "learning_rate": 3.089150458731357e-06,
+      "loss": 1.5540432,
+      "memory(GiB)": 111.15,
+      "step": 50740,
+      "train_speed(iter/s)": 0.447356
+    },
+    {
+      "acc": 0.67607899,
+      "epoch": 1.2872907153729072,
+      "grad_norm": 5.28125,
+      "learning_rate": 3.0881814759315666e-06,
+      "loss": 1.51502686,
+      "memory(GiB)": 111.15,
+      "step": 50745,
+      "train_speed(iter/s)": 0.44738
+    },
+    {
+      "acc": 0.64930615,
+      "epoch": 1.2874175545408422,
+      "grad_norm": 5.21875,
+      "learning_rate": 3.0872125772220934e-06,
+      "loss": 1.66312637,
+      "memory(GiB)": 111.15,
+      "step": 50750,
+      "train_speed(iter/s)": 0.447403
+    },
+    {
+      "acc": 0.65339389,
+      "epoch": 1.2875443937087772,
+      "grad_norm": 5.78125,
+      "learning_rate": 3.0862437626455483e-06,
+      "loss": 1.65199776,
+      "memory(GiB)": 111.15,
+      "step": 50755,
+      "train_speed(iter/s)": 0.447426
+    },
+    {
+      "acc": 0.66248226,
+      "epoch": 1.2876712328767124,
+      "grad_norm": 5.9375,
+      "learning_rate": 3.0852750322445473e-06,
+      "loss": 1.54205647,
+      "memory(GiB)": 111.15,
+      "step": 50760,
+      "train_speed(iter/s)": 0.44745
+    },
+    {
+      "acc": 0.65875573,
+      "epoch": 1.2877980720446474,
+      "grad_norm": 5.5,
+      "learning_rate": 3.0843063860616982e-06,
+      "loss": 1.58181,
+      "memory(GiB)": 111.15,
+      "step": 50765,
+      "train_speed(iter/s)": 0.447473
+    },
+    {
+      "acc": 0.65223918,
+      "epoch": 1.2879249112125826,
+      "grad_norm": 5.46875,
+      "learning_rate": 3.0833378241396094e-06,
+      "loss": 1.62725563,
+      "memory(GiB)": 111.15,
+      "step": 50770,
+      "train_speed(iter/s)": 0.447497
+    },
+    {
+      "acc": 0.63703032,
+      "epoch": 1.2880517503805176,
+      "grad_norm": 4.90625,
+      "learning_rate": 3.0823693465208794e-06,
+      "loss": 1.64224434,
+      "memory(GiB)": 111.15,
+      "step": 50775,
+      "train_speed(iter/s)": 0.44752
+    },
+    {
+      "acc": 0.64605174,
+      "epoch": 1.2881785895484525,
+      "grad_norm": 6.3125,
+      "learning_rate": 3.081400953248106e-06,
+      "loss": 1.59280167,
+      "memory(GiB)": 111.15,
+      "step": 50780,
+      "train_speed(iter/s)": 0.447544
+    },
+    {
+      "acc": 0.64998856,
+      "epoch": 1.2883054287163875,
+      "grad_norm": 7.40625,
+      "learning_rate": 3.0804326443638854e-06,
+      "loss": 1.62623043,
+      "memory(GiB)": 111.15,
+      "step": 50785,
+      "train_speed(iter/s)": 0.447567
+    },
+    {
+      "acc": 0.64588404,
+      "epoch": 1.2884322678843227,
+      "grad_norm": 5.625,
+      "learning_rate": 3.0794644199108087e-06,
+      "loss": 1.68599758,
+      "memory(GiB)": 111.15,
+      "step": 50790,
+      "train_speed(iter/s)": 0.44759
+    },
+    {
+      "acc": 0.65105944,
+      "epoch": 1.2885591070522577,
+      "grad_norm": 5.5625,
+      "learning_rate": 3.07849627993146e-06,
+      "loss": 1.62836037,
+      "memory(GiB)": 111.15,
+      "step": 50795,
+      "train_speed(iter/s)": 0.447614
+    },
+    {
+      "acc": 0.65090694,
+      "epoch": 1.2886859462201927,
+      "grad_norm": 4.875,
+      "learning_rate": 3.0775282244684233e-06,
+      "loss": 1.57931175,
+      "memory(GiB)": 111.15,
+      "step": 50800,
+      "train_speed(iter/s)": 0.447637
+    },
+    {
+      "epoch": 1.2886859462201927,
+      "eval_acc": 0.6434673516936495,
+      "eval_loss": 1.607621192932129,
+      "eval_runtime": 113.0982,
+      "eval_samples_per_second": 56.323,
+      "eval_steps_per_second": 28.161,
+      "step": 50800
+    },
+    {
+      "acc": 0.64493876,
+      "epoch": 1.288812785388128,
+      "grad_norm": 5.0,
+      "learning_rate": 3.076560253564279e-06,
+      "loss": 1.64364929,
+      "memory(GiB)": 111.15,
+      "step": 50805,
+      "train_speed(iter/s)": 0.447197
+    },
+    {
+      "acc": 0.64325299,
+      "epoch": 1.288939624556063,
+      "grad_norm": 7.09375,
+      "learning_rate": 3.0755923672616038e-06,
+      "loss": 1.65190392,
+      "memory(GiB)": 111.15,
+      "step": 50810,
+      "train_speed(iter/s)": 0.44722
+    },
+    {
+      "acc": 0.63952608,
+      "epoch": 1.289066463723998,
+      "grad_norm": 5.40625,
+      "learning_rate": 3.074624565602966e-06,
+      "loss": 1.7016037,
+      "memory(GiB)": 111.15,
+      "step": 50815,
+      "train_speed(iter/s)": 0.447243
+    },
+    {
+      "acc": 0.64864073,
+      "epoch": 1.289193302891933,
+      "grad_norm": 5.59375,
+      "learning_rate": 3.073656848630937e-06,
+      "loss": 1.62224617,
+      "memory(GiB)": 111.15,
+      "step": 50820,
+      "train_speed(iter/s)": 0.447266
+    },
+    {
+      "acc": 0.64522543,
+      "epoch": 1.2893201420598681,
+      "grad_norm": 4.59375,
+      "learning_rate": 3.0726892163880784e-06,
+      "loss": 1.60075684,
+      "memory(GiB)": 111.15,
+      "step": 50825,
+      "train_speed(iter/s)": 0.447289
+    },
+    {
+      "acc": 0.64214211,
+      "epoch": 1.289446981227803,
+      "grad_norm": 4.625,
+      "learning_rate": 3.071721668916956e-06,
+      "loss": 1.61937923,
+      "memory(GiB)": 111.15,
+      "step": 50830,
+      "train_speed(iter/s)": 0.447312
+    },
+    {
+      "acc": 0.66349182,
+      "epoch": 1.2895738203957383,
+      "grad_norm": 5.875,
+      "learning_rate": 3.0707542062601225e-06,
+      "loss": 1.54023037,
+      "memory(GiB)": 111.15,
+      "step": 50835,
+      "train_speed(iter/s)": 0.447336
+    },
+    {
+      "acc": 0.64415512,
+      "epoch": 1.2897006595636733,
+      "grad_norm": 5.03125,
+      "learning_rate": 3.0697868284601323e-06,
+      "loss": 1.63431454,
+      "memory(GiB)": 111.15,
+      "step": 50840,
+      "train_speed(iter/s)": 0.447359
+    },
+    {
+      "acc": 0.67142735,
+      "epoch": 1.2898274987316083,
+      "grad_norm": 6.0,
+      "learning_rate": 3.068819535559534e-06,
+      "loss": 1.55343952,
+      "memory(GiB)": 111.15,
+      "step": 50845,
+      "train_speed(iter/s)": 0.447382
+    },
+    {
+      "acc": 0.65067644,
+      "epoch": 1.2899543378995433,
+      "grad_norm": 5.5,
+      "learning_rate": 3.0678523276008774e-06,
+      "loss": 1.60008812,
+      "memory(GiB)": 111.15,
+      "step": 50850,
+      "train_speed(iter/s)": 0.447405
+    },
+    {
+      "acc": 0.65633278,
+      "epoch": 1.2900811770674785,
+      "grad_norm": 5.4375,
+      "learning_rate": 3.0668852046267e-06,
+      "loss": 1.57363434,
+      "memory(GiB)": 111.15,
+      "step": 50855,
+      "train_speed(iter/s)": 0.447428
+    },
+    {
+      "acc": 0.65746851,
+      "epoch": 1.2902080162354135,
+      "grad_norm": 5.84375,
+      "learning_rate": 3.0659181666795413e-06,
+      "loss": 1.59942074,
+      "memory(GiB)": 111.15,
+      "step": 50860,
+      "train_speed(iter/s)": 0.447452
+    },
+    {
+      "acc": 0.65090275,
+      "epoch": 1.2903348554033487,
+      "grad_norm": 5.34375,
+      "learning_rate": 3.0649512138019376e-06,
+      "loss": 1.6375246,
+      "memory(GiB)": 111.15,
+      "step": 50865,
+      "train_speed(iter/s)": 0.447475
+    },
+    {
+      "acc": 0.65456181,
+      "epoch": 1.2904616945712837,
+      "grad_norm": 5.28125,
+      "learning_rate": 3.0639843460364203e-06,
+      "loss": 1.60088177,
+      "memory(GiB)": 111.15,
+      "step": 50870,
+      "train_speed(iter/s)": 0.447498
+    },
+    {
+      "acc": 0.63481236,
+      "epoch": 1.2905885337392187,
+      "grad_norm": 5.25,
+      "learning_rate": 3.0630175634255134e-06,
+      "loss": 1.68277283,
+      "memory(GiB)": 111.15,
+      "step": 50875,
+      "train_speed(iter/s)": 0.447521
+    },
+    {
+      "acc": 0.64174032,
+      "epoch": 1.2907153729071537,
+      "grad_norm": 4.875,
+      "learning_rate": 3.062050866011742e-06,
+      "loss": 1.6920908,
+      "memory(GiB)": 111.15,
+      "step": 50880,
+      "train_speed(iter/s)": 0.447544
+    },
+    {
+      "acc": 0.63693657,
+      "epoch": 1.2908422120750889,
+      "grad_norm": 5.625,
+      "learning_rate": 3.0610842538376264e-06,
+      "loss": 1.72194042,
+      "memory(GiB)": 111.15,
+      "step": 50885,
+      "train_speed(iter/s)": 0.447567
+    },
+    {
+      "acc": 0.66001205,
+      "epoch": 1.2909690512430239,
+      "grad_norm": 5.09375,
+      "learning_rate": 3.060117726945683e-06,
+      "loss": 1.63972969,
+      "memory(GiB)": 111.15,
+      "step": 50890,
+      "train_speed(iter/s)": 0.447591
+    },
+    {
+      "acc": 0.62433224,
+      "epoch": 1.2910958904109588,
+      "grad_norm": 5.1875,
+      "learning_rate": 3.059151285378421e-06,
+      "loss": 1.69562798,
+      "memory(GiB)": 111.15,
+      "step": 50895,
+      "train_speed(iter/s)": 0.447614
+    },
+    {
+      "acc": 0.65456376,
+      "epoch": 1.291222729578894,
+      "grad_norm": 5.375,
+      "learning_rate": 3.0581849291783518e-06,
+      "loss": 1.56094208,
+      "memory(GiB)": 111.15,
+      "step": 50900,
+      "train_speed(iter/s)": 0.447637
+    },
+    {
+      "epoch": 1.291222729578894,
+      "eval_acc": 0.643359985495119,
+      "eval_loss": 1.6074568033218384,
+      "eval_runtime": 114.3307,
+      "eval_samples_per_second": 55.716,
+      "eval_steps_per_second": 27.858,
+      "step": 50900
+    },
+    {
+      "acc": 0.65253792,
+      "epoch": 1.291349568746829,
+      "grad_norm": 5.53125,
+      "learning_rate": 3.057218658387977e-06,
+      "loss": 1.60202541,
+      "memory(GiB)": 111.15,
+      "step": 50905,
+      "train_speed(iter/s)": 0.447193
+    },
+    {
+      "acc": 0.65202971,
+      "epoch": 1.291476407914764,
+      "grad_norm": 6.8125,
+      "learning_rate": 3.0562524730498023e-06,
+      "loss": 1.64425011,
+      "memory(GiB)": 111.15,
+      "step": 50910,
+      "train_speed(iter/s)": 0.447216
+    },
+    {
+      "acc": 0.63757029,
+      "epoch": 1.291603247082699,
+      "grad_norm": 6.0,
+      "learning_rate": 3.055286373206321e-06,
+      "loss": 1.69563828,
+      "memory(GiB)": 111.15,
+      "step": 50915,
+      "train_speed(iter/s)": 0.447239
+    },
+    {
+      "acc": 0.65594072,
+      "epoch": 1.2917300862506342,
+      "grad_norm": 4.71875,
+      "learning_rate": 3.054320358900027e-06,
+      "loss": 1.64868145,
+      "memory(GiB)": 111.15,
+      "step": 50920,
+      "train_speed(iter/s)": 0.447262
+    },
+    {
+      "acc": 0.63741455,
+      "epoch": 1.2918569254185692,
+      "grad_norm": 5.46875,
+      "learning_rate": 3.053354430173411e-06,
+      "loss": 1.68188438,
+      "memory(GiB)": 111.15,
+      "step": 50925,
+      "train_speed(iter/s)": 0.447284
+    },
+    {
+      "acc": 0.66659493,
+      "epoch": 1.2919837645865044,
+      "grad_norm": 6.9375,
+      "learning_rate": 3.0523885870689595e-06,
+      "loss": 1.55800953,
+      "memory(GiB)": 111.15,
+      "step": 50930,
+      "train_speed(iter/s)": 0.447308
+    },
+    {
+      "acc": 0.66385279,
+      "epoch": 1.2921106037544394,
+      "grad_norm": 6.0,
+      "learning_rate": 3.051422829629152e-06,
+      "loss": 1.5559844,
+      "memory(GiB)": 111.15,
+      "step": 50935,
+      "train_speed(iter/s)": 0.447331
+    },
+    {
+      "acc": 0.6458786,
+      "epoch": 1.2922374429223744,
+      "grad_norm": 4.53125,
+      "learning_rate": 3.050457157896467e-06,
+      "loss": 1.6168684,
+      "memory(GiB)": 111.15,
+      "step": 50940,
+      "train_speed(iter/s)": 0.447354
+    },
+    {
+      "acc": 0.6515089,
+      "epoch": 1.2923642820903094,
+      "grad_norm": 4.53125,
+      "learning_rate": 3.049491571913382e-06,
+      "loss": 1.56255598,
+      "memory(GiB)": 111.15,
+      "step": 50945,
+      "train_speed(iter/s)": 0.447377
+    },
+    {
+      "acc": 0.64557652,
+      "epoch": 1.2924911212582446,
+      "grad_norm": 5.3125,
+      "learning_rate": 3.048526071722367e-06,
+      "loss": 1.63697262,
+      "memory(GiB)": 111.15,
+      "step": 50950,
+      "train_speed(iter/s)": 0.4474
+    },
+    {
+      "acc": 0.65332165,
+      "epoch": 1.2926179604261796,
+      "grad_norm": 5.53125,
+      "learning_rate": 3.047560657365886e-06,
+      "loss": 1.61530457,
+      "memory(GiB)": 111.15,
+      "step": 50955,
+      "train_speed(iter/s)": 0.447423
+    },
+    {
+      "acc": 0.63692188,
+      "epoch": 1.2927447995941146,
+      "grad_norm": 5.53125,
+      "learning_rate": 3.046595328886405e-06,
+      "loss": 1.70753365,
+      "memory(GiB)": 111.15,
+      "step": 50960,
+      "train_speed(iter/s)": 0.447446
+    },
+    {
+      "acc": 0.65631351,
+      "epoch": 1.2928716387620498,
+      "grad_norm": 5.28125,
+      "learning_rate": 3.0456300863263815e-06,
+      "loss": 1.57765007,
+      "memory(GiB)": 111.15,
+      "step": 50965,
+      "train_speed(iter/s)": 0.447469
+    },
+    {
+      "acc": 0.65483809,
+      "epoch": 1.2929984779299848,
+      "grad_norm": 4.8125,
+      "learning_rate": 3.044664929728276e-06,
+      "loss": 1.56392441,
+      "memory(GiB)": 111.15,
+      "step": 50970,
+      "train_speed(iter/s)": 0.447493
+    },
+    {
+      "acc": 0.66515799,
+      "epoch": 1.2931253170979198,
+      "grad_norm": 5.6875,
+      "learning_rate": 3.0436998591345336e-06,
+      "loss": 1.53311777,
+      "memory(GiB)": 111.15,
+      "step": 50975,
+      "train_speed(iter/s)": 0.447516
+    },
+    {
+      "acc": 0.64834862,
+      "epoch": 1.2932521562658548,
+      "grad_norm": 6.625,
+      "learning_rate": 3.042734874587607e-06,
+      "loss": 1.64389076,
+      "memory(GiB)": 111.15,
+      "step": 50980,
+      "train_speed(iter/s)": 0.447539
+    },
+    {
+      "acc": 0.64102259,
+      "epoch": 1.29337899543379,
+      "grad_norm": 5.3125,
+      "learning_rate": 3.041769976129938e-06,
+      "loss": 1.59390564,
+      "memory(GiB)": 111.15,
+      "step": 50985,
+      "train_speed(iter/s)": 0.447562
+    },
+    {
+      "acc": 0.66142001,
+      "epoch": 1.293505834601725,
+      "grad_norm": 4.6875,
+      "learning_rate": 3.0408051638039697e-06,
+      "loss": 1.63047581,
+      "memory(GiB)": 111.15,
+      "step": 50990,
+      "train_speed(iter/s)": 0.447585
+    },
+    {
+      "acc": 0.62736588,
+      "epoch": 1.2936326737696602,
+      "grad_norm": 8.375,
+      "learning_rate": 3.039840437652137e-06,
+      "loss": 1.72599869,
+      "memory(GiB)": 111.15,
+      "step": 50995,
+      "train_speed(iter/s)": 0.447608
+    },
+    {
+      "acc": 0.65045147,
+      "epoch": 1.2937595129375952,
+      "grad_norm": 5.6875,
+      "learning_rate": 3.0388757977168724e-06,
+      "loss": 1.67511177,
+      "memory(GiB)": 111.15,
+      "step": 51000,
+      "train_speed(iter/s)": 0.447631
+    },
+    {
+      "epoch": 1.2937595129375952,
+      "eval_acc": 0.6433808738605918,
+      "eval_loss": 1.607554316520691,
+      "eval_runtime": 113.7933,
+      "eval_samples_per_second": 55.979,
+      "eval_steps_per_second": 27.989,
+      "step": 51000
+    },
+    {
+      "acc": 0.65808597,
+      "epoch": 1.2938863521055302,
+      "grad_norm": 6.125,
+      "learning_rate": 3.0379112440406066e-06,
+      "loss": 1.56366348,
+      "memory(GiB)": 111.15,
+      "step": 51005,
+      "train_speed(iter/s)": 0.447189
+    },
+    {
+      "acc": 0.65496979,
+      "epoch": 1.2940131912734651,
+      "grad_norm": 4.96875,
+      "learning_rate": 3.036946776665766e-06,
+      "loss": 1.60323639,
+      "memory(GiB)": 111.15,
+      "step": 51010,
+      "train_speed(iter/s)": 0.447212
+    },
+    {
+      "acc": 0.65254555,
+      "epoch": 1.2941400304414004,
+      "grad_norm": 5.71875,
+      "learning_rate": 3.0359823956347695e-06,
+      "loss": 1.56458521,
+      "memory(GiB)": 111.15,
+      "step": 51015,
+      "train_speed(iter/s)": 0.447236
+    },
+    {
+      "acc": 0.64948702,
+      "epoch": 1.2942668696093353,
+      "grad_norm": 4.8125,
+      "learning_rate": 3.0350181009900347e-06,
+      "loss": 1.66063881,
+      "memory(GiB)": 111.15,
+      "step": 51020,
+      "train_speed(iter/s)": 0.447259
+    },
+    {
+      "acc": 0.66753263,
+      "epoch": 1.2943937087772706,
+      "grad_norm": 5.375,
+      "learning_rate": 3.0340538927739784e-06,
+      "loss": 1.55555143,
+      "memory(GiB)": 111.15,
+      "step": 51025,
+      "train_speed(iter/s)": 0.447282
+    },
+    {
+      "acc": 0.66981926,
+      "epoch": 1.2945205479452055,
+      "grad_norm": 5.3125,
+      "learning_rate": 3.0330897710290093e-06,
+      "loss": 1.63424473,
+      "memory(GiB)": 111.15,
+      "step": 51030,
+      "train_speed(iter/s)": 0.447305
+    },
+    {
+      "acc": 0.64267168,
+      "epoch": 1.2946473871131405,
+      "grad_norm": 5.125,
+      "learning_rate": 3.032125735797532e-06,
+      "loss": 1.62619781,
+      "memory(GiB)": 111.15,
+      "step": 51035,
+      "train_speed(iter/s)": 0.447328
+    },
+    {
+      "acc": 0.64279094,
+      "epoch": 1.2947742262810755,
+      "grad_norm": 6.0625,
+      "learning_rate": 3.031161787121952e-06,
+      "loss": 1.69595528,
+      "memory(GiB)": 111.15,
+      "step": 51040,
+      "train_speed(iter/s)": 0.447351
+    },
+    {
+      "acc": 0.66395597,
+      "epoch": 1.2949010654490107,
+      "grad_norm": 4.4375,
+      "learning_rate": 3.0301979250446655e-06,
+      "loss": 1.64902306,
+      "memory(GiB)": 111.15,
+      "step": 51045,
+      "train_speed(iter/s)": 0.447375
+    },
+    {
+      "acc": 0.67098384,
+      "epoch": 1.2950279046169457,
+      "grad_norm": 7.5625,
+      "learning_rate": 3.029234149608071e-06,
+      "loss": 1.57896805,
+      "memory(GiB)": 111.15,
+      "step": 51050,
+      "train_speed(iter/s)": 0.447398
+    },
+    {
+      "acc": 0.66464968,
+      "epoch": 1.2951547437848807,
+      "grad_norm": 5.875,
+      "learning_rate": 3.0282704608545566e-06,
+      "loss": 1.57159786,
+      "memory(GiB)": 111.15,
+      "step": 51055,
+      "train_speed(iter/s)": 0.447421
+    },
+    {
+      "acc": 0.66302652,
+      "epoch": 1.295281582952816,
+      "grad_norm": 5.4375,
+      "learning_rate": 3.0273068588265097e-06,
+      "loss": 1.61451683,
+      "memory(GiB)": 111.15,
+      "step": 51060,
+      "train_speed(iter/s)": 0.447445
+    },
+    {
+      "acc": 0.64180274,
+      "epoch": 1.295408422120751,
+      "grad_norm": 4.65625,
+      "learning_rate": 3.0263433435663143e-06,
+      "loss": 1.65819473,
+      "memory(GiB)": 111.15,
+      "step": 51065,
+      "train_speed(iter/s)": 0.447468
+    },
+    {
+      "acc": 0.64135962,
+      "epoch": 1.295535261288686,
+      "grad_norm": 4.71875,
+      "learning_rate": 3.0253799151163522e-06,
+      "loss": 1.67711563,
+      "memory(GiB)": 111.15,
+      "step": 51070,
+      "train_speed(iter/s)": 0.447491
+    },
+    {
+      "acc": 0.64158831,
+      "epoch": 1.295662100456621,
+      "grad_norm": 5.0,
+      "learning_rate": 3.0244165735189967e-06,
+      "loss": 1.63629131,
+      "memory(GiB)": 111.15,
+      "step": 51075,
+      "train_speed(iter/s)": 0.447515
+    },
+    {
+      "acc": 0.64085808,
+      "epoch": 1.295788939624556,
+      "grad_norm": 5.1875,
+      "learning_rate": 3.023453318816619e-06,
+      "loss": 1.68171844,
+      "memory(GiB)": 111.15,
+      "step": 51080,
+      "train_speed(iter/s)": 0.447537
+    },
+    {
+      "acc": 0.64380584,
+      "epoch": 1.295915778792491,
+      "grad_norm": 5.84375,
+      "learning_rate": 3.022490151051591e-06,
+      "loss": 1.61244259,
+      "memory(GiB)": 111.15,
+      "step": 51085,
+      "train_speed(iter/s)": 0.44756
+    },
+    {
+      "acc": 0.65129166,
+      "epoch": 1.2960426179604263,
+      "grad_norm": 6.875,
+      "learning_rate": 3.0215270702662753e-06,
+      "loss": 1.64658031,
+      "memory(GiB)": 111.15,
+      "step": 51090,
+      "train_speed(iter/s)": 0.447583
+    },
+    {
+      "acc": 0.66951828,
+      "epoch": 1.2961694571283613,
+      "grad_norm": 5.28125,
+      "learning_rate": 3.020564076503031e-06,
+      "loss": 1.50924854,
+      "memory(GiB)": 111.15,
+      "step": 51095,
+      "train_speed(iter/s)": 0.447606
+    },
+    {
+      "acc": 0.65400076,
+      "epoch": 1.2962962962962963,
+      "grad_norm": 4.28125,
+      "learning_rate": 3.019601169804216e-06,
+      "loss": 1.61943207,
+      "memory(GiB)": 111.15,
+      "step": 51100,
+      "train_speed(iter/s)": 0.447629
+    },
+    {
+      "epoch": 1.2962962962962963,
+      "eval_acc": 0.6433821271625203,
+      "eval_loss": 1.607573390007019,
+      "eval_runtime": 113.8976,
+      "eval_samples_per_second": 55.927,
+      "eval_steps_per_second": 27.964,
+      "step": 51100
+    },
+    {
+      "acc": 0.65587549,
+      "epoch": 1.2964231354642313,
+      "grad_norm": 4.34375,
+      "learning_rate": 3.018638350212184e-06,
+      "loss": 1.64298611,
+      "memory(GiB)": 111.15,
+      "step": 51105,
+      "train_speed(iter/s)": 0.447188
+    },
+    {
+      "acc": 0.64406147,
+      "epoch": 1.2965499746321665,
+      "grad_norm": 4.71875,
+      "learning_rate": 3.0176756177692845e-06,
+      "loss": 1.60268402,
+      "memory(GiB)": 111.15,
+      "step": 51110,
+      "train_speed(iter/s)": 0.44721
+    },
+    {
+      "acc": 0.64480138,
+      "epoch": 1.2966768138001015,
+      "grad_norm": 5.21875,
+      "learning_rate": 3.01671297251786e-06,
+      "loss": 1.65557671,
+      "memory(GiB)": 111.15,
+      "step": 51115,
+      "train_speed(iter/s)": 0.447233
+    },
+    {
+      "acc": 0.65870914,
+      "epoch": 1.2968036529680365,
+      "grad_norm": 4.78125,
+      "learning_rate": 3.0157504145002546e-06,
+      "loss": 1.5925478,
+      "memory(GiB)": 111.15,
+      "step": 51120,
+      "train_speed(iter/s)": 0.447256
+    },
+    {
+      "acc": 0.63934231,
+      "epoch": 1.2969304921359717,
+      "grad_norm": 5.40625,
+      "learning_rate": 3.0147879437588046e-06,
+      "loss": 1.6415163,
+      "memory(GiB)": 111.15,
+      "step": 51125,
+      "train_speed(iter/s)": 0.447279
+    },
+    {
+      "acc": 0.65003233,
+      "epoch": 1.2970573313039067,
+      "grad_norm": 6.46875,
+      "learning_rate": 3.013825560335845e-06,
+      "loss": 1.61503487,
+      "memory(GiB)": 111.15,
+      "step": 51130,
+      "train_speed(iter/s)": 0.447302
+    },
+    {
+      "acc": 0.6559659,
+      "epoch": 1.2971841704718416,
+      "grad_norm": 6.0,
+      "learning_rate": 3.0128632642737044e-06,
+      "loss": 1.55975714,
+      "memory(GiB)": 111.15,
+      "step": 51135,
+      "train_speed(iter/s)": 0.447325
+    },
+    {
+      "acc": 0.66094742,
+      "epoch": 1.2973110096397766,
+      "grad_norm": 6.09375,
+      "learning_rate": 3.0119010556147088e-06,
+      "loss": 1.59061565,
+      "memory(GiB)": 111.15,
+      "step": 51140,
+      "train_speed(iter/s)": 0.447347
+    },
+    {
+      "acc": 0.66174603,
+      "epoch": 1.2974378488077118,
+      "grad_norm": 5.0,
+      "learning_rate": 3.0109389344011813e-06,
+      "loss": 1.59737034,
+      "memory(GiB)": 111.15,
+      "step": 51145,
+      "train_speed(iter/s)": 0.44737
+    },
+    {
+      "acc": 0.65427437,
+      "epoch": 1.2975646879756468,
+      "grad_norm": 5.125,
+      "learning_rate": 3.0099769006754415e-06,
+      "loss": 1.59399719,
+      "memory(GiB)": 111.15,
+      "step": 51150,
+      "train_speed(iter/s)": 0.447393
+    },
+    {
+      "acc": 0.64752107,
+      "epoch": 1.297691527143582,
+      "grad_norm": 5.375,
+      "learning_rate": 3.0090149544798007e-06,
+      "loss": 1.60930977,
+      "memory(GiB)": 111.15,
+      "step": 51155,
+      "train_speed(iter/s)": 0.447416
+    },
+    {
+      "acc": 0.63717909,
+      "epoch": 1.297818366311517,
+      "grad_norm": 5.53125,
+      "learning_rate": 3.0080530958565712e-06,
+      "loss": 1.65434799,
+      "memory(GiB)": 111.15,
+      "step": 51160,
+      "train_speed(iter/s)": 0.447439
+    },
+    {
+      "acc": 0.65723095,
+      "epoch": 1.297945205479452,
+      "grad_norm": 5.5,
+      "learning_rate": 3.0070913248480602e-06,
+      "loss": 1.61227608,
+      "memory(GiB)": 111.15,
+      "step": 51165,
+      "train_speed(iter/s)": 0.447462
+    },
+    {
+      "acc": 0.65341158,
+      "epoch": 1.298072044647387,
+      "grad_norm": 4.84375,
+      "learning_rate": 3.0061296414965724e-06,
+      "loss": 1.61293755,
+      "memory(GiB)": 111.15,
+      "step": 51170,
+      "train_speed(iter/s)": 0.447484
+    },
+    {
+      "acc": 0.66788125,
+      "epoch": 1.2981988838153222,
+      "grad_norm": 4.625,
+      "learning_rate": 3.005168045844402e-06,
+      "loss": 1.60451813,
+      "memory(GiB)": 111.15,
+      "step": 51175,
+      "train_speed(iter/s)": 0.447507
+    },
+    {
+      "acc": 0.64781542,
+      "epoch": 1.2983257229832572,
+      "grad_norm": 5.8125,
+      "learning_rate": 3.0042065379338486e-06,
+      "loss": 1.64085159,
+      "memory(GiB)": 111.15,
+      "step": 51180,
+      "train_speed(iter/s)": 0.44753
+    },
+    {
+      "acc": 0.64861593,
+      "epoch": 1.2984525621511924,
+      "grad_norm": 6.0,
+      "learning_rate": 3.003245117807201e-06,
+      "loss": 1.64908619,
+      "memory(GiB)": 111.15,
+      "step": 51185,
+      "train_speed(iter/s)": 0.447553
+    },
+    {
+      "acc": 0.66848979,
+      "epoch": 1.2985794013191274,
+      "grad_norm": 4.71875,
+      "learning_rate": 3.0022837855067514e-06,
+      "loss": 1.5220768,
+      "memory(GiB)": 111.15,
+      "step": 51190,
+      "train_speed(iter/s)": 0.447576
+    },
+    {
+      "acc": 0.65437288,
+      "epoch": 1.2987062404870624,
+      "grad_norm": 4.875,
+      "learning_rate": 3.0013225410747772e-06,
+      "loss": 1.56430683,
+      "memory(GiB)": 111.15,
+      "step": 51195,
+      "train_speed(iter/s)": 0.447599
+    },
+    {
+      "acc": 0.63677311,
+      "epoch": 1.2988330796549974,
+      "grad_norm": 5.875,
+      "learning_rate": 3.0003613845535617e-06,
+      "loss": 1.63965836,
+      "memory(GiB)": 111.15,
+      "step": 51200,
+      "train_speed(iter/s)": 0.447622
+    },
+    {
+      "epoch": 1.2988330796549974,
+      "eval_acc": 0.6434660983917212,
+      "eval_loss": 1.6076191663742065,
+      "eval_runtime": 114.3373,
+      "eval_samples_per_second": 55.712,
+      "eval_steps_per_second": 27.856,
+      "step": 51200
+    },
+    {
+      "acc": 0.65167313,
+      "epoch": 1.2989599188229326,
+      "grad_norm": 5.78125,
+      "learning_rate": 2.9994003159853793e-06,
+      "loss": 1.63172073,
+      "memory(GiB)": 111.15,
+      "step": 51205,
+      "train_speed(iter/s)": 0.44718
+    },
+    {
+      "acc": 0.65560074,
+      "epoch": 1.2990867579908676,
+      "grad_norm": 5.4375,
+      "learning_rate": 2.998439335412505e-06,
+      "loss": 1.56675167,
+      "memory(GiB)": 111.15,
+      "step": 51210,
+      "train_speed(iter/s)": 0.447203
+    },
+    {
+      "acc": 0.65206189,
+      "epoch": 1.2992135971588026,
+      "grad_norm": 4.40625,
+      "learning_rate": 2.9974784428772043e-06,
+      "loss": 1.58930407,
+      "memory(GiB)": 111.15,
+      "step": 51215,
+      "train_speed(iter/s)": 0.447226
+    },
+    {
+      "acc": 0.65716453,
+      "epoch": 1.2993404363267378,
+      "grad_norm": 4.875,
+      "learning_rate": 2.996517638421741e-06,
+      "loss": 1.6391983,
+      "memory(GiB)": 111.15,
+      "step": 51220,
+      "train_speed(iter/s)": 0.447248
+    },
+    {
+      "acc": 0.65369239,
+      "epoch": 1.2994672754946728,
+      "grad_norm": 4.96875,
+      "learning_rate": 2.9955569220883777e-06,
+      "loss": 1.59920931,
+      "memory(GiB)": 111.15,
+      "step": 51225,
+      "train_speed(iter/s)": 0.447271
+    },
+    {
+      "acc": 0.64544249,
+      "epoch": 1.2995941146626078,
+      "grad_norm": 5.6875,
+      "learning_rate": 2.9945962939193718e-06,
+      "loss": 1.64459209,
+      "memory(GiB)": 111.15,
+      "step": 51230,
+      "train_speed(iter/s)": 0.447294
+    },
+    {
+      "acc": 0.66017451,
+      "epoch": 1.2997209538305428,
+      "grad_norm": 4.5,
+      "learning_rate": 2.9936357539569728e-06,
+      "loss": 1.57557335,
+      "memory(GiB)": 111.15,
+      "step": 51235,
+      "train_speed(iter/s)": 0.447317
+    },
+    {
+      "acc": 0.66131592,
+      "epoch": 1.299847792998478,
+      "grad_norm": 5.875,
+      "learning_rate": 2.9926753022434306e-06,
+      "loss": 1.55244493,
+      "memory(GiB)": 111.15,
+      "step": 51240,
+      "train_speed(iter/s)": 0.44734
+    },
+    {
+      "acc": 0.67075272,
+      "epoch": 1.299974632166413,
+      "grad_norm": 4.96875,
+      "learning_rate": 2.9917149388209908e-06,
+      "loss": 1.60667553,
+      "memory(GiB)": 111.15,
+      "step": 51245,
+      "train_speed(iter/s)": 0.447363
+    },
+    {
+      "acc": 0.65166702,
+      "epoch": 1.3001014713343482,
+      "grad_norm": 4.96875,
+      "learning_rate": 2.9907546637318964e-06,
+      "loss": 1.62053967,
+      "memory(GiB)": 111.15,
+      "step": 51250,
+      "train_speed(iter/s)": 0.447386
+    },
+    {
+      "acc": 0.66032076,
+      "epoch": 1.3002283105022832,
+      "grad_norm": 8.0,
+      "learning_rate": 2.98979447701838e-06,
+      "loss": 1.62873192,
+      "memory(GiB)": 111.15,
+      "step": 51255,
+      "train_speed(iter/s)": 0.447409
+    },
+    {
+      "acc": 0.66048927,
+      "epoch": 1.3003551496702181,
+      "grad_norm": 6.34375,
+      "learning_rate": 2.988834378722679e-06,
+      "loss": 1.63615723,
+      "memory(GiB)": 111.15,
+      "step": 51260,
+      "train_speed(iter/s)": 0.447432
+    },
+    {
+      "acc": 0.648067,
+      "epoch": 1.3004819888381531,
+      "grad_norm": 4.875,
+      "learning_rate": 2.9878743688870193e-06,
+      "loss": 1.62589264,
+      "memory(GiB)": 111.15,
+      "step": 51265,
+      "train_speed(iter/s)": 0.447455
+    },
+    {
+      "acc": 0.64674358,
+      "epoch": 1.3006088280060883,
+      "grad_norm": 4.75,
+      "learning_rate": 2.9869144475536306e-06,
+      "loss": 1.63633385,
+      "memory(GiB)": 111.15,
+      "step": 51270,
+      "train_speed(iter/s)": 0.447477
+    },
+    {
+      "acc": 0.64220552,
+      "epoch": 1.3007356671740233,
+      "grad_norm": 4.84375,
+      "learning_rate": 2.9859546147647316e-06,
+      "loss": 1.69746208,
+      "memory(GiB)": 111.15,
+      "step": 51275,
+      "train_speed(iter/s)": 0.4475
+    },
+    {
+      "acc": 0.64280567,
+      "epoch": 1.3008625063419583,
+      "grad_norm": 5.0625,
+      "learning_rate": 2.984994870562541e-06,
+      "loss": 1.64469452,
+      "memory(GiB)": 111.15,
+      "step": 51280,
+      "train_speed(iter/s)": 0.447523
+    },
+    {
+      "acc": 0.64972091,
+      "epoch": 1.3009893455098935,
+      "grad_norm": 5.125,
+      "learning_rate": 2.9840352149892703e-06,
+      "loss": 1.61731987,
+      "memory(GiB)": 111.15,
+      "step": 51285,
+      "train_speed(iter/s)": 0.447546
+    },
+    {
+      "acc": 0.66771164,
+      "epoch": 1.3011161846778285,
+      "grad_norm": 5.4375,
+      "learning_rate": 2.9830756480871343e-06,
+      "loss": 1.61184082,
+      "memory(GiB)": 111.15,
+      "step": 51290,
+      "train_speed(iter/s)": 0.447568
+    },
+    {
+      "acc": 0.64773607,
+      "epoch": 1.3012430238457635,
+      "grad_norm": 5.5625,
+      "learning_rate": 2.9821161698983347e-06,
+      "loss": 1.63943443,
+      "memory(GiB)": 111.15,
+      "step": 51295,
+      "train_speed(iter/s)": 0.447591
+    },
+    {
+      "acc": 0.64648056,
+      "epoch": 1.3013698630136985,
+      "grad_norm": 5.625,
+      "learning_rate": 2.9811567804650747e-06,
+      "loss": 1.62170029,
+      "memory(GiB)": 111.15,
+      "step": 51300,
+      "train_speed(iter/s)": 0.447614
+    },
+    {
+      "epoch": 1.3013698630136985,
+      "eval_acc": 0.6434013444587553,
+      "eval_loss": 1.6075541973114014,
+      "eval_runtime": 114.3444,
+      "eval_samples_per_second": 55.709,
+      "eval_steps_per_second": 27.854,
+      "step": 51300
+    },
+    {
+      "acc": 0.64982181,
+      "epoch": 1.3014967021816337,
+      "grad_norm": 5.625,
+      "learning_rate": 2.980197479829554e-06,
+      "loss": 1.6378624,
+      "memory(GiB)": 111.15,
+      "step": 51305,
+      "train_speed(iter/s)": 0.447173
+    },
+    {
+      "acc": 0.66028318,
+      "epoch": 1.3016235413495687,
+      "grad_norm": 5.6875,
+      "learning_rate": 2.9792382680339666e-06,
+      "loss": 1.56594849,
+      "memory(GiB)": 111.15,
+      "step": 51310,
+      "train_speed(iter/s)": 0.447196
+    },
+    {
+      "acc": 0.63617945,
+      "epoch": 1.301750380517504,
+      "grad_norm": 6.0,
+      "learning_rate": 2.9782791451205e-06,
+      "loss": 1.64544029,
+      "memory(GiB)": 111.15,
+      "step": 51315,
+      "train_speed(iter/s)": 0.447219
+    },
+    {
+      "acc": 0.63051672,
+      "epoch": 1.301877219685439,
+      "grad_norm": 6.3125,
+      "learning_rate": 2.9773201111313444e-06,
+      "loss": 1.68770714,
+      "memory(GiB)": 111.15,
+      "step": 51320,
+      "train_speed(iter/s)": 0.447242
+    },
+    {
+      "acc": 0.66358595,
+      "epoch": 1.302004058853374,
+      "grad_norm": 5.625,
+      "learning_rate": 2.9763611661086806e-06,
+      "loss": 1.59983025,
+      "memory(GiB)": 111.15,
+      "step": 51325,
+      "train_speed(iter/s)": 0.447265
+    },
+    {
+      "acc": 0.66721387,
+      "epoch": 1.3021308980213089,
+      "grad_norm": 5.875,
+      "learning_rate": 2.975402310094689e-06,
+      "loss": 1.56919937,
+      "memory(GiB)": 111.15,
+      "step": 51330,
+      "train_speed(iter/s)": 0.447288
+    },
+    {
+      "acc": 0.64364901,
+      "epoch": 1.302257737189244,
+      "grad_norm": 4.5625,
+      "learning_rate": 2.9744435431315403e-06,
+      "loss": 1.64272766,
+      "memory(GiB)": 111.15,
+      "step": 51335,
+      "train_speed(iter/s)": 0.447311
+    },
+    {
+      "acc": 0.63917465,
+      "epoch": 1.302384576357179,
+      "grad_norm": 6.34375,
+      "learning_rate": 2.9734848652614097e-06,
+      "loss": 1.72054749,
+      "memory(GiB)": 111.15,
+      "step": 51340,
+      "train_speed(iter/s)": 0.447334
+    },
+    {
+      "acc": 0.65636702,
+      "epoch": 1.3025114155251143,
+      "grad_norm": 6.0625,
+      "learning_rate": 2.972526276526461e-06,
+      "loss": 1.62535706,
+      "memory(GiB)": 111.15,
+      "step": 51345,
+      "train_speed(iter/s)": 0.447357
+    },
+    {
+      "acc": 0.66368456,
+      "epoch": 1.3026382546930493,
+      "grad_norm": 5.5,
+      "learning_rate": 2.971567776968861e-06,
+      "loss": 1.59600468,
+      "memory(GiB)": 111.15,
+      "step": 51350,
+      "train_speed(iter/s)": 0.44738
+    },
+    {
+      "acc": 0.67166414,
+      "epoch": 1.3027650938609843,
+      "grad_norm": 5.28125,
+      "learning_rate": 2.9706093666307654e-06,
+      "loss": 1.58377113,
+      "memory(GiB)": 111.15,
+      "step": 51355,
+      "train_speed(iter/s)": 0.447403
+    },
+    {
+      "acc": 0.65111675,
+      "epoch": 1.3028919330289193,
+      "grad_norm": 5.09375,
+      "learning_rate": 2.969651045554329e-06,
+      "loss": 1.60181274,
+      "memory(GiB)": 111.15,
+      "step": 51360,
+      "train_speed(iter/s)": 0.447426
+    },
+    {
+      "acc": 0.64884739,
+      "epoch": 1.3030187721968545,
+      "grad_norm": 5.21875,
+      "learning_rate": 2.968692813781706e-06,
+      "loss": 1.63060913,
+      "memory(GiB)": 111.15,
+      "step": 51365,
+      "train_speed(iter/s)": 0.447449
+    },
+    {
+      "acc": 0.63389487,
+      "epoch": 1.3031456113647895,
+      "grad_norm": 5.6875,
+      "learning_rate": 2.9677346713550437e-06,
+      "loss": 1.63097477,
+      "memory(GiB)": 111.15,
+      "step": 51370,
+      "train_speed(iter/s)": 0.447472
+    },
+    {
+      "acc": 0.67029266,
+      "epoch": 1.3032724505327244,
+      "grad_norm": 4.125,
+      "learning_rate": 2.966776618316482e-06,
+      "loss": 1.52730551,
+      "memory(GiB)": 111.15,
+      "step": 51375,
+      "train_speed(iter/s)": 0.447496
+    },
+    {
+      "acc": 0.64372253,
+      "epoch": 1.3033992897006597,
+      "grad_norm": 5.25,
+      "learning_rate": 2.9658186547081612e-06,
+      "loss": 1.65298615,
+      "memory(GiB)": 111.15,
+      "step": 51380,
+      "train_speed(iter/s)": 0.447519
+    },
+    {
+      "acc": 0.66167803,
+      "epoch": 1.3035261288685946,
+      "grad_norm": 5.78125,
+      "learning_rate": 2.9648607805722197e-06,
+      "loss": 1.60375595,
+      "memory(GiB)": 111.15,
+      "step": 51385,
+      "train_speed(iter/s)": 0.447542
+    },
+    {
+      "acc": 0.65363221,
+      "epoch": 1.3036529680365296,
+      "grad_norm": 5.53125,
+      "learning_rate": 2.963902995950788e-06,
+      "loss": 1.56821194,
+      "memory(GiB)": 111.15,
+      "step": 51390,
+      "train_speed(iter/s)": 0.447565
+    },
+    {
+      "acc": 0.64070525,
+      "epoch": 1.3037798072044646,
+      "grad_norm": 6.0,
+      "learning_rate": 2.962945300885991e-06,
+      "loss": 1.68458481,
+      "memory(GiB)": 111.15,
+      "step": 51395,
+      "train_speed(iter/s)": 0.447588
+    },
+    {
+      "acc": 0.64909096,
+      "epoch": 1.3039066463723998,
+      "grad_norm": 6.40625,
+      "learning_rate": 2.9619876954199557e-06,
+      "loss": 1.60121555,
+      "memory(GiB)": 111.15,
+      "step": 51400,
+      "train_speed(iter/s)": 0.447611
+    },
+    {
+      "epoch": 1.3039066463723998,
+      "eval_acc": 0.6434142952453484,
+      "eval_loss": 1.6076395511627197,
+      "eval_runtime": 113.256,
+      "eval_samples_per_second": 56.244,
+      "eval_steps_per_second": 28.122,
+      "step": 51400
+    },
+    {
+      "acc": 0.6693121,
+      "epoch": 1.3040334855403348,
+      "grad_norm": 4.59375,
+      "learning_rate": 2.9610301795947992e-06,
+      "loss": 1.61637802,
+      "memory(GiB)": 111.15,
+      "step": 51405,
+      "train_speed(iter/s)": 0.447176
+    },
+    {
+      "acc": 0.64564199,
+      "epoch": 1.30416032470827,
+      "grad_norm": 5.59375,
+      "learning_rate": 2.9600727534526417e-06,
+      "loss": 1.66766052,
+      "memory(GiB)": 111.15,
+      "step": 51410,
+      "train_speed(iter/s)": 0.447199
+    },
+    {
+      "acc": 0.65081158,
+      "epoch": 1.304287163876205,
+      "grad_norm": 5.90625,
+      "learning_rate": 2.9591154170355895e-06,
+      "loss": 1.65795174,
+      "memory(GiB)": 111.15,
+      "step": 51415,
+      "train_speed(iter/s)": 0.447222
+    },
+    {
+      "acc": 0.63602657,
+      "epoch": 1.30441400304414,
+      "grad_norm": 4.96875,
+      "learning_rate": 2.9581581703857545e-06,
+      "loss": 1.70293846,
+      "memory(GiB)": 111.15,
+      "step": 51420,
+      "train_speed(iter/s)": 0.447245
+    },
+    {
+      "acc": 0.65043082,
+      "epoch": 1.304540842212075,
+      "grad_norm": 5.53125,
+      "learning_rate": 2.9572010135452377e-06,
+      "loss": 1.58666611,
+      "memory(GiB)": 111.15,
+      "step": 51425,
+      "train_speed(iter/s)": 0.447268
+    },
+    {
+      "acc": 0.65420389,
+      "epoch": 1.3046676813800102,
+      "grad_norm": 5.3125,
+      "learning_rate": 2.9562439465561425e-06,
+      "loss": 1.66190643,
+      "memory(GiB)": 111.15,
+      "step": 51430,
+      "train_speed(iter/s)": 0.447291
+    },
+    {
+      "acc": 0.66052356,
+      "epoch": 1.3047945205479452,
+      "grad_norm": 5.71875,
+      "learning_rate": 2.955286969460563e-06,
+      "loss": 1.5842371,
+      "memory(GiB)": 111.15,
+      "step": 51435,
+      "train_speed(iter/s)": 0.447314
+    },
+    {
+      "acc": 0.643993,
+      "epoch": 1.3049213597158802,
+      "grad_norm": 5.46875,
+      "learning_rate": 2.9543300823005903e-06,
+      "loss": 1.68179245,
+      "memory(GiB)": 111.15,
+      "step": 51440,
+      "train_speed(iter/s)": 0.447337
+    },
+    {
+      "acc": 0.63876963,
+      "epoch": 1.3050481988838154,
+      "grad_norm": 4.75,
+      "learning_rate": 2.953373285118315e-06,
+      "loss": 1.64612083,
+      "memory(GiB)": 111.15,
+      "step": 51445,
+      "train_speed(iter/s)": 0.44736
+    },
+    {
+      "acc": 0.64398565,
+      "epoch": 1.3051750380517504,
+      "grad_norm": 5.375,
+      "learning_rate": 2.9524165779558206e-06,
+      "loss": 1.68176422,
+      "memory(GiB)": 111.15,
+      "step": 51450,
+      "train_speed(iter/s)": 0.447383
+    },
+    {
+      "acc": 0.6537035,
+      "epoch": 1.3053018772196854,
+      "grad_norm": 5.65625,
+      "learning_rate": 2.9514599608551865e-06,
+      "loss": 1.59751301,
+      "memory(GiB)": 111.15,
+      "step": 51455,
+      "train_speed(iter/s)": 0.447406
+    },
+    {
+      "acc": 0.64413204,
+      "epoch": 1.3054287163876204,
+      "grad_norm": 4.84375,
+      "learning_rate": 2.9505034338584882e-06,
+      "loss": 1.74033737,
+      "memory(GiB)": 111.15,
+      "step": 51460,
+      "train_speed(iter/s)": 0.447429
+    },
+    {
+      "acc": 0.67083492,
+      "epoch": 1.3055555555555556,
+      "grad_norm": 5.59375,
+      "learning_rate": 2.9495469970078e-06,
+      "loss": 1.59854794,
+      "memory(GiB)": 111.15,
+      "step": 51465,
+      "train_speed(iter/s)": 0.447452
+    },
+    {
+      "acc": 0.64594526,
+      "epoch": 1.3056823947234906,
+      "grad_norm": 5.53125,
+      "learning_rate": 2.9485906503451907e-06,
+      "loss": 1.68954506,
+      "memory(GiB)": 111.15,
+      "step": 51470,
+      "train_speed(iter/s)": 0.447476
+    },
+    {
+      "acc": 0.63535032,
+      "epoch": 1.3058092338914258,
+      "grad_norm": 5.1875,
+      "learning_rate": 2.9476343939127217e-06,
+      "loss": 1.65026054,
+      "memory(GiB)": 111.15,
+      "step": 51475,
+      "train_speed(iter/s)": 0.447499
+    },
+    {
+      "acc": 0.6656208,
+      "epoch": 1.3059360730593608,
+      "grad_norm": 5.0,
+      "learning_rate": 2.9466782277524554e-06,
+      "loss": 1.51059504,
+      "memory(GiB)": 111.15,
+      "step": 51480,
+      "train_speed(iter/s)": 0.447522
+    },
+    {
+      "acc": 0.65013747,
+      "epoch": 1.3060629122272958,
+      "grad_norm": 5.71875,
+      "learning_rate": 2.9457221519064477e-06,
+      "loss": 1.67445679,
+      "memory(GiB)": 111.15,
+      "step": 51485,
+      "train_speed(iter/s)": 0.447545
+    },
+    {
+      "acc": 0.66107087,
+      "epoch": 1.3061897513952307,
+      "grad_norm": 5.53125,
+      "learning_rate": 2.944766166416754e-06,
+      "loss": 1.59287291,
+      "memory(GiB)": 111.15,
+      "step": 51490,
+      "train_speed(iter/s)": 0.447568
+    },
+    {
+      "acc": 0.65122519,
+      "epoch": 1.306316590563166,
+      "grad_norm": 5.03125,
+      "learning_rate": 2.943810271325418e-06,
+      "loss": 1.61386909,
+      "memory(GiB)": 111.15,
+      "step": 51495,
+      "train_speed(iter/s)": 0.447591
+    },
+    {
+      "acc": 0.64727736,
+      "epoch": 1.306443429731101,
+      "grad_norm": 5.21875,
+      "learning_rate": 2.9428544666744873e-06,
+      "loss": 1.59625702,
+      "memory(GiB)": 111.15,
+      "step": 51500,
+      "train_speed(iter/s)": 0.447613
+    },
+    {
+      "epoch": 1.306443429731101,
+      "eval_acc": 0.6433658342374514,
+      "eval_loss": 1.6076680421829224,
+      "eval_runtime": 113.0946,
+      "eval_samples_per_second": 56.325,
+      "eval_steps_per_second": 28.162,
+      "step": 51500
+    },
+    {
+      "acc": 0.63194475,
+      "epoch": 1.3065702688990362,
+      "grad_norm": 5.53125,
+      "learning_rate": 2.9418987525060004e-06,
+      "loss": 1.76627884,
+      "memory(GiB)": 111.15,
+      "step": 51505,
+      "train_speed(iter/s)": 0.447179
+    },
+    {
+      "acc": 0.66167421,
+      "epoch": 1.3066971080669711,
+      "grad_norm": 6.28125,
+      "learning_rate": 2.9409431288619973e-06,
+      "loss": 1.62824326,
+      "memory(GiB)": 111.15,
+      "step": 51510,
+      "train_speed(iter/s)": 0.447201
+    },
+    {
+      "acc": 0.64405284,
+      "epoch": 1.3068239472349061,
+      "grad_norm": 5.15625,
+      "learning_rate": 2.939987595784507e-06,
+      "loss": 1.67999573,
+      "memory(GiB)": 111.15,
+      "step": 51515,
+      "train_speed(iter/s)": 0.447224
+    },
+    {
+      "acc": 0.64822855,
+      "epoch": 1.3069507864028411,
+      "grad_norm": 5.34375,
+      "learning_rate": 2.9390321533155585e-06,
+      "loss": 1.70967178,
+      "memory(GiB)": 111.15,
+      "step": 51520,
+      "train_speed(iter/s)": 0.447247
+    },
+    {
+      "acc": 0.65721874,
+      "epoch": 1.3070776255707763,
+      "grad_norm": 5.125,
+      "learning_rate": 2.9380768014971794e-06,
+      "loss": 1.64087906,
+      "memory(GiB)": 111.15,
+      "step": 51525,
+      "train_speed(iter/s)": 0.44727
+    },
+    {
+      "acc": 0.66057014,
+      "epoch": 1.3072044647387113,
+      "grad_norm": 5.78125,
+      "learning_rate": 2.937121540371389e-06,
+      "loss": 1.53796501,
+      "memory(GiB)": 111.15,
+      "step": 51530,
+      "train_speed(iter/s)": 0.447293
+    },
+    {
+      "acc": 0.65827589,
+      "epoch": 1.3073313039066463,
+      "grad_norm": 6.15625,
+      "learning_rate": 2.9361663699802007e-06,
+      "loss": 1.60662041,
+      "memory(GiB)": 111.15,
+      "step": 51535,
+      "train_speed(iter/s)": 0.447315
+    },
+    {
+      "acc": 0.64967151,
+      "epoch": 1.3074581430745815,
+      "grad_norm": 4.78125,
+      "learning_rate": 2.9352112903656315e-06,
+      "loss": 1.59344339,
+      "memory(GiB)": 111.15,
+      "step": 51540,
+      "train_speed(iter/s)": 0.447338
+    },
+    {
+      "acc": 0.64899497,
+      "epoch": 1.3075849822425165,
+      "grad_norm": 4.75,
+      "learning_rate": 2.9342563015696866e-06,
+      "loss": 1.6919302,
+      "memory(GiB)": 111.15,
+      "step": 51545,
+      "train_speed(iter/s)": 0.447361
+    },
+    {
+      "acc": 0.6706521,
+      "epoch": 1.3077118214104515,
+      "grad_norm": 5.1875,
+      "learning_rate": 2.9333014036343765e-06,
+      "loss": 1.55650682,
+      "memory(GiB)": 111.15,
+      "step": 51550,
+      "train_speed(iter/s)": 0.447384
+    },
+    {
+      "acc": 0.64905415,
+      "epoch": 1.3078386605783865,
+      "grad_norm": 5.09375,
+      "learning_rate": 2.932346596601694e-06,
+      "loss": 1.62649632,
+      "memory(GiB)": 111.15,
+      "step": 51555,
+      "train_speed(iter/s)": 0.447406
+    },
+    {
+      "acc": 0.64209538,
+      "epoch": 1.3079654997463217,
+      "grad_norm": 5.09375,
+      "learning_rate": 2.931391880513641e-06,
+      "loss": 1.6057724,
+      "memory(GiB)": 111.15,
+      "step": 51560,
+      "train_speed(iter/s)": 0.447429
+    },
+    {
+      "acc": 0.64285784,
+      "epoch": 1.3080923389142567,
+      "grad_norm": 5.90625,
+      "learning_rate": 2.9304372554122074e-06,
+      "loss": 1.66431847,
+      "memory(GiB)": 111.15,
+      "step": 51565,
+      "train_speed(iter/s)": 0.447452
+    },
+    {
+      "acc": 0.63632884,
+      "epoch": 1.308219178082192,
+      "grad_norm": 5.40625,
+      "learning_rate": 2.9294827213393857e-06,
+      "loss": 1.66739502,
+      "memory(GiB)": 111.15,
+      "step": 51570,
+      "train_speed(iter/s)": 0.447475
+    },
+    {
+      "acc": 0.66618891,
+      "epoch": 1.308346017250127,
+      "grad_norm": 4.96875,
+      "learning_rate": 2.9285282783371567e-06,
+      "loss": 1.53918743,
+      "memory(GiB)": 111.15,
+      "step": 51575,
+      "train_speed(iter/s)": 0.447497
+    },
+    {
+      "acc": 0.65359783,
+      "epoch": 1.3084728564180619,
+      "grad_norm": 5.71875,
+      "learning_rate": 2.9275739264475013e-06,
+      "loss": 1.5899766,
+      "memory(GiB)": 111.15,
+      "step": 51580,
+      "train_speed(iter/s)": 0.44752
+    },
+    {
+      "acc": 0.64497957,
+      "epoch": 1.3085996955859969,
+      "grad_norm": 5.1875,
+      "learning_rate": 2.926619665712399e-06,
+      "loss": 1.59155684,
+      "memory(GiB)": 111.15,
+      "step": 51585,
+      "train_speed(iter/s)": 0.447543
+    },
+    {
+      "acc": 0.64139585,
+      "epoch": 1.308726534753932,
+      "grad_norm": 6.5625,
+      "learning_rate": 2.9256654961738217e-06,
+      "loss": 1.64278851,
+      "memory(GiB)": 111.15,
+      "step": 51590,
+      "train_speed(iter/s)": 0.447566
+    },
+    {
+      "acc": 0.66258092,
+      "epoch": 1.308853373921867,
+      "grad_norm": 5.28125,
+      "learning_rate": 2.9247114178737356e-06,
+      "loss": 1.56495075,
+      "memory(GiB)": 111.15,
+      "step": 51595,
+      "train_speed(iter/s)": 0.447589
+    },
+    {
+      "acc": 0.65272865,
+      "epoch": 1.308980213089802,
+      "grad_norm": 4.6875,
+      "learning_rate": 2.9237574308541063e-06,
+      "loss": 1.60139027,
+      "memory(GiB)": 111.15,
+      "step": 51600,
+      "train_speed(iter/s)": 0.447612
+    },
+    {
+      "epoch": 1.308980213089802,
+      "eval_acc": 0.6434297526357984,
+      "eval_loss": 1.6075140237808228,
+      "eval_runtime": 113.4411,
+      "eval_samples_per_second": 56.152,
+      "eval_steps_per_second": 28.076,
+      "step": 51600
+    },
+    {
+      "acc": 0.64269319,
+      "epoch": 1.3091070522577373,
+      "grad_norm": 4.75,
+      "learning_rate": 2.9228035351568955e-06,
+      "loss": 1.65584755,
+      "memory(GiB)": 111.15,
+      "step": 51605,
+      "train_speed(iter/s)": 0.447176
+    },
+    {
+      "acc": 0.66475806,
+      "epoch": 1.3092338914256723,
+      "grad_norm": 6.21875,
+      "learning_rate": 2.92184973082406e-06,
+      "loss": 1.5263031,
+      "memory(GiB)": 111.15,
+      "step": 51610,
+      "train_speed(iter/s)": 0.447199
+    },
+    {
+      "acc": 0.65817032,
+      "epoch": 1.3093607305936072,
+      "grad_norm": 4.9375,
+      "learning_rate": 2.920896017897551e-06,
+      "loss": 1.59793606,
+      "memory(GiB)": 111.15,
+      "step": 51615,
+      "train_speed(iter/s)": 0.447221
+    },
+    {
+      "acc": 0.63960896,
+      "epoch": 1.3094875697615422,
+      "grad_norm": 4.46875,
+      "learning_rate": 2.9199423964193176e-06,
+      "loss": 1.63207474,
+      "memory(GiB)": 111.15,
+      "step": 51620,
+      "train_speed(iter/s)": 0.447244
+    },
+    {
+      "acc": 0.65686569,
+      "epoch": 1.3096144089294774,
+      "grad_norm": 5.25,
+      "learning_rate": 2.9189888664313045e-06,
+      "loss": 1.64334068,
+      "memory(GiB)": 111.15,
+      "step": 51625,
+      "train_speed(iter/s)": 0.447266
+    },
+    {
+      "acc": 0.64752941,
+      "epoch": 1.3097412480974124,
+      "grad_norm": 5.03125,
+      "learning_rate": 2.9180354279754517e-06,
+      "loss": 1.63963852,
+      "memory(GiB)": 111.15,
+      "step": 51630,
+      "train_speed(iter/s)": 0.447289
+    },
+    {
+      "acc": 0.65374889,
+      "epoch": 1.3098680872653476,
+      "grad_norm": 5.75,
+      "learning_rate": 2.9170820810936968e-06,
+      "loss": 1.59423599,
+      "memory(GiB)": 111.15,
+      "step": 51635,
+      "train_speed(iter/s)": 0.447311
+    },
+    {
+      "acc": 0.63992691,
+      "epoch": 1.3099949264332826,
+      "grad_norm": 5.21875,
+      "learning_rate": 2.9161288258279715e-06,
+      "loss": 1.64783859,
+      "memory(GiB)": 111.15,
+      "step": 51640,
+      "train_speed(iter/s)": 0.447334
+    },
+    {
+      "acc": 0.65144973,
+      "epoch": 1.3101217656012176,
+      "grad_norm": 5.21875,
+      "learning_rate": 2.9151756622202037e-06,
+      "loss": 1.60871296,
+      "memory(GiB)": 111.15,
+      "step": 51645,
+      "train_speed(iter/s)": 0.447357
+    },
+    {
+      "acc": 0.64545317,
+      "epoch": 1.3102486047691526,
+      "grad_norm": 6.65625,
+      "learning_rate": 2.914222590312319e-06,
+      "loss": 1.65289078,
+      "memory(GiB)": 111.15,
+      "step": 51650,
+      "train_speed(iter/s)": 0.447379
+    },
+    {
+      "acc": 0.64236231,
+      "epoch": 1.3103754439370878,
+      "grad_norm": 7.5625,
+      "learning_rate": 2.9132696101462366e-06,
+      "loss": 1.64614773,
+      "memory(GiB)": 111.15,
+      "step": 51655,
+      "train_speed(iter/s)": 0.447402
+    },
+    {
+      "acc": 0.64048662,
+      "epoch": 1.3105022831050228,
+      "grad_norm": 5.84375,
+      "learning_rate": 2.912316721763874e-06,
+      "loss": 1.72400589,
+      "memory(GiB)": 111.15,
+      "step": 51660,
+      "train_speed(iter/s)": 0.447424
+    },
+    {
+      "acc": 0.66082258,
+      "epoch": 1.310629122272958,
+      "grad_norm": 4.96875,
+      "learning_rate": 2.9113639252071395e-06,
+      "loss": 1.54874249,
+      "memory(GiB)": 111.15,
+      "step": 51665,
+      "train_speed(iter/s)": 0.447447
+    },
+    {
+      "acc": 0.64150276,
+      "epoch": 1.310755961440893,
+      "grad_norm": 5.375,
+      "learning_rate": 2.91041122051795e-06,
+      "loss": 1.63816566,
+      "memory(GiB)": 111.15,
+      "step": 51670,
+      "train_speed(iter/s)": 0.44747
+    },
+    {
+      "acc": 0.63902278,
+      "epoch": 1.310882800608828,
+      "grad_norm": 4.71875,
+      "learning_rate": 2.9094586077382016e-06,
+      "loss": 1.65815659,
+      "memory(GiB)": 111.15,
+      "step": 51675,
+      "train_speed(iter/s)": 0.447493
+    },
+    {
+      "acc": 0.6475256,
+      "epoch": 1.311009639776763,
+      "grad_norm": 6.53125,
+      "learning_rate": 2.9085060869097977e-06,
+      "loss": 1.59861851,
+      "memory(GiB)": 111.15,
+      "step": 51680,
+      "train_speed(iter/s)": 0.447515
+    },
+    {
+      "acc": 0.65805998,
+      "epoch": 1.3111364789446982,
+      "grad_norm": 5.03125,
+      "learning_rate": 2.907553658074631e-06,
+      "loss": 1.5536068,
+      "memory(GiB)": 111.15,
+      "step": 51685,
+      "train_speed(iter/s)": 0.447538
+    },
+    {
+      "acc": 0.64234972,
+      "epoch": 1.3112633181126332,
+      "grad_norm": 4.875,
+      "learning_rate": 2.906601321274601e-06,
+      "loss": 1.68426228,
+      "memory(GiB)": 111.15,
+      "step": 51690,
+      "train_speed(iter/s)": 0.44756
+    },
+    {
+      "acc": 0.66437454,
+      "epoch": 1.3113901572805682,
+      "grad_norm": 4.84375,
+      "learning_rate": 2.90564907655159e-06,
+      "loss": 1.63536587,
+      "memory(GiB)": 111.15,
+      "step": 51695,
+      "train_speed(iter/s)": 0.447583
+    },
+    {
+      "acc": 0.65887194,
+      "epoch": 1.3115169964485034,
+      "grad_norm": 5.15625,
+      "learning_rate": 2.9046969239474808e-06,
+      "loss": 1.55727673,
+      "memory(GiB)": 111.15,
+      "step": 51700,
+      "train_speed(iter/s)": 0.447605
+    },
+    {
+      "epoch": 1.3115169964485034,
+      "eval_acc": 0.6433771139548068,
+      "eval_loss": 1.607596755027771,
+      "eval_runtime": 114.9666,
+      "eval_samples_per_second": 55.407,
+      "eval_steps_per_second": 27.704,
+      "step": 51700
+    },
+    {
+      "acc": 0.6495625,
+      "epoch": 1.3116438356164384,
+      "grad_norm": 5.03125,
+      "learning_rate": 2.9037448635041574e-06,
+      "loss": 1.62425137,
+      "memory(GiB)": 111.15,
+      "step": 51705,
+      "train_speed(iter/s)": 0.447165
+    },
+    {
+      "acc": 0.65078993,
+      "epoch": 1.3117706747843734,
+      "grad_norm": 4.96875,
+      "learning_rate": 2.9027928952634964e-06,
+      "loss": 1.60145664,
+      "memory(GiB)": 111.15,
+      "step": 51710,
+      "train_speed(iter/s)": 0.447187
+    },
+    {
+      "acc": 0.65241737,
+      "epoch": 1.3118975139523084,
+      "grad_norm": 4.96875,
+      "learning_rate": 2.901841019267363e-06,
+      "loss": 1.54820175,
+      "memory(GiB)": 111.15,
+      "step": 51715,
+      "train_speed(iter/s)": 0.44721
+    },
+    {
+      "acc": 0.65326233,
+      "epoch": 1.3120243531202436,
+      "grad_norm": 5.375,
+      "learning_rate": 2.900889235557631e-06,
+      "loss": 1.63316212,
+      "memory(GiB)": 111.15,
+      "step": 51720,
+      "train_speed(iter/s)": 0.447232
+    },
+    {
+      "acc": 0.66227541,
+      "epoch": 1.3121511922881786,
+      "grad_norm": 5.4375,
+      "learning_rate": 2.8999375441761627e-06,
+      "loss": 1.60789108,
+      "memory(GiB)": 111.15,
+      "step": 51725,
+      "train_speed(iter/s)": 0.447255
+    },
+    {
+      "acc": 0.65843096,
+      "epoch": 1.3122780314561138,
+      "grad_norm": 4.9375,
+      "learning_rate": 2.8989859451648193e-06,
+      "loss": 1.5714077,
+      "memory(GiB)": 111.15,
+      "step": 51730,
+      "train_speed(iter/s)": 0.447277
+    },
+    {
+      "acc": 0.6576479,
+      "epoch": 1.3124048706240488,
+      "grad_norm": 7.03125,
+      "learning_rate": 2.89803443856545e-06,
+      "loss": 1.5491168,
+      "memory(GiB)": 111.15,
+      "step": 51735,
+      "train_speed(iter/s)": 0.4473
+    },
+    {
+      "acc": 0.65274453,
+      "epoch": 1.3125317097919837,
+      "grad_norm": 5.09375,
+      "learning_rate": 2.897083024419913e-06,
+      "loss": 1.64148827,
+      "memory(GiB)": 111.15,
+      "step": 51740,
+      "train_speed(iter/s)": 0.447323
+    },
+    {
+      "acc": 0.64789381,
+      "epoch": 1.3126585489599187,
+      "grad_norm": 6.03125,
+      "learning_rate": 2.8961317027700534e-06,
+      "loss": 1.62172852,
+      "memory(GiB)": 111.15,
+      "step": 51745,
+      "train_speed(iter/s)": 0.447345
+    },
+    {
+      "acc": 0.64860587,
+      "epoch": 1.312785388127854,
+      "grad_norm": 5.90625,
+      "learning_rate": 2.8951804736577148e-06,
+      "loss": 1.62198906,
+      "memory(GiB)": 111.15,
+      "step": 51750,
+      "train_speed(iter/s)": 0.447368
+    },
+    {
+      "acc": 0.66691604,
+      "epoch": 1.312912227295789,
+      "grad_norm": 5.875,
+      "learning_rate": 2.894229337124736e-06,
+      "loss": 1.58112278,
+      "memory(GiB)": 111.15,
+      "step": 51755,
+      "train_speed(iter/s)": 0.447391
+    },
+    {
+      "acc": 0.63719645,
+      "epoch": 1.313039066463724,
+      "grad_norm": 4.90625,
+      "learning_rate": 2.8932782932129524e-06,
+      "loss": 1.62769852,
+      "memory(GiB)": 111.15,
+      "step": 51760,
+      "train_speed(iter/s)": 0.447414
+    },
+    {
+      "acc": 0.65849047,
+      "epoch": 1.3131659056316591,
+      "grad_norm": 5.75,
+      "learning_rate": 2.8923273419641956e-06,
+      "loss": 1.54769497,
+      "memory(GiB)": 111.15,
+      "step": 51765,
+      "train_speed(iter/s)": 0.447437
+    },
+    {
+      "acc": 0.65600033,
+      "epoch": 1.3132927447995941,
+      "grad_norm": 5.84375,
+      "learning_rate": 2.891376483420292e-06,
+      "loss": 1.6164526,
+      "memory(GiB)": 111.15,
+      "step": 51770,
+      "train_speed(iter/s)": 0.44746
+    },
+    {
+      "acc": 0.65261326,
+      "epoch": 1.3134195839675291,
+      "grad_norm": 6.0,
+      "learning_rate": 2.8904257176230655e-06,
+      "loss": 1.61816788,
+      "memory(GiB)": 111.15,
+      "step": 51775,
+      "train_speed(iter/s)": 0.447483
+    },
+    {
+      "acc": 0.66023989,
+      "epoch": 1.313546423135464,
+      "grad_norm": 5.5,
+      "learning_rate": 2.8894750446143345e-06,
+      "loss": 1.54078121,
+      "memory(GiB)": 111.15,
+      "step": 51780,
+      "train_speed(iter/s)": 0.447505
+    },
+    {
+      "acc": 0.64474773,
+      "epoch": 1.3136732623033993,
+      "grad_norm": 5.875,
+      "learning_rate": 2.8885244644359134e-06,
+      "loss": 1.61117249,
+      "memory(GiB)": 111.15,
+      "step": 51785,
+      "train_speed(iter/s)": 0.447528
+    },
+    {
+      "acc": 0.63870802,
+      "epoch": 1.3138001014713343,
+      "grad_norm": 6.34375,
+      "learning_rate": 2.887573977129614e-06,
+      "loss": 1.68238945,
+      "memory(GiB)": 111.15,
+      "step": 51790,
+      "train_speed(iter/s)": 0.447551
+    },
+    {
+      "acc": 0.66421838,
+      "epoch": 1.3139269406392695,
+      "grad_norm": 6.5,
+      "learning_rate": 2.886623582737242e-06,
+      "loss": 1.61451263,
+      "memory(GiB)": 111.15,
+      "step": 51795,
+      "train_speed(iter/s)": 0.447574
+    },
+    {
+      "acc": 0.65350685,
+      "epoch": 1.3140537798072045,
+      "grad_norm": 5.03125,
+      "learning_rate": 2.8856732813006007e-06,
+      "loss": 1.65663033,
+      "memory(GiB)": 111.15,
+      "step": 51800,
+      "train_speed(iter/s)": 0.447596
+    },
+    {
+      "epoch": 1.3140537798072045,
+      "eval_acc": 0.6434122064088011,
+      "eval_loss": 1.6075665950775146,
+      "eval_runtime": 114.3258,
+      "eval_samples_per_second": 55.718,
+      "eval_steps_per_second": 27.859,
+      "step": 51800
+    },
+    {
+      "acc": 0.65035648,
+      "epoch": 1.3141806189751395,
+      "grad_norm": 5.15625,
+      "learning_rate": 2.8847230728614854e-06,
+      "loss": 1.6826149,
+      "memory(GiB)": 111.15,
+      "step": 51805,
+      "train_speed(iter/s)": 0.44716
+    },
+    {
+      "acc": 0.66183357,
+      "epoch": 1.3143074581430745,
+      "grad_norm": 5.3125,
+      "learning_rate": 2.883772957461698e-06,
+      "loss": 1.54368267,
+      "memory(GiB)": 111.15,
+      "step": 51810,
+      "train_speed(iter/s)": 0.447182
+    },
+    {
+      "acc": 0.64122658,
+      "epoch": 1.3144342973110097,
+      "grad_norm": 6.03125,
+      "learning_rate": 2.8828229351430224e-06,
+      "loss": 1.70447197,
+      "memory(GiB)": 111.15,
+      "step": 51815,
+      "train_speed(iter/s)": 0.447205
+    },
+    {
+      "acc": 0.66266041,
+      "epoch": 1.3145611364789447,
+      "grad_norm": 5.78125,
+      "learning_rate": 2.881873005947247e-06,
+      "loss": 1.57068291,
+      "memory(GiB)": 111.15,
+      "step": 51820,
+      "train_speed(iter/s)": 0.447228
+    },
+    {
+      "acc": 0.64804506,
+      "epoch": 1.31468797564688,
+      "grad_norm": 4.90625,
+      "learning_rate": 2.88092316991615e-06,
+      "loss": 1.6391716,
+      "memory(GiB)": 111.15,
+      "step": 51825,
+      "train_speed(iter/s)": 0.447251
+    },
+    {
+      "acc": 0.66284857,
+      "epoch": 1.3148148148148149,
+      "grad_norm": 5.4375,
+      "learning_rate": 2.879973427091518e-06,
+      "loss": 1.58616505,
+      "memory(GiB)": 111.15,
+      "step": 51830,
+      "train_speed(iter/s)": 0.447274
+    },
+    {
+      "acc": 0.66085758,
+      "epoch": 1.3149416539827499,
+      "grad_norm": 5.75,
+      "learning_rate": 2.879023777515118e-06,
+      "loss": 1.56278687,
+      "memory(GiB)": 111.15,
+      "step": 51835,
+      "train_speed(iter/s)": 0.447297
+    },
+    {
+      "acc": 0.63702478,
+      "epoch": 1.3150684931506849,
+      "grad_norm": 5.3125,
+      "learning_rate": 2.8780742212287192e-06,
+      "loss": 1.61218395,
+      "memory(GiB)": 111.15,
+      "step": 51840,
+      "train_speed(iter/s)": 0.447319
+    },
+    {
+      "acc": 0.63968267,
+      "epoch": 1.31519533231862,
+      "grad_norm": 5.28125,
+      "learning_rate": 2.8771247582740924e-06,
+      "loss": 1.66425629,
+      "memory(GiB)": 111.15,
+      "step": 51845,
+      "train_speed(iter/s)": 0.447342
+    },
+    {
+      "acc": 0.6571692,
+      "epoch": 1.315322171486555,
+      "grad_norm": 5.25,
+      "learning_rate": 2.876175388692999e-06,
+      "loss": 1.5996418,
+      "memory(GiB)": 111.15,
+      "step": 51850,
+      "train_speed(iter/s)": 0.447365
+    },
+    {
+      "acc": 0.63747807,
+      "epoch": 1.31544901065449,
+      "grad_norm": 6.0,
+      "learning_rate": 2.875226112527192e-06,
+      "loss": 1.69977417,
+      "memory(GiB)": 111.15,
+      "step": 51855,
+      "train_speed(iter/s)": 0.447388
+    },
+    {
+      "acc": 0.65503407,
+      "epoch": 1.3155758498224253,
+      "grad_norm": 4.96875,
+      "learning_rate": 2.8742769298184246e-06,
+      "loss": 1.64841194,
+      "memory(GiB)": 111.15,
+      "step": 51860,
+      "train_speed(iter/s)": 0.44739
+    },
+    {
+      "acc": 0.65693464,
+      "epoch": 1.3157026889903602,
+      "grad_norm": 4.375,
+      "learning_rate": 2.8733278406084507e-06,
+      "loss": 1.60958366,
+      "memory(GiB)": 111.15,
+      "step": 51865,
+      "train_speed(iter/s)": 0.447413
+    },
+    {
+      "acc": 0.65114684,
+      "epoch": 1.3158295281582952,
+      "grad_norm": 5.46875,
+      "learning_rate": 2.872378844939015e-06,
+      "loss": 1.65011406,
+      "memory(GiB)": 111.15,
+      "step": 51870,
+      "train_speed(iter/s)": 0.447436
+    },
+    {
+      "acc": 0.65357294,
+      "epoch": 1.3159563673262302,
+      "grad_norm": 5.34375,
+      "learning_rate": 2.871429942851853e-06,
+      "loss": 1.67586231,
+      "memory(GiB)": 111.15,
+      "step": 51875,
+      "train_speed(iter/s)": 0.447459
+    },
+    {
+      "acc": 0.65496798,
+      "epoch": 1.3160832064941654,
+      "grad_norm": 6.59375,
+      "learning_rate": 2.8704811343887075e-06,
+      "loss": 1.58533173,
+      "memory(GiB)": 111.15,
+      "step": 51880,
+      "train_speed(iter/s)": 0.447481
+    },
+    {
+      "acc": 0.65483913,
+      "epoch": 1.3162100456621004,
+      "grad_norm": 5.84375,
+      "learning_rate": 2.86953241959131e-06,
+      "loss": 1.59632101,
+      "memory(GiB)": 111.15,
+      "step": 51885,
+      "train_speed(iter/s)": 0.447505
+    },
+    {
+      "acc": 0.66229196,
+      "epoch": 1.3163368848300356,
+      "grad_norm": 5.375,
+      "learning_rate": 2.8685837985013874e-06,
+      "loss": 1.57527828,
+      "memory(GiB)": 111.15,
+      "step": 51890,
+      "train_speed(iter/s)": 0.447527
+    },
+    {
+      "acc": 0.6572937,
+      "epoch": 1.3164637239979706,
+      "grad_norm": 5.5625,
+      "learning_rate": 2.867635271160666e-06,
+      "loss": 1.584828,
+      "memory(GiB)": 111.15,
+      "step": 51895,
+      "train_speed(iter/s)": 0.44755
+    },
+    {
+      "acc": 0.63994889,
+      "epoch": 1.3165905631659056,
+      "grad_norm": 5.6875,
+      "learning_rate": 2.8666868376108658e-06,
+      "loss": 1.74312363,
+      "memory(GiB)": 111.15,
+      "step": 51900,
+      "train_speed(iter/s)": 0.447573
+    },
+    {
+      "epoch": 1.3165905631659056,
+      "eval_acc": 0.6433503768470015,
+      "eval_loss": 1.607569694519043,
+      "eval_runtime": 115.5308,
+      "eval_samples_per_second": 55.137,
+      "eval_steps_per_second": 27.568,
+      "step": 51900
+    },
+    {
+      "acc": 0.64654427,
+      "epoch": 1.3167174023338406,
+      "grad_norm": 6.21875,
+      "learning_rate": 2.865738497893703e-06,
+      "loss": 1.62039337,
+      "memory(GiB)": 111.15,
+      "step": 51905,
+      "train_speed(iter/s)": 0.447133
+    },
+    {
+      "acc": 0.64462137,
+      "epoch": 1.3168442415017758,
+      "grad_norm": 5.5625,
+      "learning_rate": 2.8647902520508896e-06,
+      "loss": 1.62269764,
+      "memory(GiB)": 111.15,
+      "step": 51910,
+      "train_speed(iter/s)": 0.447155
+    },
+    {
+      "acc": 0.6435369,
+      "epoch": 1.3169710806697108,
+      "grad_norm": 5.125,
+      "learning_rate": 2.8638421001241346e-06,
+      "loss": 1.63888664,
+      "memory(GiB)": 111.15,
+      "step": 51915,
+      "train_speed(iter/s)": 0.447178
+    },
+    {
+      "acc": 0.64915962,
+      "epoch": 1.3170979198376458,
+      "grad_norm": 6.25,
+      "learning_rate": 2.8628940421551404e-06,
+      "loss": 1.63322506,
+      "memory(GiB)": 111.15,
+      "step": 51920,
+      "train_speed(iter/s)": 0.447201
+    },
+    {
+      "acc": 0.63892069,
+      "epoch": 1.317224759005581,
+      "grad_norm": 5.4375,
+      "learning_rate": 2.861946078185608e-06,
+      "loss": 1.68192825,
+      "memory(GiB)": 111.15,
+      "step": 51925,
+      "train_speed(iter/s)": 0.447223
+    },
+    {
+      "acc": 0.65514231,
+      "epoch": 1.317351598173516,
+      "grad_norm": 5.09375,
+      "learning_rate": 2.860998208257233e-06,
+      "loss": 1.59708624,
+      "memory(GiB)": 111.15,
+      "step": 51930,
+      "train_speed(iter/s)": 0.447246
+    },
+    {
+      "acc": 0.64644699,
+      "epoch": 1.317478437341451,
+      "grad_norm": 5.03125,
+      "learning_rate": 2.860050432411707e-06,
+      "loss": 1.67630711,
+      "memory(GiB)": 111.15,
+      "step": 51935,
+      "train_speed(iter/s)": 0.447268
+    },
+    {
+      "acc": 0.64157829,
+      "epoch": 1.317605276509386,
+      "grad_norm": 4.9375,
+      "learning_rate": 2.8591027506907167e-06,
+      "loss": 1.67157173,
+      "memory(GiB)": 111.15,
+      "step": 51940,
+      "train_speed(iter/s)": 0.447291
+    },
+    {
+      "acc": 0.66497402,
+      "epoch": 1.3177321156773212,
+      "grad_norm": 4.875,
+      "learning_rate": 2.858155163135946e-06,
+      "loss": 1.60823212,
+      "memory(GiB)": 111.15,
+      "step": 51945,
+      "train_speed(iter/s)": 0.447313
+    },
+    {
+      "acc": 0.63527889,
+      "epoch": 1.3178589548452562,
+      "grad_norm": 4.96875,
+      "learning_rate": 2.857207669789074e-06,
+      "loss": 1.66968784,
+      "memory(GiB)": 111.15,
+      "step": 51950,
+      "train_speed(iter/s)": 0.447336
+    },
+    {
+      "acc": 0.6362504,
+      "epoch": 1.3179857940131914,
+      "grad_norm": 5.28125,
+      "learning_rate": 2.8562602706917754e-06,
+      "loss": 1.6605875,
+      "memory(GiB)": 111.15,
+      "step": 51955,
+      "train_speed(iter/s)": 0.447359
+    },
+    {
+      "acc": 0.6603786,
+      "epoch": 1.3181126331811264,
+      "grad_norm": 4.875,
+      "learning_rate": 2.8553129658857215e-06,
+      "loss": 1.62357159,
+      "memory(GiB)": 111.15,
+      "step": 51960,
+      "train_speed(iter/s)": 0.447381
+    },
+    {
+      "acc": 0.64153538,
+      "epoch": 1.3182394723490614,
+      "grad_norm": 5.125,
+      "learning_rate": 2.854365755412576e-06,
+      "loss": 1.63620148,
+      "memory(GiB)": 111.15,
+      "step": 51965,
+      "train_speed(iter/s)": 0.447403
+    },
+    {
+      "acc": 0.66151729,
+      "epoch": 1.3183663115169963,
+      "grad_norm": 5.875,
+      "learning_rate": 2.8534186393140083e-06,
+      "loss": 1.57221575,
+      "memory(GiB)": 111.15,
+      "step": 51970,
+      "train_speed(iter/s)": 0.447426
+    },
+    {
+      "acc": 0.64632158,
+      "epoch": 1.3184931506849316,
+      "grad_norm": 5.09375,
+      "learning_rate": 2.8524716176316715e-06,
+      "loss": 1.5725317,
+      "memory(GiB)": 111.15,
+      "step": 51975,
+      "train_speed(iter/s)": 0.447449
+    },
+    {
+      "acc": 0.62907853,
+      "epoch": 1.3186199898528665,
+      "grad_norm": 6.65625,
+      "learning_rate": 2.851524690407218e-06,
+      "loss": 1.71485596,
+      "memory(GiB)": 111.15,
+      "step": 51980,
+      "train_speed(iter/s)": 0.447471
+    },
+    {
+      "acc": 0.65423727,
+      "epoch": 1.3187468290208018,
+      "grad_norm": 4.40625,
+      "learning_rate": 2.8505778576823036e-06,
+      "loss": 1.62629776,
+      "memory(GiB)": 111.15,
+      "step": 51985,
+      "train_speed(iter/s)": 0.447494
+    },
+    {
+      "acc": 0.64625306,
+      "epoch": 1.3188736681887367,
+      "grad_norm": 6.21875,
+      "learning_rate": 2.849631119498573e-06,
+      "loss": 1.67956314,
+      "memory(GiB)": 111.15,
+      "step": 51990,
+      "train_speed(iter/s)": 0.447516
+    },
+    {
+      "acc": 0.63755603,
+      "epoch": 1.3190005073566717,
+      "grad_norm": 4.9375,
+      "learning_rate": 2.8486844758976652e-06,
+      "loss": 1.66462173,
+      "memory(GiB)": 111.15,
+      "step": 51995,
+      "train_speed(iter/s)": 0.447539
+    },
+    {
+      "acc": 0.65300665,
+      "epoch": 1.3191273465246067,
+      "grad_norm": 5.625,
+      "learning_rate": 2.8477379269212157e-06,
+      "loss": 1.60286407,
+      "memory(GiB)": 111.15,
+      "step": 52000,
+      "train_speed(iter/s)": 0.447562
+    },
+    {
+      "epoch": 1.3191273465246067,
+      "eval_acc": 0.6434172196165147,
+      "eval_loss": 1.6075531244277954,
+      "eval_runtime": 113.9646,
+      "eval_samples_per_second": 55.895,
+      "eval_steps_per_second": 27.947,
+      "step": 52000
+    },
+    {
+      "acc": 0.65164657,
+      "epoch": 1.319254185692542,
+      "grad_norm": 5.09375,
+      "learning_rate": 2.846791472610865e-06,
+      "loss": 1.60270329,
+      "memory(GiB)": 111.15,
+      "step": 52005,
+      "train_speed(iter/s)": 0.447128
+    },
+    {
+      "acc": 0.63437414,
+      "epoch": 1.319381024860477,
+      "grad_norm": 5.34375,
+      "learning_rate": 2.845845113008239e-06,
+      "loss": 1.67756348,
+      "memory(GiB)": 111.15,
+      "step": 52010,
+      "train_speed(iter/s)": 0.447151
+    },
+    {
+      "acc": 0.65123463,
+      "epoch": 1.319507864028412,
+      "grad_norm": 5.40625,
+      "learning_rate": 2.84489884815496e-06,
+      "loss": 1.62159195,
+      "memory(GiB)": 111.15,
+      "step": 52015,
+      "train_speed(iter/s)": 0.447174
+    },
+    {
+      "acc": 0.64134455,
+      "epoch": 1.3196347031963471,
+      "grad_norm": 4.5625,
+      "learning_rate": 2.843952678092653e-06,
+      "loss": 1.59502592,
+      "memory(GiB)": 111.15,
+      "step": 52020,
+      "train_speed(iter/s)": 0.447196
+    },
+    {
+      "acc": 0.63990612,
+      "epoch": 1.3197615423642821,
+      "grad_norm": 5.5,
+      "learning_rate": 2.8430066028629328e-06,
+      "loss": 1.68054352,
+      "memory(GiB)": 111.15,
+      "step": 52025,
+      "train_speed(iter/s)": 0.447219
+    },
+    {
+      "acc": 0.65490832,
+      "epoch": 1.319888381532217,
+      "grad_norm": 5.125,
+      "learning_rate": 2.842060622507415e-06,
+      "loss": 1.59156752,
+      "memory(GiB)": 111.15,
+      "step": 52030,
+      "train_speed(iter/s)": 0.447242
+    },
+    {
+      "acc": 0.65409184,
+      "epoch": 1.320015220700152,
+      "grad_norm": 5.28125,
+      "learning_rate": 2.841114737067702e-06,
+      "loss": 1.5509882,
+      "memory(GiB)": 111.15,
+      "step": 52035,
+      "train_speed(iter/s)": 0.447264
+    },
+    {
+      "acc": 0.67078614,
+      "epoch": 1.3201420598680873,
+      "grad_norm": 4.71875,
+      "learning_rate": 2.840168946585402e-06,
+      "loss": 1.50965061,
+      "memory(GiB)": 111.15,
+      "step": 52040,
+      "train_speed(iter/s)": 0.447287
+    },
+    {
+      "acc": 0.66275196,
+      "epoch": 1.3202688990360223,
+      "grad_norm": 5.28125,
+      "learning_rate": 2.8392232511021158e-06,
+      "loss": 1.58553171,
+      "memory(GiB)": 111.15,
+      "step": 52045,
+      "train_speed(iter/s)": 0.44731
+    },
+    {
+      "acc": 0.64519625,
+      "epoch": 1.3203957382039575,
+      "grad_norm": 5.34375,
+      "learning_rate": 2.8382776506594385e-06,
+      "loss": 1.67092457,
+      "memory(GiB)": 111.15,
+      "step": 52050,
+      "train_speed(iter/s)": 0.447332
+    },
+    {
+      "acc": 0.64908171,
+      "epoch": 1.3205225773718925,
+      "grad_norm": 5.3125,
+      "learning_rate": 2.837332145298961e-06,
+      "loss": 1.62069817,
+      "memory(GiB)": 111.15,
+      "step": 52055,
+      "train_speed(iter/s)": 0.447355
+    },
+    {
+      "acc": 0.65596228,
+      "epoch": 1.3206494165398275,
+      "grad_norm": 6.90625,
+      "learning_rate": 2.836386735062271e-06,
+      "loss": 1.64731159,
+      "memory(GiB)": 111.15,
+      "step": 52060,
+      "train_speed(iter/s)": 0.447378
+    },
+    {
+      "acc": 0.67140579,
+      "epoch": 1.3207762557077625,
+      "grad_norm": 5.5,
+      "learning_rate": 2.835441419990953e-06,
+      "loss": 1.50725746,
+      "memory(GiB)": 111.15,
+      "step": 52065,
+      "train_speed(iter/s)": 0.447401
+    },
+    {
+      "acc": 0.63423309,
+      "epoch": 1.3209030948756977,
+      "grad_norm": 4.90625,
+      "learning_rate": 2.834496200126585e-06,
+      "loss": 1.6593874,
+      "memory(GiB)": 111.15,
+      "step": 52070,
+      "train_speed(iter/s)": 0.447424
+    },
+    {
+      "acc": 0.63486576,
+      "epoch": 1.3210299340436327,
+      "grad_norm": 5.6875,
+      "learning_rate": 2.8335510755107426e-06,
+      "loss": 1.70788918,
+      "memory(GiB)": 111.15,
+      "step": 52075,
+      "train_speed(iter/s)": 0.447447
+    },
+    {
+      "acc": 0.65876217,
+      "epoch": 1.3211567732115677,
+      "grad_norm": 6.0,
+      "learning_rate": 2.8326060461849966e-06,
+      "loss": 1.60739155,
+      "memory(GiB)": 111.15,
+      "step": 52080,
+      "train_speed(iter/s)": 0.44747
+    },
+    {
+      "acc": 0.66561136,
+      "epoch": 1.3212836123795029,
+      "grad_norm": 6.28125,
+      "learning_rate": 2.8316611121909126e-06,
+      "loss": 1.59585323,
+      "memory(GiB)": 111.15,
+      "step": 52085,
+      "train_speed(iter/s)": 0.447492
+    },
+    {
+      "acc": 0.65133753,
+      "epoch": 1.3214104515474379,
+      "grad_norm": 5.125,
+      "learning_rate": 2.8307162735700544e-06,
+      "loss": 1.74217644,
+      "memory(GiB)": 111.15,
+      "step": 52090,
+      "train_speed(iter/s)": 0.447515
+    },
+    {
+      "acc": 0.65980291,
+      "epoch": 1.3215372907153728,
+      "grad_norm": 5.59375,
+      "learning_rate": 2.8297715303639796e-06,
+      "loss": 1.55058298,
+      "memory(GiB)": 111.15,
+      "step": 52095,
+      "train_speed(iter/s)": 0.447538
+    },
+    {
+      "acc": 0.63457909,
+      "epoch": 1.3216641298833078,
+      "grad_norm": 4.65625,
+      "learning_rate": 2.8288268826142423e-06,
+      "loss": 1.7179203,
+      "memory(GiB)": 111.15,
+      "step": 52100,
+      "train_speed(iter/s)": 0.44756
+    },
+    {
+      "epoch": 1.3216641298833078,
+      "eval_acc": 0.6434067754337782,
+      "eval_loss": 1.6075010299682617,
+      "eval_runtime": 113.3935,
+      "eval_samples_per_second": 56.176,
+      "eval_steps_per_second": 28.088,
+      "step": 52100
+    },
+    {
+      "acc": 0.65409746,
+      "epoch": 1.321790969051243,
+      "grad_norm": 5.75,
+      "learning_rate": 2.8278823303623905e-06,
+      "loss": 1.62761879,
+      "memory(GiB)": 111.15,
+      "step": 52105,
+      "train_speed(iter/s)": 0.44713
+    },
+    {
+      "acc": 0.63894682,
+      "epoch": 1.321917808219178,
+      "grad_norm": 5.3125,
+      "learning_rate": 2.8269378736499754e-06,
+      "loss": 1.66500874,
+      "memory(GiB)": 111.15,
+      "step": 52110,
+      "train_speed(iter/s)": 0.447152
+    },
+    {
+      "acc": 0.65619936,
+      "epoch": 1.3220446473871132,
+      "grad_norm": 5.625,
+      "learning_rate": 2.8259935125185323e-06,
+      "loss": 1.66425705,
+      "memory(GiB)": 111.15,
+      "step": 52115,
+      "train_speed(iter/s)": 0.447175
+    },
+    {
+      "acc": 0.63502359,
+      "epoch": 1.3221714865550482,
+      "grad_norm": 5.90625,
+      "learning_rate": 2.8250492470096008e-06,
+      "loss": 1.69116516,
+      "memory(GiB)": 111.15,
+      "step": 52120,
+      "train_speed(iter/s)": 0.447198
+    },
+    {
+      "acc": 0.64987698,
+      "epoch": 1.3222983257229832,
+      "grad_norm": 6.34375,
+      "learning_rate": 2.824105077164712e-06,
+      "loss": 1.60672798,
+      "memory(GiB)": 111.15,
+      "step": 52125,
+      "train_speed(iter/s)": 0.44722
+    },
+    {
+      "acc": 0.6460454,
+      "epoch": 1.3224251648909182,
+      "grad_norm": 4.90625,
+      "learning_rate": 2.823161003025401e-06,
+      "loss": 1.66500053,
+      "memory(GiB)": 111.15,
+      "step": 52130,
+      "train_speed(iter/s)": 0.447243
+    },
+    {
+      "acc": 0.650423,
+      "epoch": 1.3225520040588534,
+      "grad_norm": 7.21875,
+      "learning_rate": 2.822217024633186e-06,
+      "loss": 1.68834362,
+      "memory(GiB)": 111.15,
+      "step": 52135,
+      "train_speed(iter/s)": 0.447266
+    },
+    {
+      "acc": 0.65094814,
+      "epoch": 1.3226788432267884,
+      "grad_norm": 5.21875,
+      "learning_rate": 2.821273142029587e-06,
+      "loss": 1.63238335,
+      "memory(GiB)": 111.15,
+      "step": 52140,
+      "train_speed(iter/s)": 0.447288
+    },
+    {
+      "acc": 0.64054031,
+      "epoch": 1.3228056823947236,
+      "grad_norm": 5.6875,
+      "learning_rate": 2.820329355256124e-06,
+      "loss": 1.61056023,
+      "memory(GiB)": 111.15,
+      "step": 52145,
+      "train_speed(iter/s)": 0.447311
+    },
+    {
+      "acc": 0.65471077,
+      "epoch": 1.3229325215626586,
+      "grad_norm": 5.375,
+      "learning_rate": 2.8193856643543106e-06,
+      "loss": 1.61375923,
+      "memory(GiB)": 111.15,
+      "step": 52150,
+      "train_speed(iter/s)": 0.447334
+    },
+    {
+      "acc": 0.64766092,
+      "epoch": 1.3230593607305936,
+      "grad_norm": 6.90625,
+      "learning_rate": 2.8184420693656468e-06,
+      "loss": 1.62207355,
+      "memory(GiB)": 111.15,
+      "step": 52155,
+      "train_speed(iter/s)": 0.447356
+    },
+    {
+      "acc": 0.65813999,
+      "epoch": 1.3231861998985286,
+      "grad_norm": 4.6875,
+      "learning_rate": 2.817498570331643e-06,
+      "loss": 1.58204803,
+      "memory(GiB)": 111.15,
+      "step": 52160,
+      "train_speed(iter/s)": 0.447379
+    },
+    {
+      "acc": 0.65937376,
+      "epoch": 1.3233130390664638,
+      "grad_norm": 4.90625,
+      "learning_rate": 2.816555167293795e-06,
+      "loss": 1.58489618,
+      "memory(GiB)": 111.15,
+      "step": 52165,
+      "train_speed(iter/s)": 0.447402
+    },
+    {
+      "acc": 0.65080757,
+      "epoch": 1.3234398782343988,
+      "grad_norm": 5.0625,
+      "learning_rate": 2.815611860293603e-06,
+      "loss": 1.68309841,
+      "memory(GiB)": 111.15,
+      "step": 52170,
+      "train_speed(iter/s)": 0.447424
+    },
+    {
+      "acc": 0.65599265,
+      "epoch": 1.3235667174023338,
+      "grad_norm": 5.09375,
+      "learning_rate": 2.814668649372549e-06,
+      "loss": 1.62099228,
+      "memory(GiB)": 111.15,
+      "step": 52175,
+      "train_speed(iter/s)": 0.447447
+    },
+    {
+      "acc": 0.64593887,
+      "epoch": 1.323693556570269,
+      "grad_norm": 6.03125,
+      "learning_rate": 2.8137255345721266e-06,
+      "loss": 1.67100029,
+      "memory(GiB)": 111.15,
+      "step": 52180,
+      "train_speed(iter/s)": 0.44747
+    },
+    {
+      "acc": 0.65187764,
+      "epoch": 1.323820395738204,
+      "grad_norm": 6.125,
+      "learning_rate": 2.8127825159338163e-06,
+      "loss": 1.67342834,
+      "memory(GiB)": 111.15,
+      "step": 52185,
+      "train_speed(iter/s)": 0.447492
+    },
+    {
+      "acc": 0.64188695,
+      "epoch": 1.323947234906139,
+      "grad_norm": 5.75,
+      "learning_rate": 2.8118395934990962e-06,
+      "loss": 1.72190323,
+      "memory(GiB)": 111.15,
+      "step": 52190,
+      "train_speed(iter/s)": 0.447515
+    },
+    {
+      "acc": 0.63349895,
+      "epoch": 1.324074074074074,
+      "grad_norm": 5.15625,
+      "learning_rate": 2.81089676730944e-06,
+      "loss": 1.65689182,
+      "memory(GiB)": 111.15,
+      "step": 52195,
+      "train_speed(iter/s)": 0.447537
+    },
+    {
+      "acc": 0.66355257,
+      "epoch": 1.3242009132420092,
+      "grad_norm": 4.59375,
+      "learning_rate": 2.8099540374063185e-06,
+      "loss": 1.57959805,
+      "memory(GiB)": 111.15,
+      "step": 52200,
+      "train_speed(iter/s)": 0.44756
+    },
+    {
+      "epoch": 1.3242009132420092,
+      "eval_acc": 0.6434280815665606,
+      "eval_loss": 1.6076656579971313,
+      "eval_runtime": 114.4271,
+      "eval_samples_per_second": 55.669,
+      "eval_steps_per_second": 27.834,
+      "step": 52200
+    },
+    {
+      "acc": 0.63358693,
+      "epoch": 1.3243277524099442,
+      "grad_norm": 4.5,
+      "learning_rate": 2.8090114038311956e-06,
+      "loss": 1.68698921,
+      "memory(GiB)": 111.15,
+      "step": 52205,
+      "train_speed(iter/s)": 0.447126
+    },
+    {
+      "acc": 0.64548616,
+      "epoch": 1.3244545915778794,
+      "grad_norm": 5.71875,
+      "learning_rate": 2.8080688666255328e-06,
+      "loss": 1.62653389,
+      "memory(GiB)": 111.15,
+      "step": 52210,
+      "train_speed(iter/s)": 0.447149
+    },
+    {
+      "acc": 0.6441947,
+      "epoch": 1.3245814307458144,
+      "grad_norm": 5.03125,
+      "learning_rate": 2.8071264258307884e-06,
+      "loss": 1.60196915,
+      "memory(GiB)": 111.15,
+      "step": 52215,
+      "train_speed(iter/s)": 0.447171
+    },
+    {
+      "acc": 0.66268568,
+      "epoch": 1.3247082699137493,
+      "grad_norm": 4.96875,
+      "learning_rate": 2.8061840814884133e-06,
+      "loss": 1.58032045,
+      "memory(GiB)": 111.15,
+      "step": 52220,
+      "train_speed(iter/s)": 0.447194
+    },
+    {
+      "acc": 0.66499128,
+      "epoch": 1.3248351090816843,
+      "grad_norm": 4.625,
+      "learning_rate": 2.805241833639858e-06,
+      "loss": 1.59556236,
+      "memory(GiB)": 111.15,
+      "step": 52225,
+      "train_speed(iter/s)": 0.447217
+    },
+    {
+      "acc": 0.64801416,
+      "epoch": 1.3249619482496195,
+      "grad_norm": 4.8125,
+      "learning_rate": 2.804299682326565e-06,
+      "loss": 1.64481983,
+      "memory(GiB)": 111.15,
+      "step": 52230,
+      "train_speed(iter/s)": 0.447239
+    },
+    {
+      "acc": 0.65199566,
+      "epoch": 1.3250887874175545,
+      "grad_norm": 5.21875,
+      "learning_rate": 2.8033576275899752e-06,
+      "loss": 1.64422684,
+      "memory(GiB)": 111.15,
+      "step": 52235,
+      "train_speed(iter/s)": 0.447262
+    },
+    {
+      "acc": 0.64881196,
+      "epoch": 1.3252156265854895,
+      "grad_norm": 5.03125,
+      "learning_rate": 2.8024156694715242e-06,
+      "loss": 1.65006638,
+      "memory(GiB)": 111.15,
+      "step": 52240,
+      "train_speed(iter/s)": 0.447284
+    },
+    {
+      "acc": 0.6359581,
+      "epoch": 1.3253424657534247,
+      "grad_norm": 5.4375,
+      "learning_rate": 2.8014738080126424e-06,
+      "loss": 1.6880949,
+      "memory(GiB)": 111.15,
+      "step": 52245,
+      "train_speed(iter/s)": 0.447307
+    },
+    {
+      "acc": 0.65246181,
+      "epoch": 1.3254693049213597,
+      "grad_norm": 4.34375,
+      "learning_rate": 2.8005320432547612e-06,
+      "loss": 1.63177299,
+      "memory(GiB)": 111.15,
+      "step": 52250,
+      "train_speed(iter/s)": 0.44733
+    },
+    {
+      "acc": 0.63821292,
+      "epoch": 1.3255961440892947,
+      "grad_norm": 5.75,
+      "learning_rate": 2.7995903752392993e-06,
+      "loss": 1.64787979,
+      "memory(GiB)": 111.15,
+      "step": 52255,
+      "train_speed(iter/s)": 0.447352
+    },
+    {
+      "acc": 0.66979837,
+      "epoch": 1.3257229832572297,
+      "grad_norm": 5.96875,
+      "learning_rate": 2.7986488040076764e-06,
+      "loss": 1.53770504,
+      "memory(GiB)": 111.15,
+      "step": 52260,
+      "train_speed(iter/s)": 0.447375
+    },
+    {
+      "acc": 0.64499645,
+      "epoch": 1.325849822425165,
+      "grad_norm": 6.5625,
+      "learning_rate": 2.797707329601306e-06,
+      "loss": 1.70375977,
+      "memory(GiB)": 111.15,
+      "step": 52265,
+      "train_speed(iter/s)": 0.447398
+    },
+    {
+      "acc": 0.64760723,
+      "epoch": 1.3259766615931,
+      "grad_norm": 5.90625,
+      "learning_rate": 2.7967659520616032e-06,
+      "loss": 1.60324993,
+      "memory(GiB)": 111.15,
+      "step": 52270,
+      "train_speed(iter/s)": 0.447421
+    },
+    {
+      "acc": 0.65784149,
+      "epoch": 1.3261035007610351,
+      "grad_norm": 4.71875,
+      "learning_rate": 2.7958246714299685e-06,
+      "loss": 1.48627863,
+      "memory(GiB)": 111.15,
+      "step": 52275,
+      "train_speed(iter/s)": 0.447443
+    },
+    {
+      "acc": 0.64107094,
+      "epoch": 1.32623033992897,
+      "grad_norm": 4.46875,
+      "learning_rate": 2.7948834877478035e-06,
+      "loss": 1.64859982,
+      "memory(GiB)": 111.15,
+      "step": 52280,
+      "train_speed(iter/s)": 0.447466
+    },
+    {
+      "acc": 0.63146014,
+      "epoch": 1.326357179096905,
+      "grad_norm": 6.1875,
+      "learning_rate": 2.7939424010565107e-06,
+      "loss": 1.69948101,
+      "memory(GiB)": 111.15,
+      "step": 52285,
+      "train_speed(iter/s)": 0.447488
+    },
+    {
+      "acc": 0.65651646,
+      "epoch": 1.32648401826484,
+      "grad_norm": 5.09375,
+      "learning_rate": 2.793001411397482e-06,
+      "loss": 1.6648901,
+      "memory(GiB)": 111.15,
+      "step": 52290,
+      "train_speed(iter/s)": 0.447511
+    },
+    {
+      "acc": 0.64474525,
+      "epoch": 1.3266108574327753,
+      "grad_norm": 5.9375,
+      "learning_rate": 2.792060518812103e-06,
+      "loss": 1.65687714,
+      "memory(GiB)": 111.15,
+      "step": 52295,
+      "train_speed(iter/s)": 0.447534
+    },
+    {
+      "acc": 0.65726428,
+      "epoch": 1.3267376966007103,
+      "grad_norm": 6.15625,
+      "learning_rate": 2.7911197233417574e-06,
+      "loss": 1.61543655,
+      "memory(GiB)": 111.15,
+      "step": 52300,
+      "train_speed(iter/s)": 0.447556
+    },
+    {
+      "epoch": 1.3267376966007103,
+      "eval_acc": 0.6433917358106378,
+      "eval_loss": 1.6075632572174072,
+      "eval_runtime": 113.8104,
+      "eval_samples_per_second": 55.97,
+      "eval_steps_per_second": 27.985,
+      "step": 52300
+    },
+    {
+      "acc": 0.64864416,
+      "epoch": 1.3268645357686455,
+      "grad_norm": 5.59375,
+      "learning_rate": 2.790179025027831e-06,
+      "loss": 1.66857777,
+      "memory(GiB)": 111.15,
+      "step": 52305,
+      "train_speed(iter/s)": 0.447126
+    },
+    {
+      "acc": 0.634446,
+      "epoch": 1.3269913749365805,
+      "grad_norm": 6.375,
+      "learning_rate": 2.789238423911699e-06,
+      "loss": 1.66079559,
+      "memory(GiB)": 111.15,
+      "step": 52310,
+      "train_speed(iter/s)": 0.447149
+    },
+    {
+      "acc": 0.66116157,
+      "epoch": 1.3271182141045155,
+      "grad_norm": 5.34375,
+      "learning_rate": 2.788297920034727e-06,
+      "loss": 1.58883286,
+      "memory(GiB)": 111.15,
+      "step": 52315,
+      "train_speed(iter/s)": 0.447171
+    },
+    {
+      "acc": 0.65766153,
+      "epoch": 1.3272450532724505,
+      "grad_norm": 6.0,
+      "learning_rate": 2.78735751343829e-06,
+      "loss": 1.63275776,
+      "memory(GiB)": 111.15,
+      "step": 52320,
+      "train_speed(iter/s)": 0.447194
+    },
+    {
+      "acc": 0.6500865,
+      "epoch": 1.3273718924403857,
+      "grad_norm": 5.8125,
+      "learning_rate": 2.786417204163748e-06,
+      "loss": 1.63558235,
+      "memory(GiB)": 111.15,
+      "step": 52325,
+      "train_speed(iter/s)": 0.447217
+    },
+    {
+      "acc": 0.64498119,
+      "epoch": 1.3274987316083207,
+      "grad_norm": 4.71875,
+      "learning_rate": 2.7854769922524593e-06,
+      "loss": 1.61316528,
+      "memory(GiB)": 111.15,
+      "step": 52330,
+      "train_speed(iter/s)": 0.447239
+    },
+    {
+      "acc": 0.6551404,
+      "epoch": 1.3276255707762556,
+      "grad_norm": 5.4375,
+      "learning_rate": 2.7845368777457803e-06,
+      "loss": 1.64711761,
+      "memory(GiB)": 111.15,
+      "step": 52335,
+      "train_speed(iter/s)": 0.447261
+    },
+    {
+      "acc": 0.65340734,
+      "epoch": 1.3277524099441909,
+      "grad_norm": 5.25,
+      "learning_rate": 2.7835968606850616e-06,
+      "loss": 1.67016792,
+      "memory(GiB)": 111.15,
+      "step": 52340,
+      "train_speed(iter/s)": 0.447284
+    },
+    {
+      "acc": 0.6383204,
+      "epoch": 1.3278792491121258,
+      "grad_norm": 5.90625,
+      "learning_rate": 2.782656941111648e-06,
+      "loss": 1.63859749,
+      "memory(GiB)": 111.15,
+      "step": 52345,
+      "train_speed(iter/s)": 0.447307
+    },
+    {
+      "acc": 0.66359091,
+      "epoch": 1.3280060882800608,
+      "grad_norm": 6.75,
+      "learning_rate": 2.7817171190668812e-06,
+      "loss": 1.52025909,
+      "memory(GiB)": 111.15,
+      "step": 52350,
+      "train_speed(iter/s)": 0.447329
+    },
+    {
+      "acc": 0.64622078,
+      "epoch": 1.3281329274479958,
+      "grad_norm": 5.625,
+      "learning_rate": 2.7807773945921e-06,
+      "loss": 1.63784294,
+      "memory(GiB)": 111.15,
+      "step": 52355,
+      "train_speed(iter/s)": 0.447352
+    },
+    {
+      "acc": 0.66414585,
+      "epoch": 1.328259766615931,
+      "grad_norm": 4.84375,
+      "learning_rate": 2.7798377677286363e-06,
+      "loss": 1.59609432,
+      "memory(GiB)": 111.15,
+      "step": 52360,
+      "train_speed(iter/s)": 0.447374
+    },
+    {
+      "acc": 0.65351386,
+      "epoch": 1.328386605783866,
+      "grad_norm": 5.4375,
+      "learning_rate": 2.778898238517821e-06,
+      "loss": 1.55859947,
+      "memory(GiB)": 111.15,
+      "step": 52365,
+      "train_speed(iter/s)": 0.447397
+    },
+    {
+      "acc": 0.64565239,
+      "epoch": 1.3285134449518012,
+      "grad_norm": 5.09375,
+      "learning_rate": 2.7779588070009767e-06,
+      "loss": 1.61928024,
+      "memory(GiB)": 111.15,
+      "step": 52370,
+      "train_speed(iter/s)": 0.447419
+    },
+    {
+      "acc": 0.65534434,
+      "epoch": 1.3286402841197362,
+      "grad_norm": 5.09375,
+      "learning_rate": 2.7770194732194256e-06,
+      "loss": 1.6037468,
+      "memory(GiB)": 111.15,
+      "step": 52375,
+      "train_speed(iter/s)": 0.447442
+    },
+    {
+      "acc": 0.6443974,
+      "epoch": 1.3287671232876712,
+      "grad_norm": 4.53125,
+      "learning_rate": 2.7760802372144825e-06,
+      "loss": 1.67486916,
+      "memory(GiB)": 111.15,
+      "step": 52380,
+      "train_speed(iter/s)": 0.447464
+    },
+    {
+      "acc": 0.66042356,
+      "epoch": 1.3288939624556062,
+      "grad_norm": 6.09375,
+      "learning_rate": 2.7751410990274596e-06,
+      "loss": 1.60646439,
+      "memory(GiB)": 111.15,
+      "step": 52385,
+      "train_speed(iter/s)": 0.447487
+    },
+    {
+      "acc": 0.65320311,
+      "epoch": 1.3290208016235414,
+      "grad_norm": 5.625,
+      "learning_rate": 2.774202058699664e-06,
+      "loss": 1.53985758,
+      "memory(GiB)": 111.15,
+      "step": 52390,
+      "train_speed(iter/s)": 0.447509
+    },
+    {
+      "acc": 0.64811983,
+      "epoch": 1.3291476407914764,
+      "grad_norm": 4.65625,
+      "learning_rate": 2.7732631162724005e-06,
+      "loss": 1.59303188,
+      "memory(GiB)": 111.15,
+      "step": 52395,
+      "train_speed(iter/s)": 0.447532
+    },
+    {
+      "acc": 0.65029635,
+      "epoch": 1.3292744799594114,
+      "grad_norm": 4.4375,
+      "learning_rate": 2.772324271786966e-06,
+      "loss": 1.63236294,
+      "memory(GiB)": 111.15,
+      "step": 52400,
+      "train_speed(iter/s)": 0.447554
+    },
+    {
+      "epoch": 1.3292744799594114,
+      "eval_acc": 0.643400091156827,
+      "eval_loss": 1.607512354850769,
+      "eval_runtime": 113.2952,
+      "eval_samples_per_second": 56.225,
+      "eval_steps_per_second": 28.112,
+      "step": 52400
+    },
+    {
+      "acc": 0.65643592,
+      "epoch": 1.3294013191273466,
+      "grad_norm": 5.625,
+      "learning_rate": 2.7713855252846545e-06,
+      "loss": 1.62707596,
+      "memory(GiB)": 111.15,
+      "step": 52405,
+      "train_speed(iter/s)": 0.447127
+    },
+    {
+      "acc": 0.65401134,
+      "epoch": 1.3295281582952816,
+      "grad_norm": 5.1875,
+      "learning_rate": 2.7704468768067616e-06,
+      "loss": 1.56421375,
+      "memory(GiB)": 111.15,
+      "step": 52410,
+      "train_speed(iter/s)": 0.447149
+    },
+    {
+      "acc": 0.63932686,
+      "epoch": 1.3296549974632166,
+      "grad_norm": 6.90625,
+      "learning_rate": 2.7695083263945664e-06,
+      "loss": 1.69855385,
+      "memory(GiB)": 111.15,
+      "step": 52415,
+      "train_speed(iter/s)": 0.447172
+    },
+    {
+      "acc": 0.64069662,
+      "epoch": 1.3297818366311516,
+      "grad_norm": 5.46875,
+      "learning_rate": 2.7685698740893516e-06,
+      "loss": 1.69707184,
+      "memory(GiB)": 111.15,
+      "step": 52420,
+      "train_speed(iter/s)": 0.447194
+    },
+    {
+      "acc": 0.65318012,
+      "epoch": 1.3299086757990868,
+      "grad_norm": 5.96875,
+      "learning_rate": 2.7676315199323995e-06,
+      "loss": 1.63118629,
+      "memory(GiB)": 111.15,
+      "step": 52425,
+      "train_speed(iter/s)": 0.447217
+    },
+    {
+      "acc": 0.66689315,
+      "epoch": 1.3300355149670218,
+      "grad_norm": 5.75,
+      "learning_rate": 2.7666932639649814e-06,
+      "loss": 1.547118,
+      "memory(GiB)": 111.15,
+      "step": 52430,
+      "train_speed(iter/s)": 0.447239
+    },
+    {
+      "acc": 0.64043655,
+      "epoch": 1.330162354134957,
+      "grad_norm": 5.09375,
+      "learning_rate": 2.765755106228362e-06,
+      "loss": 1.62142429,
+      "memory(GiB)": 111.15,
+      "step": 52435,
+      "train_speed(iter/s)": 0.447262
+    },
+    {
+      "acc": 0.6451354,
+      "epoch": 1.330289193302892,
+      "grad_norm": 5.90625,
+      "learning_rate": 2.764817046763807e-06,
+      "loss": 1.61909657,
+      "memory(GiB)": 111.15,
+      "step": 52440,
+      "train_speed(iter/s)": 0.447284
+    },
+    {
+      "acc": 0.65412731,
+      "epoch": 1.330416032470827,
+      "grad_norm": 5.375,
+      "learning_rate": 2.7638790856125786e-06,
+      "loss": 1.65015774,
+      "memory(GiB)": 111.15,
+      "step": 52445,
+      "train_speed(iter/s)": 0.447307
+    },
+    {
+      "acc": 0.64888215,
+      "epoch": 1.330542871638762,
+      "grad_norm": 5.28125,
+      "learning_rate": 2.7629412228159346e-06,
+      "loss": 1.66187363,
+      "memory(GiB)": 111.15,
+      "step": 52450,
+      "train_speed(iter/s)": 0.447329
+    },
+    {
+      "acc": 0.64430885,
+      "epoch": 1.3306697108066972,
+      "grad_norm": 6.25,
+      "learning_rate": 2.762003458415119e-06,
+      "loss": 1.65838203,
+      "memory(GiB)": 111.15,
+      "step": 52455,
+      "train_speed(iter/s)": 0.447352
+    },
+    {
+      "acc": 0.65810924,
+      "epoch": 1.3307965499746321,
+      "grad_norm": 5.15625,
+      "learning_rate": 2.7610657924513853e-06,
+      "loss": 1.62168617,
+      "memory(GiB)": 111.15,
+      "step": 52460,
+      "train_speed(iter/s)": 0.447374
+    },
+    {
+      "acc": 0.65891066,
+      "epoch": 1.3309233891425674,
+      "grad_norm": 5.5,
+      "learning_rate": 2.7601282249659737e-06,
+      "loss": 1.64532299,
+      "memory(GiB)": 111.15,
+      "step": 52465,
+      "train_speed(iter/s)": 0.447397
+    },
+    {
+      "acc": 0.63913946,
+      "epoch": 1.3310502283105023,
+      "grad_norm": 5.8125,
+      "learning_rate": 2.759190756000126e-06,
+      "loss": 1.69640503,
+      "memory(GiB)": 111.15,
+      "step": 52470,
+      "train_speed(iter/s)": 0.44742
+    },
+    {
+      "acc": 0.64560795,
+      "epoch": 1.3311770674784373,
+      "grad_norm": 6.5625,
+      "learning_rate": 2.7582533855950687e-06,
+      "loss": 1.66519241,
+      "memory(GiB)": 111.15,
+      "step": 52475,
+      "train_speed(iter/s)": 0.447442
+    },
+    {
+      "acc": 0.64546876,
+      "epoch": 1.3313039066463723,
+      "grad_norm": 5.1875,
+      "learning_rate": 2.757316113792038e-06,
+      "loss": 1.66235714,
+      "memory(GiB)": 111.15,
+      "step": 52480,
+      "train_speed(iter/s)": 0.447465
+    },
+    {
+      "acc": 0.63341217,
+      "epoch": 1.3314307458143075,
+      "grad_norm": 4.8125,
+      "learning_rate": 2.756378940632258e-06,
+      "loss": 1.66120186,
+      "memory(GiB)": 111.15,
+      "step": 52485,
+      "train_speed(iter/s)": 0.447487
+    },
+    {
+      "acc": 0.63737078,
+      "epoch": 1.3315575849822425,
+      "grad_norm": 6.125,
+      "learning_rate": 2.755441866156949e-06,
+      "loss": 1.70366135,
+      "memory(GiB)": 111.15,
+      "step": 52490,
+      "train_speed(iter/s)": 0.44751
+    },
+    {
+      "acc": 0.65611734,
+      "epoch": 1.3316844241501775,
+      "grad_norm": 5.125,
+      "learning_rate": 2.7545048904073278e-06,
+      "loss": 1.6495306,
+      "memory(GiB)": 111.15,
+      "step": 52495,
+      "train_speed(iter/s)": 0.447533
+    },
+    {
+      "acc": 0.65985022,
+      "epoch": 1.3318112633181127,
+      "grad_norm": 5.0625,
+      "learning_rate": 2.7535680134246067e-06,
+      "loss": 1.61899147,
+      "memory(GiB)": 111.15,
+      "step": 52500,
+      "train_speed(iter/s)": 0.447555
+    },
+    {
+      "epoch": 1.3318112633181127,
+      "eval_acc": 0.6434109531068728,
+      "eval_loss": 1.6075339317321777,
+      "eval_runtime": 114.0734,
+      "eval_samples_per_second": 55.841,
+      "eval_steps_per_second": 27.921,
+      "step": 52500
+    },
+    {
+      "acc": 0.66929626,
+      "epoch": 1.3319381024860477,
+      "grad_norm": 5.0625,
+      "learning_rate": 2.752631235249995e-06,
+      "loss": 1.62384148,
+      "memory(GiB)": 111.15,
+      "step": 52505,
+      "train_speed(iter/s)": 0.447125
+    },
+    {
+      "acc": 0.65940037,
+      "epoch": 1.3320649416539827,
+      "grad_norm": 5.90625,
+      "learning_rate": 2.7516945559246945e-06,
+      "loss": 1.53961611,
+      "memory(GiB)": 111.15,
+      "step": 52510,
+      "train_speed(iter/s)": 0.447148
+    },
+    {
+      "acc": 0.64912672,
+      "epoch": 1.3321917808219177,
+      "grad_norm": 5.28125,
+      "learning_rate": 2.7507579754899053e-06,
+      "loss": 1.5987112,
+      "memory(GiB)": 111.15,
+      "step": 52515,
+      "train_speed(iter/s)": 0.44717
+    },
+    {
+      "acc": 0.66625929,
+      "epoch": 1.332318619989853,
+      "grad_norm": 5.625,
+      "learning_rate": 2.749821493986823e-06,
+      "loss": 1.53242416,
+      "memory(GiB)": 111.15,
+      "step": 52520,
+      "train_speed(iter/s)": 0.447193
+    },
+    {
+      "acc": 0.66253343,
+      "epoch": 1.332445459157788,
+      "grad_norm": 5.96875,
+      "learning_rate": 2.748885111456637e-06,
+      "loss": 1.62852077,
+      "memory(GiB)": 111.15,
+      "step": 52525,
+      "train_speed(iter/s)": 0.447215
+    },
+    {
+      "acc": 0.6605175,
+      "epoch": 1.332572298325723,
+      "grad_norm": 6.15625,
+      "learning_rate": 2.7479488279405354e-06,
+      "loss": 1.6123806,
+      "memory(GiB)": 111.15,
+      "step": 52530,
+      "train_speed(iter/s)": 0.447237
+    },
+    {
+      "acc": 0.65388393,
+      "epoch": 1.332699137493658,
+      "grad_norm": 5.96875,
+      "learning_rate": 2.7470126434796984e-06,
+      "loss": 1.60558472,
+      "memory(GiB)": 111.15,
+      "step": 52535,
+      "train_speed(iter/s)": 0.44726
+    },
+    {
+      "acc": 0.63599892,
+      "epoch": 1.332825976661593,
+      "grad_norm": 5.4375,
+      "learning_rate": 2.746076558115304e-06,
+      "loss": 1.67281132,
+      "memory(GiB)": 111.15,
+      "step": 52540,
+      "train_speed(iter/s)": 0.447282
+    },
+    {
+      "acc": 0.66483622,
+      "epoch": 1.332952815829528,
+      "grad_norm": 5.0625,
+      "learning_rate": 2.7451405718885237e-06,
+      "loss": 1.58534985,
+      "memory(GiB)": 111.15,
+      "step": 52545,
+      "train_speed(iter/s)": 0.447305
+    },
+    {
+      "acc": 0.64917707,
+      "epoch": 1.3330796549974633,
+      "grad_norm": 5.3125,
+      "learning_rate": 2.7442046848405328e-06,
+      "loss": 1.57776146,
+      "memory(GiB)": 111.15,
+      "step": 52550,
+      "train_speed(iter/s)": 0.447327
+    },
+    {
+      "acc": 0.66196413,
+      "epoch": 1.3332064941653983,
+      "grad_norm": 5.03125,
+      "learning_rate": 2.743268897012489e-06,
+      "loss": 1.56166677,
+      "memory(GiB)": 111.15,
+      "step": 52555,
+      "train_speed(iter/s)": 0.447349
+    },
+    {
+      "acc": 0.64267707,
+      "epoch": 1.3333333333333333,
+      "grad_norm": 5.90625,
+      "learning_rate": 2.7423332084455543e-06,
+      "loss": 1.64629021,
+      "memory(GiB)": 111.15,
+      "step": 52560,
+      "train_speed(iter/s)": 0.447372
+    },
+    {
+      "acc": 0.66486483,
+      "epoch": 1.3334601725012685,
+      "grad_norm": 5.6875,
+      "learning_rate": 2.741397619180883e-06,
+      "loss": 1.51922836,
+      "memory(GiB)": 111.15,
+      "step": 52565,
+      "train_speed(iter/s)": 0.447395
+    },
+    {
+      "acc": 0.64411945,
+      "epoch": 1.3335870116692035,
+      "grad_norm": 5.21875,
+      "learning_rate": 2.740462129259633e-06,
+      "loss": 1.69503899,
+      "memory(GiB)": 111.15,
+      "step": 52570,
+      "train_speed(iter/s)": 0.447418
+    },
+    {
+      "acc": 0.64473686,
+      "epoch": 1.3337138508371384,
+      "grad_norm": 5.03125,
+      "learning_rate": 2.739526738722944e-06,
+      "loss": 1.68766899,
+      "memory(GiB)": 111.15,
+      "step": 52575,
+      "train_speed(iter/s)": 0.447441
+    },
+    {
+      "acc": 0.65661812,
+      "epoch": 1.3338406900050734,
+      "grad_norm": 4.96875,
+      "learning_rate": 2.738591447611959e-06,
+      "loss": 1.57193947,
+      "memory(GiB)": 111.15,
+      "step": 52580,
+      "train_speed(iter/s)": 0.447463
+    },
+    {
+      "acc": 0.63269653,
+      "epoch": 1.3339675291730086,
+      "grad_norm": 5.53125,
+      "learning_rate": 2.7376562559678214e-06,
+      "loss": 1.67139969,
+      "memory(GiB)": 111.15,
+      "step": 52585,
+      "train_speed(iter/s)": 0.447485
+    },
+    {
+      "acc": 0.65087762,
+      "epoch": 1.3340943683409436,
+      "grad_norm": 6.3125,
+      "learning_rate": 2.7367211638316637e-06,
+      "loss": 1.68400345,
+      "memory(GiB)": 111.15,
+      "step": 52590,
+      "train_speed(iter/s)": 0.447508
+    },
+    {
+      "acc": 0.65782366,
+      "epoch": 1.3342212075088788,
+      "grad_norm": 4.84375,
+      "learning_rate": 2.735786171244611e-06,
+      "loss": 1.62124252,
+      "memory(GiB)": 111.15,
+      "step": 52595,
+      "train_speed(iter/s)": 0.44753
+    },
+    {
+      "acc": 0.63886976,
+      "epoch": 1.3343480466768138,
+      "grad_norm": 5.25,
+      "learning_rate": 2.7348512782477922e-06,
+      "loss": 1.62755547,
+      "memory(GiB)": 111.15,
+      "step": 52600,
+      "train_speed(iter/s)": 0.447553
+    },
+    {
+      "epoch": 1.3343480466768138,
+      "eval_acc": 0.6434610851840077,
+      "eval_loss": 1.607561707496643,
+      "eval_runtime": 113.5926,
+      "eval_samples_per_second": 56.078,
+      "eval_steps_per_second": 28.039,
+      "step": 52600
+    },
+    {
+      "acc": 0.65200443,
+      "epoch": 1.3344748858447488,
+      "grad_norm": 6.0625,
+      "learning_rate": 2.7339164848823287e-06,
+      "loss": 1.60147133,
+      "memory(GiB)": 111.15,
+      "step": 52605,
+      "train_speed(iter/s)": 0.447126
+    },
+    {
+      "acc": 0.6489748,
+      "epoch": 1.3346017250126838,
+      "grad_norm": 5.71875,
+      "learning_rate": 2.7329817911893365e-06,
+      "loss": 1.66016006,
+      "memory(GiB)": 111.15,
+      "step": 52610,
+      "train_speed(iter/s)": 0.447148
+    },
+    {
+      "acc": 0.65182171,
+      "epoch": 1.334728564180619,
+      "grad_norm": 5.59375,
+      "learning_rate": 2.7320471972099226e-06,
+      "loss": 1.61597233,
+      "memory(GiB)": 111.15,
+      "step": 52615,
+      "train_speed(iter/s)": 0.44717
+    },
+    {
+      "acc": 0.65115376,
+      "epoch": 1.334855403348554,
+      "grad_norm": 4.90625,
+      "learning_rate": 2.7311127029852007e-06,
+      "loss": 1.61048679,
+      "memory(GiB)": 111.15,
+      "step": 52620,
+      "train_speed(iter/s)": 0.447193
+    },
+    {
+      "acc": 0.63780551,
+      "epoch": 1.3349822425164892,
+      "grad_norm": 5.1875,
+      "learning_rate": 2.7301783085562726e-06,
+      "loss": 1.69403648,
+      "memory(GiB)": 111.15,
+      "step": 52625,
+      "train_speed(iter/s)": 0.447215
+    },
+    {
+      "acc": 0.6502841,
+      "epoch": 1.3351090816844242,
+      "grad_norm": 5.25,
+      "learning_rate": 2.7292440139642364e-06,
+      "loss": 1.65515251,
+      "memory(GiB)": 111.15,
+      "step": 52630,
+      "train_speed(iter/s)": 0.447238
+    },
+    {
+      "acc": 0.64561157,
+      "epoch": 1.3352359208523592,
+      "grad_norm": 5.28125,
+      "learning_rate": 2.7283098192501855e-06,
+      "loss": 1.60465851,
+      "memory(GiB)": 111.15,
+      "step": 52635,
+      "train_speed(iter/s)": 0.44726
+    },
+    {
+      "acc": 0.65191488,
+      "epoch": 1.3353627600202942,
+      "grad_norm": 5.5,
+      "learning_rate": 2.7273757244552124e-06,
+      "loss": 1.54540596,
+      "memory(GiB)": 111.15,
+      "step": 52640,
+      "train_speed(iter/s)": 0.447283
+    },
+    {
+      "acc": 0.65430346,
+      "epoch": 1.3354895991882294,
+      "grad_norm": 5.15625,
+      "learning_rate": 2.726441729620401e-06,
+      "loss": 1.59909019,
+      "memory(GiB)": 111.15,
+      "step": 52645,
+      "train_speed(iter/s)": 0.447305
+    },
+    {
+      "acc": 0.65815258,
+      "epoch": 1.3356164383561644,
+      "grad_norm": 5.03125,
+      "learning_rate": 2.725507834786833e-06,
+      "loss": 1.64427319,
+      "memory(GiB)": 111.15,
+      "step": 52650,
+      "train_speed(iter/s)": 0.447328
+    },
+    {
+      "acc": 0.6541852,
+      "epoch": 1.3357432775240994,
+      "grad_norm": 5.8125,
+      "learning_rate": 2.7245740399955857e-06,
+      "loss": 1.62635994,
+      "memory(GiB)": 111.15,
+      "step": 52655,
+      "train_speed(iter/s)": 0.447351
+    },
+    {
+      "acc": 0.65479126,
+      "epoch": 1.3358701166920346,
+      "grad_norm": 5.0,
+      "learning_rate": 2.72364034528773e-06,
+      "loss": 1.61537666,
+      "memory(GiB)": 111.15,
+      "step": 52660,
+      "train_speed(iter/s)": 0.447373
+    },
+    {
+      "acc": 0.65765753,
+      "epoch": 1.3359969558599696,
+      "grad_norm": 5.3125,
+      "learning_rate": 2.722706750704337e-06,
+      "loss": 1.61468487,
+      "memory(GiB)": 111.15,
+      "step": 52665,
+      "train_speed(iter/s)": 0.447396
+    },
+    {
+      "acc": 0.64497232,
+      "epoch": 1.3361237950279046,
+      "grad_norm": 5.4375,
+      "learning_rate": 2.7217732562864673e-06,
+      "loss": 1.64504128,
+      "memory(GiB)": 111.15,
+      "step": 52670,
+      "train_speed(iter/s)": 0.447418
+    },
+    {
+      "acc": 0.63576684,
+      "epoch": 1.3362506341958396,
+      "grad_norm": 6.8125,
+      "learning_rate": 2.720839862075181e-06,
+      "loss": 1.66652126,
+      "memory(GiB)": 111.15,
+      "step": 52675,
+      "train_speed(iter/s)": 0.447441
+    },
+    {
+      "acc": 0.65718546,
+      "epoch": 1.3363774733637748,
+      "grad_norm": 4.59375,
+      "learning_rate": 2.7199065681115344e-06,
+      "loss": 1.62274837,
+      "memory(GiB)": 111.15,
+      "step": 52680,
+      "train_speed(iter/s)": 0.447463
+    },
+    {
+      "acc": 0.6507391,
+      "epoch": 1.3365043125317098,
+      "grad_norm": 5.875,
+      "learning_rate": 2.7189733744365742e-06,
+      "loss": 1.61160049,
+      "memory(GiB)": 111.15,
+      "step": 52685,
+      "train_speed(iter/s)": 0.447486
+    },
+    {
+      "acc": 0.64688416,
+      "epoch": 1.336631151699645,
+      "grad_norm": 5.28125,
+      "learning_rate": 2.718040281091353e-06,
+      "loss": 1.57212868,
+      "memory(GiB)": 111.15,
+      "step": 52690,
+      "train_speed(iter/s)": 0.447509
+    },
+    {
+      "acc": 0.65037251,
+      "epoch": 1.33675799086758,
+      "grad_norm": 5.34375,
+      "learning_rate": 2.717107288116906e-06,
+      "loss": 1.59334316,
+      "memory(GiB)": 111.15,
+      "step": 52695,
+      "train_speed(iter/s)": 0.447531
+    },
+    {
+      "acc": 0.65334435,
+      "epoch": 1.336884830035515,
+      "grad_norm": 5.0625,
+      "learning_rate": 2.716174395554274e-06,
+      "loss": 1.62640648,
+      "memory(GiB)": 111.15,
+      "step": 52700,
+      "train_speed(iter/s)": 0.447554
+    },
+    {
+      "epoch": 1.336884830035515,
+      "eval_acc": 0.6434025977606836,
+      "eval_loss": 1.6076854467391968,
+      "eval_runtime": 114.2529,
+      "eval_samples_per_second": 55.753,
+      "eval_steps_per_second": 27.877,
+      "step": 52700
+    },
+    {
+      "acc": 0.65734053,
+      "epoch": 1.33701166920345,
+      "grad_norm": 4.75,
+      "learning_rate": 2.715241603444486e-06,
+      "loss": 1.65646095,
+      "memory(GiB)": 111.15,
+      "step": 52705,
+      "train_speed(iter/s)": 0.447125
+    },
+    {
+      "acc": 0.65683508,
+      "epoch": 1.3371385083713851,
+      "grad_norm": 5.1875,
+      "learning_rate": 2.714308911828577e-06,
+      "loss": 1.57499371,
+      "memory(GiB)": 111.15,
+      "step": 52710,
+      "train_speed(iter/s)": 0.447147
+    },
+    {
+      "acc": 0.64546719,
+      "epoch": 1.3372653475393201,
+      "grad_norm": 5.5,
+      "learning_rate": 2.713376320747565e-06,
+      "loss": 1.68561363,
+      "memory(GiB)": 111.15,
+      "step": 52715,
+      "train_speed(iter/s)": 0.447169
+    },
+    {
+      "acc": 0.64315352,
+      "epoch": 1.3373921867072551,
+      "grad_norm": 5.4375,
+      "learning_rate": 2.7124438302424696e-06,
+      "loss": 1.62076626,
+      "memory(GiB)": 111.15,
+      "step": 52720,
+      "train_speed(iter/s)": 0.447192
+    },
+    {
+      "acc": 0.64043331,
+      "epoch": 1.3375190258751903,
+      "grad_norm": 6.40625,
+      "learning_rate": 2.711511440354309e-06,
+      "loss": 1.62980652,
+      "memory(GiB)": 111.15,
+      "step": 52725,
+      "train_speed(iter/s)": 0.447214
+    },
+    {
+      "acc": 0.65095749,
+      "epoch": 1.3376458650431253,
+      "grad_norm": 6.0625,
+      "learning_rate": 2.710579151124095e-06,
+      "loss": 1.65370846,
+      "memory(GiB)": 111.15,
+      "step": 52730,
+      "train_speed(iter/s)": 0.447237
+    },
+    {
+      "acc": 0.64828339,
+      "epoch": 1.3377727042110603,
+      "grad_norm": 5.15625,
+      "learning_rate": 2.70964696259283e-06,
+      "loss": 1.60217934,
+      "memory(GiB)": 111.15,
+      "step": 52735,
+      "train_speed(iter/s)": 0.447259
+    },
+    {
+      "acc": 0.6442688,
+      "epoch": 1.3378995433789953,
+      "grad_norm": 5.09375,
+      "learning_rate": 2.7087148748015146e-06,
+      "loss": 1.6166399,
+      "memory(GiB)": 111.15,
+      "step": 52740,
+      "train_speed(iter/s)": 0.447281
+    },
+    {
+      "acc": 0.62793598,
+      "epoch": 1.3380263825469305,
+      "grad_norm": 5.125,
+      "learning_rate": 2.7077828877911517e-06,
+      "loss": 1.76788788,
+      "memory(GiB)": 111.15,
+      "step": 52745,
+      "train_speed(iter/s)": 0.447304
+    },
+    {
+      "acc": 0.64898701,
+      "epoch": 1.3381532217148655,
+      "grad_norm": 6.75,
+      "learning_rate": 2.706851001602733e-06,
+      "loss": 1.56905594,
+      "memory(GiB)": 111.15,
+      "step": 52750,
+      "train_speed(iter/s)": 0.447326
+    },
+    {
+      "acc": 0.64697104,
+      "epoch": 1.3382800608828007,
+      "grad_norm": 4.78125,
+      "learning_rate": 2.7059192162772407e-06,
+      "loss": 1.63563023,
+      "memory(GiB)": 111.15,
+      "step": 52755,
+      "train_speed(iter/s)": 0.447349
+    },
+    {
+      "acc": 0.65281076,
+      "epoch": 1.3384069000507357,
+      "grad_norm": 6.1875,
+      "learning_rate": 2.704987531855666e-06,
+      "loss": 1.63738575,
+      "memory(GiB)": 111.15,
+      "step": 52760,
+      "train_speed(iter/s)": 0.447371
+    },
+    {
+      "acc": 0.66172066,
+      "epoch": 1.3385337392186707,
+      "grad_norm": 5.1875,
+      "learning_rate": 2.704055948378986e-06,
+      "loss": 1.64370937,
+      "memory(GiB)": 111.15,
+      "step": 52765,
+      "train_speed(iter/s)": 0.447393
+    },
+    {
+      "acc": 0.64877129,
+      "epoch": 1.3386605783866057,
+      "grad_norm": 5.59375,
+      "learning_rate": 2.7031244658881773e-06,
+      "loss": 1.56079273,
+      "memory(GiB)": 111.15,
+      "step": 52770,
+      "train_speed(iter/s)": 0.447415
+    },
+    {
+      "acc": 0.65590582,
+      "epoch": 1.338787417554541,
+      "grad_norm": 6.21875,
+      "learning_rate": 2.7021930844242085e-06,
+      "loss": 1.63638515,
+      "memory(GiB)": 111.15,
+      "step": 52775,
+      "train_speed(iter/s)": 0.447438
+    },
+    {
+      "acc": 0.65453339,
+      "epoch": 1.3389142567224759,
+      "grad_norm": 6.375,
+      "learning_rate": 2.7012618040280463e-06,
+      "loss": 1.63513641,
+      "memory(GiB)": 111.15,
+      "step": 52780,
+      "train_speed(iter/s)": 0.44746
+    },
+    {
+      "acc": 0.66635132,
+      "epoch": 1.339041095890411,
+      "grad_norm": 5.90625,
+      "learning_rate": 2.7003306247406536e-06,
+      "loss": 1.57220821,
+      "memory(GiB)": 111.15,
+      "step": 52785,
+      "train_speed(iter/s)": 0.447482
+    },
+    {
+      "acc": 0.63315563,
+      "epoch": 1.339167935058346,
+      "grad_norm": 5.34375,
+      "learning_rate": 2.6993995466029877e-06,
+      "loss": 1.71693153,
+      "memory(GiB)": 111.15,
+      "step": 52790,
+      "train_speed(iter/s)": 0.447504
+    },
+    {
+      "acc": 0.63633857,
+      "epoch": 1.339294774226281,
+      "grad_norm": 4.65625,
+      "learning_rate": 2.6984685696560002e-06,
+      "loss": 1.64617271,
+      "memory(GiB)": 111.15,
+      "step": 52795,
+      "train_speed(iter/s)": 0.447527
+    },
+    {
+      "acc": 0.64936905,
+      "epoch": 1.339421613394216,
+      "grad_norm": 4.90625,
+      "learning_rate": 2.6975376939406418e-06,
+      "loss": 1.61023178,
+      "memory(GiB)": 111.15,
+      "step": 52800,
+      "train_speed(iter/s)": 0.447549
+    },
+    {
+      "epoch": 1.339421613394216,
+      "eval_acc": 0.643429334868489,
+      "eval_loss": 1.6076077222824097,
+      "eval_runtime": 113.8288,
+      "eval_samples_per_second": 55.961,
+      "eval_steps_per_second": 27.981,
+      "step": 52800
+    },
+    {
+      "acc": 0.65409808,
+      "epoch": 1.3395484525621513,
+      "grad_norm": 4.78125,
+      "learning_rate": 2.6966069194978537e-06,
+      "loss": 1.5957345,
+      "memory(GiB)": 111.15,
+      "step": 52805,
+      "train_speed(iter/s)": 0.447123
+    },
+    {
+      "acc": 0.63743877,
+      "epoch": 1.3396752917300863,
+      "grad_norm": 5.59375,
+      "learning_rate": 2.6956762463685787e-06,
+      "loss": 1.67296562,
+      "memory(GiB)": 111.15,
+      "step": 52810,
+      "train_speed(iter/s)": 0.447145
+    },
+    {
+      "acc": 0.65170846,
+      "epoch": 1.3398021308980212,
+      "grad_norm": 4.84375,
+      "learning_rate": 2.69474567459375e-06,
+      "loss": 1.65565567,
+      "memory(GiB)": 111.15,
+      "step": 52815,
+      "train_speed(iter/s)": 0.447167
+    },
+    {
+      "acc": 0.6531374,
+      "epoch": 1.3399289700659565,
+      "grad_norm": 6.4375,
+      "learning_rate": 2.693815204214299e-06,
+      "loss": 1.64371262,
+      "memory(GiB)": 111.15,
+      "step": 52820,
+      "train_speed(iter/s)": 0.44719
+    },
+    {
+      "acc": 0.65587006,
+      "epoch": 1.3400558092338914,
+      "grad_norm": 5.28125,
+      "learning_rate": 2.692884835271151e-06,
+      "loss": 1.62098656,
+      "memory(GiB)": 111.15,
+      "step": 52825,
+      "train_speed(iter/s)": 0.447212
+    },
+    {
+      "acc": 0.66897106,
+      "epoch": 1.3401826484018264,
+      "grad_norm": 6.75,
+      "learning_rate": 2.6919545678052296e-06,
+      "loss": 1.61869164,
+      "memory(GiB)": 111.15,
+      "step": 52830,
+      "train_speed(iter/s)": 0.447235
+    },
+    {
+      "acc": 0.66709929,
+      "epoch": 1.3403094875697614,
+      "grad_norm": 6.15625,
+      "learning_rate": 2.69102440185745e-06,
+      "loss": 1.5184948,
+      "memory(GiB)": 111.15,
+      "step": 52835,
+      "train_speed(iter/s)": 0.447257
+    },
+    {
+      "acc": 0.63171692,
+      "epoch": 1.3404363267376966,
+      "grad_norm": 4.96875,
+      "learning_rate": 2.690094337468726e-06,
+      "loss": 1.76163521,
+      "memory(GiB)": 111.15,
+      "step": 52840,
+      "train_speed(iter/s)": 0.447279
+    },
+    {
+      "acc": 0.63918438,
+      "epoch": 1.3405631659056316,
+      "grad_norm": 5.8125,
+      "learning_rate": 2.6891643746799643e-06,
+      "loss": 1.65637531,
+      "memory(GiB)": 111.15,
+      "step": 52845,
+      "train_speed(iter/s)": 0.447302
+    },
+    {
+      "acc": 0.6195014,
+      "epoch": 1.3406900050735668,
+      "grad_norm": 4.875,
+      "learning_rate": 2.6882345135320753e-06,
+      "loss": 1.67640152,
+      "memory(GiB)": 111.15,
+      "step": 52850,
+      "train_speed(iter/s)": 0.447325
+    },
+    {
+      "acc": 0.65539799,
+      "epoch": 1.3408168442415018,
+      "grad_norm": 5.125,
+      "learning_rate": 2.68730475406595e-06,
+      "loss": 1.65568085,
+      "memory(GiB)": 111.15,
+      "step": 52855,
+      "train_speed(iter/s)": 0.447347
+    },
+    {
+      "acc": 0.63879261,
+      "epoch": 1.3409436834094368,
+      "grad_norm": 5.34375,
+      "learning_rate": 2.6863750963224867e-06,
+      "loss": 1.68573666,
+      "memory(GiB)": 111.15,
+      "step": 52860,
+      "train_speed(iter/s)": 0.447369
+    },
+    {
+      "acc": 0.63584709,
+      "epoch": 1.3410705225773718,
+      "grad_norm": 5.21875,
+      "learning_rate": 2.685445540342577e-06,
+      "loss": 1.68384724,
+      "memory(GiB)": 111.15,
+      "step": 52865,
+      "train_speed(iter/s)": 0.447392
+    },
+    {
+      "acc": 0.63756437,
+      "epoch": 1.341197361745307,
+      "grad_norm": 5.8125,
+      "learning_rate": 2.6845160861671094e-06,
+      "loss": 1.7170454,
+      "memory(GiB)": 111.15,
+      "step": 52870,
+      "train_speed(iter/s)": 0.447414
+    },
+    {
+      "acc": 0.64868603,
+      "epoch": 1.341324200913242,
+      "grad_norm": 5.5,
+      "learning_rate": 2.6835867338369593e-06,
+      "loss": 1.57301254,
+      "memory(GiB)": 111.15,
+      "step": 52875,
+      "train_speed(iter/s)": 0.447437
+    },
+    {
+      "acc": 0.65434341,
+      "epoch": 1.341451040081177,
+      "grad_norm": 5.28125,
+      "learning_rate": 2.6826574833930053e-06,
+      "loss": 1.55393143,
+      "memory(GiB)": 111.15,
+      "step": 52880,
+      "train_speed(iter/s)": 0.447459
+    },
+    {
+      "acc": 0.64401407,
+      "epoch": 1.3415778792491122,
+      "grad_norm": 6.3125,
+      "learning_rate": 2.681728334876123e-06,
+      "loss": 1.64500122,
+      "memory(GiB)": 111.15,
+      "step": 52885,
+      "train_speed(iter/s)": 0.447482
+    },
+    {
+      "acc": 0.66139364,
+      "epoch": 1.3417047184170472,
+      "grad_norm": 6.21875,
+      "learning_rate": 2.6807992883271806e-06,
+      "loss": 1.53819666,
+      "memory(GiB)": 111.15,
+      "step": 52890,
+      "train_speed(iter/s)": 0.447504
+    },
+    {
+      "acc": 0.65319109,
+      "epoch": 1.3418315575849822,
+      "grad_norm": 6.25,
+      "learning_rate": 2.6798703437870364e-06,
+      "loss": 1.60216579,
+      "memory(GiB)": 111.15,
+      "step": 52895,
+      "train_speed(iter/s)": 0.447527
+    },
+    {
+      "acc": 0.65750523,
+      "epoch": 1.3419583967529172,
+      "grad_norm": 5.5625,
+      "learning_rate": 2.678941501296555e-06,
+      "loss": 1.61751633,
+      "memory(GiB)": 111.15,
+      "step": 52900,
+      "train_speed(iter/s)": 0.447549
+    },
+    {
+      "epoch": 1.3419583967529172,
+      "eval_acc": 0.6433792027913541,
+      "eval_loss": 1.607611060142517,
+      "eval_runtime": 114.6158,
+      "eval_samples_per_second": 55.577,
+      "eval_steps_per_second": 27.788,
+      "step": 52900
+    },
+    {
+      "acc": 0.66590586,
+      "epoch": 1.3420852359208524,
+      "grad_norm": 5.15625,
+      "learning_rate": 2.6780127608965896e-06,
+      "loss": 1.58479519,
+      "memory(GiB)": 111.15,
+      "step": 52905,
+      "train_speed(iter/s)": 0.447121
+    },
+    {
+      "acc": 0.65700407,
+      "epoch": 1.3422120750887874,
+      "grad_norm": 5.15625,
+      "learning_rate": 2.677084122627991e-06,
+      "loss": 1.63002396,
+      "memory(GiB)": 111.15,
+      "step": 52910,
+      "train_speed(iter/s)": 0.447143
+    },
+    {
+      "acc": 0.6463037,
+      "epoch": 1.3423389142567226,
+      "grad_norm": 4.28125,
+      "learning_rate": 2.6761555865316003e-06,
+      "loss": 1.67876854,
+      "memory(GiB)": 111.15,
+      "step": 52915,
+      "train_speed(iter/s)": 0.447166
+    },
+    {
+      "acc": 0.66267214,
+      "epoch": 1.3424657534246576,
+      "grad_norm": 5.625,
+      "learning_rate": 2.6752271526482644e-06,
+      "loss": 1.64342308,
+      "memory(GiB)": 111.15,
+      "step": 52920,
+      "train_speed(iter/s)": 0.447188
+    },
+    {
+      "acc": 0.63780928,
+      "epoch": 1.3425925925925926,
+      "grad_norm": 4.96875,
+      "learning_rate": 2.674298821018817e-06,
+      "loss": 1.6771225,
+      "memory(GiB)": 111.15,
+      "step": 52925,
+      "train_speed(iter/s)": 0.447211
+    },
+    {
+      "acc": 0.64751873,
+      "epoch": 1.3427194317605275,
+      "grad_norm": 5.875,
+      "learning_rate": 2.673370591684091e-06,
+      "loss": 1.67398415,
+      "memory(GiB)": 111.15,
+      "step": 52930,
+      "train_speed(iter/s)": 0.447234
+    },
+    {
+      "acc": 0.64302788,
+      "epoch": 1.3428462709284628,
+      "grad_norm": 5.0625,
+      "learning_rate": 2.672442464684915e-06,
+      "loss": 1.70577488,
+      "memory(GiB)": 111.15,
+      "step": 52935,
+      "train_speed(iter/s)": 0.447256
+    },
+    {
+      "acc": 0.65356364,
+      "epoch": 1.3429731100963977,
+      "grad_norm": 4.5625,
+      "learning_rate": 2.671514440062111e-06,
+      "loss": 1.60000916,
+      "memory(GiB)": 111.15,
+      "step": 52940,
+      "train_speed(iter/s)": 0.447279
+    },
+    {
+      "acc": 0.65313587,
+      "epoch": 1.343099949264333,
+      "grad_norm": 5.5,
+      "learning_rate": 2.6705865178564973e-06,
+      "loss": 1.61751003,
+      "memory(GiB)": 111.15,
+      "step": 52945,
+      "train_speed(iter/s)": 0.447301
+    },
+    {
+      "acc": 0.6412715,
+      "epoch": 1.343226788432268,
+      "grad_norm": 5.0,
+      "learning_rate": 2.6696586981088886e-06,
+      "loss": 1.66012287,
+      "memory(GiB)": 111.15,
+      "step": 52950,
+      "train_speed(iter/s)": 0.447324
+    },
+    {
+      "acc": 0.63567204,
+      "epoch": 1.343353627600203,
+      "grad_norm": 6.4375,
+      "learning_rate": 2.6687309808600947e-06,
+      "loss": 1.67595291,
+      "memory(GiB)": 111.15,
+      "step": 52955,
+      "train_speed(iter/s)": 0.447346
+    },
+    {
+      "acc": 0.64755268,
+      "epoch": 1.343480466768138,
+      "grad_norm": 5.375,
+      "learning_rate": 2.6678033661509208e-06,
+      "loss": 1.62432899,
+      "memory(GiB)": 111.15,
+      "step": 52960,
+      "train_speed(iter/s)": 0.447369
+    },
+    {
+      "acc": 0.64341068,
+      "epoch": 1.3436073059360731,
+      "grad_norm": 5.375,
+      "learning_rate": 2.6668758540221665e-06,
+      "loss": 1.67823982,
+      "memory(GiB)": 111.15,
+      "step": 52965,
+      "train_speed(iter/s)": 0.447392
+    },
+    {
+      "acc": 0.64505272,
+      "epoch": 1.3437341451040081,
+      "grad_norm": 6.09375,
+      "learning_rate": 2.66594844451463e-06,
+      "loss": 1.52192097,
+      "memory(GiB)": 111.15,
+      "step": 52970,
+      "train_speed(iter/s)": 0.447414
+    },
+    {
+      "acc": 0.65243387,
+      "epoch": 1.3438609842719431,
+      "grad_norm": 5.25,
+      "learning_rate": 2.6650211376691008e-06,
+      "loss": 1.69794369,
+      "memory(GiB)": 111.15,
+      "step": 52975,
+      "train_speed(iter/s)": 0.447437
+    },
+    {
+      "acc": 0.6491446,
+      "epoch": 1.3439878234398783,
+      "grad_norm": 4.5625,
+      "learning_rate": 2.664093933526368e-06,
+      "loss": 1.61785164,
+      "memory(GiB)": 111.15,
+      "step": 52980,
+      "train_speed(iter/s)": 0.447459
+    },
+    {
+      "acc": 0.64398189,
+      "epoch": 1.3441146626078133,
+      "grad_norm": 5.46875,
+      "learning_rate": 2.6631668321272097e-06,
+      "loss": 1.64575062,
+      "memory(GiB)": 111.15,
+      "step": 52985,
+      "train_speed(iter/s)": 0.447482
+    },
+    {
+      "acc": 0.64207001,
+      "epoch": 1.3442415017757483,
+      "grad_norm": 6.28125,
+      "learning_rate": 2.6622398335124122e-06,
+      "loss": 1.67398491,
+      "memory(GiB)": 111.15,
+      "step": 52990,
+      "train_speed(iter/s)": 0.447504
+    },
+    {
+      "acc": 0.64653335,
+      "epoch": 1.3443683409436833,
+      "grad_norm": 5.09375,
+      "learning_rate": 2.661312937722742e-06,
+      "loss": 1.61974354,
+      "memory(GiB)": 111.15,
+      "step": 52995,
+      "train_speed(iter/s)": 0.447527
+    },
+    {
+      "acc": 0.64991488,
+      "epoch": 1.3444951801116185,
+      "grad_norm": 4.8125,
+      "learning_rate": 2.6603861447989703e-06,
+      "loss": 1.60675316,
+      "memory(GiB)": 111.15,
+      "step": 53000,
+      "train_speed(iter/s)": 0.447549
+    },
+    {
+      "epoch": 1.3444951801116185,
+      "eval_acc": 0.6433904825087094,
+      "eval_loss": 1.6075634956359863,
+      "eval_runtime": 113.876,
+      "eval_samples_per_second": 55.938,
+      "eval_steps_per_second": 27.969,
+      "step": 53000
+    },
+    {
+      "acc": 0.65199599,
+      "epoch": 1.3446220192795535,
+      "grad_norm": 5.25,
+      "learning_rate": 2.65945945478186e-06,
+      "loss": 1.58602638,
+      "memory(GiB)": 111.15,
+      "step": 53005,
+      "train_speed(iter/s)": 0.447124
+    },
+    {
+      "acc": 0.65855322,
+      "epoch": 1.3447488584474887,
+      "grad_norm": 5.28125,
+      "learning_rate": 2.658532867712176e-06,
+      "loss": 1.62017555,
+      "memory(GiB)": 111.15,
+      "step": 53010,
+      "train_speed(iter/s)": 0.447147
+    },
+    {
+      "acc": 0.65495934,
+      "epoch": 1.3448756976154237,
+      "grad_norm": 5.375,
+      "learning_rate": 2.6576063836306687e-06,
+      "loss": 1.58591518,
+      "memory(GiB)": 111.15,
+      "step": 53015,
+      "train_speed(iter/s)": 0.447169
+    },
+    {
+      "acc": 0.65101709,
+      "epoch": 1.3450025367833587,
+      "grad_norm": 5.0625,
+      "learning_rate": 2.656680002578088e-06,
+      "loss": 1.65584145,
+      "memory(GiB)": 111.15,
+      "step": 53020,
+      "train_speed(iter/s)": 0.447192
+    },
+    {
+      "acc": 0.65269284,
+      "epoch": 1.3451293759512937,
+      "grad_norm": 5.0,
+      "learning_rate": 2.655753724595186e-06,
+      "loss": 1.5785408,
+      "memory(GiB)": 111.15,
+      "step": 53025,
+      "train_speed(iter/s)": 0.447214
+    },
+    {
+      "acc": 0.64311099,
+      "epoch": 1.3452562151192289,
+      "grad_norm": 5.40625,
+      "learning_rate": 2.6548275497227028e-06,
+      "loss": 1.61233158,
+      "memory(GiB)": 111.15,
+      "step": 53030,
+      "train_speed(iter/s)": 0.447236
+    },
+    {
+      "acc": 0.65003047,
+      "epoch": 1.3453830542871639,
+      "grad_norm": 4.84375,
+      "learning_rate": 2.6539014780013707e-06,
+      "loss": 1.59166851,
+      "memory(GiB)": 111.15,
+      "step": 53035,
+      "train_speed(iter/s)": 0.447259
+    },
+    {
+      "acc": 0.64481211,
+      "epoch": 1.3455098934550989,
+      "grad_norm": 5.8125,
+      "learning_rate": 2.6529755094719276e-06,
+      "loss": 1.68209095,
+      "memory(GiB)": 111.15,
+      "step": 53040,
+      "train_speed(iter/s)": 0.447281
+    },
+    {
+      "acc": 0.64038134,
+      "epoch": 1.345636732623034,
+      "grad_norm": 5.625,
+      "learning_rate": 2.652049644175101e-06,
+      "loss": 1.63699493,
+      "memory(GiB)": 111.15,
+      "step": 53045,
+      "train_speed(iter/s)": 0.447303
+    },
+    {
+      "acc": 0.65308857,
+      "epoch": 1.345763571790969,
+      "grad_norm": 4.65625,
+      "learning_rate": 2.6511238821516154e-06,
+      "loss": 1.608358,
+      "memory(GiB)": 111.15,
+      "step": 53050,
+      "train_speed(iter/s)": 0.447326
+    },
+    {
+      "acc": 0.65285807,
+      "epoch": 1.345890410958904,
+      "grad_norm": 4.6875,
+      "learning_rate": 2.650198223442185e-06,
+      "loss": 1.56640749,
+      "memory(GiB)": 111.15,
+      "step": 53055,
+      "train_speed(iter/s)": 0.447348
+    },
+    {
+      "acc": 0.64280272,
+      "epoch": 1.346017250126839,
+      "grad_norm": 5.34375,
+      "learning_rate": 2.6492726680875296e-06,
+      "loss": 1.66745243,
+      "memory(GiB)": 111.15,
+      "step": 53060,
+      "train_speed(iter/s)": 0.447371
+    },
+    {
+      "acc": 0.66888981,
+      "epoch": 1.3461440892947742,
+      "grad_norm": 5.5,
+      "learning_rate": 2.6483472161283576e-06,
+      "loss": 1.58021488,
+      "memory(GiB)": 111.15,
+      "step": 53065,
+      "train_speed(iter/s)": 0.447393
+    },
+    {
+      "acc": 0.6429472,
+      "epoch": 1.3462709284627092,
+      "grad_norm": 5.71875,
+      "learning_rate": 2.647421867605374e-06,
+      "loss": 1.60597687,
+      "memory(GiB)": 111.15,
+      "step": 53070,
+      "train_speed(iter/s)": 0.447415
+    },
+    {
+      "acc": 0.6515121,
+      "epoch": 1.3463977676306444,
+      "grad_norm": 5.3125,
+      "learning_rate": 2.6464966225592804e-06,
+      "loss": 1.61368389,
+      "memory(GiB)": 111.15,
+      "step": 53075,
+      "train_speed(iter/s)": 0.447438
+    },
+    {
+      "acc": 0.64693584,
+      "epoch": 1.3465246067985794,
+      "grad_norm": 5.3125,
+      "learning_rate": 2.645571481030773e-06,
+      "loss": 1.66502113,
+      "memory(GiB)": 111.15,
+      "step": 53080,
+      "train_speed(iter/s)": 0.44746
+    },
+    {
+      "acc": 0.66005626,
+      "epoch": 1.3466514459665144,
+      "grad_norm": 7.15625,
+      "learning_rate": 2.6446464430605434e-06,
+      "loss": 1.63581238,
+      "memory(GiB)": 111.15,
+      "step": 53085,
+      "train_speed(iter/s)": 0.447483
+    },
+    {
+      "acc": 0.64274697,
+      "epoch": 1.3467782851344494,
+      "grad_norm": 4.96875,
+      "learning_rate": 2.6437215086892797e-06,
+      "loss": 1.61910553,
+      "memory(GiB)": 111.15,
+      "step": 53090,
+      "train_speed(iter/s)": 0.447505
+    },
+    {
+      "acc": 0.66252785,
+      "epoch": 1.3469051243023846,
+      "grad_norm": 5.53125,
+      "learning_rate": 2.642796677957664e-06,
+      "loss": 1.58016968,
+      "memory(GiB)": 111.15,
+      "step": 53095,
+      "train_speed(iter/s)": 0.447527
+    },
+    {
+      "acc": 0.64148493,
+      "epoch": 1.3470319634703196,
+      "grad_norm": 4.84375,
+      "learning_rate": 2.641871950906374e-06,
+      "loss": 1.67986031,
+      "memory(GiB)": 111.15,
+      "step": 53100,
+      "train_speed(iter/s)": 0.44755
+    },
+    {
+      "epoch": 1.3470319634703196,
+      "eval_acc": 0.6434264104973227,
+      "eval_loss": 1.6076393127441406,
+      "eval_runtime": 113.68,
+      "eval_samples_per_second": 56.034,
+      "eval_steps_per_second": 28.017,
+      "step": 53100
+    },
+    {
+      "acc": 0.6478404,
+      "epoch": 1.3471588026382548,
+      "grad_norm": 4.59375,
+      "learning_rate": 2.6409473275760843e-06,
+      "loss": 1.65549488,
+      "memory(GiB)": 111.15,
+      "step": 53105,
+      "train_speed(iter/s)": 0.447126
+    },
+    {
+      "acc": 0.65561476,
+      "epoch": 1.3472856418061898,
+      "grad_norm": 5.65625,
+      "learning_rate": 2.640022808007463e-06,
+      "loss": 1.68477936,
+      "memory(GiB)": 111.15,
+      "step": 53110,
+      "train_speed(iter/s)": 0.447148
+    },
+    {
+      "acc": 0.64887276,
+      "epoch": 1.3474124809741248,
+      "grad_norm": 5.09375,
+      "learning_rate": 2.639098392241176e-06,
+      "loss": 1.67058449,
+      "memory(GiB)": 111.15,
+      "step": 53115,
+      "train_speed(iter/s)": 0.447171
+    },
+    {
+      "acc": 0.63394504,
+      "epoch": 1.3475393201420598,
+      "grad_norm": 5.21875,
+      "learning_rate": 2.6381740803178826e-06,
+      "loss": 1.63873444,
+      "memory(GiB)": 111.15,
+      "step": 53120,
+      "train_speed(iter/s)": 0.447193
+    },
+    {
+      "acc": 0.64811258,
+      "epoch": 1.347666159309995,
+      "grad_norm": 5.21875,
+      "learning_rate": 2.6372498722782346e-06,
+      "loss": 1.60014172,
+      "memory(GiB)": 111.15,
+      "step": 53125,
+      "train_speed(iter/s)": 0.447215
+    },
+    {
+      "acc": 0.6443253,
+      "epoch": 1.34779299847793,
+      "grad_norm": 4.96875,
+      "learning_rate": 2.6363257681628907e-06,
+      "loss": 1.63096981,
+      "memory(GiB)": 111.15,
+      "step": 53130,
+      "train_speed(iter/s)": 0.447237
+    },
+    {
+      "acc": 0.65902195,
+      "epoch": 1.347919837645865,
+      "grad_norm": 6.09375,
+      "learning_rate": 2.635401768012491e-06,
+      "loss": 1.5810812,
+      "memory(GiB)": 111.15,
+      "step": 53135,
+      "train_speed(iter/s)": 0.44726
+    },
+    {
+      "acc": 0.65356193,
+      "epoch": 1.3480466768138002,
+      "grad_norm": 6.3125,
+      "learning_rate": 2.6344778718676783e-06,
+      "loss": 1.58186607,
+      "memory(GiB)": 111.15,
+      "step": 53140,
+      "train_speed(iter/s)": 0.447282
+    },
+    {
+      "acc": 0.64250717,
+      "epoch": 1.3481735159817352,
+      "grad_norm": 6.40625,
+      "learning_rate": 2.6335540797690886e-06,
+      "loss": 1.66270561,
+      "memory(GiB)": 111.15,
+      "step": 53145,
+      "train_speed(iter/s)": 0.447304
+    },
+    {
+      "acc": 0.66930809,
+      "epoch": 1.3483003551496702,
+      "grad_norm": 4.4375,
+      "learning_rate": 2.632630391757359e-06,
+      "loss": 1.56048155,
+      "memory(GiB)": 111.15,
+      "step": 53150,
+      "train_speed(iter/s)": 0.447327
+    },
+    {
+      "acc": 0.63815503,
+      "epoch": 1.3484271943176052,
+      "grad_norm": 5.59375,
+      "learning_rate": 2.6317068078731126e-06,
+      "loss": 1.58026638,
+      "memory(GiB)": 111.15,
+      "step": 53155,
+      "train_speed(iter/s)": 0.447349
+    },
+    {
+      "acc": 0.66023602,
+      "epoch": 1.3485540334855404,
+      "grad_norm": 5.0,
+      "learning_rate": 2.630783328156973e-06,
+      "loss": 1.54257603,
+      "memory(GiB)": 111.15,
+      "step": 53160,
+      "train_speed(iter/s)": 0.447371
+    },
+    {
+      "acc": 0.6424696,
+      "epoch": 1.3486808726534754,
+      "grad_norm": 5.46875,
+      "learning_rate": 2.629859952649562e-06,
+      "loss": 1.58299923,
+      "memory(GiB)": 111.15,
+      "step": 53165,
+      "train_speed(iter/s)": 0.447393
+    },
+    {
+      "acc": 0.67080746,
+      "epoch": 1.3488077118214106,
+      "grad_norm": 5.5,
+      "learning_rate": 2.628936681391494e-06,
+      "loss": 1.5610589,
+      "memory(GiB)": 111.15,
+      "step": 53170,
+      "train_speed(iter/s)": 0.447415
+    },
+    {
+      "acc": 0.65207176,
+      "epoch": 1.3489345509893456,
+      "grad_norm": 5.8125,
+      "learning_rate": 2.628013514423375e-06,
+      "loss": 1.64970875,
+      "memory(GiB)": 111.15,
+      "step": 53175,
+      "train_speed(iter/s)": 0.447437
+    },
+    {
+      "acc": 0.64146738,
+      "epoch": 1.3490613901572805,
+      "grad_norm": 5.4375,
+      "learning_rate": 2.6270904517858102e-06,
+      "loss": 1.67596741,
+      "memory(GiB)": 111.15,
+      "step": 53180,
+      "train_speed(iter/s)": 0.447459
+    },
+    {
+      "acc": 0.65317636,
+      "epoch": 1.3491882293252155,
+      "grad_norm": 6.09375,
+      "learning_rate": 2.6261674935194036e-06,
+      "loss": 1.64295731,
+      "memory(GiB)": 111.15,
+      "step": 53185,
+      "train_speed(iter/s)": 0.447481
+    },
+    {
+      "acc": 0.66222601,
+      "epoch": 1.3493150684931507,
+      "grad_norm": 5.65625,
+      "learning_rate": 2.6252446396647503e-06,
+      "loss": 1.51576424,
+      "memory(GiB)": 111.15,
+      "step": 53190,
+      "train_speed(iter/s)": 0.447503
+    },
+    {
+      "acc": 0.63153086,
+      "epoch": 1.3494419076610857,
+      "grad_norm": 5.34375,
+      "learning_rate": 2.6243218902624367e-06,
+      "loss": 1.72067013,
+      "memory(GiB)": 111.15,
+      "step": 53195,
+      "train_speed(iter/s)": 0.447525
+    },
+    {
+      "acc": 0.65056601,
+      "epoch": 1.3495687468290207,
+      "grad_norm": 5.59375,
+      "learning_rate": 2.6233992453530555e-06,
+      "loss": 1.61020775,
+      "memory(GiB)": 111.15,
+      "step": 53200,
+      "train_speed(iter/s)": 0.447547
+    },
+    {
+      "epoch": 1.3495687468290207,
+      "eval_acc": 0.6434280815665606,
+      "eval_loss": 1.6075913906097412,
+      "eval_runtime": 114.1926,
+      "eval_samples_per_second": 55.783,
+      "eval_steps_per_second": 27.891,
+      "step": 53200
+    },
+    {
+      "acc": 0.6672781,
+      "epoch": 1.349695585996956,
+      "grad_norm": 4.6875,
+      "learning_rate": 2.6224767049771856e-06,
+      "loss": 1.54008656,
+      "memory(GiB)": 111.15,
+      "step": 53205,
+      "train_speed(iter/s)": 0.447122
+    },
+    {
+      "acc": 0.62648487,
+      "epoch": 1.349822425164891,
+      "grad_norm": 6.625,
+      "learning_rate": 2.621554269175405e-06,
+      "loss": 1.70552254,
+      "memory(GiB)": 111.15,
+      "step": 53210,
+      "train_speed(iter/s)": 0.447144
+    },
+    {
+      "acc": 0.63169775,
+      "epoch": 1.349949264332826,
+      "grad_norm": 5.59375,
+      "learning_rate": 2.620631937988287e-06,
+      "loss": 1.72790146,
+      "memory(GiB)": 111.15,
+      "step": 53215,
+      "train_speed(iter/s)": 0.447166
+    },
+    {
+      "acc": 0.64441576,
+      "epoch": 1.350076103500761,
+      "grad_norm": 5.28125,
+      "learning_rate": 2.6197097114564e-06,
+      "loss": 1.61711159,
+      "memory(GiB)": 111.15,
+      "step": 53220,
+      "train_speed(iter/s)": 0.447188
+    },
+    {
+      "acc": 0.63913388,
+      "epoch": 1.3502029426686961,
+      "grad_norm": 5.40625,
+      "learning_rate": 2.618787589620306e-06,
+      "loss": 1.66379089,
+      "memory(GiB)": 111.15,
+      "step": 53225,
+      "train_speed(iter/s)": 0.44721
+    },
+    {
+      "acc": 0.66073771,
+      "epoch": 1.350329781836631,
+      "grad_norm": 6.0,
+      "learning_rate": 2.6178655725205653e-06,
+      "loss": 1.57526197,
+      "memory(GiB)": 111.15,
+      "step": 53230,
+      "train_speed(iter/s)": 0.447232
+    },
+    {
+      "acc": 0.66777515,
+      "epoch": 1.3504566210045663,
+      "grad_norm": 5.34375,
+      "learning_rate": 2.6169436601977325e-06,
+      "loss": 1.56533852,
+      "memory(GiB)": 111.15,
+      "step": 53235,
+      "train_speed(iter/s)": 0.447254
+    },
+    {
+      "acc": 0.64882898,
+      "epoch": 1.3505834601725013,
+      "grad_norm": 4.875,
+      "learning_rate": 2.6160218526923576e-06,
+      "loss": 1.65935173,
+      "memory(GiB)": 111.15,
+      "step": 53240,
+      "train_speed(iter/s)": 0.447276
+    },
+    {
+      "acc": 0.63170443,
+      "epoch": 1.3507102993404363,
+      "grad_norm": 6.1875,
+      "learning_rate": 2.6151001500449847e-06,
+      "loss": 1.67393684,
+      "memory(GiB)": 111.15,
+      "step": 53245,
+      "train_speed(iter/s)": 0.447298
+    },
+    {
+      "acc": 0.65574436,
+      "epoch": 1.3508371385083713,
+      "grad_norm": 4.84375,
+      "learning_rate": 2.614178552296155e-06,
+      "loss": 1.6366663,
+      "memory(GiB)": 111.15,
+      "step": 53250,
+      "train_speed(iter/s)": 0.44732
+    },
+    {
+      "acc": 0.64754243,
+      "epoch": 1.3509639776763065,
+      "grad_norm": 5.6875,
+      "learning_rate": 2.6132570594864047e-06,
+      "loss": 1.63735886,
+      "memory(GiB)": 111.15,
+      "step": 53255,
+      "train_speed(iter/s)": 0.447342
+    },
+    {
+      "acc": 0.67179976,
+      "epoch": 1.3510908168442415,
+      "grad_norm": 4.9375,
+      "learning_rate": 2.612335671656265e-06,
+      "loss": 1.62637558,
+      "memory(GiB)": 111.15,
+      "step": 53260,
+      "train_speed(iter/s)": 0.447364
+    },
+    {
+      "acc": 0.68238764,
+      "epoch": 1.3512176560121767,
+      "grad_norm": 5.375,
+      "learning_rate": 2.6114143888462607e-06,
+      "loss": 1.56880817,
+      "memory(GiB)": 111.15,
+      "step": 53265,
+      "train_speed(iter/s)": 0.447386
+    },
+    {
+      "acc": 0.65750904,
+      "epoch": 1.3513444951801117,
+      "grad_norm": 5.8125,
+      "learning_rate": 2.6104932110969195e-06,
+      "loss": 1.63726063,
+      "memory(GiB)": 111.15,
+      "step": 53270,
+      "train_speed(iter/s)": 0.447408
+    },
+    {
+      "acc": 0.65673599,
+      "epoch": 1.3514713343480467,
+      "grad_norm": 4.71875,
+      "learning_rate": 2.609572138448753e-06,
+      "loss": 1.55596294,
+      "memory(GiB)": 111.15,
+      "step": 53275,
+      "train_speed(iter/s)": 0.44743
+    },
+    {
+      "acc": 0.65587797,
+      "epoch": 1.3515981735159817,
+      "grad_norm": 4.90625,
+      "learning_rate": 2.608651170942277e-06,
+      "loss": 1.62563305,
+      "memory(GiB)": 111.15,
+      "step": 53280,
+      "train_speed(iter/s)": 0.447452
+    },
+    {
+      "acc": 0.64840479,
+      "epoch": 1.3517250126839169,
+      "grad_norm": 5.0625,
+      "learning_rate": 2.607730308617997e-06,
+      "loss": 1.60432777,
+      "memory(GiB)": 111.15,
+      "step": 53285,
+      "train_speed(iter/s)": 0.447474
+    },
+    {
+      "acc": 0.67096157,
+      "epoch": 1.3518518518518519,
+      "grad_norm": 5.59375,
+      "learning_rate": 2.6068095515164226e-06,
+      "loss": 1.56484928,
+      "memory(GiB)": 111.15,
+      "step": 53290,
+      "train_speed(iter/s)": 0.447496
+    },
+    {
+      "acc": 0.64149776,
+      "epoch": 1.3519786910197868,
+      "grad_norm": 5.21875,
+      "learning_rate": 2.605888899678047e-06,
+      "loss": 1.6483696,
+      "memory(GiB)": 111.15,
+      "step": 53295,
+      "train_speed(iter/s)": 0.447518
+    },
+    {
+      "acc": 0.65417848,
+      "epoch": 1.352105530187722,
+      "grad_norm": 5.90625,
+      "learning_rate": 2.6049683531433645e-06,
+      "loss": 1.63271313,
+      "memory(GiB)": 111.15,
+      "step": 53300,
+      "train_speed(iter/s)": 0.44754
+    },
+    {
+      "epoch": 1.352105530187722,
+      "eval_acc": 0.6434034332953026,
+      "eval_loss": 1.60764479637146,
+      "eval_runtime": 113.5262,
+      "eval_samples_per_second": 56.11,
+      "eval_steps_per_second": 28.055,
+      "step": 53300
+    },
+    {
+      "acc": 0.64832907,
+      "epoch": 1.352232369355657,
+      "grad_norm": 5.84375,
+      "learning_rate": 2.6040479119528683e-06,
+      "loss": 1.66874542,
+      "memory(GiB)": 111.15,
+      "step": 53305,
+      "train_speed(iter/s)": 0.447118
+    },
+    {
+      "acc": 0.65657959,
+      "epoch": 1.352359208523592,
+      "grad_norm": 5.15625,
+      "learning_rate": 2.6031275761470447e-06,
+      "loss": 1.64475307,
+      "memory(GiB)": 111.15,
+      "step": 53310,
+      "train_speed(iter/s)": 0.44714
+    },
+    {
+      "acc": 0.6316802,
+      "epoch": 1.352486047691527,
+      "grad_norm": 5.46875,
+      "learning_rate": 2.60220734576637e-06,
+      "loss": 1.68786926,
+      "memory(GiB)": 111.15,
+      "step": 53315,
+      "train_speed(iter/s)": 0.447162
+    },
+    {
+      "acc": 0.63557687,
+      "epoch": 1.3526128868594622,
+      "grad_norm": 5.5625,
+      "learning_rate": 2.601287220851319e-06,
+      "loss": 1.75430508,
+      "memory(GiB)": 111.15,
+      "step": 53320,
+      "train_speed(iter/s)": 0.447184
+    },
+    {
+      "acc": 0.67131796,
+      "epoch": 1.3527397260273972,
+      "grad_norm": 7.21875,
+      "learning_rate": 2.6003672014423677e-06,
+      "loss": 1.61812401,
+      "memory(GiB)": 111.15,
+      "step": 53325,
+      "train_speed(iter/s)": 0.447206
+    },
+    {
+      "acc": 0.64943476,
+      "epoch": 1.3528665651953324,
+      "grad_norm": 4.875,
+      "learning_rate": 2.5994472875799827e-06,
+      "loss": 1.66734524,
+      "memory(GiB)": 111.15,
+      "step": 53330,
+      "train_speed(iter/s)": 0.447228
+    },
+    {
+      "acc": 0.65356474,
+      "epoch": 1.3529934043632674,
+      "grad_norm": 4.09375,
+      "learning_rate": 2.598527479304619e-06,
+      "loss": 1.64034004,
+      "memory(GiB)": 111.15,
+      "step": 53335,
+      "train_speed(iter/s)": 0.44725
+    },
+    {
+      "acc": 0.66501927,
+      "epoch": 1.3531202435312024,
+      "grad_norm": 4.5625,
+      "learning_rate": 2.597607776656741e-06,
+      "loss": 1.57319202,
+      "memory(GiB)": 111.15,
+      "step": 53340,
+      "train_speed(iter/s)": 0.447273
+    },
+    {
+      "acc": 0.65428295,
+      "epoch": 1.3532470826991374,
+      "grad_norm": 5.5625,
+      "learning_rate": 2.5966881796767984e-06,
+      "loss": 1.61468925,
+      "memory(GiB)": 111.15,
+      "step": 53345,
+      "train_speed(iter/s)": 0.447295
+    },
+    {
+      "acc": 0.64293804,
+      "epoch": 1.3533739218670726,
+      "grad_norm": 8.375,
+      "learning_rate": 2.5957686884052423e-06,
+      "loss": 1.65622559,
+      "memory(GiB)": 111.15,
+      "step": 53350,
+      "train_speed(iter/s)": 0.447317
+    },
+    {
+      "acc": 0.64383144,
+      "epoch": 1.3535007610350076,
+      "grad_norm": 6.21875,
+      "learning_rate": 2.5948493028825093e-06,
+      "loss": 1.68648109,
+      "memory(GiB)": 111.15,
+      "step": 53355,
+      "train_speed(iter/s)": 0.44734
+    },
+    {
+      "acc": 0.65368242,
+      "epoch": 1.3536276002029426,
+      "grad_norm": 5.5,
+      "learning_rate": 2.593930023149044e-06,
+      "loss": 1.64864445,
+      "memory(GiB)": 111.15,
+      "step": 53360,
+      "train_speed(iter/s)": 0.447362
+    },
+    {
+      "acc": 0.64722157,
+      "epoch": 1.3537544393708778,
+      "grad_norm": 5.0625,
+      "learning_rate": 2.593010849245279e-06,
+      "loss": 1.61587334,
+      "memory(GiB)": 111.15,
+      "step": 53365,
+      "train_speed(iter/s)": 0.447385
+    },
+    {
+      "acc": 0.64364052,
+      "epoch": 1.3538812785388128,
+      "grad_norm": 5.5,
+      "learning_rate": 2.592091781211643e-06,
+      "loss": 1.63288441,
+      "memory(GiB)": 111.15,
+      "step": 53370,
+      "train_speed(iter/s)": 0.447407
+    },
+    {
+      "acc": 0.678578,
+      "epoch": 1.3540081177067478,
+      "grad_norm": 5.78125,
+      "learning_rate": 2.591172819088561e-06,
+      "loss": 1.51388626,
+      "memory(GiB)": 111.15,
+      "step": 53375,
+      "train_speed(iter/s)": 0.447429
+    },
+    {
+      "acc": 0.64251118,
+      "epoch": 1.3541349568746828,
+      "grad_norm": 4.40625,
+      "learning_rate": 2.590253962916453e-06,
+      "loss": 1.65375633,
+      "memory(GiB)": 111.15,
+      "step": 53380,
+      "train_speed(iter/s)": 0.447451
+    },
+    {
+      "acc": 0.65023251,
+      "epoch": 1.354261796042618,
+      "grad_norm": 5.03125,
+      "learning_rate": 2.5893352127357347e-06,
+      "loss": 1.54686375,
+      "memory(GiB)": 111.15,
+      "step": 53385,
+      "train_speed(iter/s)": 0.447474
+    },
+    {
+      "acc": 0.65224581,
+      "epoch": 1.354388635210553,
+      "grad_norm": 5.53125,
+      "learning_rate": 2.5884165685868164e-06,
+      "loss": 1.59068441,
+      "memory(GiB)": 111.15,
+      "step": 53390,
+      "train_speed(iter/s)": 0.447496
+    },
+    {
+      "acc": 0.63696012,
+      "epoch": 1.3545154743784882,
+      "grad_norm": 5.53125,
+      "learning_rate": 2.5874980305101045e-06,
+      "loss": 1.67543106,
+      "memory(GiB)": 111.15,
+      "step": 53395,
+      "train_speed(iter/s)": 0.447518
+    },
+    {
+      "acc": 0.648281,
+      "epoch": 1.3546423135464232,
+      "grad_norm": 5.59375,
+      "learning_rate": 2.586579598546e-06,
+      "loss": 1.65890579,
+      "memory(GiB)": 111.15,
+      "step": 53400,
+      "train_speed(iter/s)": 0.44754
+    },
+    {
+      "epoch": 1.3546423135464232,
+      "eval_acc": 0.6434142952453484,
+      "eval_loss": 1.6076840162277222,
+      "eval_runtime": 113.4108,
+      "eval_samples_per_second": 56.168,
+      "eval_steps_per_second": 28.084,
+      "step": 53400
+    },
+    {
+      "acc": 0.66322336,
+      "epoch": 1.3547691527143582,
+      "grad_norm": 6.28125,
+      "learning_rate": 2.5856612727348995e-06,
+      "loss": 1.54684649,
+      "memory(GiB)": 111.15,
+      "step": 53405,
+      "train_speed(iter/s)": 0.447121
+    },
+    {
+      "acc": 0.6635088,
+      "epoch": 1.3548959918822931,
+      "grad_norm": 5.40625,
+      "learning_rate": 2.584743053117196e-06,
+      "loss": 1.57237129,
+      "memory(GiB)": 111.15,
+      "step": 53410,
+      "train_speed(iter/s)": 0.447143
+    },
+    {
+      "acc": 0.66092834,
+      "epoch": 1.3550228310502284,
+      "grad_norm": 5.09375,
+      "learning_rate": 2.583824939733277e-06,
+      "loss": 1.527565,
+      "memory(GiB)": 111.15,
+      "step": 53415,
+      "train_speed(iter/s)": 0.447165
+    },
+    {
+      "acc": 0.64567366,
+      "epoch": 1.3551496702181633,
+      "grad_norm": 5.1875,
+      "learning_rate": 2.5829069326235234e-06,
+      "loss": 1.66879406,
+      "memory(GiB)": 111.15,
+      "step": 53420,
+      "train_speed(iter/s)": 0.447187
+    },
+    {
+      "acc": 0.63293648,
+      "epoch": 1.3552765093860986,
+      "grad_norm": 5.8125,
+      "learning_rate": 2.5819890318283137e-06,
+      "loss": 1.60069275,
+      "memory(GiB)": 111.15,
+      "step": 53425,
+      "train_speed(iter/s)": 0.447209
+    },
+    {
+      "acc": 0.65008459,
+      "epoch": 1.3554033485540335,
+      "grad_norm": 5.53125,
+      "learning_rate": 2.5810712373880253e-06,
+      "loss": 1.6520813,
+      "memory(GiB)": 111.15,
+      "step": 53430,
+      "train_speed(iter/s)": 0.447231
+    },
+    {
+      "acc": 0.66005378,
+      "epoch": 1.3555301877219685,
+      "grad_norm": 4.59375,
+      "learning_rate": 2.5801535493430215e-06,
+      "loss": 1.61153336,
+      "memory(GiB)": 111.15,
+      "step": 53435,
+      "train_speed(iter/s)": 0.447253
+    },
+    {
+      "acc": 0.66663046,
+      "epoch": 1.3556570268899035,
+      "grad_norm": 5.25,
+      "learning_rate": 2.5792359677336685e-06,
+      "loss": 1.58611488,
+      "memory(GiB)": 111.15,
+      "step": 53440,
+      "train_speed(iter/s)": 0.447275
+    },
+    {
+      "acc": 0.65495749,
+      "epoch": 1.3557838660578387,
+      "grad_norm": 5.3125,
+      "learning_rate": 2.5783184926003237e-06,
+      "loss": 1.63121815,
+      "memory(GiB)": 111.15,
+      "step": 53445,
+      "train_speed(iter/s)": 0.447298
+    },
+    {
+      "acc": 0.64005728,
+      "epoch": 1.3559107052257737,
+      "grad_norm": 4.96875,
+      "learning_rate": 2.5774011239833473e-06,
+      "loss": 1.65347252,
+      "memory(GiB)": 111.15,
+      "step": 53450,
+      "train_speed(iter/s)": 0.44732
+    },
+    {
+      "acc": 0.65646095,
+      "epoch": 1.3560375443937087,
+      "grad_norm": 6.3125,
+      "learning_rate": 2.5764838619230843e-06,
+      "loss": 1.6189085,
+      "memory(GiB)": 111.15,
+      "step": 53455,
+      "train_speed(iter/s)": 0.447342
+    },
+    {
+      "acc": 0.66733546,
+      "epoch": 1.356164383561644,
+      "grad_norm": 5.34375,
+      "learning_rate": 2.575566706459879e-06,
+      "loss": 1.56068649,
+      "memory(GiB)": 111.15,
+      "step": 53460,
+      "train_speed(iter/s)": 0.447364
+    },
+    {
+      "acc": 0.64607682,
+      "epoch": 1.356291222729579,
+      "grad_norm": 5.5625,
+      "learning_rate": 2.574649657634076e-06,
+      "loss": 1.66322021,
+      "memory(GiB)": 111.15,
+      "step": 53465,
+      "train_speed(iter/s)": 0.447386
+    },
+    {
+      "acc": 0.65745649,
+      "epoch": 1.356418061897514,
+      "grad_norm": 6.4375,
+      "learning_rate": 2.5737327154860116e-06,
+      "loss": 1.65252609,
+      "memory(GiB)": 111.15,
+      "step": 53470,
+      "train_speed(iter/s)": 0.447408
+    },
+    {
+      "acc": 0.6363029,
+      "epoch": 1.356544901065449,
+      "grad_norm": 5.34375,
+      "learning_rate": 2.572815880056011e-06,
+      "loss": 1.68347244,
+      "memory(GiB)": 111.15,
+      "step": 53475,
+      "train_speed(iter/s)": 0.447431
+    },
+    {
+      "acc": 0.66196041,
+      "epoch": 1.356671740233384,
+      "grad_norm": 5.625,
+      "learning_rate": 2.571899151384406e-06,
+      "loss": 1.52347069,
+      "memory(GiB)": 111.15,
+      "step": 53480,
+      "train_speed(iter/s)": 0.447453
+    },
+    {
+      "acc": 0.65426426,
+      "epoch": 1.356798579401319,
+      "grad_norm": 5.03125,
+      "learning_rate": 2.5709825295115178e-06,
+      "loss": 1.65075359,
+      "memory(GiB)": 111.15,
+      "step": 53485,
+      "train_speed(iter/s)": 0.447475
+    },
+    {
+      "acc": 0.63336825,
+      "epoch": 1.3569254185692543,
+      "grad_norm": 4.96875,
+      "learning_rate": 2.5700660144776647e-06,
+      "loss": 1.6345993,
+      "memory(GiB)": 111.15,
+      "step": 53490,
+      "train_speed(iter/s)": 0.447497
+    },
+    {
+      "acc": 0.64962382,
+      "epoch": 1.3570522577371893,
+      "grad_norm": 5.53125,
+      "learning_rate": 2.5691496063231527e-06,
+      "loss": 1.62113476,
+      "memory(GiB)": 111.15,
+      "step": 53495,
+      "train_speed(iter/s)": 0.447519
+    },
+    {
+      "acc": 0.65524778,
+      "epoch": 1.3571790969051243,
+      "grad_norm": 5.46875,
+      "learning_rate": 2.568233305088296e-06,
+      "loss": 1.5629961,
+      "memory(GiB)": 111.15,
+      "step": 53500,
+      "train_speed(iter/s)": 0.447541
+    },
+    {
+      "epoch": 1.3571790969051243,
+      "eval_acc": 0.643370011910546,
+      "eval_loss": 1.6076256036758423,
+      "eval_runtime": 114.3182,
+      "eval_samples_per_second": 55.722,
+      "eval_steps_per_second": 27.861,
+      "step": 53500
+    },
+    {
+      "acc": 0.65749879,
+      "epoch": 1.3573059360730593,
+      "grad_norm": 5.15625,
+      "learning_rate": 2.5673171108133956e-06,
+      "loss": 1.56520119,
+      "memory(GiB)": 111.15,
+      "step": 53505,
+      "train_speed(iter/s)": 0.447118
+    },
+    {
+      "acc": 0.63625317,
+      "epoch": 1.3574327752409945,
+      "grad_norm": 4.84375,
+      "learning_rate": 2.5664010235387503e-06,
+      "loss": 1.63184319,
+      "memory(GiB)": 111.15,
+      "step": 53510,
+      "train_speed(iter/s)": 0.44714
+    },
+    {
+      "acc": 0.65131688,
+      "epoch": 1.3575596144089295,
+      "grad_norm": 6.71875,
+      "learning_rate": 2.565485043304653e-06,
+      "loss": 1.62371159,
+      "memory(GiB)": 111.15,
+      "step": 53515,
+      "train_speed(iter/s)": 0.447162
+    },
+    {
+      "acc": 0.63942871,
+      "epoch": 1.3576864535768645,
+      "grad_norm": 5.34375,
+      "learning_rate": 2.564569170151392e-06,
+      "loss": 1.64945965,
+      "memory(GiB)": 111.15,
+      "step": 53520,
+      "train_speed(iter/s)": 0.447184
+    },
+    {
+      "acc": 0.64950275,
+      "epoch": 1.3578132927447997,
+      "grad_norm": 4.96875,
+      "learning_rate": 2.5636534041192534e-06,
+      "loss": 1.55946865,
+      "memory(GiB)": 111.15,
+      "step": 53525,
+      "train_speed(iter/s)": 0.447206
+    },
+    {
+      "acc": 0.65202751,
+      "epoch": 1.3579401319127347,
+      "grad_norm": 4.96875,
+      "learning_rate": 2.5627377452485153e-06,
+      "loss": 1.59545994,
+      "memory(GiB)": 111.15,
+      "step": 53530,
+      "train_speed(iter/s)": 0.447229
+    },
+    {
+      "acc": 0.65634274,
+      "epoch": 1.3580669710806696,
+      "grad_norm": 4.5625,
+      "learning_rate": 2.561822193579453e-06,
+      "loss": 1.54839096,
+      "memory(GiB)": 111.15,
+      "step": 53535,
+      "train_speed(iter/s)": 0.447251
+    },
+    {
+      "acc": 0.66794696,
+      "epoch": 1.3581938102486046,
+      "grad_norm": 5.46875,
+      "learning_rate": 2.560906749152335e-06,
+      "loss": 1.62551422,
+      "memory(GiB)": 111.15,
+      "step": 53540,
+      "train_speed(iter/s)": 0.447273
+    },
+    {
+      "acc": 0.64571419,
+      "epoch": 1.3583206494165398,
+      "grad_norm": 5.65625,
+      "learning_rate": 2.55999141200743e-06,
+      "loss": 1.61927948,
+      "memory(GiB)": 111.15,
+      "step": 53545,
+      "train_speed(iter/s)": 0.447295
+    },
+    {
+      "acc": 0.65883193,
+      "epoch": 1.3584474885844748,
+      "grad_norm": 4.65625,
+      "learning_rate": 2.5590761821849954e-06,
+      "loss": 1.5165554,
+      "memory(GiB)": 111.15,
+      "step": 53550,
+      "train_speed(iter/s)": 0.447317
+    },
+    {
+      "acc": 0.66283417,
+      "epoch": 1.35857432775241,
+      "grad_norm": 5.71875,
+      "learning_rate": 2.5581610597252883e-06,
+      "loss": 1.60564079,
+      "memory(GiB)": 111.15,
+      "step": 53555,
+      "train_speed(iter/s)": 0.447339
+    },
+    {
+      "acc": 0.64904094,
+      "epoch": 1.358701166920345,
+      "grad_norm": 5.0,
+      "learning_rate": 2.5572460446685593e-06,
+      "loss": 1.57299128,
+      "memory(GiB)": 111.15,
+      "step": 53560,
+      "train_speed(iter/s)": 0.447361
+    },
+    {
+      "acc": 0.64697952,
+      "epoch": 1.35882800608828,
+      "grad_norm": 5.21875,
+      "learning_rate": 2.5563311370550535e-06,
+      "loss": 1.63833733,
+      "memory(GiB)": 111.15,
+      "step": 53565,
+      "train_speed(iter/s)": 0.447383
+    },
+    {
+      "acc": 0.64462385,
+      "epoch": 1.358954845256215,
+      "grad_norm": 5.53125,
+      "learning_rate": 2.5554163369250194e-06,
+      "loss": 1.67696571,
+      "memory(GiB)": 111.15,
+      "step": 53570,
+      "train_speed(iter/s)": 0.447405
+    },
+    {
+      "acc": 0.66370239,
+      "epoch": 1.3590816844241502,
+      "grad_norm": 5.71875,
+      "learning_rate": 2.5545016443186867e-06,
+      "loss": 1.56147881,
+      "memory(GiB)": 111.15,
+      "step": 53575,
+      "train_speed(iter/s)": 0.447427
+    },
+    {
+      "acc": 0.64815383,
+      "epoch": 1.3592085235920852,
+      "grad_norm": 5.875,
+      "learning_rate": 2.55358705927629e-06,
+      "loss": 1.61112595,
+      "memory(GiB)": 111.15,
+      "step": 53580,
+      "train_speed(iter/s)": 0.447449
+    },
+    {
+      "acc": 0.64872837,
+      "epoch": 1.3593353627600204,
+      "grad_norm": 4.9375,
+      "learning_rate": 2.552672581838055e-06,
+      "loss": 1.62052326,
+      "memory(GiB)": 111.15,
+      "step": 53585,
+      "train_speed(iter/s)": 0.447472
+    },
+    {
+      "acc": 0.67622762,
+      "epoch": 1.3594622019279554,
+      "grad_norm": 6.03125,
+      "learning_rate": 2.5517582120442095e-06,
+      "loss": 1.57533073,
+      "memory(GiB)": 111.15,
+      "step": 53590,
+      "train_speed(iter/s)": 0.447494
+    },
+    {
+      "acc": 0.63873091,
+      "epoch": 1.3595890410958904,
+      "grad_norm": 5.1875,
+      "learning_rate": 2.5508439499349675e-06,
+      "loss": 1.63436165,
+      "memory(GiB)": 111.15,
+      "step": 53595,
+      "train_speed(iter/s)": 0.447516
+    },
+    {
+      "acc": 0.63463273,
+      "epoch": 1.3597158802638254,
+      "grad_norm": 5.03125,
+      "learning_rate": 2.549929795550541e-06,
+      "loss": 1.65779533,
+      "memory(GiB)": 111.15,
+      "step": 53600,
+      "train_speed(iter/s)": 0.447538
+    },
+    {
+      "epoch": 1.3597158802638254,
+      "eval_acc": 0.6433980023202797,
+      "eval_loss": 1.6076401472091675,
+      "eval_runtime": 113.2922,
+      "eval_samples_per_second": 56.226,
+      "eval_steps_per_second": 28.113,
+      "step": 53600
+    },
+    {
+      "acc": 0.66123066,
+      "epoch": 1.3598427194317606,
+      "grad_norm": 6.8125,
+      "learning_rate": 2.549015748931143e-06,
+      "loss": 1.58687363,
+      "memory(GiB)": 111.15,
+      "step": 53605,
+      "train_speed(iter/s)": 0.44712
+    },
+    {
+      "acc": 0.65715103,
+      "epoch": 1.3599695585996956,
+      "grad_norm": 5.625,
+      "learning_rate": 2.5481018101169763e-06,
+      "loss": 1.63794823,
+      "memory(GiB)": 111.15,
+      "step": 53610,
+      "train_speed(iter/s)": 0.447142
+    },
+    {
+      "acc": 0.65161114,
+      "epoch": 1.3600963977676306,
+      "grad_norm": 5.5625,
+      "learning_rate": 2.547187979148238e-06,
+      "loss": 1.5825819,
+      "memory(GiB)": 111.15,
+      "step": 53615,
+      "train_speed(iter/s)": 0.447164
+    },
+    {
+      "acc": 0.65964866,
+      "epoch": 1.3602232369355658,
+      "grad_norm": 4.59375,
+      "learning_rate": 2.546274256065121e-06,
+      "loss": 1.61942024,
+      "memory(GiB)": 111.15,
+      "step": 53620,
+      "train_speed(iter/s)": 0.447186
+    },
+    {
+      "acc": 0.64865513,
+      "epoch": 1.3603500761035008,
+      "grad_norm": 5.0625,
+      "learning_rate": 2.545360640907819e-06,
+      "loss": 1.61151295,
+      "memory(GiB)": 111.15,
+      "step": 53625,
+      "train_speed(iter/s)": 0.447208
+    },
+    {
+      "acc": 0.6361639,
+      "epoch": 1.3604769152714358,
+      "grad_norm": 5.25,
+      "learning_rate": 2.544447133716518e-06,
+      "loss": 1.58780022,
+      "memory(GiB)": 111.15,
+      "step": 53630,
+      "train_speed(iter/s)": 0.44723
+    },
+    {
+      "acc": 0.63074188,
+      "epoch": 1.3606037544393708,
+      "grad_norm": 5.0,
+      "learning_rate": 2.5435337345313904e-06,
+      "loss": 1.65205383,
+      "memory(GiB)": 111.15,
+      "step": 53635,
+      "train_speed(iter/s)": 0.447252
+    },
+    {
+      "acc": 0.63920035,
+      "epoch": 1.360730593607306,
+      "grad_norm": 5.71875,
+      "learning_rate": 2.5426204433926194e-06,
+      "loss": 1.62534332,
+      "memory(GiB)": 111.15,
+      "step": 53640,
+      "train_speed(iter/s)": 0.447275
+    },
+    {
+      "acc": 0.64779468,
+      "epoch": 1.360857432775241,
+      "grad_norm": 4.90625,
+      "learning_rate": 2.541707260340372e-06,
+      "loss": 1.66536655,
+      "memory(GiB)": 111.15,
+      "step": 53645,
+      "train_speed(iter/s)": 0.447297
+    },
+    {
+      "acc": 0.65298939,
+      "epoch": 1.3609842719431762,
+      "grad_norm": 4.65625,
+      "learning_rate": 2.5407941854148156e-06,
+      "loss": 1.63516502,
+      "memory(GiB)": 111.15,
+      "step": 53650,
+      "train_speed(iter/s)": 0.447319
+    },
+    {
+      "acc": 0.63578048,
+      "epoch": 1.3611111111111112,
+      "grad_norm": 5.1875,
+      "learning_rate": 2.5398812186561095e-06,
+      "loss": 1.70741196,
+      "memory(GiB)": 111.15,
+      "step": 53655,
+      "train_speed(iter/s)": 0.447341
+    },
+    {
+      "acc": 0.63648758,
+      "epoch": 1.3612379502790461,
+      "grad_norm": 4.5625,
+      "learning_rate": 2.5389683601044114e-06,
+      "loss": 1.63265629,
+      "memory(GiB)": 111.15,
+      "step": 53660,
+      "train_speed(iter/s)": 0.447364
+    },
+    {
+      "acc": 0.65695601,
+      "epoch": 1.3613647894469811,
+      "grad_norm": 6.3125,
+      "learning_rate": 2.538055609799873e-06,
+      "loss": 1.60659142,
+      "memory(GiB)": 111.15,
+      "step": 53665,
+      "train_speed(iter/s)": 0.447386
+    },
+    {
+      "acc": 0.64847775,
+      "epoch": 1.3614916286149163,
+      "grad_norm": 5.375,
+      "learning_rate": 2.5371429677826397e-06,
+      "loss": 1.62755318,
+      "memory(GiB)": 111.15,
+      "step": 53670,
+      "train_speed(iter/s)": 0.447408
+    },
+    {
+      "acc": 0.67299066,
+      "epoch": 1.3616184677828513,
+      "grad_norm": 5.96875,
+      "learning_rate": 2.5362304340928556e-06,
+      "loss": 1.55818338,
+      "memory(GiB)": 111.15,
+      "step": 53675,
+      "train_speed(iter/s)": 0.44743
+    },
+    {
+      "acc": 0.64032192,
+      "epoch": 1.3617453069507863,
+      "grad_norm": 5.65625,
+      "learning_rate": 2.535318008770656e-06,
+      "loss": 1.65353355,
+      "memory(GiB)": 111.15,
+      "step": 53680,
+      "train_speed(iter/s)": 0.447452
+    },
+    {
+      "acc": 0.65938268,
+      "epoch": 1.3618721461187215,
+      "grad_norm": 5.3125,
+      "learning_rate": 2.534405691856175e-06,
+      "loss": 1.58861389,
+      "memory(GiB)": 111.15,
+      "step": 53685,
+      "train_speed(iter/s)": 0.447474
+    },
+    {
+      "acc": 0.65935035,
+      "epoch": 1.3619989852866565,
+      "grad_norm": 4.71875,
+      "learning_rate": 2.5334934833895396e-06,
+      "loss": 1.59112034,
+      "memory(GiB)": 111.15,
+      "step": 53690,
+      "train_speed(iter/s)": 0.447496
+    },
+    {
+      "acc": 0.64794111,
+      "epoch": 1.3621258244545915,
+      "grad_norm": 4.875,
+      "learning_rate": 2.5325813834108724e-06,
+      "loss": 1.65006695,
+      "memory(GiB)": 111.15,
+      "step": 53695,
+      "train_speed(iter/s)": 0.447518
+    },
+    {
+      "acc": 0.66493464,
+      "epoch": 1.3622526636225265,
+      "grad_norm": 5.09375,
+      "learning_rate": 2.531669391960293e-06,
+      "loss": 1.61649971,
+      "memory(GiB)": 111.15,
+      "step": 53700,
+      "train_speed(iter/s)": 0.44754
+    },
+    {
+      "epoch": 1.3622526636225265,
+      "eval_acc": 0.6432931427256058,
+      "eval_loss": 1.6076061725616455,
+      "eval_runtime": 112.5629,
+      "eval_samples_per_second": 56.591,
+      "eval_steps_per_second": 28.295,
+      "step": 53700
+    },
+    {
+      "acc": 0.65131669,
+      "epoch": 1.3623795027904617,
+      "grad_norm": 4.71875,
+      "learning_rate": 2.5307575090779125e-06,
+      "loss": 1.68075237,
+      "memory(GiB)": 111.15,
+      "step": 53705,
+      "train_speed(iter/s)": 0.447125
+    },
+    {
+      "acc": 0.64756422,
+      "epoch": 1.3625063419583967,
+      "grad_norm": 5.4375,
+      "learning_rate": 2.529845734803844e-06,
+      "loss": 1.62017136,
+      "memory(GiB)": 111.15,
+      "step": 53710,
+      "train_speed(iter/s)": 0.447147
+    },
+    {
+      "acc": 0.65245414,
+      "epoch": 1.362633181126332,
+      "grad_norm": 5.6875,
+      "learning_rate": 2.5289340691781872e-06,
+      "loss": 1.65525627,
+      "memory(GiB)": 111.15,
+      "step": 53715,
+      "train_speed(iter/s)": 0.44717
+    },
+    {
+      "acc": 0.64950771,
+      "epoch": 1.362760020294267,
+      "grad_norm": 5.84375,
+      "learning_rate": 2.528022512241042e-06,
+      "loss": 1.57923899,
+      "memory(GiB)": 111.15,
+      "step": 53720,
+      "train_speed(iter/s)": 0.447192
+    },
+    {
+      "acc": 0.65749311,
+      "epoch": 1.362886859462202,
+      "grad_norm": 5.1875,
+      "learning_rate": 2.5271110640325013e-06,
+      "loss": 1.60904694,
+      "memory(GiB)": 111.15,
+      "step": 53725,
+      "train_speed(iter/s)": 0.447214
+    },
+    {
+      "acc": 0.65147429,
+      "epoch": 1.3630136986301369,
+      "grad_norm": 4.90625,
+      "learning_rate": 2.5261997245926612e-06,
+      "loss": 1.59437771,
+      "memory(GiB)": 111.15,
+      "step": 53730,
+      "train_speed(iter/s)": 0.447236
+    },
+    {
+      "acc": 0.64182878,
+      "epoch": 1.363140537798072,
+      "grad_norm": 5.09375,
+      "learning_rate": 2.5252884939615995e-06,
+      "loss": 1.61992874,
+      "memory(GiB)": 111.15,
+      "step": 53735,
+      "train_speed(iter/s)": 0.447258
+    },
+    {
+      "acc": 0.64842548,
+      "epoch": 1.363267376966007,
+      "grad_norm": 4.5625,
+      "learning_rate": 2.5243773721793973e-06,
+      "loss": 1.60432358,
+      "memory(GiB)": 111.15,
+      "step": 53740,
+      "train_speed(iter/s)": 0.44728
+    },
+    {
+      "acc": 0.6591629,
+      "epoch": 1.3633942161339423,
+      "grad_norm": 5.46875,
+      "learning_rate": 2.5234663592861325e-06,
+      "loss": 1.59207602,
+      "memory(GiB)": 111.15,
+      "step": 53745,
+      "train_speed(iter/s)": 0.447302
+    },
+    {
+      "acc": 0.65095701,
+      "epoch": 1.3635210553018773,
+      "grad_norm": 5.5625,
+      "learning_rate": 2.522555455321876e-06,
+      "loss": 1.60262756,
+      "memory(GiB)": 111.15,
+      "step": 53750,
+      "train_speed(iter/s)": 0.447324
+    },
+    {
+      "acc": 0.65170269,
+      "epoch": 1.3636478944698123,
+      "grad_norm": 5.875,
+      "learning_rate": 2.52164466032669e-06,
+      "loss": 1.58231144,
+      "memory(GiB)": 111.15,
+      "step": 53755,
+      "train_speed(iter/s)": 0.447346
+    },
+    {
+      "acc": 0.66010265,
+      "epoch": 1.3637747336377473,
+      "grad_norm": 4.75,
+      "learning_rate": 2.5207339743406344e-06,
+      "loss": 1.62863102,
+      "memory(GiB)": 111.15,
+      "step": 53760,
+      "train_speed(iter/s)": 0.447368
+    },
+    {
+      "acc": 0.63215275,
+      "epoch": 1.3639015728056825,
+      "grad_norm": 4.21875,
+      "learning_rate": 2.5198233974037705e-06,
+      "loss": 1.63572845,
+      "memory(GiB)": 111.15,
+      "step": 53765,
+      "train_speed(iter/s)": 0.44739
+    },
+    {
+      "acc": 0.64354935,
+      "epoch": 1.3640284119736175,
+      "grad_norm": 6.0625,
+      "learning_rate": 2.5189129295561486e-06,
+      "loss": 1.68065243,
+      "memory(GiB)": 111.15,
+      "step": 53770,
+      "train_speed(iter/s)": 0.447412
+    },
+    {
+      "acc": 0.64947109,
+      "epoch": 1.3641552511415524,
+      "grad_norm": 4.78125,
+      "learning_rate": 2.518002570837809e-06,
+      "loss": 1.64671555,
+      "memory(GiB)": 111.15,
+      "step": 53775,
+      "train_speed(iter/s)": 0.447435
+    },
+    {
+      "acc": 0.64212036,
+      "epoch": 1.3642820903094877,
+      "grad_norm": 5.96875,
+      "learning_rate": 2.5170923212887997e-06,
+      "loss": 1.71752129,
+      "memory(GiB)": 111.15,
+      "step": 53780,
+      "train_speed(iter/s)": 0.447457
+    },
+    {
+      "acc": 0.67178898,
+      "epoch": 1.3644089294774226,
+      "grad_norm": 5.46875,
+      "learning_rate": 2.5161821809491554e-06,
+      "loss": 1.58943415,
+      "memory(GiB)": 111.15,
+      "step": 53785,
+      "train_speed(iter/s)": 0.447479
+    },
+    {
+      "acc": 0.65954351,
+      "epoch": 1.3645357686453576,
+      "grad_norm": 5.09375,
+      "learning_rate": 2.5152721498589104e-06,
+      "loss": 1.61051807,
+      "memory(GiB)": 111.15,
+      "step": 53790,
+      "train_speed(iter/s)": 0.447501
+    },
+    {
+      "acc": 0.63769784,
+      "epoch": 1.3646626078132926,
+      "grad_norm": 6.78125,
+      "learning_rate": 2.514362228058086e-06,
+      "loss": 1.62113857,
+      "memory(GiB)": 111.15,
+      "step": 53795,
+      "train_speed(iter/s)": 0.447523
+    },
+    {
+      "acc": 0.64498138,
+      "epoch": 1.3647894469812278,
+      "grad_norm": 5.71875,
+      "learning_rate": 2.51345241558671e-06,
+      "loss": 1.6742878,
+      "memory(GiB)": 111.15,
+      "step": 53800,
+      "train_speed(iter/s)": 0.447545
+    },
+    {
+      "epoch": 1.3647894469812278,
+      "eval_acc": 0.6434702760648158,
+      "eval_loss": 1.6076200008392334,
+      "eval_runtime": 113.8288,
+      "eval_samples_per_second": 55.961,
+      "eval_steps_per_second": 27.981,
+      "step": 53800
+    },
+    {
+      "acc": 0.63967981,
+      "epoch": 1.3649162861491628,
+      "grad_norm": 5.6875,
+      "learning_rate": 2.5125427124847985e-06,
+      "loss": 1.68268661,
+      "memory(GiB)": 111.15,
+      "step": 53805,
+      "train_speed(iter/s)": 0.447127
+    },
+    {
+      "acc": 0.65533047,
+      "epoch": 1.365043125317098,
+      "grad_norm": 5.5,
+      "learning_rate": 2.5116331187923645e-06,
+      "loss": 1.58075695,
+      "memory(GiB)": 111.15,
+      "step": 53810,
+      "train_speed(iter/s)": 0.447149
+    },
+    {
+      "acc": 0.65239658,
+      "epoch": 1.365169964485033,
+      "grad_norm": 5.875,
+      "learning_rate": 2.510723634549415e-06,
+      "loss": 1.63485966,
+      "memory(GiB)": 111.15,
+      "step": 53815,
+      "train_speed(iter/s)": 0.447171
+    },
+    {
+      "acc": 0.65630302,
+      "epoch": 1.365296803652968,
+      "grad_norm": 6.375,
+      "learning_rate": 2.509814259795954e-06,
+      "loss": 1.63906174,
+      "memory(GiB)": 111.15,
+      "step": 53820,
+      "train_speed(iter/s)": 0.447193
+    },
+    {
+      "acc": 0.66072731,
+      "epoch": 1.365423642820903,
+      "grad_norm": 5.65625,
+      "learning_rate": 2.50890499457198e-06,
+      "loss": 1.59450607,
+      "memory(GiB)": 111.15,
+      "step": 53825,
+      "train_speed(iter/s)": 0.447215
+    },
+    {
+      "acc": 0.66513567,
+      "epoch": 1.3655504819888382,
+      "grad_norm": 5.0625,
+      "learning_rate": 2.5079958389174865e-06,
+      "loss": 1.53741465,
+      "memory(GiB)": 111.15,
+      "step": 53830,
+      "train_speed(iter/s)": 0.447236
+    },
+    {
+      "acc": 0.63600407,
+      "epoch": 1.3656773211567732,
+      "grad_norm": 5.5625,
+      "learning_rate": 2.5070867928724618e-06,
+      "loss": 1.73357239,
+      "memory(GiB)": 111.15,
+      "step": 53835,
+      "train_speed(iter/s)": 0.447258
+    },
+    {
+      "acc": 0.64953756,
+      "epoch": 1.3658041603247082,
+      "grad_norm": 4.9375,
+      "learning_rate": 2.50617785647689e-06,
+      "loss": 1.5646286,
+      "memory(GiB)": 111.15,
+      "step": 53840,
+      "train_speed(iter/s)": 0.447281
+    },
+    {
+      "acc": 0.64405594,
+      "epoch": 1.3659309994926434,
+      "grad_norm": 5.75,
+      "learning_rate": 2.5052690297707506e-06,
+      "loss": 1.58428173,
+      "memory(GiB)": 111.15,
+      "step": 53845,
+      "train_speed(iter/s)": 0.447303
+    },
+    {
+      "acc": 0.65732603,
+      "epoch": 1.3660578386605784,
+      "grad_norm": 5.4375,
+      "learning_rate": 2.5043603127940164e-06,
+      "loss": 1.52856522,
+      "memory(GiB)": 111.15,
+      "step": 53850,
+      "train_speed(iter/s)": 0.447325
+    },
+    {
+      "acc": 0.64463425,
+      "epoch": 1.3661846778285134,
+      "grad_norm": 5.53125,
+      "learning_rate": 2.503451705586659e-06,
+      "loss": 1.62363186,
+      "memory(GiB)": 111.15,
+      "step": 53855,
+      "train_speed(iter/s)": 0.447347
+    },
+    {
+      "acc": 0.65845661,
+      "epoch": 1.3663115169964484,
+      "grad_norm": 4.9375,
+      "learning_rate": 2.5025432081886412e-06,
+      "loss": 1.57045841,
+      "memory(GiB)": 111.15,
+      "step": 53860,
+      "train_speed(iter/s)": 0.447369
+    },
+    {
+      "acc": 0.65020275,
+      "epoch": 1.3664383561643836,
+      "grad_norm": 5.8125,
+      "learning_rate": 2.5016348206399215e-06,
+      "loss": 1.59868774,
+      "memory(GiB)": 111.15,
+      "step": 53865,
+      "train_speed(iter/s)": 0.447391
+    },
+    {
+      "acc": 0.64941826,
+      "epoch": 1.3665651953323186,
+      "grad_norm": 6.4375,
+      "learning_rate": 2.500726542980461e-06,
+      "loss": 1.67974243,
+      "memory(GiB)": 111.15,
+      "step": 53870,
+      "train_speed(iter/s)": 0.447413
+    },
+    {
+      "acc": 0.65533905,
+      "epoch": 1.3666920345002538,
+      "grad_norm": 4.8125,
+      "learning_rate": 2.499818375250204e-06,
+      "loss": 1.61846981,
+      "memory(GiB)": 111.15,
+      "step": 53875,
+      "train_speed(iter/s)": 0.447435
+    },
+    {
+      "acc": 0.65063362,
+      "epoch": 1.3668188736681888,
+      "grad_norm": 7.0625,
+      "learning_rate": 2.4989103174890946e-06,
+      "loss": 1.64481182,
+      "memory(GiB)": 111.15,
+      "step": 53880,
+      "train_speed(iter/s)": 0.447457
+    },
+    {
+      "acc": 0.65091419,
+      "epoch": 1.3669457128361238,
+      "grad_norm": 4.78125,
+      "learning_rate": 2.498002369737078e-06,
+      "loss": 1.66141624,
+      "memory(GiB)": 111.15,
+      "step": 53885,
+      "train_speed(iter/s)": 0.447479
+    },
+    {
+      "acc": 0.65422978,
+      "epoch": 1.3670725520040587,
+      "grad_norm": 6.5,
+      "learning_rate": 2.49709453203409e-06,
+      "loss": 1.60266876,
+      "memory(GiB)": 111.15,
+      "step": 53890,
+      "train_speed(iter/s)": 0.447501
+    },
+    {
+      "acc": 0.64642415,
+      "epoch": 1.367199391171994,
+      "grad_norm": 4.6875,
+      "learning_rate": 2.496186804420057e-06,
+      "loss": 1.66190796,
+      "memory(GiB)": 111.15,
+      "step": 53895,
+      "train_speed(iter/s)": 0.447523
+    },
+    {
+      "acc": 0.6501009,
+      "epoch": 1.367326230339929,
+      "grad_norm": 4.5,
+      "learning_rate": 2.4952791869349056e-06,
+      "loss": 1.62598152,
+      "memory(GiB)": 111.15,
+      "step": 53900,
+      "train_speed(iter/s)": 0.447545
+    },
+    {
+      "epoch": 1.367326230339929,
+      "eval_acc": 0.6434126241761107,
+      "eval_loss": 1.607625961303711,
+      "eval_runtime": 114.0855,
+      "eval_samples_per_second": 55.835,
+      "eval_steps_per_second": 27.918,
+      "step": 53900
+    },
+    {
+      "acc": 0.66053495,
+      "epoch": 1.3674530695078642,
+      "grad_norm": 7.84375,
+      "learning_rate": 2.4943716796185603e-06,
+      "loss": 1.6291832,
+      "memory(GiB)": 111.15,
+      "step": 53905,
+      "train_speed(iter/s)": 0.447126
+    },
+    {
+      "acc": 0.65272274,
+      "epoch": 1.3675799086757991,
+      "grad_norm": 5.8125,
+      "learning_rate": 2.493464282510937e-06,
+      "loss": 1.66543503,
+      "memory(GiB)": 111.15,
+      "step": 53910,
+      "train_speed(iter/s)": 0.447148
+    },
+    {
+      "acc": 0.67182198,
+      "epoch": 1.3677067478437341,
+      "grad_norm": 5.25,
+      "learning_rate": 2.4925569956519414e-06,
+      "loss": 1.58488197,
+      "memory(GiB)": 111.15,
+      "step": 53915,
+      "train_speed(iter/s)": 0.44717
+    },
+    {
+      "acc": 0.64124699,
+      "epoch": 1.3678335870116691,
+      "grad_norm": 5.28125,
+      "learning_rate": 2.491649819081486e-06,
+      "loss": 1.69223747,
+      "memory(GiB)": 111.15,
+      "step": 53920,
+      "train_speed(iter/s)": 0.447192
+    },
+    {
+      "acc": 0.66097775,
+      "epoch": 1.3679604261796043,
+      "grad_norm": 5.0625,
+      "learning_rate": 2.490742752839471e-06,
+      "loss": 1.64284267,
+      "memory(GiB)": 111.15,
+      "step": 53925,
+      "train_speed(iter/s)": 0.447215
+    },
+    {
+      "acc": 0.65012608,
+      "epoch": 1.3680872653475393,
+      "grad_norm": 5.8125,
+      "learning_rate": 2.4898357969657943e-06,
+      "loss": 1.59399204,
+      "memory(GiB)": 111.15,
+      "step": 53930,
+      "train_speed(iter/s)": 0.447237
+    },
+    {
+      "acc": 0.66440682,
+      "epoch": 1.3682141045154743,
+      "grad_norm": 5.40625,
+      "learning_rate": 2.4889289515003425e-06,
+      "loss": 1.59462557,
+      "memory(GiB)": 111.15,
+      "step": 53935,
+      "train_speed(iter/s)": 0.447259
+    },
+    {
+      "acc": 0.66493983,
+      "epoch": 1.3683409436834095,
+      "grad_norm": 5.625,
+      "learning_rate": 2.4880222164830085e-06,
+      "loss": 1.58884668,
+      "memory(GiB)": 111.15,
+      "step": 53940,
+      "train_speed(iter/s)": 0.447281
+    },
+    {
+      "acc": 0.65550346,
+      "epoch": 1.3684677828513445,
+      "grad_norm": 4.71875,
+      "learning_rate": 2.4871155919536725e-06,
+      "loss": 1.61865578,
+      "memory(GiB)": 111.15,
+      "step": 53945,
+      "train_speed(iter/s)": 0.447303
+    },
+    {
+      "acc": 0.66767015,
+      "epoch": 1.3685946220192795,
+      "grad_norm": 6.875,
+      "learning_rate": 2.486209077952212e-06,
+      "loss": 1.57417145,
+      "memory(GiB)": 111.15,
+      "step": 53950,
+      "train_speed(iter/s)": 0.447325
+    },
+    {
+      "acc": 0.66276217,
+      "epoch": 1.3687214611872145,
+      "grad_norm": 5.96875,
+      "learning_rate": 2.4853026745185e-06,
+      "loss": 1.60117989,
+      "memory(GiB)": 111.15,
+      "step": 53955,
+      "train_speed(iter/s)": 0.447347
+    },
+    {
+      "acc": 0.66225986,
+      "epoch": 1.3688483003551497,
+      "grad_norm": 4.90625,
+      "learning_rate": 2.4843963816924035e-06,
+      "loss": 1.58685398,
+      "memory(GiB)": 111.15,
+      "step": 53960,
+      "train_speed(iter/s)": 0.447369
+    },
+    {
+      "acc": 0.64460812,
+      "epoch": 1.3689751395230847,
+      "grad_norm": 4.9375,
+      "learning_rate": 2.483490199513785e-06,
+      "loss": 1.57389116,
+      "memory(GiB)": 111.15,
+      "step": 53965,
+      "train_speed(iter/s)": 0.447392
+    },
+    {
+      "acc": 0.6641758,
+      "epoch": 1.36910197869102,
+      "grad_norm": 6.34375,
+      "learning_rate": 2.4825841280225033e-06,
+      "loss": 1.62485905,
+      "memory(GiB)": 111.15,
+      "step": 53970,
+      "train_speed(iter/s)": 0.447414
+    },
+    {
+      "acc": 0.64341431,
+      "epoch": 1.369228817858955,
+      "grad_norm": 5.46875,
+      "learning_rate": 2.4816781672584107e-06,
+      "loss": 1.63893394,
+      "memory(GiB)": 111.15,
+      "step": 53975,
+      "train_speed(iter/s)": 0.447436
+    },
+    {
+      "acc": 0.63590364,
+      "epoch": 1.3693556570268899,
+      "grad_norm": 5.09375,
+      "learning_rate": 2.480772317261356e-06,
+      "loss": 1.64935303,
+      "memory(GiB)": 111.15,
+      "step": 53980,
+      "train_speed(iter/s)": 0.447458
+    },
+    {
+      "acc": 0.65358453,
+      "epoch": 1.3694824961948249,
+      "grad_norm": 5.375,
+      "learning_rate": 2.479866578071183e-06,
+      "loss": 1.64516487,
+      "memory(GiB)": 111.15,
+      "step": 53985,
+      "train_speed(iter/s)": 0.44748
+    },
+    {
+      "acc": 0.64769468,
+      "epoch": 1.36960933536276,
+      "grad_norm": 6.53125,
+      "learning_rate": 2.4789609497277284e-06,
+      "loss": 1.62047577,
+      "memory(GiB)": 111.15,
+      "step": 53990,
+      "train_speed(iter/s)": 0.447502
+    },
+    {
+      "acc": 0.65165801,
+      "epoch": 1.369736174530695,
+      "grad_norm": 6.15625,
+      "learning_rate": 2.478055432270828e-06,
+      "loss": 1.63498802,
+      "memory(GiB)": 111.15,
+      "step": 53995,
+      "train_speed(iter/s)": 0.447524
+    },
+    {
+      "acc": 0.68386297,
+      "epoch": 1.36986301369863,
+      "grad_norm": 4.3125,
+      "learning_rate": 2.4771500257403086e-06,
+      "loss": 1.45399466,
+      "memory(GiB)": 111.15,
+      "step": 54000,
+      "train_speed(iter/s)": 0.447546
+    },
+    {
+      "epoch": 1.36986301369863,
+      "eval_acc": 0.643359985495119,
+      "eval_loss": 1.6075286865234375,
+      "eval_runtime": 114.0531,
+      "eval_samples_per_second": 55.851,
+      "eval_steps_per_second": 27.926,
+      "step": 54000
+    },
+    {
+      "acc": 0.65283713,
+      "epoch": 1.3699898528665653,
+      "grad_norm": 4.71875,
+      "learning_rate": 2.476244730175993e-06,
+      "loss": 1.63605785,
+      "memory(GiB)": 111.15,
+      "step": 54005,
+      "train_speed(iter/s)": 0.447129
+    },
+    {
+      "acc": 0.65631208,
+      "epoch": 1.3701166920345003,
+      "grad_norm": 5.53125,
+      "learning_rate": 2.4753395456177056e-06,
+      "loss": 1.62325039,
+      "memory(GiB)": 111.15,
+      "step": 54010,
+      "train_speed(iter/s)": 0.447151
+    },
+    {
+      "acc": 0.64412069,
+      "epoch": 1.3702435312024352,
+      "grad_norm": 5.0,
+      "learning_rate": 2.474434472105255e-06,
+      "loss": 1.65310822,
+      "memory(GiB)": 111.15,
+      "step": 54015,
+      "train_speed(iter/s)": 0.447172
+    },
+    {
+      "acc": 0.64262562,
+      "epoch": 1.3703703703703702,
+      "grad_norm": 5.625,
+      "learning_rate": 2.473529509678452e-06,
+      "loss": 1.59661636,
+      "memory(GiB)": 111.15,
+      "step": 54020,
+      "train_speed(iter/s)": 0.447194
+    },
+    {
+      "acc": 0.64984269,
+      "epoch": 1.3704972095383054,
+      "grad_norm": 5.5625,
+      "learning_rate": 2.4726246583770996e-06,
+      "loss": 1.67539902,
+      "memory(GiB)": 111.15,
+      "step": 54025,
+      "train_speed(iter/s)": 0.447216
+    },
+    {
+      "acc": 0.65169973,
+      "epoch": 1.3706240487062404,
+      "grad_norm": 4.625,
+      "learning_rate": 2.4717199182410025e-06,
+      "loss": 1.55737724,
+      "memory(GiB)": 111.15,
+      "step": 54030,
+      "train_speed(iter/s)": 0.447238
+    },
+    {
+      "acc": 0.66279774,
+      "epoch": 1.3707508878741756,
+      "grad_norm": 5.6875,
+      "learning_rate": 2.4708152893099493e-06,
+      "loss": 1.57991695,
+      "memory(GiB)": 111.15,
+      "step": 54035,
+      "train_speed(iter/s)": 0.44726
+    },
+    {
+      "acc": 0.66502361,
+      "epoch": 1.3708777270421106,
+      "grad_norm": 6.28125,
+      "learning_rate": 2.4699107716237293e-06,
+      "loss": 1.58999081,
+      "memory(GiB)": 111.15,
+      "step": 54040,
+      "train_speed(iter/s)": 0.447282
+    },
+    {
+      "acc": 0.65244412,
+      "epoch": 1.3710045662100456,
+      "grad_norm": 4.78125,
+      "learning_rate": 2.469006365222132e-06,
+      "loss": 1.59948092,
+      "memory(GiB)": 111.15,
+      "step": 54045,
+      "train_speed(iter/s)": 0.447304
+    },
+    {
+      "acc": 0.64311647,
+      "epoch": 1.3711314053779806,
+      "grad_norm": 5.40625,
+      "learning_rate": 2.4681020701449365e-06,
+      "loss": 1.64587307,
+      "memory(GiB)": 111.15,
+      "step": 54050,
+      "train_speed(iter/s)": 0.447326
+    },
+    {
+      "acc": 0.64383817,
+      "epoch": 1.3712582445459158,
+      "grad_norm": 5.375,
+      "learning_rate": 2.4671978864319123e-06,
+      "loss": 1.61419506,
+      "memory(GiB)": 111.15,
+      "step": 54055,
+      "train_speed(iter/s)": 0.447347
+    },
+    {
+      "acc": 0.64757047,
+      "epoch": 1.3713850837138508,
+      "grad_norm": 5.90625,
+      "learning_rate": 2.466293814122835e-06,
+      "loss": 1.65925941,
+      "memory(GiB)": 111.15,
+      "step": 54060,
+      "train_speed(iter/s)": 0.44737
+    },
+    {
+      "acc": 0.67053723,
+      "epoch": 1.371511922881786,
+      "grad_norm": 6.78125,
+      "learning_rate": 2.4653898532574684e-06,
+      "loss": 1.55502205,
+      "memory(GiB)": 111.15,
+      "step": 54065,
+      "train_speed(iter/s)": 0.447392
+    },
+    {
+      "acc": 0.66027589,
+      "epoch": 1.371638762049721,
+      "grad_norm": 5.34375,
+      "learning_rate": 2.4644860038755737e-06,
+      "loss": 1.60154572,
+      "memory(GiB)": 111.15,
+      "step": 54070,
+      "train_speed(iter/s)": 0.447414
+    },
+    {
+      "acc": 0.64132648,
+      "epoch": 1.371765601217656,
+      "grad_norm": 5.4375,
+      "learning_rate": 2.4635822660169007e-06,
+      "loss": 1.66392365,
+      "memory(GiB)": 111.15,
+      "step": 54075,
+      "train_speed(iter/s)": 0.447436
+    },
+    {
+      "acc": 0.64989734,
+      "epoch": 1.371892440385591,
+      "grad_norm": 6.21875,
+      "learning_rate": 2.4626786397212065e-06,
+      "loss": 1.67736282,
+      "memory(GiB)": 111.15,
+      "step": 54080,
+      "train_speed(iter/s)": 0.447458
+    },
+    {
+      "acc": 0.66153569,
+      "epoch": 1.3720192795535262,
+      "grad_norm": 7.0,
+      "learning_rate": 2.461775125028234e-06,
+      "loss": 1.62993965,
+      "memory(GiB)": 111.15,
+      "step": 54085,
+      "train_speed(iter/s)": 0.44748
+    },
+    {
+      "acc": 0.63310614,
+      "epoch": 1.3721461187214612,
+      "grad_norm": 5.875,
+      "learning_rate": 2.4608717219777236e-06,
+      "loss": 1.65197239,
+      "memory(GiB)": 111.15,
+      "step": 54090,
+      "train_speed(iter/s)": 0.447502
+    },
+    {
+      "acc": 0.65307555,
+      "epoch": 1.3722729578893962,
+      "grad_norm": 5.03125,
+      "learning_rate": 2.459968430609411e-06,
+      "loss": 1.61922131,
+      "memory(GiB)": 111.15,
+      "step": 54095,
+      "train_speed(iter/s)": 0.447524
+    },
+    {
+      "acc": 0.65075665,
+      "epoch": 1.3723997970573314,
+      "grad_norm": 5.21875,
+      "learning_rate": 2.459065250963028e-06,
+      "loss": 1.56514893,
+      "memory(GiB)": 111.15,
+      "step": 54100,
+      "train_speed(iter/s)": 0.447546
+    },
+    {
+      "epoch": 1.3723997970573314,
+      "eval_acc": 0.6434326770069646,
+      "eval_loss": 1.607506513595581,
+      "eval_runtime": 113.8065,
+      "eval_samples_per_second": 55.972,
+      "eval_steps_per_second": 27.986,
+      "step": 54100
+    },
+    {
+      "acc": 0.66506958,
+      "epoch": 1.3725266362252664,
+      "grad_norm": 5.65625,
+      "learning_rate": 2.458162183078299e-06,
+      "loss": 1.57335291,
+      "memory(GiB)": 111.15,
+      "step": 54105,
+      "train_speed(iter/s)": 0.44713
+    },
+    {
+      "acc": 0.67396069,
+      "epoch": 1.3726534753932014,
+      "grad_norm": 5.34375,
+      "learning_rate": 2.4572592269949464e-06,
+      "loss": 1.52641773,
+      "memory(GiB)": 111.15,
+      "step": 54110,
+      "train_speed(iter/s)": 0.447152
+    },
+    {
+      "acc": 0.64913712,
+      "epoch": 1.3727803145611364,
+      "grad_norm": 5.625,
+      "learning_rate": 2.4563563827526848e-06,
+      "loss": 1.62573986,
+      "memory(GiB)": 111.15,
+      "step": 54115,
+      "train_speed(iter/s)": 0.447174
+    },
+    {
+      "acc": 0.64341526,
+      "epoch": 1.3729071537290716,
+      "grad_norm": 5.6875,
+      "learning_rate": 2.455453650391226e-06,
+      "loss": 1.60747776,
+      "memory(GiB)": 111.15,
+      "step": 54120,
+      "train_speed(iter/s)": 0.447196
+    },
+    {
+      "acc": 0.66006231,
+      "epoch": 1.3730339928970066,
+      "grad_norm": 5.40625,
+      "learning_rate": 2.454551029950277e-06,
+      "loss": 1.61412067,
+      "memory(GiB)": 111.15,
+      "step": 54125,
+      "train_speed(iter/s)": 0.447218
+    },
+    {
+      "acc": 0.65793524,
+      "epoch": 1.3731608320649418,
+      "grad_norm": 5.125,
+      "learning_rate": 2.4536485214695377e-06,
+      "loss": 1.53926353,
+      "memory(GiB)": 111.15,
+      "step": 54130,
+      "train_speed(iter/s)": 0.447241
+    },
+    {
+      "acc": 0.65194378,
+      "epoch": 1.3732876712328768,
+      "grad_norm": 4.4375,
+      "learning_rate": 2.4527461249887054e-06,
+      "loss": 1.59197626,
+      "memory(GiB)": 111.15,
+      "step": 54135,
+      "train_speed(iter/s)": 0.447263
+    },
+    {
+      "acc": 0.64801779,
+      "epoch": 1.3734145104008117,
+      "grad_norm": 4.96875,
+      "learning_rate": 2.451843840547471e-06,
+      "loss": 1.61186676,
+      "memory(GiB)": 111.15,
+      "step": 54140,
+      "train_speed(iter/s)": 0.447285
+    },
+    {
+      "acc": 0.65309134,
+      "epoch": 1.3735413495687467,
+      "grad_norm": 5.25,
+      "learning_rate": 2.4509416681855193e-06,
+      "loss": 1.65496292,
+      "memory(GiB)": 111.15,
+      "step": 54145,
+      "train_speed(iter/s)": 0.447307
+    },
+    {
+      "acc": 0.65230007,
+      "epoch": 1.373668188736682,
+      "grad_norm": 6.0,
+      "learning_rate": 2.4500396079425377e-06,
+      "loss": 1.64339371,
+      "memory(GiB)": 111.15,
+      "step": 54150,
+      "train_speed(iter/s)": 0.447329
+    },
+    {
+      "acc": 0.6514914,
+      "epoch": 1.373795027904617,
+      "grad_norm": 6.3125,
+      "learning_rate": 2.4491376598581967e-06,
+      "loss": 1.63499184,
+      "memory(GiB)": 111.15,
+      "step": 54155,
+      "train_speed(iter/s)": 0.447351
+    },
+    {
+      "acc": 0.65102873,
+      "epoch": 1.373921867072552,
+      "grad_norm": 6.1875,
+      "learning_rate": 2.4482358239721704e-06,
+      "loss": 1.65550671,
+      "memory(GiB)": 111.15,
+      "step": 54160,
+      "train_speed(iter/s)": 0.447373
+    },
+    {
+      "acc": 0.65483875,
+      "epoch": 1.3740487062404871,
+      "grad_norm": 5.25,
+      "learning_rate": 2.4473341003241234e-06,
+      "loss": 1.62768974,
+      "memory(GiB)": 111.15,
+      "step": 54165,
+      "train_speed(iter/s)": 0.447395
+    },
+    {
+      "acc": 0.65897627,
+      "epoch": 1.3741755454084221,
+      "grad_norm": 5.4375,
+      "learning_rate": 2.446432488953724e-06,
+      "loss": 1.47019701,
+      "memory(GiB)": 111.15,
+      "step": 54170,
+      "train_speed(iter/s)": 0.447417
+    },
+    {
+      "acc": 0.64088774,
+      "epoch": 1.3743023845763571,
+      "grad_norm": 6.8125,
+      "learning_rate": 2.445530989900622e-06,
+      "loss": 1.61296196,
+      "memory(GiB)": 111.15,
+      "step": 54175,
+      "train_speed(iter/s)": 0.447439
+    },
+    {
+      "acc": 0.65318742,
+      "epoch": 1.374429223744292,
+      "grad_norm": 5.875,
+      "learning_rate": 2.4446296032044697e-06,
+      "loss": 1.65706158,
+      "memory(GiB)": 111.15,
+      "step": 54180,
+      "train_speed(iter/s)": 0.447461
+    },
+    {
+      "acc": 0.65252695,
+      "epoch": 1.3745560629122273,
+      "grad_norm": 5.5625,
+      "learning_rate": 2.443728328904919e-06,
+      "loss": 1.60684261,
+      "memory(GiB)": 111.15,
+      "step": 54185,
+      "train_speed(iter/s)": 0.447483
+    },
+    {
+      "acc": 0.63892503,
+      "epoch": 1.3746829020801623,
+      "grad_norm": 6.0625,
+      "learning_rate": 2.442827167041611e-06,
+      "loss": 1.65832977,
+      "memory(GiB)": 111.15,
+      "step": 54190,
+      "train_speed(iter/s)": 0.447504
+    },
+    {
+      "acc": 0.66288891,
+      "epoch": 1.3748097412480975,
+      "grad_norm": 5.78125,
+      "learning_rate": 2.441926117654179e-06,
+      "loss": 1.61495571,
+      "memory(GiB)": 111.15,
+      "step": 54195,
+      "train_speed(iter/s)": 0.447527
+    },
+    {
+      "acc": 0.64723091,
+      "epoch": 1.3749365804160325,
+      "grad_norm": 6.125,
+      "learning_rate": 2.4410251807822555e-06,
+      "loss": 1.68451042,
+      "memory(GiB)": 111.15,
+      "step": 54200,
+      "train_speed(iter/s)": 0.447549
+    },
+    {
+      "epoch": 1.3749365804160325,
+      "eval_acc": 0.6433737718163312,
+      "eval_loss": 1.6075576543807983,
+      "eval_runtime": 114.6949,
+      "eval_samples_per_second": 55.539,
+      "eval_steps_per_second": 27.769,
+      "step": 54200
+    },
+    {
+      "acc": 0.65749006,
+      "epoch": 1.3750634195839675,
+      "grad_norm": 5.21875,
+      "learning_rate": 2.4401243564654713e-06,
+      "loss": 1.59885588,
+      "memory(GiB)": 111.15,
+      "step": 54205,
+      "train_speed(iter/s)": 0.447131
+    },
+    {
+      "acc": 0.65639372,
+      "epoch": 1.3751902587519025,
+      "grad_norm": 5.40625,
+      "learning_rate": 2.4392236447434494e-06,
+      "loss": 1.58142643,
+      "memory(GiB)": 111.15,
+      "step": 54210,
+      "train_speed(iter/s)": 0.447153
+    },
+    {
+      "acc": 0.6563168,
+      "epoch": 1.3753170979198377,
+      "grad_norm": 5.09375,
+      "learning_rate": 2.4383230456558005e-06,
+      "loss": 1.55810089,
+      "memory(GiB)": 111.15,
+      "step": 54215,
+      "train_speed(iter/s)": 0.447175
+    },
+    {
+      "acc": 0.65408735,
+      "epoch": 1.3754439370877727,
+      "grad_norm": 5.8125,
+      "learning_rate": 2.437422559242143e-06,
+      "loss": 1.62198868,
+      "memory(GiB)": 111.15,
+      "step": 54220,
+      "train_speed(iter/s)": 0.447197
+    },
+    {
+      "acc": 0.65834684,
+      "epoch": 1.375570776255708,
+      "grad_norm": 5.15625,
+      "learning_rate": 2.4365221855420822e-06,
+      "loss": 1.63757401,
+      "memory(GiB)": 111.15,
+      "step": 54225,
+      "train_speed(iter/s)": 0.447219
+    },
+    {
+      "acc": 0.64717593,
+      "epoch": 1.3756976154236429,
+      "grad_norm": 5.3125,
+      "learning_rate": 2.435621924595221e-06,
+      "loss": 1.58079052,
+      "memory(GiB)": 111.15,
+      "step": 54230,
+      "train_speed(iter/s)": 0.447241
+    },
+    {
+      "acc": 0.65896749,
+      "epoch": 1.3758244545915779,
+      "grad_norm": 5.59375,
+      "learning_rate": 2.4347217764411567e-06,
+      "loss": 1.65701065,
+      "memory(GiB)": 111.15,
+      "step": 54235,
+      "train_speed(iter/s)": 0.447263
+    },
+    {
+      "acc": 0.66342549,
+      "epoch": 1.3759512937595129,
+      "grad_norm": 5.625,
+      "learning_rate": 2.433821741119482e-06,
+      "loss": 1.55835285,
+      "memory(GiB)": 111.15,
+      "step": 54240,
+      "train_speed(iter/s)": 0.447286
+    },
+    {
+      "acc": 0.6351398,
+      "epoch": 1.376078132927448,
+      "grad_norm": 5.4375,
+      "learning_rate": 2.432921818669784e-06,
+      "loss": 1.64769554,
+      "memory(GiB)": 111.15,
+      "step": 54245,
+      "train_speed(iter/s)": 0.447308
+    },
+    {
+      "acc": 0.66411724,
+      "epoch": 1.376204972095383,
+      "grad_norm": 5.125,
+      "learning_rate": 2.432022009131646e-06,
+      "loss": 1.57920542,
+      "memory(GiB)": 111.15,
+      "step": 54250,
+      "train_speed(iter/s)": 0.447329
+    },
+    {
+      "acc": 0.64469128,
+      "epoch": 1.376331811263318,
+      "grad_norm": 5.40625,
+      "learning_rate": 2.4311223125446447e-06,
+      "loss": 1.71905022,
+      "memory(GiB)": 111.15,
+      "step": 54255,
+      "train_speed(iter/s)": 0.447351
+    },
+    {
+      "acc": 0.64162774,
+      "epoch": 1.3764586504312533,
+      "grad_norm": 5.0,
+      "learning_rate": 2.4302227289483537e-06,
+      "loss": 1.7233799,
+      "memory(GiB)": 111.15,
+      "step": 54260,
+      "train_speed(iter/s)": 0.447372
+    },
+    {
+      "acc": 0.65267153,
+      "epoch": 1.3765854895991883,
+      "grad_norm": 5.75,
+      "learning_rate": 2.42932325838234e-06,
+      "loss": 1.65109024,
+      "memory(GiB)": 111.15,
+      "step": 54265,
+      "train_speed(iter/s)": 0.447394
+    },
+    {
+      "acc": 0.66144891,
+      "epoch": 1.3767123287671232,
+      "grad_norm": 5.1875,
+      "learning_rate": 2.4284239008861665e-06,
+      "loss": 1.61261978,
+      "memory(GiB)": 111.15,
+      "step": 54270,
+      "train_speed(iter/s)": 0.447416
+    },
+    {
+      "acc": 0.65323009,
+      "epoch": 1.3768391679350582,
+      "grad_norm": 5.90625,
+      "learning_rate": 2.4275246564993917e-06,
+      "loss": 1.64087257,
+      "memory(GiB)": 111.15,
+      "step": 54275,
+      "train_speed(iter/s)": 0.447438
+    },
+    {
+      "acc": 0.65506334,
+      "epoch": 1.3769660071029934,
+      "grad_norm": 5.5,
+      "learning_rate": 2.426625525261567e-06,
+      "loss": 1.5868,
+      "memory(GiB)": 111.15,
+      "step": 54280,
+      "train_speed(iter/s)": 0.447459
+    },
+    {
+      "acc": 0.65450735,
+      "epoch": 1.3770928462709284,
+      "grad_norm": 4.125,
+      "learning_rate": 2.425726507212242e-06,
+      "loss": 1.59628048,
+      "memory(GiB)": 111.15,
+      "step": 54285,
+      "train_speed(iter/s)": 0.447481
+    },
+    {
+      "acc": 0.65414705,
+      "epoch": 1.3772196854388636,
+      "grad_norm": 5.125,
+      "learning_rate": 2.424827602390958e-06,
+      "loss": 1.61867752,
+      "memory(GiB)": 111.15,
+      "step": 54290,
+      "train_speed(iter/s)": 0.447503
+    },
+    {
+      "acc": 0.64450226,
+      "epoch": 1.3773465246067986,
+      "grad_norm": 4.71875,
+      "learning_rate": 2.4239288108372534e-06,
+      "loss": 1.63585472,
+      "memory(GiB)": 111.15,
+      "step": 54295,
+      "train_speed(iter/s)": 0.447524
+    },
+    {
+      "acc": 0.65800261,
+      "epoch": 1.3774733637747336,
+      "grad_norm": 6.3125,
+      "learning_rate": 2.4230301325906606e-06,
+      "loss": 1.60416584,
+      "memory(GiB)": 111.15,
+      "step": 54300,
+      "train_speed(iter/s)": 0.447546
+    },
+    {
+      "epoch": 1.3774733637747336,
+      "eval_acc": 0.6433837982317581,
+      "eval_loss": 1.607613205909729,
+      "eval_runtime": 113.5121,
+      "eval_samples_per_second": 56.117,
+      "eval_steps_per_second": 28.059,
+      "step": 54300
+    },
+    {
+      "acc": 0.6450376,
+      "epoch": 1.3776002029426686,
+      "grad_norm": 4.875,
+      "learning_rate": 2.4221315676907066e-06,
+      "loss": 1.67018299,
+      "memory(GiB)": 111.15,
+      "step": 54305,
+      "train_speed(iter/s)": 0.447133
+    },
+    {
+      "acc": 0.64392834,
+      "epoch": 1.3777270421106038,
+      "grad_norm": 5.75,
+      "learning_rate": 2.4212331161769194e-06,
+      "loss": 1.70141411,
+      "memory(GiB)": 111.15,
+      "step": 54310,
+      "train_speed(iter/s)": 0.447154
+    },
+    {
+      "acc": 0.64372301,
+      "epoch": 1.3778538812785388,
+      "grad_norm": 4.96875,
+      "learning_rate": 2.420334778088811e-06,
+      "loss": 1.62558765,
+      "memory(GiB)": 111.15,
+      "step": 54315,
+      "train_speed(iter/s)": 0.447176
+    },
+    {
+      "acc": 0.65850372,
+      "epoch": 1.3779807204464738,
+      "grad_norm": 4.875,
+      "learning_rate": 2.4194365534658944e-06,
+      "loss": 1.62272205,
+      "memory(GiB)": 111.15,
+      "step": 54320,
+      "train_speed(iter/s)": 0.447198
+    },
+    {
+      "acc": 0.63821692,
+      "epoch": 1.378107559614409,
+      "grad_norm": 5.1875,
+      "learning_rate": 2.4185384423476817e-06,
+      "loss": 1.6870163,
+      "memory(GiB)": 111.15,
+      "step": 54325,
+      "train_speed(iter/s)": 0.44722
+    },
+    {
+      "acc": 0.63756447,
+      "epoch": 1.378234398782344,
+      "grad_norm": 6.0,
+      "learning_rate": 2.4176404447736758e-06,
+      "loss": 1.67064953,
+      "memory(GiB)": 111.15,
+      "step": 54330,
+      "train_speed(iter/s)": 0.447242
+    },
+    {
+      "acc": 0.64170799,
+      "epoch": 1.378361237950279,
+      "grad_norm": 6.40625,
+      "learning_rate": 2.41674256078337e-06,
+      "loss": 1.62566433,
+      "memory(GiB)": 111.15,
+      "step": 54335,
+      "train_speed(iter/s)": 0.447264
+    },
+    {
+      "acc": 0.63791261,
+      "epoch": 1.378488077118214,
+      "grad_norm": 5.40625,
+      "learning_rate": 2.4158447904162585e-06,
+      "loss": 1.71883507,
+      "memory(GiB)": 111.15,
+      "step": 54340,
+      "train_speed(iter/s)": 0.447286
+    },
+    {
+      "acc": 0.64991484,
+      "epoch": 1.3786149162861492,
+      "grad_norm": 5.65625,
+      "learning_rate": 2.414947133711832e-06,
+      "loss": 1.64734802,
+      "memory(GiB)": 111.15,
+      "step": 54345,
+      "train_speed(iter/s)": 0.447308
+    },
+    {
+      "acc": 0.64000006,
+      "epoch": 1.3787417554540842,
+      "grad_norm": 4.875,
+      "learning_rate": 2.414049590709574e-06,
+      "loss": 1.62274704,
+      "memory(GiB)": 111.15,
+      "step": 54350,
+      "train_speed(iter/s)": 0.44733
+    },
+    {
+      "acc": 0.63573432,
+      "epoch": 1.3788685946220194,
+      "grad_norm": 5.3125,
+      "learning_rate": 2.4131521614489567e-06,
+      "loss": 1.67726822,
+      "memory(GiB)": 111.15,
+      "step": 54355,
+      "train_speed(iter/s)": 0.447351
+    },
+    {
+      "acc": 0.66043658,
+      "epoch": 1.3789954337899544,
+      "grad_norm": 4.6875,
+      "learning_rate": 2.412254845969459e-06,
+      "loss": 1.54086018,
+      "memory(GiB)": 111.15,
+      "step": 54360,
+      "train_speed(iter/s)": 0.447373
+    },
+    {
+      "acc": 0.66526546,
+      "epoch": 1.3791222729578894,
+      "grad_norm": 4.625,
+      "learning_rate": 2.4113576443105464e-06,
+      "loss": 1.56086617,
+      "memory(GiB)": 111.15,
+      "step": 54365,
+      "train_speed(iter/s)": 0.447395
+    },
+    {
+      "acc": 0.64108496,
+      "epoch": 1.3792491121258244,
+      "grad_norm": 5.25,
+      "learning_rate": 2.410460556511684e-06,
+      "loss": 1.58796272,
+      "memory(GiB)": 111.15,
+      "step": 54370,
+      "train_speed(iter/s)": 0.447417
+    },
+    {
+      "acc": 0.65421605,
+      "epoch": 1.3793759512937596,
+      "grad_norm": 5.21875,
+      "learning_rate": 2.4095635826123235e-06,
+      "loss": 1.58763866,
+      "memory(GiB)": 111.15,
+      "step": 54375,
+      "train_speed(iter/s)": 0.447439
+    },
+    {
+      "acc": 0.66396832,
+      "epoch": 1.3795027904616946,
+      "grad_norm": 5.0625,
+      "learning_rate": 2.4086667226519245e-06,
+      "loss": 1.60019321,
+      "memory(GiB)": 111.15,
+      "step": 54380,
+      "train_speed(iter/s)": 0.447461
+    },
+    {
+      "acc": 0.65088072,
+      "epoch": 1.3796296296296298,
+      "grad_norm": 5.46875,
+      "learning_rate": 2.4077699766699323e-06,
+      "loss": 1.66221428,
+      "memory(GiB)": 111.15,
+      "step": 54385,
+      "train_speed(iter/s)": 0.447483
+    },
+    {
+      "acc": 0.65890799,
+      "epoch": 1.3797564687975648,
+      "grad_norm": 4.71875,
+      "learning_rate": 2.4068733447057903e-06,
+      "loss": 1.60825596,
+      "memory(GiB)": 111.15,
+      "step": 54390,
+      "train_speed(iter/s)": 0.447505
+    },
+    {
+      "acc": 0.62435875,
+      "epoch": 1.3798833079654997,
+      "grad_norm": 5.1875,
+      "learning_rate": 2.405976826798936e-06,
+      "loss": 1.71643028,
+      "memory(GiB)": 111.15,
+      "step": 54395,
+      "train_speed(iter/s)": 0.447527
+    },
+    {
+      "acc": 0.66107168,
+      "epoch": 1.3800101471334347,
+      "grad_norm": 4.71875,
+      "learning_rate": 2.405080422988802e-06,
+      "loss": 1.59396954,
+      "memory(GiB)": 111.15,
+      "step": 54400,
+      "train_speed(iter/s)": 0.447549
+    },
+    {
+      "epoch": 1.3800101471334347,
+      "eval_acc": 0.6434326770069646,
+      "eval_loss": 1.6075164079666138,
+      "eval_runtime": 114.4328,
+      "eval_samples_per_second": 55.666,
+      "eval_steps_per_second": 27.833,
+      "step": 54400
+    },
+    {
+      "acc": 0.64809713,
+      "epoch": 1.38013698630137,
+      "grad_norm": 5.1875,
+      "learning_rate": 2.404184133314817e-06,
+      "loss": 1.67884521,
+      "memory(GiB)": 111.15,
+      "step": 54405,
+      "train_speed(iter/s)": 0.447133
+    },
+    {
+      "acc": 0.65976915,
+      "epoch": 1.380263825469305,
+      "grad_norm": 5.9375,
+      "learning_rate": 2.4032879578164027e-06,
+      "loss": 1.59476967,
+      "memory(GiB)": 111.15,
+      "step": 54410,
+      "train_speed(iter/s)": 0.447154
+    },
+    {
+      "acc": 0.65071726,
+      "epoch": 1.38039066463724,
+      "grad_norm": 5.65625,
+      "learning_rate": 2.402391896532978e-06,
+      "loss": 1.62358932,
+      "memory(GiB)": 111.15,
+      "step": 54415,
+      "train_speed(iter/s)": 0.447176
+    },
+    {
+      "acc": 0.63930559,
+      "epoch": 1.3805175038051751,
+      "grad_norm": 5.375,
+      "learning_rate": 2.4014959495039548e-06,
+      "loss": 1.71121559,
+      "memory(GiB)": 111.15,
+      "step": 54420,
+      "train_speed(iter/s)": 0.447197
+    },
+    {
+      "acc": 0.6498456,
+      "epoch": 1.3806443429731101,
+      "grad_norm": 5.28125,
+      "learning_rate": 2.4006001167687416e-06,
+      "loss": 1.64641342,
+      "memory(GiB)": 111.15,
+      "step": 54425,
+      "train_speed(iter/s)": 0.447219
+    },
+    {
+      "acc": 0.6600049,
+      "epoch": 1.380771182141045,
+      "grad_norm": 4.9375,
+      "learning_rate": 2.39970439836674e-06,
+      "loss": 1.59635162,
+      "memory(GiB)": 111.15,
+      "step": 54430,
+      "train_speed(iter/s)": 0.44724
+    },
+    {
+      "acc": 0.64323215,
+      "epoch": 1.38089802130898,
+      "grad_norm": 4.96875,
+      "learning_rate": 2.3988087943373497e-06,
+      "loss": 1.63957348,
+      "memory(GiB)": 111.15,
+      "step": 54435,
+      "train_speed(iter/s)": 0.447262
+    },
+    {
+      "acc": 0.66327171,
+      "epoch": 1.3810248604769153,
+      "grad_norm": 4.875,
+      "learning_rate": 2.397913304719961e-06,
+      "loss": 1.5317564,
+      "memory(GiB)": 111.15,
+      "step": 54440,
+      "train_speed(iter/s)": 0.447283
+    },
+    {
+      "acc": 0.65372186,
+      "epoch": 1.3811516996448503,
+      "grad_norm": 5.90625,
+      "learning_rate": 2.397017929553961e-06,
+      "loss": 1.59062748,
+      "memory(GiB)": 111.15,
+      "step": 54445,
+      "train_speed(iter/s)": 0.447305
+    },
+    {
+      "acc": 0.6593924,
+      "epoch": 1.3812785388127855,
+      "grad_norm": 5.34375,
+      "learning_rate": 2.396122668878738e-06,
+      "loss": 1.60315037,
+      "memory(GiB)": 111.15,
+      "step": 54450,
+      "train_speed(iter/s)": 0.447327
+    },
+    {
+      "acc": 0.63230972,
+      "epoch": 1.3814053779807205,
+      "grad_norm": 5.375,
+      "learning_rate": 2.3952275227336636e-06,
+      "loss": 1.74860439,
+      "memory(GiB)": 111.15,
+      "step": 54455,
+      "train_speed(iter/s)": 0.447348
+    },
+    {
+      "acc": 0.6544405,
+      "epoch": 1.3815322171486555,
+      "grad_norm": 5.0625,
+      "learning_rate": 2.3943324911581117e-06,
+      "loss": 1.59573669,
+      "memory(GiB)": 111.15,
+      "step": 54460,
+      "train_speed(iter/s)": 0.447369
+    },
+    {
+      "acc": 0.65410528,
+      "epoch": 1.3816590563165905,
+      "grad_norm": 4.8125,
+      "learning_rate": 2.393437574191449e-06,
+      "loss": 1.61146431,
+      "memory(GiB)": 111.15,
+      "step": 54465,
+      "train_speed(iter/s)": 0.447391
+    },
+    {
+      "acc": 0.65370698,
+      "epoch": 1.3817858954845257,
+      "grad_norm": 5.03125,
+      "learning_rate": 2.3925427718730426e-06,
+      "loss": 1.61598873,
+      "memory(GiB)": 111.15,
+      "step": 54470,
+      "train_speed(iter/s)": 0.447412
+    },
+    {
+      "acc": 0.65521479,
+      "epoch": 1.3819127346524607,
+      "grad_norm": 6.03125,
+      "learning_rate": 2.391648084242245e-06,
+      "loss": 1.57316408,
+      "memory(GiB)": 111.15,
+      "step": 54475,
+      "train_speed(iter/s)": 0.447434
+    },
+    {
+      "acc": 0.64912281,
+      "epoch": 1.3820395738203957,
+      "grad_norm": 5.09375,
+      "learning_rate": 2.3907535113384084e-06,
+      "loss": 1.68617134,
+      "memory(GiB)": 111.15,
+      "step": 54480,
+      "train_speed(iter/s)": 0.447455
+    },
+    {
+      "acc": 0.64956026,
+      "epoch": 1.3821664129883309,
+      "grad_norm": 5.5625,
+      "learning_rate": 2.389859053200883e-06,
+      "loss": 1.64678841,
+      "memory(GiB)": 111.15,
+      "step": 54485,
+      "train_speed(iter/s)": 0.447477
+    },
+    {
+      "acc": 0.6673707,
+      "epoch": 1.3822932521562659,
+      "grad_norm": 5.5625,
+      "learning_rate": 2.3889647098690127e-06,
+      "loss": 1.61290779,
+      "memory(GiB)": 111.15,
+      "step": 54490,
+      "train_speed(iter/s)": 0.447498
+    },
+    {
+      "acc": 0.65189824,
+      "epoch": 1.3824200913242009,
+      "grad_norm": 5.375,
+      "learning_rate": 2.3880704813821275e-06,
+      "loss": 1.62739487,
+      "memory(GiB)": 111.15,
+      "step": 54495,
+      "train_speed(iter/s)": 0.44752
+    },
+    {
+      "acc": 0.64360433,
+      "epoch": 1.3825469304921358,
+      "grad_norm": 4.84375,
+      "learning_rate": 2.3871763677795656e-06,
+      "loss": 1.64381294,
+      "memory(GiB)": 111.15,
+      "step": 54500,
+      "train_speed(iter/s)": 0.447542
+    },
+    {
+      "epoch": 1.3825469304921358,
+      "eval_acc": 0.64342849933387,
+      "eval_loss": 1.6075654029846191,
+      "eval_runtime": 113.5854,
+      "eval_samples_per_second": 56.081,
+      "eval_steps_per_second": 28.041,
+      "step": 54500
+    },
+    {
+      "acc": 0.65638885,
+      "epoch": 1.382673769660071,
+      "grad_norm": 5.84375,
+      "learning_rate": 2.386282369100653e-06,
+      "loss": 1.59132185,
+      "memory(GiB)": 111.15,
+      "step": 54505,
+      "train_speed(iter/s)": 0.44713
+    },
+    {
+      "acc": 0.65127239,
+      "epoch": 1.382800608828006,
+      "grad_norm": 5.15625,
+      "learning_rate": 2.385388485384713e-06,
+      "loss": 1.67811546,
+      "memory(GiB)": 111.15,
+      "step": 54510,
+      "train_speed(iter/s)": 0.447151
+    },
+    {
+      "acc": 0.65806646,
+      "epoch": 1.3829274479959413,
+      "grad_norm": 5.53125,
+      "learning_rate": 2.384494716671057e-06,
+      "loss": 1.61329479,
+      "memory(GiB)": 111.15,
+      "step": 54515,
+      "train_speed(iter/s)": 0.447173
+    },
+    {
+      "acc": 0.672545,
+      "epoch": 1.3830542871638762,
+      "grad_norm": 5.8125,
+      "learning_rate": 2.3836010629990027e-06,
+      "loss": 1.4973649,
+      "memory(GiB)": 111.15,
+      "step": 54520,
+      "train_speed(iter/s)": 0.447194
+    },
+    {
+      "acc": 0.65482564,
+      "epoch": 1.3831811263318112,
+      "grad_norm": 5.9375,
+      "learning_rate": 2.382707524407855e-06,
+      "loss": 1.62267399,
+      "memory(GiB)": 111.15,
+      "step": 54525,
+      "train_speed(iter/s)": 0.447216
+    },
+    {
+      "acc": 0.64949207,
+      "epoch": 1.3833079654997462,
+      "grad_norm": 5.5,
+      "learning_rate": 2.3818141009369155e-06,
+      "loss": 1.64203396,
+      "memory(GiB)": 111.15,
+      "step": 54530,
+      "train_speed(iter/s)": 0.447238
+    },
+    {
+      "acc": 0.65520215,
+      "epoch": 1.3834348046676814,
+      "grad_norm": 4.78125,
+      "learning_rate": 2.3809207926254813e-06,
+      "loss": 1.63779392,
+      "memory(GiB)": 111.15,
+      "step": 54535,
+      "train_speed(iter/s)": 0.447259
+    },
+    {
+      "acc": 0.66122842,
+      "epoch": 1.3835616438356164,
+      "grad_norm": 5.25,
+      "learning_rate": 2.380027599512844e-06,
+      "loss": 1.60229111,
+      "memory(GiB)": 111.15,
+      "step": 54540,
+      "train_speed(iter/s)": 0.447281
+    },
+    {
+      "acc": 0.64745474,
+      "epoch": 1.3836884830035516,
+      "grad_norm": 6.5625,
+      "learning_rate": 2.3791345216382906e-06,
+      "loss": 1.63672523,
+      "memory(GiB)": 111.15,
+      "step": 54545,
+      "train_speed(iter/s)": 0.447303
+    },
+    {
+      "acc": 0.65147991,
+      "epoch": 1.3838153221714866,
+      "grad_norm": 5.4375,
+      "learning_rate": 2.378241559041102e-06,
+      "loss": 1.64390697,
+      "memory(GiB)": 111.15,
+      "step": 54550,
+      "train_speed(iter/s)": 0.447324
+    },
+    {
+      "acc": 0.65547714,
+      "epoch": 1.3839421613394216,
+      "grad_norm": 5.59375,
+      "learning_rate": 2.377348711760555e-06,
+      "loss": 1.68051758,
+      "memory(GiB)": 111.15,
+      "step": 54555,
+      "train_speed(iter/s)": 0.447346
+    },
+    {
+      "acc": 0.64207006,
+      "epoch": 1.3840690005073566,
+      "grad_norm": 5.65625,
+      "learning_rate": 2.3764559798359204e-06,
+      "loss": 1.66483994,
+      "memory(GiB)": 111.15,
+      "step": 54560,
+      "train_speed(iter/s)": 0.447368
+    },
+    {
+      "acc": 0.66335669,
+      "epoch": 1.3841958396752918,
+      "grad_norm": 4.78125,
+      "learning_rate": 2.3755633633064658e-06,
+      "loss": 1.54986076,
+      "memory(GiB)": 111.15,
+      "step": 54565,
+      "train_speed(iter/s)": 0.447389
+    },
+    {
+      "acc": 0.62395768,
+      "epoch": 1.3843226788432268,
+      "grad_norm": 4.625,
+      "learning_rate": 2.374670862211451e-06,
+      "loss": 1.71314468,
+      "memory(GiB)": 111.15,
+      "step": 54570,
+      "train_speed(iter/s)": 0.447411
+    },
+    {
+      "acc": 0.65833616,
+      "epoch": 1.3844495180111618,
+      "grad_norm": 5.8125,
+      "learning_rate": 2.373778476590134e-06,
+      "loss": 1.58416939,
+      "memory(GiB)": 111.15,
+      "step": 54575,
+      "train_speed(iter/s)": 0.447432
+    },
+    {
+      "acc": 0.65811334,
+      "epoch": 1.384576357179097,
+      "grad_norm": 5.25,
+      "learning_rate": 2.372886206481764e-06,
+      "loss": 1.61228466,
+      "memory(GiB)": 111.15,
+      "step": 54580,
+      "train_speed(iter/s)": 0.447454
+    },
+    {
+      "acc": 0.6383656,
+      "epoch": 1.384703196347032,
+      "grad_norm": 4.1875,
+      "learning_rate": 2.3719940519255864e-06,
+      "loss": 1.65537605,
+      "memory(GiB)": 111.15,
+      "step": 54585,
+      "train_speed(iter/s)": 0.447476
+    },
+    {
+      "acc": 0.64007697,
+      "epoch": 1.384830035514967,
+      "grad_norm": 5.46875,
+      "learning_rate": 2.371102012960847e-06,
+      "loss": 1.64312706,
+      "memory(GiB)": 111.15,
+      "step": 54590,
+      "train_speed(iter/s)": 0.447497
+    },
+    {
+      "acc": 0.65482688,
+      "epoch": 1.384956874682902,
+      "grad_norm": 7.40625,
+      "learning_rate": 2.3702100896267767e-06,
+      "loss": 1.61087494,
+      "memory(GiB)": 111.15,
+      "step": 54595,
+      "train_speed(iter/s)": 0.447519
+    },
+    {
+      "acc": 0.65495806,
+      "epoch": 1.3850837138508372,
+      "grad_norm": 4.5625,
+      "learning_rate": 2.3693182819626077e-06,
+      "loss": 1.6300602,
+      "memory(GiB)": 111.15,
+      "step": 54600,
+      "train_speed(iter/s)": 0.447541
+    },
+    {
+      "epoch": 1.3850837138508372,
+      "eval_acc": 0.6434213972896092,
+      "eval_loss": 1.607495903968811,
+      "eval_runtime": 113.6642,
+      "eval_samples_per_second": 56.042,
+      "eval_steps_per_second": 28.021,
+      "step": 54600
+    },
+    {
+      "acc": 0.64413443,
+      "epoch": 1.3852105530187722,
+      "grad_norm": 4.875,
+      "learning_rate": 2.3684265900075637e-06,
+      "loss": 1.62472839,
+      "memory(GiB)": 111.15,
+      "step": 54605,
+      "train_speed(iter/s)": 0.447129
+    },
+    {
+      "acc": 0.65278025,
+      "epoch": 1.3853373921867074,
+      "grad_norm": 4.90625,
+      "learning_rate": 2.3675350138008714e-06,
+      "loss": 1.62760048,
+      "memory(GiB)": 111.15,
+      "step": 54610,
+      "train_speed(iter/s)": 0.44715
+    },
+    {
+      "acc": 0.65307603,
+      "epoch": 1.3854642313546424,
+      "grad_norm": 5.0625,
+      "learning_rate": 2.3666435533817406e-06,
+      "loss": 1.6288929,
+      "memory(GiB)": 111.15,
+      "step": 54615,
+      "train_speed(iter/s)": 0.447172
+    },
+    {
+      "acc": 0.65403109,
+      "epoch": 1.3855910705225774,
+      "grad_norm": 6.59375,
+      "learning_rate": 2.3657522087893806e-06,
+      "loss": 1.65198021,
+      "memory(GiB)": 111.15,
+      "step": 54620,
+      "train_speed(iter/s)": 0.447193
+    },
+    {
+      "acc": 0.66682835,
+      "epoch": 1.3857179096905123,
+      "grad_norm": 4.75,
+      "learning_rate": 2.3648609800630022e-06,
+      "loss": 1.5866703,
+      "memory(GiB)": 111.15,
+      "step": 54625,
+      "train_speed(iter/s)": 0.447215
+    },
+    {
+      "acc": 0.64418054,
+      "epoch": 1.3858447488584476,
+      "grad_norm": 4.84375,
+      "learning_rate": 2.363969867241805e-06,
+      "loss": 1.62624779,
+      "memory(GiB)": 111.15,
+      "step": 54630,
+      "train_speed(iter/s)": 0.447236
+    },
+    {
+      "acc": 0.63954716,
+      "epoch": 1.3859715880263825,
+      "grad_norm": 5.84375,
+      "learning_rate": 2.36307887036498e-06,
+      "loss": 1.64616871,
+      "memory(GiB)": 111.15,
+      "step": 54635,
+      "train_speed(iter/s)": 0.447258
+    },
+    {
+      "acc": 0.64608278,
+      "epoch": 1.3860984271943175,
+      "grad_norm": 4.90625,
+      "learning_rate": 2.3621879894717177e-06,
+      "loss": 1.607967,
+      "memory(GiB)": 111.15,
+      "step": 54640,
+      "train_speed(iter/s)": 0.447279
+    },
+    {
+      "acc": 0.67078714,
+      "epoch": 1.3862252663622527,
+      "grad_norm": 5.75,
+      "learning_rate": 2.361297224601206e-06,
+      "loss": 1.57571125,
+      "memory(GiB)": 111.15,
+      "step": 54645,
+      "train_speed(iter/s)": 0.4473
+    },
+    {
+      "acc": 0.67344413,
+      "epoch": 1.3863521055301877,
+      "grad_norm": 5.5,
+      "learning_rate": 2.360406575792625e-06,
+      "loss": 1.54310455,
+      "memory(GiB)": 111.15,
+      "step": 54650,
+      "train_speed(iter/s)": 0.447322
+    },
+    {
+      "acc": 0.66326408,
+      "epoch": 1.3864789446981227,
+      "grad_norm": 5.1875,
+      "learning_rate": 2.3595160430851445e-06,
+      "loss": 1.5397747,
+      "memory(GiB)": 111.15,
+      "step": 54655,
+      "train_speed(iter/s)": 0.447343
+    },
+    {
+      "acc": 0.64254022,
+      "epoch": 1.3866057838660577,
+      "grad_norm": 6.0625,
+      "learning_rate": 2.3586256265179392e-06,
+      "loss": 1.66351585,
+      "memory(GiB)": 111.15,
+      "step": 54660,
+      "train_speed(iter/s)": 0.447365
+    },
+    {
+      "acc": 0.65499001,
+      "epoch": 1.386732623033993,
+      "grad_norm": 5.75,
+      "learning_rate": 2.3577353261301715e-06,
+      "loss": 1.5509016,
+      "memory(GiB)": 111.15,
+      "step": 54665,
+      "train_speed(iter/s)": 0.447386
+    },
+    {
+      "acc": 0.64582405,
+      "epoch": 1.386859462201928,
+      "grad_norm": 5.96875,
+      "learning_rate": 2.356845141961001e-06,
+      "loss": 1.66930466,
+      "memory(GiB)": 111.15,
+      "step": 54670,
+      "train_speed(iter/s)": 0.447407
+    },
+    {
+      "acc": 0.64140797,
+      "epoch": 1.3869863013698631,
+      "grad_norm": 5.4375,
+      "learning_rate": 2.355955074049582e-06,
+      "loss": 1.62228298,
+      "memory(GiB)": 111.15,
+      "step": 54675,
+      "train_speed(iter/s)": 0.447429
+    },
+    {
+      "acc": 0.66235514,
+      "epoch": 1.387113140537798,
+      "grad_norm": 5.34375,
+      "learning_rate": 2.355065122435064e-06,
+      "loss": 1.61223392,
+      "memory(GiB)": 111.15,
+      "step": 54680,
+      "train_speed(iter/s)": 0.44745
+    },
+    {
+      "acc": 0.64747496,
+      "epoch": 1.387239979705733,
+      "grad_norm": 6.0,
+      "learning_rate": 2.3541752871565902e-06,
+      "loss": 1.66372871,
+      "memory(GiB)": 111.15,
+      "step": 54685,
+      "train_speed(iter/s)": 0.447472
+    },
+    {
+      "acc": 0.65175772,
+      "epoch": 1.387366818873668,
+      "grad_norm": 4.6875,
+      "learning_rate": 2.3532855682533003e-06,
+      "loss": 1.61401672,
+      "memory(GiB)": 111.15,
+      "step": 54690,
+      "train_speed(iter/s)": 0.447493
+    },
+    {
+      "acc": 0.65787735,
+      "epoch": 1.3874936580416033,
+      "grad_norm": 5.875,
+      "learning_rate": 2.352395965764328e-06,
+      "loss": 1.62926369,
+      "memory(GiB)": 111.15,
+      "step": 54695,
+      "train_speed(iter/s)": 0.447514
+    },
+    {
+      "acc": 0.65182753,
+      "epoch": 1.3876204972095383,
+      "grad_norm": 4.75,
+      "learning_rate": 2.3515064797288013e-06,
+      "loss": 1.62496624,
+      "memory(GiB)": 111.15,
+      "step": 54700,
+      "train_speed(iter/s)": 0.447536
+    },
+    {
+      "epoch": 1.3876204972095383,
+      "eval_acc": 0.6434356013781308,
+      "eval_loss": 1.6075246334075928,
+      "eval_runtime": 113.5641,
+      "eval_samples_per_second": 56.092,
+      "eval_steps_per_second": 28.046,
+      "step": 54700
+    },
+    {
+      "acc": 0.64899197,
+      "epoch": 1.3877473363774735,
+      "grad_norm": 4.53125,
+      "learning_rate": 2.350617110185845e-06,
+      "loss": 1.65967941,
+      "memory(GiB)": 111.15,
+      "step": 54705,
+      "train_speed(iter/s)": 0.447125
+    },
+    {
+      "acc": 0.64957457,
+      "epoch": 1.3878741755454085,
+      "grad_norm": 4.875,
+      "learning_rate": 2.3497278571745763e-06,
+      "loss": 1.62741013,
+      "memory(GiB)": 111.15,
+      "step": 54710,
+      "train_speed(iter/s)": 0.447146
+    },
+    {
+      "acc": 0.6589107,
+      "epoch": 1.3880010147133435,
+      "grad_norm": 5.46875,
+      "learning_rate": 2.348838720734109e-06,
+      "loss": 1.55465355,
+      "memory(GiB)": 111.15,
+      "step": 54715,
+      "train_speed(iter/s)": 0.447167
+    },
+    {
+      "acc": 0.66221108,
+      "epoch": 1.3881278538812785,
+      "grad_norm": 5.90625,
+      "learning_rate": 2.347949700903552e-06,
+      "loss": 1.6439146,
+      "memory(GiB)": 111.15,
+      "step": 54720,
+      "train_speed(iter/s)": 0.447189
+    },
+    {
+      "acc": 0.6477808,
+      "epoch": 1.3882546930492137,
+      "grad_norm": 5.625,
+      "learning_rate": 2.3470607977220066e-06,
+      "loss": 1.60640831,
+      "memory(GiB)": 111.15,
+      "step": 54725,
+      "train_speed(iter/s)": 0.447211
+    },
+    {
+      "acc": 0.64855957,
+      "epoch": 1.3883815322171487,
+      "grad_norm": 4.90625,
+      "learning_rate": 2.346172011228573e-06,
+      "loss": 1.65097847,
+      "memory(GiB)": 111.15,
+      "step": 54730,
+      "train_speed(iter/s)": 0.447232
+    },
+    {
+      "acc": 0.66187353,
+      "epoch": 1.3885083713850837,
+      "grad_norm": 5.1875,
+      "learning_rate": 2.345283341462342e-06,
+      "loss": 1.5785387,
+      "memory(GiB)": 111.15,
+      "step": 54735,
+      "train_speed(iter/s)": 0.447254
+    },
+    {
+      "acc": 0.64422159,
+      "epoch": 1.3886352105530189,
+      "grad_norm": 5.375,
+      "learning_rate": 2.3443947884624026e-06,
+      "loss": 1.66559448,
+      "memory(GiB)": 111.15,
+      "step": 54740,
+      "train_speed(iter/s)": 0.447276
+    },
+    {
+      "acc": 0.65672851,
+      "epoch": 1.3887620497209539,
+      "grad_norm": 5.40625,
+      "learning_rate": 2.3435063522678346e-06,
+      "loss": 1.55562334,
+      "memory(GiB)": 111.15,
+      "step": 54745,
+      "train_speed(iter/s)": 0.447298
+    },
+    {
+      "acc": 0.65175314,
+      "epoch": 1.3888888888888888,
+      "grad_norm": 4.65625,
+      "learning_rate": 2.3426180329177217e-06,
+      "loss": 1.64230595,
+      "memory(GiB)": 111.15,
+      "step": 54750,
+      "train_speed(iter/s)": 0.447319
+    },
+    {
+      "acc": 0.64142323,
+      "epoch": 1.3890157280568238,
+      "grad_norm": 4.875,
+      "learning_rate": 2.3417298304511297e-06,
+      "loss": 1.61486931,
+      "memory(GiB)": 111.15,
+      "step": 54755,
+      "train_speed(iter/s)": 0.447341
+    },
+    {
+      "acc": 0.62748523,
+      "epoch": 1.389142567224759,
+      "grad_norm": 5.5,
+      "learning_rate": 2.340841744907127e-06,
+      "loss": 1.7429863,
+      "memory(GiB)": 111.15,
+      "step": 54760,
+      "train_speed(iter/s)": 0.447363
+    },
+    {
+      "acc": 0.65717201,
+      "epoch": 1.389269406392694,
+      "grad_norm": 5.71875,
+      "learning_rate": 2.3399537763247783e-06,
+      "loss": 1.55564003,
+      "memory(GiB)": 111.15,
+      "step": 54765,
+      "train_speed(iter/s)": 0.447384
+    },
+    {
+      "acc": 0.63951383,
+      "epoch": 1.3893962455606292,
+      "grad_norm": 5.125,
+      "learning_rate": 2.3390659247431404e-06,
+      "loss": 1.62931862,
+      "memory(GiB)": 111.15,
+      "step": 54770,
+      "train_speed(iter/s)": 0.447406
+    },
+    {
+      "acc": 0.65612378,
+      "epoch": 1.3895230847285642,
+      "grad_norm": 5.75,
+      "learning_rate": 2.338178190201261e-06,
+      "loss": 1.58162451,
+      "memory(GiB)": 111.15,
+      "step": 54775,
+      "train_speed(iter/s)": 0.447428
+    },
+    {
+      "acc": 0.6476398,
+      "epoch": 1.3896499238964992,
+      "grad_norm": 5.34375,
+      "learning_rate": 2.3372905727381877e-06,
+      "loss": 1.64012775,
+      "memory(GiB)": 111.15,
+      "step": 54780,
+      "train_speed(iter/s)": 0.447449
+    },
+    {
+      "acc": 0.66441069,
+      "epoch": 1.3897767630644342,
+      "grad_norm": 5.21875,
+      "learning_rate": 2.3364030723929647e-06,
+      "loss": 1.55012369,
+      "memory(GiB)": 111.15,
+      "step": 54785,
+      "train_speed(iter/s)": 0.447471
+    },
+    {
+      "acc": 0.66532369,
+      "epoch": 1.3899036022323694,
+      "grad_norm": 5.21875,
+      "learning_rate": 2.335515689204629e-06,
+      "loss": 1.57364197,
+      "memory(GiB)": 111.15,
+      "step": 54790,
+      "train_speed(iter/s)": 0.447493
+    },
+    {
+      "acc": 0.64783525,
+      "epoch": 1.3900304414003044,
+      "grad_norm": 5.71875,
+      "learning_rate": 2.334628423212206e-06,
+      "loss": 1.63448849,
+      "memory(GiB)": 111.15,
+      "step": 54795,
+      "train_speed(iter/s)": 0.447514
+    },
+    {
+      "acc": 0.65659075,
+      "epoch": 1.3901572805682394,
+      "grad_norm": 5.96875,
+      "learning_rate": 2.3337412744547256e-06,
+      "loss": 1.62704849,
+      "memory(GiB)": 111.15,
+      "step": 54800,
+      "train_speed(iter/s)": 0.447536
+    },
+    {
+      "epoch": 1.3901572805682394,
+      "eval_acc": 0.643433094774274,
+      "eval_loss": 1.6075447797775269,
+      "eval_runtime": 113.1756,
+      "eval_samples_per_second": 56.284,
+      "eval_steps_per_second": 28.142,
+      "step": 54800
+    },
+    {
+      "acc": 0.6657032,
+      "epoch": 1.3902841197361746,
+      "grad_norm": 5.09375,
+      "learning_rate": 2.332854242971209e-06,
+      "loss": 1.58884039,
+      "memory(GiB)": 111.15,
+      "step": 54805,
+      "train_speed(iter/s)": 0.447128
+    },
+    {
+      "acc": 0.64376736,
+      "epoch": 1.3904109589041096,
+      "grad_norm": 6.84375,
+      "learning_rate": 2.331967328800672e-06,
+      "loss": 1.60647125,
+      "memory(GiB)": 111.15,
+      "step": 54810,
+      "train_speed(iter/s)": 0.447149
+    },
+    {
+      "acc": 0.65672731,
+      "epoch": 1.3905377980720446,
+      "grad_norm": 5.75,
+      "learning_rate": 2.33108053198212e-06,
+      "loss": 1.55529099,
+      "memory(GiB)": 111.15,
+      "step": 54815,
+      "train_speed(iter/s)": 0.447171
+    },
+    {
+      "acc": 0.65332303,
+      "epoch": 1.3906646372399796,
+      "grad_norm": 5.3125,
+      "learning_rate": 2.330193852554564e-06,
+      "loss": 1.59610481,
+      "memory(GiB)": 111.15,
+      "step": 54820,
+      "train_speed(iter/s)": 0.447193
+    },
+    {
+      "acc": 0.66074114,
+      "epoch": 1.3907914764079148,
+      "grad_norm": 6.875,
+      "learning_rate": 2.3293072905570024e-06,
+      "loss": 1.63630447,
+      "memory(GiB)": 111.15,
+      "step": 54825,
+      "train_speed(iter/s)": 0.447215
+    },
+    {
+      "acc": 0.66354952,
+      "epoch": 1.3909183155758498,
+      "grad_norm": 4.5,
+      "learning_rate": 2.3284208460284303e-06,
+      "loss": 1.61565628,
+      "memory(GiB)": 111.15,
+      "step": 54830,
+      "train_speed(iter/s)": 0.447236
+    },
+    {
+      "acc": 0.66817188,
+      "epoch": 1.391045154743785,
+      "grad_norm": 6.25,
+      "learning_rate": 2.3275345190078364e-06,
+      "loss": 1.64965973,
+      "memory(GiB)": 111.15,
+      "step": 54835,
+      "train_speed(iter/s)": 0.447258
+    },
+    {
+      "acc": 0.63878031,
+      "epoch": 1.39117199391172,
+      "grad_norm": 5.15625,
+      "learning_rate": 2.3266483095342064e-06,
+      "loss": 1.64956131,
+      "memory(GiB)": 111.15,
+      "step": 54840,
+      "train_speed(iter/s)": 0.44728
+    },
+    {
+      "acc": 0.65426354,
+      "epoch": 1.391298833079655,
+      "grad_norm": 5.4375,
+      "learning_rate": 2.3257622176465194e-06,
+      "loss": 1.57891293,
+      "memory(GiB)": 111.15,
+      "step": 54845,
+      "train_speed(iter/s)": 0.447302
+    },
+    {
+      "acc": 0.64944115,
+      "epoch": 1.39142567224759,
+      "grad_norm": 6.09375,
+      "learning_rate": 2.3248762433837494e-06,
+      "loss": 1.66123409,
+      "memory(GiB)": 111.15,
+      "step": 54850,
+      "train_speed(iter/s)": 0.447324
+    },
+    {
+      "acc": 0.64330759,
+      "epoch": 1.3915525114155252,
+      "grad_norm": 4.9375,
+      "learning_rate": 2.323990386784867e-06,
+      "loss": 1.60456104,
+      "memory(GiB)": 111.15,
+      "step": 54855,
+      "train_speed(iter/s)": 0.447345
+    },
+    {
+      "acc": 0.6554965,
+      "epoch": 1.3916793505834602,
+      "grad_norm": 6.03125,
+      "learning_rate": 2.3231046478888335e-06,
+      "loss": 1.63987579,
+      "memory(GiB)": 111.15,
+      "step": 54860,
+      "train_speed(iter/s)": 0.447367
+    },
+    {
+      "acc": 0.64334521,
+      "epoch": 1.3918061897513954,
+      "grad_norm": 5.65625,
+      "learning_rate": 2.3222190267346094e-06,
+      "loss": 1.62673912,
+      "memory(GiB)": 111.15,
+      "step": 54865,
+      "train_speed(iter/s)": 0.447389
+    },
+    {
+      "acc": 0.65283642,
+      "epoch": 1.3919330289193304,
+      "grad_norm": 5.625,
+      "learning_rate": 2.3213335233611484e-06,
+      "loss": 1.61944389,
+      "memory(GiB)": 111.15,
+      "step": 54870,
+      "train_speed(iter/s)": 0.447411
+    },
+    {
+      "acc": 0.65002565,
+      "epoch": 1.3920598680872653,
+      "grad_norm": 6.59375,
+      "learning_rate": 2.320448137807398e-06,
+      "loss": 1.6193058,
+      "memory(GiB)": 111.15,
+      "step": 54875,
+      "train_speed(iter/s)": 0.447433
+    },
+    {
+      "acc": 0.64873419,
+      "epoch": 1.3921867072552003,
+      "grad_norm": 5.25,
+      "learning_rate": 2.3195628701123017e-06,
+      "loss": 1.67553062,
+      "memory(GiB)": 111.15,
+      "step": 54880,
+      "train_speed(iter/s)": 0.447455
+    },
+    {
+      "acc": 0.65818777,
+      "epoch": 1.3923135464231355,
+      "grad_norm": 4.96875,
+      "learning_rate": 2.3186777203147964e-06,
+      "loss": 1.58723354,
+      "memory(GiB)": 111.15,
+      "step": 54885,
+      "train_speed(iter/s)": 0.447477
+    },
+    {
+      "acc": 0.6607152,
+      "epoch": 1.3924403855910705,
+      "grad_norm": 5.25,
+      "learning_rate": 2.3177926884538193e-06,
+      "loss": 1.63881016,
+      "memory(GiB)": 111.15,
+      "step": 54890,
+      "train_speed(iter/s)": 0.447499
+    },
+    {
+      "acc": 0.65617328,
+      "epoch": 1.3925672247590055,
+      "grad_norm": 5.8125,
+      "learning_rate": 2.3169077745682933e-06,
+      "loss": 1.60396385,
+      "memory(GiB)": 111.15,
+      "step": 54895,
+      "train_speed(iter/s)": 0.44752
+    },
+    {
+      "acc": 0.6475872,
+      "epoch": 1.3926940639269407,
+      "grad_norm": 5.6875,
+      "learning_rate": 2.316022978697143e-06,
+      "loss": 1.62557583,
+      "memory(GiB)": 111.15,
+      "step": 54900,
+      "train_speed(iter/s)": 0.447542
+    },
+    {
+      "epoch": 1.3926940639269407,
+      "eval_acc": 0.6434314237050363,
+      "eval_loss": 1.6075263023376465,
+      "eval_runtime": 113.603,
+      "eval_samples_per_second": 56.072,
+      "eval_steps_per_second": 28.036,
+      "step": 54900
+    },
+    {
+      "acc": 0.6423377,
+      "epoch": 1.3928209030948757,
+      "grad_norm": 4.84375,
+      "learning_rate": 2.3151383008792826e-06,
+      "loss": 1.63268089,
+      "memory(GiB)": 111.15,
+      "step": 54905,
+      "train_speed(iter/s)": 0.447133
+    },
+    {
+      "acc": 0.65516534,
+      "epoch": 1.3929477422628107,
+      "grad_norm": 5.46875,
+      "learning_rate": 2.314253741153631e-06,
+      "loss": 1.60871296,
+      "memory(GiB)": 111.15,
+      "step": 54910,
+      "train_speed(iter/s)": 0.447154
+    },
+    {
+      "acc": 0.64471183,
+      "epoch": 1.3930745814307457,
+      "grad_norm": 5.125,
+      "learning_rate": 2.313369299559088e-06,
+      "loss": 1.55853024,
+      "memory(GiB)": 111.15,
+      "step": 54915,
+      "train_speed(iter/s)": 0.447176
+    },
+    {
+      "acc": 0.65644975,
+      "epoch": 1.393201420598681,
+      "grad_norm": 4.625,
+      "learning_rate": 2.3124849761345576e-06,
+      "loss": 1.52087555,
+      "memory(GiB)": 111.15,
+      "step": 54920,
+      "train_speed(iter/s)": 0.447197
+    },
+    {
+      "acc": 0.66084452,
+      "epoch": 1.393328259766616,
+      "grad_norm": 4.59375,
+      "learning_rate": 2.311600770918938e-06,
+      "loss": 1.62343616,
+      "memory(GiB)": 111.15,
+      "step": 54925,
+      "train_speed(iter/s)": 0.447219
+    },
+    {
+      "acc": 0.65948701,
+      "epoch": 1.393455098934551,
+      "grad_norm": 4.65625,
+      "learning_rate": 2.310716683951122e-06,
+      "loss": 1.60135612,
+      "memory(GiB)": 111.15,
+      "step": 54930,
+      "train_speed(iter/s)": 0.44724
+    },
+    {
+      "acc": 0.64936323,
+      "epoch": 1.393581938102486,
+      "grad_norm": 6.6875,
+      "learning_rate": 2.3098327152699884e-06,
+      "loss": 1.68810062,
+      "memory(GiB)": 111.15,
+      "step": 54935,
+      "train_speed(iter/s)": 0.447262
+    },
+    {
+      "acc": 0.65774803,
+      "epoch": 1.393708777270421,
+      "grad_norm": 5.1875,
+      "learning_rate": 2.308948864914425e-06,
+      "loss": 1.63990288,
+      "memory(GiB)": 111.15,
+      "step": 54940,
+      "train_speed(iter/s)": 0.447283
+    },
+    {
+      "acc": 0.64700813,
+      "epoch": 1.393835616438356,
+      "grad_norm": 5.15625,
+      "learning_rate": 2.308065132923305e-06,
+      "loss": 1.66170807,
+      "memory(GiB)": 111.15,
+      "step": 54945,
+      "train_speed(iter/s)": 0.447305
+    },
+    {
+      "acc": 0.65739832,
+      "epoch": 1.3939624556062913,
+      "grad_norm": 5.03125,
+      "learning_rate": 2.3071815193355005e-06,
+      "loss": 1.56487083,
+      "memory(GiB)": 111.15,
+      "step": 54950,
+      "train_speed(iter/s)": 0.447327
+    },
+    {
+      "acc": 0.6588006,
+      "epoch": 1.3940892947742263,
+      "grad_norm": 5.0625,
+      "learning_rate": 2.3062980241898725e-06,
+      "loss": 1.56086254,
+      "memory(GiB)": 111.15,
+      "step": 54955,
+      "train_speed(iter/s)": 0.447348
+    },
+    {
+      "acc": 0.64591894,
+      "epoch": 1.3942161339421613,
+      "grad_norm": 6.40625,
+      "learning_rate": 2.3054146475252852e-06,
+      "loss": 1.64110088,
+      "memory(GiB)": 111.15,
+      "step": 54960,
+      "train_speed(iter/s)": 0.44737
+    },
+    {
+      "acc": 0.664363,
+      "epoch": 1.3943429731100965,
+      "grad_norm": 5.25,
+      "learning_rate": 2.3045313893805926e-06,
+      "loss": 1.46369457,
+      "memory(GiB)": 111.15,
+      "step": 54965,
+      "train_speed(iter/s)": 0.447391
+    },
+    {
+      "acc": 0.65449085,
+      "epoch": 1.3944698122780315,
+      "grad_norm": 7.40625,
+      "learning_rate": 2.303648249794644e-06,
+      "loss": 1.65266304,
+      "memory(GiB)": 111.15,
+      "step": 54970,
+      "train_speed(iter/s)": 0.447413
+    },
+    {
+      "acc": 0.64992313,
+      "epoch": 1.3945966514459665,
+      "grad_norm": 5.375,
+      "learning_rate": 2.302765228806283e-06,
+      "loss": 1.61147232,
+      "memory(GiB)": 111.15,
+      "step": 54975,
+      "train_speed(iter/s)": 0.447434
+    },
+    {
+      "acc": 0.64690418,
+      "epoch": 1.3947234906139014,
+      "grad_norm": 5.46875,
+      "learning_rate": 2.30188232645435e-06,
+      "loss": 1.68412018,
+      "memory(GiB)": 111.15,
+      "step": 54980,
+      "train_speed(iter/s)": 0.447456
+    },
+    {
+      "acc": 0.64164972,
+      "epoch": 1.3948503297818367,
+      "grad_norm": 5.65625,
+      "learning_rate": 2.300999542777678e-06,
+      "loss": 1.696138,
+      "memory(GiB)": 111.15,
+      "step": 54985,
+      "train_speed(iter/s)": 0.447478
+    },
+    {
+      "acc": 0.65270224,
+      "epoch": 1.3949771689497716,
+      "grad_norm": 5.5,
+      "learning_rate": 2.300116877815097e-06,
+      "loss": 1.57406178,
+      "memory(GiB)": 111.15,
+      "step": 54990,
+      "train_speed(iter/s)": 0.447499
+    },
+    {
+      "acc": 0.64173155,
+      "epoch": 1.3951040081177069,
+      "grad_norm": 5.40625,
+      "learning_rate": 2.2992343316054296e-06,
+      "loss": 1.67154045,
+      "memory(GiB)": 111.15,
+      "step": 54995,
+      "train_speed(iter/s)": 0.447521
+    },
+    {
+      "acc": 0.64343715,
+      "epoch": 1.3952308472856418,
+      "grad_norm": 4.8125,
+      "learning_rate": 2.298351904187494e-06,
+      "loss": 1.57504244,
+      "memory(GiB)": 111.15,
+      "step": 55000,
+      "train_speed(iter/s)": 0.447542
+    },
+    {
+      "epoch": 1.3952308472856418,
+      "eval_acc": 0.643457743045532,
+      "eval_loss": 1.6074556112289429,
+      "eval_runtime": 113.1056,
+      "eval_samples_per_second": 56.319,
+      "eval_steps_per_second": 28.16,
+      "step": 55000
+    },
+    {
+      "acc": 0.6473381,
+      "epoch": 1.3953576864535768,
+      "grad_norm": 5.1875,
+      "learning_rate": 2.297469595600104e-06,
+      "loss": 1.61186733,
+      "memory(GiB)": 111.15,
+      "step": 55005,
+      "train_speed(iter/s)": 0.447135
+    },
+    {
+      "acc": 0.63960719,
+      "epoch": 1.3954845256215118,
+      "grad_norm": 5.09375,
+      "learning_rate": 2.2965874058820668e-06,
+      "loss": 1.66384621,
+      "memory(GiB)": 111.15,
+      "step": 55010,
+      "train_speed(iter/s)": 0.447157
+    },
+    {
+      "acc": 0.64895201,
+      "epoch": 1.395611364789447,
+      "grad_norm": 6.96875,
+      "learning_rate": 2.2957053350721857e-06,
+      "loss": 1.61066055,
+      "memory(GiB)": 111.15,
+      "step": 55015,
+      "train_speed(iter/s)": 0.447179
+    },
+    {
+      "acc": 0.64946985,
+      "epoch": 1.395738203957382,
+      "grad_norm": 5.46875,
+      "learning_rate": 2.294823383209258e-06,
+      "loss": 1.63018131,
+      "memory(GiB)": 111.15,
+      "step": 55020,
+      "train_speed(iter/s)": 0.4472
+    },
+    {
+      "acc": 0.65105171,
+      "epoch": 1.3958650431253172,
+      "grad_norm": 5.3125,
+      "learning_rate": 2.2939415503320733e-06,
+      "loss": 1.62948704,
+      "memory(GiB)": 111.15,
+      "step": 55025,
+      "train_speed(iter/s)": 0.447222
+    },
+    {
+      "acc": 0.62818089,
+      "epoch": 1.3959918822932522,
+      "grad_norm": 5.0625,
+      "learning_rate": 2.293059836479425e-06,
+      "loss": 1.68856258,
+      "memory(GiB)": 111.15,
+      "step": 55030,
+      "train_speed(iter/s)": 0.447244
+    },
+    {
+      "acc": 0.65504732,
+      "epoch": 1.3961187214611872,
+      "grad_norm": 5.15625,
+      "learning_rate": 2.2921782416900883e-06,
+      "loss": 1.56294823,
+      "memory(GiB)": 111.15,
+      "step": 55035,
+      "train_speed(iter/s)": 0.447265
+    },
+    {
+      "acc": 0.66158495,
+      "epoch": 1.3962455606291222,
+      "grad_norm": 6.09375,
+      "learning_rate": 2.2912967660028425e-06,
+      "loss": 1.59866343,
+      "memory(GiB)": 111.15,
+      "step": 55040,
+      "train_speed(iter/s)": 0.447287
+    },
+    {
+      "acc": 0.65680614,
+      "epoch": 1.3963723997970574,
+      "grad_norm": 4.09375,
+      "learning_rate": 2.2904154094564568e-06,
+      "loss": 1.56556759,
+      "memory(GiB)": 111.15,
+      "step": 55045,
+      "train_speed(iter/s)": 0.447309
+    },
+    {
+      "acc": 0.64282265,
+      "epoch": 1.3964992389649924,
+      "grad_norm": 5.9375,
+      "learning_rate": 2.2895341720897018e-06,
+      "loss": 1.6341898,
+      "memory(GiB)": 111.15,
+      "step": 55050,
+      "train_speed(iter/s)": 0.447331
+    },
+    {
+      "acc": 0.64759293,
+      "epoch": 1.3966260781329274,
+      "grad_norm": 5.71875,
+      "learning_rate": 2.2886530539413336e-06,
+      "loss": 1.67841644,
+      "memory(GiB)": 111.15,
+      "step": 55055,
+      "train_speed(iter/s)": 0.447353
+    },
+    {
+      "acc": 0.66211872,
+      "epoch": 1.3967529173008626,
+      "grad_norm": 5.40625,
+      "learning_rate": 2.2877720550501082e-06,
+      "loss": 1.62133732,
+      "memory(GiB)": 111.15,
+      "step": 55060,
+      "train_speed(iter/s)": 0.447374
+    },
+    {
+      "acc": 0.66987629,
+      "epoch": 1.3968797564687976,
+      "grad_norm": 5.8125,
+      "learning_rate": 2.2868911754547783e-06,
+      "loss": 1.55506783,
+      "memory(GiB)": 111.15,
+      "step": 55065,
+      "train_speed(iter/s)": 0.447396
+    },
+    {
+      "acc": 0.64942927,
+      "epoch": 1.3970065956367326,
+      "grad_norm": 5.34375,
+      "learning_rate": 2.28601041519409e-06,
+      "loss": 1.60248528,
+      "memory(GiB)": 111.15,
+      "step": 55070,
+      "train_speed(iter/s)": 0.447418
+    },
+    {
+      "acc": 0.64305277,
+      "epoch": 1.3971334348046676,
+      "grad_norm": 6.15625,
+      "learning_rate": 2.2851297743067786e-06,
+      "loss": 1.62245159,
+      "memory(GiB)": 111.15,
+      "step": 55075,
+      "train_speed(iter/s)": 0.44744
+    },
+    {
+      "acc": 0.65701847,
+      "epoch": 1.3972602739726028,
+      "grad_norm": 5.3125,
+      "learning_rate": 2.2842492528315784e-06,
+      "loss": 1.5451685,
+      "memory(GiB)": 111.15,
+      "step": 55080,
+      "train_speed(iter/s)": 0.447462
+    },
+    {
+      "acc": 0.65278912,
+      "epoch": 1.3973871131405378,
+      "grad_norm": 4.53125,
+      "learning_rate": 2.283368850807223e-06,
+      "loss": 1.57256165,
+      "memory(GiB)": 111.15,
+      "step": 55085,
+      "train_speed(iter/s)": 0.447484
+    },
+    {
+      "acc": 0.66075153,
+      "epoch": 1.397513952308473,
+      "grad_norm": 5.3125,
+      "learning_rate": 2.282488568272437e-06,
+      "loss": 1.5908432,
+      "memory(GiB)": 111.15,
+      "step": 55090,
+      "train_speed(iter/s)": 0.447506
+    },
+    {
+      "acc": 0.64385486,
+      "epoch": 1.397640791476408,
+      "grad_norm": 5.375,
+      "learning_rate": 2.2816084052659326e-06,
+      "loss": 1.6499527,
+      "memory(GiB)": 111.15,
+      "step": 55095,
+      "train_speed(iter/s)": 0.447527
+    },
+    {
+      "acc": 0.65068898,
+      "epoch": 1.397767630644343,
+      "grad_norm": 4.9375,
+      "learning_rate": 2.2807283618264288e-06,
+      "loss": 1.63947334,
+      "memory(GiB)": 111.15,
+      "step": 55100,
+      "train_speed(iter/s)": 0.447549
+    },
+    {
+      "epoch": 1.397767630644343,
+      "eval_acc": 0.6434122064088011,
+      "eval_loss": 1.6075583696365356,
+      "eval_runtime": 113.6077,
+      "eval_samples_per_second": 56.07,
+      "eval_steps_per_second": 28.035,
+      "step": 55100
+    },
+    {
+      "acc": 0.65081344,
+      "epoch": 1.397894469812278,
+      "grad_norm": 5.75,
+      "learning_rate": 2.2798484379926324e-06,
+      "loss": 1.59877777,
+      "memory(GiB)": 111.15,
+      "step": 55105,
+      "train_speed(iter/s)": 0.447141
+    },
+    {
+      "acc": 0.6597518,
+      "epoch": 1.3980213089802132,
+      "grad_norm": 5.4375,
+      "learning_rate": 2.278968633803246e-06,
+      "loss": 1.55130692,
+      "memory(GiB)": 111.15,
+      "step": 55110,
+      "train_speed(iter/s)": 0.447163
+    },
+    {
+      "acc": 0.65268641,
+      "epoch": 1.3981481481481481,
+      "grad_norm": 5.1875,
+      "learning_rate": 2.2780889492969684e-06,
+      "loss": 1.60199585,
+      "memory(GiB)": 111.15,
+      "step": 55115,
+      "train_speed(iter/s)": 0.447184
+    },
+    {
+      "acc": 0.66184564,
+      "epoch": 1.3982749873160831,
+      "grad_norm": 6.15625,
+      "learning_rate": 2.277209384512491e-06,
+      "loss": 1.57674732,
+      "memory(GiB)": 111.15,
+      "step": 55120,
+      "train_speed(iter/s)": 0.447206
+    },
+    {
+      "acc": 0.63805552,
+      "epoch": 1.3984018264840183,
+      "grad_norm": 7.46875,
+      "learning_rate": 2.2763299394885013e-06,
+      "loss": 1.64926376,
+      "memory(GiB)": 111.15,
+      "step": 55125,
+      "train_speed(iter/s)": 0.447228
+    },
+    {
+      "acc": 0.65462427,
+      "epoch": 1.3985286656519533,
+      "grad_norm": 4.8125,
+      "learning_rate": 2.2754506142636808e-06,
+      "loss": 1.6433672,
+      "memory(GiB)": 111.15,
+      "step": 55130,
+      "train_speed(iter/s)": 0.44725
+    },
+    {
+      "acc": 0.66788521,
+      "epoch": 1.3986555048198883,
+      "grad_norm": 4.8125,
+      "learning_rate": 2.274571408876707e-06,
+      "loss": 1.59453583,
+      "memory(GiB)": 111.15,
+      "step": 55135,
+      "train_speed(iter/s)": 0.447272
+    },
+    {
+      "acc": 0.66430168,
+      "epoch": 1.3987823439878233,
+      "grad_norm": 5.78125,
+      "learning_rate": 2.2736923233662504e-06,
+      "loss": 1.60728226,
+      "memory(GiB)": 111.15,
+      "step": 55140,
+      "train_speed(iter/s)": 0.447294
+    },
+    {
+      "acc": 0.64991536,
+      "epoch": 1.3989091831557585,
+      "grad_norm": 4.59375,
+      "learning_rate": 2.2728133577709776e-06,
+      "loss": 1.68083019,
+      "memory(GiB)": 111.15,
+      "step": 55145,
+      "train_speed(iter/s)": 0.447315
+    },
+    {
+      "acc": 0.65153842,
+      "epoch": 1.3990360223236935,
+      "grad_norm": 6.125,
+      "learning_rate": 2.2719345121295495e-06,
+      "loss": 1.65125751,
+      "memory(GiB)": 111.15,
+      "step": 55150,
+      "train_speed(iter/s)": 0.447337
+    },
+    {
+      "acc": 0.64291792,
+      "epoch": 1.3991628614916287,
+      "grad_norm": 5.125,
+      "learning_rate": 2.2710557864806214e-06,
+      "loss": 1.70624542,
+      "memory(GiB)": 111.15,
+      "step": 55155,
+      "train_speed(iter/s)": 0.447359
+    },
+    {
+      "acc": 0.64929333,
+      "epoch": 1.3992897006595637,
+      "grad_norm": 5.375,
+      "learning_rate": 2.2701771808628438e-06,
+      "loss": 1.66490841,
+      "memory(GiB)": 111.15,
+      "step": 55160,
+      "train_speed(iter/s)": 0.447381
+    },
+    {
+      "acc": 0.64578362,
+      "epoch": 1.3994165398274987,
+      "grad_norm": 5.15625,
+      "learning_rate": 2.269298695314861e-06,
+      "loss": 1.67416286,
+      "memory(GiB)": 111.15,
+      "step": 55165,
+      "train_speed(iter/s)": 0.447403
+    },
+    {
+      "acc": 0.6508193,
+      "epoch": 1.3995433789954337,
+      "grad_norm": 5.53125,
+      "learning_rate": 2.268420329875314e-06,
+      "loss": 1.65117683,
+      "memory(GiB)": 111.15,
+      "step": 55170,
+      "train_speed(iter/s)": 0.447425
+    },
+    {
+      "acc": 0.655901,
+      "epoch": 1.399670218163369,
+      "grad_norm": 5.15625,
+      "learning_rate": 2.2675420845828363e-06,
+      "loss": 1.5449028,
+      "memory(GiB)": 111.15,
+      "step": 55175,
+      "train_speed(iter/s)": 0.447447
+    },
+    {
+      "acc": 0.64606695,
+      "epoch": 1.3997970573313039,
+      "grad_norm": 6.28125,
+      "learning_rate": 2.266663959476057e-06,
+      "loss": 1.612743,
+      "memory(GiB)": 111.15,
+      "step": 55180,
+      "train_speed(iter/s)": 0.447468
+    },
+    {
+      "acc": 0.65505619,
+      "epoch": 1.399923896499239,
+      "grad_norm": 6.0,
+      "learning_rate": 2.265785954593598e-06,
+      "loss": 1.61517601,
+      "memory(GiB)": 111.15,
+      "step": 55185,
+      "train_speed(iter/s)": 0.44749
+    },
+    {
+      "acc": 0.6420579,
+      "epoch": 1.400050735667174,
+      "grad_norm": 5.6875,
+      "learning_rate": 2.264908069974085e-06,
+      "loss": 1.62605286,
+      "memory(GiB)": 111.15,
+      "step": 55190,
+      "train_speed(iter/s)": 0.447512
+    },
+    {
+      "acc": 0.65596619,
+      "epoch": 1.400177574835109,
+      "grad_norm": 4.21875,
+      "learning_rate": 2.2640303056561236e-06,
+      "loss": 1.54183416,
+      "memory(GiB)": 111.15,
+      "step": 55195,
+      "train_speed(iter/s)": 0.447534
+    },
+    {
+      "acc": 0.63990536,
+      "epoch": 1.400304414003044,
+      "grad_norm": 7.125,
+      "learning_rate": 2.2631526616783234e-06,
+      "loss": 1.60768051,
+      "memory(GiB)": 111.15,
+      "step": 55200,
+      "train_speed(iter/s)": 0.447556
+    },
+    {
+      "epoch": 1.400304414003044,
+      "eval_acc": 0.6433670875393798,
+      "eval_loss": 1.607593297958374,
+      "eval_runtime": 113.1287,
+      "eval_samples_per_second": 56.308,
+      "eval_steps_per_second": 28.154,
+      "step": 55200
+    },
+    {
+      "acc": 0.66301341,
+      "epoch": 1.4004312531709793,
+      "grad_norm": 5.28125,
+      "learning_rate": 2.2622751380792896e-06,
+      "loss": 1.58845654,
+      "memory(GiB)": 111.15,
+      "step": 55205,
+      "train_speed(iter/s)": 0.447151
+    },
+    {
+      "acc": 0.63432169,
+      "epoch": 1.4005580923389143,
+      "grad_norm": 5.25,
+      "learning_rate": 2.26139773489762e-06,
+      "loss": 1.66355934,
+      "memory(GiB)": 111.15,
+      "step": 55210,
+      "train_speed(iter/s)": 0.447173
+    },
+    {
+      "acc": 0.65619445,
+      "epoch": 1.4006849315068493,
+      "grad_norm": 4.625,
+      "learning_rate": 2.260520452171904e-06,
+      "loss": 1.59360943,
+      "memory(GiB)": 111.15,
+      "step": 55215,
+      "train_speed(iter/s)": 0.447194
+    },
+    {
+      "acc": 0.64894266,
+      "epoch": 1.4008117706747845,
+      "grad_norm": 4.875,
+      "learning_rate": 2.259643289940727e-06,
+      "loss": 1.58452129,
+      "memory(GiB)": 111.15,
+      "step": 55220,
+      "train_speed(iter/s)": 0.447216
+    },
+    {
+      "acc": 0.65393767,
+      "epoch": 1.4009386098427195,
+      "grad_norm": 4.90625,
+      "learning_rate": 2.2587662482426748e-06,
+      "loss": 1.61127453,
+      "memory(GiB)": 111.15,
+      "step": 55225,
+      "train_speed(iter/s)": 0.447237
+    },
+    {
+      "acc": 0.65080543,
+      "epoch": 1.4010654490106544,
+      "grad_norm": 6.78125,
+      "learning_rate": 2.2578893271163234e-06,
+      "loss": 1.67061043,
+      "memory(GiB)": 111.15,
+      "step": 55230,
+      "train_speed(iter/s)": 0.447259
+    },
+    {
+      "acc": 0.64757204,
+      "epoch": 1.4011922881785894,
+      "grad_norm": 5.5,
+      "learning_rate": 2.2570125266002385e-06,
+      "loss": 1.61983376,
+      "memory(GiB)": 111.15,
+      "step": 55235,
+      "train_speed(iter/s)": 0.447281
+    },
+    {
+      "acc": 0.65525036,
+      "epoch": 1.4013191273465246,
+      "grad_norm": 5.5625,
+      "learning_rate": 2.2561358467329907e-06,
+      "loss": 1.59737177,
+      "memory(GiB)": 111.15,
+      "step": 55240,
+      "train_speed(iter/s)": 0.447302
+    },
+    {
+      "acc": 0.65722089,
+      "epoch": 1.4014459665144596,
+      "grad_norm": 5.125,
+      "learning_rate": 2.2552592875531397e-06,
+      "loss": 1.5977561,
+      "memory(GiB)": 111.15,
+      "step": 55245,
+      "train_speed(iter/s)": 0.447324
+    },
+    {
+      "acc": 0.65912437,
+      "epoch": 1.4015728056823948,
+      "grad_norm": 5.125,
+      "learning_rate": 2.254382849099241e-06,
+      "loss": 1.60434227,
+      "memory(GiB)": 111.15,
+      "step": 55250,
+      "train_speed(iter/s)": 0.447346
+    },
+    {
+      "acc": 0.65998697,
+      "epoch": 1.4016996448503298,
+      "grad_norm": 5.40625,
+      "learning_rate": 2.253506531409839e-06,
+      "loss": 1.5549181,
+      "memory(GiB)": 111.15,
+      "step": 55255,
+      "train_speed(iter/s)": 0.447367
+    },
+    {
+      "acc": 0.6412231,
+      "epoch": 1.4018264840182648,
+      "grad_norm": 6.40625,
+      "learning_rate": 2.252630334523484e-06,
+      "loss": 1.66369858,
+      "memory(GiB)": 111.15,
+      "step": 55260,
+      "train_speed(iter/s)": 0.447389
+    },
+    {
+      "acc": 0.64555492,
+      "epoch": 1.4019533231861998,
+      "grad_norm": 6.28125,
+      "learning_rate": 2.2517542584787134e-06,
+      "loss": 1.70186577,
+      "memory(GiB)": 111.15,
+      "step": 55265,
+      "train_speed(iter/s)": 0.447411
+    },
+    {
+      "acc": 0.65826564,
+      "epoch": 1.402080162354135,
+      "grad_norm": 5.34375,
+      "learning_rate": 2.2508783033140596e-06,
+      "loss": 1.6135807,
+      "memory(GiB)": 111.15,
+      "step": 55270,
+      "train_speed(iter/s)": 0.447432
+    },
+    {
+      "acc": 0.63344717,
+      "epoch": 1.40220700152207,
+      "grad_norm": 6.1875,
+      "learning_rate": 2.2500024690680528e-06,
+      "loss": 1.6980217,
+      "memory(GiB)": 111.15,
+      "step": 55275,
+      "train_speed(iter/s)": 0.447454
+    },
+    {
+      "acc": 0.664363,
+      "epoch": 1.402333840690005,
+      "grad_norm": 5.3125,
+      "learning_rate": 2.249126755779215e-06,
+      "loss": 1.54853458,
+      "memory(GiB)": 111.15,
+      "step": 55280,
+      "train_speed(iter/s)": 0.447476
+    },
+    {
+      "acc": 0.64863424,
+      "epoch": 1.4024606798579402,
+      "grad_norm": 5.0625,
+      "learning_rate": 2.2482511634860645e-06,
+      "loss": 1.60577488,
+      "memory(GiB)": 111.15,
+      "step": 55285,
+      "train_speed(iter/s)": 0.447497
+    },
+    {
+      "acc": 0.63879094,
+      "epoch": 1.4025875190258752,
+      "grad_norm": 6.0,
+      "learning_rate": 2.247375692227113e-06,
+      "loss": 1.65206032,
+      "memory(GiB)": 111.15,
+      "step": 55290,
+      "train_speed(iter/s)": 0.447519
+    },
+    {
+      "acc": 0.65609078,
+      "epoch": 1.4027143581938102,
+      "grad_norm": 6.03125,
+      "learning_rate": 2.2465003420408683e-06,
+      "loss": 1.62589588,
+      "memory(GiB)": 111.15,
+      "step": 55295,
+      "train_speed(iter/s)": 0.447541
+    },
+    {
+      "acc": 0.65455475,
+      "epoch": 1.4028411973617452,
+      "grad_norm": 5.375,
+      "learning_rate": 2.2456251129658325e-06,
+      "loss": 1.61592922,
+      "memory(GiB)": 111.15,
+      "step": 55300,
+      "train_speed(iter/s)": 0.447562
+    },
+    {
+      "epoch": 1.4028411973617452,
+      "eval_acc": 0.6433758606528784,
+      "eval_loss": 1.607513427734375,
+      "eval_runtime": 113.9297,
+      "eval_samples_per_second": 55.912,
+      "eval_steps_per_second": 27.956,
+      "step": 55300
+    },
+    {
+      "acc": 0.63301153,
+      "epoch": 1.4029680365296804,
+      "grad_norm": 5.5625,
+      "learning_rate": 2.2447500050405008e-06,
+      "loss": 1.6759903,
+      "memory(GiB)": 111.15,
+      "step": 55305,
+      "train_speed(iter/s)": 0.447155
+    },
+    {
+      "acc": 0.65614877,
+      "epoch": 1.4030948756976154,
+      "grad_norm": 5.84375,
+      "learning_rate": 2.2438750183033657e-06,
+      "loss": 1.62799282,
+      "memory(GiB)": 111.15,
+      "step": 55310,
+      "train_speed(iter/s)": 0.447176
+    },
+    {
+      "acc": 0.6560463,
+      "epoch": 1.4032217148655506,
+      "grad_norm": 5.125,
+      "learning_rate": 2.2430001527929123e-06,
+      "loss": 1.61211605,
+      "memory(GiB)": 111.15,
+      "step": 55315,
+      "train_speed(iter/s)": 0.447198
+    },
+    {
+      "acc": 0.64624987,
+      "epoch": 1.4033485540334856,
+      "grad_norm": 6.40625,
+      "learning_rate": 2.242125408547622e-06,
+      "loss": 1.69457817,
+      "memory(GiB)": 111.15,
+      "step": 55320,
+      "train_speed(iter/s)": 0.44722
+    },
+    {
+      "acc": 0.65175247,
+      "epoch": 1.4034753932014206,
+      "grad_norm": 6.625,
+      "learning_rate": 2.2412507856059667e-06,
+      "loss": 1.66687088,
+      "memory(GiB)": 111.15,
+      "step": 55325,
+      "train_speed(iter/s)": 0.447242
+    },
+    {
+      "acc": 0.64298263,
+      "epoch": 1.4036022323693556,
+      "grad_norm": 5.3125,
+      "learning_rate": 2.2403762840064223e-06,
+      "loss": 1.60305824,
+      "memory(GiB)": 111.15,
+      "step": 55330,
+      "train_speed(iter/s)": 0.447264
+    },
+    {
+      "acc": 0.66607862,
+      "epoch": 1.4037290715372908,
+      "grad_norm": 4.53125,
+      "learning_rate": 2.239501903787448e-06,
+      "loss": 1.61206703,
+      "memory(GiB)": 111.15,
+      "step": 55335,
+      "train_speed(iter/s)": 0.447285
+    },
+    {
+      "acc": 0.64239702,
+      "epoch": 1.4038559107052258,
+      "grad_norm": 6.75,
+      "learning_rate": 2.2386276449875057e-06,
+      "loss": 1.65491104,
+      "memory(GiB)": 111.15,
+      "step": 55340,
+      "train_speed(iter/s)": 0.447307
+    },
+    {
+      "acc": 0.64531026,
+      "epoch": 1.403982749873161,
+      "grad_norm": 6.0,
+      "learning_rate": 2.2377535076450452e-06,
+      "loss": 1.65138969,
+      "memory(GiB)": 111.15,
+      "step": 55345,
+      "train_speed(iter/s)": 0.447329
+    },
+    {
+      "acc": 0.65241423,
+      "epoch": 1.404109589041096,
+      "grad_norm": 5.75,
+      "learning_rate": 2.236879491798522e-06,
+      "loss": 1.58985825,
+      "memory(GiB)": 111.15,
+      "step": 55350,
+      "train_speed(iter/s)": 0.44735
+    },
+    {
+      "acc": 0.65431728,
+      "epoch": 1.404236428209031,
+      "grad_norm": 5.78125,
+      "learning_rate": 2.2360055974863737e-06,
+      "loss": 1.64613342,
+      "memory(GiB)": 111.15,
+      "step": 55355,
+      "train_speed(iter/s)": 0.447372
+    },
+    {
+      "acc": 0.66218414,
+      "epoch": 1.404363267376966,
+      "grad_norm": 4.96875,
+      "learning_rate": 2.2351318247470376e-06,
+      "loss": 1.60053043,
+      "memory(GiB)": 111.15,
+      "step": 55360,
+      "train_speed(iter/s)": 0.447394
+    },
+    {
+      "acc": 0.64293733,
+      "epoch": 1.4044901065449011,
+      "grad_norm": 4.9375,
+      "learning_rate": 2.2342581736189496e-06,
+      "loss": 1.63935032,
+      "memory(GiB)": 111.15,
+      "step": 55365,
+      "train_speed(iter/s)": 0.447416
+    },
+    {
+      "acc": 0.65222206,
+      "epoch": 1.4046169457128361,
+      "grad_norm": 5.03125,
+      "learning_rate": 2.233384644140537e-06,
+      "loss": 1.61668377,
+      "memory(GiB)": 111.15,
+      "step": 55370,
+      "train_speed(iter/s)": 0.447437
+    },
+    {
+      "acc": 0.66723175,
+      "epoch": 1.4047437848807711,
+      "grad_norm": 5.4375,
+      "learning_rate": 2.2325112363502167e-06,
+      "loss": 1.5490449,
+      "memory(GiB)": 111.15,
+      "step": 55375,
+      "train_speed(iter/s)": 0.447459
+    },
+    {
+      "acc": 0.66540251,
+      "epoch": 1.4048706240487063,
+      "grad_norm": 4.71875,
+      "learning_rate": 2.23163795028641e-06,
+      "loss": 1.57871809,
+      "memory(GiB)": 111.15,
+      "step": 55380,
+      "train_speed(iter/s)": 0.44748
+    },
+    {
+      "acc": 0.65160475,
+      "epoch": 1.4049974632166413,
+      "grad_norm": 5.0625,
+      "learning_rate": 2.230764785987526e-06,
+      "loss": 1.58741741,
+      "memory(GiB)": 111.15,
+      "step": 55385,
+      "train_speed(iter/s)": 0.447502
+    },
+    {
+      "acc": 0.645895,
+      "epoch": 1.4051243023845763,
+      "grad_norm": 6.5,
+      "learning_rate": 2.229891743491972e-06,
+      "loss": 1.57967415,
+      "memory(GiB)": 111.15,
+      "step": 55390,
+      "train_speed(iter/s)": 0.447524
+    },
+    {
+      "acc": 0.6462369,
+      "epoch": 1.4052511415525113,
+      "grad_norm": 5.125,
+      "learning_rate": 2.2290188228381434e-06,
+      "loss": 1.60953979,
+      "memory(GiB)": 111.15,
+      "step": 55395,
+      "train_speed(iter/s)": 0.447545
+    },
+    {
+      "acc": 0.65442829,
+      "epoch": 1.4053779807204465,
+      "grad_norm": 4.78125,
+      "learning_rate": 2.2281460240644397e-06,
+      "loss": 1.61536102,
+      "memory(GiB)": 111.15,
+      "step": 55400,
+      "train_speed(iter/s)": 0.447567
+    },
+    {
+      "epoch": 1.4053779807204465,
+      "eval_acc": 0.6433883936721622,
+      "eval_loss": 1.6076085567474365,
+      "eval_runtime": 113.5378,
+      "eval_samples_per_second": 56.105,
+      "eval_steps_per_second": 28.052,
+      "step": 55400
+    },
+    {
+      "acc": 0.63874483,
+      "epoch": 1.4055048198883815,
+      "grad_norm": 5.28125,
+      "learning_rate": 2.22727334720925e-06,
+      "loss": 1.65986176,
+      "memory(GiB)": 111.15,
+      "step": 55405,
+      "train_speed(iter/s)": 0.447161
+    },
+    {
+      "acc": 0.65849752,
+      "epoch": 1.4056316590563167,
+      "grad_norm": 4.875,
+      "learning_rate": 2.2264007923109575e-06,
+      "loss": 1.5765337,
+      "memory(GiB)": 111.15,
+      "step": 55410,
+      "train_speed(iter/s)": 0.447183
+    },
+    {
+      "acc": 0.65588531,
+      "epoch": 1.4057584982242517,
+      "grad_norm": 6.53125,
+      "learning_rate": 2.225528359407942e-06,
+      "loss": 1.62608204,
+      "memory(GiB)": 111.15,
+      "step": 55415,
+      "train_speed(iter/s)": 0.447205
+    },
+    {
+      "acc": 0.64721603,
+      "epoch": 1.4058853373921867,
+      "grad_norm": 5.40625,
+      "learning_rate": 2.2246560485385756e-06,
+      "loss": 1.57760105,
+      "memory(GiB)": 111.15,
+      "step": 55420,
+      "train_speed(iter/s)": 0.447226
+    },
+    {
+      "acc": 0.6463644,
+      "epoch": 1.4060121765601217,
+      "grad_norm": 5.03125,
+      "learning_rate": 2.2237838597412277e-06,
+      "loss": 1.63391647,
+      "memory(GiB)": 111.15,
+      "step": 55425,
+      "train_speed(iter/s)": 0.447248
+    },
+    {
+      "acc": 0.66413679,
+      "epoch": 1.4061390157280569,
+      "grad_norm": 4.90625,
+      "learning_rate": 2.22291179305426e-06,
+      "loss": 1.51885939,
+      "memory(GiB)": 111.15,
+      "step": 55430,
+      "train_speed(iter/s)": 0.447269
+    },
+    {
+      "acc": 0.65942345,
+      "epoch": 1.4062658548959919,
+      "grad_norm": 5.59375,
+      "learning_rate": 2.222039848516031e-06,
+      "loss": 1.58188457,
+      "memory(GiB)": 111.15,
+      "step": 55435,
+      "train_speed(iter/s)": 0.447291
+    },
+    {
+      "acc": 0.64248114,
+      "epoch": 1.4063926940639269,
+      "grad_norm": 5.625,
+      "learning_rate": 2.2211680261648918e-06,
+      "loss": 1.63077087,
+      "memory(GiB)": 111.15,
+      "step": 55440,
+      "train_speed(iter/s)": 0.447312
+    },
+    {
+      "acc": 0.65193343,
+      "epoch": 1.406519533231862,
+      "grad_norm": 5.15625,
+      "learning_rate": 2.22029632603919e-06,
+      "loss": 1.60009689,
+      "memory(GiB)": 111.15,
+      "step": 55445,
+      "train_speed(iter/s)": 0.447334
+    },
+    {
+      "acc": 0.65488253,
+      "epoch": 1.406646372399797,
+      "grad_norm": 5.71875,
+      "learning_rate": 2.2194247481772652e-06,
+      "loss": 1.62145634,
+      "memory(GiB)": 111.15,
+      "step": 55450,
+      "train_speed(iter/s)": 0.447356
+    },
+    {
+      "acc": 0.65203609,
+      "epoch": 1.406773211567732,
+      "grad_norm": 5.53125,
+      "learning_rate": 2.218553292617455e-06,
+      "loss": 1.62728157,
+      "memory(GiB)": 111.15,
+      "step": 55455,
+      "train_speed(iter/s)": 0.447377
+    },
+    {
+      "acc": 0.6527369,
+      "epoch": 1.406900050735667,
+      "grad_norm": 4.96875,
+      "learning_rate": 2.2176819593980892e-06,
+      "loss": 1.5747366,
+      "memory(GiB)": 111.15,
+      "step": 55460,
+      "train_speed(iter/s)": 0.447399
+    },
+    {
+      "acc": 0.64417782,
+      "epoch": 1.4070268899036023,
+      "grad_norm": 6.84375,
+      "learning_rate": 2.2168107485574914e-06,
+      "loss": 1.71052895,
+      "memory(GiB)": 111.15,
+      "step": 55465,
+      "train_speed(iter/s)": 0.44742
+    },
+    {
+      "acc": 0.64029555,
+      "epoch": 1.4071537290715372,
+      "grad_norm": 5.6875,
+      "learning_rate": 2.215939660133986e-06,
+      "loss": 1.62950211,
+      "memory(GiB)": 111.15,
+      "step": 55470,
+      "train_speed(iter/s)": 0.447442
+    },
+    {
+      "acc": 0.65946722,
+      "epoch": 1.4072805682394725,
+      "grad_norm": 5.375,
+      "learning_rate": 2.215068694165883e-06,
+      "loss": 1.61622353,
+      "memory(GiB)": 111.15,
+      "step": 55475,
+      "train_speed(iter/s)": 0.447463
+    },
+    {
+      "acc": 0.65615654,
+      "epoch": 1.4074074074074074,
+      "grad_norm": 5.03125,
+      "learning_rate": 2.2141978506914922e-06,
+      "loss": 1.52622824,
+      "memory(GiB)": 111.15,
+      "step": 55480,
+      "train_speed(iter/s)": 0.447485
+    },
+    {
+      "acc": 0.63226757,
+      "epoch": 1.4075342465753424,
+      "grad_norm": 5.25,
+      "learning_rate": 2.2133271297491165e-06,
+      "loss": 1.74187679,
+      "memory(GiB)": 111.15,
+      "step": 55485,
+      "train_speed(iter/s)": 0.447507
+    },
+    {
+      "acc": 0.65884361,
+      "epoch": 1.4076610857432774,
+      "grad_norm": 5.40625,
+      "learning_rate": 2.2124565313770584e-06,
+      "loss": 1.59279099,
+      "memory(GiB)": 111.15,
+      "step": 55490,
+      "train_speed(iter/s)": 0.447528
+    },
+    {
+      "acc": 0.65984268,
+      "epoch": 1.4077879249112126,
+      "grad_norm": 4.75,
+      "learning_rate": 2.211586055613606e-06,
+      "loss": 1.58330212,
+      "memory(GiB)": 111.15,
+      "step": 55495,
+      "train_speed(iter/s)": 0.44755
+    },
+    {
+      "acc": 0.64155674,
+      "epoch": 1.4079147640791476,
+      "grad_norm": 4.84375,
+      "learning_rate": 2.210715702497046e-06,
+      "loss": 1.61848145,
+      "memory(GiB)": 111.15,
+      "step": 55500,
+      "train_speed(iter/s)": 0.447572
+    },
+    {
+      "epoch": 1.4079147640791476,
+      "eval_acc": 0.6434126241761107,
+      "eval_loss": 1.6075310707092285,
+      "eval_runtime": 113.584,
+      "eval_samples_per_second": 56.082,
+      "eval_steps_per_second": 28.041,
+      "step": 55500
+    },
+    {
+      "acc": 0.65825548,
+      "epoch": 1.4080416032470828,
+      "grad_norm": 5.84375,
+      "learning_rate": 2.2098454720656647e-06,
+      "loss": 1.65343399,
+      "memory(GiB)": 111.15,
+      "step": 55505,
+      "train_speed(iter/s)": 0.447167
+    },
+    {
+      "acc": 0.65523133,
+      "epoch": 1.4081684424150178,
+      "grad_norm": 6.40625,
+      "learning_rate": 2.2089753643577384e-06,
+      "loss": 1.60590897,
+      "memory(GiB)": 111.15,
+      "step": 55510,
+      "train_speed(iter/s)": 0.447189
+    },
+    {
+      "acc": 0.65470314,
+      "epoch": 1.4082952815829528,
+      "grad_norm": 5.15625,
+      "learning_rate": 2.208105379411535e-06,
+      "loss": 1.58342228,
+      "memory(GiB)": 111.15,
+      "step": 55515,
+      "train_speed(iter/s)": 0.44721
+    },
+    {
+      "acc": 0.64794884,
+      "epoch": 1.4084221207508878,
+      "grad_norm": 5.5,
+      "learning_rate": 2.2072355172653197e-06,
+      "loss": 1.56788177,
+      "memory(GiB)": 111.15,
+      "step": 55520,
+      "train_speed(iter/s)": 0.447232
+    },
+    {
+      "acc": 0.64734392,
+      "epoch": 1.408548959918823,
+      "grad_norm": 5.59375,
+      "learning_rate": 2.2063657779573573e-06,
+      "loss": 1.58637848,
+      "memory(GiB)": 111.15,
+      "step": 55525,
+      "train_speed(iter/s)": 0.447254
+    },
+    {
+      "acc": 0.65586443,
+      "epoch": 1.408675799086758,
+      "grad_norm": 5.3125,
+      "learning_rate": 2.2054961615259023e-06,
+      "loss": 1.59346323,
+      "memory(GiB)": 111.15,
+      "step": 55530,
+      "train_speed(iter/s)": 0.447275
+    },
+    {
+      "acc": 0.66836076,
+      "epoch": 1.408802638254693,
+      "grad_norm": 4.6875,
+      "learning_rate": 2.2046266680091994e-06,
+      "loss": 1.54648476,
+      "memory(GiB)": 111.15,
+      "step": 55535,
+      "train_speed(iter/s)": 0.447297
+    },
+    {
+      "acc": 0.64313984,
+      "epoch": 1.4089294774226282,
+      "grad_norm": 5.3125,
+      "learning_rate": 2.2037572974454974e-06,
+      "loss": 1.71497726,
+      "memory(GiB)": 111.15,
+      "step": 55540,
+      "train_speed(iter/s)": 0.447319
+    },
+    {
+      "acc": 0.65777221,
+      "epoch": 1.4090563165905632,
+      "grad_norm": 5.65625,
+      "learning_rate": 2.202888049873034e-06,
+      "loss": 1.60096874,
+      "memory(GiB)": 111.15,
+      "step": 55545,
+      "train_speed(iter/s)": 0.44734
+    },
+    {
+      "acc": 0.64226389,
+      "epoch": 1.4091831557584982,
+      "grad_norm": 5.9375,
+      "learning_rate": 2.2020189253300428e-06,
+      "loss": 1.75291557,
+      "memory(GiB)": 111.15,
+      "step": 55550,
+      "train_speed(iter/s)": 0.447362
+    },
+    {
+      "acc": 0.64295897,
+      "epoch": 1.4093099949264332,
+      "grad_norm": 5.1875,
+      "learning_rate": 2.2011499238547506e-06,
+      "loss": 1.67860756,
+      "memory(GiB)": 111.15,
+      "step": 55555,
+      "train_speed(iter/s)": 0.447384
+    },
+    {
+      "acc": 0.64488106,
+      "epoch": 1.4094368340943684,
+      "grad_norm": 6.625,
+      "learning_rate": 2.2002810454853813e-06,
+      "loss": 1.68024406,
+      "memory(GiB)": 111.15,
+      "step": 55560,
+      "train_speed(iter/s)": 0.447406
+    },
+    {
+      "acc": 0.6506753,
+      "epoch": 1.4095636732623034,
+      "grad_norm": 6.21875,
+      "learning_rate": 2.1994122902601513e-06,
+      "loss": 1.62848759,
+      "memory(GiB)": 111.15,
+      "step": 55565,
+      "train_speed(iter/s)": 0.447427
+    },
+    {
+      "acc": 0.64538755,
+      "epoch": 1.4096905124302386,
+      "grad_norm": 5.40625,
+      "learning_rate": 2.1985436582172724e-06,
+      "loss": 1.59540272,
+      "memory(GiB)": 111.15,
+      "step": 55570,
+      "train_speed(iter/s)": 0.447449
+    },
+    {
+      "acc": 0.64573588,
+      "epoch": 1.4098173515981736,
+      "grad_norm": 5.25,
+      "learning_rate": 2.1976751493949512e-06,
+      "loss": 1.66329079,
+      "memory(GiB)": 111.15,
+      "step": 55575,
+      "train_speed(iter/s)": 0.44745
+    },
+    {
+      "acc": 0.64529719,
+      "epoch": 1.4099441907661086,
+      "grad_norm": 5.875,
+      "learning_rate": 2.196806763831388e-06,
+      "loss": 1.60727959,
+      "memory(GiB)": 111.15,
+      "step": 55580,
+      "train_speed(iter/s)": 0.447472
+    },
+    {
+      "acc": 0.65486465,
+      "epoch": 1.4100710299340435,
+      "grad_norm": 5.3125,
+      "learning_rate": 2.1959385015647794e-06,
+      "loss": 1.65519657,
+      "memory(GiB)": 111.15,
+      "step": 55585,
+      "train_speed(iter/s)": 0.447493
+    },
+    {
+      "acc": 0.64587941,
+      "epoch": 1.4101978691019788,
+      "grad_norm": 4.96875,
+      "learning_rate": 2.195070362633314e-06,
+      "loss": 1.63699932,
+      "memory(GiB)": 111.15,
+      "step": 55590,
+      "train_speed(iter/s)": 0.447515
+    },
+    {
+      "acc": 0.65396824,
+      "epoch": 1.4103247082699137,
+      "grad_norm": 6.625,
+      "learning_rate": 2.194202347075178e-06,
+      "loss": 1.64205894,
+      "memory(GiB)": 111.15,
+      "step": 55595,
+      "train_speed(iter/s)": 0.447536
+    },
+    {
+      "acc": 0.64511509,
+      "epoch": 1.4104515474378487,
+      "grad_norm": 5.53125,
+      "learning_rate": 2.1933344549285485e-06,
+      "loss": 1.67041264,
+      "memory(GiB)": 111.15,
+      "step": 55600,
+      "train_speed(iter/s)": 0.447558
+    },
+    {
+      "epoch": 1.4104515474378487,
+      "eval_acc": 0.643418472918443,
+      "eval_loss": 1.6074844598770142,
+      "eval_runtime": 112.9386,
+      "eval_samples_per_second": 56.402,
+      "eval_steps_per_second": 28.201,
+      "step": 55600
+    },
+    {
+      "acc": 0.64482756,
+      "epoch": 1.410578386605784,
+      "grad_norm": 6.8125,
+      "learning_rate": 2.1924666862316015e-06,
+      "loss": 1.65318069,
+      "memory(GiB)": 111.15,
+      "step": 55605,
+      "train_speed(iter/s)": 0.447156
+    },
+    {
+      "acc": 0.66012735,
+      "epoch": 1.410705225773719,
+      "grad_norm": 5.8125,
+      "learning_rate": 2.191599041022504e-06,
+      "loss": 1.60366592,
+      "memory(GiB)": 111.15,
+      "step": 55610,
+      "train_speed(iter/s)": 0.447178
+    },
+    {
+      "acc": 0.64893961,
+      "epoch": 1.410832064941654,
+      "grad_norm": 4.9375,
+      "learning_rate": 2.19073151933942e-06,
+      "loss": 1.54841022,
+      "memory(GiB)": 111.15,
+      "step": 55615,
+      "train_speed(iter/s)": 0.4472
+    },
+    {
+      "acc": 0.64925661,
+      "epoch": 1.410958904109589,
+      "grad_norm": 5.40625,
+      "learning_rate": 2.1898641212205053e-06,
+      "loss": 1.59838352,
+      "memory(GiB)": 111.15,
+      "step": 55620,
+      "train_speed(iter/s)": 0.447221
+    },
+    {
+      "acc": 0.63824735,
+      "epoch": 1.4110857432775241,
+      "grad_norm": 5.09375,
+      "learning_rate": 2.1889968467039114e-06,
+      "loss": 1.64966335,
+      "memory(GiB)": 111.15,
+      "step": 55625,
+      "train_speed(iter/s)": 0.447243
+    },
+    {
+      "acc": 0.64872193,
+      "epoch": 1.411212582445459,
+      "grad_norm": 5.3125,
+      "learning_rate": 2.1881296958277897e-06,
+      "loss": 1.61591339,
+      "memory(GiB)": 111.15,
+      "step": 55630,
+      "train_speed(iter/s)": 0.447265
+    },
+    {
+      "acc": 0.66292744,
+      "epoch": 1.4113394216133943,
+      "grad_norm": 5.59375,
+      "learning_rate": 2.1872626686302767e-06,
+      "loss": 1.56117191,
+      "memory(GiB)": 111.15,
+      "step": 55635,
+      "train_speed(iter/s)": 0.447287
+    },
+    {
+      "acc": 0.65988712,
+      "epoch": 1.4114662607813293,
+      "grad_norm": 5.90625,
+      "learning_rate": 2.186395765149508e-06,
+      "loss": 1.52137938,
+      "memory(GiB)": 111.15,
+      "step": 55640,
+      "train_speed(iter/s)": 0.447308
+    },
+    {
+      "acc": 0.64180212,
+      "epoch": 1.4115930999492643,
+      "grad_norm": 5.1875,
+      "learning_rate": 2.1855289854236165e-06,
+      "loss": 1.68515625,
+      "memory(GiB)": 111.15,
+      "step": 55645,
+      "train_speed(iter/s)": 0.44733
+    },
+    {
+      "acc": 0.6556931,
+      "epoch": 1.4117199391171993,
+      "grad_norm": 4.8125,
+      "learning_rate": 2.184662329490728e-06,
+      "loss": 1.65344219,
+      "memory(GiB)": 111.15,
+      "step": 55650,
+      "train_speed(iter/s)": 0.447352
+    },
+    {
+      "acc": 0.6523912,
+      "epoch": 1.4118467782851345,
+      "grad_norm": 5.8125,
+      "learning_rate": 2.1837957973889584e-06,
+      "loss": 1.62503223,
+      "memory(GiB)": 111.15,
+      "step": 55655,
+      "train_speed(iter/s)": 0.447373
+    },
+    {
+      "acc": 0.63564577,
+      "epoch": 1.4119736174530695,
+      "grad_norm": 6.25,
+      "learning_rate": 2.1829293891564212e-06,
+      "loss": 1.68575764,
+      "memory(GiB)": 111.15,
+      "step": 55660,
+      "train_speed(iter/s)": 0.447395
+    },
+    {
+      "acc": 0.64855986,
+      "epoch": 1.4121004566210047,
+      "grad_norm": 5.125,
+      "learning_rate": 2.182063104831228e-06,
+      "loss": 1.61404915,
+      "memory(GiB)": 111.15,
+      "step": 55665,
+      "train_speed(iter/s)": 0.447417
+    },
+    {
+      "acc": 0.65448475,
+      "epoch": 1.4122272957889397,
+      "grad_norm": 4.9375,
+      "learning_rate": 2.181196944451483e-06,
+      "loss": 1.59914274,
+      "memory(GiB)": 111.15,
+      "step": 55670,
+      "train_speed(iter/s)": 0.447439
+    },
+    {
+      "acc": 0.6529541,
+      "epoch": 1.4123541349568747,
+      "grad_norm": 6.0,
+      "learning_rate": 2.180330908055278e-06,
+      "loss": 1.69774704,
+      "memory(GiB)": 111.15,
+      "step": 55675,
+      "train_speed(iter/s)": 0.447461
+    },
+    {
+      "acc": 0.64324355,
+      "epoch": 1.4124809741248097,
+      "grad_norm": 5.09375,
+      "learning_rate": 2.1794649956807094e-06,
+      "loss": 1.61355476,
+      "memory(GiB)": 111.15,
+      "step": 55680,
+      "train_speed(iter/s)": 0.447482
+    },
+    {
+      "acc": 0.65975399,
+      "epoch": 1.4126078132927449,
+      "grad_norm": 5.5625,
+      "learning_rate": 2.178599207365864e-06,
+      "loss": 1.52956505,
+      "memory(GiB)": 111.15,
+      "step": 55685,
+      "train_speed(iter/s)": 0.447504
+    },
+    {
+      "acc": 0.6630415,
+      "epoch": 1.4127346524606799,
+      "grad_norm": 4.65625,
+      "learning_rate": 2.1777335431488234e-06,
+      "loss": 1.58070717,
+      "memory(GiB)": 111.15,
+      "step": 55690,
+      "train_speed(iter/s)": 0.447526
+    },
+    {
+      "acc": 0.66378756,
+      "epoch": 1.4128614916286149,
+      "grad_norm": 5.625,
+      "learning_rate": 2.176868003067659e-06,
+      "loss": 1.63196793,
+      "memory(GiB)": 111.15,
+      "step": 55695,
+      "train_speed(iter/s)": 0.447548
+    },
+    {
+      "acc": 0.65093727,
+      "epoch": 1.41298833079655,
+      "grad_norm": 5.5,
+      "learning_rate": 2.1760025871604456e-06,
+      "loss": 1.62896614,
+      "memory(GiB)": 111.15,
+      "step": 55700,
+      "train_speed(iter/s)": 0.447569
+    },
+    {
+      "epoch": 1.41298833079655,
+      "eval_acc": 0.6433340839219327,
+      "eval_loss": 1.6075607538223267,
+      "eval_runtime": 113.0098,
+      "eval_samples_per_second": 56.367,
+      "eval_steps_per_second": 28.183,
+      "step": 55700
+    },
+    {
+      "acc": 0.65946612,
+      "epoch": 1.413115169964485,
+      "grad_norm": 6.3125,
+      "learning_rate": 2.175137295465247e-06,
+      "loss": 1.6286274,
+      "memory(GiB)": 111.15,
+      "step": 55705,
+      "train_speed(iter/s)": 0.447168
+    },
+    {
+      "acc": 0.65116796,
+      "epoch": 1.41324200913242,
+      "grad_norm": 4.53125,
+      "learning_rate": 2.174272128020122e-06,
+      "loss": 1.68964424,
+      "memory(GiB)": 111.15,
+      "step": 55710,
+      "train_speed(iter/s)": 0.447189
+    },
+    {
+      "acc": 0.66525183,
+      "epoch": 1.413368848300355,
+      "grad_norm": 5.8125,
+      "learning_rate": 2.1734070848631245e-06,
+      "loss": 1.59700413,
+      "memory(GiB)": 111.15,
+      "step": 55715,
+      "train_speed(iter/s)": 0.447211
+    },
+    {
+      "acc": 0.65805111,
+      "epoch": 1.4134956874682902,
+      "grad_norm": 5.96875,
+      "learning_rate": 2.172542166032303e-06,
+      "loss": 1.54883137,
+      "memory(GiB)": 111.15,
+      "step": 55720,
+      "train_speed(iter/s)": 0.447232
+    },
+    {
+      "acc": 0.64495516,
+      "epoch": 1.4136225266362252,
+      "grad_norm": 5.0625,
+      "learning_rate": 2.171677371565701e-06,
+      "loss": 1.6520462,
+      "memory(GiB)": 111.15,
+      "step": 55725,
+      "train_speed(iter/s)": 0.447254
+    },
+    {
+      "acc": 0.65134163,
+      "epoch": 1.4137493658041604,
+      "grad_norm": 5.8125,
+      "learning_rate": 2.1708127015013565e-06,
+      "loss": 1.66394157,
+      "memory(GiB)": 111.15,
+      "step": 55730,
+      "train_speed(iter/s)": 0.447275
+    },
+    {
+      "acc": 0.64003301,
+      "epoch": 1.4138762049720954,
+      "grad_norm": 5.21875,
+      "learning_rate": 2.1699481558773e-06,
+      "loss": 1.61516914,
+      "memory(GiB)": 111.15,
+      "step": 55735,
+      "train_speed(iter/s)": 0.447297
+    },
+    {
+      "acc": 0.64439421,
+      "epoch": 1.4140030441400304,
+      "grad_norm": 4.21875,
+      "learning_rate": 2.1690837347315597e-06,
+      "loss": 1.63409767,
+      "memory(GiB)": 111.15,
+      "step": 55740,
+      "train_speed(iter/s)": 0.447318
+    },
+    {
+      "acc": 0.66308403,
+      "epoch": 1.4141298833079654,
+      "grad_norm": 6.1875,
+      "learning_rate": 2.168219438102155e-06,
+      "loss": 1.59377232,
+      "memory(GiB)": 111.15,
+      "step": 55745,
+      "train_speed(iter/s)": 0.44734
+    },
+    {
+      "acc": 0.64211521,
+      "epoch": 1.4142567224759006,
+      "grad_norm": 6.375,
+      "learning_rate": 2.167355266027103e-06,
+      "loss": 1.62712307,
+      "memory(GiB)": 111.15,
+      "step": 55750,
+      "train_speed(iter/s)": 0.447361
+    },
+    {
+      "acc": 0.6564775,
+      "epoch": 1.4143835616438356,
+      "grad_norm": 5.34375,
+      "learning_rate": 2.1664912185444127e-06,
+      "loss": 1.55020275,
+      "memory(GiB)": 111.15,
+      "step": 55755,
+      "train_speed(iter/s)": 0.447383
+    },
+    {
+      "acc": 0.6486495,
+      "epoch": 1.4145104008117706,
+      "grad_norm": 4.90625,
+      "learning_rate": 2.16562729569209e-06,
+      "loss": 1.71447601,
+      "memory(GiB)": 111.15,
+      "step": 55760,
+      "train_speed(iter/s)": 0.447404
+    },
+    {
+      "acc": 0.65903311,
+      "epoch": 1.4146372399797058,
+      "grad_norm": 5.28125,
+      "learning_rate": 2.164763497508131e-06,
+      "loss": 1.56397743,
+      "memory(GiB)": 111.15,
+      "step": 55765,
+      "train_speed(iter/s)": 0.447426
+    },
+    {
+      "acc": 0.66544304,
+      "epoch": 1.4147640791476408,
+      "grad_norm": 5.5,
+      "learning_rate": 2.1638998240305355e-06,
+      "loss": 1.58231039,
+      "memory(GiB)": 111.15,
+      "step": 55770,
+      "train_speed(iter/s)": 0.447447
+    },
+    {
+      "acc": 0.63512707,
+      "epoch": 1.4148909183155758,
+      "grad_norm": 5.75,
+      "learning_rate": 2.163036275297286e-06,
+      "loss": 1.66073227,
+      "memory(GiB)": 111.15,
+      "step": 55775,
+      "train_speed(iter/s)": 0.447469
+    },
+    {
+      "acc": 0.65333109,
+      "epoch": 1.4150177574835108,
+      "grad_norm": 5.25,
+      "learning_rate": 2.162172851346368e-06,
+      "loss": 1.59874229,
+      "memory(GiB)": 111.15,
+      "step": 55780,
+      "train_speed(iter/s)": 0.44749
+    },
+    {
+      "acc": 0.66392636,
+      "epoch": 1.415144596651446,
+      "grad_norm": 5.9375,
+      "learning_rate": 2.1613095522157557e-06,
+      "loss": 1.588445,
+      "memory(GiB)": 111.15,
+      "step": 55785,
+      "train_speed(iter/s)": 0.447512
+    },
+    {
+      "acc": 0.65414338,
+      "epoch": 1.415271435819381,
+      "grad_norm": 5.03125,
+      "learning_rate": 2.1604463779434267e-06,
+      "loss": 1.58975925,
+      "memory(GiB)": 111.15,
+      "step": 55790,
+      "train_speed(iter/s)": 0.447533
+    },
+    {
+      "acc": 0.6469841,
+      "epoch": 1.4153982749873162,
+      "grad_norm": 5.53125,
+      "learning_rate": 2.159583328567342e-06,
+      "loss": 1.64264107,
+      "memory(GiB)": 111.15,
+      "step": 55795,
+      "train_speed(iter/s)": 0.447555
+    },
+    {
+      "acc": 0.65557861,
+      "epoch": 1.4155251141552512,
+      "grad_norm": 5.34375,
+      "learning_rate": 2.158720404125462e-06,
+      "loss": 1.61578388,
+      "memory(GiB)": 111.15,
+      "step": 55800,
+      "train_speed(iter/s)": 0.447577
+    },
+    {
+      "epoch": 1.4155251141552512,
+      "eval_acc": 0.6434498054666523,
+      "eval_loss": 1.6074860095977783,
+      "eval_runtime": 114.0197,
+      "eval_samples_per_second": 55.868,
+      "eval_steps_per_second": 27.934,
+      "step": 55800
+    },
+    {
+      "acc": 0.65538845,
+      "epoch": 1.4156519533231862,
+      "grad_norm": 5.125,
+      "learning_rate": 2.1578576046557463e-06,
+      "loss": 1.59876461,
+      "memory(GiB)": 111.15,
+      "step": 55805,
+      "train_speed(iter/s)": 0.447172
+    },
+    {
+      "acc": 0.64056053,
+      "epoch": 1.4157787924911212,
+      "grad_norm": 5.3125,
+      "learning_rate": 2.156994930196144e-06,
+      "loss": 1.62557125,
+      "memory(GiB)": 111.15,
+      "step": 55810,
+      "train_speed(iter/s)": 0.447194
+    },
+    {
+      "acc": 0.65917277,
+      "epoch": 1.4159056316590564,
+      "grad_norm": 5.40625,
+      "learning_rate": 2.156132380784594e-06,
+      "loss": 1.55431423,
+      "memory(GiB)": 111.15,
+      "step": 55815,
+      "train_speed(iter/s)": 0.447215
+    },
+    {
+      "acc": 0.64639225,
+      "epoch": 1.4160324708269914,
+      "grad_norm": 6.28125,
+      "learning_rate": 2.155269956459041e-06,
+      "loss": 1.62074814,
+      "memory(GiB)": 111.15,
+      "step": 55820,
+      "train_speed(iter/s)": 0.447236
+    },
+    {
+      "acc": 0.66090841,
+      "epoch": 1.4161593099949266,
+      "grad_norm": 5.53125,
+      "learning_rate": 2.1544076572574156e-06,
+      "loss": 1.60202198,
+      "memory(GiB)": 111.15,
+      "step": 55825,
+      "train_speed(iter/s)": 0.447257
+    },
+    {
+      "acc": 0.64345016,
+      "epoch": 1.4162861491628616,
+      "grad_norm": 4.5,
+      "learning_rate": 2.1535454832176482e-06,
+      "loss": 1.62321281,
+      "memory(GiB)": 111.15,
+      "step": 55830,
+      "train_speed(iter/s)": 0.447278
+    },
+    {
+      "acc": 0.63962955,
+      "epoch": 1.4164129883307965,
+      "grad_norm": 5.65625,
+      "learning_rate": 2.1526834343776556e-06,
+      "loss": 1.6854557,
+      "memory(GiB)": 111.15,
+      "step": 55835,
+      "train_speed(iter/s)": 0.4473
+    },
+    {
+      "acc": 0.62745762,
+      "epoch": 1.4165398274987315,
+      "grad_norm": 7.46875,
+      "learning_rate": 2.1518215107753593e-06,
+      "loss": 1.69691544,
+      "memory(GiB)": 111.15,
+      "step": 55840,
+      "train_speed(iter/s)": 0.447321
+    },
+    {
+      "acc": 0.63900466,
+      "epoch": 1.4166666666666667,
+      "grad_norm": 5.3125,
+      "learning_rate": 2.1509597124486693e-06,
+      "loss": 1.65631008,
+      "memory(GiB)": 111.15,
+      "step": 55845,
+      "train_speed(iter/s)": 0.447342
+    },
+    {
+      "acc": 0.66439447,
+      "epoch": 1.4167935058346017,
+      "grad_norm": 4.875,
+      "learning_rate": 2.1500980394354907e-06,
+      "loss": 1.60967579,
+      "memory(GiB)": 111.15,
+      "step": 55850,
+      "train_speed(iter/s)": 0.447363
+    },
+    {
+      "acc": 0.64850578,
+      "epoch": 1.4169203450025367,
+      "grad_norm": 5.0,
+      "learning_rate": 2.1492364917737252e-06,
+      "loss": 1.6218523,
+      "memory(GiB)": 111.15,
+      "step": 55855,
+      "train_speed(iter/s)": 0.447384
+    },
+    {
+      "acc": 0.65642681,
+      "epoch": 1.417047184170472,
+      "grad_norm": 5.625,
+      "learning_rate": 2.148375069501266e-06,
+      "loss": 1.60242004,
+      "memory(GiB)": 111.15,
+      "step": 55860,
+      "train_speed(iter/s)": 0.447405
+    },
+    {
+      "acc": 0.65095196,
+      "epoch": 1.417174023338407,
+      "grad_norm": 4.1875,
+      "learning_rate": 2.147513772656003e-06,
+      "loss": 1.60890732,
+      "memory(GiB)": 111.15,
+      "step": 55865,
+      "train_speed(iter/s)": 0.447427
+    },
+    {
+      "acc": 0.63584042,
+      "epoch": 1.417300862506342,
+      "grad_norm": 6.78125,
+      "learning_rate": 2.1466526012758194e-06,
+      "loss": 1.6269907,
+      "memory(GiB)": 111.15,
+      "step": 55870,
+      "train_speed(iter/s)": 0.447448
+    },
+    {
+      "acc": 0.65745797,
+      "epoch": 1.417427701674277,
+      "grad_norm": 5.09375,
+      "learning_rate": 2.145791555398594e-06,
+      "loss": 1.57455444,
+      "memory(GiB)": 111.15,
+      "step": 55875,
+      "train_speed(iter/s)": 0.447469
+    },
+    {
+      "acc": 0.65565324,
+      "epoch": 1.417554540842212,
+      "grad_norm": 5.90625,
+      "learning_rate": 2.144930635062199e-06,
+      "loss": 1.5324192,
+      "memory(GiB)": 111.15,
+      "step": 55880,
+      "train_speed(iter/s)": 0.44749
+    },
+    {
+      "acc": 0.63588448,
+      "epoch": 1.417681380010147,
+      "grad_norm": 5.875,
+      "learning_rate": 2.144069840304502e-06,
+      "loss": 1.69857292,
+      "memory(GiB)": 111.15,
+      "step": 55885,
+      "train_speed(iter/s)": 0.447511
+    },
+    {
+      "acc": 0.65857897,
+      "epoch": 1.4178082191780823,
+      "grad_norm": 5.71875,
+      "learning_rate": 2.1432091711633634e-06,
+      "loss": 1.62534294,
+      "memory(GiB)": 111.15,
+      "step": 55890,
+      "train_speed(iter/s)": 0.447532
+    },
+    {
+      "acc": 0.65040827,
+      "epoch": 1.4179350583460173,
+      "grad_norm": 5.375,
+      "learning_rate": 2.142348627676641e-06,
+      "loss": 1.62272053,
+      "memory(GiB)": 111.15,
+      "step": 55895,
+      "train_speed(iter/s)": 0.447553
+    },
+    {
+      "acc": 0.65005922,
+      "epoch": 1.4180618975139523,
+      "grad_norm": 5.28125,
+      "learning_rate": 2.1414882098821836e-06,
+      "loss": 1.60534019,
+      "memory(GiB)": 111.15,
+      "step": 55900,
+      "train_speed(iter/s)": 0.447574
+    },
+    {
+      "epoch": 1.4180618975139523,
+      "eval_acc": 0.6434046865972309,
+      "eval_loss": 1.6075425148010254,
+      "eval_runtime": 113.8189,
+      "eval_samples_per_second": 55.966,
+      "eval_steps_per_second": 27.983,
+      "step": 55900
+    },
+    {
+      "acc": 0.65743289,
+      "epoch": 1.4181887366818873,
+      "grad_norm": 5.4375,
+      "learning_rate": 2.1406279178178355e-06,
+      "loss": 1.64108944,
+      "memory(GiB)": 111.15,
+      "step": 55905,
+      "train_speed(iter/s)": 0.447171
+    },
+    {
+      "acc": 0.652671,
+      "epoch": 1.4183155758498225,
+      "grad_norm": 5.71875,
+      "learning_rate": 2.1397677515214422e-06,
+      "loss": 1.63358154,
+      "memory(GiB)": 111.15,
+      "step": 55910,
+      "train_speed(iter/s)": 0.447193
+    },
+    {
+      "acc": 0.64822826,
+      "epoch": 1.4184424150177575,
+      "grad_norm": 6.5625,
+      "learning_rate": 2.1389077110308304e-06,
+      "loss": 1.662854,
+      "memory(GiB)": 111.15,
+      "step": 55915,
+      "train_speed(iter/s)": 0.447214
+    },
+    {
+      "acc": 0.64673843,
+      "epoch": 1.4185692541856925,
+      "grad_norm": 6.25,
+      "learning_rate": 2.138047796383832e-06,
+      "loss": 1.66949406,
+      "memory(GiB)": 111.15,
+      "step": 55920,
+      "train_speed(iter/s)": 0.447235
+    },
+    {
+      "acc": 0.64664612,
+      "epoch": 1.4186960933536277,
+      "grad_norm": 7.4375,
+      "learning_rate": 2.1371880076182666e-06,
+      "loss": 1.67883682,
+      "memory(GiB)": 111.15,
+      "step": 55925,
+      "train_speed(iter/s)": 0.447256
+    },
+    {
+      "acc": 0.63709292,
+      "epoch": 1.4188229325215627,
+      "grad_norm": 6.03125,
+      "learning_rate": 2.1363283447719584e-06,
+      "loss": 1.67796459,
+      "memory(GiB)": 111.15,
+      "step": 55930,
+      "train_speed(iter/s)": 0.447278
+    },
+    {
+      "acc": 0.65979586,
+      "epoch": 1.4189497716894977,
+      "grad_norm": 6.90625,
+      "learning_rate": 2.135468807882713e-06,
+      "loss": 1.59852047,
+      "memory(GiB)": 111.15,
+      "step": 55935,
+      "train_speed(iter/s)": 0.447299
+    },
+    {
+      "acc": 0.64526138,
+      "epoch": 1.4190766108574326,
+      "grad_norm": 5.9375,
+      "learning_rate": 2.1346093969883367e-06,
+      "loss": 1.63534527,
+      "memory(GiB)": 111.15,
+      "step": 55940,
+      "train_speed(iter/s)": 0.447321
+    },
+    {
+      "acc": 0.6540925,
+      "epoch": 1.4192034500253679,
+      "grad_norm": 5.34375,
+      "learning_rate": 2.1337501121266345e-06,
+      "loss": 1.59941463,
+      "memory(GiB)": 111.15,
+      "step": 55945,
+      "train_speed(iter/s)": 0.447342
+    },
+    {
+      "acc": 0.63602238,
+      "epoch": 1.4193302891933028,
+      "grad_norm": 6.46875,
+      "learning_rate": 2.132890953335401e-06,
+      "loss": 1.68423481,
+      "memory(GiB)": 111.15,
+      "step": 55950,
+      "train_speed(iter/s)": 0.447364
+    },
+    {
+      "acc": 0.64360447,
+      "epoch": 1.419457128361238,
+      "grad_norm": 5.28125,
+      "learning_rate": 2.1320319206524215e-06,
+      "loss": 1.70478153,
+      "memory(GiB)": 111.15,
+      "step": 55955,
+      "train_speed(iter/s)": 0.447385
+    },
+    {
+      "acc": 0.65257988,
+      "epoch": 1.419583967529173,
+      "grad_norm": 4.8125,
+      "learning_rate": 2.1311730141154813e-06,
+      "loss": 1.62999821,
+      "memory(GiB)": 111.15,
+      "step": 55960,
+      "train_speed(iter/s)": 0.447407
+    },
+    {
+      "acc": 0.65277996,
+      "epoch": 1.419710806697108,
+      "grad_norm": 4.9375,
+      "learning_rate": 2.1303142337623623e-06,
+      "loss": 1.64737759,
+      "memory(GiB)": 111.15,
+      "step": 55965,
+      "train_speed(iter/s)": 0.447428
+    },
+    {
+      "acc": 0.65106091,
+      "epoch": 1.419837645865043,
+      "grad_norm": 5.90625,
+      "learning_rate": 2.1294555796308375e-06,
+      "loss": 1.58642406,
+      "memory(GiB)": 111.15,
+      "step": 55970,
+      "train_speed(iter/s)": 0.447449
+    },
+    {
+      "acc": 0.65375066,
+      "epoch": 1.4199644850329782,
+      "grad_norm": 5.28125,
+      "learning_rate": 2.1285970517586686e-06,
+      "loss": 1.70657806,
+      "memory(GiB)": 111.15,
+      "step": 55975,
+      "train_speed(iter/s)": 0.447471
+    },
+    {
+      "acc": 0.6387711,
+      "epoch": 1.4200913242009132,
+      "grad_norm": 5.25,
+      "learning_rate": 2.127738650183623e-06,
+      "loss": 1.66443481,
+      "memory(GiB)": 111.15,
+      "step": 55980,
+      "train_speed(iter/s)": 0.447492
+    },
+    {
+      "acc": 0.64868693,
+      "epoch": 1.4202181633688484,
+      "grad_norm": 5.09375,
+      "learning_rate": 2.1268803749434546e-06,
+      "loss": 1.6312603,
+      "memory(GiB)": 111.15,
+      "step": 55985,
+      "train_speed(iter/s)": 0.447513
+    },
+    {
+      "acc": 0.62956281,
+      "epoch": 1.4203450025367834,
+      "grad_norm": 6.4375,
+      "learning_rate": 2.1260222260759158e-06,
+      "loss": 1.60396194,
+      "memory(GiB)": 111.15,
+      "step": 55990,
+      "train_speed(iter/s)": 0.447535
+    },
+    {
+      "acc": 0.65884132,
+      "epoch": 1.4204718417047184,
+      "grad_norm": 5.21875,
+      "learning_rate": 2.1251642036187502e-06,
+      "loss": 1.62932148,
+      "memory(GiB)": 111.15,
+      "step": 55995,
+      "train_speed(iter/s)": 0.447556
+    },
+    {
+      "acc": 0.66040487,
+      "epoch": 1.4205986808726534,
+      "grad_norm": 5.28125,
+      "learning_rate": 2.124306307609699e-06,
+      "loss": 1.63530197,
+      "memory(GiB)": 111.15,
+      "step": 56000,
+      "train_speed(iter/s)": 0.447577
+    },
+    {
+      "epoch": 1.4205986808726534,
+      "eval_acc": 0.6434055221318499,
+      "eval_loss": 1.607498049736023,
+      "eval_runtime": 113.6952,
+      "eval_samples_per_second": 56.027,
+      "eval_steps_per_second": 28.014,
+      "step": 56000
+    },
+    {
+      "acc": 0.62808676,
+      "epoch": 1.4207255200405886,
+      "grad_norm": 5.46875,
+      "learning_rate": 2.123448538086495e-06,
+      "loss": 1.70467453,
+      "memory(GiB)": 111.15,
+      "step": 56005,
+      "train_speed(iter/s)": 0.447175
+    },
+    {
+      "acc": 0.64478292,
+      "epoch": 1.4208523592085236,
+      "grad_norm": 6.34375,
+      "learning_rate": 2.122590895086867e-06,
+      "loss": 1.70288353,
+      "memory(GiB)": 111.15,
+      "step": 56010,
+      "train_speed(iter/s)": 0.447197
+    },
+    {
+      "acc": 0.64343605,
+      "epoch": 1.4209791983764586,
+      "grad_norm": 5.5625,
+      "learning_rate": 2.1217333786485385e-06,
+      "loss": 1.60869198,
+      "memory(GiB)": 111.15,
+      "step": 56015,
+      "train_speed(iter/s)": 0.447218
+    },
+    {
+      "acc": 0.6472868,
+      "epoch": 1.4211060375443938,
+      "grad_norm": 5.6875,
+      "learning_rate": 2.120875988809226e-06,
+      "loss": 1.64239616,
+      "memory(GiB)": 111.15,
+      "step": 56020,
+      "train_speed(iter/s)": 0.447239
+    },
+    {
+      "acc": 0.64988785,
+      "epoch": 1.4212328767123288,
+      "grad_norm": 5.8125,
+      "learning_rate": 2.1200187256066425e-06,
+      "loss": 1.59436636,
+      "memory(GiB)": 111.15,
+      "step": 56025,
+      "train_speed(iter/s)": 0.447261
+    },
+    {
+      "acc": 0.66384902,
+      "epoch": 1.4213597158802638,
+      "grad_norm": 6.09375,
+      "learning_rate": 2.119161589078493e-06,
+      "loss": 1.61093311,
+      "memory(GiB)": 111.15,
+      "step": 56030,
+      "train_speed(iter/s)": 0.447282
+    },
+    {
+      "acc": 0.63542433,
+      "epoch": 1.4214865550481988,
+      "grad_norm": 5.34375,
+      "learning_rate": 2.118304579262479e-06,
+      "loss": 1.70800896,
+      "memory(GiB)": 111.15,
+      "step": 56035,
+      "train_speed(iter/s)": 0.447303
+    },
+    {
+      "acc": 0.66646814,
+      "epoch": 1.421613394216134,
+      "grad_norm": 4.6875,
+      "learning_rate": 2.1174476961962957e-06,
+      "loss": 1.6258667,
+      "memory(GiB)": 111.15,
+      "step": 56040,
+      "train_speed(iter/s)": 0.447324
+    },
+    {
+      "acc": 0.64053922,
+      "epoch": 1.421740233384069,
+      "grad_norm": 5.875,
+      "learning_rate": 2.1165909399176328e-06,
+      "loss": 1.67121792,
+      "memory(GiB)": 111.15,
+      "step": 56045,
+      "train_speed(iter/s)": 0.447346
+    },
+    {
+      "acc": 0.63953443,
+      "epoch": 1.4218670725520042,
+      "grad_norm": 5.125,
+      "learning_rate": 2.1157343104641733e-06,
+      "loss": 1.7051506,
+      "memory(GiB)": 111.15,
+      "step": 56050,
+      "train_speed(iter/s)": 0.447367
+    },
+    {
+      "acc": 0.65037708,
+      "epoch": 1.4219939117199392,
+      "grad_norm": 5.125,
+      "learning_rate": 2.114877807873596e-06,
+      "loss": 1.55959854,
+      "memory(GiB)": 111.15,
+      "step": 56055,
+      "train_speed(iter/s)": 0.447388
+    },
+    {
+      "acc": 0.63940735,
+      "epoch": 1.4221207508878742,
+      "grad_norm": 5.0625,
+      "learning_rate": 2.114021432183574e-06,
+      "loss": 1.61257248,
+      "memory(GiB)": 111.15,
+      "step": 56060,
+      "train_speed(iter/s)": 0.44741
+    },
+    {
+      "acc": 0.64273763,
+      "epoch": 1.4222475900558091,
+      "grad_norm": 5.0,
+      "learning_rate": 2.113165183431773e-06,
+      "loss": 1.64214554,
+      "memory(GiB)": 111.15,
+      "step": 56065,
+      "train_speed(iter/s)": 0.447431
+    },
+    {
+      "acc": 0.66959219,
+      "epoch": 1.4223744292237444,
+      "grad_norm": 6.3125,
+      "learning_rate": 2.112309061655859e-06,
+      "loss": 1.57030935,
+      "memory(GiB)": 111.15,
+      "step": 56070,
+      "train_speed(iter/s)": 0.447453
+    },
+    {
+      "acc": 0.67592497,
+      "epoch": 1.4225012683916793,
+      "grad_norm": 5.8125,
+      "learning_rate": 2.1114530668934836e-06,
+      "loss": 1.58166075,
+      "memory(GiB)": 111.15,
+      "step": 56075,
+      "train_speed(iter/s)": 0.447474
+    },
+    {
+      "acc": 0.63672018,
+      "epoch": 1.4226281075596143,
+      "grad_norm": 5.53125,
+      "learning_rate": 2.1105971991822966e-06,
+      "loss": 1.65288696,
+      "memory(GiB)": 111.15,
+      "step": 56080,
+      "train_speed(iter/s)": 0.447495
+    },
+    {
+      "acc": 0.63924494,
+      "epoch": 1.4227549467275495,
+      "grad_norm": 5.96875,
+      "learning_rate": 2.1097414585599474e-06,
+      "loss": 1.67434578,
+      "memory(GiB)": 111.15,
+      "step": 56085,
+      "train_speed(iter/s)": 0.447516
+    },
+    {
+      "acc": 0.65964413,
+      "epoch": 1.4228817858954845,
+      "grad_norm": 5.71875,
+      "learning_rate": 2.1088858450640743e-06,
+      "loss": 1.64543381,
+      "memory(GiB)": 111.15,
+      "step": 56090,
+      "train_speed(iter/s)": 0.447538
+    },
+    {
+      "acc": 0.65669146,
+      "epoch": 1.4230086250634195,
+      "grad_norm": 6.65625,
+      "learning_rate": 2.108030358732308e-06,
+      "loss": 1.56034384,
+      "memory(GiB)": 111.15,
+      "step": 56095,
+      "train_speed(iter/s)": 0.447559
+    },
+    {
+      "acc": 0.65065193,
+      "epoch": 1.4231354642313545,
+      "grad_norm": 4.9375,
+      "learning_rate": 2.107174999602277e-06,
+      "loss": 1.66710873,
+      "memory(GiB)": 111.15,
+      "step": 56100,
+      "train_speed(iter/s)": 0.447581
+    },
+    {
+      "epoch": 1.4231354642313545,
+      "eval_acc": 0.6434088642703255,
+      "eval_loss": 1.6075249910354614,
+      "eval_runtime": 113.7494,
+      "eval_samples_per_second": 56.0,
+      "eval_steps_per_second": 28.0,
+      "step": 56100
+    },
+    {
+      "acc": 0.66101942,
+      "epoch": 1.4232623033992897,
+      "grad_norm": 5.84375,
+      "learning_rate": 2.106319767711606e-06,
+      "loss": 1.59294548,
+      "memory(GiB)": 111.15,
+      "step": 56105,
+      "train_speed(iter/s)": 0.447179
+    },
+    {
+      "acc": 0.64050493,
+      "epoch": 1.4233891425672247,
+      "grad_norm": 6.15625,
+      "learning_rate": 2.105464663097913e-06,
+      "loss": 1.66906052,
+      "memory(GiB)": 111.15,
+      "step": 56110,
+      "train_speed(iter/s)": 0.4472
+    },
+    {
+      "acc": 0.66142788,
+      "epoch": 1.42351598173516,
+      "grad_norm": 5.5625,
+      "learning_rate": 2.1046096857988033e-06,
+      "loss": 1.57787371,
+      "memory(GiB)": 111.15,
+      "step": 56115,
+      "train_speed(iter/s)": 0.447221
+    },
+    {
+      "acc": 0.64583778,
+      "epoch": 1.423642820903095,
+      "grad_norm": 4.75,
+      "learning_rate": 2.103754835851889e-06,
+      "loss": 1.61744537,
+      "memory(GiB)": 111.15,
+      "step": 56120,
+      "train_speed(iter/s)": 0.447243
+    },
+    {
+      "acc": 0.66171122,
+      "epoch": 1.42376966007103,
+      "grad_norm": 5.21875,
+      "learning_rate": 2.102900113294768e-06,
+      "loss": 1.58314018,
+      "memory(GiB)": 111.15,
+      "step": 56125,
+      "train_speed(iter/s)": 0.447264
+    },
+    {
+      "acc": 0.64692249,
+      "epoch": 1.4238964992389649,
+      "grad_norm": 5.1875,
+      "learning_rate": 2.1020455181650356e-06,
+      "loss": 1.61493015,
+      "memory(GiB)": 111.15,
+      "step": 56130,
+      "train_speed(iter/s)": 0.447285
+    },
+    {
+      "acc": 0.65494623,
+      "epoch": 1.4240233384069,
+      "grad_norm": 5.75,
+      "learning_rate": 2.101191050500277e-06,
+      "loss": 1.61068916,
+      "memory(GiB)": 111.15,
+      "step": 56135,
+      "train_speed(iter/s)": 0.447306
+    },
+    {
+      "acc": 0.63782477,
+      "epoch": 1.424150177574835,
+      "grad_norm": 5.84375,
+      "learning_rate": 2.1003367103380797e-06,
+      "loss": 1.64089012,
+      "memory(GiB)": 111.15,
+      "step": 56140,
+      "train_speed(iter/s)": 0.447327
+    },
+    {
+      "acc": 0.65194902,
+      "epoch": 1.4242770167427703,
+      "grad_norm": 6.3125,
+      "learning_rate": 2.09948249771602e-06,
+      "loss": 1.69724331,
+      "memory(GiB)": 111.15,
+      "step": 56145,
+      "train_speed(iter/s)": 0.447348
+    },
+    {
+      "acc": 0.65150332,
+      "epoch": 1.4244038559107053,
+      "grad_norm": 6.15625,
+      "learning_rate": 2.09862841267167e-06,
+      "loss": 1.55631924,
+      "memory(GiB)": 111.15,
+      "step": 56150,
+      "train_speed(iter/s)": 0.447369
+    },
+    {
+      "acc": 0.64779973,
+      "epoch": 1.4245306950786403,
+      "grad_norm": 5.90625,
+      "learning_rate": 2.097774455242596e-06,
+      "loss": 1.63004532,
+      "memory(GiB)": 111.15,
+      "step": 56155,
+      "train_speed(iter/s)": 0.447391
+    },
+    {
+      "acc": 0.64808569,
+      "epoch": 1.4246575342465753,
+      "grad_norm": 5.25,
+      "learning_rate": 2.096920625466359e-06,
+      "loss": 1.59002266,
+      "memory(GiB)": 111.15,
+      "step": 56160,
+      "train_speed(iter/s)": 0.447412
+    },
+    {
+      "acc": 0.63841166,
+      "epoch": 1.4247843734145105,
+      "grad_norm": 5.375,
+      "learning_rate": 2.0960669233805136e-06,
+      "loss": 1.68767281,
+      "memory(GiB)": 111.15,
+      "step": 56165,
+      "train_speed(iter/s)": 0.447433
+    },
+    {
+      "acc": 0.65113573,
+      "epoch": 1.4249112125824455,
+      "grad_norm": 4.5625,
+      "learning_rate": 2.0952133490226106e-06,
+      "loss": 1.69092484,
+      "memory(GiB)": 111.15,
+      "step": 56170,
+      "train_speed(iter/s)": 0.447454
+    },
+    {
+      "acc": 0.6470686,
+      "epoch": 1.4250380517503805,
+      "grad_norm": 5.96875,
+      "learning_rate": 2.0943599024301935e-06,
+      "loss": 1.66196938,
+      "memory(GiB)": 111.15,
+      "step": 56175,
+      "train_speed(iter/s)": 0.447475
+    },
+    {
+      "acc": 0.65314741,
+      "epoch": 1.4251648909183157,
+      "grad_norm": 6.0,
+      "learning_rate": 2.093506583640801e-06,
+      "loss": 1.57658138,
+      "memory(GiB)": 111.15,
+      "step": 56180,
+      "train_speed(iter/s)": 0.447496
+    },
+    {
+      "acc": 0.65054379,
+      "epoch": 1.4252917300862507,
+      "grad_norm": 5.59375,
+      "learning_rate": 2.092653392691965e-06,
+      "loss": 1.5835083,
+      "memory(GiB)": 111.15,
+      "step": 56185,
+      "train_speed(iter/s)": 0.447518
+    },
+    {
+      "acc": 0.65392218,
+      "epoch": 1.4254185692541856,
+      "grad_norm": 5.34375,
+      "learning_rate": 2.091800329621213e-06,
+      "loss": 1.62041016,
+      "memory(GiB)": 111.15,
+      "step": 56190,
+      "train_speed(iter/s)": 0.447539
+    },
+    {
+      "acc": 0.66769147,
+      "epoch": 1.4255454084221206,
+      "grad_norm": 4.75,
+      "learning_rate": 2.0909473944660667e-06,
+      "loss": 1.57650433,
+      "memory(GiB)": 111.15,
+      "step": 56195,
+      "train_speed(iter/s)": 0.44756
+    },
+    {
+      "acc": 0.64713049,
+      "epoch": 1.4256722475900558,
+      "grad_norm": 4.8125,
+      "learning_rate": 2.0900945872640427e-06,
+      "loss": 1.6606987,
+      "memory(GiB)": 111.15,
+      "step": 56200,
+      "train_speed(iter/s)": 0.447581
+    },
+    {
+      "epoch": 1.4256722475900558,
+      "eval_acc": 0.6434786314110049,
+      "eval_loss": 1.6075265407562256,
+      "eval_runtime": 113.8713,
+      "eval_samples_per_second": 55.94,
+      "eval_steps_per_second": 27.97,
+      "step": 56200
+    },
+    {
+      "acc": 0.66239533,
+      "epoch": 1.4257990867579908,
+      "grad_norm": 4.75,
+      "learning_rate": 2.0892419080526484e-06,
+      "loss": 1.5885891,
+      "memory(GiB)": 111.15,
+      "step": 56205,
+      "train_speed(iter/s)": 0.44718
+    },
+    {
+      "acc": 0.6594717,
+      "epoch": 1.425925925925926,
+      "grad_norm": 5.1875,
+      "learning_rate": 2.0883893568693935e-06,
+      "loss": 1.61490097,
+      "memory(GiB)": 111.15,
+      "step": 56210,
+      "train_speed(iter/s)": 0.447201
+    },
+    {
+      "acc": 0.66051083,
+      "epoch": 1.426052765093861,
+      "grad_norm": 5.09375,
+      "learning_rate": 2.087536933751773e-06,
+      "loss": 1.63276901,
+      "memory(GiB)": 111.15,
+      "step": 56215,
+      "train_speed(iter/s)": 0.447222
+    },
+    {
+      "acc": 0.65409012,
+      "epoch": 1.426179604261796,
+      "grad_norm": 7.0,
+      "learning_rate": 2.0866846387372814e-06,
+      "loss": 1.65277519,
+      "memory(GiB)": 111.15,
+      "step": 56220,
+      "train_speed(iter/s)": 0.447243
+    },
+    {
+      "acc": 0.63516855,
+      "epoch": 1.426306443429731,
+      "grad_norm": 5.5625,
+      "learning_rate": 2.085832471863404e-06,
+      "loss": 1.72760124,
+      "memory(GiB)": 111.15,
+      "step": 56225,
+      "train_speed(iter/s)": 0.447263
+    },
+    {
+      "acc": 0.64074574,
+      "epoch": 1.4264332825976662,
+      "grad_norm": 5.75,
+      "learning_rate": 2.08498043316763e-06,
+      "loss": 1.67741909,
+      "memory(GiB)": 111.15,
+      "step": 56230,
+      "train_speed(iter/s)": 0.447285
+    },
+    {
+      "acc": 0.66876621,
+      "epoch": 1.4265601217656012,
+      "grad_norm": 5.59375,
+      "learning_rate": 2.0841285226874282e-06,
+      "loss": 1.61654797,
+      "memory(GiB)": 111.15,
+      "step": 56235,
+      "train_speed(iter/s)": 0.447306
+    },
+    {
+      "acc": 0.64060631,
+      "epoch": 1.4266869609335362,
+      "grad_norm": 5.125,
+      "learning_rate": 2.083276740460271e-06,
+      "loss": 1.63308296,
+      "memory(GiB)": 111.15,
+      "step": 56240,
+      "train_speed(iter/s)": 0.447327
+    },
+    {
+      "acc": 0.65725193,
+      "epoch": 1.4268138001014714,
+      "grad_norm": 5.0,
+      "learning_rate": 2.082425086523627e-06,
+      "loss": 1.55801449,
+      "memory(GiB)": 111.15,
+      "step": 56245,
+      "train_speed(iter/s)": 0.447348
+    },
+    {
+      "acc": 0.65592918,
+      "epoch": 1.4269406392694064,
+      "grad_norm": 5.71875,
+      "learning_rate": 2.0815735609149556e-06,
+      "loss": 1.600807,
+      "memory(GiB)": 111.15,
+      "step": 56250,
+      "train_speed(iter/s)": 0.447369
+    },
+    {
+      "acc": 0.67181673,
+      "epoch": 1.4270674784373414,
+      "grad_norm": 5.03125,
+      "learning_rate": 2.080722163671705e-06,
+      "loss": 1.58532734,
+      "memory(GiB)": 111.15,
+      "step": 56255,
+      "train_speed(iter/s)": 0.44739
+    },
+    {
+      "acc": 0.66039009,
+      "epoch": 1.4271943176052764,
+      "grad_norm": 5.1875,
+      "learning_rate": 2.079870894831329e-06,
+      "loss": 1.62940102,
+      "memory(GiB)": 111.15,
+      "step": 56260,
+      "train_speed(iter/s)": 0.447411
+    },
+    {
+      "acc": 0.64691315,
+      "epoch": 1.4273211567732116,
+      "grad_norm": 5.15625,
+      "learning_rate": 2.0790197544312683e-06,
+      "loss": 1.67488785,
+      "memory(GiB)": 111.15,
+      "step": 56265,
+      "train_speed(iter/s)": 0.447432
+    },
+    {
+      "acc": 0.641008,
+      "epoch": 1.4274479959411466,
+      "grad_norm": 5.0625,
+      "learning_rate": 2.0781687425089624e-06,
+      "loss": 1.65846405,
+      "memory(GiB)": 111.15,
+      "step": 56270,
+      "train_speed(iter/s)": 0.447453
+    },
+    {
+      "acc": 0.64795876,
+      "epoch": 1.4275748351090818,
+      "grad_norm": 5.78125,
+      "learning_rate": 2.0773178591018363e-06,
+      "loss": 1.66823692,
+      "memory(GiB)": 111.15,
+      "step": 56275,
+      "train_speed(iter/s)": 0.447474
+    },
+    {
+      "acc": 0.67021265,
+      "epoch": 1.4277016742770168,
+      "grad_norm": 6.0625,
+      "learning_rate": 2.076467104247322e-06,
+      "loss": 1.53036594,
+      "memory(GiB)": 111.15,
+      "step": 56280,
+      "train_speed(iter/s)": 0.447495
+    },
+    {
+      "acc": 0.66429024,
+      "epoch": 1.4278285134449518,
+      "grad_norm": 4.875,
+      "learning_rate": 2.0756164779828365e-06,
+      "loss": 1.55899296,
+      "memory(GiB)": 111.15,
+      "step": 56285,
+      "train_speed(iter/s)": 0.447517
+    },
+    {
+      "acc": 0.65059943,
+      "epoch": 1.4279553526128868,
+      "grad_norm": 4.71875,
+      "learning_rate": 2.0747659803457943e-06,
+      "loss": 1.59098063,
+      "memory(GiB)": 111.15,
+      "step": 56290,
+      "train_speed(iter/s)": 0.447538
+    },
+    {
+      "acc": 0.66356449,
+      "epoch": 1.428082191780822,
+      "grad_norm": 4.9375,
+      "learning_rate": 2.073915611373605e-06,
+      "loss": 1.57309752,
+      "memory(GiB)": 111.15,
+      "step": 56295,
+      "train_speed(iter/s)": 0.447559
+    },
+    {
+      "acc": 0.64546528,
+      "epoch": 1.428209030948757,
+      "grad_norm": 4.5625,
+      "learning_rate": 2.0730653711036713e-06,
+      "loss": 1.61351242,
+      "memory(GiB)": 111.15,
+      "step": 56300,
+      "train_speed(iter/s)": 0.44758
+    },
+    {
+      "epoch": 1.428209030948757,
+      "eval_acc": 0.6434401968185348,
+      "eval_loss": 1.6075465679168701,
+      "eval_runtime": 114.096,
+      "eval_samples_per_second": 55.83,
+      "eval_steps_per_second": 27.915,
+      "step": 56300
+    },
+    {
+      "acc": 0.65789051,
+      "epoch": 1.4283358701166922,
+      "grad_norm": 5.46875,
+      "learning_rate": 2.0722152595733903e-06,
+      "loss": 1.53278694,
+      "memory(GiB)": 111.15,
+      "step": 56305,
+      "train_speed(iter/s)": 0.447179
+    },
+    {
+      "acc": 0.65670028,
+      "epoch": 1.4284627092846272,
+      "grad_norm": 5.375,
+      "learning_rate": 2.0713652768201536e-06,
+      "loss": 1.60789089,
+      "memory(GiB)": 111.15,
+      "step": 56310,
+      "train_speed(iter/s)": 0.4472
+    },
+    {
+      "acc": 0.65497379,
+      "epoch": 1.4285895484525621,
+      "grad_norm": 6.59375,
+      "learning_rate": 2.0705154228813477e-06,
+      "loss": 1.61775513,
+      "memory(GiB)": 111.15,
+      "step": 56315,
+      "train_speed(iter/s)": 0.447222
+    },
+    {
+      "acc": 0.66225386,
+      "epoch": 1.4287163876204971,
+      "grad_norm": 4.96875,
+      "learning_rate": 2.0696656977943524e-06,
+      "loss": 1.54751701,
+      "memory(GiB)": 111.15,
+      "step": 56320,
+      "train_speed(iter/s)": 0.447242
+    },
+    {
+      "acc": 0.64495106,
+      "epoch": 1.4288432267884323,
+      "grad_norm": 5.21875,
+      "learning_rate": 2.068816101596543e-06,
+      "loss": 1.6476511,
+      "memory(GiB)": 111.15,
+      "step": 56325,
+      "train_speed(iter/s)": 0.447263
+    },
+    {
+      "acc": 0.65630407,
+      "epoch": 1.4289700659563673,
+      "grad_norm": 4.71875,
+      "learning_rate": 2.067966634325288e-06,
+      "loss": 1.59987946,
+      "memory(GiB)": 111.15,
+      "step": 56330,
+      "train_speed(iter/s)": 0.447284
+    },
+    {
+      "acc": 0.65740976,
+      "epoch": 1.4290969051243023,
+      "grad_norm": 5.84375,
+      "learning_rate": 2.0671172960179513e-06,
+      "loss": 1.59469872,
+      "memory(GiB)": 111.15,
+      "step": 56335,
+      "train_speed(iter/s)": 0.447305
+    },
+    {
+      "acc": 0.66053982,
+      "epoch": 1.4292237442922375,
+      "grad_norm": 4.90625,
+      "learning_rate": 2.06626808671189e-06,
+      "loss": 1.55951223,
+      "memory(GiB)": 111.15,
+      "step": 56340,
+      "train_speed(iter/s)": 0.447326
+    },
+    {
+      "acc": 0.65270319,
+      "epoch": 1.4293505834601725,
+      "grad_norm": 6.09375,
+      "learning_rate": 2.065419006444455e-06,
+      "loss": 1.62475777,
+      "memory(GiB)": 111.15,
+      "step": 56345,
+      "train_speed(iter/s)": 0.447348
+    },
+    {
+      "acc": 0.65622506,
+      "epoch": 1.4294774226281075,
+      "grad_norm": 5.3125,
+      "learning_rate": 2.0645700552529973e-06,
+      "loss": 1.61214867,
+      "memory(GiB)": 111.15,
+      "step": 56350,
+      "train_speed(iter/s)": 0.447369
+    },
+    {
+      "acc": 0.62975945,
+      "epoch": 1.4296042617960425,
+      "grad_norm": 5.03125,
+      "learning_rate": 2.063721233174853e-06,
+      "loss": 1.71917877,
+      "memory(GiB)": 111.15,
+      "step": 56355,
+      "train_speed(iter/s)": 0.44739
+    },
+    {
+      "acc": 0.66241837,
+      "epoch": 1.4297311009639777,
+      "grad_norm": 5.71875,
+      "learning_rate": 2.0628725402473574e-06,
+      "loss": 1.52194138,
+      "memory(GiB)": 111.15,
+      "step": 56360,
+      "train_speed(iter/s)": 0.447411
+    },
+    {
+      "acc": 0.65256386,
+      "epoch": 1.4298579401319127,
+      "grad_norm": 5.8125,
+      "learning_rate": 2.0620239765078404e-06,
+      "loss": 1.59550629,
+      "memory(GiB)": 111.15,
+      "step": 56365,
+      "train_speed(iter/s)": 0.447432
+    },
+    {
+      "acc": 0.64713469,
+      "epoch": 1.429984779299848,
+      "grad_norm": 5.15625,
+      "learning_rate": 2.0611755419936285e-06,
+      "loss": 1.62247086,
+      "memory(GiB)": 111.15,
+      "step": 56370,
+      "train_speed(iter/s)": 0.447453
+    },
+    {
+      "acc": 0.65388432,
+      "epoch": 1.430111618467783,
+      "grad_norm": 4.78125,
+      "learning_rate": 2.0603272367420357e-06,
+      "loss": 1.59977341,
+      "memory(GiB)": 111.15,
+      "step": 56375,
+      "train_speed(iter/s)": 0.447474
+    },
+    {
+      "acc": 0.65278945,
+      "epoch": 1.4302384576357179,
+      "grad_norm": 5.75,
+      "learning_rate": 2.0594790607903743e-06,
+      "loss": 1.60655613,
+      "memory(GiB)": 111.15,
+      "step": 56380,
+      "train_speed(iter/s)": 0.447495
+    },
+    {
+      "acc": 0.65640945,
+      "epoch": 1.4303652968036529,
+      "grad_norm": 4.625,
+      "learning_rate": 2.0586310141759534e-06,
+      "loss": 1.60628338,
+      "memory(GiB)": 111.15,
+      "step": 56385,
+      "train_speed(iter/s)": 0.447516
+    },
+    {
+      "acc": 0.64474239,
+      "epoch": 1.430492135971588,
+      "grad_norm": 5.5,
+      "learning_rate": 2.0577830969360753e-06,
+      "loss": 1.65681114,
+      "memory(GiB)": 111.15,
+      "step": 56390,
+      "train_speed(iter/s)": 0.447537
+    },
+    {
+      "acc": 0.66217451,
+      "epoch": 1.430618975139523,
+      "grad_norm": 5.75,
+      "learning_rate": 2.0569353091080304e-06,
+      "loss": 1.6247654,
+      "memory(GiB)": 111.15,
+      "step": 56395,
+      "train_speed(iter/s)": 0.447558
+    },
+    {
+      "acc": 0.65902281,
+      "epoch": 1.430745814307458,
+      "grad_norm": 5.46875,
+      "learning_rate": 2.056087650729109e-06,
+      "loss": 1.57480679,
+      "memory(GiB)": 111.15,
+      "step": 56400,
+      "train_speed(iter/s)": 0.447579
+    },
+    {
+      "epoch": 1.430745814307458,
+      "eval_acc": 0.6434276637992511,
+      "eval_loss": 1.6075377464294434,
+      "eval_runtime": 113.7677,
+      "eval_samples_per_second": 55.991,
+      "eval_steps_per_second": 27.996,
+      "step": 56400
+    },
+    {
+      "acc": 0.63944511,
+      "epoch": 1.4308726534753933,
+      "grad_norm": 5.125,
+      "learning_rate": 2.0552401218365975e-06,
+      "loss": 1.6833725,
+      "memory(GiB)": 111.15,
+      "step": 56405,
+      "train_speed(iter/s)": 0.44718
+    },
+    {
+      "acc": 0.64763603,
+      "epoch": 1.4309994926433283,
+      "grad_norm": 4.59375,
+      "learning_rate": 2.054392722467775e-06,
+      "loss": 1.59413548,
+      "memory(GiB)": 111.15,
+      "step": 56410,
+      "train_speed(iter/s)": 0.447201
+    },
+    {
+      "acc": 0.63542919,
+      "epoch": 1.4311263318112633,
+      "grad_norm": 5.15625,
+      "learning_rate": 2.0535454526599086e-06,
+      "loss": 1.72192993,
+      "memory(GiB)": 111.15,
+      "step": 56415,
+      "train_speed(iter/s)": 0.447222
+    },
+    {
+      "acc": 0.65711613,
+      "epoch": 1.4312531709791982,
+      "grad_norm": 5.8125,
+      "learning_rate": 2.0526983124502692e-06,
+      "loss": 1.55512476,
+      "memory(GiB)": 111.15,
+      "step": 56420,
+      "train_speed(iter/s)": 0.447243
+    },
+    {
+      "acc": 0.64058762,
+      "epoch": 1.4313800101471335,
+      "grad_norm": 6.15625,
+      "learning_rate": 2.051851301876117e-06,
+      "loss": 1.66548424,
+      "memory(GiB)": 111.15,
+      "step": 56425,
+      "train_speed(iter/s)": 0.447264
+    },
+    {
+      "acc": 0.64299226,
+      "epoch": 1.4315068493150684,
+      "grad_norm": 6.09375,
+      "learning_rate": 2.0510044209747078e-06,
+      "loss": 1.69187527,
+      "memory(GiB)": 111.15,
+      "step": 56430,
+      "train_speed(iter/s)": 0.447285
+    },
+    {
+      "acc": 0.64415483,
+      "epoch": 1.4316336884830037,
+      "grad_norm": 5.5,
+      "learning_rate": 2.05015766978329e-06,
+      "loss": 1.6315691,
+      "memory(GiB)": 111.15,
+      "step": 56435,
+      "train_speed(iter/s)": 0.447306
+    },
+    {
+      "acc": 0.64331279,
+      "epoch": 1.4317605276509386,
+      "grad_norm": 5.125,
+      "learning_rate": 2.049311048339108e-06,
+      "loss": 1.68607941,
+      "memory(GiB)": 111.15,
+      "step": 56440,
+      "train_speed(iter/s)": 0.447327
+    },
+    {
+      "acc": 0.64830732,
+      "epoch": 1.4318873668188736,
+      "grad_norm": 5.125,
+      "learning_rate": 2.0484645566793993e-06,
+      "loss": 1.67121162,
+      "memory(GiB)": 111.15,
+      "step": 56445,
+      "train_speed(iter/s)": 0.447348
+    },
+    {
+      "acc": 0.64098206,
+      "epoch": 1.4320142059868086,
+      "grad_norm": 5.90625,
+      "learning_rate": 2.0476181948413975e-06,
+      "loss": 1.66928539,
+      "memory(GiB)": 111.15,
+      "step": 56450,
+      "train_speed(iter/s)": 0.447369
+    },
+    {
+      "acc": 0.64654937,
+      "epoch": 1.4321410451547438,
+      "grad_norm": 5.75,
+      "learning_rate": 2.0467719628623293e-06,
+      "loss": 1.61688461,
+      "memory(GiB)": 111.15,
+      "step": 56455,
+      "train_speed(iter/s)": 0.44739
+    },
+    {
+      "acc": 0.65947962,
+      "epoch": 1.4322678843226788,
+      "grad_norm": 5.1875,
+      "learning_rate": 2.045925860779415e-06,
+      "loss": 1.56720285,
+      "memory(GiB)": 111.15,
+      "step": 56460,
+      "train_speed(iter/s)": 0.447411
+    },
+    {
+      "acc": 0.64383035,
+      "epoch": 1.432394723490614,
+      "grad_norm": 5.53125,
+      "learning_rate": 2.0450798886298707e-06,
+      "loss": 1.63727951,
+      "memory(GiB)": 111.15,
+      "step": 56465,
+      "train_speed(iter/s)": 0.447432
+    },
+    {
+      "acc": 0.65142817,
+      "epoch": 1.432521562658549,
+      "grad_norm": 5.09375,
+      "learning_rate": 2.044234046450905e-06,
+      "loss": 1.64156075,
+      "memory(GiB)": 111.15,
+      "step": 56470,
+      "train_speed(iter/s)": 0.447453
+    },
+    {
+      "acc": 0.65518799,
+      "epoch": 1.432648401826484,
+      "grad_norm": 5.15625,
+      "learning_rate": 2.0433883342797233e-06,
+      "loss": 1.56515579,
+      "memory(GiB)": 111.15,
+      "step": 56475,
+      "train_speed(iter/s)": 0.447474
+    },
+    {
+      "acc": 0.66218023,
+      "epoch": 1.432775240994419,
+      "grad_norm": 5.125,
+      "learning_rate": 2.042542752153522e-06,
+      "loss": 1.59656525,
+      "memory(GiB)": 111.15,
+      "step": 56480,
+      "train_speed(iter/s)": 0.447495
+    },
+    {
+      "acc": 0.65294275,
+      "epoch": 1.4329020801623542,
+      "grad_norm": 6.28125,
+      "learning_rate": 2.0416973001094953e-06,
+      "loss": 1.63570709,
+      "memory(GiB)": 111.15,
+      "step": 56485,
+      "train_speed(iter/s)": 0.447516
+    },
+    {
+      "acc": 0.6558785,
+      "epoch": 1.4330289193302892,
+      "grad_norm": 5.25,
+      "learning_rate": 2.0408519781848292e-06,
+      "loss": 1.61863956,
+      "memory(GiB)": 111.15,
+      "step": 56490,
+      "train_speed(iter/s)": 0.447537
+    },
+    {
+      "acc": 0.67041578,
+      "epoch": 1.4331557584982242,
+      "grad_norm": 4.53125,
+      "learning_rate": 2.0400067864167044e-06,
+      "loss": 1.54550133,
+      "memory(GiB)": 111.15,
+      "step": 56495,
+      "train_speed(iter/s)": 0.447558
+    },
+    {
+      "acc": 0.66338701,
+      "epoch": 1.4332825976661594,
+      "grad_norm": 5.40625,
+      "learning_rate": 2.0391617248422967e-06,
+      "loss": 1.58215618,
+      "memory(GiB)": 111.15,
+      "step": 56500,
+      "train_speed(iter/s)": 0.447579
+    },
+    {
+      "epoch": 1.4332825976661594,
+      "eval_acc": 0.6433959134837324,
+      "eval_loss": 1.607515811920166,
+      "eval_runtime": 113.4564,
+      "eval_samples_per_second": 56.145,
+      "eval_steps_per_second": 28.072,
+      "step": 56500
+    },
+    {
+      "acc": 0.64353447,
+      "epoch": 1.4334094368340944,
+      "grad_norm": 5.84375,
+      "learning_rate": 2.038316793498774e-06,
+      "loss": 1.66714821,
+      "memory(GiB)": 111.15,
+      "step": 56505,
+      "train_speed(iter/s)": 0.447181
+    },
+    {
+      "acc": 0.64771976,
+      "epoch": 1.4335362760020294,
+      "grad_norm": 6.84375,
+      "learning_rate": 2.037471992423305e-06,
+      "loss": 1.6101614,
+      "memory(GiB)": 111.15,
+      "step": 56510,
+      "train_speed(iter/s)": 0.447202
+    },
+    {
+      "acc": 0.63411345,
+      "epoch": 1.4336631151699644,
+      "grad_norm": 6.0,
+      "learning_rate": 2.036627321653043e-06,
+      "loss": 1.70233135,
+      "memory(GiB)": 111.15,
+      "step": 56515,
+      "train_speed(iter/s)": 0.447223
+    },
+    {
+      "acc": 0.63389907,
+      "epoch": 1.4337899543378996,
+      "grad_norm": 5.34375,
+      "learning_rate": 2.0357827812251403e-06,
+      "loss": 1.68496552,
+      "memory(GiB)": 111.15,
+      "step": 56520,
+      "train_speed(iter/s)": 0.447244
+    },
+    {
+      "acc": 0.65481272,
+      "epoch": 1.4339167935058346,
+      "grad_norm": 5.625,
+      "learning_rate": 2.0349383711767463e-06,
+      "loss": 1.64196815,
+      "memory(GiB)": 111.15,
+      "step": 56525,
+      "train_speed(iter/s)": 0.447265
+    },
+    {
+      "acc": 0.63592782,
+      "epoch": 1.4340436326737698,
+      "grad_norm": 5.4375,
+      "learning_rate": 2.0340940915450026e-06,
+      "loss": 1.61801834,
+      "memory(GiB)": 111.15,
+      "step": 56530,
+      "train_speed(iter/s)": 0.447286
+    },
+    {
+      "acc": 0.6396358,
+      "epoch": 1.4341704718417048,
+      "grad_norm": 5.46875,
+      "learning_rate": 2.033249942367041e-06,
+      "loss": 1.6550457,
+      "memory(GiB)": 111.15,
+      "step": 56535,
+      "train_speed(iter/s)": 0.447307
+    },
+    {
+      "acc": 0.65600352,
+      "epoch": 1.4342973110096398,
+      "grad_norm": 5.25,
+      "learning_rate": 2.032405923679991e-06,
+      "loss": 1.57881546,
+      "memory(GiB)": 111.15,
+      "step": 56540,
+      "train_speed(iter/s)": 0.447328
+    },
+    {
+      "acc": 0.64532666,
+      "epoch": 1.4344241501775747,
+      "grad_norm": 4.71875,
+      "learning_rate": 2.0315620355209792e-06,
+      "loss": 1.68657684,
+      "memory(GiB)": 111.15,
+      "step": 56545,
+      "train_speed(iter/s)": 0.447349
+    },
+    {
+      "acc": 0.64520202,
+      "epoch": 1.43455098934551,
+      "grad_norm": 7.28125,
+      "learning_rate": 2.030718277927124e-06,
+      "loss": 1.63995609,
+      "memory(GiB)": 111.15,
+      "step": 56550,
+      "train_speed(iter/s)": 0.44737
+    },
+    {
+      "acc": 0.66766462,
+      "epoch": 1.434677828513445,
+      "grad_norm": 5.0,
+      "learning_rate": 2.0298746509355326e-06,
+      "loss": 1.56143131,
+      "memory(GiB)": 111.15,
+      "step": 56555,
+      "train_speed(iter/s)": 0.447391
+    },
+    {
+      "acc": 0.6582552,
+      "epoch": 1.43480466768138,
+      "grad_norm": 4.65625,
+      "learning_rate": 2.0290311545833166e-06,
+      "loss": 1.60119686,
+      "memory(GiB)": 111.15,
+      "step": 56560,
+      "train_speed(iter/s)": 0.447412
+    },
+    {
+      "acc": 0.66940804,
+      "epoch": 1.4349315068493151,
+      "grad_norm": 4.96875,
+      "learning_rate": 2.028187788907574e-06,
+      "loss": 1.63571739,
+      "memory(GiB)": 111.15,
+      "step": 56565,
+      "train_speed(iter/s)": 0.447433
+    },
+    {
+      "acc": 0.66137009,
+      "epoch": 1.4350583460172501,
+      "grad_norm": 4.34375,
+      "learning_rate": 2.027344553945403e-06,
+      "loss": 1.6387886,
+      "memory(GiB)": 111.15,
+      "step": 56570,
+      "train_speed(iter/s)": 0.447454
+    },
+    {
+      "acc": 0.65407505,
+      "epoch": 1.4351851851851851,
+      "grad_norm": 4.9375,
+      "learning_rate": 2.0265014497338868e-06,
+      "loss": 1.55361671,
+      "memory(GiB)": 111.15,
+      "step": 56575,
+      "train_speed(iter/s)": 0.447475
+    },
+    {
+      "acc": 0.63815889,
+      "epoch": 1.43531202435312,
+      "grad_norm": 6.15625,
+      "learning_rate": 2.0256584763101145e-06,
+      "loss": 1.64658012,
+      "memory(GiB)": 111.15,
+      "step": 56580,
+      "train_speed(iter/s)": 0.447496
+    },
+    {
+      "acc": 0.64419231,
+      "epoch": 1.4354388635210553,
+      "grad_norm": 5.15625,
+      "learning_rate": 2.024815633711162e-06,
+      "loss": 1.66254826,
+      "memory(GiB)": 111.15,
+      "step": 56585,
+      "train_speed(iter/s)": 0.447517
+    },
+    {
+      "acc": 0.65264087,
+      "epoch": 1.4355657026889903,
+      "grad_norm": 5.03125,
+      "learning_rate": 2.0239729219741005e-06,
+      "loss": 1.61051216,
+      "memory(GiB)": 111.15,
+      "step": 56590,
+      "train_speed(iter/s)": 0.447538
+    },
+    {
+      "acc": 0.65684943,
+      "epoch": 1.4356925418569255,
+      "grad_norm": 5.6875,
+      "learning_rate": 2.0231303411359975e-06,
+      "loss": 1.58785858,
+      "memory(GiB)": 111.15,
+      "step": 56595,
+      "train_speed(iter/s)": 0.447558
+    },
+    {
+      "acc": 0.64535484,
+      "epoch": 1.4358193810248605,
+      "grad_norm": 6.5,
+      "learning_rate": 2.0222878912339127e-06,
+      "loss": 1.65299473,
+      "memory(GiB)": 111.15,
+      "step": 56600,
+      "train_speed(iter/s)": 0.44758
+    },
+    {
+      "epoch": 1.4358193810248605,
+      "eval_acc": 0.6434322592396552,
+      "eval_loss": 1.6075458526611328,
+      "eval_runtime": 114.3673,
+      "eval_samples_per_second": 55.698,
+      "eval_steps_per_second": 27.849,
+      "step": 56600
+    },
+    {
+      "acc": 0.65809593,
+      "epoch": 1.4359462201927955,
+      "grad_norm": 5.28125,
+      "learning_rate": 2.021445572304901e-06,
+      "loss": 1.62986164,
+      "memory(GiB)": 111.15,
+      "step": 56605,
+      "train_speed(iter/s)": 0.44718
+    },
+    {
+      "acc": 0.65908947,
+      "epoch": 1.4360730593607305,
+      "grad_norm": 6.21875,
+      "learning_rate": 2.0206033843860113e-06,
+      "loss": 1.58276501,
+      "memory(GiB)": 111.15,
+      "step": 56610,
+      "train_speed(iter/s)": 0.4472
+    },
+    {
+      "acc": 0.65504947,
+      "epoch": 1.4361998985286657,
+      "grad_norm": 5.09375,
+      "learning_rate": 2.0197613275142868e-06,
+      "loss": 1.6228138,
+      "memory(GiB)": 111.15,
+      "step": 56615,
+      "train_speed(iter/s)": 0.447221
+    },
+    {
+      "acc": 0.65788169,
+      "epoch": 1.4363267376966007,
+      "grad_norm": 5.28125,
+      "learning_rate": 2.018919401726765e-06,
+      "loss": 1.59430122,
+      "memory(GiB)": 111.15,
+      "step": 56620,
+      "train_speed(iter/s)": 0.447242
+    },
+    {
+      "acc": 0.6511898,
+      "epoch": 1.436453576864536,
+      "grad_norm": 4.65625,
+      "learning_rate": 2.0180776070604773e-06,
+      "loss": 1.63236427,
+      "memory(GiB)": 111.15,
+      "step": 56625,
+      "train_speed(iter/s)": 0.447263
+    },
+    {
+      "acc": 0.66122479,
+      "epoch": 1.4365804160324709,
+      "grad_norm": 5.28125,
+      "learning_rate": 2.0172359435524497e-06,
+      "loss": 1.65969696,
+      "memory(GiB)": 111.15,
+      "step": 56630,
+      "train_speed(iter/s)": 0.447284
+    },
+    {
+      "acc": 0.65232987,
+      "epoch": 1.4367072552004059,
+      "grad_norm": 6.40625,
+      "learning_rate": 2.0163944112397027e-06,
+      "loss": 1.58979216,
+      "memory(GiB)": 111.15,
+      "step": 56635,
+      "train_speed(iter/s)": 0.447305
+    },
+    {
+      "acc": 0.64494572,
+      "epoch": 1.4368340943683409,
+      "grad_norm": 4.9375,
+      "learning_rate": 2.01555301015925e-06,
+      "loss": 1.65109253,
+      "memory(GiB)": 111.15,
+      "step": 56640,
+      "train_speed(iter/s)": 0.447326
+    },
+    {
+      "acc": 0.64573798,
+      "epoch": 1.436960933536276,
+      "grad_norm": 4.625,
+      "learning_rate": 2.0147117403480994e-06,
+      "loss": 1.65340958,
+      "memory(GiB)": 111.15,
+      "step": 56645,
+      "train_speed(iter/s)": 0.447347
+    },
+    {
+      "acc": 0.65003667,
+      "epoch": 1.437087772704211,
+      "grad_norm": 4.96875,
+      "learning_rate": 2.0138706018432576e-06,
+      "loss": 1.57567253,
+      "memory(GiB)": 111.15,
+      "step": 56650,
+      "train_speed(iter/s)": 0.447368
+    },
+    {
+      "acc": 0.64317465,
+      "epoch": 1.437214611872146,
+      "grad_norm": 4.28125,
+      "learning_rate": 2.0130295946817176e-06,
+      "loss": 1.62601471,
+      "memory(GiB)": 111.15,
+      "step": 56655,
+      "train_speed(iter/s)": 0.447389
+    },
+    {
+      "acc": 0.65970554,
+      "epoch": 1.4373414510400813,
+      "grad_norm": 4.96875,
+      "learning_rate": 2.0121887189004713e-06,
+      "loss": 1.58519096,
+      "memory(GiB)": 111.15,
+      "step": 56660,
+      "train_speed(iter/s)": 0.44741
+    },
+    {
+      "acc": 0.65759144,
+      "epoch": 1.4374682902080163,
+      "grad_norm": 4.71875,
+      "learning_rate": 2.0113479745365033e-06,
+      "loss": 1.56526403,
+      "memory(GiB)": 111.15,
+      "step": 56665,
+      "train_speed(iter/s)": 0.44743
+    },
+    {
+      "acc": 0.64424639,
+      "epoch": 1.4375951293759512,
+      "grad_norm": 5.5625,
+      "learning_rate": 2.0105073616267984e-06,
+      "loss": 1.67965317,
+      "memory(GiB)": 111.15,
+      "step": 56670,
+      "train_speed(iter/s)": 0.447451
+    },
+    {
+      "acc": 0.65694513,
+      "epoch": 1.4377219685438862,
+      "grad_norm": 6.21875,
+      "learning_rate": 2.0096668802083254e-06,
+      "loss": 1.67875824,
+      "memory(GiB)": 111.15,
+      "step": 56675,
+      "train_speed(iter/s)": 0.447472
+    },
+    {
+      "acc": 0.65654688,
+      "epoch": 1.4378488077118214,
+      "grad_norm": 5.125,
+      "learning_rate": 2.0088265303180516e-06,
+      "loss": 1.59722958,
+      "memory(GiB)": 111.15,
+      "step": 56680,
+      "train_speed(iter/s)": 0.447493
+    },
+    {
+      "acc": 0.64735746,
+      "epoch": 1.4379756468797564,
+      "grad_norm": 5.84375,
+      "learning_rate": 2.0079863119929434e-06,
+      "loss": 1.63470154,
+      "memory(GiB)": 111.15,
+      "step": 56685,
+      "train_speed(iter/s)": 0.447514
+    },
+    {
+      "acc": 0.64923768,
+      "epoch": 1.4381024860476916,
+      "grad_norm": 5.0,
+      "learning_rate": 2.0071462252699575e-06,
+      "loss": 1.68177719,
+      "memory(GiB)": 111.15,
+      "step": 56690,
+      "train_speed(iter/s)": 0.447535
+    },
+    {
+      "acc": 0.64351025,
+      "epoch": 1.4382293252156266,
+      "grad_norm": 5.125,
+      "learning_rate": 2.006306270186039e-06,
+      "loss": 1.59158058,
+      "memory(GiB)": 111.15,
+      "step": 56695,
+      "train_speed(iter/s)": 0.447556
+    },
+    {
+      "acc": 0.6475174,
+      "epoch": 1.4383561643835616,
+      "grad_norm": 4.9375,
+      "learning_rate": 2.005466446778139e-06,
+      "loss": 1.62039852,
+      "memory(GiB)": 111.15,
+      "step": 56700,
+      "train_speed(iter/s)": 0.447577
+    },
+    {
+      "epoch": 1.4383561643835616,
+      "eval_acc": 0.6434063576664688,
+      "eval_loss": 1.6075323820114136,
+      "eval_runtime": 115.3513,
+      "eval_samples_per_second": 55.223,
+      "eval_steps_per_second": 27.611,
+      "step": 56700
+    },
+    {
+      "acc": 0.64056325,
+      "epoch": 1.4384830035514966,
+      "grad_norm": 5.375,
+      "learning_rate": 2.0046267550831935e-06,
+      "loss": 1.70133648,
+      "memory(GiB)": 111.15,
+      "step": 56705,
+      "train_speed(iter/s)": 0.447174
+    },
+    {
+      "acc": 0.65311384,
+      "epoch": 1.4386098427194318,
+      "grad_norm": 5.15625,
+      "learning_rate": 2.003787195138139e-06,
+      "loss": 1.64374523,
+      "memory(GiB)": 111.15,
+      "step": 56710,
+      "train_speed(iter/s)": 0.447195
+    },
+    {
+      "acc": 0.6494544,
+      "epoch": 1.4387366818873668,
+      "grad_norm": 5.3125,
+      "learning_rate": 2.002947766979897e-06,
+      "loss": 1.64897461,
+      "memory(GiB)": 111.15,
+      "step": 56715,
+      "train_speed(iter/s)": 0.447215
+    },
+    {
+      "acc": 0.65482483,
+      "epoch": 1.4388635210553018,
+      "grad_norm": 5.03125,
+      "learning_rate": 2.0021084706453945e-06,
+      "loss": 1.58454914,
+      "memory(GiB)": 111.15,
+      "step": 56720,
+      "train_speed(iter/s)": 0.447236
+    },
+    {
+      "acc": 0.64432235,
+      "epoch": 1.438990360223237,
+      "grad_norm": 4.90625,
+      "learning_rate": 2.0012693061715467e-06,
+      "loss": 1.59713697,
+      "memory(GiB)": 111.15,
+      "step": 56725,
+      "train_speed(iter/s)": 0.447257
+    },
+    {
+      "acc": 0.66688561,
+      "epoch": 1.439117199391172,
+      "grad_norm": 5.5625,
+      "learning_rate": 2.000430273595263e-06,
+      "loss": 1.56731024,
+      "memory(GiB)": 111.15,
+      "step": 56730,
+      "train_speed(iter/s)": 0.447278
+    },
+    {
+      "acc": 0.63814063,
+      "epoch": 1.439244038559107,
+      "grad_norm": 5.84375,
+      "learning_rate": 1.9995913729534477e-06,
+      "loss": 1.6311018,
+      "memory(GiB)": 111.15,
+      "step": 56735,
+      "train_speed(iter/s)": 0.447298
+    },
+    {
+      "acc": 0.6404705,
+      "epoch": 1.439370877727042,
+      "grad_norm": 4.6875,
+      "learning_rate": 1.9987526042830003e-06,
+      "loss": 1.65270348,
+      "memory(GiB)": 111.15,
+      "step": 56740,
+      "train_speed(iter/s)": 0.447319
+    },
+    {
+      "acc": 0.65910568,
+      "epoch": 1.4394977168949772,
+      "grad_norm": 4.46875,
+      "learning_rate": 1.9979139676208124e-06,
+      "loss": 1.59200039,
+      "memory(GiB)": 111.15,
+      "step": 56745,
+      "train_speed(iter/s)": 0.44734
+    },
+    {
+      "acc": 0.64856091,
+      "epoch": 1.4396245560629122,
+      "grad_norm": 5.96875,
+      "learning_rate": 1.9970754630037718e-06,
+      "loss": 1.60078926,
+      "memory(GiB)": 111.15,
+      "step": 56750,
+      "train_speed(iter/s)": 0.447361
+    },
+    {
+      "acc": 0.6597373,
+      "epoch": 1.4397513952308474,
+      "grad_norm": 4.9375,
+      "learning_rate": 1.9962370904687596e-06,
+      "loss": 1.55937986,
+      "memory(GiB)": 111.15,
+      "step": 56755,
+      "train_speed(iter/s)": 0.447382
+    },
+    {
+      "acc": 0.6426609,
+      "epoch": 1.4398782343987824,
+      "grad_norm": 6.90625,
+      "learning_rate": 1.9953988500526506e-06,
+      "loss": 1.68455696,
+      "memory(GiB)": 111.15,
+      "step": 56760,
+      "train_speed(iter/s)": 0.447402
+    },
+    {
+      "acc": 0.65446444,
+      "epoch": 1.4400050735667174,
+      "grad_norm": 5.09375,
+      "learning_rate": 1.994560741792315e-06,
+      "loss": 1.60796909,
+      "memory(GiB)": 111.15,
+      "step": 56765,
+      "train_speed(iter/s)": 0.447423
+    },
+    {
+      "acc": 0.65525913,
+      "epoch": 1.4401319127346524,
+      "grad_norm": 5.5,
+      "learning_rate": 1.993722765724616e-06,
+      "loss": 1.62190437,
+      "memory(GiB)": 111.15,
+      "step": 56770,
+      "train_speed(iter/s)": 0.447444
+    },
+    {
+      "acc": 0.64828057,
+      "epoch": 1.4402587519025876,
+      "grad_norm": 5.5,
+      "learning_rate": 1.992884921886412e-06,
+      "loss": 1.64701996,
+      "memory(GiB)": 111.15,
+      "step": 56775,
+      "train_speed(iter/s)": 0.447464
+    },
+    {
+      "acc": 0.64642334,
+      "epoch": 1.4403855910705226,
+      "grad_norm": 5.40625,
+      "learning_rate": 1.9920472103145555e-06,
+      "loss": 1.66976357,
+      "memory(GiB)": 111.15,
+      "step": 56780,
+      "train_speed(iter/s)": 0.447485
+    },
+    {
+      "acc": 0.64859357,
+      "epoch": 1.4405124302384578,
+      "grad_norm": 4.71875,
+      "learning_rate": 1.99120963104589e-06,
+      "loss": 1.6243969,
+      "memory(GiB)": 111.15,
+      "step": 56785,
+      "train_speed(iter/s)": 0.447506
+    },
+    {
+      "acc": 0.64745483,
+      "epoch": 1.4406392694063928,
+      "grad_norm": 6.09375,
+      "learning_rate": 1.990372184117262e-06,
+      "loss": 1.66411285,
+      "memory(GiB)": 111.15,
+      "step": 56790,
+      "train_speed(iter/s)": 0.447527
+    },
+    {
+      "acc": 0.64378219,
+      "epoch": 1.4407661085743277,
+      "grad_norm": 5.65625,
+      "learning_rate": 1.9895348695655e-06,
+      "loss": 1.62332611,
+      "memory(GiB)": 111.15,
+      "step": 56795,
+      "train_speed(iter/s)": 0.447548
+    },
+    {
+      "acc": 0.66731977,
+      "epoch": 1.4408929477422627,
+      "grad_norm": 5.09375,
+      "learning_rate": 1.9886976874274356e-06,
+      "loss": 1.53933744,
+      "memory(GiB)": 111.15,
+      "step": 56800,
+      "train_speed(iter/s)": 0.447568
+    },
+    {
+      "epoch": 1.4408929477422627,
+      "eval_acc": 0.643369176375927,
+      "eval_loss": 1.6075506210327148,
+      "eval_runtime": 113.5016,
+      "eval_samples_per_second": 56.123,
+      "eval_steps_per_second": 28.061,
+      "step": 56800
+    },
+    {
+      "acc": 0.66198969,
+      "epoch": 1.441019786910198,
+      "grad_norm": 5.125,
+      "learning_rate": 1.9878606377398895e-06,
+      "loss": 1.52272739,
+      "memory(GiB)": 111.15,
+      "step": 56805,
+      "train_speed(iter/s)": 0.447173
+    },
+    {
+      "acc": 0.65528135,
+      "epoch": 1.441146626078133,
+      "grad_norm": 4.09375,
+      "learning_rate": 1.9870237205396844e-06,
+      "loss": 1.6083889,
+      "memory(GiB)": 111.15,
+      "step": 56810,
+      "train_speed(iter/s)": 0.447194
+    },
+    {
+      "acc": 0.64702649,
+      "epoch": 1.441273465246068,
+      "grad_norm": 5.40625,
+      "learning_rate": 1.986186935863626e-06,
+      "loss": 1.66459332,
+      "memory(GiB)": 111.15,
+      "step": 56815,
+      "train_speed(iter/s)": 0.447215
+    },
+    {
+      "acc": 0.6456769,
+      "epoch": 1.4414003044140031,
+      "grad_norm": 5.15625,
+      "learning_rate": 1.9853502837485207e-06,
+      "loss": 1.63061008,
+      "memory(GiB)": 111.15,
+      "step": 56820,
+      "train_speed(iter/s)": 0.447236
+    },
+    {
+      "acc": 0.64796247,
+      "epoch": 1.4415271435819381,
+      "grad_norm": 5.28125,
+      "learning_rate": 1.9845137642311707e-06,
+      "loss": 1.61414566,
+      "memory(GiB)": 111.15,
+      "step": 56825,
+      "train_speed(iter/s)": 0.447256
+    },
+    {
+      "acc": 0.6600975,
+      "epoch": 1.441653982749873,
+      "grad_norm": 5.71875,
+      "learning_rate": 1.9836773773483704e-06,
+      "loss": 1.59804344,
+      "memory(GiB)": 111.15,
+      "step": 56830,
+      "train_speed(iter/s)": 0.447277
+    },
+    {
+      "acc": 0.63944416,
+      "epoch": 1.441780821917808,
+      "grad_norm": 5.40625,
+      "learning_rate": 1.982841123136904e-06,
+      "loss": 1.66620121,
+      "memory(GiB)": 111.15,
+      "step": 56835,
+      "train_speed(iter/s)": 0.447298
+    },
+    {
+      "acc": 0.64071178,
+      "epoch": 1.4419076610857433,
+      "grad_norm": 5.15625,
+      "learning_rate": 1.982005001633554e-06,
+      "loss": 1.64978695,
+      "memory(GiB)": 111.15,
+      "step": 56840,
+      "train_speed(iter/s)": 0.447319
+    },
+    {
+      "acc": 0.63474436,
+      "epoch": 1.4420345002536783,
+      "grad_norm": 5.0625,
+      "learning_rate": 1.9811690128751002e-06,
+      "loss": 1.75585556,
+      "memory(GiB)": 111.15,
+      "step": 56845,
+      "train_speed(iter/s)": 0.44734
+    },
+    {
+      "acc": 0.64836197,
+      "epoch": 1.4421613394216135,
+      "grad_norm": 5.0625,
+      "learning_rate": 1.980333156898313e-06,
+      "loss": 1.59285355,
+      "memory(GiB)": 111.15,
+      "step": 56850,
+      "train_speed(iter/s)": 0.447361
+    },
+    {
+      "acc": 0.63888187,
+      "epoch": 1.4422881785895485,
+      "grad_norm": 5.0,
+      "learning_rate": 1.979497433739952e-06,
+      "loss": 1.67020111,
+      "memory(GiB)": 111.15,
+      "step": 56855,
+      "train_speed(iter/s)": 0.447382
+    },
+    {
+      "acc": 0.65479908,
+      "epoch": 1.4424150177574835,
+      "grad_norm": 5.65625,
+      "learning_rate": 1.9786618434367814e-06,
+      "loss": 1.57785673,
+      "memory(GiB)": 111.15,
+      "step": 56860,
+      "train_speed(iter/s)": 0.447403
+    },
+    {
+      "acc": 0.65248652,
+      "epoch": 1.4425418569254185,
+      "grad_norm": 5.84375,
+      "learning_rate": 1.977826386025552e-06,
+      "loss": 1.60627861,
+      "memory(GiB)": 111.15,
+      "step": 56865,
+      "train_speed(iter/s)": 0.447424
+    },
+    {
+      "acc": 0.6481039,
+      "epoch": 1.4426686960933537,
+      "grad_norm": 5.125,
+      "learning_rate": 1.976991061543011e-06,
+      "loss": 1.61572533,
+      "memory(GiB)": 111.15,
+      "step": 56870,
+      "train_speed(iter/s)": 0.447445
+    },
+    {
+      "acc": 0.64054351,
+      "epoch": 1.4427955352612887,
+      "grad_norm": 5.65625,
+      "learning_rate": 1.9761558700259e-06,
+      "loss": 1.651408,
+      "memory(GiB)": 111.15,
+      "step": 56875,
+      "train_speed(iter/s)": 0.447466
+    },
+    {
+      "acc": 0.65256906,
+      "epoch": 1.4429223744292237,
+      "grad_norm": 5.84375,
+      "learning_rate": 1.9753208115109546e-06,
+      "loss": 1.60000076,
+      "memory(GiB)": 111.15,
+      "step": 56880,
+      "train_speed(iter/s)": 0.447487
+    },
+    {
+      "acc": 0.64867039,
+      "epoch": 1.4430492135971589,
+      "grad_norm": 5.4375,
+      "learning_rate": 1.9744858860349043e-06,
+      "loss": 1.63248177,
+      "memory(GiB)": 111.15,
+      "step": 56885,
+      "train_speed(iter/s)": 0.447508
+    },
+    {
+      "acc": 0.65133514,
+      "epoch": 1.4431760527650939,
+      "grad_norm": 5.0625,
+      "learning_rate": 1.9736510936344723e-06,
+      "loss": 1.63177567,
+      "memory(GiB)": 111.15,
+      "step": 56890,
+      "train_speed(iter/s)": 0.447528
+    },
+    {
+      "acc": 0.63836756,
+      "epoch": 1.4433028919330289,
+      "grad_norm": 5.375,
+      "learning_rate": 1.9728164343463764e-06,
+      "loss": 1.67910004,
+      "memory(GiB)": 111.15,
+      "step": 56895,
+      "train_speed(iter/s)": 0.44755
+    },
+    {
+      "acc": 0.67412658,
+      "epoch": 1.4434297311009638,
+      "grad_norm": 6.59375,
+      "learning_rate": 1.97198190820733e-06,
+      "loss": 1.59129467,
+      "memory(GiB)": 111.15,
+      "step": 56900,
+      "train_speed(iter/s)": 0.44757
+    },
+    {
+      "epoch": 1.4434297311009638,
+      "eval_acc": 0.6434013444587553,
+      "eval_loss": 1.6075855493545532,
+      "eval_runtime": 113.989,
+      "eval_samples_per_second": 55.883,
+      "eval_steps_per_second": 27.941,
+      "step": 56900
+    },
+    {
+      "acc": 0.64020996,
+      "epoch": 1.443556570268899,
+      "grad_norm": 4.59375,
+      "learning_rate": 1.9711475152540376e-06,
+      "loss": 1.67322884,
+      "memory(GiB)": 111.15,
+      "step": 56905,
+      "train_speed(iter/s)": 0.447174
+    },
+    {
+      "acc": 0.64844127,
+      "epoch": 1.443683409436834,
+      "grad_norm": 5.25,
+      "learning_rate": 1.9703132555232007e-06,
+      "loss": 1.68262291,
+      "memory(GiB)": 111.15,
+      "step": 56910,
+      "train_speed(iter/s)": 0.447195
+    },
+    {
+      "acc": 0.66647205,
+      "epoch": 1.4438102486047693,
+      "grad_norm": 5.28125,
+      "learning_rate": 1.9694791290515135e-06,
+      "loss": 1.58567629,
+      "memory(GiB)": 111.15,
+      "step": 56915,
+      "train_speed(iter/s)": 0.447215
+    },
+    {
+      "acc": 0.65324631,
+      "epoch": 1.4439370877727042,
+      "grad_norm": 5.75,
+      "learning_rate": 1.968645135875665e-06,
+      "loss": 1.65529823,
+      "memory(GiB)": 111.15,
+      "step": 56920,
+      "train_speed(iter/s)": 0.447236
+    },
+    {
+      "acc": 0.64236403,
+      "epoch": 1.4440639269406392,
+      "grad_norm": 5.0625,
+      "learning_rate": 1.967811276032335e-06,
+      "loss": 1.61119099,
+      "memory(GiB)": 111.15,
+      "step": 56925,
+      "train_speed(iter/s)": 0.447257
+    },
+    {
+      "acc": 0.64524031,
+      "epoch": 1.4441907661085742,
+      "grad_norm": 5.34375,
+      "learning_rate": 1.966977549558206e-06,
+      "loss": 1.65274162,
+      "memory(GiB)": 111.15,
+      "step": 56930,
+      "train_speed(iter/s)": 0.447278
+    },
+    {
+      "acc": 0.66571665,
+      "epoch": 1.4443176052765094,
+      "grad_norm": 4.65625,
+      "learning_rate": 1.966143956489945e-06,
+      "loss": 1.59788532,
+      "memory(GiB)": 111.15,
+      "step": 56935,
+      "train_speed(iter/s)": 0.447298
+    },
+    {
+      "acc": 0.66842146,
+      "epoch": 1.4444444444444444,
+      "grad_norm": 5.0625,
+      "learning_rate": 1.965310496864217e-06,
+      "loss": 1.62504044,
+      "memory(GiB)": 111.15,
+      "step": 56940,
+      "train_speed(iter/s)": 0.447319
+    },
+    {
+      "acc": 0.66158938,
+      "epoch": 1.4445712836123796,
+      "grad_norm": 5.78125,
+      "learning_rate": 1.9644771707176813e-06,
+      "loss": 1.59354334,
+      "memory(GiB)": 111.15,
+      "step": 56945,
+      "train_speed(iter/s)": 0.44734
+    },
+    {
+      "acc": 0.64075575,
+      "epoch": 1.4446981227803146,
+      "grad_norm": 4.59375,
+      "learning_rate": 1.963643978086996e-06,
+      "loss": 1.61149273,
+      "memory(GiB)": 111.15,
+      "step": 56950,
+      "train_speed(iter/s)": 0.447361
+    },
+    {
+      "acc": 0.65259781,
+      "epoch": 1.4448249619482496,
+      "grad_norm": 5.71875,
+      "learning_rate": 1.9628109190088023e-06,
+      "loss": 1.57842932,
+      "memory(GiB)": 111.15,
+      "step": 56955,
+      "train_speed(iter/s)": 0.447382
+    },
+    {
+      "acc": 0.64971294,
+      "epoch": 1.4449518011161846,
+      "grad_norm": 6.125,
+      "learning_rate": 1.961977993519743e-06,
+      "loss": 1.66366444,
+      "memory(GiB)": 111.15,
+      "step": 56960,
+      "train_speed(iter/s)": 0.447403
+    },
+    {
+      "acc": 0.65363889,
+      "epoch": 1.4450786402841198,
+      "grad_norm": 5.1875,
+      "learning_rate": 1.9611452016564574e-06,
+      "loss": 1.56871452,
+      "memory(GiB)": 111.15,
+      "step": 56965,
+      "train_speed(iter/s)": 0.447424
+    },
+    {
+      "acc": 0.64530449,
+      "epoch": 1.4452054794520548,
+      "grad_norm": 5.21875,
+      "learning_rate": 1.960312543455575e-06,
+      "loss": 1.66209736,
+      "memory(GiB)": 111.15,
+      "step": 56970,
+      "train_speed(iter/s)": 0.447444
+    },
+    {
+      "acc": 0.65417342,
+      "epoch": 1.4453323186199898,
+      "grad_norm": 5.59375,
+      "learning_rate": 1.959480018953716e-06,
+      "loss": 1.63293495,
+      "memory(GiB)": 111.15,
+      "step": 56975,
+      "train_speed(iter/s)": 0.447465
+    },
+    {
+      "acc": 0.62637539,
+      "epoch": 1.445459157787925,
+      "grad_norm": 4.0625,
+      "learning_rate": 1.9586476281874994e-06,
+      "loss": 1.67549324,
+      "memory(GiB)": 111.15,
+      "step": 56980,
+      "train_speed(iter/s)": 0.447486
+    },
+    {
+      "acc": 0.63939805,
+      "epoch": 1.44558599695586,
+      "grad_norm": 6.40625,
+      "learning_rate": 1.9578153711935403e-06,
+      "loss": 1.64371605,
+      "memory(GiB)": 111.15,
+      "step": 56985,
+      "train_speed(iter/s)": 0.447507
+    },
+    {
+      "acc": 0.63728876,
+      "epoch": 1.445712836123795,
+      "grad_norm": 6.125,
+      "learning_rate": 1.9569832480084456e-06,
+      "loss": 1.68571625,
+      "memory(GiB)": 111.15,
+      "step": 56990,
+      "train_speed(iter/s)": 0.447528
+    },
+    {
+      "acc": 0.64277649,
+      "epoch": 1.44583967529173,
+      "grad_norm": 7.3125,
+      "learning_rate": 1.9561512586688096e-06,
+      "loss": 1.68007393,
+      "memory(GiB)": 111.15,
+      "step": 56995,
+      "train_speed(iter/s)": 0.447549
+    },
+    {
+      "acc": 0.64973354,
+      "epoch": 1.4459665144596652,
+      "grad_norm": 5.5625,
+      "learning_rate": 1.9553194032112334e-06,
+      "loss": 1.59950418,
+      "memory(GiB)": 111.15,
+      "step": 57000,
+      "train_speed(iter/s)": 0.44757
+    },
+    {
+      "epoch": 1.4459665144596652,
+      "eval_acc": 0.6433461991739069,
+      "eval_loss": 1.6074669361114502,
+      "eval_runtime": 113.8421,
+      "eval_samples_per_second": 55.955,
+      "eval_steps_per_second": 27.977,
+      "step": 57000
+    },
+    {
+      "acc": 0.65603008,
+      "epoch": 1.4460933536276002,
+      "grad_norm": 5.84375,
+      "learning_rate": 1.954487681672303e-06,
+      "loss": 1.63647251,
+      "memory(GiB)": 111.15,
+      "step": 57005,
+      "train_speed(iter/s)": 0.447174
+    },
+    {
+      "acc": 0.66027069,
+      "epoch": 1.4462201927955354,
+      "grad_norm": 7.1875,
+      "learning_rate": 1.9536560940886033e-06,
+      "loss": 1.58417358,
+      "memory(GiB)": 111.15,
+      "step": 57010,
+      "train_speed(iter/s)": 0.447195
+    },
+    {
+      "acc": 0.63318644,
+      "epoch": 1.4463470319634704,
+      "grad_norm": 5.3125,
+      "learning_rate": 1.9528246404967067e-06,
+      "loss": 1.70260258,
+      "memory(GiB)": 111.15,
+      "step": 57015,
+      "train_speed(iter/s)": 0.447216
+    },
+    {
+      "acc": 0.65190401,
+      "epoch": 1.4464738711314054,
+      "grad_norm": 5.78125,
+      "learning_rate": 1.951993320933188e-06,
+      "loss": 1.6621357,
+      "memory(GiB)": 111.15,
+      "step": 57020,
+      "train_speed(iter/s)": 0.447237
+    },
+    {
+      "acc": 0.64989109,
+      "epoch": 1.4466007102993403,
+      "grad_norm": 6.28125,
+      "learning_rate": 1.951162135434612e-06,
+      "loss": 1.70973511,
+      "memory(GiB)": 111.15,
+      "step": 57025,
+      "train_speed(iter/s)": 0.447257
+    },
+    {
+      "acc": 0.65904312,
+      "epoch": 1.4467275494672756,
+      "grad_norm": 5.3125,
+      "learning_rate": 1.9503310840375374e-06,
+      "loss": 1.63295383,
+      "memory(GiB)": 111.15,
+      "step": 57030,
+      "train_speed(iter/s)": 0.447278
+    },
+    {
+      "acc": 0.6522481,
+      "epoch": 1.4468543886352105,
+      "grad_norm": 5.9375,
+      "learning_rate": 1.949500166778517e-06,
+      "loss": 1.69368668,
+      "memory(GiB)": 111.15,
+      "step": 57035,
+      "train_speed(iter/s)": 0.447299
+    },
+    {
+      "acc": 0.64824867,
+      "epoch": 1.4469812278031455,
+      "grad_norm": 5.34375,
+      "learning_rate": 1.948669383694099e-06,
+      "loss": 1.62688751,
+      "memory(GiB)": 111.15,
+      "step": 57040,
+      "train_speed(iter/s)": 0.44732
+    },
+    {
+      "acc": 0.65446587,
+      "epoch": 1.4471080669710807,
+      "grad_norm": 5.09375,
+      "learning_rate": 1.947838734820825e-06,
+      "loss": 1.59561558,
+      "memory(GiB)": 111.15,
+      "step": 57045,
+      "train_speed(iter/s)": 0.447341
+    },
+    {
+      "acc": 0.65527697,
+      "epoch": 1.4472349061390157,
+      "grad_norm": 5.6875,
+      "learning_rate": 1.94700822019523e-06,
+      "loss": 1.59206133,
+      "memory(GiB)": 111.15,
+      "step": 57050,
+      "train_speed(iter/s)": 0.447362
+    },
+    {
+      "acc": 0.66867943,
+      "epoch": 1.4473617453069507,
+      "grad_norm": 6.59375,
+      "learning_rate": 1.9461778398538447e-06,
+      "loss": 1.53930407,
+      "memory(GiB)": 111.15,
+      "step": 57055,
+      "train_speed(iter/s)": 0.447382
+    },
+    {
+      "acc": 0.62266827,
+      "epoch": 1.4474885844748857,
+      "grad_norm": 5.34375,
+      "learning_rate": 1.945347593833191e-06,
+      "loss": 1.76260414,
+      "memory(GiB)": 111.15,
+      "step": 57060,
+      "train_speed(iter/s)": 0.447403
+    },
+    {
+      "acc": 0.64169655,
+      "epoch": 1.447615423642821,
+      "grad_norm": 5.46875,
+      "learning_rate": 1.9445174821697893e-06,
+      "loss": 1.66545849,
+      "memory(GiB)": 111.15,
+      "step": 57065,
+      "train_speed(iter/s)": 0.447424
+    },
+    {
+      "acc": 0.62768173,
+      "epoch": 1.447742262810756,
+      "grad_norm": 4.90625,
+      "learning_rate": 1.94368750490015e-06,
+      "loss": 1.70575848,
+      "memory(GiB)": 111.15,
+      "step": 57070,
+      "train_speed(iter/s)": 0.447445
+    },
+    {
+      "acc": 0.66729565,
+      "epoch": 1.4478691019786911,
+      "grad_norm": 5.84375,
+      "learning_rate": 1.94285766206078e-06,
+      "loss": 1.55959349,
+      "memory(GiB)": 111.15,
+      "step": 57075,
+      "train_speed(iter/s)": 0.447465
+    },
+    {
+      "acc": 0.65060263,
+      "epoch": 1.447995941146626,
+      "grad_norm": 6.40625,
+      "learning_rate": 1.9420279536881794e-06,
+      "loss": 1.66106796,
+      "memory(GiB)": 111.15,
+      "step": 57080,
+      "train_speed(iter/s)": 0.447486
+    },
+    {
+      "acc": 0.65359993,
+      "epoch": 1.448122780314561,
+      "grad_norm": 4.78125,
+      "learning_rate": 1.9411983798188398e-06,
+      "loss": 1.67618504,
+      "memory(GiB)": 111.15,
+      "step": 57085,
+      "train_speed(iter/s)": 0.447507
+    },
+    {
+      "acc": 0.63780527,
+      "epoch": 1.448249619482496,
+      "grad_norm": 5.28125,
+      "learning_rate": 1.940368940489256e-06,
+      "loss": 1.64427109,
+      "memory(GiB)": 111.15,
+      "step": 57090,
+      "train_speed(iter/s)": 0.447528
+    },
+    {
+      "acc": 0.65601301,
+      "epoch": 1.4483764586504313,
+      "grad_norm": 5.9375,
+      "learning_rate": 1.939539635735905e-06,
+      "loss": 1.5990284,
+      "memory(GiB)": 111.15,
+      "step": 57095,
+      "train_speed(iter/s)": 0.447548
+    },
+    {
+      "acc": 0.66606302,
+      "epoch": 1.4485032978183663,
+      "grad_norm": 5.65625,
+      "learning_rate": 1.9387104655952625e-06,
+      "loss": 1.60883656,
+      "memory(GiB)": 111.15,
+      "step": 57100,
+      "train_speed(iter/s)": 0.447569
+    },
+    {
+      "epoch": 1.4485032978183663,
+      "eval_acc": 0.6433863048356149,
+      "eval_loss": 1.6075040102005005,
+      "eval_runtime": 113.7828,
+      "eval_samples_per_second": 55.984,
+      "eval_steps_per_second": 27.992,
+      "step": 57100
+    },
+    {
+      "acc": 0.65280499,
+      "epoch": 1.4486301369863015,
+      "grad_norm": 5.5625,
+      "learning_rate": 1.9378814301038033e-06,
+      "loss": 1.58057957,
+      "memory(GiB)": 111.15,
+      "step": 57105,
+      "train_speed(iter/s)": 0.447175
+    },
+    {
+      "acc": 0.64783735,
+      "epoch": 1.4487569761542365,
+      "grad_norm": 5.4375,
+      "learning_rate": 1.937052529297992e-06,
+      "loss": 1.60144558,
+      "memory(GiB)": 111.15,
+      "step": 57110,
+      "train_speed(iter/s)": 0.447195
+    },
+    {
+      "acc": 0.66537275,
+      "epoch": 1.4488838153221715,
+      "grad_norm": 5.71875,
+      "learning_rate": 1.9362237632142838e-06,
+      "loss": 1.60240154,
+      "memory(GiB)": 111.15,
+      "step": 57115,
+      "train_speed(iter/s)": 0.447216
+    },
+    {
+      "acc": 0.66642818,
+      "epoch": 1.4490106544901065,
+      "grad_norm": 5.3125,
+      "learning_rate": 1.9353951318891313e-06,
+      "loss": 1.53960133,
+      "memory(GiB)": 111.15,
+      "step": 57120,
+      "train_speed(iter/s)": 0.447237
+    },
+    {
+      "acc": 0.66481085,
+      "epoch": 1.4491374936580417,
+      "grad_norm": 6.09375,
+      "learning_rate": 1.9345666353589855e-06,
+      "loss": 1.60342941,
+      "memory(GiB)": 111.15,
+      "step": 57125,
+      "train_speed(iter/s)": 0.447257
+    },
+    {
+      "acc": 0.66136632,
+      "epoch": 1.4492643328259767,
+      "grad_norm": 6.21875,
+      "learning_rate": 1.9337382736602868e-06,
+      "loss": 1.58587847,
+      "memory(GiB)": 111.15,
+      "step": 57130,
+      "train_speed(iter/s)": 0.447278
+    },
+    {
+      "acc": 0.65220418,
+      "epoch": 1.4493911719939117,
+      "grad_norm": 5.5625,
+      "learning_rate": 1.9329100468294646e-06,
+      "loss": 1.61272869,
+      "memory(GiB)": 111.15,
+      "step": 57135,
+      "train_speed(iter/s)": 0.447299
+    },
+    {
+      "acc": 0.65887418,
+      "epoch": 1.4495180111618469,
+      "grad_norm": 4.6875,
+      "learning_rate": 1.9320819549029546e-06,
+      "loss": 1.56940556,
+      "memory(GiB)": 111.15,
+      "step": 57140,
+      "train_speed(iter/s)": 0.44732
+    },
+    {
+      "acc": 0.65373087,
+      "epoch": 1.4496448503297819,
+      "grad_norm": 5.03125,
+      "learning_rate": 1.9312539979171774e-06,
+      "loss": 1.60157146,
+      "memory(GiB)": 111.15,
+      "step": 57145,
+      "train_speed(iter/s)": 0.44734
+    },
+    {
+      "acc": 0.64528956,
+      "epoch": 1.4497716894977168,
+      "grad_norm": 4.5,
+      "learning_rate": 1.9304261759085525e-06,
+      "loss": 1.61926193,
+      "memory(GiB)": 111.15,
+      "step": 57150,
+      "train_speed(iter/s)": 0.447361
+    },
+    {
+      "acc": 0.66012144,
+      "epoch": 1.4498985286656518,
+      "grad_norm": 5.90625,
+      "learning_rate": 1.929598488913485e-06,
+      "loss": 1.59968643,
+      "memory(GiB)": 111.15,
+      "step": 57155,
+      "train_speed(iter/s)": 0.447382
+    },
+    {
+      "acc": 0.66273212,
+      "epoch": 1.450025367833587,
+      "grad_norm": 4.4375,
+      "learning_rate": 1.928770936968386e-06,
+      "loss": 1.57273979,
+      "memory(GiB)": 111.15,
+      "step": 57160,
+      "train_speed(iter/s)": 0.447403
+    },
+    {
+      "acc": 0.67191162,
+      "epoch": 1.450152207001522,
+      "grad_norm": 4.84375,
+      "learning_rate": 1.927943520109653e-06,
+      "loss": 1.55349407,
+      "memory(GiB)": 111.15,
+      "step": 57165,
+      "train_speed(iter/s)": 0.447424
+    },
+    {
+      "acc": 0.6543891,
+      "epoch": 1.4502790461694572,
+      "grad_norm": 6.0,
+      "learning_rate": 1.9271162383736804e-06,
+      "loss": 1.67722282,
+      "memory(GiB)": 111.15,
+      "step": 57170,
+      "train_speed(iter/s)": 0.447445
+    },
+    {
+      "acc": 0.65683236,
+      "epoch": 1.4504058853373922,
+      "grad_norm": 6.125,
+      "learning_rate": 1.9262890917968547e-06,
+      "loss": 1.6054678,
+      "memory(GiB)": 111.15,
+      "step": 57175,
+      "train_speed(iter/s)": 0.447465
+    },
+    {
+      "acc": 0.63546562,
+      "epoch": 1.4505327245053272,
+      "grad_norm": 5.65625,
+      "learning_rate": 1.925462080415558e-06,
+      "loss": 1.73894405,
+      "memory(GiB)": 111.15,
+      "step": 57180,
+      "train_speed(iter/s)": 0.447486
+    },
+    {
+      "acc": 0.63642511,
+      "epoch": 1.4506595636732622,
+      "grad_norm": 5.40625,
+      "learning_rate": 1.924635204266166e-06,
+      "loss": 1.65890999,
+      "memory(GiB)": 111.15,
+      "step": 57185,
+      "train_speed(iter/s)": 0.447507
+    },
+    {
+      "acc": 0.65928516,
+      "epoch": 1.4507864028411974,
+      "grad_norm": 4.5625,
+      "learning_rate": 1.923808463385048e-06,
+      "loss": 1.59265041,
+      "memory(GiB)": 111.15,
+      "step": 57190,
+      "train_speed(iter/s)": 0.447528
+    },
+    {
+      "acc": 0.64421806,
+      "epoch": 1.4509132420091324,
+      "grad_norm": 4.75,
+      "learning_rate": 1.922981857808568e-06,
+      "loss": 1.65882874,
+      "memory(GiB)": 111.15,
+      "step": 57195,
+      "train_speed(iter/s)": 0.447549
+    },
+    {
+      "acc": 0.64633408,
+      "epoch": 1.4510400811770674,
+      "grad_norm": 4.46875,
+      "learning_rate": 1.9221553875730835e-06,
+      "loss": 1.65597801,
+      "memory(GiB)": 111.15,
+      "step": 57200,
+      "train_speed(iter/s)": 0.447569
+    },
+    {
+      "epoch": 1.4510400811770674,
+      "eval_acc": 0.6434401968185348,
+      "eval_loss": 1.6074659824371338,
+      "eval_runtime": 113.7389,
+      "eval_samples_per_second": 56.005,
+      "eval_steps_per_second": 28.003,
+      "step": 57200
+    },
+    {
+      "acc": 0.64301829,
+      "epoch": 1.4511669203450026,
+      "grad_norm": 4.875,
+      "learning_rate": 1.921329052714947e-06,
+      "loss": 1.62289066,
+      "memory(GiB)": 111.15,
+      "step": 57205,
+      "train_speed(iter/s)": 0.447176
+    },
+    {
+      "acc": 0.6539175,
+      "epoch": 1.4512937595129376,
+      "grad_norm": 6.1875,
+      "learning_rate": 1.920502853270504e-06,
+      "loss": 1.59929714,
+      "memory(GiB)": 111.15,
+      "step": 57210,
+      "train_speed(iter/s)": 0.447197
+    },
+    {
+      "acc": 0.65015087,
+      "epoch": 1.4514205986808726,
+      "grad_norm": 5.03125,
+      "learning_rate": 1.919676789276094e-06,
+      "loss": 1.6314188,
+      "memory(GiB)": 111.15,
+      "step": 57215,
+      "train_speed(iter/s)": 0.447218
+    },
+    {
+      "acc": 0.64427729,
+      "epoch": 1.4515474378488076,
+      "grad_norm": 6.34375,
+      "learning_rate": 1.918850860768052e-06,
+      "loss": 1.6805727,
+      "memory(GiB)": 111.15,
+      "step": 57220,
+      "train_speed(iter/s)": 0.447239
+    },
+    {
+      "acc": 0.65371623,
+      "epoch": 1.4516742770167428,
+      "grad_norm": 6.0,
+      "learning_rate": 1.918025067782704e-06,
+      "loss": 1.60866146,
+      "memory(GiB)": 111.15,
+      "step": 57225,
+      "train_speed(iter/s)": 0.447259
+    },
+    {
+      "acc": 0.65287333,
+      "epoch": 1.4518011161846778,
+      "grad_norm": 5.15625,
+      "learning_rate": 1.9171994103563766e-06,
+      "loss": 1.64839096,
+      "memory(GiB)": 111.15,
+      "step": 57230,
+      "train_speed(iter/s)": 0.44728
+    },
+    {
+      "acc": 0.63488035,
+      "epoch": 1.451927955352613,
+      "grad_norm": 5.4375,
+      "learning_rate": 1.916373888525381e-06,
+      "loss": 1.73293438,
+      "memory(GiB)": 111.15,
+      "step": 57235,
+      "train_speed(iter/s)": 0.447301
+    },
+    {
+      "acc": 0.64199224,
+      "epoch": 1.452054794520548,
+      "grad_norm": 5.875,
+      "learning_rate": 1.9155485023260294e-06,
+      "loss": 1.67591934,
+      "memory(GiB)": 111.15,
+      "step": 57240,
+      "train_speed(iter/s)": 0.447321
+    },
+    {
+      "acc": 0.64426212,
+      "epoch": 1.452181633688483,
+      "grad_norm": 5.03125,
+      "learning_rate": 1.914723251794624e-06,
+      "loss": 1.63148327,
+      "memory(GiB)": 111.15,
+      "step": 57245,
+      "train_speed(iter/s)": 0.447342
+    },
+    {
+      "acc": 0.65125299,
+      "epoch": 1.452308472856418,
+      "grad_norm": 5.8125,
+      "learning_rate": 1.9138981369674688e-06,
+      "loss": 1.67420292,
+      "memory(GiB)": 111.15,
+      "step": 57250,
+      "train_speed(iter/s)": 0.447363
+    },
+    {
+      "acc": 0.64112096,
+      "epoch": 1.4524353120243532,
+      "grad_norm": 4.78125,
+      "learning_rate": 1.9130731578808493e-06,
+      "loss": 1.660812,
+      "memory(GiB)": 111.15,
+      "step": 57255,
+      "train_speed(iter/s)": 0.447383
+    },
+    {
+      "acc": 0.64221549,
+      "epoch": 1.4525621511922882,
+      "grad_norm": 4.96875,
+      "learning_rate": 1.912248314571053e-06,
+      "loss": 1.64714546,
+      "memory(GiB)": 111.15,
+      "step": 57260,
+      "train_speed(iter/s)": 0.447404
+    },
+    {
+      "acc": 0.66421165,
+      "epoch": 1.4526889903602234,
+      "grad_norm": 6.125,
+      "learning_rate": 1.9114236070743638e-06,
+      "loss": 1.6043972,
+      "memory(GiB)": 111.15,
+      "step": 57265,
+      "train_speed(iter/s)": 0.447425
+    },
+    {
+      "acc": 0.65499945,
+      "epoch": 1.4528158295281584,
+      "grad_norm": 5.3125,
+      "learning_rate": 1.910599035427055e-06,
+      "loss": 1.61851807,
+      "memory(GiB)": 111.15,
+      "step": 57270,
+      "train_speed(iter/s)": 0.447445
+    },
+    {
+      "acc": 0.64870872,
+      "epoch": 1.4529426686960933,
+      "grad_norm": 6.28125,
+      "learning_rate": 1.909774599665392e-06,
+      "loss": 1.58237238,
+      "memory(GiB)": 111.15,
+      "step": 57275,
+      "train_speed(iter/s)": 0.447466
+    },
+    {
+      "acc": 0.66529951,
+      "epoch": 1.4530695078640283,
+      "grad_norm": 6.96875,
+      "learning_rate": 1.9089502998256382e-06,
+      "loss": 1.56070814,
+      "memory(GiB)": 111.15,
+      "step": 57280,
+      "train_speed(iter/s)": 0.447487
+    },
+    {
+      "acc": 0.65869255,
+      "epoch": 1.4531963470319635,
+      "grad_norm": 5.875,
+      "learning_rate": 1.9081261359440517e-06,
+      "loss": 1.60358238,
+      "memory(GiB)": 111.15,
+      "step": 57285,
+      "train_speed(iter/s)": 0.447507
+    },
+    {
+      "acc": 0.66820431,
+      "epoch": 1.4533231861998985,
+      "grad_norm": 6.09375,
+      "learning_rate": 1.9073021080568837e-06,
+      "loss": 1.60153294,
+      "memory(GiB)": 111.15,
+      "step": 57290,
+      "train_speed(iter/s)": 0.447528
+    },
+    {
+      "acc": 0.65425167,
+      "epoch": 1.4534500253678335,
+      "grad_norm": 6.15625,
+      "learning_rate": 1.9064782162003737e-06,
+      "loss": 1.55728512,
+      "memory(GiB)": 111.15,
+      "step": 57295,
+      "train_speed(iter/s)": 0.447549
+    },
+    {
+      "acc": 0.65088987,
+      "epoch": 1.4535768645357687,
+      "grad_norm": 5.0625,
+      "learning_rate": 1.9056544604107646e-06,
+      "loss": 1.59003239,
+      "memory(GiB)": 111.15,
+      "step": 57300,
+      "train_speed(iter/s)": 0.44757
+    },
+    {
+      "epoch": 1.4535768645357687,
+      "eval_acc": 0.6433670875393798,
+      "eval_loss": 1.6075439453125,
+      "eval_runtime": 113.7974,
+      "eval_samples_per_second": 55.977,
+      "eval_steps_per_second": 27.988,
+      "step": 57300
+    },
+    {
+      "acc": 0.64925666,
+      "epoch": 1.4537037037037037,
+      "grad_norm": 6.125,
+      "learning_rate": 1.9048308407242882e-06,
+      "loss": 1.61447945,
+      "memory(GiB)": 111.15,
+      "step": 57305,
+      "train_speed(iter/s)": 0.447176
+    },
+    {
+      "acc": 0.64498558,
+      "epoch": 1.4538305428716387,
+      "grad_norm": 6.46875,
+      "learning_rate": 1.90400735717717e-06,
+      "loss": 1.65086136,
+      "memory(GiB)": 111.15,
+      "step": 57310,
+      "train_speed(iter/s)": 0.447197
+    },
+    {
+      "acc": 0.64301796,
+      "epoch": 1.4539573820395737,
+      "grad_norm": 5.3125,
+      "learning_rate": 1.903184009805631e-06,
+      "loss": 1.59810762,
+      "memory(GiB)": 111.15,
+      "step": 57315,
+      "train_speed(iter/s)": 0.447217
+    },
+    {
+      "acc": 0.64348025,
+      "epoch": 1.454084221207509,
+      "grad_norm": 4.8125,
+      "learning_rate": 1.9023607986458854e-06,
+      "loss": 1.70465202,
+      "memory(GiB)": 111.15,
+      "step": 57320,
+      "train_speed(iter/s)": 0.447237
+    },
+    {
+      "acc": 0.65344834,
+      "epoch": 1.454211060375444,
+      "grad_norm": 5.0,
+      "learning_rate": 1.901537723734142e-06,
+      "loss": 1.62563038,
+      "memory(GiB)": 111.15,
+      "step": 57325,
+      "train_speed(iter/s)": 0.447258
+    },
+    {
+      "acc": 0.65876985,
+      "epoch": 1.454337899543379,
+      "grad_norm": 4.46875,
+      "learning_rate": 1.9007147851066031e-06,
+      "loss": 1.5971837,
+      "memory(GiB)": 111.15,
+      "step": 57330,
+      "train_speed(iter/s)": 0.447278
+    },
+    {
+      "acc": 0.6691875,
+      "epoch": 1.454464738711314,
+      "grad_norm": 4.59375,
+      "learning_rate": 1.8998919827994654e-06,
+      "loss": 1.52112961,
+      "memory(GiB)": 111.15,
+      "step": 57335,
+      "train_speed(iter/s)": 0.447298
+    },
+    {
+      "acc": 0.65528107,
+      "epoch": 1.454591577879249,
+      "grad_norm": 5.4375,
+      "learning_rate": 1.899069316848919e-06,
+      "loss": 1.66771011,
+      "memory(GiB)": 111.15,
+      "step": 57340,
+      "train_speed(iter/s)": 0.447319
+    },
+    {
+      "acc": 0.64749784,
+      "epoch": 1.454718417047184,
+      "grad_norm": 4.65625,
+      "learning_rate": 1.8982467872911486e-06,
+      "loss": 1.70237694,
+      "memory(GiB)": 111.15,
+      "step": 57345,
+      "train_speed(iter/s)": 0.44734
+    },
+    {
+      "acc": 0.64585094,
+      "epoch": 1.4548452562151193,
+      "grad_norm": 4.96875,
+      "learning_rate": 1.8974243941623332e-06,
+      "loss": 1.6398819,
+      "memory(GiB)": 111.15,
+      "step": 57350,
+      "train_speed(iter/s)": 0.44736
+    },
+    {
+      "acc": 0.64195871,
+      "epoch": 1.4549720953830543,
+      "grad_norm": 6.21875,
+      "learning_rate": 1.896602137498645e-06,
+      "loss": 1.70341148,
+      "memory(GiB)": 111.15,
+      "step": 57355,
+      "train_speed(iter/s)": 0.447381
+    },
+    {
+      "acc": 0.64730744,
+      "epoch": 1.4550989345509893,
+      "grad_norm": 5.25,
+      "learning_rate": 1.89578001733625e-06,
+      "loss": 1.63075714,
+      "memory(GiB)": 111.15,
+      "step": 57360,
+      "train_speed(iter/s)": 0.447402
+    },
+    {
+      "acc": 0.66042013,
+      "epoch": 1.4552257737189245,
+      "grad_norm": 4.8125,
+      "learning_rate": 1.8949580337113078e-06,
+      "loss": 1.56956081,
+      "memory(GiB)": 111.15,
+      "step": 57365,
+      "train_speed(iter/s)": 0.447423
+    },
+    {
+      "acc": 0.63235435,
+      "epoch": 1.4553526128868595,
+      "grad_norm": 5.5,
+      "learning_rate": 1.8941361866599778e-06,
+      "loss": 1.6798233,
+      "memory(GiB)": 111.15,
+      "step": 57370,
+      "train_speed(iter/s)": 0.447443
+    },
+    {
+      "acc": 0.64484215,
+      "epoch": 1.4554794520547945,
+      "grad_norm": 4.625,
+      "learning_rate": 1.893314476218403e-06,
+      "loss": 1.66152782,
+      "memory(GiB)": 111.15,
+      "step": 57375,
+      "train_speed(iter/s)": 0.447464
+    },
+    {
+      "acc": 0.64816008,
+      "epoch": 1.4556062912227294,
+      "grad_norm": 4.8125,
+      "learning_rate": 1.8924929024227279e-06,
+      "loss": 1.63946152,
+      "memory(GiB)": 111.15,
+      "step": 57380,
+      "train_speed(iter/s)": 0.447485
+    },
+    {
+      "acc": 0.63754416,
+      "epoch": 1.4557331303906647,
+      "grad_norm": 5.6875,
+      "learning_rate": 1.8916714653090874e-06,
+      "loss": 1.67251472,
+      "memory(GiB)": 111.15,
+      "step": 57385,
+      "train_speed(iter/s)": 0.447506
+    },
+    {
+      "acc": 0.6441309,
+      "epoch": 1.4558599695585996,
+      "grad_norm": 4.75,
+      "learning_rate": 1.8908501649136174e-06,
+      "loss": 1.64039154,
+      "memory(GiB)": 111.15,
+      "step": 57390,
+      "train_speed(iter/s)": 0.447526
+    },
+    {
+      "acc": 0.65354185,
+      "epoch": 1.4559868087265349,
+      "grad_norm": 5.5,
+      "learning_rate": 1.8900290012724358e-06,
+      "loss": 1.59603462,
+      "memory(GiB)": 111.15,
+      "step": 57395,
+      "train_speed(iter/s)": 0.447547
+    },
+    {
+      "acc": 0.65859303,
+      "epoch": 1.4561136478944698,
+      "grad_norm": 5.6875,
+      "learning_rate": 1.889207974421663e-06,
+      "loss": 1.55156975,
+      "memory(GiB)": 111.15,
+      "step": 57400,
+      "train_speed(iter/s)": 0.447568
+    },
+    {
+      "epoch": 1.4561136478944698,
+      "eval_acc": 0.6433683408413081,
+      "eval_loss": 1.607506513595581,
+      "eval_runtime": 114.2065,
+      "eval_samples_per_second": 55.776,
+      "eval_steps_per_second": 27.888,
+      "step": 57400
+    },
+    {
+      "acc": 0.66466932,
+      "epoch": 1.4562404870624048,
+      "grad_norm": 6.84375,
+      "learning_rate": 1.8883870843974134e-06,
+      "loss": 1.54925547,
+      "memory(GiB)": 111.15,
+      "step": 57405,
+      "train_speed(iter/s)": 0.447174
+    },
+    {
+      "acc": 0.63045692,
+      "epoch": 1.4563673262303398,
+      "grad_norm": 5.75,
+      "learning_rate": 1.887566331235794e-06,
+      "loss": 1.74767876,
+      "memory(GiB)": 111.15,
+      "step": 57410,
+      "train_speed(iter/s)": 0.447194
+    },
+    {
+      "acc": 0.63587465,
+      "epoch": 1.456494165398275,
+      "grad_norm": 5.96875,
+      "learning_rate": 1.8867457149729013e-06,
+      "loss": 1.75127449,
+      "memory(GiB)": 111.15,
+      "step": 57415,
+      "train_speed(iter/s)": 0.447215
+    },
+    {
+      "acc": 0.64759932,
+      "epoch": 1.45662100456621,
+      "grad_norm": 5.25,
+      "learning_rate": 1.8859252356448305e-06,
+      "loss": 1.6350071,
+      "memory(GiB)": 111.15,
+      "step": 57420,
+      "train_speed(iter/s)": 0.447235
+    },
+    {
+      "acc": 0.66206875,
+      "epoch": 1.4567478437341452,
+      "grad_norm": 4.6875,
+      "learning_rate": 1.8851048932876725e-06,
+      "loss": 1.55607271,
+      "memory(GiB)": 111.15,
+      "step": 57425,
+      "train_speed(iter/s)": 0.447256
+    },
+    {
+      "acc": 0.66576705,
+      "epoch": 1.4568746829020802,
+      "grad_norm": 5.3125,
+      "learning_rate": 1.8842846879375104e-06,
+      "loss": 1.60824852,
+      "memory(GiB)": 111.15,
+      "step": 57430,
+      "train_speed(iter/s)": 0.447276
+    },
+    {
+      "acc": 0.66053228,
+      "epoch": 1.4570015220700152,
+      "grad_norm": 6.03125,
+      "learning_rate": 1.8834646196304146e-06,
+      "loss": 1.60882263,
+      "memory(GiB)": 111.15,
+      "step": 57435,
+      "train_speed(iter/s)": 0.447297
+    },
+    {
+      "acc": 0.65212469,
+      "epoch": 1.4571283612379502,
+      "grad_norm": 6.71875,
+      "learning_rate": 1.8826446884024612e-06,
+      "loss": 1.70460758,
+      "memory(GiB)": 111.15,
+      "step": 57440,
+      "train_speed(iter/s)": 0.447318
+    },
+    {
+      "acc": 0.65475717,
+      "epoch": 1.4572552004058854,
+      "grad_norm": 4.625,
+      "learning_rate": 1.8818248942897122e-06,
+      "loss": 1.5622345,
+      "memory(GiB)": 111.15,
+      "step": 57445,
+      "train_speed(iter/s)": 0.447338
+    },
+    {
+      "acc": 0.64496832,
+      "epoch": 1.4573820395738204,
+      "grad_norm": 5.65625,
+      "learning_rate": 1.8810052373282277e-06,
+      "loss": 1.63361931,
+      "memory(GiB)": 111.15,
+      "step": 57450,
+      "train_speed(iter/s)": 0.447359
+    },
+    {
+      "acc": 0.64508553,
+      "epoch": 1.4575088787417554,
+      "grad_norm": 5.59375,
+      "learning_rate": 1.880185717554055e-06,
+      "loss": 1.6635376,
+      "memory(GiB)": 111.15,
+      "step": 57455,
+      "train_speed(iter/s)": 0.44738
+    },
+    {
+      "acc": 0.63890724,
+      "epoch": 1.4576357179096906,
+      "grad_norm": 5.21875,
+      "learning_rate": 1.879366335003245e-06,
+      "loss": 1.66537476,
+      "memory(GiB)": 111.15,
+      "step": 57460,
+      "train_speed(iter/s)": 0.4474
+    },
+    {
+      "acc": 0.64046335,
+      "epoch": 1.4577625570776256,
+      "grad_norm": 5.96875,
+      "learning_rate": 1.8785470897118362e-06,
+      "loss": 1.65967312,
+      "memory(GiB)": 111.15,
+      "step": 57465,
+      "train_speed(iter/s)": 0.447421
+    },
+    {
+      "acc": 0.65390992,
+      "epoch": 1.4578893962455606,
+      "grad_norm": 5.5,
+      "learning_rate": 1.8777279817158627e-06,
+      "loss": 1.59753265,
+      "memory(GiB)": 111.15,
+      "step": 57470,
+      "train_speed(iter/s)": 0.447441
+    },
+    {
+      "acc": 0.65168238,
+      "epoch": 1.4580162354134956,
+      "grad_norm": 4.84375,
+      "learning_rate": 1.8769090110513522e-06,
+      "loss": 1.61164627,
+      "memory(GiB)": 111.15,
+      "step": 57475,
+      "train_speed(iter/s)": 0.447462
+    },
+    {
+      "acc": 0.64162035,
+      "epoch": 1.4581430745814308,
+      "grad_norm": 5.625,
+      "learning_rate": 1.8760901777543273e-06,
+      "loss": 1.67379036,
+      "memory(GiB)": 111.15,
+      "step": 57480,
+      "train_speed(iter/s)": 0.447482
+    },
+    {
+      "acc": 0.65615044,
+      "epoch": 1.4582699137493658,
+      "grad_norm": 5.40625,
+      "learning_rate": 1.8752714818608036e-06,
+      "loss": 1.61937904,
+      "memory(GiB)": 111.15,
+      "step": 57485,
+      "train_speed(iter/s)": 0.447503
+    },
+    {
+      "acc": 0.65808616,
+      "epoch": 1.458396752917301,
+      "grad_norm": 5.0625,
+      "learning_rate": 1.874452923406791e-06,
+      "loss": 1.58524914,
+      "memory(GiB)": 111.15,
+      "step": 57490,
+      "train_speed(iter/s)": 0.447523
+    },
+    {
+      "acc": 0.64861183,
+      "epoch": 1.458523592085236,
+      "grad_norm": 5.0625,
+      "learning_rate": 1.8736345024282937e-06,
+      "loss": 1.64928322,
+      "memory(GiB)": 111.15,
+      "step": 57495,
+      "train_speed(iter/s)": 0.447544
+    },
+    {
+      "acc": 0.65042677,
+      "epoch": 1.458650431253171,
+      "grad_norm": 5.90625,
+      "learning_rate": 1.8728162189613085e-06,
+      "loss": 1.60293503,
+      "memory(GiB)": 111.15,
+      "step": 57500,
+      "train_speed(iter/s)": 0.447565
+    },
+    {
+      "epoch": 1.458650431253171,
+      "eval_acc": 0.6433549722874056,
+      "eval_loss": 1.607520341873169,
+      "eval_runtime": 113.5043,
+      "eval_samples_per_second": 56.121,
+      "eval_steps_per_second": 28.061,
+      "step": 57500
+    },
+    {
+      "acc": 0.65655947,
+      "epoch": 1.458777270421106,
+      "grad_norm": 5.53125,
+      "learning_rate": 1.8719980730418285e-06,
+      "loss": 1.627145,
+      "memory(GiB)": 111.15,
+      "step": 57505,
+      "train_speed(iter/s)": 0.447174
+    },
+    {
+      "acc": 0.64585533,
+      "epoch": 1.4589041095890412,
+      "grad_norm": 6.46875,
+      "learning_rate": 1.8711800647058388e-06,
+      "loss": 1.61016884,
+      "memory(GiB)": 111.15,
+      "step": 57510,
+      "train_speed(iter/s)": 0.447195
+    },
+    {
+      "acc": 0.63342481,
+      "epoch": 1.4590309487569761,
+      "grad_norm": 5.40625,
+      "learning_rate": 1.8703621939893185e-06,
+      "loss": 1.73023872,
+      "memory(GiB)": 111.15,
+      "step": 57515,
+      "train_speed(iter/s)": 0.447215
+    },
+    {
+      "acc": 0.64386749,
+      "epoch": 1.4591577879249111,
+      "grad_norm": 6.03125,
+      "learning_rate": 1.869544460928242e-06,
+      "loss": 1.60654602,
+      "memory(GiB)": 111.15,
+      "step": 57520,
+      "train_speed(iter/s)": 0.447236
+    },
+    {
+      "acc": 0.6448503,
+      "epoch": 1.4592846270928463,
+      "grad_norm": 5.25,
+      "learning_rate": 1.868726865558575e-06,
+      "loss": 1.63131981,
+      "memory(GiB)": 111.15,
+      "step": 57525,
+      "train_speed(iter/s)": 0.447256
+    },
+    {
+      "acc": 0.65288887,
+      "epoch": 1.4594114662607813,
+      "grad_norm": 4.6875,
+      "learning_rate": 1.8679094079162835e-06,
+      "loss": 1.59185581,
+      "memory(GiB)": 111.15,
+      "step": 57530,
+      "train_speed(iter/s)": 0.447276
+    },
+    {
+      "acc": 0.64922504,
+      "epoch": 1.4595383054287163,
+      "grad_norm": 6.53125,
+      "learning_rate": 1.867092088037319e-06,
+      "loss": 1.59167852,
+      "memory(GiB)": 111.15,
+      "step": 57535,
+      "train_speed(iter/s)": 0.447297
+    },
+    {
+      "acc": 0.63674946,
+      "epoch": 1.4596651445966513,
+      "grad_norm": 5.5,
+      "learning_rate": 1.8662749059576296e-06,
+      "loss": 1.67718029,
+      "memory(GiB)": 111.15,
+      "step": 57540,
+      "train_speed(iter/s)": 0.447318
+    },
+    {
+      "acc": 0.65251236,
+      "epoch": 1.4597919837645865,
+      "grad_norm": 6.1875,
+      "learning_rate": 1.865457861713163e-06,
+      "loss": 1.67348251,
+      "memory(GiB)": 111.15,
+      "step": 57545,
+      "train_speed(iter/s)": 0.447338
+    },
+    {
+      "acc": 0.66447468,
+      "epoch": 1.4599188229325215,
+      "grad_norm": 5.09375,
+      "learning_rate": 1.8646409553398558e-06,
+      "loss": 1.55884151,
+      "memory(GiB)": 111.15,
+      "step": 57550,
+      "train_speed(iter/s)": 0.447359
+    },
+    {
+      "acc": 0.65708494,
+      "epoch": 1.4600456621004567,
+      "grad_norm": 5.21875,
+      "learning_rate": 1.8638241868736367e-06,
+      "loss": 1.60554981,
+      "memory(GiB)": 111.15,
+      "step": 57555,
+      "train_speed(iter/s)": 0.44738
+    },
+    {
+      "acc": 0.65220523,
+      "epoch": 1.4601725012683917,
+      "grad_norm": 5.90625,
+      "learning_rate": 1.8630075563504297e-06,
+      "loss": 1.68808594,
+      "memory(GiB)": 111.15,
+      "step": 57560,
+      "train_speed(iter/s)": 0.4474
+    },
+    {
+      "acc": 0.65040331,
+      "epoch": 1.4602993404363267,
+      "grad_norm": 5.15625,
+      "learning_rate": 1.8621910638061575e-06,
+      "loss": 1.62485542,
+      "memory(GiB)": 111.15,
+      "step": 57565,
+      "train_speed(iter/s)": 0.447421
+    },
+    {
+      "acc": 0.64118776,
+      "epoch": 1.4604261796042617,
+      "grad_norm": 5.5625,
+      "learning_rate": 1.8613747092767336e-06,
+      "loss": 1.63242035,
+      "memory(GiB)": 111.15,
+      "step": 57570,
+      "train_speed(iter/s)": 0.447441
+    },
+    {
+      "acc": 0.65582967,
+      "epoch": 1.460553018772197,
+      "grad_norm": 5.25,
+      "learning_rate": 1.8605584927980596e-06,
+      "loss": 1.62695656,
+      "memory(GiB)": 111.15,
+      "step": 57575,
+      "train_speed(iter/s)": 0.447462
+    },
+    {
+      "acc": 0.64907789,
+      "epoch": 1.4606798579401319,
+      "grad_norm": 5.75,
+      "learning_rate": 1.859742414406041e-06,
+      "loss": 1.56931229,
+      "memory(GiB)": 111.15,
+      "step": 57580,
+      "train_speed(iter/s)": 0.447482
+    },
+    {
+      "acc": 0.67471881,
+      "epoch": 1.460806697108067,
+      "grad_norm": 5.28125,
+      "learning_rate": 1.8589264741365714e-06,
+      "loss": 1.46527777,
+      "memory(GiB)": 111.15,
+      "step": 57585,
+      "train_speed(iter/s)": 0.447503
+    },
+    {
+      "acc": 0.64273338,
+      "epoch": 1.460933536276002,
+      "grad_norm": 4.46875,
+      "learning_rate": 1.8581106720255414e-06,
+      "loss": 1.6806118,
+      "memory(GiB)": 111.15,
+      "step": 57590,
+      "train_speed(iter/s)": 0.447524
+    },
+    {
+      "acc": 0.6541564,
+      "epoch": 1.461060375443937,
+      "grad_norm": 5.8125,
+      "learning_rate": 1.8572950081088282e-06,
+      "loss": 1.60863304,
+      "memory(GiB)": 111.15,
+      "step": 57595,
+      "train_speed(iter/s)": 0.447544
+    },
+    {
+      "acc": 0.64759073,
+      "epoch": 1.461187214611872,
+      "grad_norm": 5.375,
+      "learning_rate": 1.856479482422313e-06,
+      "loss": 1.59547472,
+      "memory(GiB)": 111.15,
+      "step": 57600,
+      "train_speed(iter/s)": 0.447565
+    },
+    {
+      "epoch": 1.461187214611872,
+      "eval_acc": 0.6433374260604083,
+      "eval_loss": 1.6075332164764404,
+      "eval_runtime": 113.4242,
+      "eval_samples_per_second": 56.161,
+      "eval_steps_per_second": 28.08,
+      "step": 57600
+    },
+    {
+      "acc": 0.65651979,
+      "epoch": 1.4613140537798073,
+      "grad_norm": 6.28125,
+      "learning_rate": 1.8556640950018651e-06,
+      "loss": 1.5722393,
+      "memory(GiB)": 111.15,
+      "step": 57605,
+      "train_speed(iter/s)": 0.447175
+    },
+    {
+      "acc": 0.65833702,
+      "epoch": 1.4614408929477423,
+      "grad_norm": 6.4375,
+      "learning_rate": 1.8548488458833485e-06,
+      "loss": 1.58300858,
+      "memory(GiB)": 111.15,
+      "step": 57610,
+      "train_speed(iter/s)": 0.447195
+    },
+    {
+      "acc": 0.65495529,
+      "epoch": 1.4615677321156773,
+      "grad_norm": 4.875,
+      "learning_rate": 1.854033735102622e-06,
+      "loss": 1.62655067,
+      "memory(GiB)": 111.15,
+      "step": 57615,
+      "train_speed(iter/s)": 0.447215
+    },
+    {
+      "acc": 0.64791455,
+      "epoch": 1.4616945712836125,
+      "grad_norm": 6.375,
+      "learning_rate": 1.8532187626955377e-06,
+      "loss": 1.65172806,
+      "memory(GiB)": 111.15,
+      "step": 57620,
+      "train_speed(iter/s)": 0.447236
+    },
+    {
+      "acc": 0.65525351,
+      "epoch": 1.4618214104515475,
+      "grad_norm": 4.75,
+      "learning_rate": 1.8524039286979417e-06,
+      "loss": 1.63540611,
+      "memory(GiB)": 111.15,
+      "step": 57625,
+      "train_speed(iter/s)": 0.447256
+    },
+    {
+      "acc": 0.65439615,
+      "epoch": 1.4619482496194824,
+      "grad_norm": 5.375,
+      "learning_rate": 1.8515892331456736e-06,
+      "loss": 1.64452248,
+      "memory(GiB)": 111.15,
+      "step": 57630,
+      "train_speed(iter/s)": 0.447276
+    },
+    {
+      "acc": 0.68318605,
+      "epoch": 1.4620750887874174,
+      "grad_norm": 5.3125,
+      "learning_rate": 1.850774676074568e-06,
+      "loss": 1.51823483,
+      "memory(GiB)": 111.15,
+      "step": 57635,
+      "train_speed(iter/s)": 0.447296
+    },
+    {
+      "acc": 0.64382086,
+      "epoch": 1.4622019279553526,
+      "grad_norm": 5.09375,
+      "learning_rate": 1.8499602575204522e-06,
+      "loss": 1.66702194,
+      "memory(GiB)": 111.15,
+      "step": 57640,
+      "train_speed(iter/s)": 0.447316
+    },
+    {
+      "acc": 0.6465766,
+      "epoch": 1.4623287671232876,
+      "grad_norm": 4.78125,
+      "learning_rate": 1.8491459775191484e-06,
+      "loss": 1.62736549,
+      "memory(GiB)": 111.15,
+      "step": 57645,
+      "train_speed(iter/s)": 0.447337
+    },
+    {
+      "acc": 0.63828163,
+      "epoch": 1.4624556062912228,
+      "grad_norm": 5.53125,
+      "learning_rate": 1.8483318361064716e-06,
+      "loss": 1.6704319,
+      "memory(GiB)": 111.15,
+      "step": 57650,
+      "train_speed(iter/s)": 0.447357
+    },
+    {
+      "acc": 0.66191673,
+      "epoch": 1.4625824454591578,
+      "grad_norm": 5.1875,
+      "learning_rate": 1.847517833318232e-06,
+      "loss": 1.57927427,
+      "memory(GiB)": 111.15,
+      "step": 57655,
+      "train_speed(iter/s)": 0.447377
+    },
+    {
+      "acc": 0.66698966,
+      "epoch": 1.4627092846270928,
+      "grad_norm": 5.5,
+      "learning_rate": 1.8467039691902334e-06,
+      "loss": 1.51500797,
+      "memory(GiB)": 111.15,
+      "step": 57660,
+      "train_speed(iter/s)": 0.447398
+    },
+    {
+      "acc": 0.66032219,
+      "epoch": 1.4628361237950278,
+      "grad_norm": 5.28125,
+      "learning_rate": 1.8458902437582705e-06,
+      "loss": 1.57239523,
+      "memory(GiB)": 111.15,
+      "step": 57665,
+      "train_speed(iter/s)": 0.447418
+    },
+    {
+      "acc": 0.65156269,
+      "epoch": 1.462962962962963,
+      "grad_norm": 4.9375,
+      "learning_rate": 1.8450766570581402e-06,
+      "loss": 1.65529575,
+      "memory(GiB)": 111.15,
+      "step": 57670,
+      "train_speed(iter/s)": 0.447438
+    },
+    {
+      "acc": 0.63909864,
+      "epoch": 1.463089802130898,
+      "grad_norm": 5.28125,
+      "learning_rate": 1.8442632091256223e-06,
+      "loss": 1.63863525,
+      "memory(GiB)": 111.15,
+      "step": 57675,
+      "train_speed(iter/s)": 0.447458
+    },
+    {
+      "acc": 0.65167637,
+      "epoch": 1.463216641298833,
+      "grad_norm": 4.84375,
+      "learning_rate": 1.8434498999964983e-06,
+      "loss": 1.6121769,
+      "memory(GiB)": 111.15,
+      "step": 57680,
+      "train_speed(iter/s)": 0.447479
+    },
+    {
+      "acc": 0.66416717,
+      "epoch": 1.4633434804667682,
+      "grad_norm": 5.3125,
+      "learning_rate": 1.8426367297065384e-06,
+      "loss": 1.59483767,
+      "memory(GiB)": 111.15,
+      "step": 57685,
+      "train_speed(iter/s)": 0.447499
+    },
+    {
+      "acc": 0.63740964,
+      "epoch": 1.4634703196347032,
+      "grad_norm": 5.0625,
+      "learning_rate": 1.841823698291516e-06,
+      "loss": 1.69871101,
+      "memory(GiB)": 111.15,
+      "step": 57690,
+      "train_speed(iter/s)": 0.447519
+    },
+    {
+      "acc": 0.66007061,
+      "epoch": 1.4635971588026382,
+      "grad_norm": 5.125,
+      "learning_rate": 1.8410108057871851e-06,
+      "loss": 1.56418171,
+      "memory(GiB)": 111.15,
+      "step": 57695,
+      "train_speed(iter/s)": 0.44754
+    },
+    {
+      "acc": 0.6575088,
+      "epoch": 1.4637239979705732,
+      "grad_norm": 5.9375,
+      "learning_rate": 1.8401980522293017e-06,
+      "loss": 1.61183014,
+      "memory(GiB)": 111.15,
+      "step": 57700,
+      "train_speed(iter/s)": 0.44756
+    },
+    {
+      "epoch": 1.4637239979705732,
+      "eval_acc": 0.6433345016892421,
+      "eval_loss": 1.6075726747512817,
+      "eval_runtime": 114.0121,
+      "eval_samples_per_second": 55.871,
+      "eval_steps_per_second": 27.936,
+      "step": 57700
+    },
+    {
+      "acc": 0.63428593,
+      "epoch": 1.4638508371385084,
+      "grad_norm": 7.28125,
+      "learning_rate": 1.839385437653617e-06,
+      "loss": 1.68566666,
+      "memory(GiB)": 111.15,
+      "step": 57705,
+      "train_speed(iter/s)": 0.447169
+    },
+    {
+      "acc": 0.65248227,
+      "epoch": 1.4639776763064434,
+      "grad_norm": 4.28125,
+      "learning_rate": 1.8385729620958731e-06,
+      "loss": 1.66219482,
+      "memory(GiB)": 111.15,
+      "step": 57710,
+      "train_speed(iter/s)": 0.447189
+    },
+    {
+      "acc": 0.65317822,
+      "epoch": 1.4641045154743786,
+      "grad_norm": 6.09375,
+      "learning_rate": 1.8377606255918024e-06,
+      "loss": 1.63625641,
+      "memory(GiB)": 111.15,
+      "step": 57715,
+      "train_speed(iter/s)": 0.44721
+    },
+    {
+      "acc": 0.64402876,
+      "epoch": 1.4642313546423136,
+      "grad_norm": 5.3125,
+      "learning_rate": 1.8369484281771388e-06,
+      "loss": 1.67070045,
+      "memory(GiB)": 111.15,
+      "step": 57720,
+      "train_speed(iter/s)": 0.44723
+    },
+    {
+      "acc": 0.64764795,
+      "epoch": 1.4643581938102486,
+      "grad_norm": 4.5625,
+      "learning_rate": 1.836136369887606e-06,
+      "loss": 1.61327248,
+      "memory(GiB)": 111.15,
+      "step": 57725,
+      "train_speed(iter/s)": 0.447251
+    },
+    {
+      "acc": 0.65790629,
+      "epoch": 1.4644850329781836,
+      "grad_norm": 8.25,
+      "learning_rate": 1.8353244507589225e-06,
+      "loss": 1.59055138,
+      "memory(GiB)": 111.15,
+      "step": 57730,
+      "train_speed(iter/s)": 0.447271
+    },
+    {
+      "acc": 0.64307823,
+      "epoch": 1.4646118721461188,
+      "grad_norm": 5.125,
+      "learning_rate": 1.8345126708267958e-06,
+      "loss": 1.64421024,
+      "memory(GiB)": 111.15,
+      "step": 57735,
+      "train_speed(iter/s)": 0.447292
+    },
+    {
+      "acc": 0.66652503,
+      "epoch": 1.4647387113140538,
+      "grad_norm": 5.90625,
+      "learning_rate": 1.8337010301269364e-06,
+      "loss": 1.56656971,
+      "memory(GiB)": 111.15,
+      "step": 57740,
+      "train_speed(iter/s)": 0.447312
+    },
+    {
+      "acc": 0.64833593,
+      "epoch": 1.464865550481989,
+      "grad_norm": 6.5,
+      "learning_rate": 1.8328895286950422e-06,
+      "loss": 1.64156952,
+      "memory(GiB)": 111.15,
+      "step": 57745,
+      "train_speed(iter/s)": 0.447333
+    },
+    {
+      "acc": 0.64749017,
+      "epoch": 1.464992389649924,
+      "grad_norm": 5.21875,
+      "learning_rate": 1.8320781665668063e-06,
+      "loss": 1.62897873,
+      "memory(GiB)": 111.15,
+      "step": 57750,
+      "train_speed(iter/s)": 0.447353
+    },
+    {
+      "acc": 0.63028374,
+      "epoch": 1.465119228817859,
+      "grad_norm": 5.40625,
+      "learning_rate": 1.8312669437779167e-06,
+      "loss": 1.71531029,
+      "memory(GiB)": 111.15,
+      "step": 57755,
+      "train_speed(iter/s)": 0.447374
+    },
+    {
+      "acc": 0.64770665,
+      "epoch": 1.465246067985794,
+      "grad_norm": 5.34375,
+      "learning_rate": 1.8304558603640544e-06,
+      "loss": 1.65581627,
+      "memory(GiB)": 111.15,
+      "step": 57760,
+      "train_speed(iter/s)": 0.447394
+    },
+    {
+      "acc": 0.64196596,
+      "epoch": 1.4653729071537291,
+      "grad_norm": 4.84375,
+      "learning_rate": 1.8296449163608942e-06,
+      "loss": 1.71336193,
+      "memory(GiB)": 111.15,
+      "step": 57765,
+      "train_speed(iter/s)": 0.447415
+    },
+    {
+      "acc": 0.66232786,
+      "epoch": 1.4654997463216641,
+      "grad_norm": 4.4375,
+      "learning_rate": 1.8288341118041052e-06,
+      "loss": 1.49666853,
+      "memory(GiB)": 111.15,
+      "step": 57770,
+      "train_speed(iter/s)": 0.447435
+    },
+    {
+      "acc": 0.65680428,
+      "epoch": 1.4656265854895991,
+      "grad_norm": 5.90625,
+      "learning_rate": 1.82802344672935e-06,
+      "loss": 1.64602337,
+      "memory(GiB)": 111.15,
+      "step": 57775,
+      "train_speed(iter/s)": 0.447456
+    },
+    {
+      "acc": 0.64453201,
+      "epoch": 1.4657534246575343,
+      "grad_norm": 4.625,
+      "learning_rate": 1.8272129211722855e-06,
+      "loss": 1.67505074,
+      "memory(GiB)": 111.15,
+      "step": 57780,
+      "train_speed(iter/s)": 0.447476
+    },
+    {
+      "acc": 0.65065703,
+      "epoch": 1.4658802638254693,
+      "grad_norm": 6.0625,
+      "learning_rate": 1.8264025351685627e-06,
+      "loss": 1.65402184,
+      "memory(GiB)": 111.15,
+      "step": 57785,
+      "train_speed(iter/s)": 0.447497
+    },
+    {
+      "acc": 0.6484972,
+      "epoch": 1.4660071029934043,
+      "grad_norm": 5.3125,
+      "learning_rate": 1.8255922887538251e-06,
+      "loss": 1.59810429,
+      "memory(GiB)": 111.15,
+      "step": 57790,
+      "train_speed(iter/s)": 0.447518
+    },
+    {
+      "acc": 0.65564089,
+      "epoch": 1.4661339421613393,
+      "grad_norm": 6.6875,
+      "learning_rate": 1.8247821819637112e-06,
+      "loss": 1.64300652,
+      "memory(GiB)": 111.15,
+      "step": 57795,
+      "train_speed(iter/s)": 0.447539
+    },
+    {
+      "acc": 0.65485392,
+      "epoch": 1.4662607813292745,
+      "grad_norm": 5.90625,
+      "learning_rate": 1.8239722148338534e-06,
+      "loss": 1.57899895,
+      "memory(GiB)": 111.15,
+      "step": 57800,
+      "train_speed(iter/s)": 0.447559
+    },
+    {
+      "epoch": 1.4662607813292745,
+      "eval_acc": 0.6434193084530619,
+      "eval_loss": 1.6074469089508057,
+      "eval_runtime": 113.7545,
+      "eval_samples_per_second": 55.998,
+      "eval_steps_per_second": 27.999,
+      "step": 57800
+    },
+    {
+      "acc": 0.64636335,
+      "epoch": 1.4663876204972095,
+      "grad_norm": 5.0625,
+      "learning_rate": 1.823162387399876e-06,
+      "loss": 1.64918175,
+      "memory(GiB)": 111.15,
+      "step": 57805,
+      "train_speed(iter/s)": 0.44717
+    },
+    {
+      "acc": 0.66974745,
+      "epoch": 1.4665144596651447,
+      "grad_norm": 5.5625,
+      "learning_rate": 1.822352699697404e-06,
+      "loss": 1.58471031,
+      "memory(GiB)": 111.15,
+      "step": 57810,
+      "train_speed(iter/s)": 0.44719
+    },
+    {
+      "acc": 0.66008291,
+      "epoch": 1.4666412988330797,
+      "grad_norm": 5.09375,
+      "learning_rate": 1.8215431517620452e-06,
+      "loss": 1.60256004,
+      "memory(GiB)": 111.15,
+      "step": 57815,
+      "train_speed(iter/s)": 0.447211
+    },
+    {
+      "acc": 0.63970795,
+      "epoch": 1.4667681380010147,
+      "grad_norm": 5.46875,
+      "learning_rate": 1.8207337436294097e-06,
+      "loss": 1.74554558,
+      "memory(GiB)": 111.15,
+      "step": 57820,
+      "train_speed(iter/s)": 0.447231
+    },
+    {
+      "acc": 0.6547965,
+      "epoch": 1.4668949771689497,
+      "grad_norm": 5.8125,
+      "learning_rate": 1.819924475335097e-06,
+      "loss": 1.61086006,
+      "memory(GiB)": 111.15,
+      "step": 57825,
+      "train_speed(iter/s)": 0.447252
+    },
+    {
+      "acc": 0.65027876,
+      "epoch": 1.4670218163368849,
+      "grad_norm": 4.875,
+      "learning_rate": 1.8191153469147065e-06,
+      "loss": 1.61279278,
+      "memory(GiB)": 111.15,
+      "step": 57830,
+      "train_speed(iter/s)": 0.447272
+    },
+    {
+      "acc": 0.64033175,
+      "epoch": 1.4671486555048199,
+      "grad_norm": 5.03125,
+      "learning_rate": 1.8183063584038236e-06,
+      "loss": 1.70126114,
+      "memory(GiB)": 111.15,
+      "step": 57835,
+      "train_speed(iter/s)": 0.447293
+    },
+    {
+      "acc": 0.64404669,
+      "epoch": 1.4672754946727549,
+      "grad_norm": 5.46875,
+      "learning_rate": 1.8174975098380304e-06,
+      "loss": 1.65759411,
+      "memory(GiB)": 111.15,
+      "step": 57840,
+      "train_speed(iter/s)": 0.447314
+    },
+    {
+      "acc": 0.660848,
+      "epoch": 1.46740233384069,
+      "grad_norm": 5.375,
+      "learning_rate": 1.8166888012529078e-06,
+      "loss": 1.63211746,
+      "memory(GiB)": 111.15,
+      "step": 57845,
+      "train_speed(iter/s)": 0.447334
+    },
+    {
+      "acc": 0.64545183,
+      "epoch": 1.467529173008625,
+      "grad_norm": 5.46875,
+      "learning_rate": 1.8158802326840252e-06,
+      "loss": 1.59385719,
+      "memory(GiB)": 111.15,
+      "step": 57850,
+      "train_speed(iter/s)": 0.447355
+    },
+    {
+      "acc": 0.6661046,
+      "epoch": 1.46765601217656,
+      "grad_norm": 4.40625,
+      "learning_rate": 1.8150718041669447e-06,
+      "loss": 1.56079617,
+      "memory(GiB)": 111.15,
+      "step": 57855,
+      "train_speed(iter/s)": 0.447375
+    },
+    {
+      "acc": 0.65358682,
+      "epoch": 1.467782851344495,
+      "grad_norm": 5.5625,
+      "learning_rate": 1.814263515737224e-06,
+      "loss": 1.65320282,
+      "memory(GiB)": 111.15,
+      "step": 57860,
+      "train_speed(iter/s)": 0.447396
+    },
+    {
+      "acc": 0.64469972,
+      "epoch": 1.4679096905124303,
+      "grad_norm": 4.34375,
+      "learning_rate": 1.813455367430419e-06,
+      "loss": 1.56950665,
+      "memory(GiB)": 111.15,
+      "step": 57865,
+      "train_speed(iter/s)": 0.447416
+    },
+    {
+      "acc": 0.64630013,
+      "epoch": 1.4680365296803652,
+      "grad_norm": 5.0,
+      "learning_rate": 1.812647359282076e-06,
+      "loss": 1.72361088,
+      "memory(GiB)": 111.15,
+      "step": 57870,
+      "train_speed(iter/s)": 0.447437
+    },
+    {
+      "acc": 0.63455687,
+      "epoch": 1.4681633688483005,
+      "grad_norm": 4.96875,
+      "learning_rate": 1.8118394913277287e-06,
+      "loss": 1.62319393,
+      "memory(GiB)": 111.15,
+      "step": 57875,
+      "train_speed(iter/s)": 0.447457
+    },
+    {
+      "acc": 0.64015775,
+      "epoch": 1.4682902080162354,
+      "grad_norm": 5.71875,
+      "learning_rate": 1.8110317636029162e-06,
+      "loss": 1.62401428,
+      "memory(GiB)": 111.15,
+      "step": 57880,
+      "train_speed(iter/s)": 0.447478
+    },
+    {
+      "acc": 0.65634174,
+      "epoch": 1.4684170471841704,
+      "grad_norm": 5.78125,
+      "learning_rate": 1.810224176143165e-06,
+      "loss": 1.63373547,
+      "memory(GiB)": 111.15,
+      "step": 57885,
+      "train_speed(iter/s)": 0.447498
+    },
+    {
+      "acc": 0.65182405,
+      "epoch": 1.4685438863521054,
+      "grad_norm": 5.46875,
+      "learning_rate": 1.8094167289839953e-06,
+      "loss": 1.52193079,
+      "memory(GiB)": 111.15,
+      "step": 57890,
+      "train_speed(iter/s)": 0.447519
+    },
+    {
+      "acc": 0.6459816,
+      "epoch": 1.4686707255200406,
+      "grad_norm": 6.0625,
+      "learning_rate": 1.808609422160923e-06,
+      "loss": 1.70517731,
+      "memory(GiB)": 111.15,
+      "step": 57895,
+      "train_speed(iter/s)": 0.44754
+    },
+    {
+      "acc": 0.64571857,
+      "epoch": 1.4687975646879756,
+      "grad_norm": 5.90625,
+      "learning_rate": 1.8078022557094571e-06,
+      "loss": 1.62033043,
+      "memory(GiB)": 111.15,
+      "step": 57900,
+      "train_speed(iter/s)": 0.44756
+    },
+    {
+      "epoch": 1.4687975646879756,
+      "eval_acc": 0.6434042688299215,
+      "eval_loss": 1.6075515747070312,
+      "eval_runtime": 113.9373,
+      "eval_samples_per_second": 55.908,
+      "eval_steps_per_second": 27.954,
+      "step": 57900
+    },
+    {
+      "acc": 0.63651934,
+      "epoch": 1.4689244038559108,
+      "grad_norm": 5.75,
+      "learning_rate": 1.8069952296651e-06,
+      "loss": 1.67583351,
+      "memory(GiB)": 111.15,
+      "step": 57905,
+      "train_speed(iter/s)": 0.447171
+    },
+    {
+      "acc": 0.64516478,
+      "epoch": 1.4690512430238458,
+      "grad_norm": 6.75,
+      "learning_rate": 1.8061883440633481e-06,
+      "loss": 1.65473671,
+      "memory(GiB)": 111.15,
+      "step": 57910,
+      "train_speed(iter/s)": 0.447192
+    },
+    {
+      "acc": 0.66393442,
+      "epoch": 1.4691780821917808,
+      "grad_norm": 5.53125,
+      "learning_rate": 1.8053815989396927e-06,
+      "loss": 1.61953354,
+      "memory(GiB)": 111.15,
+      "step": 57915,
+      "train_speed(iter/s)": 0.447212
+    },
+    {
+      "acc": 0.65989981,
+      "epoch": 1.4693049213597158,
+      "grad_norm": 5.28125,
+      "learning_rate": 1.8045749943296171e-06,
+      "loss": 1.56159496,
+      "memory(GiB)": 111.15,
+      "step": 57920,
+      "train_speed(iter/s)": 0.447232
+    },
+    {
+      "acc": 0.65260477,
+      "epoch": 1.469431760527651,
+      "grad_norm": 5.53125,
+      "learning_rate": 1.8037685302686003e-06,
+      "loss": 1.66801186,
+      "memory(GiB)": 111.15,
+      "step": 57925,
+      "train_speed(iter/s)": 0.447253
+    },
+    {
+      "acc": 0.64416833,
+      "epoch": 1.469558599695586,
+      "grad_norm": 5.71875,
+      "learning_rate": 1.8029622067921133e-06,
+      "loss": 1.69989433,
+      "memory(GiB)": 111.15,
+      "step": 57930,
+      "train_speed(iter/s)": 0.447273
+    },
+    {
+      "acc": 0.66122675,
+      "epoch": 1.469685438863521,
+      "grad_norm": 6.0,
+      "learning_rate": 1.8021560239356223e-06,
+      "loss": 1.56434994,
+      "memory(GiB)": 111.15,
+      "step": 57935,
+      "train_speed(iter/s)": 0.447293
+    },
+    {
+      "acc": 0.66273861,
+      "epoch": 1.4698122780314562,
+      "grad_norm": 4.78125,
+      "learning_rate": 1.8013499817345865e-06,
+      "loss": 1.60410919,
+      "memory(GiB)": 111.15,
+      "step": 57940,
+      "train_speed(iter/s)": 0.447314
+    },
+    {
+      "acc": 0.65635219,
+      "epoch": 1.4699391171993912,
+      "grad_norm": 5.3125,
+      "learning_rate": 1.8005440802244595e-06,
+      "loss": 1.61758556,
+      "memory(GiB)": 111.15,
+      "step": 57945,
+      "train_speed(iter/s)": 0.447334
+    },
+    {
+      "acc": 0.65343552,
+      "epoch": 1.4700659563673262,
+      "grad_norm": 4.625,
+      "learning_rate": 1.7997383194406887e-06,
+      "loss": 1.5699295,
+      "memory(GiB)": 111.15,
+      "step": 57950,
+      "train_speed(iter/s)": 0.447355
+    },
+    {
+      "acc": 0.65881462,
+      "epoch": 1.4701927955352612,
+      "grad_norm": 4.78125,
+      "learning_rate": 1.7989326994187146e-06,
+      "loss": 1.61006527,
+      "memory(GiB)": 111.15,
+      "step": 57955,
+      "train_speed(iter/s)": 0.447375
+    },
+    {
+      "acc": 0.66283321,
+      "epoch": 1.4703196347031964,
+      "grad_norm": 5.875,
+      "learning_rate": 1.798127220193972e-06,
+      "loss": 1.61613007,
+      "memory(GiB)": 111.15,
+      "step": 57960,
+      "train_speed(iter/s)": 0.447395
+    },
+    {
+      "acc": 0.64601994,
+      "epoch": 1.4704464738711314,
+      "grad_norm": 6.09375,
+      "learning_rate": 1.7973218818018878e-06,
+      "loss": 1.64478722,
+      "memory(GiB)": 111.15,
+      "step": 57965,
+      "train_speed(iter/s)": 0.447416
+    },
+    {
+      "acc": 0.64834318,
+      "epoch": 1.4705733130390666,
+      "grad_norm": 5.0625,
+      "learning_rate": 1.7965166842778897e-06,
+      "loss": 1.61521797,
+      "memory(GiB)": 111.15,
+      "step": 57970,
+      "train_speed(iter/s)": 0.447437
+    },
+    {
+      "acc": 0.66106191,
+      "epoch": 1.4707001522070016,
+      "grad_norm": 4.78125,
+      "learning_rate": 1.7957116276573888e-06,
+      "loss": 1.62552776,
+      "memory(GiB)": 111.15,
+      "step": 57975,
+      "train_speed(iter/s)": 0.447457
+    },
+    {
+      "acc": 0.65128312,
+      "epoch": 1.4708269913749366,
+      "grad_norm": 5.46875,
+      "learning_rate": 1.7949067119757951e-06,
+      "loss": 1.58285294,
+      "memory(GiB)": 111.15,
+      "step": 57980,
+      "train_speed(iter/s)": 0.447477
+    },
+    {
+      "acc": 0.6336905,
+      "epoch": 1.4709538305428715,
+      "grad_norm": 5.6875,
+      "learning_rate": 1.7941019372685154e-06,
+      "loss": 1.67761574,
+      "memory(GiB)": 111.15,
+      "step": 57985,
+      "train_speed(iter/s)": 0.447498
+    },
+    {
+      "acc": 0.64565945,
+      "epoch": 1.4710806697108068,
+      "grad_norm": 6.3125,
+      "learning_rate": 1.7932973035709471e-06,
+      "loss": 1.53968563,
+      "memory(GiB)": 111.15,
+      "step": 57990,
+      "train_speed(iter/s)": 0.447518
+    },
+    {
+      "acc": 0.65308003,
+      "epoch": 1.4712075088787417,
+      "grad_norm": 5.9375,
+      "learning_rate": 1.792492810918479e-06,
+      "loss": 1.61027184,
+      "memory(GiB)": 111.15,
+      "step": 57995,
+      "train_speed(iter/s)": 0.447539
+    },
+    {
+      "acc": 0.64064445,
+      "epoch": 1.4713343480466767,
+      "grad_norm": 5.0,
+      "learning_rate": 1.7916884593464957e-06,
+      "loss": 1.66607552,
+      "memory(GiB)": 111.15,
+      "step": 58000,
+      "train_speed(iter/s)": 0.44756
+    },
+    {
+      "epoch": 1.4713343480466767,
+      "eval_acc": 0.6434406145858443,
+      "eval_loss": 1.6075291633605957,
+      "eval_runtime": 114.271,
+      "eval_samples_per_second": 55.745,
+      "eval_steps_per_second": 27.872,
+      "step": 58000
+    },
+    {
+      "acc": 0.65243092,
+      "epoch": 1.471461187214612,
+      "grad_norm": 5.78125,
+      "learning_rate": 1.79088424889038e-06,
+      "loss": 1.66656609,
+      "memory(GiB)": 111.15,
+      "step": 58005,
+      "train_speed(iter/s)": 0.447169
+    },
+    {
+      "acc": 0.65252295,
+      "epoch": 1.471588026382547,
+      "grad_norm": 6.5,
+      "learning_rate": 1.7900801795855043e-06,
+      "loss": 1.60830536,
+      "memory(GiB)": 111.15,
+      "step": 58010,
+      "train_speed(iter/s)": 0.44719
+    },
+    {
+      "acc": 0.64745378,
+      "epoch": 1.471714865550482,
+      "grad_norm": 5.96875,
+      "learning_rate": 1.7892762514672303e-06,
+      "loss": 1.60676422,
+      "memory(GiB)": 111.15,
+      "step": 58015,
+      "train_speed(iter/s)": 0.44721
+    },
+    {
+      "acc": 0.6419374,
+      "epoch": 1.471841704718417,
+      "grad_norm": 5.59375,
+      "learning_rate": 1.7884724645709228e-06,
+      "loss": 1.65562019,
+      "memory(GiB)": 111.15,
+      "step": 58020,
+      "train_speed(iter/s)": 0.447231
+    },
+    {
+      "acc": 0.65520372,
+      "epoch": 1.4719685438863521,
+      "grad_norm": 5.09375,
+      "learning_rate": 1.7876688189319353e-06,
+      "loss": 1.63726845,
+      "memory(GiB)": 111.15,
+      "step": 58025,
+      "train_speed(iter/s)": 0.447251
+    },
+    {
+      "acc": 0.66013737,
+      "epoch": 1.472095383054287,
+      "grad_norm": 4.40625,
+      "learning_rate": 1.7868653145856163e-06,
+      "loss": 1.56042633,
+      "memory(GiB)": 111.15,
+      "step": 58030,
+      "train_speed(iter/s)": 0.447272
+    },
+    {
+      "acc": 0.67318954,
+      "epoch": 1.4722222222222223,
+      "grad_norm": 6.09375,
+      "learning_rate": 1.7860619515673034e-06,
+      "loss": 1.48575382,
+      "memory(GiB)": 111.15,
+      "step": 58035,
+      "train_speed(iter/s)": 0.447292
+    },
+    {
+      "acc": 0.66508455,
+      "epoch": 1.4723490613901573,
+      "grad_norm": 4.875,
+      "learning_rate": 1.785258729912337e-06,
+      "loss": 1.6196579,
+      "memory(GiB)": 111.15,
+      "step": 58040,
+      "train_speed(iter/s)": 0.447313
+    },
+    {
+      "acc": 0.6358552,
+      "epoch": 1.4724759005580923,
+      "grad_norm": 5.25,
+      "learning_rate": 1.784455649656044e-06,
+      "loss": 1.73560295,
+      "memory(GiB)": 111.15,
+      "step": 58045,
+      "train_speed(iter/s)": 0.447333
+    },
+    {
+      "acc": 0.65767322,
+      "epoch": 1.4726027397260273,
+      "grad_norm": 4.59375,
+      "learning_rate": 1.7836527108337482e-06,
+      "loss": 1.65537186,
+      "memory(GiB)": 111.15,
+      "step": 58050,
+      "train_speed(iter/s)": 0.447353
+    },
+    {
+      "acc": 0.6474618,
+      "epoch": 1.4727295788939625,
+      "grad_norm": 4.40625,
+      "learning_rate": 1.782849913480766e-06,
+      "loss": 1.5721571,
+      "memory(GiB)": 111.15,
+      "step": 58055,
+      "train_speed(iter/s)": 0.447374
+    },
+    {
+      "acc": 0.64921436,
+      "epoch": 1.4728564180618975,
+      "grad_norm": 4.9375,
+      "learning_rate": 1.7820472576324078e-06,
+      "loss": 1.62607441,
+      "memory(GiB)": 111.15,
+      "step": 58060,
+      "train_speed(iter/s)": 0.447394
+    },
+    {
+      "acc": 0.66671238,
+      "epoch": 1.4729832572298327,
+      "grad_norm": 5.28125,
+      "learning_rate": 1.7812447433239789e-06,
+      "loss": 1.5835165,
+      "memory(GiB)": 111.15,
+      "step": 58065,
+      "train_speed(iter/s)": 0.447415
+    },
+    {
+      "acc": 0.64661627,
+      "epoch": 1.4731100963977677,
+      "grad_norm": 5.0625,
+      "learning_rate": 1.7804423705907764e-06,
+      "loss": 1.75292282,
+      "memory(GiB)": 111.15,
+      "step": 58070,
+      "train_speed(iter/s)": 0.447435
+    },
+    {
+      "acc": 0.65741658,
+      "epoch": 1.4732369355657027,
+      "grad_norm": 4.875,
+      "learning_rate": 1.779640139468093e-06,
+      "loss": 1.58164654,
+      "memory(GiB)": 111.15,
+      "step": 58075,
+      "train_speed(iter/s)": 0.447456
+    },
+    {
+      "acc": 0.65454621,
+      "epoch": 1.4733637747336377,
+      "grad_norm": 5.375,
+      "learning_rate": 1.778838049991214e-06,
+      "loss": 1.64990768,
+      "memory(GiB)": 111.15,
+      "step": 58080,
+      "train_speed(iter/s)": 0.447476
+    },
+    {
+      "acc": 0.63925085,
+      "epoch": 1.4734906139015729,
+      "grad_norm": 5.25,
+      "learning_rate": 1.778036102195419e-06,
+      "loss": 1.60106049,
+      "memory(GiB)": 111.15,
+      "step": 58085,
+      "train_speed(iter/s)": 0.447497
+    },
+    {
+      "acc": 0.64884443,
+      "epoch": 1.4736174530695079,
+      "grad_norm": 5.3125,
+      "learning_rate": 1.7772342961159817e-06,
+      "loss": 1.62945175,
+      "memory(GiB)": 111.15,
+      "step": 58090,
+      "train_speed(iter/s)": 0.447517
+    },
+    {
+      "acc": 0.65488653,
+      "epoch": 1.4737442922374429,
+      "grad_norm": 5.90625,
+      "learning_rate": 1.7764326317881681e-06,
+      "loss": 1.63148022,
+      "memory(GiB)": 111.15,
+      "step": 58095,
+      "train_speed(iter/s)": 0.447538
+    },
+    {
+      "acc": 0.66004686,
+      "epoch": 1.473871131405378,
+      "grad_norm": 6.59375,
+      "learning_rate": 1.77563110924724e-06,
+      "loss": 1.62857094,
+      "memory(GiB)": 111.15,
+      "step": 58100,
+      "train_speed(iter/s)": 0.447558
+    },
+    {
+      "epoch": 1.473871131405378,
+      "eval_acc": 0.6434422856550821,
+      "eval_loss": 1.6075628995895386,
+      "eval_runtime": 113.8446,
+      "eval_samples_per_second": 55.953,
+      "eval_steps_per_second": 27.977,
+      "step": 58100
+    },
+    {
+      "acc": 0.64455619,
+      "epoch": 1.473997970573313,
+      "grad_norm": 5.28125,
+      "learning_rate": 1.7748297285284494e-06,
+      "loss": 1.62297344,
+      "memory(GiB)": 111.15,
+      "step": 58105,
+      "train_speed(iter/s)": 0.447171
+    },
+    {
+      "acc": 0.65427437,
+      "epoch": 1.474124809741248,
+      "grad_norm": 5.875,
+      "learning_rate": 1.7740284896670507e-06,
+      "loss": 1.55753374,
+      "memory(GiB)": 111.15,
+      "step": 58110,
+      "train_speed(iter/s)": 0.447191
+    },
+    {
+      "acc": 0.65848312,
+      "epoch": 1.474251648909183,
+      "grad_norm": 5.46875,
+      "learning_rate": 1.7732273926982796e-06,
+      "loss": 1.61133423,
+      "memory(GiB)": 111.15,
+      "step": 58115,
+      "train_speed(iter/s)": 0.447211
+    },
+    {
+      "acc": 0.65760756,
+      "epoch": 1.4743784880771182,
+      "grad_norm": 4.8125,
+      "learning_rate": 1.7724264376573747e-06,
+      "loss": 1.57222137,
+      "memory(GiB)": 111.15,
+      "step": 58120,
+      "train_speed(iter/s)": 0.447231
+    },
+    {
+      "acc": 0.64078588,
+      "epoch": 1.4745053272450532,
+      "grad_norm": 5.25,
+      "learning_rate": 1.7716256245795631e-06,
+      "loss": 1.68827305,
+      "memory(GiB)": 111.15,
+      "step": 58125,
+      "train_speed(iter/s)": 0.447251
+    },
+    {
+      "acc": 0.63952546,
+      "epoch": 1.4746321664129884,
+      "grad_norm": 5.34375,
+      "learning_rate": 1.7708249535000737e-06,
+      "loss": 1.64110184,
+      "memory(GiB)": 111.15,
+      "step": 58130,
+      "train_speed(iter/s)": 0.447272
+    },
+    {
+      "acc": 0.63487406,
+      "epoch": 1.4747590055809234,
+      "grad_norm": 5.03125,
+      "learning_rate": 1.7700244244541182e-06,
+      "loss": 1.64078331,
+      "memory(GiB)": 111.15,
+      "step": 58135,
+      "train_speed(iter/s)": 0.447292
+    },
+    {
+      "acc": 0.66445098,
+      "epoch": 1.4748858447488584,
+      "grad_norm": 5.8125,
+      "learning_rate": 1.7692240374769081e-06,
+      "loss": 1.6231287,
+      "memory(GiB)": 111.15,
+      "step": 58140,
+      "train_speed(iter/s)": 0.447312
+    },
+    {
+      "acc": 0.65545626,
+      "epoch": 1.4750126839167934,
+      "grad_norm": 5.4375,
+      "learning_rate": 1.7684237926036507e-06,
+      "loss": 1.68126259,
+      "memory(GiB)": 111.15,
+      "step": 58145,
+      "train_speed(iter/s)": 0.447333
+    },
+    {
+      "acc": 0.64123259,
+      "epoch": 1.4751395230847286,
+      "grad_norm": 5.0625,
+      "learning_rate": 1.7676236898695442e-06,
+      "loss": 1.65162907,
+      "memory(GiB)": 111.15,
+      "step": 58150,
+      "train_speed(iter/s)": 0.447353
+    },
+    {
+      "acc": 0.64478512,
+      "epoch": 1.4752663622526636,
+      "grad_norm": 5.15625,
+      "learning_rate": 1.7668237293097762e-06,
+      "loss": 1.65856705,
+      "memory(GiB)": 111.15,
+      "step": 58155,
+      "train_speed(iter/s)": 0.447373
+    },
+    {
+      "acc": 0.65980134,
+      "epoch": 1.4753932014205986,
+      "grad_norm": 5.25,
+      "learning_rate": 1.7660239109595374e-06,
+      "loss": 1.58383846,
+      "memory(GiB)": 111.15,
+      "step": 58160,
+      "train_speed(iter/s)": 0.447394
+    },
+    {
+      "acc": 0.63060603,
+      "epoch": 1.4755200405885338,
+      "grad_norm": 6.5,
+      "learning_rate": 1.7652242348540056e-06,
+      "loss": 1.71057816,
+      "memory(GiB)": 111.15,
+      "step": 58165,
+      "train_speed(iter/s)": 0.447414
+    },
+    {
+      "acc": 0.6524229,
+      "epoch": 1.4756468797564688,
+      "grad_norm": 5.03125,
+      "learning_rate": 1.764424701028356e-06,
+      "loss": 1.55293636,
+      "memory(GiB)": 111.15,
+      "step": 58170,
+      "train_speed(iter/s)": 0.447434
+    },
+    {
+      "acc": 0.63688283,
+      "epoch": 1.4757737189244038,
+      "grad_norm": 5.40625,
+      "learning_rate": 1.7636253095177507e-06,
+      "loss": 1.70025902,
+      "memory(GiB)": 111.15,
+      "step": 58175,
+      "train_speed(iter/s)": 0.447455
+    },
+    {
+      "acc": 0.63268723,
+      "epoch": 1.4759005580923388,
+      "grad_norm": 4.84375,
+      "learning_rate": 1.762826060357355e-06,
+      "loss": 1.63297615,
+      "memory(GiB)": 111.15,
+      "step": 58180,
+      "train_speed(iter/s)": 0.447475
+    },
+    {
+      "acc": 0.65657501,
+      "epoch": 1.476027397260274,
+      "grad_norm": 5.25,
+      "learning_rate": 1.762026953582322e-06,
+      "loss": 1.60180187,
+      "memory(GiB)": 111.15,
+      "step": 58185,
+      "train_speed(iter/s)": 0.447496
+    },
+    {
+      "acc": 0.65074739,
+      "epoch": 1.476154236428209,
+      "grad_norm": 6.25,
+      "learning_rate": 1.7612279892278006e-06,
+      "loss": 1.59531555,
+      "memory(GiB)": 111.15,
+      "step": 58190,
+      "train_speed(iter/s)": 0.447516
+    },
+    {
+      "acc": 0.65543537,
+      "epoch": 1.4762810755961442,
+      "grad_norm": 5.21875,
+      "learning_rate": 1.7604291673289314e-06,
+      "loss": 1.61665039,
+      "memory(GiB)": 111.15,
+      "step": 58195,
+      "train_speed(iter/s)": 0.447536
+    },
+    {
+      "acc": 0.65638566,
+      "epoch": 1.4764079147640792,
+      "grad_norm": 5.375,
+      "learning_rate": 1.759630487920852e-06,
+      "loss": 1.55604658,
+      "memory(GiB)": 111.15,
+      "step": 58200,
+      "train_speed(iter/s)": 0.447557
+    },
+    {
+      "epoch": 1.4764079147640792,
+      "eval_acc": 0.6433879759048526,
+      "eval_loss": 1.6074656248092651,
+      "eval_runtime": 113.2712,
+      "eval_samples_per_second": 56.237,
+      "eval_steps_per_second": 28.118,
+      "step": 58200
+    },
+    {
+      "acc": 0.65556593,
+      "epoch": 1.4765347539320142,
+      "grad_norm": 4.78125,
+      "learning_rate": 1.7588319510386903e-06,
+      "loss": 1.59348459,
+      "memory(GiB)": 111.15,
+      "step": 58205,
+      "train_speed(iter/s)": 0.447171
+    },
+    {
+      "acc": 0.64962611,
+      "epoch": 1.4766615930999492,
+      "grad_norm": 4.78125,
+      "learning_rate": 1.7580335567175704e-06,
+      "loss": 1.62083473,
+      "memory(GiB)": 111.15,
+      "step": 58210,
+      "train_speed(iter/s)": 0.447192
+    },
+    {
+      "acc": 0.63872461,
+      "epoch": 1.4767884322678844,
+      "grad_norm": 4.8125,
+      "learning_rate": 1.7572353049926094e-06,
+      "loss": 1.71400948,
+      "memory(GiB)": 111.15,
+      "step": 58215,
+      "train_speed(iter/s)": 0.447212
+    },
+    {
+      "acc": 0.66591396,
+      "epoch": 1.4769152714358194,
+      "grad_norm": 4.84375,
+      "learning_rate": 1.7564371958989173e-06,
+      "loss": 1.55014515,
+      "memory(GiB)": 111.15,
+      "step": 58220,
+      "train_speed(iter/s)": 0.447232
+    },
+    {
+      "acc": 0.65837526,
+      "epoch": 1.4770421106037546,
+      "grad_norm": 6.21875,
+      "learning_rate": 1.7556392294715984e-06,
+      "loss": 1.62041397,
+      "memory(GiB)": 111.15,
+      "step": 58225,
+      "train_speed(iter/s)": 0.447252
+    },
+    {
+      "acc": 0.64168434,
+      "epoch": 1.4771689497716896,
+      "grad_norm": 5.6875,
+      "learning_rate": 1.7548414057457518e-06,
+      "loss": 1.62254372,
+      "memory(GiB)": 111.15,
+      "step": 58230,
+      "train_speed(iter/s)": 0.447273
+    },
+    {
+      "acc": 0.65857558,
+      "epoch": 1.4772957889396245,
+      "grad_norm": 4.8125,
+      "learning_rate": 1.7540437247564685e-06,
+      "loss": 1.62731152,
+      "memory(GiB)": 111.15,
+      "step": 58235,
+      "train_speed(iter/s)": 0.447293
+    },
+    {
+      "acc": 0.66837826,
+      "epoch": 1.4774226281075595,
+      "grad_norm": 4.53125,
+      "learning_rate": 1.7532461865388345e-06,
+      "loss": 1.54287205,
+      "memory(GiB)": 111.15,
+      "step": 58240,
+      "train_speed(iter/s)": 0.447313
+    },
+    {
+      "acc": 0.6482295,
+      "epoch": 1.4775494672754947,
+      "grad_norm": 5.53125,
+      "learning_rate": 1.752448791127927e-06,
+      "loss": 1.61667824,
+      "memory(GiB)": 111.15,
+      "step": 58245,
+      "train_speed(iter/s)": 0.447334
+    },
+    {
+      "acc": 0.65805483,
+      "epoch": 1.4776763064434297,
+      "grad_norm": 5.6875,
+      "learning_rate": 1.7516515385588245e-06,
+      "loss": 1.62177048,
+      "memory(GiB)": 111.15,
+      "step": 58250,
+      "train_speed(iter/s)": 0.447354
+    },
+    {
+      "acc": 0.63581829,
+      "epoch": 1.4778031456113647,
+      "grad_norm": 6.0,
+      "learning_rate": 1.7508544288665885e-06,
+      "loss": 1.65450401,
+      "memory(GiB)": 111.15,
+      "step": 58255,
+      "train_speed(iter/s)": 0.447375
+    },
+    {
+      "acc": 0.66169558,
+      "epoch": 1.4779299847793,
+      "grad_norm": 4.8125,
+      "learning_rate": 1.750057462086281e-06,
+      "loss": 1.59355145,
+      "memory(GiB)": 111.15,
+      "step": 58260,
+      "train_speed(iter/s)": 0.447395
+    },
+    {
+      "acc": 0.65215521,
+      "epoch": 1.478056823947235,
+      "grad_norm": 5.03125,
+      "learning_rate": 1.7492606382529542e-06,
+      "loss": 1.5924017,
+      "memory(GiB)": 111.15,
+      "step": 58265,
+      "train_speed(iter/s)": 0.447415
+    },
+    {
+      "acc": 0.66226811,
+      "epoch": 1.47818366311517,
+      "grad_norm": 5.5625,
+      "learning_rate": 1.748463957401662e-06,
+      "loss": 1.65245895,
+      "memory(GiB)": 111.15,
+      "step": 58270,
+      "train_speed(iter/s)": 0.447436
+    },
+    {
+      "acc": 0.64803314,
+      "epoch": 1.478310502283105,
+      "grad_norm": 5.59375,
+      "learning_rate": 1.7476674195674404e-06,
+      "loss": 1.64765358,
+      "memory(GiB)": 111.15,
+      "step": 58275,
+      "train_speed(iter/s)": 0.447456
+    },
+    {
+      "acc": 0.65740004,
+      "epoch": 1.47843734145104,
+      "grad_norm": 6.125,
+      "learning_rate": 1.7468710247853244e-06,
+      "loss": 1.65339813,
+      "memory(GiB)": 111.15,
+      "step": 58280,
+      "train_speed(iter/s)": 0.447477
+    },
+    {
+      "acc": 0.64943376,
+      "epoch": 1.478564180618975,
+      "grad_norm": 5.15625,
+      "learning_rate": 1.7460747730903466e-06,
+      "loss": 1.56628866,
+      "memory(GiB)": 111.15,
+      "step": 58285,
+      "train_speed(iter/s)": 0.447497
+    },
+    {
+      "acc": 0.64941235,
+      "epoch": 1.4786910197869103,
+      "grad_norm": 6.03125,
+      "learning_rate": 1.7452786645175297e-06,
+      "loss": 1.61458778,
+      "memory(GiB)": 111.15,
+      "step": 58290,
+      "train_speed(iter/s)": 0.447518
+    },
+    {
+      "acc": 0.6476408,
+      "epoch": 1.4788178589548453,
+      "grad_norm": 5.0625,
+      "learning_rate": 1.7444826991018864e-06,
+      "loss": 1.6823616,
+      "memory(GiB)": 111.15,
+      "step": 58295,
+      "train_speed(iter/s)": 0.447538
+    },
+    {
+      "acc": 0.65026379,
+      "epoch": 1.4789446981227803,
+      "grad_norm": 5.25,
+      "learning_rate": 1.7436868768784276e-06,
+      "loss": 1.63072071,
+      "memory(GiB)": 111.15,
+      "step": 58300,
+      "train_speed(iter/s)": 0.447558
+    },
+    {
+      "epoch": 1.4789446981227803,
+      "eval_acc": 0.6433888114394716,
+      "eval_loss": 1.6075495481491089,
+      "eval_runtime": 113.3233,
+      "eval_samples_per_second": 56.211,
+      "eval_steps_per_second": 28.105,
+      "step": 58300
+    },
+    {
+      "acc": 0.65594077,
+      "epoch": 1.4790715372907153,
+      "grad_norm": 6.40625,
+      "learning_rate": 1.7428911978821594e-06,
+      "loss": 1.59324818,
+      "memory(GiB)": 111.15,
+      "step": 58305,
+      "train_speed(iter/s)": 0.447174
+    },
+    {
+      "acc": 0.63910542,
+      "epoch": 1.4791983764586505,
+      "grad_norm": 5.78125,
+      "learning_rate": 1.7420956621480806e-06,
+      "loss": 1.65394993,
+      "memory(GiB)": 111.15,
+      "step": 58310,
+      "train_speed(iter/s)": 0.447194
+    },
+    {
+      "acc": 0.65935478,
+      "epoch": 1.4793252156265855,
+      "grad_norm": 4.6875,
+      "learning_rate": 1.7413002697111765e-06,
+      "loss": 1.53878422,
+      "memory(GiB)": 111.15,
+      "step": 58315,
+      "train_speed(iter/s)": 0.447214
+    },
+    {
+      "acc": 0.65939264,
+      "epoch": 1.4794520547945205,
+      "grad_norm": 5.59375,
+      "learning_rate": 1.7405050206064372e-06,
+      "loss": 1.62786446,
+      "memory(GiB)": 111.15,
+      "step": 58320,
+      "train_speed(iter/s)": 0.447235
+    },
+    {
+      "acc": 0.6469347,
+      "epoch": 1.4795788939624557,
+      "grad_norm": 4.6875,
+      "learning_rate": 1.73970991486884e-06,
+      "loss": 1.63285789,
+      "memory(GiB)": 111.15,
+      "step": 58325,
+      "train_speed(iter/s)": 0.447255
+    },
+    {
+      "acc": 0.63600731,
+      "epoch": 1.4797057331303907,
+      "grad_norm": 6.375,
+      "learning_rate": 1.7389149525333565e-06,
+      "loss": 1.68682938,
+      "memory(GiB)": 111.15,
+      "step": 58330,
+      "train_speed(iter/s)": 0.447275
+    },
+    {
+      "acc": 0.62610197,
+      "epoch": 1.4798325722983257,
+      "grad_norm": 5.0,
+      "learning_rate": 1.7381201336349535e-06,
+      "loss": 1.62766609,
+      "memory(GiB)": 111.15,
+      "step": 58335,
+      "train_speed(iter/s)": 0.447295
+    },
+    {
+      "acc": 0.64607267,
+      "epoch": 1.4799594114662606,
+      "grad_norm": 5.375,
+      "learning_rate": 1.7373254582085896e-06,
+      "loss": 1.63782921,
+      "memory(GiB)": 111.15,
+      "step": 58340,
+      "train_speed(iter/s)": 0.447316
+    },
+    {
+      "acc": 0.65470257,
+      "epoch": 1.4800862506341959,
+      "grad_norm": 6.21875,
+      "learning_rate": 1.7365309262892194e-06,
+      "loss": 1.58465099,
+      "memory(GiB)": 111.15,
+      "step": 58345,
+      "train_speed(iter/s)": 0.447336
+    },
+    {
+      "acc": 0.62747574,
+      "epoch": 1.4802130898021308,
+      "grad_norm": 6.40625,
+      "learning_rate": 1.735736537911789e-06,
+      "loss": 1.70026073,
+      "memory(GiB)": 111.15,
+      "step": 58350,
+      "train_speed(iter/s)": 0.447356
+    },
+    {
+      "acc": 0.63447533,
+      "epoch": 1.480339928970066,
+      "grad_norm": 4.75,
+      "learning_rate": 1.7349422931112403e-06,
+      "loss": 1.68418846,
+      "memory(GiB)": 111.15,
+      "step": 58355,
+      "train_speed(iter/s)": 0.447377
+    },
+    {
+      "acc": 0.66041017,
+      "epoch": 1.480466768138001,
+      "grad_norm": 4.5,
+      "learning_rate": 1.7341481919225062e-06,
+      "loss": 1.60844879,
+      "memory(GiB)": 111.15,
+      "step": 58360,
+      "train_speed(iter/s)": 0.447397
+    },
+    {
+      "acc": 0.65298777,
+      "epoch": 1.480593607305936,
+      "grad_norm": 4.6875,
+      "learning_rate": 1.733354234380516e-06,
+      "loss": 1.58539066,
+      "memory(GiB)": 111.15,
+      "step": 58365,
+      "train_speed(iter/s)": 0.447417
+    },
+    {
+      "acc": 0.64562836,
+      "epoch": 1.480720446473871,
+      "grad_norm": 5.03125,
+      "learning_rate": 1.7325604205201912e-06,
+      "loss": 1.57029438,
+      "memory(GiB)": 111.15,
+      "step": 58370,
+      "train_speed(iter/s)": 0.447437
+    },
+    {
+      "acc": 0.6428997,
+      "epoch": 1.4808472856418062,
+      "grad_norm": 4.6875,
+      "learning_rate": 1.7317667503764468e-06,
+      "loss": 1.57957144,
+      "memory(GiB)": 111.15,
+      "step": 58375,
+      "train_speed(iter/s)": 0.447458
+    },
+    {
+      "acc": 0.6374732,
+      "epoch": 1.4809741248097412,
+      "grad_norm": 5.21875,
+      "learning_rate": 1.7309732239841926e-06,
+      "loss": 1.7527523,
+      "memory(GiB)": 111.15,
+      "step": 58380,
+      "train_speed(iter/s)": 0.447478
+    },
+    {
+      "acc": 0.659554,
+      "epoch": 1.4811009639776764,
+      "grad_norm": 5.25,
+      "learning_rate": 1.730179841378331e-06,
+      "loss": 1.57223225,
+      "memory(GiB)": 111.15,
+      "step": 58385,
+      "train_speed(iter/s)": 0.447498
+    },
+    {
+      "acc": 0.6576242,
+      "epoch": 1.4812278031456114,
+      "grad_norm": 4.78125,
+      "learning_rate": 1.7293866025937589e-06,
+      "loss": 1.60860596,
+      "memory(GiB)": 111.15,
+      "step": 58390,
+      "train_speed(iter/s)": 0.447518
+    },
+    {
+      "acc": 0.65528603,
+      "epoch": 1.4813546423135464,
+      "grad_norm": 4.9375,
+      "learning_rate": 1.7285935076653659e-06,
+      "loss": 1.54409523,
+      "memory(GiB)": 111.15,
+      "step": 58395,
+      "train_speed(iter/s)": 0.447539
+    },
+    {
+      "acc": 0.66362906,
+      "epoch": 1.4814814814814814,
+      "grad_norm": 5.8125,
+      "learning_rate": 1.7278005566280365e-06,
+      "loss": 1.58631506,
+      "memory(GiB)": 111.15,
+      "step": 58400,
+      "train_speed(iter/s)": 0.447559
+    },
+    {
+      "epoch": 1.4814814814814814,
+      "eval_acc": 0.6434790491783143,
+      "eval_loss": 1.6074994802474976,
+      "eval_runtime": 113.1257,
+      "eval_samples_per_second": 56.309,
+      "eval_steps_per_second": 28.155,
+      "step": 58400
+    },
+    {
+      "acc": 0.63569055,
+      "epoch": 1.4816083206494166,
+      "grad_norm": 5.71875,
+      "learning_rate": 1.727007749516646e-06,
+      "loss": 1.68203392,
+      "memory(GiB)": 111.15,
+      "step": 58405,
+      "train_speed(iter/s)": 0.447176
+    },
+    {
+      "acc": 0.64839907,
+      "epoch": 1.4817351598173516,
+      "grad_norm": 4.84375,
+      "learning_rate": 1.7262150863660709e-06,
+      "loss": 1.69707088,
+      "memory(GiB)": 111.15,
+      "step": 58410,
+      "train_speed(iter/s)": 0.447196
+    },
+    {
+      "acc": 0.64876556,
+      "epoch": 1.4818619989852866,
+      "grad_norm": 5.09375,
+      "learning_rate": 1.7254225672111713e-06,
+      "loss": 1.6409153,
+      "memory(GiB)": 111.15,
+      "step": 58415,
+      "train_speed(iter/s)": 0.447216
+    },
+    {
+      "acc": 0.64870543,
+      "epoch": 1.4819888381532218,
+      "grad_norm": 6.34375,
+      "learning_rate": 1.7246301920868052e-06,
+      "loss": 1.61809883,
+      "memory(GiB)": 111.15,
+      "step": 58420,
+      "train_speed(iter/s)": 0.447236
+    },
+    {
+      "acc": 0.65386925,
+      "epoch": 1.4821156773211568,
+      "grad_norm": 5.78125,
+      "learning_rate": 1.723837961027829e-06,
+      "loss": 1.53111248,
+      "memory(GiB)": 111.15,
+      "step": 58425,
+      "train_speed(iter/s)": 0.447256
+    },
+    {
+      "acc": 0.65757084,
+      "epoch": 1.4822425164890918,
+      "grad_norm": 6.34375,
+      "learning_rate": 1.723045874069087e-06,
+      "loss": 1.61952648,
+      "memory(GiB)": 111.15,
+      "step": 58430,
+      "train_speed(iter/s)": 0.447276
+    },
+    {
+      "acc": 0.65925589,
+      "epoch": 1.4823693556570268,
+      "grad_norm": 5.03125,
+      "learning_rate": 1.7222539312454167e-06,
+      "loss": 1.6399292,
+      "memory(GiB)": 111.15,
+      "step": 58435,
+      "train_speed(iter/s)": 0.447296
+    },
+    {
+      "acc": 0.64644279,
+      "epoch": 1.482496194824962,
+      "grad_norm": 6.0,
+      "learning_rate": 1.7214621325916515e-06,
+      "loss": 1.66069756,
+      "memory(GiB)": 111.15,
+      "step": 58440,
+      "train_speed(iter/s)": 0.447317
+    },
+    {
+      "acc": 0.66636057,
+      "epoch": 1.482623033992897,
+      "grad_norm": 7.4375,
+      "learning_rate": 1.7206704781426204e-06,
+      "loss": 1.57163591,
+      "memory(GiB)": 111.15,
+      "step": 58445,
+      "train_speed(iter/s)": 0.447337
+    },
+    {
+      "acc": 0.66229782,
+      "epoch": 1.4827498731608322,
+      "grad_norm": 5.71875,
+      "learning_rate": 1.7198789679331445e-06,
+      "loss": 1.57930679,
+      "memory(GiB)": 111.15,
+      "step": 58450,
+      "train_speed(iter/s)": 0.447357
+    },
+    {
+      "acc": 0.6611557,
+      "epoch": 1.4828767123287672,
+      "grad_norm": 4.0,
+      "learning_rate": 1.7190876019980329e-06,
+      "loss": 1.54644833,
+      "memory(GiB)": 111.15,
+      "step": 58455,
+      "train_speed(iter/s)": 0.447378
+    },
+    {
+      "acc": 0.64931006,
+      "epoch": 1.4830035514967022,
+      "grad_norm": 5.21875,
+      "learning_rate": 1.7182963803720987e-06,
+      "loss": 1.61827431,
+      "memory(GiB)": 111.15,
+      "step": 58460,
+      "train_speed(iter/s)": 0.447398
+    },
+    {
+      "acc": 0.63233333,
+      "epoch": 1.4831303906646371,
+      "grad_norm": 6.0625,
+      "learning_rate": 1.7175053030901418e-06,
+      "loss": 1.6987751,
+      "memory(GiB)": 111.15,
+      "step": 58465,
+      "train_speed(iter/s)": 0.447418
+    },
+    {
+      "acc": 0.65638218,
+      "epoch": 1.4832572298325724,
+      "grad_norm": 5.59375,
+      "learning_rate": 1.7167143701869582e-06,
+      "loss": 1.61285973,
+      "memory(GiB)": 111.15,
+      "step": 58470,
+      "train_speed(iter/s)": 0.447438
+    },
+    {
+      "acc": 0.6474638,
+      "epoch": 1.4833840690005073,
+      "grad_norm": 6.0,
+      "learning_rate": 1.7159235816973318e-06,
+      "loss": 1.61614189,
+      "memory(GiB)": 111.15,
+      "step": 58475,
+      "train_speed(iter/s)": 0.447459
+    },
+    {
+      "acc": 0.65271401,
+      "epoch": 1.4835109081684423,
+      "grad_norm": 4.84375,
+      "learning_rate": 1.7151329376560506e-06,
+      "loss": 1.65035954,
+      "memory(GiB)": 111.15,
+      "step": 58480,
+      "train_speed(iter/s)": 0.447479
+    },
+    {
+      "acc": 0.64618397,
+      "epoch": 1.4836377473363775,
+      "grad_norm": 4.40625,
+      "learning_rate": 1.7143424380978885e-06,
+      "loss": 1.62648659,
+      "memory(GiB)": 111.15,
+      "step": 58485,
+      "train_speed(iter/s)": 0.447499
+    },
+    {
+      "acc": 0.64870901,
+      "epoch": 1.4837645865043125,
+      "grad_norm": 5.75,
+      "learning_rate": 1.7135520830576157e-06,
+      "loss": 1.67320175,
+      "memory(GiB)": 111.15,
+      "step": 58490,
+      "train_speed(iter/s)": 0.447519
+    },
+    {
+      "acc": 0.65418048,
+      "epoch": 1.4838914256722475,
+      "grad_norm": 4.78125,
+      "learning_rate": 1.712761872569995e-06,
+      "loss": 1.60712719,
+      "memory(GiB)": 111.15,
+      "step": 58495,
+      "train_speed(iter/s)": 0.44754
+    },
+    {
+      "acc": 0.64903831,
+      "epoch": 1.4840182648401825,
+      "grad_norm": 4.90625,
+      "learning_rate": 1.7119718066697838e-06,
+      "loss": 1.64217968,
+      "memory(GiB)": 111.15,
+      "step": 58500,
+      "train_speed(iter/s)": 0.44756
+    },
+    {
+      "epoch": 1.4840182648401825,
+      "eval_acc": 0.6434443744916294,
+      "eval_loss": 1.6075260639190674,
+      "eval_runtime": 114.1357,
+      "eval_samples_per_second": 55.811,
+      "eval_steps_per_second": 27.905,
+      "step": 58500
+    },
+    {
+      "acc": 0.64305115,
+      "epoch": 1.4841451040081177,
+      "grad_norm": 5.0625,
+      "learning_rate": 1.7111818853917323e-06,
+      "loss": 1.61544876,
+      "memory(GiB)": 111.15,
+      "step": 58505,
+      "train_speed(iter/s)": 0.447174
+    },
+    {
+      "acc": 0.64864855,
+      "epoch": 1.4842719431760527,
+      "grad_norm": 5.0,
+      "learning_rate": 1.710392108770585e-06,
+      "loss": 1.6819603,
+      "memory(GiB)": 111.15,
+      "step": 58510,
+      "train_speed(iter/s)": 0.447194
+    },
+    {
+      "acc": 0.65075321,
+      "epoch": 1.484398782343988,
+      "grad_norm": 5.125,
+      "learning_rate": 1.7096024768410796e-06,
+      "loss": 1.65263882,
+      "memory(GiB)": 111.15,
+      "step": 58515,
+      "train_speed(iter/s)": 0.447214
+    },
+    {
+      "acc": 0.637534,
+      "epoch": 1.484525621511923,
+      "grad_norm": 4.5625,
+      "learning_rate": 1.7088129896379484e-06,
+      "loss": 1.67136574,
+      "memory(GiB)": 111.15,
+      "step": 58520,
+      "train_speed(iter/s)": 0.447234
+    },
+    {
+      "acc": 0.63932772,
+      "epoch": 1.484652460679858,
+      "grad_norm": 4.96875,
+      "learning_rate": 1.7080236471959155e-06,
+      "loss": 1.60586166,
+      "memory(GiB)": 111.15,
+      "step": 58525,
+      "train_speed(iter/s)": 0.447255
+    },
+    {
+      "acc": 0.65553565,
+      "epoch": 1.4847792998477929,
+      "grad_norm": 5.6875,
+      "learning_rate": 1.7072344495497007e-06,
+      "loss": 1.63078747,
+      "memory(GiB)": 111.15,
+      "step": 58530,
+      "train_speed(iter/s)": 0.447275
+    },
+    {
+      "acc": 0.68273687,
+      "epoch": 1.484906139015728,
+      "grad_norm": 5.09375,
+      "learning_rate": 1.7064453967340155e-06,
+      "loss": 1.54023848,
+      "memory(GiB)": 111.15,
+      "step": 58535,
+      "train_speed(iter/s)": 0.447295
+    },
+    {
+      "acc": 0.64928274,
+      "epoch": 1.485032978183663,
+      "grad_norm": 5.4375,
+      "learning_rate": 1.7056564887835664e-06,
+      "loss": 1.6009819,
+      "memory(GiB)": 111.15,
+      "step": 58540,
+      "train_speed(iter/s)": 0.447316
+    },
+    {
+      "acc": 0.63362703,
+      "epoch": 1.4851598173515983,
+      "grad_norm": 5.5625,
+      "learning_rate": 1.704867725733052e-06,
+      "loss": 1.71206017,
+      "memory(GiB)": 111.15,
+      "step": 58545,
+      "train_speed(iter/s)": 0.447336
+    },
+    {
+      "acc": 0.65298996,
+      "epoch": 1.4852866565195333,
+      "grad_norm": 5.65625,
+      "learning_rate": 1.7040791076171692e-06,
+      "loss": 1.61970043,
+      "memory(GiB)": 111.15,
+      "step": 58550,
+      "train_speed(iter/s)": 0.447356
+    },
+    {
+      "acc": 0.6494379,
+      "epoch": 1.4854134956874683,
+      "grad_norm": 4.71875,
+      "learning_rate": 1.7032906344706017e-06,
+      "loss": 1.61238956,
+      "memory(GiB)": 111.15,
+      "step": 58555,
+      "train_speed(iter/s)": 0.447377
+    },
+    {
+      "acc": 0.63166046,
+      "epoch": 1.4855403348554033,
+      "grad_norm": 5.09375,
+      "learning_rate": 1.7025023063280306e-06,
+      "loss": 1.66852989,
+      "memory(GiB)": 111.15,
+      "step": 58560,
+      "train_speed(iter/s)": 0.447397
+    },
+    {
+      "acc": 0.64479008,
+      "epoch": 1.4856671740233385,
+      "grad_norm": 4.90625,
+      "learning_rate": 1.701714123224128e-06,
+      "loss": 1.65162582,
+      "memory(GiB)": 111.15,
+      "step": 58565,
+      "train_speed(iter/s)": 0.447417
+    },
+    {
+      "acc": 0.63925319,
+      "epoch": 1.4857940131912735,
+      "grad_norm": 5.3125,
+      "learning_rate": 1.7009260851935684e-06,
+      "loss": 1.6378746,
+      "memory(GiB)": 111.15,
+      "step": 58570,
+      "train_speed(iter/s)": 0.447438
+    },
+    {
+      "acc": 0.63723459,
+      "epoch": 1.4859208523592085,
+      "grad_norm": 4.6875,
+      "learning_rate": 1.7001381922710064e-06,
+      "loss": 1.70705681,
+      "memory(GiB)": 111.15,
+      "step": 58575,
+      "train_speed(iter/s)": 0.447458
+    },
+    {
+      "acc": 0.64663901,
+      "epoch": 1.4860476915271437,
+      "grad_norm": 5.6875,
+      "learning_rate": 1.699350444491098e-06,
+      "loss": 1.60357533,
+      "memory(GiB)": 111.15,
+      "step": 58580,
+      "train_speed(iter/s)": 0.447478
+    },
+    {
+      "acc": 0.64261107,
+      "epoch": 1.4861745306950787,
+      "grad_norm": 4.90625,
+      "learning_rate": 1.6985628418884953e-06,
+      "loss": 1.66579819,
+      "memory(GiB)": 111.15,
+      "step": 58585,
+      "train_speed(iter/s)": 0.447498
+    },
+    {
+      "acc": 0.66025181,
+      "epoch": 1.4863013698630136,
+      "grad_norm": 5.6875,
+      "learning_rate": 1.6977753844978406e-06,
+      "loss": 1.63229198,
+      "memory(GiB)": 111.15,
+      "step": 58590,
+      "train_speed(iter/s)": 0.447518
+    },
+    {
+      "acc": 0.65551567,
+      "epoch": 1.4864282090309486,
+      "grad_norm": 5.53125,
+      "learning_rate": 1.696988072353764e-06,
+      "loss": 1.60150375,
+      "memory(GiB)": 111.15,
+      "step": 58595,
+      "train_speed(iter/s)": 0.447539
+    },
+    {
+      "acc": 0.64394646,
+      "epoch": 1.4865550481988838,
+      "grad_norm": 5.15625,
+      "learning_rate": 1.6962009054909007e-06,
+      "loss": 1.64184475,
+      "memory(GiB)": 111.15,
+      "step": 58600,
+      "train_speed(iter/s)": 0.447559
+    },
+    {
+      "epoch": 1.4865550481988838,
+      "eval_acc": 0.6433574788912623,
+      "eval_loss": 1.6075457334518433,
+      "eval_runtime": 113.997,
+      "eval_samples_per_second": 55.879,
+      "eval_steps_per_second": 27.939,
+      "step": 58600
+    },
+    {
+      "acc": 0.65527039,
+      "epoch": 1.4866818873668188,
+      "grad_norm": 4.4375,
+      "learning_rate": 1.6954138839438723e-06,
+      "loss": 1.588626,
+      "memory(GiB)": 111.15,
+      "step": 58605,
+      "train_speed(iter/s)": 0.447174
+    },
+    {
+      "acc": 0.65062342,
+      "epoch": 1.486808726534754,
+      "grad_norm": 5.8125,
+      "learning_rate": 1.6946270077472966e-06,
+      "loss": 1.66311703,
+      "memory(GiB)": 111.15,
+      "step": 58610,
+      "train_speed(iter/s)": 0.447194
+    },
+    {
+      "acc": 0.66131325,
+      "epoch": 1.486935565702689,
+      "grad_norm": 5.0,
+      "learning_rate": 1.6938402769357787e-06,
+      "loss": 1.55253773,
+      "memory(GiB)": 111.15,
+      "step": 58615,
+      "train_speed(iter/s)": 0.447214
+    },
+    {
+      "acc": 0.65563374,
+      "epoch": 1.487062404870624,
+      "grad_norm": 6.21875,
+      "learning_rate": 1.6930536915439288e-06,
+      "loss": 1.61415482,
+      "memory(GiB)": 111.15,
+      "step": 58620,
+      "train_speed(iter/s)": 0.447234
+    },
+    {
+      "acc": 0.64014258,
+      "epoch": 1.487189244038559,
+      "grad_norm": 6.34375,
+      "learning_rate": 1.6922672516063415e-06,
+      "loss": 1.62640533,
+      "memory(GiB)": 111.15,
+      "step": 58625,
+      "train_speed(iter/s)": 0.447255
+    },
+    {
+      "acc": 0.64583349,
+      "epoch": 1.4873160832064942,
+      "grad_norm": 4.6875,
+      "learning_rate": 1.6914809571576086e-06,
+      "loss": 1.62142868,
+      "memory(GiB)": 111.15,
+      "step": 58630,
+      "train_speed(iter/s)": 0.447275
+    },
+    {
+      "acc": 0.63985858,
+      "epoch": 1.4874429223744292,
+      "grad_norm": 5.1875,
+      "learning_rate": 1.6906948082323149e-06,
+      "loss": 1.70493793,
+      "memory(GiB)": 111.15,
+      "step": 58635,
+      "train_speed(iter/s)": 0.447295
+    },
+    {
+      "acc": 0.65323324,
+      "epoch": 1.4875697615423642,
+      "grad_norm": 5.40625,
+      "learning_rate": 1.689908804865038e-06,
+      "loss": 1.63549042,
+      "memory(GiB)": 111.15,
+      "step": 58640,
+      "train_speed(iter/s)": 0.447316
+    },
+    {
+      "acc": 0.6395916,
+      "epoch": 1.4876966007102994,
+      "grad_norm": 5.125,
+      "learning_rate": 1.6891229470903509e-06,
+      "loss": 1.66685715,
+      "memory(GiB)": 111.15,
+      "step": 58645,
+      "train_speed(iter/s)": 0.447336
+    },
+    {
+      "acc": 0.63920946,
+      "epoch": 1.4878234398782344,
+      "grad_norm": 5.90625,
+      "learning_rate": 1.6883372349428184e-06,
+      "loss": 1.70119934,
+      "memory(GiB)": 111.15,
+      "step": 58650,
+      "train_speed(iter/s)": 0.447357
+    },
+    {
+      "acc": 0.67151098,
+      "epoch": 1.4879502790461694,
+      "grad_norm": 6.125,
+      "learning_rate": 1.6875516684569999e-06,
+      "loss": 1.59584064,
+      "memory(GiB)": 111.15,
+      "step": 58655,
+      "train_speed(iter/s)": 0.447377
+    },
+    {
+      "acc": 0.65644789,
+      "epoch": 1.4880771182141044,
+      "grad_norm": 5.125,
+      "learning_rate": 1.686766247667448e-06,
+      "loss": 1.65553761,
+      "memory(GiB)": 111.15,
+      "step": 58660,
+      "train_speed(iter/s)": 0.447397
+    },
+    {
+      "acc": 0.65011902,
+      "epoch": 1.4882039573820396,
+      "grad_norm": 5.6875,
+      "learning_rate": 1.685980972608709e-06,
+      "loss": 1.62721691,
+      "memory(GiB)": 111.15,
+      "step": 58665,
+      "train_speed(iter/s)": 0.447418
+    },
+    {
+      "acc": 0.6438447,
+      "epoch": 1.4883307965499746,
+      "grad_norm": 4.84375,
+      "learning_rate": 1.6851958433153227e-06,
+      "loss": 1.5963026,
+      "memory(GiB)": 111.15,
+      "step": 58670,
+      "train_speed(iter/s)": 0.447438
+    },
+    {
+      "acc": 0.64123945,
+      "epoch": 1.4884576357179098,
+      "grad_norm": 5.90625,
+      "learning_rate": 1.684410859821823e-06,
+      "loss": 1.66902733,
+      "memory(GiB)": 111.15,
+      "step": 58675,
+      "train_speed(iter/s)": 0.447459
+    },
+    {
+      "acc": 0.66636167,
+      "epoch": 1.4885844748858448,
+      "grad_norm": 4.8125,
+      "learning_rate": 1.6836260221627364e-06,
+      "loss": 1.5628582,
+      "memory(GiB)": 111.15,
+      "step": 58680,
+      "train_speed(iter/s)": 0.447479
+    },
+    {
+      "acc": 0.6486165,
+      "epoch": 1.4887113140537798,
+      "grad_norm": 4.8125,
+      "learning_rate": 1.682841330372582e-06,
+      "loss": 1.60411892,
+      "memory(GiB)": 111.15,
+      "step": 58685,
+      "train_speed(iter/s)": 0.447499
+    },
+    {
+      "acc": 0.6537324,
+      "epoch": 1.4888381532217148,
+      "grad_norm": 4.46875,
+      "learning_rate": 1.6820567844858798e-06,
+      "loss": 1.55579014,
+      "memory(GiB)": 111.15,
+      "step": 58690,
+      "train_speed(iter/s)": 0.447519
+    },
+    {
+      "acc": 0.64398146,
+      "epoch": 1.48896499238965,
+      "grad_norm": 5.21875,
+      "learning_rate": 1.681272384537132e-06,
+      "loss": 1.61049881,
+      "memory(GiB)": 111.15,
+      "step": 58695,
+      "train_speed(iter/s)": 0.447539
+    },
+    {
+      "acc": 0.66264067,
+      "epoch": 1.489091831557585,
+      "grad_norm": 4.84375,
+      "learning_rate": 1.6804881305608423e-06,
+      "loss": 1.55516663,
+      "memory(GiB)": 111.15,
+      "step": 58700,
+      "train_speed(iter/s)": 0.44756
+    },
+    {
+      "epoch": 1.489091831557585,
+      "eval_acc": 0.643339932664265,
+      "eval_loss": 1.6074788570404053,
+      "eval_runtime": 114.4897,
+      "eval_samples_per_second": 55.638,
+      "eval_steps_per_second": 27.819,
+      "step": 58700
+    },
+    {
+      "acc": 0.64075365,
+      "epoch": 1.4892186707255202,
+      "grad_norm": 5.3125,
+      "learning_rate": 1.679704022591503e-06,
+      "loss": 1.70118904,
+      "memory(GiB)": 111.15,
+      "step": 58705,
+      "train_speed(iter/s)": 0.447174
+    },
+    {
+      "acc": 0.64247441,
+      "epoch": 1.4893455098934552,
+      "grad_norm": 5.25,
+      "learning_rate": 1.678920060663608e-06,
+      "loss": 1.62132587,
+      "memory(GiB)": 111.15,
+      "step": 58710,
+      "train_speed(iter/s)": 0.447194
+    },
+    {
+      "acc": 0.64934163,
+      "epoch": 1.4894723490613901,
+      "grad_norm": 5.09375,
+      "learning_rate": 1.6781362448116344e-06,
+      "loss": 1.56671505,
+      "memory(GiB)": 111.15,
+      "step": 58715,
+      "train_speed(iter/s)": 0.447214
+    },
+    {
+      "acc": 0.64348011,
+      "epoch": 1.4895991882293251,
+      "grad_norm": 4.625,
+      "learning_rate": 1.6773525750700586e-06,
+      "loss": 1.6283226,
+      "memory(GiB)": 111.15,
+      "step": 58720,
+      "train_speed(iter/s)": 0.447234
+    },
+    {
+      "acc": 0.64833007,
+      "epoch": 1.4897260273972603,
+      "grad_norm": 6.0,
+      "learning_rate": 1.676569051473353e-06,
+      "loss": 1.62301273,
+      "memory(GiB)": 111.15,
+      "step": 58725,
+      "train_speed(iter/s)": 0.447254
+    },
+    {
+      "acc": 0.64574203,
+      "epoch": 1.4898528665651953,
+      "grad_norm": 5.09375,
+      "learning_rate": 1.6757856740559796e-06,
+      "loss": 1.61193886,
+      "memory(GiB)": 111.15,
+      "step": 58730,
+      "train_speed(iter/s)": 0.447274
+    },
+    {
+      "acc": 0.66367202,
+      "epoch": 1.4899797057331303,
+      "grad_norm": 4.78125,
+      "learning_rate": 1.6750024428523926e-06,
+      "loss": 1.55381012,
+      "memory(GiB)": 111.15,
+      "step": 58735,
+      "train_speed(iter/s)": 0.447295
+    },
+    {
+      "acc": 0.65655317,
+      "epoch": 1.4901065449010655,
+      "grad_norm": 4.34375,
+      "learning_rate": 1.6742193578970418e-06,
+      "loss": 1.61333961,
+      "memory(GiB)": 111.15,
+      "step": 58740,
+      "train_speed(iter/s)": 0.447315
+    },
+    {
+      "acc": 0.66071963,
+      "epoch": 1.4902333840690005,
+      "grad_norm": 6.0625,
+      "learning_rate": 1.673436419224373e-06,
+      "loss": 1.62763367,
+      "memory(GiB)": 111.15,
+      "step": 58745,
+      "train_speed(iter/s)": 0.447335
+    },
+    {
+      "acc": 0.63775368,
+      "epoch": 1.4903602232369355,
+      "grad_norm": 5.125,
+      "learning_rate": 1.6726536268688248e-06,
+      "loss": 1.69716396,
+      "memory(GiB)": 111.15,
+      "step": 58750,
+      "train_speed(iter/s)": 0.447356
+    },
+    {
+      "acc": 0.64823203,
+      "epoch": 1.4904870624048705,
+      "grad_norm": 5.84375,
+      "learning_rate": 1.671870980864822e-06,
+      "loss": 1.64590149,
+      "memory(GiB)": 111.15,
+      "step": 58755,
+      "train_speed(iter/s)": 0.447376
+    },
+    {
+      "acc": 0.65980506,
+      "epoch": 1.4906139015728057,
+      "grad_norm": 5.6875,
+      "learning_rate": 1.6710884812467943e-06,
+      "loss": 1.53621368,
+      "memory(GiB)": 111.15,
+      "step": 58760,
+      "train_speed(iter/s)": 0.447396
+    },
+    {
+      "acc": 0.65105319,
+      "epoch": 1.4907407407407407,
+      "grad_norm": 5.25,
+      "learning_rate": 1.6703061280491579e-06,
+      "loss": 1.64742012,
+      "memory(GiB)": 111.15,
+      "step": 58765,
+      "train_speed(iter/s)": 0.447417
+    },
+    {
+      "acc": 0.65881882,
+      "epoch": 1.490867579908676,
+      "grad_norm": 5.28125,
+      "learning_rate": 1.6695239213063237e-06,
+      "loss": 1.59869938,
+      "memory(GiB)": 111.15,
+      "step": 58770,
+      "train_speed(iter/s)": 0.447437
+    },
+    {
+      "acc": 0.65538664,
+      "epoch": 1.490994419076611,
+      "grad_norm": 6.25,
+      "learning_rate": 1.6687418610526972e-06,
+      "loss": 1.61019821,
+      "memory(GiB)": 111.15,
+      "step": 58775,
+      "train_speed(iter/s)": 0.447458
+    },
+    {
+      "acc": 0.66794777,
+      "epoch": 1.4911212582445459,
+      "grad_norm": 6.0,
+      "learning_rate": 1.6679599473226766e-06,
+      "loss": 1.51760597,
+      "memory(GiB)": 111.15,
+      "step": 58780,
+      "train_speed(iter/s)": 0.447478
+    },
+    {
+      "acc": 0.6487709,
+      "epoch": 1.4912480974124809,
+      "grad_norm": 5.78125,
+      "learning_rate": 1.6671781801506536e-06,
+      "loss": 1.68501759,
+      "memory(GiB)": 111.15,
+      "step": 58785,
+      "train_speed(iter/s)": 0.447498
+    },
+    {
+      "acc": 0.64713392,
+      "epoch": 1.491374936580416,
+      "grad_norm": 4.375,
+      "learning_rate": 1.6663965595710147e-06,
+      "loss": 1.60506897,
+      "memory(GiB)": 111.15,
+      "step": 58790,
+      "train_speed(iter/s)": 0.447519
+    },
+    {
+      "acc": 0.65909615,
+      "epoch": 1.491501775748351,
+      "grad_norm": 5.84375,
+      "learning_rate": 1.6656150856181386e-06,
+      "loss": 1.60577431,
+      "memory(GiB)": 111.15,
+      "step": 58795,
+      "train_speed(iter/s)": 0.447539
+    },
+    {
+      "acc": 0.64573736,
+      "epoch": 1.491628614916286,
+      "grad_norm": 5.1875,
+      "learning_rate": 1.6648337583263974e-06,
+      "loss": 1.67303524,
+      "memory(GiB)": 111.15,
+      "step": 58800,
+      "train_speed(iter/s)": 0.44756
+    },
+    {
+      "epoch": 1.491628614916286,
+      "eval_acc": 0.643380038325973,
+      "eval_loss": 1.607542872428894,
+      "eval_runtime": 114.2892,
+      "eval_samples_per_second": 55.736,
+      "eval_steps_per_second": 27.868,
+      "step": 58800
+    },
+    {
+      "acc": 0.6528266,
+      "epoch": 1.4917554540842213,
+      "grad_norm": 5.0625,
+      "learning_rate": 1.6640525777301586e-06,
+      "loss": 1.66997089,
+      "memory(GiB)": 111.15,
+      "step": 58805,
+      "train_speed(iter/s)": 0.447175
+    },
+    {
+      "acc": 0.65600142,
+      "epoch": 1.4918822932521563,
+      "grad_norm": 5.6875,
+      "learning_rate": 1.663271543863781e-06,
+      "loss": 1.61500511,
+      "memory(GiB)": 111.15,
+      "step": 58810,
+      "train_speed(iter/s)": 0.447195
+    },
+    {
+      "acc": 0.65778313,
+      "epoch": 1.4920091324200913,
+      "grad_norm": 5.6875,
+      "learning_rate": 1.6624906567616183e-06,
+      "loss": 1.65025902,
+      "memory(GiB)": 111.15,
+      "step": 58815,
+      "train_speed(iter/s)": 0.447216
+    },
+    {
+      "acc": 0.65066013,
+      "epoch": 1.4921359715880262,
+      "grad_norm": 5.25,
+      "learning_rate": 1.6617099164580175e-06,
+      "loss": 1.59101543,
+      "memory(GiB)": 111.15,
+      "step": 58820,
+      "train_speed(iter/s)": 0.447236
+    },
+    {
+      "acc": 0.64922814,
+      "epoch": 1.4922628107559615,
+      "grad_norm": 5.96875,
+      "learning_rate": 1.660929322987319e-06,
+      "loss": 1.60522156,
+      "memory(GiB)": 111.15,
+      "step": 58825,
+      "train_speed(iter/s)": 0.447256
+    },
+    {
+      "acc": 0.64697371,
+      "epoch": 1.4923896499238964,
+      "grad_norm": 6.15625,
+      "learning_rate": 1.660148876383857e-06,
+      "loss": 1.63818665,
+      "memory(GiB)": 111.15,
+      "step": 58830,
+      "train_speed(iter/s)": 0.447276
+    },
+    {
+      "acc": 0.66043024,
+      "epoch": 1.4925164890918317,
+      "grad_norm": 5.65625,
+      "learning_rate": 1.6593685766819584e-06,
+      "loss": 1.59930058,
+      "memory(GiB)": 111.15,
+      "step": 58835,
+      "train_speed(iter/s)": 0.447297
+    },
+    {
+      "acc": 0.64272523,
+      "epoch": 1.4926433282597666,
+      "grad_norm": 5.125,
+      "learning_rate": 1.658588423915945e-06,
+      "loss": 1.59380198,
+      "memory(GiB)": 111.15,
+      "step": 58840,
+      "train_speed(iter/s)": 0.447317
+    },
+    {
+      "acc": 0.65860901,
+      "epoch": 1.4927701674277016,
+      "grad_norm": 4.6875,
+      "learning_rate": 1.6578084181201293e-06,
+      "loss": 1.58588657,
+      "memory(GiB)": 111.15,
+      "step": 58845,
+      "train_speed(iter/s)": 0.447338
+    },
+    {
+      "acc": 0.64958196,
+      "epoch": 1.4928970065956366,
+      "grad_norm": 6.21875,
+      "learning_rate": 1.6570285593288242e-06,
+      "loss": 1.65560074,
+      "memory(GiB)": 111.15,
+      "step": 58850,
+      "train_speed(iter/s)": 0.447358
+    },
+    {
+      "acc": 0.64440637,
+      "epoch": 1.4930238457635718,
+      "grad_norm": 5.25,
+      "learning_rate": 1.6562488475763267e-06,
+      "loss": 1.65183945,
+      "memory(GiB)": 111.15,
+      "step": 58855,
+      "train_speed(iter/s)": 0.447378
+    },
+    {
+      "acc": 0.65378857,
+      "epoch": 1.4931506849315068,
+      "grad_norm": 6.96875,
+      "learning_rate": 1.6554692828969321e-06,
+      "loss": 1.63293591,
+      "memory(GiB)": 111.15,
+      "step": 58860,
+      "train_speed(iter/s)": 0.447399
+    },
+    {
+      "acc": 0.63899813,
+      "epoch": 1.493277524099442,
+      "grad_norm": 6.3125,
+      "learning_rate": 1.6546898653249326e-06,
+      "loss": 1.64469757,
+      "memory(GiB)": 111.15,
+      "step": 58865,
+      "train_speed(iter/s)": 0.447419
+    },
+    {
+      "acc": 0.64053564,
+      "epoch": 1.493404363267377,
+      "grad_norm": 5.09375,
+      "learning_rate": 1.65391059489461e-06,
+      "loss": 1.6877182,
+      "memory(GiB)": 111.15,
+      "step": 58870,
+      "train_speed(iter/s)": 0.44744
+    },
+    {
+      "acc": 0.64146304,
+      "epoch": 1.493531202435312,
+      "grad_norm": 4.5,
+      "learning_rate": 1.6531314716402369e-06,
+      "loss": 1.61634178,
+      "memory(GiB)": 111.15,
+      "step": 58875,
+      "train_speed(iter/s)": 0.44746
+    },
+    {
+      "acc": 0.64574404,
+      "epoch": 1.493658041603247,
+      "grad_norm": 5.4375,
+      "learning_rate": 1.652352495596083e-06,
+      "loss": 1.61793995,
+      "memory(GiB)": 111.15,
+      "step": 58880,
+      "train_speed(iter/s)": 0.447481
+    },
+    {
+      "acc": 0.65077391,
+      "epoch": 1.4937848807711822,
+      "grad_norm": 5.03125,
+      "learning_rate": 1.6515736667964144e-06,
+      "loss": 1.6186512,
+      "memory(GiB)": 111.15,
+      "step": 58885,
+      "train_speed(iter/s)": 0.447501
+    },
+    {
+      "acc": 0.65200624,
+      "epoch": 1.4939117199391172,
+      "grad_norm": 5.65625,
+      "learning_rate": 1.6507949852754867e-06,
+      "loss": 1.67626705,
+      "memory(GiB)": 111.15,
+      "step": 58890,
+      "train_speed(iter/s)": 0.447521
+    },
+    {
+      "acc": 0.65060053,
+      "epoch": 1.4940385591070522,
+      "grad_norm": 4.8125,
+      "learning_rate": 1.6500164510675453e-06,
+      "loss": 1.62553272,
+      "memory(GiB)": 111.15,
+      "step": 58895,
+      "train_speed(iter/s)": 0.447541
+    },
+    {
+      "acc": 0.66150885,
+      "epoch": 1.4941653982749874,
+      "grad_norm": 5.75,
+      "learning_rate": 1.649238064206839e-06,
+      "loss": 1.58504591,
+      "memory(GiB)": 111.15,
+      "step": 58900,
+      "train_speed(iter/s)": 0.447562
+    },
+    {
+      "epoch": 1.4941653982749874,
+      "eval_acc": 0.6433729362817122,
+      "eval_loss": 1.6075701713562012,
+      "eval_runtime": 114.0901,
+      "eval_samples_per_second": 55.833,
+      "eval_steps_per_second": 27.917,
+      "step": 58900
+    },
+    {
+      "acc": 0.65175886,
+      "epoch": 1.4942922374429224,
+      "grad_norm": 4.90625,
+      "learning_rate": 1.6484598247276023e-06,
+      "loss": 1.62185745,
+      "memory(GiB)": 111.15,
+      "step": 58905,
+      "train_speed(iter/s)": 0.447179
+    },
+    {
+      "acc": 0.63379216,
+      "epoch": 1.4944190766108574,
+      "grad_norm": 5.59375,
+      "learning_rate": 1.6476817326640682e-06,
+      "loss": 1.64575539,
+      "memory(GiB)": 111.15,
+      "step": 58910,
+      "train_speed(iter/s)": 0.447199
+    },
+    {
+      "acc": 0.66452446,
+      "epoch": 1.4945459157787924,
+      "grad_norm": 5.8125,
+      "learning_rate": 1.646903788050455e-06,
+      "loss": 1.57178249,
+      "memory(GiB)": 111.15,
+      "step": 58915,
+      "train_speed(iter/s)": 0.447219
+    },
+    {
+      "acc": 0.65218811,
+      "epoch": 1.4946727549467276,
+      "grad_norm": 4.84375,
+      "learning_rate": 1.6461259909209853e-06,
+      "loss": 1.59897509,
+      "memory(GiB)": 111.15,
+      "step": 58920,
+      "train_speed(iter/s)": 0.447239
+    },
+    {
+      "acc": 0.66757855,
+      "epoch": 1.4947995941146626,
+      "grad_norm": 5.15625,
+      "learning_rate": 1.6453483413098687e-06,
+      "loss": 1.62772751,
+      "memory(GiB)": 111.15,
+      "step": 58925,
+      "train_speed(iter/s)": 0.44726
+    },
+    {
+      "acc": 0.65187626,
+      "epoch": 1.4949264332825978,
+      "grad_norm": 5.28125,
+      "learning_rate": 1.6445708392513093e-06,
+      "loss": 1.67433796,
+      "memory(GiB)": 111.15,
+      "step": 58930,
+      "train_speed(iter/s)": 0.44728
+    },
+    {
+      "acc": 0.63122959,
+      "epoch": 1.4950532724505328,
+      "grad_norm": 5.03125,
+      "learning_rate": 1.643793484779505e-06,
+      "loss": 1.68151588,
+      "memory(GiB)": 111.15,
+      "step": 58935,
+      "train_speed(iter/s)": 0.4473
+    },
+    {
+      "acc": 0.66642361,
+      "epoch": 1.4951801116184678,
+      "grad_norm": 7.1875,
+      "learning_rate": 1.6430162779286484e-06,
+      "loss": 1.59751701,
+      "memory(GiB)": 111.15,
+      "step": 58940,
+      "train_speed(iter/s)": 0.44732
+    },
+    {
+      "acc": 0.65998974,
+      "epoch": 1.4953069507864027,
+      "grad_norm": 4.625,
+      "learning_rate": 1.6422392187329233e-06,
+      "loss": 1.55916405,
+      "memory(GiB)": 111.15,
+      "step": 58945,
+      "train_speed(iter/s)": 0.447341
+    },
+    {
+      "acc": 0.63830013,
+      "epoch": 1.495433789954338,
+      "grad_norm": 6.84375,
+      "learning_rate": 1.6414623072265085e-06,
+      "loss": 1.6973381,
+      "memory(GiB)": 111.15,
+      "step": 58950,
+      "train_speed(iter/s)": 0.447361
+    },
+    {
+      "acc": 0.65500784,
+      "epoch": 1.495560629122273,
+      "grad_norm": 5.4375,
+      "learning_rate": 1.6406855434435765e-06,
+      "loss": 1.602981,
+      "memory(GiB)": 111.15,
+      "step": 58955,
+      "train_speed(iter/s)": 0.447381
+    },
+    {
+      "acc": 0.63981161,
+      "epoch": 1.495687468290208,
+      "grad_norm": 4.8125,
+      "learning_rate": 1.6399089274182922e-06,
+      "loss": 1.64110203,
+      "memory(GiB)": 111.15,
+      "step": 58960,
+      "train_speed(iter/s)": 0.447401
+    },
+    {
+      "acc": 0.66140385,
+      "epoch": 1.4958143074581431,
+      "grad_norm": 4.5625,
+      "learning_rate": 1.6391324591848156e-06,
+      "loss": 1.60298843,
+      "memory(GiB)": 111.15,
+      "step": 58965,
+      "train_speed(iter/s)": 0.447422
+    },
+    {
+      "acc": 0.65684719,
+      "epoch": 1.4959411466260781,
+      "grad_norm": 4.90625,
+      "learning_rate": 1.6383561387772984e-06,
+      "loss": 1.5963357,
+      "memory(GiB)": 111.15,
+      "step": 58970,
+      "train_speed(iter/s)": 0.447442
+    },
+    {
+      "acc": 0.64651155,
+      "epoch": 1.4960679857940131,
+      "grad_norm": 4.96875,
+      "learning_rate": 1.6375799662298868e-06,
+      "loss": 1.63111916,
+      "memory(GiB)": 111.15,
+      "step": 58975,
+      "train_speed(iter/s)": 0.447462
+    },
+    {
+      "acc": 0.63888979,
+      "epoch": 1.4961948249619481,
+      "grad_norm": 6.0,
+      "learning_rate": 1.6368039415767201e-06,
+      "loss": 1.66575413,
+      "memory(GiB)": 111.15,
+      "step": 58980,
+      "train_speed(iter/s)": 0.447483
+    },
+    {
+      "acc": 0.64384251,
+      "epoch": 1.4963216641298833,
+      "grad_norm": 5.5625,
+      "learning_rate": 1.6360280648519305e-06,
+      "loss": 1.63611355,
+      "memory(GiB)": 111.15,
+      "step": 58985,
+      "train_speed(iter/s)": 0.447503
+    },
+    {
+      "acc": 0.66336031,
+      "epoch": 1.4964485032978183,
+      "grad_norm": 5.5,
+      "learning_rate": 1.6352523360896488e-06,
+      "loss": 1.5744853,
+      "memory(GiB)": 111.15,
+      "step": 58990,
+      "train_speed(iter/s)": 0.447523
+    },
+    {
+      "acc": 0.64527378,
+      "epoch": 1.4965753424657535,
+      "grad_norm": 4.90625,
+      "learning_rate": 1.63447675532399e-06,
+      "loss": 1.64541473,
+      "memory(GiB)": 111.15,
+      "step": 58995,
+      "train_speed(iter/s)": 0.447543
+    },
+    {
+      "acc": 0.65704832,
+      "epoch": 1.4967021816336885,
+      "grad_norm": 5.53125,
+      "learning_rate": 1.6337013225890698e-06,
+      "loss": 1.67099915,
+      "memory(GiB)": 111.15,
+      "step": 59000,
+      "train_speed(iter/s)": 0.447564
+    },
+    {
+      "epoch": 1.4967021816336885,
+      "eval_acc": 0.6434243216607755,
+      "eval_loss": 1.6074501276016235,
+      "eval_runtime": 114.2733,
+      "eval_samples_per_second": 55.744,
+      "eval_steps_per_second": 27.872,
+      "step": 59000
+    },
+    {
+      "acc": 0.66162496,
+      "epoch": 1.4968290208016235,
+      "grad_norm": 4.65625,
+      "learning_rate": 1.6329260379189932e-06,
+      "loss": 1.60008945,
+      "memory(GiB)": 111.15,
+      "step": 59005,
+      "train_speed(iter/s)": 0.447181
+    },
+    {
+      "acc": 0.64277115,
+      "epoch": 1.4969558599695585,
+      "grad_norm": 5.34375,
+      "learning_rate": 1.6321509013478653e-06,
+      "loss": 1.60472832,
+      "memory(GiB)": 111.15,
+      "step": 59010,
+      "train_speed(iter/s)": 0.4472
+    },
+    {
+      "acc": 0.6540834,
+      "epoch": 1.4970826991374937,
+      "grad_norm": 5.0,
+      "learning_rate": 1.6313759129097757e-06,
+      "loss": 1.64834995,
+      "memory(GiB)": 111.15,
+      "step": 59015,
+      "train_speed(iter/s)": 0.447221
+    },
+    {
+      "acc": 0.64342494,
+      "epoch": 1.4972095383054287,
+      "grad_norm": 5.1875,
+      "learning_rate": 1.6306010726388117e-06,
+      "loss": 1.64771881,
+      "memory(GiB)": 111.15,
+      "step": 59020,
+      "train_speed(iter/s)": 0.447241
+    },
+    {
+      "acc": 0.65083895,
+      "epoch": 1.497336377473364,
+      "grad_norm": 6.1875,
+      "learning_rate": 1.6298263805690573e-06,
+      "loss": 1.69162369,
+      "memory(GiB)": 111.15,
+      "step": 59025,
+      "train_speed(iter/s)": 0.447261
+    },
+    {
+      "acc": 0.64993916,
+      "epoch": 1.4974632166412989,
+      "grad_norm": 5.09375,
+      "learning_rate": 1.629051836734587e-06,
+      "loss": 1.60448723,
+      "memory(GiB)": 111.15,
+      "step": 59030,
+      "train_speed(iter/s)": 0.447282
+    },
+    {
+      "acc": 0.67214923,
+      "epoch": 1.4975900558092339,
+      "grad_norm": 5.8125,
+      "learning_rate": 1.6282774411694641e-06,
+      "loss": 1.57025127,
+      "memory(GiB)": 111.15,
+      "step": 59035,
+      "train_speed(iter/s)": 0.447302
+    },
+    {
+      "acc": 0.65586977,
+      "epoch": 1.4977168949771689,
+      "grad_norm": 6.3125,
+      "learning_rate": 1.6275031939077545e-06,
+      "loss": 1.58758488,
+      "memory(GiB)": 111.15,
+      "step": 59040,
+      "train_speed(iter/s)": 0.447322
+    },
+    {
+      "acc": 0.66174603,
+      "epoch": 1.497843734145104,
+      "grad_norm": 5.0,
+      "learning_rate": 1.6267290949835119e-06,
+      "loss": 1.58515339,
+      "memory(GiB)": 111.15,
+      "step": 59045,
+      "train_speed(iter/s)": 0.447342
+    },
+    {
+      "acc": 0.640312,
+      "epoch": 1.497970573313039,
+      "grad_norm": 4.6875,
+      "learning_rate": 1.6259551444307852e-06,
+      "loss": 1.60288696,
+      "memory(GiB)": 111.15,
+      "step": 59050,
+      "train_speed(iter/s)": 0.447362
+    },
+    {
+      "acc": 0.63710012,
+      "epoch": 1.498097412480974,
+      "grad_norm": 5.3125,
+      "learning_rate": 1.6251813422836127e-06,
+      "loss": 1.65021019,
+      "memory(GiB)": 111.15,
+      "step": 59055,
+      "train_speed(iter/s)": 0.447383
+    },
+    {
+      "acc": 0.64737806,
+      "epoch": 1.4982242516489093,
+      "grad_norm": 5.8125,
+      "learning_rate": 1.6244076885760334e-06,
+      "loss": 1.63079109,
+      "memory(GiB)": 111.15,
+      "step": 59060,
+      "train_speed(iter/s)": 0.447403
+    },
+    {
+      "acc": 0.64907961,
+      "epoch": 1.4983510908168443,
+      "grad_norm": 5.25,
+      "learning_rate": 1.6236341833420755e-06,
+      "loss": 1.66874638,
+      "memory(GiB)": 111.15,
+      "step": 59065,
+      "train_speed(iter/s)": 0.447423
+    },
+    {
+      "acc": 0.6475049,
+      "epoch": 1.4984779299847792,
+      "grad_norm": 5.21875,
+      "learning_rate": 1.6228608266157596e-06,
+      "loss": 1.59829865,
+      "memory(GiB)": 111.15,
+      "step": 59070,
+      "train_speed(iter/s)": 0.447444
+    },
+    {
+      "acc": 0.65697751,
+      "epoch": 1.4986047691527142,
+      "grad_norm": 5.03125,
+      "learning_rate": 1.6220876184311034e-06,
+      "loss": 1.57717991,
+      "memory(GiB)": 111.15,
+      "step": 59075,
+      "train_speed(iter/s)": 0.447464
+    },
+    {
+      "acc": 0.64087934,
+      "epoch": 1.4987316083206494,
+      "grad_norm": 6.375,
+      "learning_rate": 1.6213145588221146e-06,
+      "loss": 1.61150875,
+      "memory(GiB)": 111.15,
+      "step": 59080,
+      "train_speed(iter/s)": 0.447484
+    },
+    {
+      "acc": 0.64939518,
+      "epoch": 1.4988584474885844,
+      "grad_norm": 6.125,
+      "learning_rate": 1.620541647822796e-06,
+      "loss": 1.57067347,
+      "memory(GiB)": 111.15,
+      "step": 59085,
+      "train_speed(iter/s)": 0.447504
+    },
+    {
+      "acc": 0.65348129,
+      "epoch": 1.4989852866565196,
+      "grad_norm": 5.90625,
+      "learning_rate": 1.6197688854671444e-06,
+      "loss": 1.65342979,
+      "memory(GiB)": 111.15,
+      "step": 59090,
+      "train_speed(iter/s)": 0.447524
+    },
+    {
+      "acc": 0.66224031,
+      "epoch": 1.4991121258244546,
+      "grad_norm": 5.0625,
+      "learning_rate": 1.6189962717891484e-06,
+      "loss": 1.56247854,
+      "memory(GiB)": 111.15,
+      "step": 59095,
+      "train_speed(iter/s)": 0.447544
+    },
+    {
+      "acc": 0.63340626,
+      "epoch": 1.4992389649923896,
+      "grad_norm": 5.3125,
+      "learning_rate": 1.6182238068227917e-06,
+      "loss": 1.7024189,
+      "memory(GiB)": 111.15,
+      "step": 59100,
+      "train_speed(iter/s)": 0.447565
+    },
+    {
+      "epoch": 1.4992389649923896,
+      "eval_acc": 0.6434076109683972,
+      "eval_loss": 1.6075934171676636,
+      "eval_runtime": 113.5484,
+      "eval_samples_per_second": 56.099,
+      "eval_steps_per_second": 28.05,
+      "step": 59100
+    },
+    {
+      "acc": 0.64163122,
+      "epoch": 1.4993658041603246,
+      "grad_norm": 5.15625,
+      "learning_rate": 1.6174514906020505e-06,
+      "loss": 1.63408623,
+      "memory(GiB)": 111.15,
+      "step": 59105,
+      "train_speed(iter/s)": 0.447185
+    },
+    {
+      "acc": 0.66418266,
+      "epoch": 1.4994926433282598,
+      "grad_norm": 4.5,
+      "learning_rate": 1.6166793231608952e-06,
+      "loss": 1.5339241,
+      "memory(GiB)": 111.15,
+      "step": 59110,
+      "train_speed(iter/s)": 0.447205
+    },
+    {
+      "acc": 0.64294286,
+      "epoch": 1.4996194824961948,
+      "grad_norm": 5.40625,
+      "learning_rate": 1.615907304533288e-06,
+      "loss": 1.67296543,
+      "memory(GiB)": 111.15,
+      "step": 59115,
+      "train_speed(iter/s)": 0.447225
+    },
+    {
+      "acc": 0.64718866,
+      "epoch": 1.4997463216641298,
+      "grad_norm": 5.15625,
+      "learning_rate": 1.6151354347531868e-06,
+      "loss": 1.65730438,
+      "memory(GiB)": 111.15,
+      "step": 59120,
+      "train_speed(iter/s)": 0.447245
+    },
+    {
+      "acc": 0.65538254,
+      "epoch": 1.499873160832065,
+      "grad_norm": 6.0,
+      "learning_rate": 1.61436371385454e-06,
+      "loss": 1.65555267,
+      "memory(GiB)": 111.15,
+      "step": 59125,
+      "train_speed(iter/s)": 0.447265
+    },
+    {
+      "acc": 0.65258832,
+      "epoch": 1.5,
+      "grad_norm": 5.8125,
+      "learning_rate": 1.6135921418712959e-06,
+      "loss": 1.63677311,
+      "memory(GiB)": 111.15,
+      "step": 59130,
+      "train_speed(iter/s)": 0.447285
+    },
+    {
+      "acc": 0.65723395,
+      "epoch": 1.500126839167935,
+      "grad_norm": 5.875,
+      "learning_rate": 1.6128207188373867e-06,
+      "loss": 1.63065567,
+      "memory(GiB)": 111.15,
+      "step": 59135,
+      "train_speed(iter/s)": 0.447306
+    },
+    {
+      "acc": 0.64340911,
+      "epoch": 1.50025367833587,
+      "grad_norm": 4.53125,
+      "learning_rate": 1.6120494447867451e-06,
+      "loss": 1.64091949,
+      "memory(GiB)": 111.15,
+      "step": 59140,
+      "train_speed(iter/s)": 0.447326
+    },
+    {
+      "acc": 0.65249686,
+      "epoch": 1.5003805175038052,
+      "grad_norm": 7.6875,
+      "learning_rate": 1.6112783197532932e-06,
+      "loss": 1.53547192,
+      "memory(GiB)": 111.15,
+      "step": 59145,
+      "train_speed(iter/s)": 0.447346
+    },
+    {
+      "acc": 0.64765186,
+      "epoch": 1.5005073566717404,
+      "grad_norm": 5.34375,
+      "learning_rate": 1.6105073437709545e-06,
+      "loss": 1.62546616,
+      "memory(GiB)": 111.15,
+      "step": 59150,
+      "train_speed(iter/s)": 0.447367
+    },
+    {
+      "acc": 0.63824434,
+      "epoch": 1.5006341958396754,
+      "grad_norm": 5.5625,
+      "learning_rate": 1.6097365168736335e-06,
+      "loss": 1.66942368,
+      "memory(GiB)": 111.15,
+      "step": 59155,
+      "train_speed(iter/s)": 0.447387
+    },
+    {
+      "acc": 0.6428421,
+      "epoch": 1.5007610350076104,
+      "grad_norm": 5.15625,
+      "learning_rate": 1.6089658390952351e-06,
+      "loss": 1.62978115,
+      "memory(GiB)": 111.15,
+      "step": 59160,
+      "train_speed(iter/s)": 0.447407
+    },
+    {
+      "acc": 0.65597262,
+      "epoch": 1.5008878741755454,
+      "grad_norm": 5.0625,
+      "learning_rate": 1.6081953104696612e-06,
+      "loss": 1.63064842,
+      "memory(GiB)": 111.15,
+      "step": 59165,
+      "train_speed(iter/s)": 0.447427
+    },
+    {
+      "acc": 0.66427107,
+      "epoch": 1.5010147133434804,
+      "grad_norm": 5.03125,
+      "learning_rate": 1.6074249310308021e-06,
+      "loss": 1.62294178,
+      "memory(GiB)": 111.15,
+      "step": 59170,
+      "train_speed(iter/s)": 0.447447
+    },
+    {
+      "acc": 0.65725474,
+      "epoch": 1.5011415525114156,
+      "grad_norm": 5.53125,
+      "learning_rate": 1.6066547008125399e-06,
+      "loss": 1.60215893,
+      "memory(GiB)": 111.15,
+      "step": 59175,
+      "train_speed(iter/s)": 0.447467
+    },
+    {
+      "acc": 0.65086551,
+      "epoch": 1.5012683916793506,
+      "grad_norm": 5.46875,
+      "learning_rate": 1.6058846198487522e-06,
+      "loss": 1.6136219,
+      "memory(GiB)": 111.15,
+      "step": 59180,
+      "train_speed(iter/s)": 0.447488
+    },
+    {
+      "acc": 0.63740582,
+      "epoch": 1.5013952308472858,
+      "grad_norm": 5.0,
+      "learning_rate": 1.6051146881733142e-06,
+      "loss": 1.57896976,
+      "memory(GiB)": 111.15,
+      "step": 59185,
+      "train_speed(iter/s)": 0.447508
+    },
+    {
+      "acc": 0.64791689,
+      "epoch": 1.5015220700152208,
+      "grad_norm": 6.65625,
+      "learning_rate": 1.6043449058200916e-06,
+      "loss": 1.65219879,
+      "memory(GiB)": 111.15,
+      "step": 59190,
+      "train_speed(iter/s)": 0.44751
+    },
+    {
+      "acc": 0.65278883,
+      "epoch": 1.5016489091831557,
+      "grad_norm": 5.1875,
+      "learning_rate": 1.6035752728229364e-06,
+      "loss": 1.60292187,
+      "memory(GiB)": 111.15,
+      "step": 59195,
+      "train_speed(iter/s)": 0.44753
+    },
+    {
+      "acc": 0.6440002,
+      "epoch": 1.5017757483510907,
+      "grad_norm": 4.53125,
+      "learning_rate": 1.6028057892157067e-06,
+      "loss": 1.71200867,
+      "memory(GiB)": 111.15,
+      "step": 59200,
+      "train_speed(iter/s)": 0.44755
+    },
+    {
+      "epoch": 1.5017757483510907,
+      "eval_acc": 0.6434230683588471,
+      "eval_loss": 1.6075836420059204,
+      "eval_runtime": 114.3424,
+      "eval_samples_per_second": 55.71,
+      "eval_steps_per_second": 27.855,
+      "step": 59200
+    },
+    {
+      "acc": 0.65478663,
+      "epoch": 1.5019025875190257,
+      "grad_norm": 5.09375,
+      "learning_rate": 1.602036455032246e-06,
+      "loss": 1.59546013,
+      "memory(GiB)": 111.15,
+      "step": 59205,
+      "train_speed(iter/s)": 0.447168
+    },
+    {
+      "acc": 0.65146456,
+      "epoch": 1.502029426686961,
+      "grad_norm": 5.84375,
+      "learning_rate": 1.6012672703063925e-06,
+      "loss": 1.65096436,
+      "memory(GiB)": 111.15,
+      "step": 59210,
+      "train_speed(iter/s)": 0.447188
+    },
+    {
+      "acc": 0.64565725,
+      "epoch": 1.5021562658548961,
+      "grad_norm": 5.90625,
+      "learning_rate": 1.600498235071979e-06,
+      "loss": 1.67426682,
+      "memory(GiB)": 111.15,
+      "step": 59215,
+      "train_speed(iter/s)": 0.447208
+    },
+    {
+      "acc": 0.62971859,
+      "epoch": 1.5022831050228311,
+      "grad_norm": 5.4375,
+      "learning_rate": 1.5997293493628301e-06,
+      "loss": 1.68267365,
+      "memory(GiB)": 111.15,
+      "step": 59220,
+      "train_speed(iter/s)": 0.447228
+    },
+    {
+      "acc": 0.64857264,
+      "epoch": 1.5024099441907661,
+      "grad_norm": 5.8125,
+      "learning_rate": 1.598960613212766e-06,
+      "loss": 1.6305584,
+      "memory(GiB)": 111.15,
+      "step": 59225,
+      "train_speed(iter/s)": 0.447248
+    },
+    {
+      "acc": 0.65766907,
+      "epoch": 1.5025367833587011,
+      "grad_norm": 5.21875,
+      "learning_rate": 1.598192026655599e-06,
+      "loss": 1.65459366,
+      "memory(GiB)": 111.15,
+      "step": 59230,
+      "train_speed(iter/s)": 0.447268
+    },
+    {
+      "acc": 0.63888845,
+      "epoch": 1.502663622526636,
+      "grad_norm": 5.40625,
+      "learning_rate": 1.5974235897251344e-06,
+      "loss": 1.62067547,
+      "memory(GiB)": 111.15,
+      "step": 59235,
+      "train_speed(iter/s)": 0.447288
+    },
+    {
+      "acc": 0.64546776,
+      "epoch": 1.5027904616945713,
+      "grad_norm": 6.625,
+      "learning_rate": 1.5966553024551717e-06,
+      "loss": 1.66576271,
+      "memory(GiB)": 111.15,
+      "step": 59240,
+      "train_speed(iter/s)": 0.447308
+    },
+    {
+      "acc": 0.64655609,
+      "epoch": 1.5029173008625063,
+      "grad_norm": 5.34375,
+      "learning_rate": 1.5958871648795032e-06,
+      "loss": 1.64487381,
+      "memory(GiB)": 111.15,
+      "step": 59245,
+      "train_speed(iter/s)": 0.447329
+    },
+    {
+      "acc": 0.66194792,
+      "epoch": 1.5030441400304415,
+      "grad_norm": 5.21875,
+      "learning_rate": 1.5951191770319164e-06,
+      "loss": 1.60104122,
+      "memory(GiB)": 111.15,
+      "step": 59250,
+      "train_speed(iter/s)": 0.447349
+    },
+    {
+      "acc": 0.65135441,
+      "epoch": 1.5031709791983765,
+      "grad_norm": 5.90625,
+      "learning_rate": 1.594351338946189e-06,
+      "loss": 1.62612762,
+      "memory(GiB)": 111.15,
+      "step": 59255,
+      "train_speed(iter/s)": 0.447369
+    },
+    {
+      "acc": 0.66140075,
+      "epoch": 1.5032978183663115,
+      "grad_norm": 5.71875,
+      "learning_rate": 1.5935836506560953e-06,
+      "loss": 1.62480736,
+      "memory(GiB)": 111.15,
+      "step": 59260,
+      "train_speed(iter/s)": 0.447389
+    },
+    {
+      "acc": 0.65046701,
+      "epoch": 1.5034246575342465,
+      "grad_norm": 4.6875,
+      "learning_rate": 1.5928161121954012e-06,
+      "loss": 1.57120018,
+      "memory(GiB)": 111.15,
+      "step": 59265,
+      "train_speed(iter/s)": 0.447409
+    },
+    {
+      "acc": 0.66082315,
+      "epoch": 1.5035514967021817,
+      "grad_norm": 4.90625,
+      "learning_rate": 1.592048723597866e-06,
+      "loss": 1.5599577,
+      "memory(GiB)": 111.15,
+      "step": 59270,
+      "train_speed(iter/s)": 0.447429
+    },
+    {
+      "acc": 0.67174711,
+      "epoch": 1.5036783358701167,
+      "grad_norm": 6.34375,
+      "learning_rate": 1.591281484897244e-06,
+      "loss": 1.56362839,
+      "memory(GiB)": 111.15,
+      "step": 59275,
+      "train_speed(iter/s)": 0.447449
+    },
+    {
+      "acc": 0.6585897,
+      "epoch": 1.5038051750380519,
+      "grad_norm": 5.90625,
+      "learning_rate": 1.5905143961272807e-06,
+      "loss": 1.63690643,
+      "memory(GiB)": 111.15,
+      "step": 59280,
+      "train_speed(iter/s)": 0.44747
+    },
+    {
+      "acc": 0.65825686,
+      "epoch": 1.5039320142059869,
+      "grad_norm": 5.75,
+      "learning_rate": 1.5897474573217153e-06,
+      "loss": 1.52825489,
+      "memory(GiB)": 111.15,
+      "step": 59285,
+      "train_speed(iter/s)": 0.44749
+    },
+    {
+      "acc": 0.6467422,
+      "epoch": 1.5040588533739219,
+      "grad_norm": 6.34375,
+      "learning_rate": 1.588980668514285e-06,
+      "loss": 1.64120712,
+      "memory(GiB)": 111.15,
+      "step": 59290,
+      "train_speed(iter/s)": 0.44751
+    },
+    {
+      "acc": 0.6395689,
+      "epoch": 1.5041856925418569,
+      "grad_norm": 4.96875,
+      "learning_rate": 1.5882140297387127e-06,
+      "loss": 1.59772911,
+      "memory(GiB)": 111.15,
+      "step": 59295,
+      "train_speed(iter/s)": 0.44753
+    },
+    {
+      "acc": 0.64974747,
+      "epoch": 1.5043125317097918,
+      "grad_norm": 5.09375,
+      "learning_rate": 1.5874475410287189e-06,
+      "loss": 1.66569443,
+      "memory(GiB)": 111.15,
+      "step": 59300,
+      "train_speed(iter/s)": 0.44755
+    },
+    {
+      "epoch": 1.5043125317097918,
+      "eval_acc": 0.6434197262203715,
+      "eval_loss": 1.607558012008667,
+      "eval_runtime": 115.0951,
+      "eval_samples_per_second": 55.346,
+      "eval_steps_per_second": 27.673,
+      "step": 59300
+    },
+    {
+      "acc": 0.65725527,
+      "epoch": 1.504439370877727,
+      "grad_norm": 5.3125,
+      "learning_rate": 1.586681202418019e-06,
+      "loss": 1.64224167,
+      "memory(GiB)": 111.15,
+      "step": 59305,
+      "train_speed(iter/s)": 0.447166
+    },
+    {
+      "acc": 0.64735832,
+      "epoch": 1.5045662100456623,
+      "grad_norm": 5.78125,
+      "learning_rate": 1.5859150139403212e-06,
+      "loss": 1.71872864,
+      "memory(GiB)": 111.15,
+      "step": 59310,
+      "train_speed(iter/s)": 0.447185
+    },
+    {
+      "acc": 0.66001391,
+      "epoch": 1.5046930492135973,
+      "grad_norm": 5.1875,
+      "learning_rate": 1.585148975629322e-06,
+      "loss": 1.56666279,
+      "memory(GiB)": 111.15,
+      "step": 59315,
+      "train_speed(iter/s)": 0.447205
+    },
+    {
+      "acc": 0.64274001,
+      "epoch": 1.5048198883815322,
+      "grad_norm": 5.625,
+      "learning_rate": 1.5843830875187155e-06,
+      "loss": 1.62955971,
+      "memory(GiB)": 111.15,
+      "step": 59320,
+      "train_speed(iter/s)": 0.447225
+    },
+    {
+      "acc": 0.6589869,
+      "epoch": 1.5049467275494672,
+      "grad_norm": 5.65625,
+      "learning_rate": 1.583617349642192e-06,
+      "loss": 1.66563454,
+      "memory(GiB)": 111.15,
+      "step": 59325,
+      "train_speed(iter/s)": 0.447244
+    },
+    {
+      "acc": 0.64371648,
+      "epoch": 1.5050735667174022,
+      "grad_norm": 4.59375,
+      "learning_rate": 1.5828517620334322e-06,
+      "loss": 1.66821556,
+      "memory(GiB)": 111.15,
+      "step": 59330,
+      "train_speed(iter/s)": 0.447264
+    },
+    {
+      "acc": 0.65946574,
+      "epoch": 1.5052004058853374,
+      "grad_norm": 5.03125,
+      "learning_rate": 1.5820863247261054e-06,
+      "loss": 1.61371861,
+      "memory(GiB)": 111.15,
+      "step": 59335,
+      "train_speed(iter/s)": 0.447284
+    },
+    {
+      "acc": 0.6594264,
+      "epoch": 1.5053272450532724,
+      "grad_norm": 5.1875,
+      "learning_rate": 1.5813210377538834e-06,
+      "loss": 1.60673714,
+      "memory(GiB)": 111.15,
+      "step": 59340,
+      "train_speed(iter/s)": 0.447303
+    },
+    {
+      "acc": 0.64570751,
+      "epoch": 1.5054540842212076,
+      "grad_norm": 4.78125,
+      "learning_rate": 1.5805559011504252e-06,
+      "loss": 1.65724392,
+      "memory(GiB)": 111.15,
+      "step": 59345,
+      "train_speed(iter/s)": 0.447323
+    },
+    {
+      "acc": 0.65474682,
+      "epoch": 1.5055809233891426,
+      "grad_norm": 5.09375,
+      "learning_rate": 1.5797909149493873e-06,
+      "loss": 1.53960524,
+      "memory(GiB)": 111.15,
+      "step": 59350,
+      "train_speed(iter/s)": 0.447343
+    },
+    {
+      "acc": 0.6342164,
+      "epoch": 1.5057077625570776,
+      "grad_norm": 5.0,
+      "learning_rate": 1.5790260791844114e-06,
+      "loss": 1.70316658,
+      "memory(GiB)": 111.15,
+      "step": 59355,
+      "train_speed(iter/s)": 0.447363
+    },
+    {
+      "acc": 0.66093311,
+      "epoch": 1.5058346017250126,
+      "grad_norm": 4.875,
+      "learning_rate": 1.5782613938891438e-06,
+      "loss": 1.60034142,
+      "memory(GiB)": 111.15,
+      "step": 59360,
+      "train_speed(iter/s)": 0.447382
+    },
+    {
+      "acc": 0.67324772,
+      "epoch": 1.5059614408929476,
+      "grad_norm": 6.8125,
+      "learning_rate": 1.5774968590972172e-06,
+      "loss": 1.59896221,
+      "memory(GiB)": 111.15,
+      "step": 59365,
+      "train_speed(iter/s)": 0.447402
+    },
+    {
+      "acc": 0.6498364,
+      "epoch": 1.5060882800608828,
+      "grad_norm": 5.375,
+      "learning_rate": 1.5767324748422592e-06,
+      "loss": 1.61642685,
+      "memory(GiB)": 111.15,
+      "step": 59370,
+      "train_speed(iter/s)": 0.447421
+    },
+    {
+      "acc": 0.65688219,
+      "epoch": 1.506215119228818,
+      "grad_norm": 6.28125,
+      "learning_rate": 1.5759682411578909e-06,
+      "loss": 1.62163429,
+      "memory(GiB)": 111.15,
+      "step": 59375,
+      "train_speed(iter/s)": 0.447441
+    },
+    {
+      "acc": 0.65494771,
+      "epoch": 1.506341958396753,
+      "grad_norm": 5.25,
+      "learning_rate": 1.575204158077726e-06,
+      "loss": 1.66645641,
+      "memory(GiB)": 111.15,
+      "step": 59380,
+      "train_speed(iter/s)": 0.447461
+    },
+    {
+      "acc": 0.66841612,
+      "epoch": 1.506468797564688,
+      "grad_norm": 5.46875,
+      "learning_rate": 1.574440225635373e-06,
+      "loss": 1.58660507,
+      "memory(GiB)": 111.15,
+      "step": 59385,
+      "train_speed(iter/s)": 0.447481
+    },
+    {
+      "acc": 0.65463037,
+      "epoch": 1.506595636732623,
+      "grad_norm": 4.78125,
+      "learning_rate": 1.5736764438644332e-06,
+      "loss": 1.58031406,
+      "memory(GiB)": 111.15,
+      "step": 59390,
+      "train_speed(iter/s)": 0.4475
+    },
+    {
+      "acc": 0.65850039,
+      "epoch": 1.506722475900558,
+      "grad_norm": 6.0625,
+      "learning_rate": 1.5729128127985004e-06,
+      "loss": 1.57293482,
+      "memory(GiB)": 111.15,
+      "step": 59395,
+      "train_speed(iter/s)": 0.44752
+    },
+    {
+      "acc": 0.63598795,
+      "epoch": 1.5068493150684932,
+      "grad_norm": 4.90625,
+      "learning_rate": 1.5721493324711633e-06,
+      "loss": 1.64439545,
+      "memory(GiB)": 111.15,
+      "step": 59400,
+      "train_speed(iter/s)": 0.44754
+    },
+    {
+      "epoch": 1.5068493150684932,
+      "eval_acc": 0.6433996733895174,
+      "eval_loss": 1.6075469255447388,
+      "eval_runtime": 113.8077,
+      "eval_samples_per_second": 55.972,
+      "eval_steps_per_second": 27.986,
+      "step": 59400
+    },
+    {
+      "acc": 0.6501956,
+      "epoch": 1.5069761542364282,
+      "grad_norm": 5.125,
+      "learning_rate": 1.5713860029160028e-06,
+      "loss": 1.62249107,
+      "memory(GiB)": 111.15,
+      "step": 59405,
+      "train_speed(iter/s)": 0.44716
+    },
+    {
+      "acc": 0.63989925,
+      "epoch": 1.5071029934043634,
+      "grad_norm": 5.65625,
+      "learning_rate": 1.5706228241665932e-06,
+      "loss": 1.65936127,
+      "memory(GiB)": 111.15,
+      "step": 59410,
+      "train_speed(iter/s)": 0.44718
+    },
+    {
+      "acc": 0.65798922,
+      "epoch": 1.5072298325722984,
+      "grad_norm": 4.59375,
+      "learning_rate": 1.5698597962565032e-06,
+      "loss": 1.63347626,
+      "memory(GiB)": 111.15,
+      "step": 59415,
+      "train_speed(iter/s)": 0.447199
+    },
+    {
+      "acc": 0.66332407,
+      "epoch": 1.5073566717402334,
+      "grad_norm": 5.78125,
+      "learning_rate": 1.5690969192192933e-06,
+      "loss": 1.54536333,
+      "memory(GiB)": 111.15,
+      "step": 59420,
+      "train_speed(iter/s)": 0.447219
+    },
+    {
+      "acc": 0.65890369,
+      "epoch": 1.5074835109081683,
+      "grad_norm": 4.28125,
+      "learning_rate": 1.5683341930885183e-06,
+      "loss": 1.57902336,
+      "memory(GiB)": 111.15,
+      "step": 59425,
+      "train_speed(iter/s)": 0.447239
+    },
+    {
+      "acc": 0.64195957,
+      "epoch": 1.5076103500761036,
+      "grad_norm": 5.59375,
+      "learning_rate": 1.567571617897729e-06,
+      "loss": 1.67013035,
+      "memory(GiB)": 111.15,
+      "step": 59430,
+      "train_speed(iter/s)": 0.447258
+    },
+    {
+      "acc": 0.65936074,
+      "epoch": 1.5077371892440385,
+      "grad_norm": 4.5,
+      "learning_rate": 1.566809193680463e-06,
+      "loss": 1.54908953,
+      "memory(GiB)": 111.15,
+      "step": 59435,
+      "train_speed(iter/s)": 0.447278
+    },
+    {
+      "acc": 0.64404936,
+      "epoch": 1.5078640284119738,
+      "grad_norm": 6.0,
+      "learning_rate": 1.566046920470257e-06,
+      "loss": 1.71743851,
+      "memory(GiB)": 111.15,
+      "step": 59440,
+      "train_speed(iter/s)": 0.447298
+    },
+    {
+      "acc": 0.66367149,
+      "epoch": 1.5079908675799087,
+      "grad_norm": 4.59375,
+      "learning_rate": 1.5652847983006376e-06,
+      "loss": 1.57582626,
+      "memory(GiB)": 111.15,
+      "step": 59445,
+      "train_speed(iter/s)": 0.447318
+    },
+    {
+      "acc": 0.65568686,
+      "epoch": 1.5081177067478437,
+      "grad_norm": 4.53125,
+      "learning_rate": 1.564522827205131e-06,
+      "loss": 1.60464535,
+      "memory(GiB)": 111.15,
+      "step": 59450,
+      "train_speed(iter/s)": 0.447337
+    },
+    {
+      "acc": 0.64674211,
+      "epoch": 1.5082445459157787,
+      "grad_norm": 5.28125,
+      "learning_rate": 1.5637610072172464e-06,
+      "loss": 1.62248478,
+      "memory(GiB)": 111.15,
+      "step": 59455,
+      "train_speed(iter/s)": 0.447357
+    },
+    {
+      "acc": 0.64776793,
+      "epoch": 1.5083713850837137,
+      "grad_norm": 5.4375,
+      "learning_rate": 1.5629993383704933e-06,
+      "loss": 1.72595825,
+      "memory(GiB)": 111.15,
+      "step": 59460,
+      "train_speed(iter/s)": 0.447377
+    },
+    {
+      "acc": 0.65464034,
+      "epoch": 1.508498224251649,
+      "grad_norm": 5.90625,
+      "learning_rate": 1.5622378206983764e-06,
+      "loss": 1.65297661,
+      "memory(GiB)": 111.15,
+      "step": 59465,
+      "train_speed(iter/s)": 0.447397
+    },
+    {
+      "acc": 0.65673046,
+      "epoch": 1.5086250634195841,
+      "grad_norm": 5.5625,
+      "learning_rate": 1.5614764542343896e-06,
+      "loss": 1.58422899,
+      "memory(GiB)": 111.15,
+      "step": 59470,
+      "train_speed(iter/s)": 0.447416
+    },
+    {
+      "acc": 0.65106068,
+      "epoch": 1.5087519025875191,
+      "grad_norm": 5.09375,
+      "learning_rate": 1.5607152390120173e-06,
+      "loss": 1.58888397,
+      "memory(GiB)": 111.15,
+      "step": 59475,
+      "train_speed(iter/s)": 0.447436
+    },
+    {
+      "acc": 0.64625835,
+      "epoch": 1.5088787417554541,
+      "grad_norm": 4.96875,
+      "learning_rate": 1.5599541750647457e-06,
+      "loss": 1.64378624,
+      "memory(GiB)": 111.15,
+      "step": 59480,
+      "train_speed(iter/s)": 0.447456
+    },
+    {
+      "acc": 0.64896345,
+      "epoch": 1.509005580923389,
+      "grad_norm": 5.125,
+      "learning_rate": 1.559193262426048e-06,
+      "loss": 1.58713417,
+      "memory(GiB)": 111.15,
+      "step": 59485,
+      "train_speed(iter/s)": 0.447476
+    },
+    {
+      "acc": 0.65284748,
+      "epoch": 1.509132420091324,
+      "grad_norm": 4.9375,
+      "learning_rate": 1.5584325011293943e-06,
+      "loss": 1.61546173,
+      "memory(GiB)": 111.15,
+      "step": 59490,
+      "train_speed(iter/s)": 0.447495
+    },
+    {
+      "acc": 0.64500017,
+      "epoch": 1.5092592592592593,
+      "grad_norm": 5.28125,
+      "learning_rate": 1.5576718912082417e-06,
+      "loss": 1.66601677,
+      "memory(GiB)": 111.15,
+      "step": 59495,
+      "train_speed(iter/s)": 0.447515
+    },
+    {
+      "acc": 0.6545754,
+      "epoch": 1.5093860984271943,
+      "grad_norm": 5.5,
+      "learning_rate": 1.5569114326960494e-06,
+      "loss": 1.64743404,
+      "memory(GiB)": 111.15,
+      "step": 59500,
+      "train_speed(iter/s)": 0.447535
+    },
+    {
+      "epoch": 1.5093860984271943,
+      "eval_acc": 0.6434059398991593,
+      "eval_loss": 1.6074860095977783,
+      "eval_runtime": 113.8913,
+      "eval_samples_per_second": 55.931,
+      "eval_steps_per_second": 27.965,
+      "step": 59500
+    },
+    {
+      "acc": 0.65407767,
+      "epoch": 1.5095129375951295,
+      "grad_norm": 5.53125,
+      "learning_rate": 1.5561511256262651e-06,
+      "loss": 1.61545963,
+      "memory(GiB)": 111.15,
+      "step": 59505,
+      "train_speed(iter/s)": 0.447156
+    },
+    {
+      "acc": 0.63908911,
+      "epoch": 1.5096397767630645,
+      "grad_norm": 5.03125,
+      "learning_rate": 1.55539097003233e-06,
+      "loss": 1.64478874,
+      "memory(GiB)": 111.15,
+      "step": 59510,
+      "train_speed(iter/s)": 0.447176
+    },
+    {
+      "acc": 0.65877566,
+      "epoch": 1.5097666159309995,
+      "grad_norm": 5.0,
+      "learning_rate": 1.5546309659476788e-06,
+      "loss": 1.60434875,
+      "memory(GiB)": 111.15,
+      "step": 59515,
+      "train_speed(iter/s)": 0.447196
+    },
+    {
+      "acc": 0.66534214,
+      "epoch": 1.5098934550989345,
+      "grad_norm": 4.9375,
+      "learning_rate": 1.55387111340574e-06,
+      "loss": 1.60407372,
+      "memory(GiB)": 111.15,
+      "step": 59520,
+      "train_speed(iter/s)": 0.447215
+    },
+    {
+      "acc": 0.6587709,
+      "epoch": 1.5100202942668695,
+      "grad_norm": 5.65625,
+      "learning_rate": 1.553111412439936e-06,
+      "loss": 1.60242386,
+      "memory(GiB)": 111.15,
+      "step": 59525,
+      "train_speed(iter/s)": 0.447235
+    },
+    {
+      "acc": 0.64898419,
+      "epoch": 1.5101471334348047,
+      "grad_norm": 5.15625,
+      "learning_rate": 1.5523518630836809e-06,
+      "loss": 1.6708046,
+      "memory(GiB)": 111.15,
+      "step": 59530,
+      "train_speed(iter/s)": 0.447255
+    },
+    {
+      "acc": 0.66300507,
+      "epoch": 1.5102739726027399,
+      "grad_norm": 6.03125,
+      "learning_rate": 1.551592465370384e-06,
+      "loss": 1.53205509,
+      "memory(GiB)": 111.15,
+      "step": 59535,
+      "train_speed(iter/s)": 0.447275
+    },
+    {
+      "acc": 0.63613396,
+      "epoch": 1.5104008117706749,
+      "grad_norm": 5.5625,
+      "learning_rate": 1.5508332193334457e-06,
+      "loss": 1.60356712,
+      "memory(GiB)": 111.15,
+      "step": 59540,
+      "train_speed(iter/s)": 0.447294
+    },
+    {
+      "acc": 0.64130106,
+      "epoch": 1.5105276509386099,
+      "grad_norm": 5.25,
+      "learning_rate": 1.5500741250062628e-06,
+      "loss": 1.69565334,
+      "memory(GiB)": 111.15,
+      "step": 59545,
+      "train_speed(iter/s)": 0.447314
+    },
+    {
+      "acc": 0.67670002,
+      "epoch": 1.5106544901065448,
+      "grad_norm": 5.6875,
+      "learning_rate": 1.549315182422222e-06,
+      "loss": 1.56400166,
+      "memory(GiB)": 111.15,
+      "step": 59550,
+      "train_speed(iter/s)": 0.447334
+    },
+    {
+      "acc": 0.66014585,
+      "epoch": 1.5107813292744798,
+      "grad_norm": 4.46875,
+      "learning_rate": 1.5485563916147062e-06,
+      "loss": 1.63977718,
+      "memory(GiB)": 111.15,
+      "step": 59555,
+      "train_speed(iter/s)": 0.447354
+    },
+    {
+      "acc": 0.63057241,
+      "epoch": 1.510908168442415,
+      "grad_norm": 5.71875,
+      "learning_rate": 1.5477977526170895e-06,
+      "loss": 1.63327465,
+      "memory(GiB)": 111.15,
+      "step": 59560,
+      "train_speed(iter/s)": 0.447374
+    },
+    {
+      "acc": 0.6490202,
+      "epoch": 1.51103500761035,
+      "grad_norm": 5.75,
+      "learning_rate": 1.5470392654627392e-06,
+      "loss": 1.65638237,
+      "memory(GiB)": 111.15,
+      "step": 59565,
+      "train_speed(iter/s)": 0.447393
+    },
+    {
+      "acc": 0.65727386,
+      "epoch": 1.5111618467782852,
+      "grad_norm": 5.125,
+      "learning_rate": 1.5462809301850212e-06,
+      "loss": 1.63469582,
+      "memory(GiB)": 111.15,
+      "step": 59570,
+      "train_speed(iter/s)": 0.447413
+    },
+    {
+      "acc": 0.6488399,
+      "epoch": 1.5112886859462202,
+      "grad_norm": 5.0,
+      "learning_rate": 1.5455227468172862e-06,
+      "loss": 1.64031868,
+      "memory(GiB)": 111.15,
+      "step": 59575,
+      "train_speed(iter/s)": 0.447433
+    },
+    {
+      "acc": 0.64597101,
+      "epoch": 1.5114155251141552,
+      "grad_norm": 6.125,
+      "learning_rate": 1.5447647153928842e-06,
+      "loss": 1.68319378,
+      "memory(GiB)": 111.15,
+      "step": 59580,
+      "train_speed(iter/s)": 0.447453
+    },
+    {
+      "acc": 0.64783216,
+      "epoch": 1.5115423642820902,
+      "grad_norm": 6.03125,
+      "learning_rate": 1.5440068359451548e-06,
+      "loss": 1.64066067,
+      "memory(GiB)": 111.15,
+      "step": 59585,
+      "train_speed(iter/s)": 0.447473
+    },
+    {
+      "acc": 0.66351919,
+      "epoch": 1.5116692034500254,
+      "grad_norm": 9.0,
+      "learning_rate": 1.5432491085074381e-06,
+      "loss": 1.63448334,
+      "memory(GiB)": 111.15,
+      "step": 59590,
+      "train_speed(iter/s)": 0.447493
+    },
+    {
+      "acc": 0.63733082,
+      "epoch": 1.5117960426179604,
+      "grad_norm": 4.84375,
+      "learning_rate": 1.5424915331130568e-06,
+      "loss": 1.67175331,
+      "memory(GiB)": 111.15,
+      "step": 59595,
+      "train_speed(iter/s)": 0.447512
+    },
+    {
+      "acc": 0.66003532,
+      "epoch": 1.5119228817858956,
+      "grad_norm": 6.53125,
+      "learning_rate": 1.5417341097953332e-06,
+      "loss": 1.55326042,
+      "memory(GiB)": 111.15,
+      "step": 59600,
+      "train_speed(iter/s)": 0.447532
+    },
+    {
+      "epoch": 1.5119228817858956,
+      "eval_acc": 0.643380038325973,
+      "eval_loss": 1.6075928211212158,
+      "eval_runtime": 112.3157,
+      "eval_samples_per_second": 56.715,
+      "eval_steps_per_second": 28.358,
+      "step": 59600
+    },
+    {
+      "acc": 0.66619644,
+      "epoch": 1.5120497209538306,
+      "grad_norm": 7.03125,
+      "learning_rate": 1.540976838587585e-06,
+      "loss": 1.61836014,
+      "memory(GiB)": 111.15,
+      "step": 59605,
+      "train_speed(iter/s)": 0.447159
+    },
+    {
+      "acc": 0.65142288,
+      "epoch": 1.5121765601217656,
+      "grad_norm": 5.0625,
+      "learning_rate": 1.5402197195231205e-06,
+      "loss": 1.60947266,
+      "memory(GiB)": 111.15,
+      "step": 59610,
+      "train_speed(iter/s)": 0.447179
+    },
+    {
+      "acc": 0.65635772,
+      "epoch": 1.5123033992897006,
+      "grad_norm": 5.09375,
+      "learning_rate": 1.5394627526352379e-06,
+      "loss": 1.58271618,
+      "memory(GiB)": 111.15,
+      "step": 59615,
+      "train_speed(iter/s)": 0.447199
+    },
+    {
+      "acc": 0.65267363,
+      "epoch": 1.5124302384576356,
+      "grad_norm": 5.625,
+      "learning_rate": 1.5387059379572322e-06,
+      "loss": 1.62455559,
+      "memory(GiB)": 111.15,
+      "step": 59620,
+      "train_speed(iter/s)": 0.447219
+    },
+    {
+      "acc": 0.67252941,
+      "epoch": 1.5125570776255708,
+      "grad_norm": 5.90625,
+      "learning_rate": 1.537949275522394e-06,
+      "loss": 1.57196264,
+      "memory(GiB)": 111.15,
+      "step": 59625,
+      "train_speed(iter/s)": 0.447238
+    },
+    {
+      "acc": 0.6365407,
+      "epoch": 1.512683916793506,
+      "grad_norm": 6.5,
+      "learning_rate": 1.5371927653640056e-06,
+      "loss": 1.67821159,
+      "memory(GiB)": 111.15,
+      "step": 59630,
+      "train_speed(iter/s)": 0.447258
+    },
+    {
+      "acc": 0.65380173,
+      "epoch": 1.512810755961441,
+      "grad_norm": 4.90625,
+      "learning_rate": 1.5364364075153366e-06,
+      "loss": 1.5871542,
+      "memory(GiB)": 111.15,
+      "step": 59635,
+      "train_speed(iter/s)": 0.447278
+    },
+    {
+      "acc": 0.65698128,
+      "epoch": 1.512937595129376,
+      "grad_norm": 5.28125,
+      "learning_rate": 1.5356802020096595e-06,
+      "loss": 1.58151703,
+      "memory(GiB)": 111.15,
+      "step": 59640,
+      "train_speed(iter/s)": 0.447298
+    },
+    {
+      "acc": 0.65728555,
+      "epoch": 1.513064434297311,
+      "grad_norm": 5.125,
+      "learning_rate": 1.5349241488802346e-06,
+      "loss": 1.59607382,
+      "memory(GiB)": 111.15,
+      "step": 59645,
+      "train_speed(iter/s)": 0.447318
+    },
+    {
+      "acc": 0.64914389,
+      "epoch": 1.513191273465246,
+      "grad_norm": 5.3125,
+      "learning_rate": 1.5341682481603155e-06,
+      "loss": 1.64512959,
+      "memory(GiB)": 111.15,
+      "step": 59650,
+      "train_speed(iter/s)": 0.447337
+    },
+    {
+      "acc": 0.65927014,
+      "epoch": 1.5133181126331812,
+      "grad_norm": 5.8125,
+      "learning_rate": 1.5334124998831512e-06,
+      "loss": 1.58811779,
+      "memory(GiB)": 111.15,
+      "step": 59655,
+      "train_speed(iter/s)": 0.447357
+    },
+    {
+      "acc": 0.62713332,
+      "epoch": 1.5134449518011162,
+      "grad_norm": 4.8125,
+      "learning_rate": 1.532656904081982e-06,
+      "loss": 1.67415237,
+      "memory(GiB)": 111.15,
+      "step": 59660,
+      "train_speed(iter/s)": 0.447377
+    },
+    {
+      "acc": 0.65575657,
+      "epoch": 1.5135717909690514,
+      "grad_norm": 5.25,
+      "learning_rate": 1.5319014607900428e-06,
+      "loss": 1.57562122,
+      "memory(GiB)": 111.15,
+      "step": 59665,
+      "train_speed(iter/s)": 0.447397
+    },
+    {
+      "acc": 0.65832605,
+      "epoch": 1.5136986301369864,
+      "grad_norm": 5.34375,
+      "learning_rate": 1.5311461700405617e-06,
+      "loss": 1.61154346,
+      "memory(GiB)": 111.15,
+      "step": 59670,
+      "train_speed(iter/s)": 0.447416
+    },
+    {
+      "acc": 0.64813786,
+      "epoch": 1.5138254693049213,
+      "grad_norm": 6.1875,
+      "learning_rate": 1.5303910318667586e-06,
+      "loss": 1.64115486,
+      "memory(GiB)": 111.15,
+      "step": 59675,
+      "train_speed(iter/s)": 0.447436
+    },
+    {
+      "acc": 0.6441844,
+      "epoch": 1.5139523084728563,
+      "grad_norm": 5.125,
+      "learning_rate": 1.529636046301849e-06,
+      "loss": 1.64704628,
+      "memory(GiB)": 111.15,
+      "step": 59680,
+      "train_speed(iter/s)": 0.447456
+    },
+    {
+      "acc": 0.63008699,
+      "epoch": 1.5140791476407913,
+      "grad_norm": 5.78125,
+      "learning_rate": 1.5288812133790405e-06,
+      "loss": 1.70643044,
+      "memory(GiB)": 111.15,
+      "step": 59685,
+      "train_speed(iter/s)": 0.447476
+    },
+    {
+      "acc": 0.64239058,
+      "epoch": 1.5142059868087265,
+      "grad_norm": 5.0625,
+      "learning_rate": 1.5281265331315332e-06,
+      "loss": 1.63183231,
+      "memory(GiB)": 111.15,
+      "step": 59690,
+      "train_speed(iter/s)": 0.447496
+    },
+    {
+      "acc": 0.65393629,
+      "epoch": 1.5143328259766617,
+      "grad_norm": 5.03125,
+      "learning_rate": 1.5273720055925217e-06,
+      "loss": 1.60926552,
+      "memory(GiB)": 111.15,
+      "step": 59695,
+      "train_speed(iter/s)": 0.447515
+    },
+    {
+      "acc": 0.65483088,
+      "epoch": 1.5144596651445967,
+      "grad_norm": 4.75,
+      "learning_rate": 1.5266176307951936e-06,
+      "loss": 1.6413559,
+      "memory(GiB)": 111.15,
+      "step": 59700,
+      "train_speed(iter/s)": 0.447535
+    },
+    {
+      "epoch": 1.5144596651445967,
+      "eval_acc": 0.6433904825087094,
+      "eval_loss": 1.607596755027771,
+      "eval_runtime": 114.9775,
+      "eval_samples_per_second": 55.402,
+      "eval_steps_per_second": 27.701,
+      "step": 59700
+    },
+    {
+      "acc": 0.62640305,
+      "epoch": 1.5145865043125317,
+      "grad_norm": 4.875,
+      "learning_rate": 1.5258634087727298e-06,
+      "loss": 1.61743603,
+      "memory(GiB)": 111.15,
+      "step": 59705,
+      "train_speed(iter/s)": 0.447154
+    },
+    {
+      "acc": 0.65359969,
+      "epoch": 1.5147133434804667,
+      "grad_norm": 5.28125,
+      "learning_rate": 1.5251093395583045e-06,
+      "loss": 1.64204884,
+      "memory(GiB)": 111.15,
+      "step": 59710,
+      "train_speed(iter/s)": 0.447174
+    },
+    {
+      "acc": 0.65808525,
+      "epoch": 1.5148401826484017,
+      "grad_norm": 5.09375,
+      "learning_rate": 1.5243554231850843e-06,
+      "loss": 1.60448513,
+      "memory(GiB)": 111.15,
+      "step": 59715,
+      "train_speed(iter/s)": 0.447193
+    },
+    {
+      "acc": 0.64710035,
+      "epoch": 1.514967021816337,
+      "grad_norm": 4.875,
+      "learning_rate": 1.5236016596862302e-06,
+      "loss": 1.59945507,
+      "memory(GiB)": 111.15,
+      "step": 59720,
+      "train_speed(iter/s)": 0.447213
+    },
+    {
+      "acc": 0.64972887,
+      "epoch": 1.515093860984272,
+      "grad_norm": 4.53125,
+      "learning_rate": 1.5228480490948943e-06,
+      "loss": 1.58401117,
+      "memory(GiB)": 111.15,
+      "step": 59725,
+      "train_speed(iter/s)": 0.447232
+    },
+    {
+      "acc": 0.65685673,
+      "epoch": 1.5152207001522071,
+      "grad_norm": 5.40625,
+      "learning_rate": 1.5220945914442292e-06,
+      "loss": 1.66196442,
+      "memory(GiB)": 111.15,
+      "step": 59730,
+      "train_speed(iter/s)": 0.447252
+    },
+    {
+      "acc": 0.64917827,
+      "epoch": 1.515347539320142,
+      "grad_norm": 5.0,
+      "learning_rate": 1.52134128676737e-06,
+      "loss": 1.57322769,
+      "memory(GiB)": 111.15,
+      "step": 59735,
+      "train_speed(iter/s)": 0.447272
+    },
+    {
+      "acc": 0.64983125,
+      "epoch": 1.515474378488077,
+      "grad_norm": 6.09375,
+      "learning_rate": 1.5205881350974504e-06,
+      "loss": 1.72152596,
+      "memory(GiB)": 111.15,
+      "step": 59740,
+      "train_speed(iter/s)": 0.447291
+    },
+    {
+      "acc": 0.63896265,
+      "epoch": 1.515601217656012,
+      "grad_norm": 6.65625,
+      "learning_rate": 1.5198351364676012e-06,
+      "loss": 1.60947647,
+      "memory(GiB)": 111.15,
+      "step": 59745,
+      "train_speed(iter/s)": 0.447311
+    },
+    {
+      "acc": 0.65435438,
+      "epoch": 1.5157280568239473,
+      "grad_norm": 5.375,
+      "learning_rate": 1.5190822909109415e-06,
+      "loss": 1.62179985,
+      "memory(GiB)": 111.15,
+      "step": 59750,
+      "train_speed(iter/s)": 0.447331
+    },
+    {
+      "acc": 0.65049467,
+      "epoch": 1.5158548959918823,
+      "grad_norm": 4.59375,
+      "learning_rate": 1.5183295984605824e-06,
+      "loss": 1.65684185,
+      "memory(GiB)": 111.15,
+      "step": 59755,
+      "train_speed(iter/s)": 0.44735
+    },
+    {
+      "acc": 0.65793595,
+      "epoch": 1.5159817351598175,
+      "grad_norm": 4.875,
+      "learning_rate": 1.5175770591496303e-06,
+      "loss": 1.61157627,
+      "memory(GiB)": 111.15,
+      "step": 59760,
+      "train_speed(iter/s)": 0.44737
+    },
+    {
+      "acc": 0.64831781,
+      "epoch": 1.5161085743277525,
+      "grad_norm": 4.65625,
+      "learning_rate": 1.5168246730111892e-06,
+      "loss": 1.62989426,
+      "memory(GiB)": 111.15,
+      "step": 59765,
+      "train_speed(iter/s)": 0.44739
+    },
+    {
+      "acc": 0.67648869,
+      "epoch": 1.5162354134956875,
+      "grad_norm": 5.15625,
+      "learning_rate": 1.5160724400783511e-06,
+      "loss": 1.59406624,
+      "memory(GiB)": 111.15,
+      "step": 59770,
+      "train_speed(iter/s)": 0.44741
+    },
+    {
+      "acc": 0.65006742,
+      "epoch": 1.5163622526636225,
+      "grad_norm": 4.84375,
+      "learning_rate": 1.5153203603841992e-06,
+      "loss": 1.61998291,
+      "memory(GiB)": 111.15,
+      "step": 59775,
+      "train_speed(iter/s)": 0.44743
+    },
+    {
+      "acc": 0.64968948,
+      "epoch": 1.5164890918315574,
+      "grad_norm": 5.21875,
+      "learning_rate": 1.5145684339618172e-06,
+      "loss": 1.69063301,
+      "memory(GiB)": 111.15,
+      "step": 59780,
+      "train_speed(iter/s)": 0.447449
+    },
+    {
+      "acc": 0.66691999,
+      "epoch": 1.5166159309994927,
+      "grad_norm": 5.5625,
+      "learning_rate": 1.5138166608442768e-06,
+      "loss": 1.53781958,
+      "memory(GiB)": 111.15,
+      "step": 59785,
+      "train_speed(iter/s)": 0.447469
+    },
+    {
+      "acc": 0.64984303,
+      "epoch": 1.5167427701674279,
+      "grad_norm": 5.96875,
+      "learning_rate": 1.5130650410646452e-06,
+      "loss": 1.58414965,
+      "memory(GiB)": 111.15,
+      "step": 59790,
+      "train_speed(iter/s)": 0.447489
+    },
+    {
+      "acc": 0.65290098,
+      "epoch": 1.5168696093353629,
+      "grad_norm": 4.34375,
+      "learning_rate": 1.5123135746559792e-06,
+      "loss": 1.61110249,
+      "memory(GiB)": 111.15,
+      "step": 59795,
+      "train_speed(iter/s)": 0.447509
+    },
+    {
+      "acc": 0.66783056,
+      "epoch": 1.5169964485032978,
+      "grad_norm": 6.15625,
+      "learning_rate": 1.5115622616513343e-06,
+      "loss": 1.56646309,
+      "memory(GiB)": 111.15,
+      "step": 59800,
+      "train_speed(iter/s)": 0.447529
+    },
+    {
+      "epoch": 1.5169964485032978,
+      "eval_acc": 0.643413877478039,
+      "eval_loss": 1.6075533628463745,
+      "eval_runtime": 114.1522,
+      "eval_samples_per_second": 55.803,
+      "eval_steps_per_second": 27.901,
+      "step": 59800
+    },
+    {
+      "acc": 0.64027271,
+      "epoch": 1.5171232876712328,
+      "grad_norm": 5.03125,
+      "learning_rate": 1.5108111020837564e-06,
+      "loss": 1.71249428,
+      "memory(GiB)": 111.15,
+      "step": 59805,
+      "train_speed(iter/s)": 0.447151
+    },
+    {
+      "acc": 0.64660177,
+      "epoch": 1.5172501268391678,
+      "grad_norm": 5.0,
+      "learning_rate": 1.5100600959862838e-06,
+      "loss": 1.59993439,
+      "memory(GiB)": 111.15,
+      "step": 59810,
+      "train_speed(iter/s)": 0.447171
+    },
+    {
+      "acc": 0.65249014,
+      "epoch": 1.517376966007103,
+      "grad_norm": 5.3125,
+      "learning_rate": 1.5093092433919497e-06,
+      "loss": 1.61603374,
+      "memory(GiB)": 111.15,
+      "step": 59815,
+      "train_speed(iter/s)": 0.44719
+    },
+    {
+      "acc": 0.64412746,
+      "epoch": 1.517503805175038,
+      "grad_norm": 5.34375,
+      "learning_rate": 1.5085585443337803e-06,
+      "loss": 1.59153976,
+      "memory(GiB)": 111.15,
+      "step": 59820,
+      "train_speed(iter/s)": 0.44721
+    },
+    {
+      "acc": 0.65250721,
+      "epoch": 1.5176306443429732,
+      "grad_norm": 5.9375,
+      "learning_rate": 1.507807998844794e-06,
+      "loss": 1.72072392,
+      "memory(GiB)": 111.15,
+      "step": 59825,
+      "train_speed(iter/s)": 0.44723
+    },
+    {
+      "acc": 0.64310398,
+      "epoch": 1.5177574835109082,
+      "grad_norm": 5.8125,
+      "learning_rate": 1.5070576069580039e-06,
+      "loss": 1.59251385,
+      "memory(GiB)": 111.15,
+      "step": 59830,
+      "train_speed(iter/s)": 0.447249
+    },
+    {
+      "acc": 0.65321069,
+      "epoch": 1.5178843226788432,
+      "grad_norm": 4.59375,
+      "learning_rate": 1.5063073687064144e-06,
+      "loss": 1.66049366,
+      "memory(GiB)": 111.15,
+      "step": 59835,
+      "train_speed(iter/s)": 0.447269
+    },
+    {
+      "acc": 0.66143446,
+      "epoch": 1.5180111618467782,
+      "grad_norm": 5.25,
+      "learning_rate": 1.5055572841230253e-06,
+      "loss": 1.6189167,
+      "memory(GiB)": 111.15,
+      "step": 59840,
+      "train_speed(iter/s)": 0.447289
+    },
+    {
+      "acc": 0.6575695,
+      "epoch": 1.5181380010147132,
+      "grad_norm": 4.9375,
+      "learning_rate": 1.5048073532408287e-06,
+      "loss": 1.62347946,
+      "memory(GiB)": 111.15,
+      "step": 59845,
+      "train_speed(iter/s)": 0.447308
+    },
+    {
+      "acc": 0.65974474,
+      "epoch": 1.5182648401826484,
+      "grad_norm": 4.53125,
+      "learning_rate": 1.5040575760928094e-06,
+      "loss": 1.58132677,
+      "memory(GiB)": 111.15,
+      "step": 59850,
+      "train_speed(iter/s)": 0.447328
+    },
+    {
+      "acc": 0.65526834,
+      "epoch": 1.5183916793505836,
+      "grad_norm": 5.125,
+      "learning_rate": 1.5033079527119466e-06,
+      "loss": 1.67370796,
+      "memory(GiB)": 111.15,
+      "step": 59855,
+      "train_speed(iter/s)": 0.447348
+    },
+    {
+      "acc": 0.66112509,
+      "epoch": 1.5185185185185186,
+      "grad_norm": 5.625,
+      "learning_rate": 1.5025584831312112e-06,
+      "loss": 1.61700745,
+      "memory(GiB)": 111.15,
+      "step": 59860,
+      "train_speed(iter/s)": 0.447368
+    },
+    {
+      "acc": 0.64592996,
+      "epoch": 1.5186453576864536,
+      "grad_norm": 6.34375,
+      "learning_rate": 1.5018091673835667e-06,
+      "loss": 1.63819504,
+      "memory(GiB)": 111.15,
+      "step": 59865,
+      "train_speed(iter/s)": 0.447388
+    },
+    {
+      "acc": 0.65680008,
+      "epoch": 1.5187721968543886,
+      "grad_norm": 5.28125,
+      "learning_rate": 1.501060005501977e-06,
+      "loss": 1.60709934,
+      "memory(GiB)": 111.15,
+      "step": 59870,
+      "train_speed(iter/s)": 0.447408
+    },
+    {
+      "acc": 0.6579277,
+      "epoch": 1.5188990360223236,
+      "grad_norm": 5.65625,
+      "learning_rate": 1.500310997519388e-06,
+      "loss": 1.64171982,
+      "memory(GiB)": 111.15,
+      "step": 59875,
+      "train_speed(iter/s)": 0.447428
+    },
+    {
+      "acc": 0.65919666,
+      "epoch": 1.5190258751902588,
+      "grad_norm": 5.03125,
+      "learning_rate": 1.4995621434687468e-06,
+      "loss": 1.59225483,
+      "memory(GiB)": 111.15,
+      "step": 59880,
+      "train_speed(iter/s)": 0.447447
+    },
+    {
+      "acc": 0.64306755,
+      "epoch": 1.5191527143581938,
+      "grad_norm": 5.5,
+      "learning_rate": 1.4988134433829892e-06,
+      "loss": 1.68221149,
+      "memory(GiB)": 111.15,
+      "step": 59885,
+      "train_speed(iter/s)": 0.447467
+    },
+    {
+      "acc": 0.64452968,
+      "epoch": 1.519279553526129,
+      "grad_norm": 5.28125,
+      "learning_rate": 1.4980648972950507e-06,
+      "loss": 1.61323433,
+      "memory(GiB)": 111.15,
+      "step": 59890,
+      "train_speed(iter/s)": 0.447487
+    },
+    {
+      "acc": 0.64893699,
+      "epoch": 1.519406392694064,
+      "grad_norm": 6.1875,
+      "learning_rate": 1.4973165052378518e-06,
+      "loss": 1.59929953,
+      "memory(GiB)": 111.15,
+      "step": 59895,
+      "train_speed(iter/s)": 0.447506
+    },
+    {
+      "acc": 0.64583421,
+      "epoch": 1.519533231861999,
+      "grad_norm": 5.5625,
+      "learning_rate": 1.49656826724431e-06,
+      "loss": 1.63631744,
+      "memory(GiB)": 111.15,
+      "step": 59900,
+      "train_speed(iter/s)": 0.447526
+    },
+    {
+      "epoch": 1.519533231861999,
+      "eval_acc": 0.6434744537379103,
+      "eval_loss": 1.607487678527832,
+      "eval_runtime": 113.4759,
+      "eval_samples_per_second": 56.135,
+      "eval_steps_per_second": 28.068,
+      "step": 59900
+    },
+    {
+      "acc": 0.65246658,
+      "epoch": 1.519660071029934,
+      "grad_norm": 5.1875,
+      "learning_rate": 1.4958201833473386e-06,
+      "loss": 1.60695076,
+      "memory(GiB)": 111.15,
+      "step": 59905,
+      "train_speed(iter/s)": 0.447151
+    },
+    {
+      "acc": 0.63448753,
+      "epoch": 1.5197869101978692,
+      "grad_norm": 5.125,
+      "learning_rate": 1.4950722535798423e-06,
+      "loss": 1.6476593,
+      "memory(GiB)": 111.15,
+      "step": 59910,
+      "train_speed(iter/s)": 0.447171
+    },
+    {
+      "acc": 0.65107889,
+      "epoch": 1.5199137493658041,
+      "grad_norm": 5.25,
+      "learning_rate": 1.4943244779747134e-06,
+      "loss": 1.63481407,
+      "memory(GiB)": 111.15,
+      "step": 59915,
+      "train_speed(iter/s)": 0.44719
+    },
+    {
+      "acc": 0.64174247,
+      "epoch": 1.5200405885337394,
+      "grad_norm": 4.6875,
+      "learning_rate": 1.4935768565648478e-06,
+      "loss": 1.60233002,
+      "memory(GiB)": 111.15,
+      "step": 59920,
+      "train_speed(iter/s)": 0.44721
+    },
+    {
+      "acc": 0.64108324,
+      "epoch": 1.5201674277016743,
+      "grad_norm": 7.40625,
+      "learning_rate": 1.4928293893831265e-06,
+      "loss": 1.69445343,
+      "memory(GiB)": 111.15,
+      "step": 59925,
+      "train_speed(iter/s)": 0.44723
+    },
+    {
+      "acc": 0.64460678,
+      "epoch": 1.5202942668696093,
+      "grad_norm": 6.125,
+      "learning_rate": 1.4920820764624288e-06,
+      "loss": 1.62856789,
+      "memory(GiB)": 111.15,
+      "step": 59930,
+      "train_speed(iter/s)": 0.447249
+    },
+    {
+      "acc": 0.64615221,
+      "epoch": 1.5204211060375443,
+      "grad_norm": 5.5625,
+      "learning_rate": 1.4913349178356202e-06,
+      "loss": 1.64554367,
+      "memory(GiB)": 111.15,
+      "step": 59935,
+      "train_speed(iter/s)": 0.447269
+    },
+    {
+      "acc": 0.64068298,
+      "epoch": 1.5205479452054793,
+      "grad_norm": 6.40625,
+      "learning_rate": 1.4905879135355684e-06,
+      "loss": 1.68960514,
+      "memory(GiB)": 111.15,
+      "step": 59940,
+      "train_speed(iter/s)": 0.447289
+    },
+    {
+      "acc": 0.64109359,
+      "epoch": 1.5206747843734145,
+      "grad_norm": 6.125,
+      "learning_rate": 1.4898410635951282e-06,
+      "loss": 1.60842915,
+      "memory(GiB)": 111.15,
+      "step": 59945,
+      "train_speed(iter/s)": 0.447308
+    },
+    {
+      "acc": 0.6584897,
+      "epoch": 1.5208016235413497,
+      "grad_norm": 5.40625,
+      "learning_rate": 1.4890943680471503e-06,
+      "loss": 1.61734123,
+      "memory(GiB)": 111.15,
+      "step": 59950,
+      "train_speed(iter/s)": 0.447328
+    },
+    {
+      "acc": 0.64938145,
+      "epoch": 1.5209284627092847,
+      "grad_norm": 5.15625,
+      "learning_rate": 1.4883478269244766e-06,
+      "loss": 1.61212883,
+      "memory(GiB)": 111.15,
+      "step": 59955,
+      "train_speed(iter/s)": 0.447348
+    },
+    {
+      "acc": 0.65076618,
+      "epoch": 1.5210553018772197,
+      "grad_norm": 4.75,
+      "learning_rate": 1.4876014402599443e-06,
+      "loss": 1.68238602,
+      "memory(GiB)": 111.15,
+      "step": 59960,
+      "train_speed(iter/s)": 0.447367
+    },
+    {
+      "acc": 0.63586426,
+      "epoch": 1.5211821410451547,
+      "grad_norm": 5.375,
+      "learning_rate": 1.4868552080863824e-06,
+      "loss": 1.67603455,
+      "memory(GiB)": 111.15,
+      "step": 59965,
+      "train_speed(iter/s)": 0.447387
+    },
+    {
+      "acc": 0.66906247,
+      "epoch": 1.5213089802130897,
+      "grad_norm": 6.71875,
+      "learning_rate": 1.4861091304366139e-06,
+      "loss": 1.5238534,
+      "memory(GiB)": 111.15,
+      "step": 59970,
+      "train_speed(iter/s)": 0.447407
+    },
+    {
+      "acc": 0.66376019,
+      "epoch": 1.521435819381025,
+      "grad_norm": 5.3125,
+      "learning_rate": 1.4853632073434533e-06,
+      "loss": 1.52662411,
+      "memory(GiB)": 111.15,
+      "step": 59975,
+      "train_speed(iter/s)": 0.447427
+    },
+    {
+      "acc": 0.64240322,
+      "epoch": 1.52156265854896,
+      "grad_norm": 7.8125,
+      "learning_rate": 1.484617438839711e-06,
+      "loss": 1.68637867,
+      "memory(GiB)": 111.15,
+      "step": 59980,
+      "train_speed(iter/s)": 0.447447
+    },
+    {
+      "acc": 0.6546061,
+      "epoch": 1.521689497716895,
+      "grad_norm": 6.53125,
+      "learning_rate": 1.483871824958189e-06,
+      "loss": 1.57913227,
+      "memory(GiB)": 111.15,
+      "step": 59985,
+      "train_speed(iter/s)": 0.447466
+    },
+    {
+      "acc": 0.64424324,
+      "epoch": 1.52181633688483,
+      "grad_norm": 5.4375,
+      "learning_rate": 1.483126365731682e-06,
+      "loss": 1.60780773,
+      "memory(GiB)": 111.15,
+      "step": 59990,
+      "train_speed(iter/s)": 0.447486
+    },
+    {
+      "acc": 0.65878992,
+      "epoch": 1.521943176052765,
+      "grad_norm": 4.9375,
+      "learning_rate": 1.4823810611929795e-06,
+      "loss": 1.52101269,
+      "memory(GiB)": 111.15,
+      "step": 59995,
+      "train_speed(iter/s)": 0.447505
+    },
+    {
+      "acc": 0.67096891,
+      "epoch": 1.5220700152207,
+      "grad_norm": 4.6875,
+      "learning_rate": 1.481635911374863e-06,
+      "loss": 1.51707954,
+      "memory(GiB)": 111.15,
+      "step": 60000,
+      "train_speed(iter/s)": 0.447525
+    },
+    {
+      "epoch": 1.5220700152207,
+      "eval_acc": 0.6434172196165147,
+      "eval_loss": 1.6075445413589478,
+      "eval_runtime": 114.6389,
+      "eval_samples_per_second": 55.566,
+      "eval_steps_per_second": 27.783,
+      "step": 60000
+    },
+    {
+      "acc": 0.65110869,
+      "epoch": 1.522196854388635,
+      "grad_norm": 5.375,
+      "learning_rate": 1.480890916310106e-06,
+      "loss": 1.63620872,
+      "memory(GiB)": 111.15,
+      "step": 60005,
+      "train_speed(iter/s)": 0.447147
+    },
+    {
+      "acc": 0.66446009,
+      "epoch": 1.5223236935565703,
+      "grad_norm": 5.4375,
+      "learning_rate": 1.4801460760314811e-06,
+      "loss": 1.55722103,
+      "memory(GiB)": 111.15,
+      "step": 60010,
+      "train_speed(iter/s)": 0.447166
+    },
+    {
+      "acc": 0.64216995,
+      "epoch": 1.5224505327245055,
+      "grad_norm": 6.5,
+      "learning_rate": 1.4794013905717453e-06,
+      "loss": 1.65406723,
+      "memory(GiB)": 111.15,
+      "step": 60015,
+      "train_speed(iter/s)": 0.447186
+    },
+    {
+      "acc": 0.64937954,
+      "epoch": 1.5225773718924405,
+      "grad_norm": 4.84375,
+      "learning_rate": 1.4786568599636548e-06,
+      "loss": 1.62575989,
+      "memory(GiB)": 111.15,
+      "step": 60020,
+      "train_speed(iter/s)": 0.447206
+    },
+    {
+      "acc": 0.64973106,
+      "epoch": 1.5227042110603755,
+      "grad_norm": 4.90625,
+      "learning_rate": 1.4779124842399556e-06,
+      "loss": 1.67492599,
+      "memory(GiB)": 111.15,
+      "step": 60025,
+      "train_speed(iter/s)": 0.447226
+    },
+    {
+      "acc": 0.6547081,
+      "epoch": 1.5228310502283104,
+      "grad_norm": 5.78125,
+      "learning_rate": 1.4771682634333933e-06,
+      "loss": 1.57540712,
+      "memory(GiB)": 111.15,
+      "step": 60030,
+      "train_speed(iter/s)": 0.447245
+    },
+    {
+      "acc": 0.6621995,
+      "epoch": 1.5229578893962454,
+      "grad_norm": 6.40625,
+      "learning_rate": 1.4764241975766975e-06,
+      "loss": 1.56417866,
+      "memory(GiB)": 111.15,
+      "step": 60035,
+      "train_speed(iter/s)": 0.447265
+    },
+    {
+      "acc": 0.65636997,
+      "epoch": 1.5230847285641806,
+      "grad_norm": 5.90625,
+      "learning_rate": 1.475680286702596e-06,
+      "loss": 1.60341358,
+      "memory(GiB)": 111.15,
+      "step": 60040,
+      "train_speed(iter/s)": 0.447284
+    },
+    {
+      "acc": 0.6577528,
+      "epoch": 1.5232115677321156,
+      "grad_norm": 4.875,
+      "learning_rate": 1.474936530843812e-06,
+      "loss": 1.56296558,
+      "memory(GiB)": 111.15,
+      "step": 60045,
+      "train_speed(iter/s)": 0.447304
+    },
+    {
+      "acc": 0.65523987,
+      "epoch": 1.5233384069000508,
+      "grad_norm": 5.65625,
+      "learning_rate": 1.4741929300330588e-06,
+      "loss": 1.61075649,
+      "memory(GiB)": 111.15,
+      "step": 60050,
+      "train_speed(iter/s)": 0.447324
+    },
+    {
+      "acc": 0.64703512,
+      "epoch": 1.5234652460679858,
+      "grad_norm": 5.34375,
+      "learning_rate": 1.4734494843030405e-06,
+      "loss": 1.62727375,
+      "memory(GiB)": 111.15,
+      "step": 60055,
+      "train_speed(iter/s)": 0.447344
+    },
+    {
+      "acc": 0.65093341,
+      "epoch": 1.5235920852359208,
+      "grad_norm": 5.34375,
+      "learning_rate": 1.4727061936864573e-06,
+      "loss": 1.61760902,
+      "memory(GiB)": 111.15,
+      "step": 60060,
+      "train_speed(iter/s)": 0.447363
+    },
+    {
+      "acc": 0.64155054,
+      "epoch": 1.5237189244038558,
+      "grad_norm": 5.34375,
+      "learning_rate": 1.4719630582160056e-06,
+      "loss": 1.69251347,
+      "memory(GiB)": 111.15,
+      "step": 60065,
+      "train_speed(iter/s)": 0.447383
+    },
+    {
+      "acc": 0.65225792,
+      "epoch": 1.523845763571791,
+      "grad_norm": 5.3125,
+      "learning_rate": 1.4712200779243718e-06,
+      "loss": 1.62834473,
+      "memory(GiB)": 111.15,
+      "step": 60070,
+      "train_speed(iter/s)": 0.447402
+    },
+    {
+      "acc": 0.65185499,
+      "epoch": 1.523972602739726,
+      "grad_norm": 5.5625,
+      "learning_rate": 1.4704772528442308e-06,
+      "loss": 1.63532677,
+      "memory(GiB)": 111.15,
+      "step": 60075,
+      "train_speed(iter/s)": 0.447422
+    },
+    {
+      "acc": 0.6614459,
+      "epoch": 1.5240994419076612,
+      "grad_norm": 4.9375,
+      "learning_rate": 1.46973458300826e-06,
+      "loss": 1.52279797,
+      "memory(GiB)": 111.15,
+      "step": 60080,
+      "train_speed(iter/s)": 0.447442
+    },
+    {
+      "acc": 0.64750071,
+      "epoch": 1.5242262810755962,
+      "grad_norm": 5.375,
+      "learning_rate": 1.4689920684491232e-06,
+      "loss": 1.62920609,
+      "memory(GiB)": 111.15,
+      "step": 60085,
+      "train_speed(iter/s)": 0.447462
+    },
+    {
+      "acc": 0.65803118,
+      "epoch": 1.5243531202435312,
+      "grad_norm": 5.5625,
+      "learning_rate": 1.4682497091994807e-06,
+      "loss": 1.61584015,
+      "memory(GiB)": 111.15,
+      "step": 60090,
+      "train_speed(iter/s)": 0.447481
+    },
+    {
+      "acc": 0.64887266,
+      "epoch": 1.5244799594114662,
+      "grad_norm": 5.1875,
+      "learning_rate": 1.467507505291984e-06,
+      "loss": 1.60319443,
+      "memory(GiB)": 111.15,
+      "step": 60095,
+      "train_speed(iter/s)": 0.447501
+    },
+    {
+      "acc": 0.63338642,
+      "epoch": 1.5246067985794012,
+      "grad_norm": 5.75,
+      "learning_rate": 1.4667654567592781e-06,
+      "loss": 1.70607681,
+      "memory(GiB)": 111.15,
+      "step": 60100,
+      "train_speed(iter/s)": 0.447521
+    },
+    {
+      "epoch": 1.5246067985794012,
+      "eval_acc": 0.6434447922589389,
+      "eval_loss": 1.6075071096420288,
+      "eval_runtime": 114.5428,
+      "eval_samples_per_second": 55.612,
+      "eval_steps_per_second": 27.806,
+      "step": 60100
+    },
+    {
+      "acc": 0.64505849,
+      "epoch": 1.5247336377473364,
+      "grad_norm": 5.25,
+      "learning_rate": 1.4660235636340025e-06,
+      "loss": 1.62753487,
+      "memory(GiB)": 111.15,
+      "step": 60105,
+      "train_speed(iter/s)": 0.447144
+    },
+    {
+      "acc": 0.64228182,
+      "epoch": 1.5248604769152716,
+      "grad_norm": 6.40625,
+      "learning_rate": 1.465281825948789e-06,
+      "loss": 1.64089813,
+      "memory(GiB)": 111.15,
+      "step": 60110,
+      "train_speed(iter/s)": 0.447163
+    },
+    {
+      "acc": 0.63351345,
+      "epoch": 1.5249873160832066,
+      "grad_norm": 5.25,
+      "learning_rate": 1.464540243736262e-06,
+      "loss": 1.63434219,
+      "memory(GiB)": 111.15,
+      "step": 60115,
+      "train_speed(iter/s)": 0.447183
+    },
+    {
+      "acc": 0.6527328,
+      "epoch": 1.5251141552511416,
+      "grad_norm": 5.46875,
+      "learning_rate": 1.4637988170290396e-06,
+      "loss": 1.57619629,
+      "memory(GiB)": 111.15,
+      "step": 60120,
+      "train_speed(iter/s)": 0.447203
+    },
+    {
+      "acc": 0.65855098,
+      "epoch": 1.5252409944190766,
+      "grad_norm": 4.96875,
+      "learning_rate": 1.4630575458597334e-06,
+      "loss": 1.57010021,
+      "memory(GiB)": 111.15,
+      "step": 60125,
+      "train_speed(iter/s)": 0.447223
+    },
+    {
+      "acc": 0.66835794,
+      "epoch": 1.5253678335870116,
+      "grad_norm": 6.28125,
+      "learning_rate": 1.4623164302609472e-06,
+      "loss": 1.54288425,
+      "memory(GiB)": 111.15,
+      "step": 60130,
+      "train_speed(iter/s)": 0.447242
+    },
+    {
+      "acc": 0.64482741,
+      "epoch": 1.5254946727549468,
+      "grad_norm": 5.65625,
+      "learning_rate": 1.4615754702652796e-06,
+      "loss": 1.70495834,
+      "memory(GiB)": 111.15,
+      "step": 60135,
+      "train_speed(iter/s)": 0.447262
+    },
+    {
+      "acc": 0.66458416,
+      "epoch": 1.5256215119228818,
+      "grad_norm": 5.15625,
+      "learning_rate": 1.4608346659053208e-06,
+      "loss": 1.54164658,
+      "memory(GiB)": 111.15,
+      "step": 60140,
+      "train_speed(iter/s)": 0.447282
+    },
+    {
+      "acc": 0.64952674,
+      "epoch": 1.525748351090817,
+      "grad_norm": 5.28125,
+      "learning_rate": 1.4600940172136541e-06,
+      "loss": 1.60344162,
+      "memory(GiB)": 111.15,
+      "step": 60145,
+      "train_speed(iter/s)": 0.447302
+    },
+    {
+      "acc": 0.65903339,
+      "epoch": 1.525875190258752,
+      "grad_norm": 6.03125,
+      "learning_rate": 1.4593535242228575e-06,
+      "loss": 1.57191954,
+      "memory(GiB)": 111.15,
+      "step": 60150,
+      "train_speed(iter/s)": 0.447322
+    },
+    {
+      "acc": 0.64487262,
+      "epoch": 1.526002029426687,
+      "grad_norm": 6.21875,
+      "learning_rate": 1.4586131869655001e-06,
+      "loss": 1.61865196,
+      "memory(GiB)": 111.15,
+      "step": 60155,
+      "train_speed(iter/s)": 0.447342
+    },
+    {
+      "acc": 0.63595924,
+      "epoch": 1.526128868594622,
+      "grad_norm": 5.40625,
+      "learning_rate": 1.4578730054741462e-06,
+      "loss": 1.67954826,
+      "memory(GiB)": 111.15,
+      "step": 60160,
+      "train_speed(iter/s)": 0.447361
+    },
+    {
+      "acc": 0.65163183,
+      "epoch": 1.526255707762557,
+      "grad_norm": 5.5625,
+      "learning_rate": 1.4571329797813511e-06,
+      "loss": 1.59331341,
+      "memory(GiB)": 111.15,
+      "step": 60165,
+      "train_speed(iter/s)": 0.447381
+    },
+    {
+      "acc": 0.65993242,
+      "epoch": 1.5263825469304921,
+      "grad_norm": 5.8125,
+      "learning_rate": 1.4563931099196678e-06,
+      "loss": 1.57999134,
+      "memory(GiB)": 111.15,
+      "step": 60170,
+      "train_speed(iter/s)": 0.447401
+    },
+    {
+      "acc": 0.66109571,
+      "epoch": 1.5265093860984273,
+      "grad_norm": 5.40625,
+      "learning_rate": 1.455653395921635e-06,
+      "loss": 1.56358833,
+      "memory(GiB)": 111.15,
+      "step": 60175,
+      "train_speed(iter/s)": 0.447421
+    },
+    {
+      "acc": 0.66217899,
+      "epoch": 1.5266362252663623,
+      "grad_norm": 6.3125,
+      "learning_rate": 1.4549138378197891e-06,
+      "loss": 1.62584648,
+      "memory(GiB)": 111.15,
+      "step": 60180,
+      "train_speed(iter/s)": 0.447441
+    },
+    {
+      "acc": 0.64837251,
+      "epoch": 1.5267630644342973,
+      "grad_norm": 5.46875,
+      "learning_rate": 1.4541744356466615e-06,
+      "loss": 1.64731483,
+      "memory(GiB)": 111.15,
+      "step": 60185,
+      "train_speed(iter/s)": 0.44746
+    },
+    {
+      "acc": 0.65330997,
+      "epoch": 1.5268899036022323,
+      "grad_norm": 4.6875,
+      "learning_rate": 1.4534351894347748e-06,
+      "loss": 1.55314684,
+      "memory(GiB)": 111.15,
+      "step": 60190,
+      "train_speed(iter/s)": 0.44748
+    },
+    {
+      "acc": 0.6551218,
+      "epoch": 1.5270167427701673,
+      "grad_norm": 5.3125,
+      "learning_rate": 1.4526960992166412e-06,
+      "loss": 1.62011528,
+      "memory(GiB)": 111.15,
+      "step": 60195,
+      "train_speed(iter/s)": 0.4475
+    },
+    {
+      "acc": 0.65360889,
+      "epoch": 1.5271435819381025,
+      "grad_norm": 4.875,
+      "learning_rate": 1.4519571650247687e-06,
+      "loss": 1.59396973,
+      "memory(GiB)": 111.15,
+      "step": 60200,
+      "train_speed(iter/s)": 0.44752
+    },
+    {
+      "epoch": 1.5271435819381025,
+      "eval_acc": 0.6433917358106378,
+      "eval_loss": 1.6075494289398193,
+      "eval_runtime": 113.4476,
+      "eval_samples_per_second": 56.149,
+      "eval_steps_per_second": 28.075,
+      "step": 60200
+    },
+    {
+      "acc": 0.657621,
+      "epoch": 1.5272704211060375,
+      "grad_norm": 4.40625,
+      "learning_rate": 1.4512183868916629e-06,
+      "loss": 1.61167946,
+      "memory(GiB)": 111.15,
+      "step": 60205,
+      "train_speed(iter/s)": 0.447147
+    },
+    {
+      "acc": 0.65549994,
+      "epoch": 1.5273972602739727,
+      "grad_norm": 5.59375,
+      "learning_rate": 1.4504797648498186e-06,
+      "loss": 1.6262022,
+      "memory(GiB)": 111.15,
+      "step": 60210,
+      "train_speed(iter/s)": 0.447166
+    },
+    {
+      "acc": 0.65158944,
+      "epoch": 1.5275240994419077,
+      "grad_norm": 5.09375,
+      "learning_rate": 1.4497412989317184e-06,
+      "loss": 1.58597889,
+      "memory(GiB)": 111.15,
+      "step": 60215,
+      "train_speed(iter/s)": 0.447186
+    },
+    {
+      "acc": 0.65262198,
+      "epoch": 1.5276509386098427,
+      "grad_norm": 5.40625,
+      "learning_rate": 1.4490029891698476e-06,
+      "loss": 1.69272404,
+      "memory(GiB)": 111.15,
+      "step": 60220,
+      "train_speed(iter/s)": 0.447206
+    },
+    {
+      "acc": 0.64808321,
+      "epoch": 1.5277777777777777,
+      "grad_norm": 5.03125,
+      "learning_rate": 1.44826483559668e-06,
+      "loss": 1.54462891,
+      "memory(GiB)": 111.15,
+      "step": 60225,
+      "train_speed(iter/s)": 0.447225
+    },
+    {
+      "acc": 0.65730619,
+      "epoch": 1.527904616945713,
+      "grad_norm": 6.21875,
+      "learning_rate": 1.4475268382446833e-06,
+      "loss": 1.54425621,
+      "memory(GiB)": 111.15,
+      "step": 60230,
+      "train_speed(iter/s)": 0.447245
+    },
+    {
+      "acc": 0.65481677,
+      "epoch": 1.5280314561136479,
+      "grad_norm": 5.5625,
+      "learning_rate": 1.4467889971463144e-06,
+      "loss": 1.61895733,
+      "memory(GiB)": 111.15,
+      "step": 60235,
+      "train_speed(iter/s)": 0.447264
+    },
+    {
+      "acc": 0.65245991,
+      "epoch": 1.528158295281583,
+      "grad_norm": 4.53125,
+      "learning_rate": 1.4460513123340308e-06,
+      "loss": 1.6269455,
+      "memory(GiB)": 111.15,
+      "step": 60240,
+      "train_speed(iter/s)": 0.447284
+    },
+    {
+      "acc": 0.654842,
+      "epoch": 1.528285134449518,
+      "grad_norm": 6.4375,
+      "learning_rate": 1.4453137838402775e-06,
+      "loss": 1.62777328,
+      "memory(GiB)": 111.15,
+      "step": 60245,
+      "train_speed(iter/s)": 0.447304
+    },
+    {
+      "acc": 0.65356379,
+      "epoch": 1.528411973617453,
+      "grad_norm": 5.34375,
+      "learning_rate": 1.4445764116974948e-06,
+      "loss": 1.59951363,
+      "memory(GiB)": 111.15,
+      "step": 60250,
+      "train_speed(iter/s)": 0.447324
+    },
+    {
+      "acc": 0.65906739,
+      "epoch": 1.528538812785388,
+      "grad_norm": 5.34375,
+      "learning_rate": 1.4438391959381149e-06,
+      "loss": 1.5980217,
+      "memory(GiB)": 111.15,
+      "step": 60255,
+      "train_speed(iter/s)": 0.447343
+    },
+    {
+      "acc": 0.65023389,
+      "epoch": 1.528665651953323,
+      "grad_norm": 5.6875,
+      "learning_rate": 1.4431021365945647e-06,
+      "loss": 1.62337761,
+      "memory(GiB)": 111.15,
+      "step": 60260,
+      "train_speed(iter/s)": 0.447363
+    },
+    {
+      "acc": 0.64621735,
+      "epoch": 1.5287924911212583,
+      "grad_norm": 5.375,
+      "learning_rate": 1.4423652336992627e-06,
+      "loss": 1.64377537,
+      "memory(GiB)": 111.15,
+      "step": 60265,
+      "train_speed(iter/s)": 0.447383
+    },
+    {
+      "acc": 0.65309391,
+      "epoch": 1.5289193302891935,
+      "grad_norm": 6.21875,
+      "learning_rate": 1.4416284872846215e-06,
+      "loss": 1.64602566,
+      "memory(GiB)": 111.15,
+      "step": 60270,
+      "train_speed(iter/s)": 0.447403
+    },
+    {
+      "acc": 0.66436605,
+      "epoch": 1.5290461694571285,
+      "grad_norm": 5.625,
+      "learning_rate": 1.440891897383046e-06,
+      "loss": 1.48402786,
+      "memory(GiB)": 111.15,
+      "step": 60275,
+      "train_speed(iter/s)": 0.447422
+    },
+    {
+      "acc": 0.67041979,
+      "epoch": 1.5291730086250634,
+      "grad_norm": 6.25,
+      "learning_rate": 1.4401554640269354e-06,
+      "loss": 1.47563505,
+      "memory(GiB)": 111.15,
+      "step": 60280,
+      "train_speed(iter/s)": 0.447442
+    },
+    {
+      "acc": 0.64079428,
+      "epoch": 1.5292998477929984,
+      "grad_norm": 5.75,
+      "learning_rate": 1.4394191872486812e-06,
+      "loss": 1.66140499,
+      "memory(GiB)": 111.15,
+      "step": 60285,
+      "train_speed(iter/s)": 0.447462
+    },
+    {
+      "acc": 0.64304314,
+      "epoch": 1.5294266869609334,
+      "grad_norm": 5.9375,
+      "learning_rate": 1.4386830670806684e-06,
+      "loss": 1.65826836,
+      "memory(GiB)": 111.15,
+      "step": 60290,
+      "train_speed(iter/s)": 0.447481
+    },
+    {
+      "acc": 0.65595779,
+      "epoch": 1.5295535261288686,
+      "grad_norm": 5.40625,
+      "learning_rate": 1.4379471035552738e-06,
+      "loss": 1.60607758,
+      "memory(GiB)": 111.15,
+      "step": 60295,
+      "train_speed(iter/s)": 0.447501
+    },
+    {
+      "acc": 0.64735532,
+      "epoch": 1.5296803652968036,
+      "grad_norm": 5.5625,
+      "learning_rate": 1.437211296704869e-06,
+      "loss": 1.66688595,
+      "memory(GiB)": 111.15,
+      "step": 60300,
+      "train_speed(iter/s)": 0.447521
+    },
+    {
+      "epoch": 1.5296803652968036,
+      "eval_acc": 0.6433980023202797,
+      "eval_loss": 1.6075321435928345,
+      "eval_runtime": 113.5207,
+      "eval_samples_per_second": 56.113,
+      "eval_steps_per_second": 28.057,
+      "step": 60300
+    },
+    {
+      "acc": 0.65479336,
+      "epoch": 1.5298072044647388,
+      "grad_norm": 4.65625,
+      "learning_rate": 1.4364756465618167e-06,
+      "loss": 1.63274002,
+      "memory(GiB)": 111.15,
+      "step": 60305,
+      "train_speed(iter/s)": 0.447148
+    },
+    {
+      "acc": 0.67495222,
+      "epoch": 1.5299340436326738,
+      "grad_norm": 5.21875,
+      "learning_rate": 1.4357401531584792e-06,
+      "loss": 1.55048943,
+      "memory(GiB)": 111.15,
+      "step": 60310,
+      "train_speed(iter/s)": 0.447168
+    },
+    {
+      "acc": 0.6499495,
+      "epoch": 1.5300608828006088,
+      "grad_norm": 5.90625,
+      "learning_rate": 1.4350048165272006e-06,
+      "loss": 1.59010515,
+      "memory(GiB)": 111.15,
+      "step": 60315,
+      "train_speed(iter/s)": 0.447187
+    },
+    {
+      "acc": 0.64584255,
+      "epoch": 1.5301877219685438,
+      "grad_norm": 6.0625,
+      "learning_rate": 1.4342696367003272e-06,
+      "loss": 1.66916962,
+      "memory(GiB)": 111.15,
+      "step": 60320,
+      "train_speed(iter/s)": 0.447207
+    },
+    {
+      "acc": 0.64300461,
+      "epoch": 1.5303145611364788,
+      "grad_norm": 6.21875,
+      "learning_rate": 1.433534613710193e-06,
+      "loss": 1.57774324,
+      "memory(GiB)": 111.15,
+      "step": 60325,
+      "train_speed(iter/s)": 0.447226
+    },
+    {
+      "acc": 0.65697756,
+      "epoch": 1.530441400304414,
+      "grad_norm": 5.28125,
+      "learning_rate": 1.4327997475891331e-06,
+      "loss": 1.61551876,
+      "memory(GiB)": 111.15,
+      "step": 60330,
+      "train_speed(iter/s)": 0.447246
+    },
+    {
+      "acc": 0.65353632,
+      "epoch": 1.5305682394723492,
+      "grad_norm": 5.34375,
+      "learning_rate": 1.432065038369465e-06,
+      "loss": 1.60021133,
+      "memory(GiB)": 111.15,
+      "step": 60335,
+      "train_speed(iter/s)": 0.447266
+    },
+    {
+      "acc": 0.65272646,
+      "epoch": 1.5306950786402842,
+      "grad_norm": 5.1875,
+      "learning_rate": 1.4313304860835048e-06,
+      "loss": 1.5747921,
+      "memory(GiB)": 111.15,
+      "step": 60340,
+      "train_speed(iter/s)": 0.447285
+    },
+    {
+      "acc": 0.64689336,
+      "epoch": 1.5308219178082192,
+      "grad_norm": 4.9375,
+      "learning_rate": 1.4305960907635641e-06,
+      "loss": 1.65024338,
+      "memory(GiB)": 111.15,
+      "step": 60345,
+      "train_speed(iter/s)": 0.447305
+    },
+    {
+      "acc": 0.66598849,
+      "epoch": 1.5309487569761542,
+      "grad_norm": 5.03125,
+      "learning_rate": 1.4298618524419455e-06,
+      "loss": 1.60760021,
+      "memory(GiB)": 111.15,
+      "step": 60350,
+      "train_speed(iter/s)": 0.447325
+    },
+    {
+      "acc": 0.64598293,
+      "epoch": 1.5310755961440892,
+      "grad_norm": 4.96875,
+      "learning_rate": 1.4291277711509388e-06,
+      "loss": 1.65229912,
+      "memory(GiB)": 111.15,
+      "step": 60355,
+      "train_speed(iter/s)": 0.447344
+    },
+    {
+      "acc": 0.66168156,
+      "epoch": 1.5312024353120244,
+      "grad_norm": 5.125,
+      "learning_rate": 1.428393846922837e-06,
+      "loss": 1.50968323,
+      "memory(GiB)": 111.15,
+      "step": 60360,
+      "train_speed(iter/s)": 0.447364
+    },
+    {
+      "acc": 0.6686934,
+      "epoch": 1.5313292744799594,
+      "grad_norm": 4.65625,
+      "learning_rate": 1.4276600797899199e-06,
+      "loss": 1.5272604,
+      "memory(GiB)": 111.15,
+      "step": 60365,
+      "train_speed(iter/s)": 0.447384
+    },
+    {
+      "acc": 0.65748577,
+      "epoch": 1.5314561136478946,
+      "grad_norm": 5.28125,
+      "learning_rate": 1.426926469784463e-06,
+      "loss": 1.56713152,
+      "memory(GiB)": 111.15,
+      "step": 60370,
+      "train_speed(iter/s)": 0.447404
+    },
+    {
+      "acc": 0.65747113,
+      "epoch": 1.5315829528158296,
+      "grad_norm": 5.9375,
+      "learning_rate": 1.42619301693873e-06,
+      "loss": 1.68293991,
+      "memory(GiB)": 111.15,
+      "step": 60375,
+      "train_speed(iter/s)": 0.447423
+    },
+    {
+      "acc": 0.65968018,
+      "epoch": 1.5317097919837646,
+      "grad_norm": 5.21875,
+      "learning_rate": 1.4254597212849858e-06,
+      "loss": 1.59811478,
+      "memory(GiB)": 111.15,
+      "step": 60380,
+      "train_speed(iter/s)": 0.447443
+    },
+    {
+      "acc": 0.64730406,
+      "epoch": 1.5318366311516995,
+      "grad_norm": 5.875,
+      "learning_rate": 1.4247265828554819e-06,
+      "loss": 1.61895466,
+      "memory(GiB)": 111.15,
+      "step": 60385,
+      "train_speed(iter/s)": 0.447462
+    },
+    {
+      "acc": 0.64390965,
+      "epoch": 1.5319634703196348,
+      "grad_norm": 6.1875,
+      "learning_rate": 1.423993601682465e-06,
+      "loss": 1.67728577,
+      "memory(GiB)": 111.15,
+      "step": 60390,
+      "train_speed(iter/s)": 0.447482
+    },
+    {
+      "acc": 0.64851685,
+      "epoch": 1.5320903094875697,
+      "grad_norm": 4.65625,
+      "learning_rate": 1.423260777798176e-06,
+      "loss": 1.60320778,
+      "memory(GiB)": 111.15,
+      "step": 60395,
+      "train_speed(iter/s)": 0.447502
+    },
+    {
+      "acc": 0.64834175,
+      "epoch": 1.532217148655505,
+      "grad_norm": 6.3125,
+      "learning_rate": 1.4225281112348466e-06,
+      "loss": 1.63140259,
+      "memory(GiB)": 111.15,
+      "step": 60400,
+      "train_speed(iter/s)": 0.447522
+    },
+    {
+      "epoch": 1.532217148655505,
+      "eval_acc": 0.6434736182032914,
+      "eval_loss": 1.6076481342315674,
+      "eval_runtime": 114.0919,
+      "eval_samples_per_second": 55.832,
+      "eval_steps_per_second": 27.916,
+      "step": 60400
+    },
+    {
+      "acc": 0.62324972,
+      "epoch": 1.53234398782344,
+      "grad_norm": 6.03125,
+      "learning_rate": 1.421795602024703e-06,
+      "loss": 1.72411613,
+      "memory(GiB)": 111.15,
+      "step": 60405,
+      "train_speed(iter/s)": 0.447148
+    },
+    {
+      "acc": 0.6538218,
+      "epoch": 1.532470826991375,
+      "grad_norm": 5.4375,
+      "learning_rate": 1.4210632501999643e-06,
+      "loss": 1.63780956,
+      "memory(GiB)": 111.15,
+      "step": 60410,
+      "train_speed(iter/s)": 0.447167
+    },
+    {
+      "acc": 0.65091381,
+      "epoch": 1.53259766615931,
+      "grad_norm": 5.1875,
+      "learning_rate": 1.4203310557928428e-06,
+      "loss": 1.60922546,
+      "memory(GiB)": 111.15,
+      "step": 60415,
+      "train_speed(iter/s)": 0.447187
+    },
+    {
+      "acc": 0.63339977,
+      "epoch": 1.532724505327245,
+      "grad_norm": 5.46875,
+      "learning_rate": 1.4195990188355435e-06,
+      "loss": 1.72450371,
+      "memory(GiB)": 111.15,
+      "step": 60420,
+      "train_speed(iter/s)": 0.447206
+    },
+    {
+      "acc": 0.64613514,
+      "epoch": 1.5328513444951801,
+      "grad_norm": 6.625,
+      "learning_rate": 1.418867139360265e-06,
+      "loss": 1.62459164,
+      "memory(GiB)": 111.15,
+      "step": 60425,
+      "train_speed(iter/s)": 0.447226
+    },
+    {
+      "acc": 0.65572944,
+      "epoch": 1.5329781836631153,
+      "grad_norm": 6.25,
+      "learning_rate": 1.418135417399198e-06,
+      "loss": 1.62145004,
+      "memory(GiB)": 111.15,
+      "step": 60430,
+      "train_speed(iter/s)": 0.447245
+    },
+    {
+      "acc": 0.64348392,
+      "epoch": 1.5331050228310503,
+      "grad_norm": 6.5625,
+      "learning_rate": 1.4174038529845273e-06,
+      "loss": 1.70151253,
+      "memory(GiB)": 111.15,
+      "step": 60435,
+      "train_speed(iter/s)": 0.447265
+    },
+    {
+      "acc": 0.64090037,
+      "epoch": 1.5332318619989853,
+      "grad_norm": 5.84375,
+      "learning_rate": 1.4166724461484304e-06,
+      "loss": 1.6722662,
+      "memory(GiB)": 111.15,
+      "step": 60440,
+      "train_speed(iter/s)": 0.447285
+    },
+    {
+      "acc": 0.63684158,
+      "epoch": 1.5333587011669203,
+      "grad_norm": 4.4375,
+      "learning_rate": 1.4159411969230758e-06,
+      "loss": 1.67982483,
+      "memory(GiB)": 111.15,
+      "step": 60445,
+      "train_speed(iter/s)": 0.447304
+    },
+    {
+      "acc": 0.65052872,
+      "epoch": 1.5334855403348553,
+      "grad_norm": 4.9375,
+      "learning_rate": 1.4152101053406325e-06,
+      "loss": 1.57772598,
+      "memory(GiB)": 111.15,
+      "step": 60450,
+      "train_speed(iter/s)": 0.447324
+    },
+    {
+      "acc": 0.6526248,
+      "epoch": 1.5336123795027905,
+      "grad_norm": 5.3125,
+      "learning_rate": 1.4144791714332517e-06,
+      "loss": 1.5826829,
+      "memory(GiB)": 111.15,
+      "step": 60455,
+      "train_speed(iter/s)": 0.447343
+    },
+    {
+      "acc": 0.6502265,
+      "epoch": 1.5337392186707255,
+      "grad_norm": 5.0,
+      "learning_rate": 1.4137483952330855e-06,
+      "loss": 1.65462093,
+      "memory(GiB)": 111.15,
+      "step": 60460,
+      "train_speed(iter/s)": 0.447363
+    },
+    {
+      "acc": 0.65932989,
+      "epoch": 1.5338660578386607,
+      "grad_norm": 6.4375,
+      "learning_rate": 1.4130177767722753e-06,
+      "loss": 1.61532593,
+      "memory(GiB)": 111.15,
+      "step": 60465,
+      "train_speed(iter/s)": 0.447383
+    },
+    {
+      "acc": 0.65794768,
+      "epoch": 1.5339928970065957,
+      "grad_norm": 5.15625,
+      "learning_rate": 1.4122873160829603e-06,
+      "loss": 1.59271402,
+      "memory(GiB)": 111.15,
+      "step": 60470,
+      "train_speed(iter/s)": 0.447402
+    },
+    {
+      "acc": 0.63623314,
+      "epoch": 1.5341197361745307,
+      "grad_norm": 4.3125,
+      "learning_rate": 1.4115570131972655e-06,
+      "loss": 1.65817299,
+      "memory(GiB)": 111.15,
+      "step": 60475,
+      "train_speed(iter/s)": 0.447422
+    },
+    {
+      "acc": 0.65987453,
+      "epoch": 1.5342465753424657,
+      "grad_norm": 5.03125,
+      "learning_rate": 1.4108268681473136e-06,
+      "loss": 1.61983643,
+      "memory(GiB)": 111.15,
+      "step": 60480,
+      "train_speed(iter/s)": 0.447441
+    },
+    {
+      "acc": 0.66050558,
+      "epoch": 1.5343734145104007,
+      "grad_norm": 8.25,
+      "learning_rate": 1.4100968809652215e-06,
+      "loss": 1.63374863,
+      "memory(GiB)": 111.15,
+      "step": 60485,
+      "train_speed(iter/s)": 0.44746
+    },
+    {
+      "acc": 0.64792719,
+      "epoch": 1.5345002536783359,
+      "grad_norm": 6.5,
+      "learning_rate": 1.4093670516830982e-06,
+      "loss": 1.63369961,
+      "memory(GiB)": 111.15,
+      "step": 60490,
+      "train_speed(iter/s)": 0.44748
+    },
+    {
+      "acc": 0.6424355,
+      "epoch": 1.534627092846271,
+      "grad_norm": 5.65625,
+      "learning_rate": 1.4086373803330417e-06,
+      "loss": 1.64856873,
+      "memory(GiB)": 111.15,
+      "step": 60495,
+      "train_speed(iter/s)": 0.4475
+    },
+    {
+      "acc": 0.64706125,
+      "epoch": 1.534753932014206,
+      "grad_norm": 5.84375,
+      "learning_rate": 1.4079078669471457e-06,
+      "loss": 1.6626915,
+      "memory(GiB)": 111.15,
+      "step": 60500,
+      "train_speed(iter/s)": 0.447519
+    },
+    {
+      "epoch": 1.534753932014206,
+      "eval_acc": 0.6433766961874973,
+      "eval_loss": 1.6075080633163452,
+      "eval_runtime": 113.5733,
+      "eval_samples_per_second": 56.087,
+      "eval_steps_per_second": 28.044,
+      "step": 60500
+    },
+    {
+      "acc": 0.64826808,
+      "epoch": 1.534880771182141,
+      "grad_norm": 5.0625,
+      "learning_rate": 1.4071785115575005e-06,
+      "loss": 1.57810593,
+      "memory(GiB)": 111.15,
+      "step": 60505,
+      "train_speed(iter/s)": 0.447148
+    },
+    {
+      "acc": 0.67026925,
+      "epoch": 1.535007610350076,
+      "grad_norm": 5.5,
+      "learning_rate": 1.4064493141961872e-06,
+      "loss": 1.55655556,
+      "memory(GiB)": 111.15,
+      "step": 60510,
+      "train_speed(iter/s)": 0.447167
+    },
+    {
+      "acc": 0.66556005,
+      "epoch": 1.535134449518011,
+      "grad_norm": 6.59375,
+      "learning_rate": 1.4057202748952736e-06,
+      "loss": 1.60155907,
+      "memory(GiB)": 111.15,
+      "step": 60515,
+      "train_speed(iter/s)": 0.447187
+    },
+    {
+      "acc": 0.65573401,
+      "epoch": 1.5352612886859462,
+      "grad_norm": 6.5,
+      "learning_rate": 1.4049913936868314e-06,
+      "loss": 1.58641186,
+      "memory(GiB)": 111.15,
+      "step": 60520,
+      "train_speed(iter/s)": 0.447206
+    },
+    {
+      "acc": 0.63558912,
+      "epoch": 1.5353881278538812,
+      "grad_norm": 5.75,
+      "learning_rate": 1.4042626706029184e-06,
+      "loss": 1.66035233,
+      "memory(GiB)": 111.15,
+      "step": 60525,
+      "train_speed(iter/s)": 0.447226
+    },
+    {
+      "acc": 0.63600302,
+      "epoch": 1.5355149670218164,
+      "grad_norm": 5.5625,
+      "learning_rate": 1.4035341056755864e-06,
+      "loss": 1.65681152,
+      "memory(GiB)": 111.15,
+      "step": 60530,
+      "train_speed(iter/s)": 0.447246
+    },
+    {
+      "acc": 0.66763563,
+      "epoch": 1.5356418061897514,
+      "grad_norm": 6.375,
+      "learning_rate": 1.402805698936882e-06,
+      "loss": 1.57165413,
+      "memory(GiB)": 111.15,
+      "step": 60535,
+      "train_speed(iter/s)": 0.447265
+    },
+    {
+      "acc": 0.65661802,
+      "epoch": 1.5357686453576864,
+      "grad_norm": 5.0,
+      "learning_rate": 1.4020774504188428e-06,
+      "loss": 1.64245491,
+      "memory(GiB)": 111.15,
+      "step": 60540,
+      "train_speed(iter/s)": 0.447284
+    },
+    {
+      "acc": 0.65500813,
+      "epoch": 1.5358954845256214,
+      "grad_norm": 5.40625,
+      "learning_rate": 1.4013493601535016e-06,
+      "loss": 1.63940773,
+      "memory(GiB)": 111.15,
+      "step": 60545,
+      "train_speed(iter/s)": 0.447304
+    },
+    {
+      "acc": 0.63921537,
+      "epoch": 1.5360223236935566,
+      "grad_norm": 7.0625,
+      "learning_rate": 1.400621428172882e-06,
+      "loss": 1.70576019,
+      "memory(GiB)": 111.15,
+      "step": 60550,
+      "train_speed(iter/s)": 0.447323
+    },
+    {
+      "acc": 0.64921303,
+      "epoch": 1.5361491628614916,
+      "grad_norm": 6.46875,
+      "learning_rate": 1.399893654509002e-06,
+      "loss": 1.66003113,
+      "memory(GiB)": 111.15,
+      "step": 60555,
+      "train_speed(iter/s)": 0.447343
+    },
+    {
+      "acc": 0.64164772,
+      "epoch": 1.5362760020294268,
+      "grad_norm": 5.03125,
+      "learning_rate": 1.3991660391938721e-06,
+      "loss": 1.63210545,
+      "memory(GiB)": 111.15,
+      "step": 60560,
+      "train_speed(iter/s)": 0.447363
+    },
+    {
+      "acc": 0.65728035,
+      "epoch": 1.5364028411973618,
+      "grad_norm": 6.03125,
+      "learning_rate": 1.398438582259497e-06,
+      "loss": 1.64674511,
+      "memory(GiB)": 111.15,
+      "step": 60565,
+      "train_speed(iter/s)": 0.447382
+    },
+    {
+      "acc": 0.64097548,
+      "epoch": 1.5365296803652968,
+      "grad_norm": 5.59375,
+      "learning_rate": 1.3977112837378726e-06,
+      "loss": 1.62449322,
+      "memory(GiB)": 111.15,
+      "step": 60570,
+      "train_speed(iter/s)": 0.447402
+    },
+    {
+      "acc": 0.64287138,
+      "epoch": 1.5366565195332318,
+      "grad_norm": 5.4375,
+      "learning_rate": 1.3969841436609888e-06,
+      "loss": 1.68213959,
+      "memory(GiB)": 111.15,
+      "step": 60575,
+      "train_speed(iter/s)": 0.447422
+    },
+    {
+      "acc": 0.65072603,
+      "epoch": 1.5367833587011668,
+      "grad_norm": 4.71875,
+      "learning_rate": 1.396257162060829e-06,
+      "loss": 1.57509623,
+      "memory(GiB)": 111.15,
+      "step": 60580,
+      "train_speed(iter/s)": 0.447441
+    },
+    {
+      "acc": 0.63273506,
+      "epoch": 1.536910197869102,
+      "grad_norm": 4.40625,
+      "learning_rate": 1.395530338969367e-06,
+      "loss": 1.68754463,
+      "memory(GiB)": 111.15,
+      "step": 60585,
+      "train_speed(iter/s)": 0.447461
+    },
+    {
+      "acc": 0.64341364,
+      "epoch": 1.5370370370370372,
+      "grad_norm": 5.28125,
+      "learning_rate": 1.3948036744185767e-06,
+      "loss": 1.60501328,
+      "memory(GiB)": 111.15,
+      "step": 60590,
+      "train_speed(iter/s)": 0.447481
+    },
+    {
+      "acc": 0.64636669,
+      "epoch": 1.5371638762049722,
+      "grad_norm": 6.125,
+      "learning_rate": 1.3940771684404153e-06,
+      "loss": 1.57733593,
+      "memory(GiB)": 111.15,
+      "step": 60595,
+      "train_speed(iter/s)": 0.4475
+    },
+    {
+      "acc": 0.66116476,
+      "epoch": 1.5372907153729072,
+      "grad_norm": 4.6875,
+      "learning_rate": 1.393350821066839e-06,
+      "loss": 1.53389454,
+      "memory(GiB)": 111.15,
+      "step": 60600,
+      "train_speed(iter/s)": 0.44752
+    },
+    {
+      "epoch": 1.5372907153729072,
+      "eval_acc": 0.6433666697720704,
+      "eval_loss": 1.6075342893600464,
+      "eval_runtime": 112.7921,
+      "eval_samples_per_second": 56.476,
+      "eval_steps_per_second": 28.238,
+      "step": 60600
+    },
+    {
+      "acc": 0.67261925,
+      "epoch": 1.5374175545408422,
+      "grad_norm": 5.1875,
+      "learning_rate": 1.3926246323297948e-06,
+      "loss": 1.58707895,
+      "memory(GiB)": 111.15,
+      "step": 60605,
+      "train_speed(iter/s)": 0.447151
+    },
+    {
+      "acc": 0.6555295,
+      "epoch": 1.5375443937087772,
+      "grad_norm": 5.40625,
+      "learning_rate": 1.3918986022612285e-06,
+      "loss": 1.57955837,
+      "memory(GiB)": 111.15,
+      "step": 60610,
+      "train_speed(iter/s)": 0.447171
+    },
+    {
+      "acc": 0.65749207,
+      "epoch": 1.5376712328767124,
+      "grad_norm": 5.46875,
+      "learning_rate": 1.3911727308930684e-06,
+      "loss": 1.61847801,
+      "memory(GiB)": 111.15,
+      "step": 60615,
+      "train_speed(iter/s)": 0.44719
+    },
+    {
+      "acc": 0.64135647,
+      "epoch": 1.5377980720446474,
+      "grad_norm": 5.0625,
+      "learning_rate": 1.3904470182572428e-06,
+      "loss": 1.61763554,
+      "memory(GiB)": 111.15,
+      "step": 60620,
+      "train_speed(iter/s)": 0.44721
+    },
+    {
+      "acc": 0.64865985,
+      "epoch": 1.5379249112125826,
+      "grad_norm": 5.6875,
+      "learning_rate": 1.3897214643856744e-06,
+      "loss": 1.68862057,
+      "memory(GiB)": 111.15,
+      "step": 60625,
+      "train_speed(iter/s)": 0.447229
+    },
+    {
+      "acc": 0.66992974,
+      "epoch": 1.5380517503805176,
+      "grad_norm": 5.625,
+      "learning_rate": 1.388996069310276e-06,
+      "loss": 1.56425686,
+      "memory(GiB)": 111.15,
+      "step": 60630,
+      "train_speed(iter/s)": 0.447248
+    },
+    {
+      "acc": 0.65079689,
+      "epoch": 1.5381785895484525,
+      "grad_norm": 5.1875,
+      "learning_rate": 1.3882708330629514e-06,
+      "loss": 1.66791401,
+      "memory(GiB)": 111.15,
+      "step": 60635,
+      "train_speed(iter/s)": 0.447268
+    },
+    {
+      "acc": 0.65144224,
+      "epoch": 1.5383054287163875,
+      "grad_norm": 4.9375,
+      "learning_rate": 1.3875457556755989e-06,
+      "loss": 1.64638042,
+      "memory(GiB)": 111.15,
+      "step": 60640,
+      "train_speed(iter/s)": 0.447287
+    },
+    {
+      "acc": 0.65259495,
+      "epoch": 1.5384322678843225,
+      "grad_norm": 5.75,
+      "learning_rate": 1.386820837180114e-06,
+      "loss": 1.58751564,
+      "memory(GiB)": 111.15,
+      "step": 60645,
+      "train_speed(iter/s)": 0.447307
+    },
+    {
+      "acc": 0.66133375,
+      "epoch": 1.5385591070522577,
+      "grad_norm": 5.53125,
+      "learning_rate": 1.386096077608382e-06,
+      "loss": 1.5624774,
+      "memory(GiB)": 111.15,
+      "step": 60650,
+      "train_speed(iter/s)": 0.447326
+    },
+    {
+      "acc": 0.6543314,
+      "epoch": 1.538685946220193,
+      "grad_norm": 5.09375,
+      "learning_rate": 1.385371476992276e-06,
+      "loss": 1.5872963,
+      "memory(GiB)": 111.15,
+      "step": 60655,
+      "train_speed(iter/s)": 0.447346
+    },
+    {
+      "acc": 0.64273057,
+      "epoch": 1.538812785388128,
+      "grad_norm": 5.6875,
+      "learning_rate": 1.3846470353636726e-06,
+      "loss": 1.65926266,
+      "memory(GiB)": 111.15,
+      "step": 60660,
+      "train_speed(iter/s)": 0.447365
+    },
+    {
+      "acc": 0.64185829,
+      "epoch": 1.538939624556063,
+      "grad_norm": 4.625,
+      "learning_rate": 1.3839227527544336e-06,
+      "loss": 1.62867298,
+      "memory(GiB)": 111.15,
+      "step": 60665,
+      "train_speed(iter/s)": 0.447385
+    },
+    {
+      "acc": 0.65462084,
+      "epoch": 1.539066463723998,
+      "grad_norm": 4.78125,
+      "learning_rate": 1.3831986291964184e-06,
+      "loss": 1.60534401,
+      "memory(GiB)": 111.15,
+      "step": 60670,
+      "train_speed(iter/s)": 0.447404
+    },
+    {
+      "acc": 0.65237169,
+      "epoch": 1.539193302891933,
+      "grad_norm": 5.71875,
+      "learning_rate": 1.382474664721472e-06,
+      "loss": 1.64823837,
+      "memory(GiB)": 111.15,
+      "step": 60675,
+      "train_speed(iter/s)": 0.447424
+    },
+    {
+      "acc": 0.65648985,
+      "epoch": 1.5393201420598681,
+      "grad_norm": 5.59375,
+      "learning_rate": 1.3817508593614425e-06,
+      "loss": 1.5509881,
+      "memory(GiB)": 111.15,
+      "step": 60680,
+      "train_speed(iter/s)": 0.447443
+    },
+    {
+      "acc": 0.65039139,
+      "epoch": 1.539446981227803,
+      "grad_norm": 5.15625,
+      "learning_rate": 1.381027213148165e-06,
+      "loss": 1.66168499,
+      "memory(GiB)": 111.15,
+      "step": 60685,
+      "train_speed(iter/s)": 0.447462
+    },
+    {
+      "acc": 0.64376497,
+      "epoch": 1.5395738203957383,
+      "grad_norm": 5.9375,
+      "learning_rate": 1.3803037261134678e-06,
+      "loss": 1.6164196,
+      "memory(GiB)": 111.15,
+      "step": 60690,
+      "train_speed(iter/s)": 0.447482
+    },
+    {
+      "acc": 0.65428486,
+      "epoch": 1.5397006595636733,
+      "grad_norm": 5.6875,
+      "learning_rate": 1.3795803982891736e-06,
+      "loss": 1.62890549,
+      "memory(GiB)": 111.15,
+      "step": 60695,
+      "train_speed(iter/s)": 0.447501
+    },
+    {
+      "acc": 0.65184288,
+      "epoch": 1.5398274987316083,
+      "grad_norm": 5.25,
+      "learning_rate": 1.3788572297070974e-06,
+      "loss": 1.60314903,
+      "memory(GiB)": 111.15,
+      "step": 60700,
+      "train_speed(iter/s)": 0.447521
+    },
+    {
+      "epoch": 1.5398274987316083,
+      "eval_acc": 0.6433787850240446,
+      "eval_loss": 1.6075439453125,
+      "eval_runtime": 113.3662,
+      "eval_samples_per_second": 56.19,
+      "eval_steps_per_second": 28.095,
+      "step": 60700
+    },
+    {
+      "acc": 0.65966654,
+      "epoch": 1.5399543378995433,
+      "grad_norm": 4.5625,
+      "learning_rate": 1.3781342203990478e-06,
+      "loss": 1.58435192,
+      "memory(GiB)": 111.15,
+      "step": 60705,
+      "train_speed(iter/s)": 0.447151
+    },
+    {
+      "acc": 0.65473027,
+      "epoch": 1.5400811770674785,
+      "grad_norm": 5.5625,
+      "learning_rate": 1.3774113703968255e-06,
+      "loss": 1.65098686,
+      "memory(GiB)": 111.15,
+      "step": 60710,
+      "train_speed(iter/s)": 0.447171
+    },
+    {
+      "acc": 0.64713755,
+      "epoch": 1.5402080162354135,
+      "grad_norm": 5.34375,
+      "learning_rate": 1.3766886797322248e-06,
+      "loss": 1.58670111,
+      "memory(GiB)": 111.15,
+      "step": 60715,
+      "train_speed(iter/s)": 0.44719
+    },
+    {
+      "acc": 0.67034826,
+      "epoch": 1.5403348554033487,
+      "grad_norm": 4.125,
+      "learning_rate": 1.3759661484370324e-06,
+      "loss": 1.50350189,
+      "memory(GiB)": 111.15,
+      "step": 60720,
+      "train_speed(iter/s)": 0.44721
+    },
+    {
+      "acc": 0.66067238,
+      "epoch": 1.5404616945712837,
+      "grad_norm": 6.25,
+      "learning_rate": 1.3752437765430294e-06,
+      "loss": 1.58406754,
+      "memory(GiB)": 111.15,
+      "step": 60725,
+      "train_speed(iter/s)": 0.44723
+    },
+    {
+      "acc": 0.65374212,
+      "epoch": 1.5405885337392187,
+      "grad_norm": 5.3125,
+      "learning_rate": 1.3745215640819886e-06,
+      "loss": 1.62547417,
+      "memory(GiB)": 111.15,
+      "step": 60730,
+      "train_speed(iter/s)": 0.447249
+    },
+    {
+      "acc": 0.6654377,
+      "epoch": 1.5407153729071537,
+      "grad_norm": 5.65625,
+      "learning_rate": 1.373799511085676e-06,
+      "loss": 1.55596266,
+      "memory(GiB)": 111.15,
+      "step": 60735,
+      "train_speed(iter/s)": 0.447269
+    },
+    {
+      "acc": 0.64887209,
+      "epoch": 1.5408422120750886,
+      "grad_norm": 5.15625,
+      "learning_rate": 1.3730776175858506e-06,
+      "loss": 1.66182766,
+      "memory(GiB)": 111.15,
+      "step": 60740,
+      "train_speed(iter/s)": 0.447288
+    },
+    {
+      "acc": 0.66101518,
+      "epoch": 1.5409690512430239,
+      "grad_norm": 5.375,
+      "learning_rate": 1.3723558836142631e-06,
+      "loss": 1.61735401,
+      "memory(GiB)": 111.15,
+      "step": 60745,
+      "train_speed(iter/s)": 0.447308
+    },
+    {
+      "acc": 0.66229515,
+      "epoch": 1.541095890410959,
+      "grad_norm": 4.53125,
+      "learning_rate": 1.371634309202663e-06,
+      "loss": 1.57234831,
+      "memory(GiB)": 111.15,
+      "step": 60750,
+      "train_speed(iter/s)": 0.447327
+    },
+    {
+      "acc": 0.64774632,
+      "epoch": 1.541222729578894,
+      "grad_norm": 5.375,
+      "learning_rate": 1.3709128943827842e-06,
+      "loss": 1.61919231,
+      "memory(GiB)": 111.15,
+      "step": 60755,
+      "train_speed(iter/s)": 0.447347
+    },
+    {
+      "acc": 0.63367605,
+      "epoch": 1.541349568746829,
+      "grad_norm": 5.78125,
+      "learning_rate": 1.3701916391863573e-06,
+      "loss": 1.67353516,
+      "memory(GiB)": 111.15,
+      "step": 60760,
+      "train_speed(iter/s)": 0.447367
+    },
+    {
+      "acc": 0.63736086,
+      "epoch": 1.541476407914764,
+      "grad_norm": 5.84375,
+      "learning_rate": 1.3694705436451093e-06,
+      "loss": 1.63860474,
+      "memory(GiB)": 111.15,
+      "step": 60765,
+      "train_speed(iter/s)": 0.447386
+    },
+    {
+      "acc": 0.66485586,
+      "epoch": 1.541603247082699,
+      "grad_norm": 5.5,
+      "learning_rate": 1.368749607790758e-06,
+      "loss": 1.52697983,
+      "memory(GiB)": 111.15,
+      "step": 60770,
+      "train_speed(iter/s)": 0.447406
+    },
+    {
+      "acc": 0.65197663,
+      "epoch": 1.5417300862506342,
+      "grad_norm": 5.40625,
+      "learning_rate": 1.3680288316550095e-06,
+      "loss": 1.55682659,
+      "memory(GiB)": 111.15,
+      "step": 60775,
+      "train_speed(iter/s)": 0.447425
+    },
+    {
+      "acc": 0.64534974,
+      "epoch": 1.5418569254185692,
+      "grad_norm": 6.53125,
+      "learning_rate": 1.3673082152695672e-06,
+      "loss": 1.6965704,
+      "memory(GiB)": 111.15,
+      "step": 60780,
+      "train_speed(iter/s)": 0.447445
+    },
+    {
+      "acc": 0.62665434,
+      "epoch": 1.5419837645865044,
+      "grad_norm": 4.6875,
+      "learning_rate": 1.3665877586661296e-06,
+      "loss": 1.70153236,
+      "memory(GiB)": 111.15,
+      "step": 60785,
+      "train_speed(iter/s)": 0.447464
+    },
+    {
+      "acc": 0.65638051,
+      "epoch": 1.5421106037544394,
+      "grad_norm": 4.9375,
+      "learning_rate": 1.3658674618763862e-06,
+      "loss": 1.57305479,
+      "memory(GiB)": 111.15,
+      "step": 60790,
+      "train_speed(iter/s)": 0.447484
+    },
+    {
+      "acc": 0.64082646,
+      "epoch": 1.5422374429223744,
+      "grad_norm": 5.8125,
+      "learning_rate": 1.365147324932014e-06,
+      "loss": 1.63223419,
+      "memory(GiB)": 111.15,
+      "step": 60795,
+      "train_speed(iter/s)": 0.447503
+    },
+    {
+      "acc": 0.63855052,
+      "epoch": 1.5423642820903094,
+      "grad_norm": 6.03125,
+      "learning_rate": 1.3644273478646925e-06,
+      "loss": 1.67751484,
+      "memory(GiB)": 111.15,
+      "step": 60800,
+      "train_speed(iter/s)": 0.447523
+    },
+    {
+      "epoch": 1.5423642820903094,
+      "eval_acc": 0.6434381079819875,
+      "eval_loss": 1.6075670719146729,
+      "eval_runtime": 113.7525,
+      "eval_samples_per_second": 55.999,
+      "eval_steps_per_second": 27.999,
+      "step": 60800
+    },
+    {
+      "acc": 0.64639711,
+      "epoch": 1.5424911212582444,
+      "grad_norm": 5.5625,
+      "learning_rate": 1.3637075307060877e-06,
+      "loss": 1.66062603,
+      "memory(GiB)": 111.15,
+      "step": 60805,
+      "train_speed(iter/s)": 0.447153
+    },
+    {
+      "acc": 0.65552855,
+      "epoch": 1.5426179604261796,
+      "grad_norm": 4.65625,
+      "learning_rate": 1.362987873487862e-06,
+      "loss": 1.6144783,
+      "memory(GiB)": 111.15,
+      "step": 60810,
+      "train_speed(iter/s)": 0.447172
+    },
+    {
+      "acc": 0.64176884,
+      "epoch": 1.5427447995941148,
+      "grad_norm": 5.3125,
+      "learning_rate": 1.362268376241665e-06,
+      "loss": 1.63098412,
+      "memory(GiB)": 111.15,
+      "step": 60815,
+      "train_speed(iter/s)": 0.447192
+    },
+    {
+      "acc": 0.62565832,
+      "epoch": 1.5428716387620498,
+      "grad_norm": 6.8125,
+      "learning_rate": 1.3615490389991476e-06,
+      "loss": 1.72352066,
+      "memory(GiB)": 111.15,
+      "step": 60820,
+      "train_speed(iter/s)": 0.447211
+    },
+    {
+      "acc": 0.65074596,
+      "epoch": 1.5429984779299848,
+      "grad_norm": 5.21875,
+      "learning_rate": 1.360829861791948e-06,
+      "loss": 1.61862831,
+      "memory(GiB)": 111.15,
+      "step": 60825,
+      "train_speed(iter/s)": 0.447231
+    },
+    {
+      "acc": 0.64856572,
+      "epoch": 1.5431253170979198,
+      "grad_norm": 5.46875,
+      "learning_rate": 1.3601108446516985e-06,
+      "loss": 1.60735035,
+      "memory(GiB)": 111.15,
+      "step": 60830,
+      "train_speed(iter/s)": 0.44725
+    },
+    {
+      "acc": 0.66562719,
+      "epoch": 1.5432521562658548,
+      "grad_norm": 5.90625,
+      "learning_rate": 1.3593919876100254e-06,
+      "loss": 1.57543087,
+      "memory(GiB)": 111.15,
+      "step": 60835,
+      "train_speed(iter/s)": 0.44727
+    },
+    {
+      "acc": 0.64553766,
+      "epoch": 1.54337899543379,
+      "grad_norm": 5.71875,
+      "learning_rate": 1.3586732906985467e-06,
+      "loss": 1.65457153,
+      "memory(GiB)": 111.15,
+      "step": 60840,
+      "train_speed(iter/s)": 0.447289
+    },
+    {
+      "acc": 0.65302753,
+      "epoch": 1.543505834601725,
+      "grad_norm": 5.84375,
+      "learning_rate": 1.357954753948874e-06,
+      "loss": 1.5954071,
+      "memory(GiB)": 111.15,
+      "step": 60845,
+      "train_speed(iter/s)": 0.447309
+    },
+    {
+      "acc": 0.67651176,
+      "epoch": 1.5436326737696602,
+      "grad_norm": 5.09375,
+      "learning_rate": 1.3572363773926117e-06,
+      "loss": 1.55727234,
+      "memory(GiB)": 111.15,
+      "step": 60850,
+      "train_speed(iter/s)": 0.447328
+    },
+    {
+      "acc": 0.66119065,
+      "epoch": 1.5437595129375952,
+      "grad_norm": 6.1875,
+      "learning_rate": 1.3565181610613571e-06,
+      "loss": 1.61036644,
+      "memory(GiB)": 111.15,
+      "step": 60855,
+      "train_speed(iter/s)": 0.447348
+    },
+    {
+      "acc": 0.64773784,
+      "epoch": 1.5438863521055302,
+      "grad_norm": 5.90625,
+      "learning_rate": 1.3558001049867008e-06,
+      "loss": 1.63665276,
+      "memory(GiB)": 111.15,
+      "step": 60860,
+      "train_speed(iter/s)": 0.447368
+    },
+    {
+      "acc": 0.65569735,
+      "epoch": 1.5440131912734651,
+      "grad_norm": 5.125,
+      "learning_rate": 1.3550822092002264e-06,
+      "loss": 1.59874134,
+      "memory(GiB)": 111.15,
+      "step": 60865,
+      "train_speed(iter/s)": 0.447387
+    },
+    {
+      "acc": 0.65851564,
+      "epoch": 1.5441400304414004,
+      "grad_norm": 4.53125,
+      "learning_rate": 1.3543644737335099e-06,
+      "loss": 1.54289837,
+      "memory(GiB)": 111.15,
+      "step": 60870,
+      "train_speed(iter/s)": 0.447406
+    },
+    {
+      "acc": 0.63209233,
+      "epoch": 1.5442668696093353,
+      "grad_norm": 5.75,
+      "learning_rate": 1.35364689861812e-06,
+      "loss": 1.6784441,
+      "memory(GiB)": 111.15,
+      "step": 60875,
+      "train_speed(iter/s)": 0.447426
+    },
+    {
+      "acc": 0.66247635,
+      "epoch": 1.5443937087772706,
+      "grad_norm": 5.59375,
+      "learning_rate": 1.3529294838856194e-06,
+      "loss": 1.59007797,
+      "memory(GiB)": 111.15,
+      "step": 60880,
+      "train_speed(iter/s)": 0.447445
+    },
+    {
+      "acc": 0.63497677,
+      "epoch": 1.5445205479452055,
+      "grad_norm": 5.8125,
+      "learning_rate": 1.3522122295675616e-06,
+      "loss": 1.62615585,
+      "memory(GiB)": 111.15,
+      "step": 60885,
+      "train_speed(iter/s)": 0.447465
+    },
+    {
+      "acc": 0.64899282,
+      "epoch": 1.5446473871131405,
+      "grad_norm": 6.1875,
+      "learning_rate": 1.351495135695499e-06,
+      "loss": 1.63584118,
+      "memory(GiB)": 111.15,
+      "step": 60890,
+      "train_speed(iter/s)": 0.447484
+    },
+    {
+      "acc": 0.65946703,
+      "epoch": 1.5447742262810755,
+      "grad_norm": 4.75,
+      "learning_rate": 1.3507782023009692e-06,
+      "loss": 1.59263887,
+      "memory(GiB)": 111.15,
+      "step": 60895,
+      "train_speed(iter/s)": 0.447503
+    },
+    {
+      "acc": 0.65517211,
+      "epoch": 1.5449010654490105,
+      "grad_norm": 5.21875,
+      "learning_rate": 1.3500614294155056e-06,
+      "loss": 1.60624809,
+      "memory(GiB)": 111.15,
+      "step": 60900,
+      "train_speed(iter/s)": 0.447523
+    },
+    {
+      "epoch": 1.5449010654490105,
+      "eval_acc": 0.6433980023202797,
+      "eval_loss": 1.6075862646102905,
+      "eval_runtime": 113.5432,
+      "eval_samples_per_second": 56.102,
+      "eval_steps_per_second": 28.051,
+      "step": 60900
+    },
+    {
+      "acc": 0.66381407,
+      "epoch": 1.5450279046169457,
+      "grad_norm": 5.25,
+      "learning_rate": 1.3493448170706347e-06,
+      "loss": 1.61134605,
+      "memory(GiB)": 111.15,
+      "step": 60905,
+      "train_speed(iter/s)": 0.447154
+    },
+    {
+      "acc": 0.65100985,
+      "epoch": 1.545154743784881,
+      "grad_norm": 5.125,
+      "learning_rate": 1.348628365297881e-06,
+      "loss": 1.64735832,
+      "memory(GiB)": 111.15,
+      "step": 60910,
+      "train_speed(iter/s)": 0.447173
+    },
+    {
+      "acc": 0.64934096,
+      "epoch": 1.545281582952816,
+      "grad_norm": 5.3125,
+      "learning_rate": 1.3479120741287526e-06,
+      "loss": 1.60158768,
+      "memory(GiB)": 111.15,
+      "step": 60915,
+      "train_speed(iter/s)": 0.447192
+    },
+    {
+      "acc": 0.64882383,
+      "epoch": 1.545408422120751,
+      "grad_norm": 4.90625,
+      "learning_rate": 1.3471959435947552e-06,
+      "loss": 1.70731888,
+      "memory(GiB)": 111.15,
+      "step": 60920,
+      "train_speed(iter/s)": 0.447211
+    },
+    {
+      "acc": 0.63997927,
+      "epoch": 1.545535261288686,
+      "grad_norm": 4.96875,
+      "learning_rate": 1.3464799737273898e-06,
+      "loss": 1.65356178,
+      "memory(GiB)": 111.15,
+      "step": 60925,
+      "train_speed(iter/s)": 0.447231
+    },
+    {
+      "acc": 0.64967322,
+      "epoch": 1.545662100456621,
+      "grad_norm": 5.9375,
+      "learning_rate": 1.3457641645581487e-06,
+      "loss": 1.62131824,
+      "memory(GiB)": 111.15,
+      "step": 60930,
+      "train_speed(iter/s)": 0.44725
+    },
+    {
+      "acc": 0.6425518,
+      "epoch": 1.545788939624556,
+      "grad_norm": 5.5,
+      "learning_rate": 1.3450485161185133e-06,
+      "loss": 1.66434174,
+      "memory(GiB)": 111.15,
+      "step": 60935,
+      "train_speed(iter/s)": 0.447269
+    },
+    {
+      "acc": 0.64992213,
+      "epoch": 1.545915778792491,
+      "grad_norm": 6.59375,
+      "learning_rate": 1.344333028439961e-06,
+      "loss": 1.58736763,
+      "memory(GiB)": 111.15,
+      "step": 60940,
+      "train_speed(iter/s)": 0.447289
+    },
+    {
+      "acc": 0.66314464,
+      "epoch": 1.5460426179604263,
+      "grad_norm": 5.65625,
+      "learning_rate": 1.3436177015539647e-06,
+      "loss": 1.57411308,
+      "memory(GiB)": 111.15,
+      "step": 60945,
+      "train_speed(iter/s)": 0.447308
+    },
+    {
+      "acc": 0.67148051,
+      "epoch": 1.5461694571283613,
+      "grad_norm": 5.59375,
+      "learning_rate": 1.3429025354919877e-06,
+      "loss": 1.57624998,
+      "memory(GiB)": 111.15,
+      "step": 60950,
+      "train_speed(iter/s)": 0.447328
+    },
+    {
+      "acc": 0.63875656,
+      "epoch": 1.5462962962962963,
+      "grad_norm": 5.53125,
+      "learning_rate": 1.3421875302854826e-06,
+      "loss": 1.6338501,
+      "memory(GiB)": 111.15,
+      "step": 60955,
+      "train_speed(iter/s)": 0.447347
+    },
+    {
+      "acc": 0.63833761,
+      "epoch": 1.5464231354642313,
+      "grad_norm": 5.09375,
+      "learning_rate": 1.3414726859659016e-06,
+      "loss": 1.63572445,
+      "memory(GiB)": 111.15,
+      "step": 60960,
+      "train_speed(iter/s)": 0.447367
+    },
+    {
+      "acc": 0.63177052,
+      "epoch": 1.5465499746321663,
+      "grad_norm": 5.25,
+      "learning_rate": 1.3407580025646866e-06,
+      "loss": 1.67703743,
+      "memory(GiB)": 111.15,
+      "step": 60965,
+      "train_speed(iter/s)": 0.447386
+    },
+    {
+      "acc": 0.65079594,
+      "epoch": 1.5466768138001015,
+      "grad_norm": 6.6875,
+      "learning_rate": 1.3400434801132716e-06,
+      "loss": 1.65920067,
+      "memory(GiB)": 111.15,
+      "step": 60970,
+      "train_speed(iter/s)": 0.447406
+    },
+    {
+      "acc": 0.64886904,
+      "epoch": 1.5468036529680367,
+      "grad_norm": 5.21875,
+      "learning_rate": 1.3393291186430852e-06,
+      "loss": 1.6103117,
+      "memory(GiB)": 111.15,
+      "step": 60975,
+      "train_speed(iter/s)": 0.447425
+    },
+    {
+      "acc": 0.63858614,
+      "epoch": 1.5469304921359717,
+      "grad_norm": 7.84375,
+      "learning_rate": 1.338614918185548e-06,
+      "loss": 1.66281147,
+      "memory(GiB)": 111.15,
+      "step": 60980,
+      "train_speed(iter/s)": 0.447444
+    },
+    {
+      "acc": 0.65356932,
+      "epoch": 1.5470573313039067,
+      "grad_norm": 4.59375,
+      "learning_rate": 1.3379008787720732e-06,
+      "loss": 1.6343811,
+      "memory(GiB)": 111.15,
+      "step": 60985,
+      "train_speed(iter/s)": 0.447464
+    },
+    {
+      "acc": 0.6623704,
+      "epoch": 1.5471841704718416,
+      "grad_norm": 5.59375,
+      "learning_rate": 1.3371870004340681e-06,
+      "loss": 1.64885101,
+      "memory(GiB)": 111.15,
+      "step": 60990,
+      "train_speed(iter/s)": 0.447483
+    },
+    {
+      "acc": 0.66089325,
+      "epoch": 1.5473110096397766,
+      "grad_norm": 5.15625,
+      "learning_rate": 1.3364732832029315e-06,
+      "loss": 1.59869976,
+      "memory(GiB)": 111.15,
+      "step": 60995,
+      "train_speed(iter/s)": 0.447503
+    },
+    {
+      "acc": 0.65752225,
+      "epoch": 1.5474378488077118,
+      "grad_norm": 5.25,
+      "learning_rate": 1.335759727110057e-06,
+      "loss": 1.59758549,
+      "memory(GiB)": 111.15,
+      "step": 61000,
+      "train_speed(iter/s)": 0.447522
+    },
+    {
+      "epoch": 1.5474378488077118,
+      "eval_acc": 0.6434193084530619,
+      "eval_loss": 1.607518196105957,
+      "eval_runtime": 114.048,
+      "eval_samples_per_second": 55.854,
+      "eval_steps_per_second": 27.927,
+      "step": 61000
+    },
+    {
+      "acc": 0.64996653,
+      "epoch": 1.5475646879756468,
+      "grad_norm": 6.3125,
+      "learning_rate": 1.335046332186829e-06,
+      "loss": 1.63765888,
+      "memory(GiB)": 111.15,
+      "step": 61005,
+      "train_speed(iter/s)": 0.447153
+    },
+    {
+      "acc": 0.6601757,
+      "epoch": 1.547691527143582,
+      "grad_norm": 5.5625,
+      "learning_rate": 1.3343330984646262e-06,
+      "loss": 1.55656118,
+      "memory(GiB)": 111.15,
+      "step": 61010,
+      "train_speed(iter/s)": 0.447172
+    },
+    {
+      "acc": 0.66854343,
+      "epoch": 1.547818366311517,
+      "grad_norm": 5.0,
+      "learning_rate": 1.33362002597482e-06,
+      "loss": 1.62073479,
+      "memory(GiB)": 111.15,
+      "step": 61015,
+      "train_speed(iter/s)": 0.447191
+    },
+    {
+      "acc": 0.64274397,
+      "epoch": 1.547945205479452,
+      "grad_norm": 4.9375,
+      "learning_rate": 1.3329071147487743e-06,
+      "loss": 1.63980618,
+      "memory(GiB)": 111.15,
+      "step": 61020,
+      "train_speed(iter/s)": 0.44721
+    },
+    {
+      "acc": 0.6483264,
+      "epoch": 1.548072044647387,
+      "grad_norm": 5.5625,
+      "learning_rate": 1.3321943648178442e-06,
+      "loss": 1.5995472,
+      "memory(GiB)": 111.15,
+      "step": 61025,
+      "train_speed(iter/s)": 0.447229
+    },
+    {
+      "acc": 0.64403276,
+      "epoch": 1.5481988838153222,
+      "grad_norm": 4.96875,
+      "learning_rate": 1.3314817762133848e-06,
+      "loss": 1.63764954,
+      "memory(GiB)": 111.15,
+      "step": 61030,
+      "train_speed(iter/s)": 0.447249
+    },
+    {
+      "acc": 0.6641202,
+      "epoch": 1.5483257229832572,
+      "grad_norm": 5.59375,
+      "learning_rate": 1.330769348966734e-06,
+      "loss": 1.64345703,
+      "memory(GiB)": 111.15,
+      "step": 61035,
+      "train_speed(iter/s)": 0.447268
+    },
+    {
+      "acc": 0.64847636,
+      "epoch": 1.5484525621511924,
+      "grad_norm": 5.5625,
+      "learning_rate": 1.3300570831092292e-06,
+      "loss": 1.62792549,
+      "memory(GiB)": 111.15,
+      "step": 61040,
+      "train_speed(iter/s)": 0.447287
+    },
+    {
+      "acc": 0.6679575,
+      "epoch": 1.5485794013191274,
+      "grad_norm": 4.8125,
+      "learning_rate": 1.3293449786721973e-06,
+      "loss": 1.53033714,
+      "memory(GiB)": 111.15,
+      "step": 61045,
+      "train_speed(iter/s)": 0.447306
+    },
+    {
+      "acc": 0.6463676,
+      "epoch": 1.5487062404870624,
+      "grad_norm": 5.59375,
+      "learning_rate": 1.3286330356869648e-06,
+      "loss": 1.65582237,
+      "memory(GiB)": 111.15,
+      "step": 61050,
+      "train_speed(iter/s)": 0.447325
+    },
+    {
+      "acc": 0.63849764,
+      "epoch": 1.5488330796549974,
+      "grad_norm": 5.875,
+      "learning_rate": 1.3279212541848413e-06,
+      "loss": 1.67342072,
+      "memory(GiB)": 111.15,
+      "step": 61055,
+      "train_speed(iter/s)": 0.447345
+    },
+    {
+      "acc": 0.6395184,
+      "epoch": 1.5489599188229324,
+      "grad_norm": 6.53125,
+      "learning_rate": 1.3272096341971342e-06,
+      "loss": 1.66531467,
+      "memory(GiB)": 111.15,
+      "step": 61060,
+      "train_speed(iter/s)": 0.447364
+    },
+    {
+      "acc": 0.65087419,
+      "epoch": 1.5490867579908676,
+      "grad_norm": 6.0,
+      "learning_rate": 1.326498175755147e-06,
+      "loss": 1.63271427,
+      "memory(GiB)": 111.15,
+      "step": 61065,
+      "train_speed(iter/s)": 0.447384
+    },
+    {
+      "acc": 0.66073451,
+      "epoch": 1.5492135971588028,
+      "grad_norm": 7.1875,
+      "learning_rate": 1.3257868788901722e-06,
+      "loss": 1.64948101,
+      "memory(GiB)": 111.15,
+      "step": 61070,
+      "train_speed(iter/s)": 0.447403
+    },
+    {
+      "acc": 0.65232401,
+      "epoch": 1.5493404363267378,
+      "grad_norm": 5.125,
+      "learning_rate": 1.3250757436334932e-06,
+      "loss": 1.5962863,
+      "memory(GiB)": 111.15,
+      "step": 61075,
+      "train_speed(iter/s)": 0.447422
+    },
+    {
+      "acc": 0.6545404,
+      "epoch": 1.5494672754946728,
+      "grad_norm": 6.03125,
+      "learning_rate": 1.3243647700163887e-06,
+      "loss": 1.58335609,
+      "memory(GiB)": 111.15,
+      "step": 61080,
+      "train_speed(iter/s)": 0.447441
+    },
+    {
+      "acc": 0.6480979,
+      "epoch": 1.5495941146626078,
+      "grad_norm": 4.78125,
+      "learning_rate": 1.323653958070134e-06,
+      "loss": 1.63703709,
+      "memory(GiB)": 111.15,
+      "step": 61085,
+      "train_speed(iter/s)": 0.447461
+    },
+    {
+      "acc": 0.64916668,
+      "epoch": 1.5497209538305428,
+      "grad_norm": 6.3125,
+      "learning_rate": 1.3229433078259928e-06,
+      "loss": 1.60829544,
+      "memory(GiB)": 111.15,
+      "step": 61090,
+      "train_speed(iter/s)": 0.44748
+    },
+    {
+      "acc": 0.64160552,
+      "epoch": 1.549847792998478,
+      "grad_norm": 4.8125,
+      "learning_rate": 1.3222328193152195e-06,
+      "loss": 1.57272158,
+      "memory(GiB)": 111.15,
+      "step": 61095,
+      "train_speed(iter/s)": 0.447499
+    },
+    {
+      "acc": 0.66049376,
+      "epoch": 1.549974632166413,
+      "grad_norm": 5.5,
+      "learning_rate": 1.3215224925690683e-06,
+      "loss": 1.64803162,
+      "memory(GiB)": 111.15,
+      "step": 61100,
+      "train_speed(iter/s)": 0.447519
+    },
+    {
+      "epoch": 1.549974632166413,
+      "eval_acc": 0.6433670875393798,
+      "eval_loss": 1.607504963874817,
+      "eval_runtime": 114.8701,
+      "eval_samples_per_second": 55.454,
+      "eval_steps_per_second": 27.727,
+      "step": 61100
+    },
+    {
+      "acc": 0.66711845,
+      "epoch": 1.5501014713343482,
+      "grad_norm": 4.75,
+      "learning_rate": 1.3208123276187807e-06,
+      "loss": 1.55229549,
+      "memory(GiB)": 111.15,
+      "step": 61105,
+      "train_speed(iter/s)": 0.447147
+    },
+    {
+      "acc": 0.64694872,
+      "epoch": 1.5502283105022832,
+      "grad_norm": 4.71875,
+      "learning_rate": 1.3201023244955952e-06,
+      "loss": 1.62568359,
+      "memory(GiB)": 111.15,
+      "step": 61110,
+      "train_speed(iter/s)": 0.447166
+    },
+    {
+      "acc": 0.66077862,
+      "epoch": 1.5503551496702181,
+      "grad_norm": 4.8125,
+      "learning_rate": 1.319392483230736e-06,
+      "loss": 1.60535698,
+      "memory(GiB)": 111.15,
+      "step": 61115,
+      "train_speed(iter/s)": 0.447185
+    },
+    {
+      "acc": 0.64251194,
+      "epoch": 1.5504819888381531,
+      "grad_norm": 5.25,
+      "learning_rate": 1.318682803855429e-06,
+      "loss": 1.70156612,
+      "memory(GiB)": 111.15,
+      "step": 61120,
+      "train_speed(iter/s)": 0.447204
+    },
+    {
+      "acc": 0.65304813,
+      "epoch": 1.5506088280060881,
+      "grad_norm": 6.21875,
+      "learning_rate": 1.3179732864008888e-06,
+      "loss": 1.65208435,
+      "memory(GiB)": 111.15,
+      "step": 61125,
+      "train_speed(iter/s)": 0.447224
+    },
+    {
+      "acc": 0.65565825,
+      "epoch": 1.5507356671740233,
+      "grad_norm": 5.65625,
+      "learning_rate": 1.3172639308983226e-06,
+      "loss": 1.6057724,
+      "memory(GiB)": 111.15,
+      "step": 61130,
+      "train_speed(iter/s)": 0.447243
+    },
+    {
+      "acc": 0.66161776,
+      "epoch": 1.5508625063419585,
+      "grad_norm": 4.9375,
+      "learning_rate": 1.3165547373789306e-06,
+      "loss": 1.56553326,
+      "memory(GiB)": 111.15,
+      "step": 61135,
+      "train_speed(iter/s)": 0.447263
+    },
+    {
+      "acc": 0.64531598,
+      "epoch": 1.5509893455098935,
+      "grad_norm": 4.90625,
+      "learning_rate": 1.3158457058739066e-06,
+      "loss": 1.6227932,
+      "memory(GiB)": 111.15,
+      "step": 61140,
+      "train_speed(iter/s)": 0.447282
+    },
+    {
+      "acc": 0.65768933,
+      "epoch": 1.5511161846778285,
+      "grad_norm": 5.84375,
+      "learning_rate": 1.3151368364144373e-06,
+      "loss": 1.64881725,
+      "memory(GiB)": 111.15,
+      "step": 61145,
+      "train_speed(iter/s)": 0.447301
+    },
+    {
+      "acc": 0.64592133,
+      "epoch": 1.5512430238457635,
+      "grad_norm": 5.4375,
+      "learning_rate": 1.3144281290317012e-06,
+      "loss": 1.63901348,
+      "memory(GiB)": 111.15,
+      "step": 61150,
+      "train_speed(iter/s)": 0.447321
+    },
+    {
+      "acc": 0.65983334,
+      "epoch": 1.5513698630136985,
+      "grad_norm": 5.90625,
+      "learning_rate": 1.3137195837568716e-06,
+      "loss": 1.53631496,
+      "memory(GiB)": 111.15,
+      "step": 61155,
+      "train_speed(iter/s)": 0.44734
+    },
+    {
+      "acc": 0.65735245,
+      "epoch": 1.5514967021816337,
+      "grad_norm": 5.4375,
+      "learning_rate": 1.313011200621112e-06,
+      "loss": 1.6238739,
+      "memory(GiB)": 111.15,
+      "step": 61160,
+      "train_speed(iter/s)": 0.447359
+    },
+    {
+      "acc": 0.64902515,
+      "epoch": 1.5516235413495687,
+      "grad_norm": 4.25,
+      "learning_rate": 1.312302979655582e-06,
+      "loss": 1.60589142,
+      "memory(GiB)": 111.15,
+      "step": 61165,
+      "train_speed(iter/s)": 0.447379
+    },
+    {
+      "acc": 0.65051441,
+      "epoch": 1.551750380517504,
+      "grad_norm": 5.96875,
+      "learning_rate": 1.3115949208914302e-06,
+      "loss": 1.62225189,
+      "memory(GiB)": 111.15,
+      "step": 61170,
+      "train_speed(iter/s)": 0.447398
+    },
+    {
+      "acc": 0.64366775,
+      "epoch": 1.551877219685439,
+      "grad_norm": 4.625,
+      "learning_rate": 1.3108870243598022e-06,
+      "loss": 1.65092125,
+      "memory(GiB)": 111.15,
+      "step": 61175,
+      "train_speed(iter/s)": 0.447418
+    },
+    {
+      "acc": 0.64787331,
+      "epoch": 1.552004058853374,
+      "grad_norm": 5.59375,
+      "learning_rate": 1.310179290091833e-06,
+      "loss": 1.66537113,
+      "memory(GiB)": 111.15,
+      "step": 61180,
+      "train_speed(iter/s)": 0.447437
+    },
+    {
+      "acc": 0.66157169,
+      "epoch": 1.5521308980213089,
+      "grad_norm": 5.5625,
+      "learning_rate": 1.3094717181186518e-06,
+      "loss": 1.56579065,
+      "memory(GiB)": 111.15,
+      "step": 61185,
+      "train_speed(iter/s)": 0.447456
+    },
+    {
+      "acc": 0.64603529,
+      "epoch": 1.552257737189244,
+      "grad_norm": 6.65625,
+      "learning_rate": 1.3087643084713836e-06,
+      "loss": 1.60785942,
+      "memory(GiB)": 111.15,
+      "step": 61190,
+      "train_speed(iter/s)": 0.447476
+    },
+    {
+      "acc": 0.65732479,
+      "epoch": 1.552384576357179,
+      "grad_norm": 5.84375,
+      "learning_rate": 1.30805706118114e-06,
+      "loss": 1.59543486,
+      "memory(GiB)": 111.15,
+      "step": 61195,
+      "train_speed(iter/s)": 0.447495
+    },
+    {
+      "acc": 0.64583817,
+      "epoch": 1.5525114155251143,
+      "grad_norm": 6.0625,
+      "learning_rate": 1.3073499762790287e-06,
+      "loss": 1.63877754,
+      "memory(GiB)": 111.15,
+      "step": 61200,
+      "train_speed(iter/s)": 0.447514
+    },
+    {
+      "epoch": 1.5525114155251143,
+      "eval_acc": 0.6433833804644487,
+      "eval_loss": 1.6075305938720703,
+      "eval_runtime": 113.8115,
+      "eval_samples_per_second": 55.97,
+      "eval_steps_per_second": 27.985,
+      "step": 61200
+    },
+    {
+      "acc": 0.65100346,
+      "epoch": 1.5526382546930493,
+      "grad_norm": 4.6875,
+      "learning_rate": 1.306643053796154e-06,
+      "loss": 1.6063448,
+      "memory(GiB)": 111.15,
+      "step": 61205,
+      "train_speed(iter/s)": 0.447146
+    },
+    {
+      "acc": 0.65683699,
+      "epoch": 1.5527650938609843,
+      "grad_norm": 6.8125,
+      "learning_rate": 1.3059362937636084e-06,
+      "loss": 1.62712421,
+      "memory(GiB)": 111.15,
+      "step": 61210,
+      "train_speed(iter/s)": 0.447166
+    },
+    {
+      "acc": 0.66392717,
+      "epoch": 1.5528919330289193,
+      "grad_norm": 4.8125,
+      "learning_rate": 1.3052296962124756e-06,
+      "loss": 1.53788662,
+      "memory(GiB)": 111.15,
+      "step": 61215,
+      "train_speed(iter/s)": 0.447185
+    },
+    {
+      "acc": 0.63626208,
+      "epoch": 1.5530187721968542,
+      "grad_norm": 5.75,
+      "learning_rate": 1.3045232611738357e-06,
+      "loss": 1.6668684,
+      "memory(GiB)": 111.15,
+      "step": 61220,
+      "train_speed(iter/s)": 0.447204
+    },
+    {
+      "acc": 0.64396672,
+      "epoch": 1.5531456113647895,
+      "grad_norm": 5.375,
+      "learning_rate": 1.3038169886787632e-06,
+      "loss": 1.61758366,
+      "memory(GiB)": 111.15,
+      "step": 61225,
+      "train_speed(iter/s)": 0.447224
+    },
+    {
+      "acc": 0.67758198,
+      "epoch": 1.5532724505327247,
+      "grad_norm": 7.40625,
+      "learning_rate": 1.3031108787583235e-06,
+      "loss": 1.57856312,
+      "memory(GiB)": 111.15,
+      "step": 61230,
+      "train_speed(iter/s)": 0.447243
+    },
+    {
+      "acc": 0.64081879,
+      "epoch": 1.5533992897006597,
+      "grad_norm": 5.15625,
+      "learning_rate": 1.3024049314435694e-06,
+      "loss": 1.60206642,
+      "memory(GiB)": 111.15,
+      "step": 61235,
+      "train_speed(iter/s)": 0.447262
+    },
+    {
+      "acc": 0.6437161,
+      "epoch": 1.5535261288685946,
+      "grad_norm": 5.4375,
+      "learning_rate": 1.301699146765557e-06,
+      "loss": 1.62397499,
+      "memory(GiB)": 111.15,
+      "step": 61240,
+      "train_speed(iter/s)": 0.447281
+    },
+    {
+      "acc": 0.66659822,
+      "epoch": 1.5536529680365296,
+      "grad_norm": 4.875,
+      "learning_rate": 1.3009935247553274e-06,
+      "loss": 1.62088966,
+      "memory(GiB)": 111.15,
+      "step": 61245,
+      "train_speed(iter/s)": 0.447301
+    },
+    {
+      "acc": 0.63716702,
+      "epoch": 1.5537798072044646,
+      "grad_norm": 5.3125,
+      "learning_rate": 1.3002880654439192e-06,
+      "loss": 1.69327583,
+      "memory(GiB)": 111.15,
+      "step": 61250,
+      "train_speed(iter/s)": 0.44732
+    },
+    {
+      "acc": 0.6428359,
+      "epoch": 1.5539066463723998,
+      "grad_norm": 4.8125,
+      "learning_rate": 1.2995827688623568e-06,
+      "loss": 1.67391853,
+      "memory(GiB)": 111.15,
+      "step": 61255,
+      "train_speed(iter/s)": 0.447339
+    },
+    {
+      "acc": 0.66446075,
+      "epoch": 1.5540334855403348,
+      "grad_norm": 4.90625,
+      "learning_rate": 1.298877635041667e-06,
+      "loss": 1.51591797,
+      "memory(GiB)": 111.15,
+      "step": 61260,
+      "train_speed(iter/s)": 0.447358
+    },
+    {
+      "acc": 0.64247451,
+      "epoch": 1.55416032470827,
+      "grad_norm": 4.96875,
+      "learning_rate": 1.2981726640128633e-06,
+      "loss": 1.65702934,
+      "memory(GiB)": 111.15,
+      "step": 61265,
+      "train_speed(iter/s)": 0.447377
+    },
+    {
+      "acc": 0.64806128,
+      "epoch": 1.554287163876205,
+      "grad_norm": 4.5625,
+      "learning_rate": 1.297467855806953e-06,
+      "loss": 1.55410271,
+      "memory(GiB)": 111.15,
+      "step": 61270,
+      "train_speed(iter/s)": 0.447397
+    },
+    {
+      "acc": 0.65592566,
+      "epoch": 1.55441400304414,
+      "grad_norm": 5.53125,
+      "learning_rate": 1.2967632104549371e-06,
+      "loss": 1.63307343,
+      "memory(GiB)": 111.15,
+      "step": 61275,
+      "train_speed(iter/s)": 0.447416
+    },
+    {
+      "acc": 0.64620557,
+      "epoch": 1.554540842212075,
+      "grad_norm": 4.84375,
+      "learning_rate": 1.296058727987809e-06,
+      "loss": 1.61457481,
+      "memory(GiB)": 111.15,
+      "step": 61280,
+      "train_speed(iter/s)": 0.447435
+    },
+    {
+      "acc": 0.65431786,
+      "epoch": 1.55466768138001,
+      "grad_norm": 4.8125,
+      "learning_rate": 1.295354408436555e-06,
+      "loss": 1.67000694,
+      "memory(GiB)": 111.15,
+      "step": 61285,
+      "train_speed(iter/s)": 0.447454
+    },
+    {
+      "acc": 0.65833549,
+      "epoch": 1.5547945205479452,
+      "grad_norm": 6.3125,
+      "learning_rate": 1.294650251832154e-06,
+      "loss": 1.57710438,
+      "memory(GiB)": 111.15,
+      "step": 61290,
+      "train_speed(iter/s)": 0.447473
+    },
+    {
+      "acc": 0.64726534,
+      "epoch": 1.5549213597158804,
+      "grad_norm": 5.96875,
+      "learning_rate": 1.2939462582055784e-06,
+      "loss": 1.58634167,
+      "memory(GiB)": 111.15,
+      "step": 61295,
+      "train_speed(iter/s)": 0.447493
+    },
+    {
+      "acc": 0.66010089,
+      "epoch": 1.5550481988838154,
+      "grad_norm": 5.0625,
+      "learning_rate": 1.2932424275877926e-06,
+      "loss": 1.56881275,
+      "memory(GiB)": 111.15,
+      "step": 61300,
+      "train_speed(iter/s)": 0.447512
+    },
+    {
+      "epoch": 1.5550481988838154,
+      "eval_acc": 0.643369176375927,
+      "eval_loss": 1.6075748205184937,
+      "eval_runtime": 113.3154,
+      "eval_samples_per_second": 56.215,
+      "eval_steps_per_second": 28.107,
+      "step": 61300
+    },
+    {
+      "acc": 0.65704412,
+      "epoch": 1.5551750380517504,
+      "grad_norm": 5.5625,
+      "learning_rate": 1.2925387600097543e-06,
+      "loss": 1.61461449,
+      "memory(GiB)": 111.15,
+      "step": 61305,
+      "train_speed(iter/s)": 0.447146
+    },
+    {
+      "acc": 0.64017768,
+      "epoch": 1.5553018772196854,
+      "grad_norm": 4.1875,
+      "learning_rate": 1.291835255502414e-06,
+      "loss": 1.58383713,
+      "memory(GiB)": 111.15,
+      "step": 61310,
+      "train_speed(iter/s)": 0.447165
+    },
+    {
+      "acc": 0.63994064,
+      "epoch": 1.5554287163876204,
+      "grad_norm": 4.53125,
+      "learning_rate": 1.2911319140967148e-06,
+      "loss": 1.62919044,
+      "memory(GiB)": 111.15,
+      "step": 61315,
+      "train_speed(iter/s)": 0.447184
+    },
+    {
+      "acc": 0.64251842,
+      "epoch": 1.5555555555555556,
+      "grad_norm": 5.09375,
+      "learning_rate": 1.290428735823593e-06,
+      "loss": 1.64685726,
+      "memory(GiB)": 111.15,
+      "step": 61320,
+      "train_speed(iter/s)": 0.447203
+    },
+    {
+      "acc": 0.63787889,
+      "epoch": 1.5556823947234906,
+      "grad_norm": 5.3125,
+      "learning_rate": 1.2897257207139758e-06,
+      "loss": 1.70393219,
+      "memory(GiB)": 111.15,
+      "step": 61325,
+      "train_speed(iter/s)": 0.447223
+    },
+    {
+      "acc": 0.64722834,
+      "epoch": 1.5558092338914258,
+      "grad_norm": 5.28125,
+      "learning_rate": 1.28902286879879e-06,
+      "loss": 1.60652599,
+      "memory(GiB)": 111.15,
+      "step": 61330,
+      "train_speed(iter/s)": 0.447242
+    },
+    {
+      "acc": 0.64182625,
+      "epoch": 1.5559360730593608,
+      "grad_norm": 5.5625,
+      "learning_rate": 1.2883201801089445e-06,
+      "loss": 1.65496826,
+      "memory(GiB)": 111.15,
+      "step": 61335,
+      "train_speed(iter/s)": 0.447261
+    },
+    {
+      "acc": 0.63590565,
+      "epoch": 1.5560629122272958,
+      "grad_norm": 5.0,
+      "learning_rate": 1.2876176546753494e-06,
+      "loss": 1.68897133,
+      "memory(GiB)": 111.15,
+      "step": 61340,
+      "train_speed(iter/s)": 0.44728
+    },
+    {
+      "acc": 0.64597483,
+      "epoch": 1.5561897513952307,
+      "grad_norm": 5.40625,
+      "learning_rate": 1.286915292528903e-06,
+      "loss": 1.68069782,
+      "memory(GiB)": 111.15,
+      "step": 61345,
+      "train_speed(iter/s)": 0.447299
+    },
+    {
+      "acc": 0.64783001,
+      "epoch": 1.556316590563166,
+      "grad_norm": 5.8125,
+      "learning_rate": 1.286213093700503e-06,
+      "loss": 1.60983677,
+      "memory(GiB)": 111.15,
+      "step": 61350,
+      "train_speed(iter/s)": 0.447318
+    },
+    {
+      "acc": 0.65176487,
+      "epoch": 1.556443429731101,
+      "grad_norm": 5.78125,
+      "learning_rate": 1.28551105822103e-06,
+      "loss": 1.57596111,
+      "memory(GiB)": 111.15,
+      "step": 61355,
+      "train_speed(iter/s)": 0.447338
+    },
+    {
+      "acc": 0.64773107,
+      "epoch": 1.5565702688990362,
+      "grad_norm": 5.59375,
+      "learning_rate": 1.2848091861213636e-06,
+      "loss": 1.59041634,
+      "memory(GiB)": 111.15,
+      "step": 61360,
+      "train_speed(iter/s)": 0.447357
+    },
+    {
+      "acc": 0.63490582,
+      "epoch": 1.5566971080669711,
+      "grad_norm": 5.5,
+      "learning_rate": 1.2841074774323775e-06,
+      "loss": 1.71108589,
+      "memory(GiB)": 111.15,
+      "step": 61365,
+      "train_speed(iter/s)": 0.447376
+    },
+    {
+      "acc": 0.63696947,
+      "epoch": 1.5568239472349061,
+      "grad_norm": 4.8125,
+      "learning_rate": 1.2834059321849363e-06,
+      "loss": 1.65976295,
+      "memory(GiB)": 111.15,
+      "step": 61370,
+      "train_speed(iter/s)": 0.447395
+    },
+    {
+      "acc": 0.6757596,
+      "epoch": 1.5569507864028411,
+      "grad_norm": 5.75,
+      "learning_rate": 1.2827045504098928e-06,
+      "loss": 1.62564716,
+      "memory(GiB)": 111.15,
+      "step": 61375,
+      "train_speed(iter/s)": 0.447415
+    },
+    {
+      "acc": 0.65840054,
+      "epoch": 1.5570776255707761,
+      "grad_norm": 5.8125,
+      "learning_rate": 1.2820033321381009e-06,
+      "loss": 1.59154978,
+      "memory(GiB)": 111.15,
+      "step": 61380,
+      "train_speed(iter/s)": 0.447434
+    },
+    {
+      "acc": 0.66883268,
+      "epoch": 1.5572044647387113,
+      "grad_norm": 5.53125,
+      "learning_rate": 1.2813022774004024e-06,
+      "loss": 1.56321373,
+      "memory(GiB)": 111.15,
+      "step": 61385,
+      "train_speed(iter/s)": 0.447453
+    },
+    {
+      "acc": 0.65005627,
+      "epoch": 1.5573313039066465,
+      "grad_norm": 5.40625,
+      "learning_rate": 1.280601386227634e-06,
+      "loss": 1.64493694,
+      "memory(GiB)": 111.15,
+      "step": 61390,
+      "train_speed(iter/s)": 0.447473
+    },
+    {
+      "acc": 0.64819651,
+      "epoch": 1.5574581430745815,
+      "grad_norm": 5.25,
+      "learning_rate": 1.279900658650619e-06,
+      "loss": 1.66435699,
+      "memory(GiB)": 111.15,
+      "step": 61395,
+      "train_speed(iter/s)": 0.447492
+    },
+    {
+      "acc": 0.63696933,
+      "epoch": 1.5575849822425165,
+      "grad_norm": 6.09375,
+      "learning_rate": 1.2792000947001842e-06,
+      "loss": 1.66545067,
+      "memory(GiB)": 111.15,
+      "step": 61400,
+      "train_speed(iter/s)": 0.447511
+    },
+    {
+      "epoch": 1.5575849822425165,
+      "eval_acc": 0.643394660181804,
+      "eval_loss": 1.6075458526611328,
+      "eval_runtime": 113.9246,
+      "eval_samples_per_second": 55.914,
+      "eval_steps_per_second": 27.957,
+      "step": 61400
+    },
+    {
+      "acc": 0.65034833,
+      "epoch": 1.5577118214104515,
+      "grad_norm": 4.6875,
+      "learning_rate": 1.2784996944071415e-06,
+      "loss": 1.65339413,
+      "memory(GiB)": 111.15,
+      "step": 61405,
+      "train_speed(iter/s)": 0.447144
+    },
+    {
+      "acc": 0.65096321,
+      "epoch": 1.5578386605783865,
+      "grad_norm": 5.3125,
+      "learning_rate": 1.2777994578022972e-06,
+      "loss": 1.67180061,
+      "memory(GiB)": 111.15,
+      "step": 61410,
+      "train_speed(iter/s)": 0.447164
+    },
+    {
+      "acc": 0.65301952,
+      "epoch": 1.5579654997463217,
+      "grad_norm": 6.0,
+      "learning_rate": 1.2770993849164514e-06,
+      "loss": 1.65988407,
+      "memory(GiB)": 111.15,
+      "step": 61415,
+      "train_speed(iter/s)": 0.447183
+    },
+    {
+      "acc": 0.63351002,
+      "epoch": 1.5580923389142567,
+      "grad_norm": 5.375,
+      "learning_rate": 1.276399475780396e-06,
+      "loss": 1.72411804,
+      "memory(GiB)": 111.15,
+      "step": 61420,
+      "train_speed(iter/s)": 0.447202
+    },
+    {
+      "acc": 0.65545011,
+      "epoch": 1.558219178082192,
+      "grad_norm": 4.9375,
+      "learning_rate": 1.2756997304249164e-06,
+      "loss": 1.6246727,
+      "memory(GiB)": 111.15,
+      "step": 61425,
+      "train_speed(iter/s)": 0.447222
+    },
+    {
+      "acc": 0.64902658,
+      "epoch": 1.558346017250127,
+      "grad_norm": 5.5625,
+      "learning_rate": 1.2750001488807906e-06,
+      "loss": 1.60857716,
+      "memory(GiB)": 111.15,
+      "step": 61430,
+      "train_speed(iter/s)": 0.447241
+    },
+    {
+      "acc": 0.66258368,
+      "epoch": 1.5584728564180619,
+      "grad_norm": 6.21875,
+      "learning_rate": 1.2743007311787892e-06,
+      "loss": 1.64253368,
+      "memory(GiB)": 111.15,
+      "step": 61435,
+      "train_speed(iter/s)": 0.44726
+    },
+    {
+      "acc": 0.65929813,
+      "epoch": 1.5585996955859969,
+      "grad_norm": 5.5625,
+      "learning_rate": 1.2736014773496757e-06,
+      "loss": 1.57473793,
+      "memory(GiB)": 111.15,
+      "step": 61440,
+      "train_speed(iter/s)": 0.44728
+    },
+    {
+      "acc": 0.6619729,
+      "epoch": 1.5587265347539319,
+      "grad_norm": 5.6875,
+      "learning_rate": 1.2729023874242064e-06,
+      "loss": 1.55340233,
+      "memory(GiB)": 111.15,
+      "step": 61445,
+      "train_speed(iter/s)": 0.447299
+    },
+    {
+      "acc": 0.63537884,
+      "epoch": 1.558853373921867,
+      "grad_norm": 6.125,
+      "learning_rate": 1.2722034614331303e-06,
+      "loss": 1.73287506,
+      "memory(GiB)": 111.15,
+      "step": 61450,
+      "train_speed(iter/s)": 0.447318
+    },
+    {
+      "acc": 0.63352337,
+      "epoch": 1.5589802130898023,
+      "grad_norm": 5.46875,
+      "learning_rate": 1.2715046994071889e-06,
+      "loss": 1.68081436,
+      "memory(GiB)": 111.15,
+      "step": 61455,
+      "train_speed(iter/s)": 0.447338
+    },
+    {
+      "acc": 0.64626141,
+      "epoch": 1.5591070522577373,
+      "grad_norm": 5.46875,
+      "learning_rate": 1.2708061013771179e-06,
+      "loss": 1.62925262,
+      "memory(GiB)": 111.15,
+      "step": 61460,
+      "train_speed(iter/s)": 0.447357
+    },
+    {
+      "acc": 0.65293136,
+      "epoch": 1.5592338914256723,
+      "grad_norm": 4.5625,
+      "learning_rate": 1.2701076673736428e-06,
+      "loss": 1.56802216,
+      "memory(GiB)": 111.15,
+      "step": 61465,
+      "train_speed(iter/s)": 0.447376
+    },
+    {
+      "acc": 0.65000052,
+      "epoch": 1.5593607305936072,
+      "grad_norm": 5.5625,
+      "learning_rate": 1.269409397427488e-06,
+      "loss": 1.63789253,
+      "memory(GiB)": 111.15,
+      "step": 61470,
+      "train_speed(iter/s)": 0.447396
+    },
+    {
+      "acc": 0.6595891,
+      "epoch": 1.5594875697615422,
+      "grad_norm": 5.625,
+      "learning_rate": 1.2687112915693622e-06,
+      "loss": 1.52816992,
+      "memory(GiB)": 111.15,
+      "step": 61475,
+      "train_speed(iter/s)": 0.447415
+    },
+    {
+      "acc": 0.639323,
+      "epoch": 1.5596144089294774,
+      "grad_norm": 5.09375,
+      "learning_rate": 1.2680133498299729e-06,
+      "loss": 1.70628777,
+      "memory(GiB)": 111.15,
+      "step": 61480,
+      "train_speed(iter/s)": 0.447434
+    },
+    {
+      "acc": 0.64578795,
+      "epoch": 1.5597412480974124,
+      "grad_norm": 5.03125,
+      "learning_rate": 1.2673155722400177e-06,
+      "loss": 1.63455505,
+      "memory(GiB)": 111.15,
+      "step": 61485,
+      "train_speed(iter/s)": 0.447453
+    },
+    {
+      "acc": 0.64178705,
+      "epoch": 1.5598680872653476,
+      "grad_norm": 5.5625,
+      "learning_rate": 1.2666179588301908e-06,
+      "loss": 1.68312836,
+      "memory(GiB)": 111.15,
+      "step": 61490,
+      "train_speed(iter/s)": 0.447473
+    },
+    {
+      "acc": 0.6560174,
+      "epoch": 1.5599949264332826,
+      "grad_norm": 5.0625,
+      "learning_rate": 1.2659205096311738e-06,
+      "loss": 1.60937672,
+      "memory(GiB)": 111.15,
+      "step": 61495,
+      "train_speed(iter/s)": 0.447492
+    },
+    {
+      "acc": 0.64065237,
+      "epoch": 1.5601217656012176,
+      "grad_norm": 5.3125,
+      "learning_rate": 1.2652232246736423e-06,
+      "loss": 1.61399994,
+      "memory(GiB)": 111.15,
+      "step": 61500,
+      "train_speed(iter/s)": 0.447511
+    },
+    {
+      "epoch": 1.5601217656012176,
+      "eval_acc": 0.6433934068798756,
+      "eval_loss": 1.6075328588485718,
+      "eval_runtime": 113.7234,
+      "eval_samples_per_second": 56.013,
+      "eval_steps_per_second": 28.007,
+      "step": 61500
+    },
+    {
+      "acc": 0.65963111,
+      "epoch": 1.5602486047691526,
+      "grad_norm": 5.53125,
+      "learning_rate": 1.2645261039882694e-06,
+      "loss": 1.68677311,
+      "memory(GiB)": 111.15,
+      "step": 61505,
+      "train_speed(iter/s)": 0.447145
+    },
+    {
+      "acc": 0.64536543,
+      "epoch": 1.5603754439370878,
+      "grad_norm": 5.5625,
+      "learning_rate": 1.263829147605718e-06,
+      "loss": 1.65197525,
+      "memory(GiB)": 111.15,
+      "step": 61510,
+      "train_speed(iter/s)": 0.447164
+    },
+    {
+      "acc": 0.65322604,
+      "epoch": 1.5605022831050228,
+      "grad_norm": 5.59375,
+      "learning_rate": 1.26313235555664e-06,
+      "loss": 1.61498413,
+      "memory(GiB)": 111.15,
+      "step": 61515,
+      "train_speed(iter/s)": 0.447183
+    },
+    {
+      "acc": 0.66757555,
+      "epoch": 1.560629122272958,
+      "grad_norm": 5.5625,
+      "learning_rate": 1.2624357278716832e-06,
+      "loss": 1.60602112,
+      "memory(GiB)": 111.15,
+      "step": 61520,
+      "train_speed(iter/s)": 0.447202
+    },
+    {
+      "acc": 0.63282995,
+      "epoch": 1.560755961440893,
+      "grad_norm": 5.1875,
+      "learning_rate": 1.2617392645814913e-06,
+      "loss": 1.63219109,
+      "memory(GiB)": 111.15,
+      "step": 61525,
+      "train_speed(iter/s)": 0.447221
+    },
+    {
+      "acc": 0.64947481,
+      "epoch": 1.560882800608828,
+      "grad_norm": 5.0625,
+      "learning_rate": 1.2610429657166983e-06,
+      "loss": 1.68866959,
+      "memory(GiB)": 111.15,
+      "step": 61530,
+      "train_speed(iter/s)": 0.44724
+    },
+    {
+      "acc": 0.66347675,
+      "epoch": 1.561009639776763,
+      "grad_norm": 4.96875,
+      "learning_rate": 1.2603468313079265e-06,
+      "loss": 1.54928513,
+      "memory(GiB)": 111.15,
+      "step": 61535,
+      "train_speed(iter/s)": 0.44726
+    },
+    {
+      "acc": 0.65699701,
+      "epoch": 1.561136478944698,
+      "grad_norm": 5.03125,
+      "learning_rate": 1.2596508613857982e-06,
+      "loss": 1.56519012,
+      "memory(GiB)": 111.15,
+      "step": 61540,
+      "train_speed(iter/s)": 0.447279
+    },
+    {
+      "acc": 0.642169,
+      "epoch": 1.5612633181126332,
+      "grad_norm": 5.1875,
+      "learning_rate": 1.258955055980925e-06,
+      "loss": 1.63950119,
+      "memory(GiB)": 111.15,
+      "step": 61545,
+      "train_speed(iter/s)": 0.447298
+    },
+    {
+      "acc": 0.64145336,
+      "epoch": 1.5613901572805684,
+      "grad_norm": 4.90625,
+      "learning_rate": 1.258259415123911e-06,
+      "loss": 1.6263176,
+      "memory(GiB)": 111.15,
+      "step": 61550,
+      "train_speed(iter/s)": 0.447318
+    },
+    {
+      "acc": 0.6615572,
+      "epoch": 1.5615169964485034,
+      "grad_norm": 4.90625,
+      "learning_rate": 1.2575639388453532e-06,
+      "loss": 1.53849754,
+      "memory(GiB)": 111.15,
+      "step": 61555,
+      "train_speed(iter/s)": 0.447337
+    },
+    {
+      "acc": 0.64867358,
+      "epoch": 1.5616438356164384,
+      "grad_norm": 5.5,
+      "learning_rate": 1.2568686271758423e-06,
+      "loss": 1.60444965,
+      "memory(GiB)": 111.15,
+      "step": 61560,
+      "train_speed(iter/s)": 0.447356
+    },
+    {
+      "acc": 0.64127812,
+      "epoch": 1.5617706747843734,
+      "grad_norm": 4.9375,
+      "learning_rate": 1.2561734801459612e-06,
+      "loss": 1.65938988,
+      "memory(GiB)": 111.15,
+      "step": 61565,
+      "train_speed(iter/s)": 0.447376
+    },
+    {
+      "acc": 0.65793314,
+      "epoch": 1.5618975139523084,
+      "grad_norm": 5.5625,
+      "learning_rate": 1.2554784977862856e-06,
+      "loss": 1.60109558,
+      "memory(GiB)": 111.15,
+      "step": 61570,
+      "train_speed(iter/s)": 0.447395
+    },
+    {
+      "acc": 0.65105429,
+      "epoch": 1.5620243531202436,
+      "grad_norm": 5.4375,
+      "learning_rate": 1.2547836801273833e-06,
+      "loss": 1.62095833,
+      "memory(GiB)": 111.15,
+      "step": 61575,
+      "train_speed(iter/s)": 0.447415
+    },
+    {
+      "acc": 0.64547191,
+      "epoch": 1.5621511922881786,
+      "grad_norm": 5.8125,
+      "learning_rate": 1.2540890271998162e-06,
+      "loss": 1.63362293,
+      "memory(GiB)": 111.15,
+      "step": 61580,
+      "train_speed(iter/s)": 0.447434
+    },
+    {
+      "acc": 0.63778062,
+      "epoch": 1.5622780314561138,
+      "grad_norm": 4.625,
+      "learning_rate": 1.2533945390341379e-06,
+      "loss": 1.71499786,
+      "memory(GiB)": 111.15,
+      "step": 61585,
+      "train_speed(iter/s)": 0.447453
+    },
+    {
+      "acc": 0.64397125,
+      "epoch": 1.5624048706240488,
+      "grad_norm": 5.0625,
+      "learning_rate": 1.2527002156608946e-06,
+      "loss": 1.63156395,
+      "memory(GiB)": 111.15,
+      "step": 61590,
+      "train_speed(iter/s)": 0.447473
+    },
+    {
+      "acc": 0.65627794,
+      "epoch": 1.5625317097919837,
+      "grad_norm": 5.90625,
+      "learning_rate": 1.2520060571106275e-06,
+      "loss": 1.61884251,
+      "memory(GiB)": 111.15,
+      "step": 61595,
+      "train_speed(iter/s)": 0.447492
+    },
+    {
+      "acc": 0.639114,
+      "epoch": 1.5626585489599187,
+      "grad_norm": 5.40625,
+      "learning_rate": 1.2513120634138665e-06,
+      "loss": 1.68505249,
+      "memory(GiB)": 111.15,
+      "step": 61600,
+      "train_speed(iter/s)": 0.447512
+    },
+    {
+      "epoch": 1.5626585489599187,
+      "eval_acc": 0.6434510587685808,
+      "eval_loss": 1.6074637174606323,
+      "eval_runtime": 113.4336,
+      "eval_samples_per_second": 56.156,
+      "eval_steps_per_second": 28.078,
+      "step": 61600
+    },
+    {
+      "acc": 0.6551476,
+      "epoch": 1.5627853881278537,
+      "grad_norm": 5.625,
+      "learning_rate": 1.250618234601138e-06,
+      "loss": 1.55927391,
+      "memory(GiB)": 111.15,
+      "step": 61605,
+      "train_speed(iter/s)": 0.447147
+    },
+    {
+      "acc": 0.66035366,
+      "epoch": 1.562912227295789,
+      "grad_norm": 5.53125,
+      "learning_rate": 1.2499245707029595e-06,
+      "loss": 1.55254002,
+      "memory(GiB)": 111.15,
+      "step": 61610,
+      "train_speed(iter/s)": 0.447166
+    },
+    {
+      "acc": 0.64660215,
+      "epoch": 1.5630390664637241,
+      "grad_norm": 5.65625,
+      "learning_rate": 1.2492310717498412e-06,
+      "loss": 1.62770233,
+      "memory(GiB)": 111.15,
+      "step": 61615,
+      "train_speed(iter/s)": 0.447186
+    },
+    {
+      "acc": 0.66949577,
+      "epoch": 1.5631659056316591,
+      "grad_norm": 5.90625,
+      "learning_rate": 1.2485377377722863e-06,
+      "loss": 1.62398911,
+      "memory(GiB)": 111.15,
+      "step": 61620,
+      "train_speed(iter/s)": 0.447205
+    },
+    {
+      "acc": 0.66608438,
+      "epoch": 1.5632927447995941,
+      "grad_norm": 8.625,
+      "learning_rate": 1.2478445688007894e-06,
+      "loss": 1.60231686,
+      "memory(GiB)": 111.15,
+      "step": 61625,
+      "train_speed(iter/s)": 0.447224
+    },
+    {
+      "acc": 0.65691652,
+      "epoch": 1.5634195839675291,
+      "grad_norm": 5.53125,
+      "learning_rate": 1.2471515648658434e-06,
+      "loss": 1.58413467,
+      "memory(GiB)": 111.15,
+      "step": 61630,
+      "train_speed(iter/s)": 0.447244
+    },
+    {
+      "acc": 0.66044369,
+      "epoch": 1.563546423135464,
+      "grad_norm": 5.5,
+      "learning_rate": 1.2464587259979254e-06,
+      "loss": 1.59290543,
+      "memory(GiB)": 111.15,
+      "step": 61635,
+      "train_speed(iter/s)": 0.447263
+    },
+    {
+      "acc": 0.64670906,
+      "epoch": 1.5636732623033993,
+      "grad_norm": 7.625,
+      "learning_rate": 1.2457660522275095e-06,
+      "loss": 1.65377197,
+      "memory(GiB)": 111.15,
+      "step": 61640,
+      "train_speed(iter/s)": 0.447282
+    },
+    {
+      "acc": 0.65072718,
+      "epoch": 1.5638001014713343,
+      "grad_norm": 6.9375,
+      "learning_rate": 1.2450735435850654e-06,
+      "loss": 1.63144951,
+      "memory(GiB)": 111.15,
+      "step": 61645,
+      "train_speed(iter/s)": 0.447301
+    },
+    {
+      "acc": 0.64775829,
+      "epoch": 1.5639269406392695,
+      "grad_norm": 5.9375,
+      "learning_rate": 1.244381200101053e-06,
+      "loss": 1.64949837,
+      "memory(GiB)": 111.15,
+      "step": 61650,
+      "train_speed(iter/s)": 0.447321
+    },
+    {
+      "acc": 0.64952374,
+      "epoch": 1.5640537798072045,
+      "grad_norm": 5.53125,
+      "learning_rate": 1.2436890218059217e-06,
+      "loss": 1.67823315,
+      "memory(GiB)": 111.15,
+      "step": 61655,
+      "train_speed(iter/s)": 0.44734
+    },
+    {
+      "acc": 0.65062633,
+      "epoch": 1.5641806189751395,
+      "grad_norm": 5.0625,
+      "learning_rate": 1.2429970087301163e-06,
+      "loss": 1.60019112,
+      "memory(GiB)": 111.15,
+      "step": 61660,
+      "train_speed(iter/s)": 0.447359
+    },
+    {
+      "acc": 0.63922529,
+      "epoch": 1.5643074581430745,
+      "grad_norm": 5.5625,
+      "learning_rate": 1.2423051609040777e-06,
+      "loss": 1.67870598,
+      "memory(GiB)": 111.15,
+      "step": 61665,
+      "train_speed(iter/s)": 0.447379
+    },
+    {
+      "acc": 0.6406601,
+      "epoch": 1.5644342973110097,
+      "grad_norm": 5.46875,
+      "learning_rate": 1.2416134783582368e-06,
+      "loss": 1.69136963,
+      "memory(GiB)": 111.15,
+      "step": 61670,
+      "train_speed(iter/s)": 0.447398
+    },
+    {
+      "acc": 0.65114212,
+      "epoch": 1.5645611364789447,
+      "grad_norm": 5.09375,
+      "learning_rate": 1.2409219611230116e-06,
+      "loss": 1.63624611,
+      "memory(GiB)": 111.15,
+      "step": 61675,
+      "train_speed(iter/s)": 0.447417
+    },
+    {
+      "acc": 0.65818195,
+      "epoch": 1.56468797564688,
+      "grad_norm": 5.0625,
+      "learning_rate": 1.2402306092288236e-06,
+      "loss": 1.59679136,
+      "memory(GiB)": 111.15,
+      "step": 61680,
+      "train_speed(iter/s)": 0.447436
+    },
+    {
+      "acc": 0.66412153,
+      "epoch": 1.5648148148148149,
+      "grad_norm": 5.9375,
+      "learning_rate": 1.2395394227060793e-06,
+      "loss": 1.66023216,
+      "memory(GiB)": 111.15,
+      "step": 61685,
+      "train_speed(iter/s)": 0.447456
+    },
+    {
+      "acc": 0.64547167,
+      "epoch": 1.5649416539827499,
+      "grad_norm": 5.625,
+      "learning_rate": 1.238848401585182e-06,
+      "loss": 1.60134354,
+      "memory(GiB)": 111.15,
+      "step": 61690,
+      "train_speed(iter/s)": 0.447475
+    },
+    {
+      "acc": 0.6417614,
+      "epoch": 1.5650684931506849,
+      "grad_norm": 6.0625,
+      "learning_rate": 1.2381575458965218e-06,
+      "loss": 1.59035425,
+      "memory(GiB)": 111.15,
+      "step": 61695,
+      "train_speed(iter/s)": 0.447494
+    },
+    {
+      "acc": 0.65285177,
+      "epoch": 1.5651953323186198,
+      "grad_norm": 5.78125,
+      "learning_rate": 1.2374668556704888e-06,
+      "loss": 1.6354454,
+      "memory(GiB)": 111.15,
+      "step": 61700,
+      "train_speed(iter/s)": 0.447513
+    },
+    {
+      "epoch": 1.5651953323186198,
+      "eval_acc": 0.6434740359706009,
+      "eval_loss": 1.6074992418289185,
+      "eval_runtime": 114.5349,
+      "eval_samples_per_second": 55.616,
+      "eval_steps_per_second": 27.808,
+      "step": 61700
+    },
+    {
+      "acc": 0.65718641,
+      "epoch": 1.565322171486555,
+      "grad_norm": 6.125,
+      "learning_rate": 1.2367763309374625e-06,
+      "loss": 1.56777267,
+      "memory(GiB)": 111.15,
+      "step": 61705,
+      "train_speed(iter/s)": 0.447146
+    },
+    {
+      "acc": 0.64926414,
+      "epoch": 1.5654490106544903,
+      "grad_norm": 4.6875,
+      "learning_rate": 1.2360859717278145e-06,
+      "loss": 1.61757069,
+      "memory(GiB)": 111.15,
+      "step": 61710,
+      "train_speed(iter/s)": 0.447165
+    },
+    {
+      "acc": 0.6372757,
+      "epoch": 1.5655758498224253,
+      "grad_norm": 5.40625,
+      "learning_rate": 1.2353957780719106e-06,
+      "loss": 1.63773212,
+      "memory(GiB)": 111.15,
+      "step": 61715,
+      "train_speed(iter/s)": 0.447184
+    },
+    {
+      "acc": 0.63815513,
+      "epoch": 1.5657026889903602,
+      "grad_norm": 5.625,
+      "learning_rate": 1.2347057500001075e-06,
+      "loss": 1.7205162,
+      "memory(GiB)": 111.15,
+      "step": 61720,
+      "train_speed(iter/s)": 0.447203
+    },
+    {
+      "acc": 0.65624876,
+      "epoch": 1.5658295281582952,
+      "grad_norm": 5.0625,
+      "learning_rate": 1.2340158875427566e-06,
+      "loss": 1.60262699,
+      "memory(GiB)": 111.15,
+      "step": 61725,
+      "train_speed(iter/s)": 0.447222
+    },
+    {
+      "acc": 0.64388313,
+      "epoch": 1.5659563673262302,
+      "grad_norm": 5.59375,
+      "learning_rate": 1.2333261907302013e-06,
+      "loss": 1.61945648,
+      "memory(GiB)": 111.15,
+      "step": 61730,
+      "train_speed(iter/s)": 0.447242
+    },
+    {
+      "acc": 0.66546459,
+      "epoch": 1.5660832064941654,
+      "grad_norm": 4.9375,
+      "learning_rate": 1.2326366595927763e-06,
+      "loss": 1.59049377,
+      "memory(GiB)": 111.15,
+      "step": 61735,
+      "train_speed(iter/s)": 0.447261
+    },
+    {
+      "acc": 0.64993162,
+      "epoch": 1.5662100456621004,
+      "grad_norm": 4.875,
+      "learning_rate": 1.2319472941608118e-06,
+      "loss": 1.62627602,
+      "memory(GiB)": 111.15,
+      "step": 61740,
+      "train_speed(iter/s)": 0.44728
+    },
+    {
+      "acc": 0.65627518,
+      "epoch": 1.5663368848300356,
+      "grad_norm": 5.8125,
+      "learning_rate": 1.231258094464628e-06,
+      "loss": 1.6339304,
+      "memory(GiB)": 111.15,
+      "step": 61745,
+      "train_speed(iter/s)": 0.447299
+    },
+    {
+      "acc": 0.65322571,
+      "epoch": 1.5664637239979706,
+      "grad_norm": 6.125,
+      "learning_rate": 1.23056906053454e-06,
+      "loss": 1.6280899,
+      "memory(GiB)": 111.15,
+      "step": 61750,
+      "train_speed(iter/s)": 0.447318
+    },
+    {
+      "acc": 0.63951859,
+      "epoch": 1.5665905631659056,
+      "grad_norm": 5.46875,
+      "learning_rate": 1.2298801924008535e-06,
+      "loss": 1.67523937,
+      "memory(GiB)": 111.15,
+      "step": 61755,
+      "train_speed(iter/s)": 0.447337
+    },
+    {
+      "acc": 0.64100933,
+      "epoch": 1.5667174023338406,
+      "grad_norm": 4.875,
+      "learning_rate": 1.2291914900938685e-06,
+      "loss": 1.62723808,
+      "memory(GiB)": 111.15,
+      "step": 61760,
+      "train_speed(iter/s)": 0.447356
+    },
+    {
+      "acc": 0.64722714,
+      "epoch": 1.5668442415017756,
+      "grad_norm": 6.125,
+      "learning_rate": 1.2285029536438759e-06,
+      "loss": 1.63608131,
+      "memory(GiB)": 111.15,
+      "step": 61765,
+      "train_speed(iter/s)": 0.447375
+    },
+    {
+      "acc": 0.63908167,
+      "epoch": 1.5669710806697108,
+      "grad_norm": 4.28125,
+      "learning_rate": 1.227814583081165e-06,
+      "loss": 1.64320145,
+      "memory(GiB)": 111.15,
+      "step": 61770,
+      "train_speed(iter/s)": 0.447394
+    },
+    {
+      "acc": 0.65528545,
+      "epoch": 1.567097919837646,
+      "grad_norm": 7.25,
+      "learning_rate": 1.2271263784360088e-06,
+      "loss": 1.62080231,
+      "memory(GiB)": 111.15,
+      "step": 61775,
+      "train_speed(iter/s)": 0.447414
+    },
+    {
+      "acc": 0.65400348,
+      "epoch": 1.567224759005581,
+      "grad_norm": 5.40625,
+      "learning_rate": 1.2264383397386787e-06,
+      "loss": 1.66877098,
+      "memory(GiB)": 111.15,
+      "step": 61780,
+      "train_speed(iter/s)": 0.447433
+    },
+    {
+      "acc": 0.65651884,
+      "epoch": 1.567351598173516,
+      "grad_norm": 6.3125,
+      "learning_rate": 1.225750467019437e-06,
+      "loss": 1.6654871,
+      "memory(GiB)": 111.15,
+      "step": 61785,
+      "train_speed(iter/s)": 0.447452
+    },
+    {
+      "acc": 0.64565377,
+      "epoch": 1.567478437341451,
+      "grad_norm": 5.34375,
+      "learning_rate": 1.2250627603085435e-06,
+      "loss": 1.6973526,
+      "memory(GiB)": 111.15,
+      "step": 61790,
+      "train_speed(iter/s)": 0.44747
+    },
+    {
+      "acc": 0.65449662,
+      "epoch": 1.567605276509386,
+      "grad_norm": 6.53125,
+      "learning_rate": 1.2243752196362423e-06,
+      "loss": 1.63603992,
+      "memory(GiB)": 111.15,
+      "step": 61795,
+      "train_speed(iter/s)": 0.447489
+    },
+    {
+      "acc": 0.64652414,
+      "epoch": 1.5677321156773212,
+      "grad_norm": 5.125,
+      "learning_rate": 1.2236878450327743e-06,
+      "loss": 1.65817223,
+      "memory(GiB)": 111.15,
+      "step": 61800,
+      "train_speed(iter/s)": 0.447508
+    },
+    {
+      "epoch": 1.5677321156773212,
+      "eval_acc": 0.6434209795222998,
+      "eval_loss": 1.607554316520691,
+      "eval_runtime": 113.8144,
+      "eval_samples_per_second": 55.968,
+      "eval_steps_per_second": 27.984,
+      "step": 61800
+    },
+    {
+      "acc": 0.64618378,
+      "epoch": 1.5678589548452562,
+      "grad_norm": 6.21875,
+      "learning_rate": 1.223000636528377e-06,
+      "loss": 1.66398659,
+      "memory(GiB)": 111.15,
+      "step": 61805,
+      "train_speed(iter/s)": 0.447144
+    },
+    {
+      "acc": 0.66865191,
+      "epoch": 1.5679857940131914,
+      "grad_norm": 4.75,
+      "learning_rate": 1.2223135941532754e-06,
+      "loss": 1.54046526,
+      "memory(GiB)": 111.15,
+      "step": 61810,
+      "train_speed(iter/s)": 0.447163
+    },
+    {
+      "acc": 0.65558996,
+      "epoch": 1.5681126331811264,
+      "grad_norm": 6.0625,
+      "learning_rate": 1.2216267179376857e-06,
+      "loss": 1.61166077,
+      "memory(GiB)": 111.15,
+      "step": 61815,
+      "train_speed(iter/s)": 0.447182
+    },
+    {
+      "acc": 0.6555738,
+      "epoch": 1.5682394723490614,
+      "grad_norm": 5.65625,
+      "learning_rate": 1.2209400079118233e-06,
+      "loss": 1.63383522,
+      "memory(GiB)": 111.15,
+      "step": 61820,
+      "train_speed(iter/s)": 0.447201
+    },
+    {
+      "acc": 0.6585166,
+      "epoch": 1.5683663115169963,
+      "grad_norm": 4.5,
+      "learning_rate": 1.2202534641058916e-06,
+      "loss": 1.59268799,
+      "memory(GiB)": 111.15,
+      "step": 61825,
+      "train_speed(iter/s)": 0.44722
+    },
+    {
+      "acc": 0.67606874,
+      "epoch": 1.5684931506849316,
+      "grad_norm": 4.90625,
+      "learning_rate": 1.2195670865500896e-06,
+      "loss": 1.4574728,
+      "memory(GiB)": 111.15,
+      "step": 61830,
+      "train_speed(iter/s)": 0.447238
+    },
+    {
+      "acc": 0.65137987,
+      "epoch": 1.5686199898528665,
+      "grad_norm": 5.21875,
+      "learning_rate": 1.2188808752746022e-06,
+      "loss": 1.66996269,
+      "memory(GiB)": 111.15,
+      "step": 61835,
+      "train_speed(iter/s)": 0.447258
+    },
+    {
+      "acc": 0.66961575,
+      "epoch": 1.5687468290208018,
+      "grad_norm": 6.3125,
+      "learning_rate": 1.2181948303096176e-06,
+      "loss": 1.59006548,
+      "memory(GiB)": 111.15,
+      "step": 61840,
+      "train_speed(iter/s)": 0.447277
+    },
+    {
+      "acc": 0.65125914,
+      "epoch": 1.5688736681887367,
+      "grad_norm": 5.21875,
+      "learning_rate": 1.2175089516853083e-06,
+      "loss": 1.55854263,
+      "memory(GiB)": 111.15,
+      "step": 61845,
+      "train_speed(iter/s)": 0.447296
+    },
+    {
+      "acc": 0.66302423,
+      "epoch": 1.5690005073566717,
+      "grad_norm": 4.8125,
+      "learning_rate": 1.216823239431843e-06,
+      "loss": 1.58232918,
+      "memory(GiB)": 111.15,
+      "step": 61850,
+      "train_speed(iter/s)": 0.447315
+    },
+    {
+      "acc": 0.65608358,
+      "epoch": 1.5691273465246067,
+      "grad_norm": 6.8125,
+      "learning_rate": 1.2161376935793827e-06,
+      "loss": 1.59891691,
+      "memory(GiB)": 111.15,
+      "step": 61855,
+      "train_speed(iter/s)": 0.447334
+    },
+    {
+      "acc": 0.64724455,
+      "epoch": 1.5692541856925417,
+      "grad_norm": 5.71875,
+      "learning_rate": 1.21545231415808e-06,
+      "loss": 1.64509583,
+      "memory(GiB)": 111.15,
+      "step": 61860,
+      "train_speed(iter/s)": 0.447353
+    },
+    {
+      "acc": 0.63872747,
+      "epoch": 1.569381024860477,
+      "grad_norm": 5.40625,
+      "learning_rate": 1.2147671011980816e-06,
+      "loss": 1.68681488,
+      "memory(GiB)": 111.15,
+      "step": 61865,
+      "train_speed(iter/s)": 0.447372
+    },
+    {
+      "acc": 0.66064386,
+      "epoch": 1.5695078640284121,
+      "grad_norm": 5.59375,
+      "learning_rate": 1.2140820547295256e-06,
+      "loss": 1.57880478,
+      "memory(GiB)": 111.15,
+      "step": 61870,
+      "train_speed(iter/s)": 0.447391
+    },
+    {
+      "acc": 0.64495306,
+      "epoch": 1.5696347031963471,
+      "grad_norm": 5.0,
+      "learning_rate": 1.2133971747825435e-06,
+      "loss": 1.56886768,
+      "memory(GiB)": 111.15,
+      "step": 61875,
+      "train_speed(iter/s)": 0.44741
+    },
+    {
+      "acc": 0.65349288,
+      "epoch": 1.5697615423642821,
+      "grad_norm": 5.875,
+      "learning_rate": 1.2127124613872603e-06,
+      "loss": 1.64039383,
+      "memory(GiB)": 111.15,
+      "step": 61880,
+      "train_speed(iter/s)": 0.447429
+    },
+    {
+      "acc": 0.64967198,
+      "epoch": 1.569888381532217,
+      "grad_norm": 6.0625,
+      "learning_rate": 1.2120279145737918e-06,
+      "loss": 1.61907654,
+      "memory(GiB)": 111.15,
+      "step": 61885,
+      "train_speed(iter/s)": 0.447448
+    },
+    {
+      "acc": 0.66700048,
+      "epoch": 1.570015220700152,
+      "grad_norm": 5.28125,
+      "learning_rate": 1.2113435343722474e-06,
+      "loss": 1.55923624,
+      "memory(GiB)": 111.15,
+      "step": 61890,
+      "train_speed(iter/s)": 0.447467
+    },
+    {
+      "acc": 0.64505396,
+      "epoch": 1.5701420598680873,
+      "grad_norm": 5.03125,
+      "learning_rate": 1.21065932081273e-06,
+      "loss": 1.59934921,
+      "memory(GiB)": 111.15,
+      "step": 61895,
+      "train_speed(iter/s)": 0.447486
+    },
+    {
+      "acc": 0.65376916,
+      "epoch": 1.5702688990360223,
+      "grad_norm": 4.65625,
+      "learning_rate": 1.2099752739253334e-06,
+      "loss": 1.62111588,
+      "memory(GiB)": 111.15,
+      "step": 61900,
+      "train_speed(iter/s)": 0.447505
+    },
+    {
+      "epoch": 1.5702688990360223,
+      "eval_acc": 0.6434289171011794,
+      "eval_loss": 1.6074942350387573,
+      "eval_runtime": 113.2304,
+      "eval_samples_per_second": 56.257,
+      "eval_steps_per_second": 28.128,
+      "step": 61900
+    },
+    {
+      "acc": 0.66481819,
+      "epoch": 1.5703957382039575,
+      "grad_norm": 5.625,
+      "learning_rate": 1.209291393740144e-06,
+      "loss": 1.61883698,
+      "memory(GiB)": 111.15,
+      "step": 61905,
+      "train_speed(iter/s)": 0.447143
+    },
+    {
+      "acc": 0.64166856,
+      "epoch": 1.5705225773718925,
+      "grad_norm": 5.5625,
+      "learning_rate": 1.2086076802872472e-06,
+      "loss": 1.64801559,
+      "memory(GiB)": 111.15,
+      "step": 61910,
+      "train_speed(iter/s)": 0.447162
+    },
+    {
+      "acc": 0.64591441,
+      "epoch": 1.5706494165398275,
+      "grad_norm": 5.1875,
+      "learning_rate": 1.2079241335967096e-06,
+      "loss": 1.68066788,
+      "memory(GiB)": 111.15,
+      "step": 61915,
+      "train_speed(iter/s)": 0.447181
+    },
+    {
+      "acc": 0.64614167,
+      "epoch": 1.5707762557077625,
+      "grad_norm": 5.4375,
+      "learning_rate": 1.207240753698599e-06,
+      "loss": 1.63730164,
+      "memory(GiB)": 111.15,
+      "step": 61920,
+      "train_speed(iter/s)": 0.4472
+    },
+    {
+      "acc": 0.68177509,
+      "epoch": 1.5709030948756975,
+      "grad_norm": 6.1875,
+      "learning_rate": 1.2065575406229723e-06,
+      "loss": 1.48169909,
+      "memory(GiB)": 111.15,
+      "step": 61925,
+      "train_speed(iter/s)": 0.447219
+    },
+    {
+      "acc": 0.66844225,
+      "epoch": 1.5710299340436327,
+      "grad_norm": 5.375,
+      "learning_rate": 1.2058744943998847e-06,
+      "loss": 1.57001219,
+      "memory(GiB)": 111.15,
+      "step": 61930,
+      "train_speed(iter/s)": 0.447238
+    },
+    {
+      "acc": 0.65815463,
+      "epoch": 1.5711567732115679,
+      "grad_norm": 6.5625,
+      "learning_rate": 1.2051916150593746e-06,
+      "loss": 1.63338013,
+      "memory(GiB)": 111.15,
+      "step": 61935,
+      "train_speed(iter/s)": 0.447257
+    },
+    {
+      "acc": 0.64229174,
+      "epoch": 1.5712836123795029,
+      "grad_norm": 5.6875,
+      "learning_rate": 1.2045089026314783e-06,
+      "loss": 1.62774906,
+      "memory(GiB)": 111.15,
+      "step": 61940,
+      "train_speed(iter/s)": 0.447276
+    },
+    {
+      "acc": 0.64065957,
+      "epoch": 1.5714104515474379,
+      "grad_norm": 5.28125,
+      "learning_rate": 1.2038263571462278e-06,
+      "loss": 1.61140385,
+      "memory(GiB)": 111.15,
+      "step": 61945,
+      "train_speed(iter/s)": 0.447295
+    },
+    {
+      "acc": 0.64558754,
+      "epoch": 1.5715372907153728,
+      "grad_norm": 7.71875,
+      "learning_rate": 1.203143978633644e-06,
+      "loss": 1.64823112,
+      "memory(GiB)": 111.15,
+      "step": 61950,
+      "train_speed(iter/s)": 0.447314
+    },
+    {
+      "acc": 0.64385748,
+      "epoch": 1.5716641298833078,
+      "grad_norm": 6.03125,
+      "learning_rate": 1.2024617671237388e-06,
+      "loss": 1.59452457,
+      "memory(GiB)": 111.15,
+      "step": 61955,
+      "train_speed(iter/s)": 0.447333
+    },
+    {
+      "acc": 0.63561811,
+      "epoch": 1.571790969051243,
+      "grad_norm": 3.9375,
+      "learning_rate": 1.2017797226465178e-06,
+      "loss": 1.63195915,
+      "memory(GiB)": 111.15,
+      "step": 61960,
+      "train_speed(iter/s)": 0.447352
+    },
+    {
+      "acc": 0.6284585,
+      "epoch": 1.571917808219178,
+      "grad_norm": 4.84375,
+      "learning_rate": 1.2010978452319843e-06,
+      "loss": 1.66161652,
+      "memory(GiB)": 111.15,
+      "step": 61965,
+      "train_speed(iter/s)": 0.447371
+    },
+    {
+      "acc": 0.64103985,
+      "epoch": 1.5720446473871132,
+      "grad_norm": 5.03125,
+      "learning_rate": 1.2004161349101295e-06,
+      "loss": 1.62771263,
+      "memory(GiB)": 111.15,
+      "step": 61970,
+      "train_speed(iter/s)": 0.44739
+    },
+    {
+      "acc": 0.66199942,
+      "epoch": 1.5721714865550482,
+      "grad_norm": 7.0,
+      "learning_rate": 1.1997345917109348e-06,
+      "loss": 1.61285133,
+      "memory(GiB)": 111.15,
+      "step": 61975,
+      "train_speed(iter/s)": 0.447409
+    },
+    {
+      "acc": 0.65300317,
+      "epoch": 1.5722983257229832,
+      "grad_norm": 5.15625,
+      "learning_rate": 1.1990532156643808e-06,
+      "loss": 1.64526367,
+      "memory(GiB)": 111.15,
+      "step": 61980,
+      "train_speed(iter/s)": 0.447428
+    },
+    {
+      "acc": 0.65439763,
+      "epoch": 1.5724251648909182,
+      "grad_norm": 5.375,
+      "learning_rate": 1.198372006800436e-06,
+      "loss": 1.62791061,
+      "memory(GiB)": 111.15,
+      "step": 61985,
+      "train_speed(iter/s)": 0.447447
+    },
+    {
+      "acc": 0.63873773,
+      "epoch": 1.5725520040588534,
+      "grad_norm": 5.34375,
+      "learning_rate": 1.1976909651490637e-06,
+      "loss": 1.64584446,
+      "memory(GiB)": 111.15,
+      "step": 61990,
+      "train_speed(iter/s)": 0.447466
+    },
+    {
+      "acc": 0.66477251,
+      "epoch": 1.5726788432267884,
+      "grad_norm": 4.28125,
+      "learning_rate": 1.1970100907402188e-06,
+      "loss": 1.59328194,
+      "memory(GiB)": 111.15,
+      "step": 61995,
+      "train_speed(iter/s)": 0.447485
+    },
+    {
+      "acc": 0.65711193,
+      "epoch": 1.5728056823947236,
+      "grad_norm": 6.875,
+      "learning_rate": 1.1963293836038492e-06,
+      "loss": 1.63846951,
+      "memory(GiB)": 111.15,
+      "step": 62000,
+      "train_speed(iter/s)": 0.447504
+    },
+    {
+      "epoch": 1.5728056823947236,
+      "eval_acc": 0.6434197262203715,
+      "eval_loss": 1.6074186563491821,
+      "eval_runtime": 113.09,
+      "eval_samples_per_second": 56.327,
+      "eval_steps_per_second": 28.163,
+      "step": 62000
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 78840,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.1594429930783375e+18,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}