Initial upload (auto-create if missing)

cd6b354 verified 4 months ago

11.6 kB

	{
	"best_global_step": 2838,
	"best_metric": 0.9269727168763274,
	"best_model_checkpoint": "./results/checkpoint-2838",
	"epoch": 3.0,
	"eval_steps": 500,
	"global_step": 2838,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.052854122621564484,
	"grad_norm": 7.628295421600342,
	"learning_rate": 1.9654686398872448e-05,
	"loss": 0.3925,
	"step": 50
	},
	{
	"epoch": 0.10570824524312897,
	"grad_norm": 12.30865478515625,
	"learning_rate": 1.9302325581395353e-05,
	"loss": 0.3431,
	"step": 100
	},
	{
	"epoch": 0.15856236786469344,
	"grad_norm": 14.237386703491211,
	"learning_rate": 1.8949964763918254e-05,
	"loss": 0.3237,
	"step": 150
	},
	{
	"epoch": 0.21141649048625794,
	"grad_norm": 28.253515243530273,
	"learning_rate": 1.8597603946441155e-05,
	"loss": 0.3131,
	"step": 200
	},
	{
	"epoch": 0.2642706131078224,
	"grad_norm": 7.577988624572754,
	"learning_rate": 1.824524312896406e-05,
	"loss": 0.3027,
	"step": 250
	},
	{
	"epoch": 0.3171247357293869,
	"grad_norm": 12.410346031188965,
	"learning_rate": 1.7892882311486964e-05,
	"loss": 0.2873,
	"step": 300
	},
	{
	"epoch": 0.3699788583509514,
	"grad_norm": 17.205244064331055,
	"learning_rate": 1.754052149400987e-05,
	"loss": 0.3037,
	"step": 350
	},
	{
	"epoch": 0.42283298097251587,
	"grad_norm": 15.440715789794922,
	"learning_rate": 1.718816067653277e-05,
	"loss": 0.2388,
	"step": 400
	},
	{
	"epoch": 0.47568710359408034,
	"grad_norm": 18.95528793334961,
	"learning_rate": 1.6835799859055675e-05,
	"loss": 0.2834,
	"step": 450
	},
	{
	"epoch": 0.5285412262156448,
	"grad_norm": 11.796369552612305,
	"learning_rate": 1.6483439041578576e-05,
	"loss": 0.282,
	"step": 500
	},
	{
	"epoch": 0.5813953488372093,
	"grad_norm": 16.309091567993164,
	"learning_rate": 1.613107822410148e-05,
	"loss": 0.2861,
	"step": 550
	},
	{
	"epoch": 0.6342494714587738,
	"grad_norm": 34.3432731628418,
	"learning_rate": 1.5778717406624385e-05,
	"loss": 0.295,
	"step": 600
	},
	{
	"epoch": 0.6871035940803383,
	"grad_norm": 7.3598151206970215,
	"learning_rate": 1.542635658914729e-05,
	"loss": 0.2786,
	"step": 650
	},
	{
	"epoch": 0.7399577167019028,
	"grad_norm": 19.721378326416016,
	"learning_rate": 1.5073995771670191e-05,
	"loss": 0.2627,
	"step": 700
	},
	{
	"epoch": 0.7928118393234672,
	"grad_norm": 6.87978982925415,
	"learning_rate": 1.4721634954193096e-05,
	"loss": 0.274,
	"step": 750
	},
	{
	"epoch": 0.8456659619450317,
	"grad_norm": 23.790388107299805,
	"learning_rate": 1.4369274136715999e-05,
	"loss": 0.2477,
	"step": 800
	},
	{
	"epoch": 0.8985200845665962,
	"grad_norm": 25.269287109375,
	"learning_rate": 1.4016913319238903e-05,
	"loss": 0.2559,
	"step": 850
	},
	{
	"epoch": 0.9513742071881607,
	"grad_norm": 12.499388694763184,
	"learning_rate": 1.3664552501761804e-05,
	"loss": 0.2535,
	"step": 900
	},
	{
	"epoch": 1.0,
	"eval_f1_macro": 0.8913938479590982,
	"eval_f1_micro": 0.8905597326649958,
	"eval_loss": 0.23979686200618744,
	"eval_precision": 0.9089358799454298,
	"eval_recall": 0.872911889944317,
	"eval_runtime": 10.313,
	"eval_samples_per_second": 366.721,
	"eval_steps_per_second": 22.981,
	"step": 946
	},
	{
	"epoch": 1.0042283298097252,
	"grad_norm": 20.737754821777344,
	"learning_rate": 1.3312191684284707e-05,
	"loss": 0.2342,
	"step": 950
	},
	{
	"epoch": 1.0570824524312896,
	"grad_norm": 8.743599891662598,
	"learning_rate": 1.2959830866807612e-05,
	"loss": 0.1932,
	"step": 1000
	},
	{
	"epoch": 1.109936575052854,
	"grad_norm": 15.532188415527344,
	"learning_rate": 1.2607470049330515e-05,
	"loss": 0.1546,
	"step": 1050
	},
	{
	"epoch": 1.1627906976744187,
	"grad_norm": 10.706155776977539,
	"learning_rate": 1.225510923185342e-05,
	"loss": 0.2058,
	"step": 1100
	},
	{
	"epoch": 1.215644820295983,
	"grad_norm": 6.785822868347168,
	"learning_rate": 1.1902748414376322e-05,
	"loss": 0.1603,
	"step": 1150
	},
	{
	"epoch": 1.2684989429175475,
	"grad_norm": 19.18027687072754,
	"learning_rate": 1.1550387596899227e-05,
	"loss": 0.17,
	"step": 1200
	},
	{
	"epoch": 1.3213530655391121,
	"grad_norm": 5.942857265472412,
	"learning_rate": 1.1198026779422128e-05,
	"loss": 0.2369,
	"step": 1250
	},
	{
	"epoch": 1.3742071881606766,
	"grad_norm": 3.4256839752197266,
	"learning_rate": 1.0845665961945033e-05,
	"loss": 0.1843,
	"step": 1300
	},
	{
	"epoch": 1.427061310782241,
	"grad_norm": 21.69367218017578,
	"learning_rate": 1.0493305144467936e-05,
	"loss": 0.1798,
	"step": 1350
	},
	{
	"epoch": 1.4799154334038054,
	"grad_norm": 12.499094009399414,
	"learning_rate": 1.014094432699084e-05,
	"loss": 0.2137,
	"step": 1400
	},
	{
	"epoch": 1.53276955602537,
	"grad_norm": 9.75059700012207,
	"learning_rate": 9.788583509513743e-06,
	"loss": 0.1616,
	"step": 1450
	},
	{
	"epoch": 1.5856236786469344,
	"grad_norm": 16.770835876464844,
	"learning_rate": 9.436222692036646e-06,
	"loss": 0.1711,
	"step": 1500
	},
	{
	"epoch": 1.638477801268499,
	"grad_norm": 7.7109222412109375,
	"learning_rate": 9.083861874559549e-06,
	"loss": 0.1757,
	"step": 1550
	},
	{
	"epoch": 1.6913319238900635,
	"grad_norm": 8.317294120788574,
	"learning_rate": 8.731501057082454e-06,
	"loss": 0.1886,
	"step": 1600
	},
	{
	"epoch": 1.744186046511628,
	"grad_norm": 7.418989181518555,
	"learning_rate": 8.379140239605357e-06,
	"loss": 0.1743,
	"step": 1650
	},
	{
	"epoch": 1.7970401691331923,
	"grad_norm": 15.134026527404785,
	"learning_rate": 8.02677942212826e-06,
	"loss": 0.1829,
	"step": 1700
	},
	{
	"epoch": 1.8498942917547567,
	"grad_norm": 8.40051555633545,
	"learning_rate": 7.674418604651164e-06,
	"loss": 0.1516,
	"step": 1750
	},
	{
	"epoch": 1.9027484143763214,
	"grad_norm": 42.32719039916992,
	"learning_rate": 7.322057787174067e-06,
	"loss": 0.1574,
	"step": 1800
	},
	{
	"epoch": 1.955602536997886,
	"grad_norm": 7.198770046234131,
	"learning_rate": 6.969696969696971e-06,
	"loss": 0.1796,
	"step": 1850
	},
	{
	"epoch": 2.0,
	"eval_f1_macro": 0.9171441852345779,
	"eval_f1_micro": 0.9165967444202048,
	"eval_loss": 0.207748144865036,
	"eval_precision": 0.9397797660013765,
	"eval_recall": 0.8945299705207992,
	"eval_runtime": 10.3145,
	"eval_samples_per_second": 366.667,
	"eval_steps_per_second": 22.977,
	"step": 1892
	},
	{
	"epoch": 2.0084566596194504,
	"grad_norm": 3.685957193374634,
	"learning_rate": 6.6173361522198745e-06,
	"loss": 0.1328,
	"step": 1900
	},
	{
	"epoch": 2.061310782241015,
	"grad_norm": 12.144611358642578,
	"learning_rate": 6.2649753347427766e-06,
	"loss": 0.1201,
	"step": 1950
	},
	{
	"epoch": 2.1141649048625792,
	"grad_norm": 26.261823654174805,
	"learning_rate": 5.91261451726568e-06,
	"loss": 0.1465,
	"step": 2000
	},
	{
	"epoch": 2.1670190274841437,
	"grad_norm": 42.77655029296875,
	"learning_rate": 5.560253699788583e-06,
	"loss": 0.1231,
	"step": 2050
	},
	{
	"epoch": 2.219873150105708,
	"grad_norm": 10.951128959655762,
	"learning_rate": 5.207892882311487e-06,
	"loss": 0.1367,
	"step": 2100
	},
	{
	"epoch": 2.2727272727272725,
	"grad_norm": 12.861650466918945,
	"learning_rate": 4.855532064834391e-06,
	"loss": 0.1056,
	"step": 2150
	},
	{
	"epoch": 2.3255813953488373,
	"grad_norm": 16.26862144470215,
	"learning_rate": 4.5031712473572945e-06,
	"loss": 0.1259,
	"step": 2200
	},
	{
	"epoch": 2.3784355179704018,
	"grad_norm": 11.81278133392334,
	"learning_rate": 4.150810429880197e-06,
	"loss": 0.1214,
	"step": 2250
	},
	{
	"epoch": 2.431289640591966,
	"grad_norm": 1.1252022981643677,
	"learning_rate": 3.798449612403101e-06,
	"loss": 0.1017,
	"step": 2300
	},
	{
	"epoch": 2.4841437632135306,
	"grad_norm": 11.047788619995117,
	"learning_rate": 3.4460887949260045e-06,
	"loss": 0.1263,
	"step": 2350
	},
	{
	"epoch": 2.536997885835095,
	"grad_norm": 16.96929359436035,
	"learning_rate": 3.0937279774489083e-06,
	"loss": 0.0986,
	"step": 2400
	},
	{
	"epoch": 2.58985200845666,
	"grad_norm": 2.476245164871216,
	"learning_rate": 2.741367159971811e-06,
	"loss": 0.1105,
	"step": 2450
	},
	{
	"epoch": 2.6427061310782243,
	"grad_norm": 5.029143810272217,
	"learning_rate": 2.389006342494715e-06,
	"loss": 0.1219,
	"step": 2500
	},
	{
	"epoch": 2.6955602536997887,
	"grad_norm": 16.73661231994629,
	"learning_rate": 2.0366455250176183e-06,
	"loss": 0.1087,
	"step": 2550
	},
	{
	"epoch": 2.748414376321353,
	"grad_norm": 1.3909024000167847,
	"learning_rate": 1.6842847075405216e-06,
	"loss": 0.1118,
	"step": 2600
	},
	{
	"epoch": 2.8012684989429175,
	"grad_norm": 14.585844993591309,
	"learning_rate": 1.3319238900634251e-06,
	"loss": 0.1018,
	"step": 2650
	},
	{
	"epoch": 2.854122621564482,
	"grad_norm": 24.876344680786133,
	"learning_rate": 9.795630725863285e-07,
	"loss": 0.1001,
	"step": 2700
	},
	{
	"epoch": 2.9069767441860463,
	"grad_norm": 28.51801872253418,
	"learning_rate": 6.272022551092319e-07,
	"loss": 0.1004,
	"step": 2750
	},
	{
	"epoch": 2.9598308668076108,
	"grad_norm": 2.746856689453125,
	"learning_rate": 2.748414376321353e-07,
	"loss": 0.1181,
	"step": 2800
	},
	{
	"epoch": 3.0,
	"eval_f1_macro": 0.927417514244305,
	"eval_f1_micro": 0.9269727168763274,
	"eval_loss": 0.2070944607257843,
	"eval_precision": 0.9247066492829205,
	"eval_recall": 0.9292499181133311,
	"eval_runtime": 10.2948,
	"eval_samples_per_second": 367.371,
	"eval_steps_per_second": 23.021,
	"step": 2838
	}
	],
	"logging_steps": 50,
	"max_steps": 2838,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.200759923346432e+16,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}