Upload folder using huggingface_hub

f13e623 verified 2 months ago

15.9 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 10.0,
	"eval_steps": 500,
	"global_step": 7670,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.1303780964797914,
	"grad_norm": 5.5828070640563965,
	"learning_rate": 1.290743155149935e-05,
	"loss": 7.7625,
	"step": 100
	},
	{
	"epoch": 0.2607561929595828,
	"grad_norm": 2.0663061141967773,
	"learning_rate": 2.5945241199478487e-05,
	"loss": 5.9575,
	"step": 200
	},
	{
	"epoch": 0.39113428943937417,
	"grad_norm": 0.9179163575172424,
	"learning_rate": 3.898305084745763e-05,
	"loss": 5.0578,
	"step": 300
	},
	{
	"epoch": 0.5215123859191656,
	"grad_norm": 0.9352315068244934,
	"learning_rate": 5.202086049543677e-05,
	"loss": 4.3731,
	"step": 400
	},
	{
	"epoch": 0.651890482398957,
	"grad_norm": 1.5910133123397827,
	"learning_rate": 6.505867014341591e-05,
	"loss": 4.2998,
	"step": 500
	},
	{
	"epoch": 0.7822685788787483,
	"grad_norm": 1.2363195419311523,
	"learning_rate": 7.809647979139506e-05,
	"loss": 4.2803,
	"step": 600
	},
	{
	"epoch": 0.9126466753585397,
	"grad_norm": 1.3712793588638306,
	"learning_rate": 9.113428943937419e-05,
	"loss": 4.1966,
	"step": 700
	},
	{
	"epoch": 1.0,
	"eval_loss": 3.70353627204895,
	"eval_runtime": 0.5442,
	"eval_samples_per_second": 626.647,
	"eval_steps_per_second": 79.02,
	"step": 767
	},
	{
	"epoch": 1.0430247718383312,
	"grad_norm": 1.1920268535614014,
	"learning_rate": 9.953643343473853e-05,
	"loss": 4.0134,
	"step": 800
	},
	{
	"epoch": 1.1734028683181226,
	"grad_norm": 1.2710912227630615,
	"learning_rate": 9.808778791829639e-05,
	"loss": 3.9779,
	"step": 900
	},
	{
	"epoch": 1.303780964797914,
	"grad_norm": 1.2132948637008667,
	"learning_rate": 9.663914240185426e-05,
	"loss": 3.9291,
	"step": 1000
	},
	{
	"epoch": 1.4341590612777053,
	"grad_norm": 2.312605857849121,
	"learning_rate": 9.519049688541214e-05,
	"loss": 3.9068,
	"step": 1100
	},
	{
	"epoch": 1.5645371577574967,
	"grad_norm": 1.2230041027069092,
	"learning_rate": 9.374185136897002e-05,
	"loss": 3.7321,
	"step": 1200
	},
	{
	"epoch": 1.694915254237288,
	"grad_norm": 2.18503999710083,
	"learning_rate": 9.229320585252789e-05,
	"loss": 3.861,
	"step": 1300
	},
	{
	"epoch": 1.8252933507170797,
	"grad_norm": 1.5787285566329956,
	"learning_rate": 9.084456033608576e-05,
	"loss": 3.7423,
	"step": 1400
	},
	{
	"epoch": 1.9556714471968708,
	"grad_norm": 1.13662588596344,
	"learning_rate": 8.939591481964363e-05,
	"loss": 3.5921,
	"step": 1500
	},
	{
	"epoch": 2.0,
	"eval_loss": 3.4353556632995605,
	"eval_runtime": 0.5399,
	"eval_samples_per_second": 631.585,
	"eval_steps_per_second": 79.643,
	"step": 1534
	},
	{
	"epoch": 2.0860495436766624,
	"grad_norm": 1.2315106391906738,
	"learning_rate": 8.79472693032015e-05,
	"loss": 3.6158,
	"step": 1600
	},
	{
	"epoch": 2.2164276401564535,
	"grad_norm": 1.7532989978790283,
	"learning_rate": 8.649862378675939e-05,
	"loss": 3.5386,
	"step": 1700
	},
	{
	"epoch": 2.346805736636245,
	"grad_norm": 1.2041728496551514,
	"learning_rate": 8.504997827031726e-05,
	"loss": 3.6382,
	"step": 1800
	},
	{
	"epoch": 2.4771838331160367,
	"grad_norm": 1.6889125108718872,
	"learning_rate": 8.360133275387513e-05,
	"loss": 3.7501,
	"step": 1900
	},
	{
	"epoch": 2.607561929595828,
	"grad_norm": 1.140479564666748,
	"learning_rate": 8.2152687237433e-05,
	"loss": 3.5677,
	"step": 2000
	},
	{
	"epoch": 2.737940026075619,
	"grad_norm": 1.1325074434280396,
	"learning_rate": 8.070404172099087e-05,
	"loss": 3.6123,
	"step": 2100
	},
	{
	"epoch": 2.8683181225554106,
	"grad_norm": 2.513603687286377,
	"learning_rate": 7.925539620454874e-05,
	"loss": 3.4136,
	"step": 2200
	},
	{
	"epoch": 2.9986962190352022,
	"grad_norm": 1.8777894973754883,
	"learning_rate": 7.780675068810663e-05,
	"loss": 3.5583,
	"step": 2300
	},
	{
	"epoch": 3.0,
	"eval_loss": 3.3344805240631104,
	"eval_runtime": 0.5422,
	"eval_samples_per_second": 628.862,
	"eval_steps_per_second": 79.299,
	"step": 2301
	},
	{
	"epoch": 3.1290743155149934,
	"grad_norm": 1.243633508682251,
	"learning_rate": 7.63581051716645e-05,
	"loss": 3.3331,
	"step": 2400
	},
	{
	"epoch": 3.259452411994785,
	"grad_norm": 1.1011683940887451,
	"learning_rate": 7.490945965522237e-05,
	"loss": 3.3973,
	"step": 2500
	},
	{
	"epoch": 3.389830508474576,
	"grad_norm": 1.1808488368988037,
	"learning_rate": 7.346081413878024e-05,
	"loss": 3.5169,
	"step": 2600
	},
	{
	"epoch": 3.5202086049543677,
	"grad_norm": 1.0594677925109863,
	"learning_rate": 7.201216862233811e-05,
	"loss": 3.3933,
	"step": 2700
	},
	{
	"epoch": 3.6505867014341593,
	"grad_norm": 1.4269371032714844,
	"learning_rate": 7.056352310589598e-05,
	"loss": 3.2929,
	"step": 2800
	},
	{
	"epoch": 3.7809647979139505,
	"grad_norm": 1.1755293607711792,
	"learning_rate": 6.911487758945387e-05,
	"loss": 3.3259,
	"step": 2900
	},
	{
	"epoch": 3.9113428943937416,
	"grad_norm": 1.0655115842819214,
	"learning_rate": 6.766623207301174e-05,
	"loss": 3.4441,
	"step": 3000
	},
	{
	"epoch": 4.0,
	"eval_loss": 3.2687411308288574,
	"eval_runtime": 0.5471,
	"eval_samples_per_second": 623.262,
	"eval_steps_per_second": 78.593,
	"step": 3068
	},
	{
	"epoch": 4.041720990873533,
	"grad_norm": 1.196297287940979,
	"learning_rate": 6.621758655656961e-05,
	"loss": 3.2682,
	"step": 3100
	},
	{
	"epoch": 4.172099087353325,
	"grad_norm": 3.8496177196502686,
	"learning_rate": 6.476894104012748e-05,
	"loss": 3.3519,
	"step": 3200
	},
	{
	"epoch": 4.302477183833116,
	"grad_norm": 1.2503979206085205,
	"learning_rate": 6.332029552368535e-05,
	"loss": 3.2477,
	"step": 3300
	},
	{
	"epoch": 4.432855280312907,
	"grad_norm": 2.556914806365967,
	"learning_rate": 6.187165000724323e-05,
	"loss": 3.3618,
	"step": 3400
	},
	{
	"epoch": 4.563233376792699,
	"grad_norm": 1.4650604724884033,
	"learning_rate": 6.04230044908011e-05,
	"loss": 3.3299,
	"step": 3500
	},
	{
	"epoch": 4.69361147327249,
	"grad_norm": 1.1140531301498413,
	"learning_rate": 5.897435897435898e-05,
	"loss": 3.2246,
	"step": 3600
	},
	{
	"epoch": 4.823989569752282,
	"grad_norm": 2.14631724357605,
	"learning_rate": 5.752571345791685e-05,
	"loss": 3.2511,
	"step": 3700
	},
	{
	"epoch": 4.9543676662320735,
	"grad_norm": 1.8546875715255737,
	"learning_rate": 5.6077067941474724e-05,
	"loss": 3.2367,
	"step": 3800
	},
	{
	"epoch": 5.0,
	"eval_loss": 3.2330377101898193,
	"eval_runtime": 0.5435,
	"eval_samples_per_second": 627.363,
	"eval_steps_per_second": 79.11,
	"step": 3835
	},
	{
	"epoch": 5.084745762711864,
	"grad_norm": 1.1964752674102783,
	"learning_rate": 5.46284224250326e-05,
	"loss": 3.1982,
	"step": 3900
	},
	{
	"epoch": 5.215123859191656,
	"grad_norm": 1.1956731081008911,
	"learning_rate": 5.3179776908590473e-05,
	"loss": 3.1122,
	"step": 4000
	},
	{
	"epoch": 5.345501955671447,
	"grad_norm": 1.7757279872894287,
	"learning_rate": 5.1731131392148345e-05,
	"loss": 3.1673,
	"step": 4100
	},
	{
	"epoch": 5.475880052151239,
	"grad_norm": 1.4564849138259888,
	"learning_rate": 5.028248587570622e-05,
	"loss": 3.2143,
	"step": 4200
	},
	{
	"epoch": 5.60625814863103,
	"grad_norm": 1.9355357885360718,
	"learning_rate": 4.883384035926409e-05,
	"loss": 3.1056,
	"step": 4300
	},
	{
	"epoch": 5.736636245110821,
	"grad_norm": 1.1551567316055298,
	"learning_rate": 4.738519484282196e-05,
	"loss": 3.1004,
	"step": 4400
	},
	{
	"epoch": 5.867014341590613,
	"grad_norm": 1.4927942752838135,
	"learning_rate": 4.593654932637984e-05,
	"loss": 3.0854,
	"step": 4500
	},
	{
	"epoch": 5.9973924380704045,
	"grad_norm": 2.1001391410827637,
	"learning_rate": 4.448790380993771e-05,
	"loss": 3.1018,
	"step": 4600
	},
	{
	"epoch": 6.0,
	"eval_loss": 3.213176727294922,
	"eval_runtime": 0.5419,
	"eval_samples_per_second": 629.279,
	"eval_steps_per_second": 79.352,
	"step": 4602
	},
	{
	"epoch": 6.127770534550195,
	"grad_norm": 2.20295786857605,
	"learning_rate": 4.303925829349558e-05,
	"loss": 3.0204,
	"step": 4700
	},
	{
	"epoch": 6.258148631029987,
	"grad_norm": 1.4948354959487915,
	"learning_rate": 4.159061277705346e-05,
	"loss": 3.089,
	"step": 4800
	},
	{
	"epoch": 6.388526727509778,
	"grad_norm": 1.5617390871047974,
	"learning_rate": 4.014196726061133e-05,
	"loss": 3.0053,
	"step": 4900
	},
	{
	"epoch": 6.51890482398957,
	"grad_norm": 1.6474759578704834,
	"learning_rate": 3.86933217441692e-05,
	"loss": 3.1227,
	"step": 5000
	},
	{
	"epoch": 6.6492829204693615,
	"grad_norm": 1.5542720556259155,
	"learning_rate": 3.724467622772708e-05,
	"loss": 3.0354,
	"step": 5100
	},
	{
	"epoch": 6.779661016949152,
	"grad_norm": 1.8775848150253296,
	"learning_rate": 3.579603071128495e-05,
	"loss": 3.0221,
	"step": 5200
	},
	{
	"epoch": 6.910039113428944,
	"grad_norm": 1.8488330841064453,
	"learning_rate": 3.434738519484282e-05,
	"loss": 3.0161,
	"step": 5300
	},
	{
	"epoch": 7.0,
	"eval_loss": 3.2017745971679688,
	"eval_runtime": 0.5395,
	"eval_samples_per_second": 632.058,
	"eval_steps_per_second": 79.702,
	"step": 5369
	},
	{
	"epoch": 7.040417209908735,
	"grad_norm": 1.7003470659255981,
	"learning_rate": 3.28987396784007e-05,
	"loss": 3.0074,
	"step": 5400
	},
	{
	"epoch": 7.170795306388527,
	"grad_norm": 1.5171571969985962,
	"learning_rate": 3.145009416195857e-05,
	"loss": 2.9606,
	"step": 5500
	},
	{
	"epoch": 7.301173402868318,
	"grad_norm": 2.7157018184661865,
	"learning_rate": 3.0001448645516445e-05,
	"loss": 2.9081,
	"step": 5600
	},
	{
	"epoch": 7.431551499348109,
	"grad_norm": 1.5487765073776245,
	"learning_rate": 2.855280312907432e-05,
	"loss": 3.0004,
	"step": 5700
	},
	{
	"epoch": 7.561929595827901,
	"grad_norm": 3.577585220336914,
	"learning_rate": 2.710415761263219e-05,
	"loss": 2.9776,
	"step": 5800
	},
	{
	"epoch": 7.6923076923076925,
	"grad_norm": 1.4749557971954346,
	"learning_rate": 2.5655512096190066e-05,
	"loss": 2.8426,
	"step": 5900
	},
	{
	"epoch": 7.822685788787483,
	"grad_norm": 1.6603304147720337,
	"learning_rate": 2.4206866579747937e-05,
	"loss": 3.068,
	"step": 6000
	},
	{
	"epoch": 7.953063885267275,
	"grad_norm": 1.6099046468734741,
	"learning_rate": 2.275822106330581e-05,
	"loss": 3.0699,
	"step": 6100
	},
	{
	"epoch": 8.0,
	"eval_loss": 3.1977951526641846,
	"eval_runtime": 0.5473,
	"eval_samples_per_second": 623.018,
	"eval_steps_per_second": 78.562,
	"step": 6136
	},
	{
	"epoch": 8.083441981747066,
	"grad_norm": 1.4448668956756592,
	"learning_rate": 2.1309575546863683e-05,
	"loss": 3.0584,
	"step": 6200
	},
	{
	"epoch": 8.213820078226858,
	"grad_norm": 1.8011598587036133,
	"learning_rate": 1.9860930030421558e-05,
	"loss": 2.924,
	"step": 6300
	},
	{
	"epoch": 8.34419817470665,
	"grad_norm": 1.7278883457183838,
	"learning_rate": 1.841228451397943e-05,
	"loss": 2.9542,
	"step": 6400
	},
	{
	"epoch": 8.474576271186441,
	"grad_norm": 1.625506043434143,
	"learning_rate": 1.6963638997537304e-05,
	"loss": 2.8727,
	"step": 6500
	},
	{
	"epoch": 8.604954367666233,
	"grad_norm": 1.808686375617981,
	"learning_rate": 1.551499348109518e-05,
	"loss": 2.9608,
	"step": 6600
	},
	{
	"epoch": 8.735332464146023,
	"grad_norm": 2.093956708908081,
	"learning_rate": 1.4066347964653052e-05,
	"loss": 2.9101,
	"step": 6700
	},
	{
	"epoch": 8.865710560625814,
	"grad_norm": 2.1681623458862305,
	"learning_rate": 1.2617702448210925e-05,
	"loss": 3.0384,
	"step": 6800
	},
	{
	"epoch": 8.996088657105606,
	"grad_norm": 1.7489618062973022,
	"learning_rate": 1.1169056931768796e-05,
	"loss": 2.8755,
	"step": 6900
	},
	{
	"epoch": 9.0,
	"eval_loss": 3.1901769638061523,
	"eval_runtime": 0.554,
	"eval_samples_per_second": 615.522,
	"eval_steps_per_second": 77.617,
	"step": 6903
	},
	{
	"epoch": 9.126466753585397,
	"grad_norm": 1.2608046531677246,
	"learning_rate": 9.72041141532667e-06,
	"loss": 2.8802,
	"step": 7000
	},
	{
	"epoch": 9.256844850065189,
	"grad_norm": 2.597111940383911,
	"learning_rate": 8.271765898884544e-06,
	"loss": 2.8229,
	"step": 7100
	},
	{
	"epoch": 9.38722294654498,
	"grad_norm": 1.8257884979248047,
	"learning_rate": 6.823120382442416e-06,
	"loss": 2.958,
	"step": 7200
	},
	{
	"epoch": 9.517601043024772,
	"grad_norm": 2.310960292816162,
	"learning_rate": 5.37447486600029e-06,
	"loss": 2.807,
	"step": 7300
	},
	{
	"epoch": 9.647979139504564,
	"grad_norm": 1.5776140689849854,
	"learning_rate": 3.925829349558164e-06,
	"loss": 2.9398,
	"step": 7400
	},
	{
	"epoch": 9.778357235984355,
	"grad_norm": 1.8965390920639038,
	"learning_rate": 2.4771838331160366e-06,
	"loss": 2.842,
	"step": 7500
	},
	{
	"epoch": 9.908735332464147,
	"grad_norm": 1.6865416765213013,
	"learning_rate": 1.0285383166739098e-06,
	"loss": 2.8051,
	"step": 7600
	},
	{
	"epoch": 10.0,
	"eval_loss": 3.1988234519958496,
	"eval_runtime": 0.5524,
	"eval_samples_per_second": 617.283,
	"eval_steps_per_second": 77.839,
	"step": 7670
	}
	],
	"logging_steps": 100,
	"max_steps": 7670,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 10,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1023067594874880.0,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}