Add files using upload-large-folder tool

Browse files

Files changed (3) hide show

model-00001-of-00002.safetensors +2 -2
model.safetensors.index.json +2 -128
tokenizer_config.json +1 -0

model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c41e086a492dd78167ed830094ddfc38fdb5766e500be38e7361f84eaa9dfbaf
-size 3796838947

 version https://git-lfs.github.com/spec/v1
+oid sha256:55ae5326e43f917cf839dfdd4f9790dd24a992a8e70353a3707916cb7f8e4d21
+size 3752083673

model.safetensors.index.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "metadata": {
-        "total_size": 6109102676,
-        "total_parameters": 7518068992
     },
     "weight_map": {
         "language_model.model.embed_tokens.biases": "model-00001-of-00002.safetensors",
@@ -626,10 +626,6 @@
         "language_model.model.layers.24.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.24.post_per_layer_input_norm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.24.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.24.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.24.self_attn.k_proj.biases": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.24.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.24.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.24.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.24.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.24.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
@@ -637,9 +633,6 @@
         "language_model.model.layers.24.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.24.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.24.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.24.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.24.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.24.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.25.input_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.25.layer_scalar": "model-00001-of-00002.safetensors",
         "language_model.model.layers.25.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
@@ -661,10 +654,6 @@
         "language_model.model.layers.25.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.25.post_per_layer_input_norm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.25.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.25.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.25.self_attn.k_proj.biases": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.25.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.25.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.25.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.25.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.25.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
@@ -672,9 +661,6 @@
         "language_model.model.layers.25.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.25.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.25.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.25.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.25.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.25.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.26.input_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.26.layer_scalar": "model-00001-of-00002.safetensors",
         "language_model.model.layers.26.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
@@ -696,10 +682,6 @@
         "language_model.model.layers.26.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.26.post_per_layer_input_norm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.26.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.26.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.26.self_attn.k_proj.biases": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.26.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.26.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.26.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.26.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.26.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
@@ -707,9 +689,6 @@
         "language_model.model.layers.26.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.26.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.26.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.26.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.26.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.26.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.27.input_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.27.layer_scalar": "model-00001-of-00002.safetensors",
         "language_model.model.layers.27.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
@@ -731,10 +710,6 @@
         "language_model.model.layers.27.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.27.post_per_layer_input_norm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.27.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.27.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.27.self_attn.k_proj.biases": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.27.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.27.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.27.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.27.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.27.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
@@ -742,9 +717,6 @@
         "language_model.model.layers.27.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.27.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.27.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.27.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.27.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.27.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.28.input_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.28.layer_scalar": "model-00001-of-00002.safetensors",
         "language_model.model.layers.28.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
@@ -766,10 +738,6 @@
         "language_model.model.layers.28.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.28.post_per_layer_input_norm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.28.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.28.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.28.self_attn.k_proj.biases": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.28.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.28.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.28.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.28.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.28.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
@@ -777,9 +745,6 @@
         "language_model.model.layers.28.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.28.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.28.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.28.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.28.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.28.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.29.input_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.29.layer_scalar": "model-00001-of-00002.safetensors",
         "language_model.model.layers.29.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
@@ -801,10 +766,6 @@
         "language_model.model.layers.29.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.29.post_per_layer_input_norm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.29.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.29.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.29.self_attn.k_proj.biases": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.29.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.29.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.29.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.29.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.29.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
@@ -812,9 +773,6 @@
         "language_model.model.layers.29.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.29.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.29.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.29.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.29.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.29.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.3.layer_scalar": "model-00001-of-00002.safetensors",
         "language_model.model.layers.3.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
@@ -871,10 +829,6 @@
         "language_model.model.layers.30.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.30.post_per_layer_input_norm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.30.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.30.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.30.self_attn.k_proj.biases": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.30.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.30.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.30.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.30.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.30.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
@@ -882,9 +836,6 @@
         "language_model.model.layers.30.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.30.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.30.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.30.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.30.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.30.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.31.input_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.31.layer_scalar": "model-00001-of-00002.safetensors",
         "language_model.model.layers.31.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
@@ -906,10 +857,6 @@
         "language_model.model.layers.31.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.31.post_per_layer_input_norm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.31.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.31.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.31.self_attn.k_proj.biases": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.31.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.31.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.31.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.31.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.31.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
@@ -917,9 +864,6 @@
         "language_model.model.layers.31.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.31.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.31.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.31.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.31.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.31.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.32.input_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.32.layer_scalar": "model-00001-of-00002.safetensors",
         "language_model.model.layers.32.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
@@ -941,10 +885,6 @@
         "language_model.model.layers.32.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.32.post_per_layer_input_norm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.32.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.32.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.32.self_attn.k_proj.biases": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.32.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.32.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.32.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.32.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.32.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
@@ -952,9 +892,6 @@
         "language_model.model.layers.32.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.32.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.32.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.32.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.32.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.32.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.33.input_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.33.layer_scalar": "model-00001-of-00002.safetensors",
         "language_model.model.layers.33.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
@@ -976,10 +913,6 @@
         "language_model.model.layers.33.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.33.post_per_layer_input_norm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.33.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.33.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.33.self_attn.k_proj.biases": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.33.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.33.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.33.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.33.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.33.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
@@ -987,9 +920,6 @@
         "language_model.model.layers.33.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.33.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.33.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.33.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.33.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.33.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.34.input_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.34.layer_scalar": "model-00001-of-00002.safetensors",
         "language_model.model.layers.34.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
@@ -1011,10 +941,6 @@
         "language_model.model.layers.34.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.34.post_per_layer_input_norm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.34.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.34.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.34.self_attn.k_proj.biases": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.34.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.34.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.34.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.34.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.34.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
@@ -1022,9 +948,6 @@
         "language_model.model.layers.34.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.34.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.34.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.34.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.34.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.34.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.35.input_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.35.layer_scalar": "model-00001-of-00002.safetensors",
         "language_model.model.layers.35.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
@@ -1046,10 +969,6 @@
         "language_model.model.layers.35.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.35.post_per_layer_input_norm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.35.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.35.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.35.self_attn.k_proj.biases": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.35.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.35.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.35.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.35.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.35.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
@@ -1057,9 +976,6 @@
         "language_model.model.layers.35.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.35.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.35.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.35.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.35.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.35.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.36.input_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.36.layer_scalar": "model-00001-of-00002.safetensors",
         "language_model.model.layers.36.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
@@ -1081,10 +997,6 @@
         "language_model.model.layers.36.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.36.post_per_layer_input_norm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.36.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.36.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.36.self_attn.k_proj.biases": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.36.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.36.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.36.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.36.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.36.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
@@ -1092,9 +1004,6 @@
         "language_model.model.layers.36.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.36.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.36.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.36.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.36.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.36.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.37.input_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.37.layer_scalar": "model-00001-of-00002.safetensors",
         "language_model.model.layers.37.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
@@ -1116,10 +1025,6 @@
         "language_model.model.layers.37.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.37.post_per_layer_input_norm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.37.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.37.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.37.self_attn.k_proj.biases": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.37.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.37.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.37.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.37.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.37.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
@@ -1127,9 +1032,6 @@
         "language_model.model.layers.37.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.37.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.37.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.37.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.37.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.37.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.38.input_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.38.layer_scalar": "model-00001-of-00002.safetensors",
         "language_model.model.layers.38.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
@@ -1151,10 +1053,6 @@
         "language_model.model.layers.38.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.38.post_per_layer_input_norm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.38.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.38.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.38.self_attn.k_proj.biases": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.38.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.38.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.38.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.38.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.38.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
@@ -1162,9 +1060,6 @@
         "language_model.model.layers.38.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.38.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.38.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.38.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.38.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.38.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.39.input_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.39.layer_scalar": "model-00001-of-00002.safetensors",
         "language_model.model.layers.39.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
@@ -1186,10 +1081,6 @@
         "language_model.model.layers.39.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.39.post_per_layer_input_norm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.39.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.39.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.39.self_attn.k_proj.biases": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.39.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.39.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.39.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.39.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.39.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
@@ -1197,9 +1088,6 @@
         "language_model.model.layers.39.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.39.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.39.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.39.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.39.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.39.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.4.layer_scalar": "model-00001-of-00002.safetensors",
         "language_model.model.layers.4.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
@@ -1256,10 +1144,6 @@
         "language_model.model.layers.40.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.40.post_per_layer_input_norm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.40.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.40.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.40.self_attn.k_proj.biases": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.40.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.40.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.40.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.40.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.40.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
@@ -1267,9 +1151,6 @@
         "language_model.model.layers.40.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.40.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.40.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.40.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.40.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.40.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.41.input_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.41.layer_scalar": "model-00001-of-00002.safetensors",
         "language_model.model.layers.41.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
@@ -1291,10 +1172,6 @@
         "language_model.model.layers.41.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.41.post_per_layer_input_norm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.41.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.41.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.41.self_attn.k_proj.biases": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.41.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.41.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.41.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.41.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.41.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
@@ -1302,9 +1179,6 @@
         "language_model.model.layers.41.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.41.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.41.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.41.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.41.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
-        "language_model.model.layers.41.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.5.layer_scalar": "model-00001-of-00002.safetensors",
         "language_model.model.layers.5.mlp.down_proj.biases": "model-00001-of-00002.safetensors",

 {
     "metadata": {
+        "total_size": 6064363604,
+        "total_parameters": 7463013376
     },
     "weight_map": {
         "language_model.model.embed_tokens.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.24.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.24.post_per_layer_input_norm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.24.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.24.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.24.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.24.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.24.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.24.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.24.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.25.input_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.25.layer_scalar": "model-00001-of-00002.safetensors",
         "language_model.model.layers.25.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.25.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.25.post_per_layer_input_norm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.25.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.25.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.25.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.25.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.25.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.25.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.25.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.26.input_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.26.layer_scalar": "model-00001-of-00002.safetensors",
         "language_model.model.layers.26.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.26.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.26.post_per_layer_input_norm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.26.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.26.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.26.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.26.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.26.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.26.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.26.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.27.input_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.27.layer_scalar": "model-00001-of-00002.safetensors",
         "language_model.model.layers.27.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.27.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.27.post_per_layer_input_norm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.27.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.27.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.27.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.27.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.27.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.27.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.27.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.28.input_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.28.layer_scalar": "model-00001-of-00002.safetensors",
         "language_model.model.layers.28.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.28.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.28.post_per_layer_input_norm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.28.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.28.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.28.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.28.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.28.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.28.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.28.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.29.input_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.29.layer_scalar": "model-00001-of-00002.safetensors",
         "language_model.model.layers.29.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.29.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.29.post_per_layer_input_norm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.29.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.29.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.29.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.29.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.29.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.29.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.29.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.3.layer_scalar": "model-00001-of-00002.safetensors",
         "language_model.model.layers.3.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.30.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.30.post_per_layer_input_norm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.30.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.30.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.30.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.30.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.30.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.30.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.30.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.31.input_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.31.layer_scalar": "model-00001-of-00002.safetensors",
         "language_model.model.layers.31.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.31.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.31.post_per_layer_input_norm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.31.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.31.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.31.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.31.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.31.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.31.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.31.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.32.input_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.32.layer_scalar": "model-00001-of-00002.safetensors",
         "language_model.model.layers.32.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.32.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.32.post_per_layer_input_norm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.32.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.32.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.32.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.32.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.32.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.32.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.32.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.33.input_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.33.layer_scalar": "model-00001-of-00002.safetensors",
         "language_model.model.layers.33.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.33.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.33.post_per_layer_input_norm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.33.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.33.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.33.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.33.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.33.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.33.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.33.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.34.input_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.34.layer_scalar": "model-00001-of-00002.safetensors",
         "language_model.model.layers.34.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.34.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.34.post_per_layer_input_norm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.34.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.34.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.34.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.34.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.34.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.34.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.34.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.35.input_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.35.layer_scalar": "model-00001-of-00002.safetensors",
         "language_model.model.layers.35.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.35.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.35.post_per_layer_input_norm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.35.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.35.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.35.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.35.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.35.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.35.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.35.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.36.input_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.36.layer_scalar": "model-00001-of-00002.safetensors",
         "language_model.model.layers.36.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.36.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.36.post_per_layer_input_norm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.36.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.36.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.36.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.36.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.36.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.36.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.36.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.37.input_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.37.layer_scalar": "model-00001-of-00002.safetensors",
         "language_model.model.layers.37.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.37.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.37.post_per_layer_input_norm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.37.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.37.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.37.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.37.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.37.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.37.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.37.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.38.input_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.38.layer_scalar": "model-00001-of-00002.safetensors",
         "language_model.model.layers.38.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.38.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.38.post_per_layer_input_norm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.38.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.38.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.38.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.38.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.38.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.38.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.38.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.39.input_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.39.layer_scalar": "model-00001-of-00002.safetensors",
         "language_model.model.layers.39.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.39.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.39.post_per_layer_input_norm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.39.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.39.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.39.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.39.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.39.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.39.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.39.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.4.layer_scalar": "model-00001-of-00002.safetensors",
         "language_model.model.layers.4.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.40.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.40.post_per_layer_input_norm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.40.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.40.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.40.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.40.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.40.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.40.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.40.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.41.input_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.41.layer_scalar": "model-00001-of-00002.safetensors",
         "language_model.model.layers.41.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.41.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.41.post_per_layer_input_norm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.41.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.41.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.41.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.41.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.41.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
         "language_model.model.layers.41.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
         "language_model.model.layers.41.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
         "language_model.model.layers.5.layer_scalar": "model-00001-of-00002.safetensors",
         "language_model.model.layers.5.mlp.down_proj.biases": "model-00001-of-00002.safetensors",

tokenizer_config.json CHANGED Viewed

@@ -18,6 +18,7 @@
   ],
   "image_token": "<|image|>",
   "is_local": true,
   "mask_token": "<mask>",
   "model_max_length": 1000000000000000019884624838656,
   "model_specific_special_tokens": {

   ],
   "image_token": "<|image|>",
   "is_local": true,
+  "local_files_only": false,
   "mask_token": "<mask>",
   "model_max_length": 1000000000000000019884624838656,
   "model_specific_special_tokens": {