add-missing-configs-and-vae-safetensors (#1)

- Add model_index, submodule configs, VAE diffusion safetensors (b0951622340ac0f56ad28b30af5950e97351df01)

Co-authored-by: Wang Zhipeng <princepride@users.noreply.huggingface.co>

Files changed (8) hide show

audio_vae/config.json +4 -0
model_index.json +51 -0
sr/config.json +19 -0
text_encoder/.gitattributes +36 -0
text_encoder/config.json +8 -7
transformer/config.json +15 -0
vae/config.json +125 -0
vae/diffusion_pytorch_model.safetensors +3 -0

audio_vae/config.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "_class_name": "SAAudioFeatureExtractor",
+  "model_type": "sa_audio_feature_extractor"
+}

model_index.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "_class_name": "MagiHumanPipeline",
+  "_diffusers_version": "0.37.0.dev0",
+  "transformer": [
+    "magi_human",
+    "DiTModel"
+  ],
+  "sr": [
+    "magi_human",
+    "DiTModel"
+  ],
+  "audio_vae": [
+    "magi_human",
+    "SAAudioFeatureExtractor"
+  ],
+  "text_encoder": [
+    "transformers",
+    "T5GemmaForCausalLM"
+  ],
+  "vae": [
+    "diffusers",
+    "AutoencoderKLWan"
+  ],
+  "fps": 25,
+  "num_inference_steps": 8,
+  "video_txt_guidance_scale": 5.0,
+  "audio_txt_guidance_scale": 5.0,
+  "sr_video_txt_guidance_scale": 3.5,
+  "shift": 5.0,
+  "cfg_number": 1,
+  "sr_cfg_number": 2,
+  "noise_value": 220,
+  "use_cfg_trick": true,
+  "cfg_trick_start_frame": 13,
+  "cfg_trick_value": 2.0,
+  "using_sde_flag": false,
+  "sr_audio_noise_scale": 0.7,
+  "t5_gemma_target_length": 640,
+  "vae_stride": [4, 16, 16],
+  "z_dim": 48,
+  "patch_size": [1, 2, 2],
+  "data_proxy": {
+    "t_patch_size": 1,
+    "patch_size": 2,
+    "frame_receptive_field": 11,
+    "spatial_rope_interpolation": "extra",
+    "ref_audio_offset": 1000,
+    "text_offset": 0,
+    "coords_style": "v2"
+  }
+}

sr/config.json ADDED Viewed

	@@ -0,0 +1,19 @@

+{
+    "num_layers": 40,
+    "hidden_size": 5120,
+    "head_dim": 128,
+    "num_query_groups": 8,
+    "video_in_channels": 192,
+    "audio_in_channels": 64,
+    "text_in_channels": 3584,
+    "checkpoint_qk_layernorm_rope": false,
+    "mm_layers": [0, 1, 2, 3, 36, 37, 38, 39],
+    "local_attn_layers": [
+        0, 1, 2, 4, 5, 6, 8, 9, 10, 12, 13, 14,
+        16, 17, 18, 20, 21, 22, 24, 25, 26, 28, 29, 30,
+        32, 33, 34, 35, 36, 37, 38, 39
+    ],
+    "enable_attn_gating": true,
+    "gelu7_layers": [0, 1, 2, 3],
+    "post_norm_layers": []
+}

text_encoder/.gitattributes ADDED Viewed

	@@ -0,0 +1,36 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

text_encoder/config.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "architectures": [
     "T5GemmaForConditionalGeneration"
   ],
   "classifier_dropout_rate": 0.0,
   "decoder": {
     "attention_bias": false,
@@ -12,6 +12,7 @@
     "classifier_dropout_rate": 0.0,
     "cross_attention_hidden_size": 3584,
     "dropout_rate": 0.0,
     "final_logit_softcapping": 30.0,
     "head_dim": 256,
     "hidden_activation": "gelu_pytorch_tanh",
@@ -72,17 +73,18 @@
     "rms_norm_eps": 1e-06,
     "rope_theta": 10000.0,
     "sliding_window": 4096,
-    "torch_dtype": "bfloat16",
     "use_cache": true,
     "vocab_size": 256000
   },
   "dropout_rate": 0.0,
   "encoder": {
     "attention_bias": false,
     "attention_dropout": 0.0,
     "attn_logit_softcapping": 50.0,
     "classifier_dropout_rate": 0.0,
     "dropout_rate": 0.0,
     "final_logit_softcapping": 30.0,
     "head_dim": 256,
     "hidden_activation": "gelu_pytorch_tanh",
@@ -142,7 +144,6 @@
     "rms_norm_eps": 1e-06,
     "rope_theta": 10000.0,
     "sliding_window": 4096,
-    "torch_dtype": "bfloat16",
     "use_cache": true,
     "vocab_size": 256000
   },
@@ -154,7 +155,7 @@
   "is_encoder_decoder": true,
   "model_type": "t5gemma",
   "pad_token_id": 0,
-  "torch_dtype": "bfloat16",
-  "transformers_version": "4.53.0.dev0",
-  "use_cache": true
 }

 {
   "architectures": [
     "T5GemmaForConditionalGeneration"
   ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 2,
   "classifier_dropout_rate": 0.0,
   "decoder": {
     "attention_bias": false,
     "classifier_dropout_rate": 0.0,
     "cross_attention_hidden_size": 3584,
     "dropout_rate": 0.0,
+    "dtype": "bfloat16",
     "final_logit_softcapping": 30.0,
     "head_dim": 256,
     "hidden_activation": "gelu_pytorch_tanh",
     "rms_norm_eps": 1e-06,
     "rope_theta": 10000.0,
     "sliding_window": 4096,
     "use_cache": true,
     "vocab_size": 256000
   },
   "dropout_rate": 0.0,
+  "dtype": "bfloat16",
   "encoder": {
     "attention_bias": false,
     "attention_dropout": 0.0,
     "attn_logit_softcapping": 50.0,
     "classifier_dropout_rate": 0.0,
     "dropout_rate": 0.0,
+    "dtype": "bfloat16",
     "final_logit_softcapping": 30.0,
     "head_dim": 256,
     "hidden_activation": "gelu_pytorch_tanh",
     "rms_norm_eps": 1e-06,
     "rope_theta": 10000.0,
     "sliding_window": 4096,
     "use_cache": true,
     "vocab_size": 256000
   },
   "is_encoder_decoder": true,
   "model_type": "t5gemma",
   "pad_token_id": 0,
+  "transformers_version": "4.57.6",
+  "use_cache": true,
+  "vocab_size": 256000
 }

transformer/config.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "num_layers": 40,
+    "hidden_size": 5120,
+    "head_dim": 128,
+    "num_query_groups": 8,
+    "video_in_channels": 192,
+    "audio_in_channels": 64,
+    "text_in_channels": 3584,
+    "checkpoint_qk_layernorm_rope": false,
+    "mm_layers": [0, 1, 2, 3, 36, 37, 38, 39],
+    "local_attn_layers": [],
+    "enable_attn_gating": true,
+    "gelu7_layers": [0, 1, 2, 3],
+    "post_norm_layers": []
+}

vae/config.json ADDED Viewed

	@@ -0,0 +1,125 @@

+{
+  "base_dim": 160,
+  "decoder_base_dim": 256,
+  "z_dim": 48,
+  "dim_mult": [
+    1,
+    2,
+    4,
+    4
+  ],
+  "num_res_blocks": 2,
+  "attn_scales": [],
+  "temperal_downsample": [
+    false,
+    true,
+    true
+  ],
+  "dropout": 0.0,
+  "latents_mean": [
+    -0.2289,
+    -0.0052,
+    -0.1323,
+    -0.2339,
+    -0.2799,
+    0.0174,
+    0.1838,
+    0.1557,
+    -0.1382,
+    0.0542,
+    0.2813,
+    0.0891,
+    0.157,
+    -0.0098,
+    0.0375,
+    -0.1825,
+    -0.2246,
+    -0.1207,
+    -0.0698,
+    0.5109,
+    0.2665,
+    -0.2108,
+    -0.2158,
+    0.2502,
+    -0.2055,
+    -0.0322,
+    0.1109,
+    0.1567,
+    -0.0729,
+    0.0899,
+    -0.2799,
+    -0.123,
+    -0.0313,
+    -0.1649,
+    0.0117,
+    0.0723,
+    -0.2839,
+    -0.2083,
+    -0.052,
+    0.3748,
+    0.0152,
+    0.1957,
+    0.1433,
+    -0.2944,
+    0.3573,
+    -0.0548,
+    -0.1681,
+    -0.0667
+  ],
+  "latents_std": [
+    0.4765,
+    1.0364,
+    0.4514,
+    1.1677,
+    0.5313,
+    0.499,
+    0.4818,
+    0.5013,
+    0.8158,
+    1.0344,
+    0.5894,
+    1.0901,
+    0.6885,
+    0.6165,
+    0.8454,
+    0.4978,
+    0.5759,
+    0.3523,
+    0.7135,
+    0.6804,
+    0.5833,
+    1.4146,
+    0.8986,
+    0.5659,
+    0.7069,
+    0.5338,
+    0.4889,
+    0.4917,
+    0.4069,
+    0.4999,
+    0.6866,
+    0.4093,
+    0.5709,
+    0.6065,
+    0.6415,
+    0.4944,
+    0.5726,
+    1.2042,
+    0.5458,
+    1.6887,
+    0.3971,
+    1.06,
+    0.3943,
+    0.5537,
+    0.5444,
+    0.4089,
+    0.7468,
+    0.7744
+  ],
+  "is_residual": true,
+  "in_channels": 12,
+  "out_channels": 12,
+  "patch_size": 2,
+  "scale_factor_temporal": 4,
+  "scale_factor_spatial": 16
+}

vae/diffusion_pytorch_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:62cd18f19438e35b32ac63020e2852f566e9b02f46b6cdbd87972a356e3c6f4b
+size 2818777808