Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled

Instructions to use r3lax/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use r3lax/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled with Transformers:

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("text-generation", model="r3lax/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled")
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/p-blog/candy.JPG"},
            {"type": "text", "text": "What animal is on the candy?"}
        ]
    },
]
pipe(text=messages)

# Load model directly
from transformers import AutoProcessor, AutoModelForImageTextToText

processor = AutoProcessor.from_pretrained("r3lax/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled")
model = AutoModelForImageTextToText.from_pretrained("r3lax/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled")
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/p-blog/candy.JPG"},
            {"type": "text", "text": "What animal is on the candy?"}
        ]
    },
]
inputs = processor.apply_chat_template(
	messages,
	add_generation_prompt=True,
	tokenize=True,
	return_dict=True,
	return_tensors="pt",
).to(model.device)

outputs = model.generate(**inputs, max_new_tokens=40)
print(processor.decode(outputs[0][inputs["input_ids"].shape[-1]:]))

Notebooks
Google Colab
Kaggle
Local Apps

vLLM

How to use r3lax/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled with vLLM:

Install from pip and serve model

# Install vLLM from pip:
pip install vllm
# Start the vLLM server:
vllm serve "r3lax/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled"
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:8000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "r3lax/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker

docker model run hf.co/r3lax/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled

SGLang

How to use r3lax/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled with SGLang:

Install from pip and serve model

# Install SGLang from pip:
pip install sglang
# Start the SGLang server:
python3 -m sglang.launch_server \
    --model-path "r3lax/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled" \
    --host 0.0.0.0 \
    --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "r3lax/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker images

docker run --gpus all \
    --shm-size 32g \
    -p 30000:30000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_TOKEN=<secret>" \
    --ipc=host \
    lmsysorg/sglang:latest \
    python3 -m sglang.launch_server \
        --model-path "r3lax/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled" \
        --host 0.0.0.0 \
        --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "r3lax/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Unsloth Studio new

How to use r3lax/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled with Unsloth Studio:

Install Unsloth Studio (macOS, Linux, WSL)

curl -fsSL https://unsloth.ai/install.sh | sh
# Run unsloth studio
unsloth studio -H 0.0.0.0 -p 8888
# Then open http://localhost:8888 in your browser
# Search for r3lax/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled to start chatting

Install Unsloth Studio (Windows)

irm https://unsloth.ai/install.ps1 | iex
# Run unsloth studio
unsloth studio -H 0.0.0.0 -p 8888
# Then open http://localhost:8888 in your browser
# Search for r3lax/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled to start chatting

Using HuggingFace Spaces for Unsloth

# No setup required
# Open https://huggingface.co/spaces/unsloth/studio in your browser
# Search for r3lax/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled to start chatting

Load model with FastModel

pip install unsloth
from unsloth import FastModel
model, tokenizer = FastModel.from_pretrained(
    model_name="r3lax/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled",
    max_seq_length=2048,
)

Docker Model Runner
How to use r3lax/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled with Docker Model Runner:
```
docker model run hf.co/r3lax/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled
```

r3lax

lordx64 commited on 19 days ago

Commit

d75b1d2

0 Parent(s):

Duplicate from lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled

Browse files

Files changed (34) hide show

.gitattributes +36 -0
README.md +158 -0
chat_template.jinja +158 -0
config.json +126 -0
model-00001-of-00026.safetensors +3 -0
model-00002-of-00026.safetensors +3 -0
model-00003-of-00026.safetensors +3 -0
model-00004-of-00026.safetensors +3 -0
model-00005-of-00026.safetensors +3 -0
model-00006-of-00026.safetensors +3 -0
model-00007-of-00026.safetensors +3 -0
model-00008-of-00026.safetensors +3 -0
model-00009-of-00026.safetensors +3 -0
model-00010-of-00026.safetensors +3 -0
model-00011-of-00026.safetensors +3 -0
model-00012-of-00026.safetensors +3 -0
model-00013-of-00026.safetensors +3 -0
model-00014-of-00026.safetensors +3 -0
model-00015-of-00026.safetensors +3 -0
model-00016-of-00026.safetensors +3 -0
model-00017-of-00026.safetensors +3 -0
model-00018-of-00026.safetensors +3 -0
model-00019-of-00026.safetensors +3 -0
model-00020-of-00026.safetensors +3 -0
model-00021-of-00026.safetensors +3 -0
model-00022-of-00026.safetensors +3 -0
model-00023-of-00026.safetensors +3 -0
model-00024-of-00026.safetensors +3 -0
model-00025-of-00026.safetensors +3 -0
model-00026-of-00026.safetensors +3 -0
model.safetensors.index.json +1052 -0
processor_config.json +63 -0
tokenizer.json +3 -0
tokenizer_config.json +34 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,36 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,158 @@

+---
+license: apache-2.0
+language:
+- en
+library_name: transformers
+pipeline_tag: text-generation
+base_model: Qwen/Qwen3.6-35B-A3B
+datasets:
+- lordx64/reasoning-distill-opus-4-7-max-sft
+tags:
+- text-generation
+- reasoning
+- distillation
+- chain-of-thought
+- qwen
+- qwen3.6
+- mixture-of-experts
+- moe
+- lora
+- unsloth
+model-index:
+- name: Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled
+  results: []
+---
+# Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled
+A reasoning-distilled variant of **Qwen3.6-35B-A3B** taught to imitate the chain-of-thought style of **Claude Opus 4.7**, the frontier reasoning model from Anthropic. The goal: port Claude-grade reasoning behavior into a permissively-licensed Mixture-of-Experts model that an individual can actually run.
+## Why this model
+- **Claude-style reasoning, open weights.** Claude Opus 4.7 is one of the strongest reasoning models available, but only via a proprietary API. This model has been fine-tuned on ~8k high-quality reasoning traces produced by Opus 4.7, teaching the base to *think* before answering — with explicit `<think>…</think>` blocks — in Claude's structure and cadence.
+- **Sparse activation, dense knowledge.** The base is a 35B-parameter MoE with **256 experts, 8 routed + 1 shared**, of which only about **3B parameters are active** per token. You get the capacity of a 35B model at the inference cost of a small dense model. Full-quality bf16 inference runs on a single 80GB A100 or H100.
+- **Long thinking supported.** 64k token context. The model routinely emits 5–30k tokens of `<think>` reasoning on hard problems before giving the final answer — which is the whole point of reasoning models, and why this one was specifically trained end-to-end with an upstream teacher that also reasons explicitly.
+- **Clean base to build on.** LoRA adapter is also published separately (`…-adapter`), so you can apply the distillation to other checkpoints of the same base, or stack further fine-tunes.
+## Intended use
+Built for hard reasoning: graduate-level STEM, competition math (AIME / MATH), code reasoning with explicit walk-through, multi-step logic puzzles, and agentic planning where explicit `<think>` helps correctness.
+For short-turn conversational latency-sensitive workloads the thinking budget can be large; cap `max_new_tokens` or post-process to strip `<think>…</think>` blocks if you only want final answers in production.
+## How to use
+```python
+from transformers import AutoModelForCausalLM, AutoTokenizer
+import torch
+repo = "lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled"
+tok = AutoTokenizer.from_pretrained(repo)
+model = AutoModelForCausalLM.from_pretrained(
+    repo, torch_dtype=torch.bfloat16, device_map="auto", trust_remote_code=True,
+)
+messages = [{"role": "user", "content": "How many positive integers less than 1000 have digits that sum to 20?"}]
+inputs = tok.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt").to(model.device)
+out = model.generate(inputs, max_new_tokens=32768, do_sample=False)
+print(tok.decode(out[0][inputs.shape[-1]:], skip_special_tokens=True))
+```
+Recommended backend: **vLLM** for serving — the MoE routing + KV cache benefit significantly from continuous batching.
+```
+vllm serve lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled \
+  --dtype bfloat16 --max-model-len 65536 --gpu-memory-utilization 0.9
+```
+### GGUF (LM Studio / llama.cpp)
+Quantized GGUF weights are available for `llama.cpp` and LM Studio:
+- [**IQ4_XS** (18.9 GB)](https://huggingface.co/lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled-IQ4_XS-GGUF) — fits in ~24 GB RAM/VRAM, default pick for LM Studio
+Search `lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled` inside LM Studio's model browser once HF has indexed the GGUF repo (usually within an hour of publication). More quant levels (`Q4_K_M`, `Q5_K_M`, `Q8_0`) can be added on request.
+## Training
+| | |
+|---|---|
+| Base model | `Qwen/Qwen3.6-35B-A3B` (loaded via `unsloth/Qwen3.6-35B-A3B` for faster finetuning) |
+| Teacher | Claude Opus 4.7 (Anthropic) |
+| Training dataset | [`lordx64/reasoning-distill-opus-4-7-max-sft`](https://huggingface.co/datasets/lordx64/reasoning-distill-opus-4-7-max-sft) — reasoning traces from Claude Opus 4.7 reformatted into SFT conversations |
+| Source dataset | [`lordx64/reasoning-distill-claude-opus-4-7-max`](https://huggingface.co/datasets/lordx64/reasoning-distill-claude-opus-4-7-max) — raw teacher traces (pre-SFT formatting) |
+| Dataset size | ~7,800 full conversations, assistant side trained including `<think>…</think>` |
+| Method | SFT with Unsloth + TRL `SFTTrainer` + `train_on_responses_only` (loss only on assistant tokens) |
+| LoRA config | `r=16, alpha=16, dropout=0.0, targets=["q_proj","k_proj","v_proj","o_proj"]` (attention-only) |
+| Hyperparameters | `lr=2e-5`, cosine schedule, `warmup_ratio=0.03`, `weight_decay=0.01`, optimizer `adamw_8bit` |
+| Batch | `per_device=1, grad_accum=16, effective=16`, 2 epochs = 978 steps |
+| Sequence | 4096 tokens during training (64k usable at inference — base supports it natively) |
+| Precision | bf16 on 1× H200 141GB (HF Inference Endpoint, custom container) |
+| Trainable | 3.44M params out of 35.1B (0.01%) |
+### Why attention-only LoRA on a MoE
+The initial plan was full LoRA including the MoE expert FFNs (`gate_proj/up_proj/down_proj`). In the course of this project I filed and upstreamed a shape-mismatch fix to unsloth-zoo's MoE+LoRA grouped-mm path — [unslothai/unsloth-zoo#601](https://github.com/unslothai/unsloth-zoo/pull/601) — without which the expert-LoRA forward crashes on Qwen3.6's 256-expert layout. Even with that fix, single-GPU memory made expert-LoRA impractical for this run. Attention-only captures most of the signal on *style* distillation anyway (the point of this model) while leaving the expert FFNs' learned knowledge intact — a v2 training run with expert LoRA on multi-GPU is a natural next step if the style-only signal isn't enough.
+## Evaluation
+Evaluated via `lm-evaluation-harness` (v0.4.9) with vLLM backend at 64k context, bf16. Custom eval path strips `<think>…</think>` from generations before the filter pipeline, uses per-task conventional fewshot counts, and runs with `fewshot_as_multiturn=True` so few-shot examples are proper chat turns rather than concatenated prompt text. Raw results JSON is public: [lordx64/qwen3-6-distill-evals](https://huggingface.co/datasets/lordx64/qwen3-6-distill-evals).
+| Benchmark | Setup | Score |
+|---|---|---|
+| **GSM8K CoT** | 8-shot multiturn, limit 300 | **84.3%** (flexible-extract) / 76.7% (strict-match) |
+| **MMLU-Pro** | 5-shot multiturn, limit 500 | **74.9%** |
+| AIME 2024 | 0-shot, full (30) | _extraction fix in progress — model generates answers but not in a format the AIME extractor recognizes (`\boxed{}` vs plain prose)_ |
+| AIME 2025 | 0-shot, full (30) | _same — pending_ |
+| GPQA Diamond | 0-shot CoT, full (198) | _same — pending_ |
+| MATH-500 | 0-shot, limit 100 | _rerun pending (missing `sympy` / `math_verify` dep in the first run)_ |
+### MMLU-Pro subject breakdown
+Standard reasoning-model profile: strong on STEM, weaker on law/engineering. All subjects evaluated at limit 500, 5-shot multiturn.
+| Subject | Acc | Subject | Acc |
+|---|---:|---|---:|
+| Biology | 86.0% | Chemistry | 78.8% |
+| Psychology | 83.4% | Health | 73.8% |
+| Math | 83.6% | Business | 74.4% |
+| Economics | 83.0% | Other | 72.6% |
+| Physics | 81.0% | Philosophy | 71.3% |
+| Computer Science | 79.0% | History | 70.9% |
+|  |  | **Engineering** | **54.8%** |
+|  |  | **Law** | **55.6%** |
+Full per-task JSON with stderr, filter configs, and timings lives in the [evals dataset](https://huggingface.co/datasets/lordx64/qwen3-6-distill-evals/tree/main/reasoning/lordx64__Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled). The remaining tasks will be added to this table after a diagnostic rerun identifies why AIME/GPQA extraction is returning no-match on generated outputs.
+## Limitations
+- **Reasoning ≠ knowledge.** Distillation transfers *how to reason*, not new facts. Anything the base Qwen3.6-35B-A3B doesn't already know, this model still doesn't know.
+- **Attention-only LoRA.** Expert FFNs are untouched from the base — domains where Claude and Qwen3.6 diverge in factual priors may see uneven improvement.
+- **Long generations.** The model will genuinely use tens of thousands of tokens on hard problems. Budget your `max_new_tokens` accordingly, and provide `max_model_len ≥ 32k` at inference.
+- **Distillation provenance.** Training data was generated with Anthropic's Claude Opus 4.7 via API. Downstream users should confirm compliance with Anthropic's [usage policies](https://www.anthropic.com/legal/usage-policy) for their specific use case.
+## Citation
+If you use this model, please cite the base and the distillation:
+```bibtex
+@misc{qwen36_a3b_2026,
+  title  = {Qwen3.6-35B-A3B},
+  author = {Qwen Team},
+  year   = {2026},
+  howpublished = {\url{https://huggingface.co/Qwen/Qwen3.6-35B-A3B}},
+}
+@misc{lordx64_qwen36_distill_2026,
+  title  = {Qwen3.6-35B-A3B distilled from Claude Opus 4.7 reasoning},
+  author = {lordx64},
+  year   = {2026},
+  howpublished = {\url{https://huggingface.co/lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled}},
+}
+```
+## Acknowledgements
+- **Unsloth** — 2× faster training of large MoE LoRA; the bug we hit and fixed was in their `unsloth-zoo` patches (credit for rapid review of PR #601).
+- **Anthropic** — for the teacher model.
+- **Qwen team** — for releasing Qwen3.6 with a permissive Apache-2.0 license, enabling work like this.
+- **lm-evaluation-harness (EleutherAI)** — evaluation methodology.

chat_template.jinja ADDED Viewed

	@@ -0,0 +1,158 @@

+{%- set image_count = namespace(value=0) %}
+{%- set video_count = namespace(value=0) %}
+{%- macro render_content(content, do_vision_count, is_system_content=false) %}
+    {%- if content is string %}
+        {{- content }}
+    {%- elif content is iterable and content is not mapping %}
+        {%- for item in content %}
+            {%- if 'image' in item or 'image_url' in item or item.type == 'image' %}
+                {%- if is_system_content %}
+                    {{- raise_exception('System message cannot contain images.') }}
+                {%- endif %}
+                {%- if do_vision_count %}
+                    {%- set image_count.value = image_count.value + 1 %}
+                {%- endif %}
+                {%- if add_vision_id %}
+                    {{- 'Picture ' ~ image_count.value ~ ': ' }}
+                {%- endif %}
+                {{- '<|vision_start|><|image_pad|><|vision_end|>' }}
+            {%- elif 'video' in item or item.type == 'video' %}
+                {%- if is_system_content %}
+                    {{- raise_exception('System message cannot contain videos.') }}
+                {%- endif %}
+                {%- if do_vision_count %}
+                    {%- set video_count.value = video_count.value + 1 %}
+                {%- endif %}
+                {%- if add_vision_id %}
+                    {{- 'Video ' ~ video_count.value ~ ': ' }}
+                {%- endif %}
+                {{- '<|vision_start|><|video_pad|><|vision_end|>' }}
+            {%- elif 'text' in item %}
+                {{- item.text }}
+            {%- else %}
+                {{- raise_exception('Unexpected item type in content.') }}
+            {%- endif %}
+        {%- endfor %}
+    {%- elif content is none or content is undefined %}
+        {{- '' }}
+    {%- else %}
+        {{- raise_exception('Unexpected content type.') }}
+    {%- endif %}
+{%- endmacro %}
+{%- if not messages %}
+    {{- raise_exception('No messages provided.') }}
+{%- endif %}
+{%- set num_sys = 0 %}
+{%- set merged_system = '' %}
+{%- if messages[0].role == 'system' or messages[0].role == 'developer' %}
+    {%- set first = render_content(messages[0].content, false, true)|trim %}
+    {%- if messages|length > 1 and (messages[1].role == 'system' or messages[1].role == 'developer') %}
+        {%- set second = render_content(messages[1].content, false, true)|trim %}
+        {%- set merged_system = first + '\n' + second %}
+        {%- set num_sys = 2 %}
+    {%- else %}
+        {%- set merged_system = first %}
+        {%- set num_sys = 1 %}
+    {%- endif %}
+{%- endif %}
+{%- if tools and tools is iterable and tools is not mapping %}
+    {{- '<|im_start|>system\n' }}
+    {{- "# Tools\n\nYou have access to the following functions:\n\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>" }}
+    {{- '\n\nIf you choose to call a function ONLY reply in the following format with NO suffix:\n\n<tool_call>\n<function=example_function_name>\n<parameter=example_parameter_1>\nvalue_1\n</parameter>\n<parameter=example_parameter_2>\nThis is the value for the second parameter\nthat can span\nmultiple lines\n</parameter>\n</function>\n</tool_call>\n\n<IMPORTANT>\nReminder:\n- Function calls MUST follow the specified format: an inner <function=...></function> block must be nested within <tool_call></tool_call> XML tags\n- Required parameters MUST be specified\n- You may provide optional reasoning for your function call in natural language BEFORE the function call, but NOT after\n- If there is no function call available, answer the question like normal with your current knowledge and do not tell the user about function calls\n</IMPORTANT>' }}
+    {%- if merged_system %}
+        {{- '\n\n' + merged_system }}
+    {%- endif %}
+    {{- '<|im_end|>\n' }}
+{%- else %}
+    {%- if merged_system %}
+        {{- '<|im_start|>system\n' + merged_system + '<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}
+{%- for message in messages[::-1] %}
+    {%- set index = (messages|length - 1) - loop.index0 %}
+    {%- if ns.multi_step_tool and message.role == "user" %}
+        {%- set content = render_content(message.content, false)|trim %}
+        {%- if not(content.startswith('<tool_response>') and content.endswith('</tool_response>')) %}
+            {%- set ns.multi_step_tool = false %}
+            {%- set ns.last_query_index = index %}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- for message in messages %}
+    {%- if loop.index0 >= num_sys and message.role != "system" and message.role != "developer" %}
+    {%- set content = render_content(message.content, true)|trim %}
+    {%- if message.role == "user" %}
+        {{- '<|im_start|>' + message.role + '\n' + content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {%- set reasoning_content = '' %}
+        {%- if message.reasoning_content is string %}
+            {%- set reasoning_content = message.reasoning_content %}
+        {%- else %}
+            {%- if '</think>' in content %}
+                {%- set reasoning_content = content.split('</think>')[0].rstrip('\n').split('<think>')[-1].lstrip('\n') %}
+                {%- set content = content.split('</think>')[-1].lstrip('\n') %}
+            {%- endif %}
+        {%- endif %}
+        {%- set reasoning_content = reasoning_content|trim %}
+        {%- if (preserve_thinking is defined and preserve_thinking is true) or (loop.index0 > ns.last_query_index) %}
+            {{- '<|im_start|>' + message.role + '\n<think>\n' + reasoning_content + '\n</think>\n\n' + content }}
+        {%- else %}
+            {{- '<|im_start|>' + message.role + '\n' + content }}
+        {%- endif %}
+        {%- if message.tool_calls and message.tool_calls is iterable and message.tool_calls is not mapping %}
+            {%- for tool_call in message.tool_calls %}
+                {%- if tool_call.function is defined %}
+                    {%- set tool_call = tool_call.function %}
+                {%- endif %}
+                {%- if loop.first %}
+                    {%- if content|trim %}
+                        {{- '\n\n<tool_call>\n<function=' + tool_call.name + '>\n' }}
+                    {%- else %}
+                        {{- '<tool_call>\n<function=' + tool_call.name + '>\n' }}
+                    {%- endif %}
+                {%- else %}
+                    {{- '\n<tool_call>\n<function=' + tool_call.name + '>\n' }}
+                {%- endif %}
+                {%- if tool_call.arguments is mapping %}
+                    {%- for args_name in tool_call.arguments %}
+                        {%- set args_value = tool_call.arguments[args_name] %}
+                        {{- '<parameter=' + args_name + '>\n' }}
+                        {%- set args_value = args_value | tojson | safe if args_value is mapping or (args_value is sequence and args_value is not string) else args_value | string %}
+                        {{- args_value }}
+                        {{- '\n</parameter>\n' }}
+                    {%- endfor %}
+                {%- endif %}
+                {{- '</function>\n</tool_call>' }}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if loop.previtem and loop.previtem.role != "tool" %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- content }}
+        {{- '\n</tool_response>' }}
+        {%- if not loop.last and loop.nextitem.role != "tool" %}
+            {{- '<|im_end|>\n' }}
+        {%- elif loop.last %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+    {%- if enable_thinking is defined and enable_thinking is false %}
+        {{- '<think>\n\n</think>\n\n' }}
+    {%- else %}
+        {{- '<think>\n' }}
+    {%- endif %}
+{%- endif %}
+{#- Unsloth fixes - developer role, tool calling #}

config.json ADDED Viewed

	@@ -0,0 +1,126 @@

+{
+    "architectures": [
+        "Qwen3_5MoeForConditionalGeneration"
+    ],
+    "bos_token_id": null,
+    "torch_dtype": "bfloat16",
+    "eos_token_id": 248046,
+    "image_token_id": 248056,
+    "model_name": "unsloth/Qwen3.6-35B-A3B",
+    "model_type": "qwen3_5_moe",
+    "pad_token_id": 248055,
+    "text_config": {
+        "attention_bias": false,
+        "attention_dropout": 0.0,
+        "attn_output_gate": true,
+        "bos_token_id": 248044,
+        "torch_dtype": "bfloat16",
+        "eos_token_id": 248044,
+        "full_attention_interval": 4,
+        "head_dim": 256,
+        "hidden_act": "silu",
+        "hidden_size": 2048,
+        "initializer_range": 0.02,
+        "layer_types": [
+            "linear_attention",
+            "linear_attention",
+            "linear_attention",
+            "full_attention",
+            "linear_attention",
+            "linear_attention",
+            "linear_attention",
+            "full_attention",
+            "linear_attention",
+            "linear_attention",
+            "linear_attention",
+            "full_attention",
+            "linear_attention",
+            "linear_attention",
+            "linear_attention",
+            "full_attention",
+            "linear_attention",
+            "linear_attention",
+            "linear_attention",
+            "full_attention",
+            "linear_attention",
+            "linear_attention",
+            "linear_attention",
+            "full_attention",
+            "linear_attention",
+            "linear_attention",
+            "linear_attention",
+            "full_attention",
+            "linear_attention",
+            "linear_attention",
+            "linear_attention",
+            "full_attention",
+            "linear_attention",
+            "linear_attention",
+            "linear_attention",
+            "full_attention",
+            "linear_attention",
+            "linear_attention",
+            "linear_attention",
+            "full_attention"
+        ],
+        "linear_conv_kernel_dim": 4,
+        "linear_key_head_dim": 128,
+        "linear_num_key_heads": 16,
+        "linear_num_value_heads": 32,
+        "linear_value_head_dim": 128,
+        "mamba_ssm_dtype": "float32",
+        "max_position_embeddings": 262144,
+        "model_type": "qwen3_5_moe_text",
+        "moe_intermediate_size": 512,
+        "mtp_num_hidden_layers": 1,
+        "mtp_use_dedicated_embeddings": false,
+        "num_attention_heads": 16,
+        "num_experts": 256,
+        "num_experts_per_tok": 8,
+        "num_hidden_layers": 40,
+        "num_key_value_heads": 2,
+        "output_router_logits": false,
+        "pad_token_id": null,
+        "partial_rotary_factor": 0.25,
+        "rms_norm_eps": 1e-06,
+        "rope_parameters": {
+            "mrope_interleaved": true,
+            "mrope_section": [
+                11,
+                11,
+                10
+            ],
+            "partial_rotary_factor": 0.25,
+            "rope_theta": 10000000,
+            "rope_type": "default"
+        },
+        "router_aux_loss_coef": 0.001,
+        "shared_expert_intermediate_size": 512,
+        "tie_word_embeddings": false,
+        "use_cache": true,
+        "vocab_size": 248320
+    },
+    "tie_word_embeddings": false,
+    "unsloth_version": "2026.4.1",
+    "use_cache": false,
+    "video_token_id": 248057,
+    "vision_config": {
+        "deepstack_visual_indexes": [],
+        "depth": 27,
+        "torch_dtype": "bfloat16",
+        "hidden_act": "gelu_pytorch_tanh",
+        "hidden_size": 1152,
+        "in_channels": 3,
+        "initializer_range": 0.02,
+        "intermediate_size": 4304,
+        "model_type": "qwen3_5_moe",
+        "num_heads": 16,
+        "num_position_embeddings": 2304,
+        "out_hidden_size": 2048,
+        "patch_size": 16,
+        "spatial_merge_size": 2,
+        "temporal_patch_size": 2
+    },
+    "vision_end_token_id": 248054,
+    "vision_start_token_id": 248053
+}

model-00001-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:adee7bcb930aed22e0677e58d4873b48dadb1ed8001cb5c6a0487286eadb3478
+size 3996199712

model-00002-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:88f2dfd2b9e73e4b70be533dbf61bcfa3c9a0003758900fcbc9d9b96f5751d4b
+size 1284907696

model-00003-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4bcbe6420a532c2d2a30657b4ff3f0f4c6d40843aaebfbd50d68be3818e11294
+size 3357898360

model-00004-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:12d7db38689ba3c8af74b23ef8523eca41e0cd95db870583d0663a3ee8a6bd60
+size 3370808712

model-00005-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a4fcf07b8954e56eda92cf1103d7ef5727484bdfc323f5eef8bf5763b0609db1
+size 3357898360

model-00006-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c9080d718e9c5f9e337443225aa417d4c24d00ae7995d76ee3f1cc296b557d15
+size 3959424904

model-00007-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e8c05e23131b1dd45a455ec38cfac7db14667358268623c3938d00cf3e959a68
+size 1096788232

model-00008-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:062546a6aac87eed6d5e18438845ae711d9178db0d6eb27929249a7d9104b480
+size 3946842008

model-00009-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a31a954bb72d1c714e751bf0aabf2ff533f5a509693ebf7dd22ad6e90be46f67
+size 1096460848

model-00010-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:02b560690e2c05c1e07ec52902aabd0cd64480a85e29cbc717abde29821fcc92
+size 3946841992

model-00011-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7180392817fe3ecb3a27a1da43b7ff22c1a94806bac49975f9f122c3126df675
+size 1096460752

model-00012-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2b47c5a65265b8b1b1f4d550a11587d67f66e39c98f7798e56c502c3ef30a67f
+size 3409971080

model-00013-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:33a20fb20a21379bf43c84a43105f9c0cc35bd50d740b1c302dcbe4b700f5425
+size 1633331664

model-00014-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:be823e33c5cb6120ad3769d081f34a2449dc2358041fca7c29d636c1ba19130d
+size 3422553872

model-00015-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a89d547c6f9d0b535ee5ea2f2478f163089539f3f0dd330cb23d278a19d76123
+size 1633659224

model-00016-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7f71c93f4987f42636aebe49df96fe307ab3834fbe8ebf39a4ec5e4533fc9ea4
+size 3946842136

model-00017-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e356e3943cf3852b76bb8992e674f3256013e27d54b78e8250514151cdc29637
+size 1096460608

model-00018-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b45f0474bee313ce40f36cd986c026bf00ec5f521d84cbd03b3a4599b9b5e0d0
+size 3946841992

model-00019-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:708644ad34f1de727bf484f396944d8ec628645d52c183e9a992e65671685e21
+size 1096460808

model-00020-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef3969e9e20e86e8e10e963dc1ace1a6cdcbef3d31a2750d53857c9163a49b5e
+size 3409971072

model-00021-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ada4ae48f3d48fe01b4c53f2f82bce25e798a9631fd33959c881156fef2ccbce
+size 1633331744

model-00022-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:def207fb42d7db31efb512755557763c23233c6e4d4c433027cb5102a7bce2f7
+size 3370808752

model-00023-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0fa5fba3bcd66378c5e8bebd0ba1f13aec4a11137aedd0e09903e399709d0741
+size 3357898392

model-00024-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:391acd27420cdce5935ff18152423c70620d19dac3c39a5ef1a81d369f82d737
+size 3370808752

model-00025-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:778e7f76602f05042b69ba7f3ec91f1fdffef390540b16074041c258fb81d154
+size 3832888256

model-00026-of-00026.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:690fc9b473621944ebb86cba5808f7c835206a50ed581b6d5175a936d038c51d
+size 2231416848

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,1052 @@

+{
+  "metadata": {
+    "total_size": 71903645408.0
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00026-of-00026.safetensors",
+    "model.language_model.embed_tokens.weight": "model-00001-of-00026.safetensors",
+    "model.language_model.layers.0.input_layernorm.weight": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.0.linear_attn.A_log": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.0.linear_attn.conv1d.weight": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.0.linear_attn.dt_bias": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.0.linear_attn.in_proj_a.weight": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.0.linear_attn.in_proj_b.weight": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.0.linear_attn.in_proj_qkv.weight": "model-00001-of-00026.safetensors",
+    "model.language_model.layers.0.linear_attn.in_proj_z.weight": "model-00001-of-00026.safetensors",
+    "model.language_model.layers.0.linear_attn.norm.weight": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.0.linear_attn.out_proj.weight": "model-00001-of-00026.safetensors",
+    "model.language_model.layers.0.mlp.experts.down_proj": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.0.mlp.experts.gate_up_proj": "model-00001-of-00026.safetensors",
+    "model.language_model.layers.0.mlp.gate.weight": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.0.mlp.shared_expert.down_proj.weight": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.0.mlp.shared_expert.gate_proj.weight": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.0.mlp.shared_expert.up_proj.weight": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.0.mlp.shared_expert_gate.weight": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.0.post_attention_layernorm.weight": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.1.input_layernorm.weight": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.1.linear_attn.A_log": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.1.linear_attn.conv1d.weight": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.1.linear_attn.dt_bias": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.1.linear_attn.in_proj_a.weight": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.1.linear_attn.in_proj_b.weight": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.1.linear_attn.in_proj_qkv.weight": "model-00001-of-00026.safetensors",
+    "model.language_model.layers.1.linear_attn.in_proj_z.weight": "model-00001-of-00026.safetensors",
+    "model.language_model.layers.1.linear_attn.norm.weight": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.1.linear_attn.out_proj.weight": "model-00001-of-00026.safetensors",
+    "model.language_model.layers.1.mlp.experts.down_proj": "model-00001-of-00026.safetensors",
+    "model.language_model.layers.1.mlp.experts.gate_up_proj": "model-00001-of-00026.safetensors",
+    "model.language_model.layers.1.mlp.gate.weight": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.1.mlp.shared_expert.down_proj.weight": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.1.mlp.shared_expert.gate_proj.weight": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.1.mlp.shared_expert.up_proj.weight": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.1.mlp.shared_expert_gate.weight": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.1.post_attention_layernorm.weight": "model-00002-of-00026.safetensors",
+    "model.language_model.layers.10.input_layernorm.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.10.linear_attn.A_log": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.10.linear_attn.conv1d.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.10.linear_attn.dt_bias": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.10.linear_attn.in_proj_a.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.10.linear_attn.in_proj_b.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.10.linear_attn.in_proj_qkv.weight": "model-00006-of-00026.safetensors",
+    "model.language_model.layers.10.linear_attn.in_proj_z.weight": "model-00006-of-00026.safetensors",
+    "model.language_model.layers.10.linear_attn.norm.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.10.linear_attn.out_proj.weight": "model-00006-of-00026.safetensors",
+    "model.language_model.layers.10.mlp.experts.down_proj": "model-00006-of-00026.safetensors",
+    "model.language_model.layers.10.mlp.experts.gate_up_proj": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.10.mlp.gate.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.10.mlp.shared_expert.down_proj.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.10.mlp.shared_expert.gate_proj.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.10.mlp.shared_expert.up_proj.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.10.mlp.shared_expert_gate.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.10.post_attention_layernorm.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.11.input_layernorm.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.11.mlp.experts.down_proj": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.11.mlp.experts.gate_up_proj": "model-00008-of-00026.safetensors",
+    "model.language_model.layers.11.mlp.gate.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.11.mlp.shared_expert.down_proj.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.11.mlp.shared_expert.gate_proj.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.11.mlp.shared_expert.up_proj.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.11.mlp.shared_expert_gate.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.11.post_attention_layernorm.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.11.self_attn.k_norm.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.11.self_attn.k_proj.weight": "model-00008-of-00026.safetensors",
+    "model.language_model.layers.11.self_attn.o_proj.weight": "model-00008-of-00026.safetensors",
+    "model.language_model.layers.11.self_attn.q_norm.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.11.self_attn.q_proj.weight": "model-00008-of-00026.safetensors",
+    "model.language_model.layers.11.self_attn.v_proj.weight": "model-00008-of-00026.safetensors",
+    "model.language_model.layers.12.input_layernorm.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.12.linear_attn.A_log": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.12.linear_attn.conv1d.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.12.linear_attn.dt_bias": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.12.linear_attn.in_proj_a.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.12.linear_attn.in_proj_b.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.12.linear_attn.in_proj_qkv.weight": "model-00008-of-00026.safetensors",
+    "model.language_model.layers.12.linear_attn.in_proj_z.weight": "model-00008-of-00026.safetensors",
+    "model.language_model.layers.12.linear_attn.norm.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.12.linear_attn.out_proj.weight": "model-00008-of-00026.safetensors",
+    "model.language_model.layers.12.mlp.experts.down_proj": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.12.mlp.experts.gate_up_proj": "model-00008-of-00026.safetensors",
+    "model.language_model.layers.12.mlp.gate.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.12.mlp.shared_expert.down_proj.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.12.mlp.shared_expert.gate_proj.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.12.mlp.shared_expert.up_proj.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.12.mlp.shared_expert_gate.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.12.post_attention_layernorm.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.13.input_layernorm.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.13.linear_attn.A_log": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.13.linear_attn.conv1d.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.13.linear_attn.dt_bias": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.13.linear_attn.in_proj_a.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.13.linear_attn.in_proj_b.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.13.linear_attn.in_proj_qkv.weight": "model-00008-of-00026.safetensors",
+    "model.language_model.layers.13.linear_attn.in_proj_z.weight": "model-00008-of-00026.safetensors",
+    "model.language_model.layers.13.linear_attn.norm.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.13.linear_attn.out_proj.weight": "model-00008-of-00026.safetensors",
+    "model.language_model.layers.13.mlp.experts.down_proj": "model-00008-of-00026.safetensors",
+    "model.language_model.layers.13.mlp.experts.gate_up_proj": "model-00008-of-00026.safetensors",
+    "model.language_model.layers.13.mlp.gate.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.13.mlp.shared_expert.down_proj.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.13.mlp.shared_expert.gate_proj.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.13.mlp.shared_expert.up_proj.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.13.mlp.shared_expert_gate.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.13.post_attention_layernorm.weight": "model-00009-of-00026.safetensors",
+    "model.language_model.layers.14.input_layernorm.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.14.linear_attn.A_log": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.14.linear_attn.conv1d.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.14.linear_attn.dt_bias": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.14.linear_attn.in_proj_a.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.14.linear_attn.in_proj_b.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.14.linear_attn.in_proj_qkv.weight": "model-00010-of-00026.safetensors",
+    "model.language_model.layers.14.linear_attn.in_proj_z.weight": "model-00010-of-00026.safetensors",
+    "model.language_model.layers.14.linear_attn.norm.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.14.linear_attn.out_proj.weight": "model-00010-of-00026.safetensors",
+    "model.language_model.layers.14.mlp.experts.down_proj": "model-00010-of-00026.safetensors",
+    "model.language_model.layers.14.mlp.experts.gate_up_proj": "model-00010-of-00026.safetensors",
+    "model.language_model.layers.14.mlp.gate.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.14.mlp.shared_expert.down_proj.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.14.mlp.shared_expert.gate_proj.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.14.mlp.shared_expert.up_proj.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.14.mlp.shared_expert_gate.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.14.post_attention_layernorm.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.15.input_layernorm.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.15.mlp.experts.down_proj": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.15.mlp.experts.gate_up_proj": "model-00010-of-00026.safetensors",
+    "model.language_model.layers.15.mlp.gate.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.15.mlp.shared_expert.down_proj.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.15.mlp.shared_expert.gate_proj.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.15.mlp.shared_expert.up_proj.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.15.mlp.shared_expert_gate.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.15.post_attention_layernorm.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.15.self_attn.k_norm.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.15.self_attn.k_proj.weight": "model-00010-of-00026.safetensors",
+    "model.language_model.layers.15.self_attn.o_proj.weight": "model-00010-of-00026.safetensors",
+    "model.language_model.layers.15.self_attn.q_norm.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.15.self_attn.q_proj.weight": "model-00010-of-00026.safetensors",
+    "model.language_model.layers.15.self_attn.v_proj.weight": "model-00010-of-00026.safetensors",
+    "model.language_model.layers.16.input_layernorm.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.16.linear_attn.A_log": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.16.linear_attn.conv1d.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.16.linear_attn.dt_bias": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.16.linear_attn.in_proj_a.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.16.linear_attn.in_proj_b.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.16.linear_attn.in_proj_qkv.weight": "model-00010-of-00026.safetensors",
+    "model.language_model.layers.16.linear_attn.in_proj_z.weight": "model-00010-of-00026.safetensors",
+    "model.language_model.layers.16.linear_attn.norm.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.16.linear_attn.out_proj.weight": "model-00010-of-00026.safetensors",
+    "model.language_model.layers.16.mlp.experts.down_proj": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.16.mlp.experts.gate_up_proj": "model-00010-of-00026.safetensors",
+    "model.language_model.layers.16.mlp.gate.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.16.mlp.shared_expert.down_proj.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.16.mlp.shared_expert.gate_proj.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.16.mlp.shared_expert.up_proj.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.16.mlp.shared_expert_gate.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.16.post_attention_layernorm.weight": "model-00011-of-00026.safetensors",
+    "model.language_model.layers.17.input_layernorm.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.17.linear_attn.A_log": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.17.linear_attn.conv1d.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.17.linear_attn.dt_bias": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.17.linear_attn.in_proj_a.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.17.linear_attn.in_proj_b.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.17.linear_attn.in_proj_qkv.weight": "model-00012-of-00026.safetensors",
+    "model.language_model.layers.17.linear_attn.in_proj_z.weight": "model-00012-of-00026.safetensors",
+    "model.language_model.layers.17.linear_attn.norm.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.17.linear_attn.out_proj.weight": "model-00012-of-00026.safetensors",
+    "model.language_model.layers.17.mlp.experts.down_proj": "model-00012-of-00026.safetensors",
+    "model.language_model.layers.17.mlp.experts.gate_up_proj": "model-00012-of-00026.safetensors",
+    "model.language_model.layers.17.mlp.gate.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.17.mlp.shared_expert.down_proj.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.17.mlp.shared_expert.gate_proj.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.17.mlp.shared_expert.up_proj.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.17.mlp.shared_expert_gate.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.17.post_attention_layernorm.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.18.input_layernorm.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.18.linear_attn.A_log": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.18.linear_attn.conv1d.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.18.linear_attn.dt_bias": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.18.linear_attn.in_proj_a.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.18.linear_attn.in_proj_b.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.18.linear_attn.in_proj_qkv.weight": "model-00012-of-00026.safetensors",
+    "model.language_model.layers.18.linear_attn.in_proj_z.weight": "model-00012-of-00026.safetensors",
+    "model.language_model.layers.18.linear_attn.norm.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.18.linear_attn.out_proj.weight": "model-00012-of-00026.safetensors",
+    "model.language_model.layers.18.mlp.experts.down_proj": "model-00012-of-00026.safetensors",
+    "model.language_model.layers.18.mlp.experts.gate_up_proj": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.18.mlp.gate.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.18.mlp.shared_expert.down_proj.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.18.mlp.shared_expert.gate_proj.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.18.mlp.shared_expert.up_proj.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.18.mlp.shared_expert_gate.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.18.post_attention_layernorm.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.19.input_layernorm.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.19.mlp.experts.down_proj": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.19.mlp.experts.gate_up_proj": "model-00012-of-00026.safetensors",
+    "model.language_model.layers.19.mlp.gate.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.19.mlp.shared_expert.down_proj.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.19.mlp.shared_expert.gate_proj.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.19.mlp.shared_expert.up_proj.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.19.mlp.shared_expert_gate.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.19.post_attention_layernorm.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.19.self_attn.k_norm.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.19.self_attn.k_proj.weight": "model-00012-of-00026.safetensors",
+    "model.language_model.layers.19.self_attn.o_proj.weight": "model-00012-of-00026.safetensors",
+    "model.language_model.layers.19.self_attn.q_norm.weight": "model-00013-of-00026.safetensors",
+    "model.language_model.layers.19.self_attn.q_proj.weight": "model-00012-of-00026.safetensors",
+    "model.language_model.layers.19.self_attn.v_proj.weight": "model-00012-of-00026.safetensors",
+    "model.language_model.layers.2.input_layernorm.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.2.linear_attn.A_log": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.2.linear_attn.conv1d.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.2.linear_attn.dt_bias": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.2.linear_attn.in_proj_a.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.2.linear_attn.in_proj_b.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.2.linear_attn.in_proj_qkv.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.2.linear_attn.in_proj_z.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.2.linear_attn.norm.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.2.linear_attn.out_proj.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.2.mlp.experts.down_proj": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.2.mlp.experts.gate_up_proj": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.2.mlp.gate.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.2.mlp.shared_expert.down_proj.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.2.mlp.shared_expert.gate_proj.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.2.mlp.shared_expert.up_proj.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.2.mlp.shared_expert_gate.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.2.post_attention_layernorm.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.20.input_layernorm.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.20.linear_attn.A_log": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.20.linear_attn.conv1d.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.20.linear_attn.dt_bias": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.20.linear_attn.in_proj_a.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.20.linear_attn.in_proj_b.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.20.linear_attn.in_proj_qkv.weight": "model-00014-of-00026.safetensors",
+    "model.language_model.layers.20.linear_attn.in_proj_z.weight": "model-00014-of-00026.safetensors",
+    "model.language_model.layers.20.linear_attn.norm.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.20.linear_attn.out_proj.weight": "model-00014-of-00026.safetensors",
+    "model.language_model.layers.20.mlp.experts.down_proj": "model-00014-of-00026.safetensors",
+    "model.language_model.layers.20.mlp.experts.gate_up_proj": "model-00014-of-00026.safetensors",
+    "model.language_model.layers.20.mlp.gate.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.20.mlp.shared_expert.down_proj.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.20.mlp.shared_expert.gate_proj.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.20.mlp.shared_expert.up_proj.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.20.mlp.shared_expert_gate.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.20.post_attention_layernorm.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.21.input_layernorm.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.21.linear_attn.A_log": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.21.linear_attn.conv1d.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.21.linear_attn.dt_bias": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.21.linear_attn.in_proj_a.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.21.linear_attn.in_proj_b.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.21.linear_attn.in_proj_qkv.weight": "model-00014-of-00026.safetensors",
+    "model.language_model.layers.21.linear_attn.in_proj_z.weight": "model-00014-of-00026.safetensors",
+    "model.language_model.layers.21.linear_attn.norm.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.21.linear_attn.out_proj.weight": "model-00014-of-00026.safetensors",
+    "model.language_model.layers.21.mlp.experts.down_proj": "model-00014-of-00026.safetensors",
+    "model.language_model.layers.21.mlp.experts.gate_up_proj": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.21.mlp.gate.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.21.mlp.shared_expert.down_proj.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.21.mlp.shared_expert.gate_proj.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.21.mlp.shared_expert.up_proj.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.21.mlp.shared_expert_gate.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.21.post_attention_layernorm.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.22.input_layernorm.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.22.linear_attn.A_log": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.22.linear_attn.conv1d.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.22.linear_attn.dt_bias": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.22.linear_attn.in_proj_a.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.22.linear_attn.in_proj_b.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.22.linear_attn.in_proj_qkv.weight": "model-00014-of-00026.safetensors",
+    "model.language_model.layers.22.linear_attn.in_proj_z.weight": "model-00014-of-00026.safetensors",
+    "model.language_model.layers.22.linear_attn.norm.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.22.linear_attn.out_proj.weight": "model-00014-of-00026.safetensors",
+    "model.language_model.layers.22.mlp.experts.down_proj": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.22.mlp.experts.gate_up_proj": "model-00014-of-00026.safetensors",
+    "model.language_model.layers.22.mlp.gate.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.22.mlp.shared_expert.down_proj.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.22.mlp.shared_expert.gate_proj.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.22.mlp.shared_expert.up_proj.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.22.mlp.shared_expert_gate.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.22.post_attention_layernorm.weight": "model-00015-of-00026.safetensors",
+    "model.language_model.layers.23.input_layernorm.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.23.mlp.experts.down_proj": "model-00016-of-00026.safetensors",
+    "model.language_model.layers.23.mlp.experts.gate_up_proj": "model-00016-of-00026.safetensors",
+    "model.language_model.layers.23.mlp.gate.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.23.mlp.shared_expert.down_proj.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.23.mlp.shared_expert.gate_proj.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.23.mlp.shared_expert.up_proj.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.23.mlp.shared_expert_gate.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.23.post_attention_layernorm.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.23.self_attn.k_norm.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.23.self_attn.k_proj.weight": "model-00016-of-00026.safetensors",
+    "model.language_model.layers.23.self_attn.o_proj.weight": "model-00016-of-00026.safetensors",
+    "model.language_model.layers.23.self_attn.q_norm.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.23.self_attn.q_proj.weight": "model-00016-of-00026.safetensors",
+    "model.language_model.layers.23.self_attn.v_proj.weight": "model-00016-of-00026.safetensors",
+    "model.language_model.layers.24.input_layernorm.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.24.linear_attn.A_log": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.24.linear_attn.conv1d.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.24.linear_attn.dt_bias": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.24.linear_attn.in_proj_a.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.24.linear_attn.in_proj_b.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.24.linear_attn.in_proj_qkv.weight": "model-00016-of-00026.safetensors",
+    "model.language_model.layers.24.linear_attn.in_proj_z.weight": "model-00016-of-00026.safetensors",
+    "model.language_model.layers.24.linear_attn.norm.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.24.linear_attn.out_proj.weight": "model-00016-of-00026.safetensors",
+    "model.language_model.layers.24.mlp.experts.down_proj": "model-00016-of-00026.safetensors",
+    "model.language_model.layers.24.mlp.experts.gate_up_proj": "model-00016-of-00026.safetensors",
+    "model.language_model.layers.24.mlp.gate.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.24.mlp.shared_expert.down_proj.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.24.mlp.shared_expert.gate_proj.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.24.mlp.shared_expert.up_proj.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.24.mlp.shared_expert_gate.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.24.post_attention_layernorm.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.25.input_layernorm.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.25.linear_attn.A_log": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.25.linear_attn.conv1d.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.25.linear_attn.dt_bias": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.25.linear_attn.in_proj_a.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.25.linear_attn.in_proj_b.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.25.linear_attn.in_proj_qkv.weight": "model-00016-of-00026.safetensors",
+    "model.language_model.layers.25.linear_attn.in_proj_z.weight": "model-00016-of-00026.safetensors",
+    "model.language_model.layers.25.linear_attn.norm.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.25.linear_attn.out_proj.weight": "model-00016-of-00026.safetensors",
+    "model.language_model.layers.25.mlp.experts.down_proj": "model-00016-of-00026.safetensors",
+    "model.language_model.layers.25.mlp.experts.gate_up_proj": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.25.mlp.gate.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.25.mlp.shared_expert.down_proj.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.25.mlp.shared_expert.gate_proj.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.25.mlp.shared_expert.up_proj.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.25.mlp.shared_expert_gate.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.25.post_attention_layernorm.weight": "model-00017-of-00026.safetensors",
+    "model.language_model.layers.26.input_layernorm.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.26.linear_attn.A_log": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.26.linear_attn.conv1d.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.26.linear_attn.dt_bias": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.26.linear_attn.in_proj_a.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.26.linear_attn.in_proj_b.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.26.linear_attn.in_proj_qkv.weight": "model-00018-of-00026.safetensors",
+    "model.language_model.layers.26.linear_attn.in_proj_z.weight": "model-00018-of-00026.safetensors",
+    "model.language_model.layers.26.linear_attn.norm.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.26.linear_attn.out_proj.weight": "model-00018-of-00026.safetensors",
+    "model.language_model.layers.26.mlp.experts.down_proj": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.26.mlp.experts.gate_up_proj": "model-00018-of-00026.safetensors",
+    "model.language_model.layers.26.mlp.gate.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.26.mlp.shared_expert.down_proj.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.26.mlp.shared_expert.gate_proj.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.26.mlp.shared_expert.up_proj.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.26.mlp.shared_expert_gate.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.26.post_attention_layernorm.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.27.input_layernorm.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.27.mlp.experts.down_proj": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.27.mlp.experts.gate_up_proj": "model-00018-of-00026.safetensors",
+    "model.language_model.layers.27.mlp.gate.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.27.mlp.shared_expert.down_proj.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.27.mlp.shared_expert.gate_proj.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.27.mlp.shared_expert.up_proj.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.27.mlp.shared_expert_gate.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.27.post_attention_layernorm.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.27.self_attn.k_norm.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.27.self_attn.k_proj.weight": "model-00018-of-00026.safetensors",
+    "model.language_model.layers.27.self_attn.o_proj.weight": "model-00018-of-00026.safetensors",
+    "model.language_model.layers.27.self_attn.q_norm.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.27.self_attn.q_proj.weight": "model-00018-of-00026.safetensors",
+    "model.language_model.layers.27.self_attn.v_proj.weight": "model-00018-of-00026.safetensors",
+    "model.language_model.layers.28.input_layernorm.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.28.linear_attn.A_log": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.28.linear_attn.conv1d.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.28.linear_attn.dt_bias": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.28.linear_attn.in_proj_a.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.28.linear_attn.in_proj_b.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.28.linear_attn.in_proj_qkv.weight": "model-00018-of-00026.safetensors",
+    "model.language_model.layers.28.linear_attn.in_proj_z.weight": "model-00018-of-00026.safetensors",
+    "model.language_model.layers.28.linear_attn.norm.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.28.linear_attn.out_proj.weight": "model-00018-of-00026.safetensors",
+    "model.language_model.layers.28.mlp.experts.down_proj": "model-00018-of-00026.safetensors",
+    "model.language_model.layers.28.mlp.experts.gate_up_proj": "model-00018-of-00026.safetensors",
+    "model.language_model.layers.28.mlp.gate.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.28.mlp.shared_expert.down_proj.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.28.mlp.shared_expert.gate_proj.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.28.mlp.shared_expert.up_proj.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.28.mlp.shared_expert_gate.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.28.post_attention_layernorm.weight": "model-00019-of-00026.safetensors",
+    "model.language_model.layers.29.input_layernorm.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.29.linear_attn.A_log": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.29.linear_attn.conv1d.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.29.linear_attn.dt_bias": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.29.linear_attn.in_proj_a.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.29.linear_attn.in_proj_b.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.29.linear_attn.in_proj_qkv.weight": "model-00020-of-00026.safetensors",
+    "model.language_model.layers.29.linear_attn.in_proj_z.weight": "model-00020-of-00026.safetensors",
+    "model.language_model.layers.29.linear_attn.norm.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.29.linear_attn.out_proj.weight": "model-00020-of-00026.safetensors",
+    "model.language_model.layers.29.mlp.experts.down_proj": "model-00020-of-00026.safetensors",
+    "model.language_model.layers.29.mlp.experts.gate_up_proj": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.29.mlp.gate.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.29.mlp.shared_expert.down_proj.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.29.mlp.shared_expert.gate_proj.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.29.mlp.shared_expert.up_proj.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.29.mlp.shared_expert_gate.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.29.post_attention_layernorm.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.3.input_layernorm.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.3.mlp.experts.down_proj": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.3.mlp.experts.gate_up_proj": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.3.mlp.gate.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.3.mlp.shared_expert.down_proj.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.3.mlp.shared_expert.gate_proj.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.3.mlp.shared_expert.up_proj.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.3.mlp.shared_expert_gate.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.3.post_attention_layernorm.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.3.self_attn.k_norm.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.3.self_attn.k_proj.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.3.self_attn.o_proj.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.3.self_attn.q_norm.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.3.self_attn.q_proj.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.3.self_attn.v_proj.weight": "model-00003-of-00026.safetensors",
+    "model.language_model.layers.30.input_layernorm.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.30.linear_attn.A_log": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.30.linear_attn.conv1d.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.30.linear_attn.dt_bias": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.30.linear_attn.in_proj_a.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.30.linear_attn.in_proj_b.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.30.linear_attn.in_proj_qkv.weight": "model-00020-of-00026.safetensors",
+    "model.language_model.layers.30.linear_attn.in_proj_z.weight": "model-00020-of-00026.safetensors",
+    "model.language_model.layers.30.linear_attn.norm.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.30.linear_attn.out_proj.weight": "model-00020-of-00026.safetensors",
+    "model.language_model.layers.30.mlp.experts.down_proj": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.30.mlp.experts.gate_up_proj": "model-00020-of-00026.safetensors",
+    "model.language_model.layers.30.mlp.gate.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.30.mlp.shared_expert.down_proj.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.30.mlp.shared_expert.gate_proj.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.30.mlp.shared_expert.up_proj.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.30.mlp.shared_expert_gate.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.30.post_attention_layernorm.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.31.input_layernorm.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.31.mlp.experts.down_proj": "model-00020-of-00026.safetensors",
+    "model.language_model.layers.31.mlp.experts.gate_up_proj": "model-00020-of-00026.safetensors",
+    "model.language_model.layers.31.mlp.gate.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.31.mlp.shared_expert.down_proj.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.31.mlp.shared_expert.gate_proj.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.31.mlp.shared_expert.up_proj.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.31.mlp.shared_expert_gate.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.31.post_attention_layernorm.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.31.self_attn.k_norm.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.31.self_attn.k_proj.weight": "model-00020-of-00026.safetensors",
+    "model.language_model.layers.31.self_attn.o_proj.weight": "model-00020-of-00026.safetensors",
+    "model.language_model.layers.31.self_attn.q_norm.weight": "model-00021-of-00026.safetensors",
+    "model.language_model.layers.31.self_attn.q_proj.weight": "model-00020-of-00026.safetensors",
+    "model.language_model.layers.31.self_attn.v_proj.weight": "model-00020-of-00026.safetensors",
+    "model.language_model.layers.32.input_layernorm.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.32.linear_attn.A_log": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.32.linear_attn.conv1d.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.32.linear_attn.dt_bias": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.32.linear_attn.in_proj_a.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.32.linear_attn.in_proj_b.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.32.linear_attn.in_proj_qkv.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.32.linear_attn.in_proj_z.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.32.linear_attn.norm.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.32.linear_attn.out_proj.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.32.mlp.experts.down_proj": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.32.mlp.experts.gate_up_proj": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.32.mlp.gate.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.32.mlp.shared_expert.down_proj.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.32.mlp.shared_expert.gate_proj.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.32.mlp.shared_expert.up_proj.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.32.mlp.shared_expert_gate.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.32.post_attention_layernorm.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.33.input_layernorm.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.33.linear_attn.A_log": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.33.linear_attn.conv1d.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.33.linear_attn.dt_bias": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.33.linear_attn.in_proj_a.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.33.linear_attn.in_proj_b.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.33.linear_attn.in_proj_qkv.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.33.linear_attn.in_proj_z.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.33.linear_attn.norm.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.33.linear_attn.out_proj.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.33.mlp.experts.down_proj": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.33.mlp.experts.gate_up_proj": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.33.mlp.gate.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.33.mlp.shared_expert.down_proj.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.33.mlp.shared_expert.gate_proj.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.33.mlp.shared_expert.up_proj.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.33.mlp.shared_expert_gate.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.33.post_attention_layernorm.weight": "model-00022-of-00026.safetensors",
+    "model.language_model.layers.34.input_layernorm.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.34.linear_attn.A_log": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.34.linear_attn.conv1d.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.34.linear_attn.dt_bias": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.34.linear_attn.in_proj_a.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.34.linear_attn.in_proj_b.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.34.linear_attn.in_proj_qkv.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.34.linear_attn.in_proj_z.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.34.linear_attn.norm.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.34.linear_attn.out_proj.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.34.mlp.experts.down_proj": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.34.mlp.experts.gate_up_proj": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.34.mlp.gate.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.34.mlp.shared_expert.down_proj.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.34.mlp.shared_expert.gate_proj.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.34.mlp.shared_expert.up_proj.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.34.mlp.shared_expert_gate.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.34.post_attention_layernorm.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.35.input_layernorm.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.35.mlp.experts.down_proj": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.35.mlp.experts.gate_up_proj": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.35.mlp.gate.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.35.mlp.shared_expert.down_proj.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.35.mlp.shared_expert.gate_proj.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.35.mlp.shared_expert.up_proj.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.35.mlp.shared_expert_gate.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.35.post_attention_layernorm.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.35.self_attn.k_norm.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.35.self_attn.k_proj.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.35.self_attn.o_proj.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.35.self_attn.q_norm.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.35.self_attn.q_proj.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.35.self_attn.v_proj.weight": "model-00023-of-00026.safetensors",
+    "model.language_model.layers.36.input_layernorm.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.36.linear_attn.A_log": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.36.linear_attn.conv1d.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.36.linear_attn.dt_bias": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.36.linear_attn.in_proj_a.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.36.linear_attn.in_proj_b.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.36.linear_attn.in_proj_qkv.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.36.linear_attn.in_proj_z.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.36.linear_attn.norm.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.36.linear_attn.out_proj.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.36.mlp.experts.down_proj": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.36.mlp.experts.gate_up_proj": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.36.mlp.gate.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.36.mlp.shared_expert.down_proj.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.36.mlp.shared_expert.gate_proj.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.36.mlp.shared_expert.up_proj.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.36.mlp.shared_expert_gate.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.36.post_attention_layernorm.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.37.input_layernorm.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.37.linear_attn.A_log": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.37.linear_attn.conv1d.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.37.linear_attn.dt_bias": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.37.linear_attn.in_proj_a.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.37.linear_attn.in_proj_b.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.37.linear_attn.in_proj_qkv.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.37.linear_attn.in_proj_z.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.37.linear_attn.norm.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.37.linear_attn.out_proj.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.37.mlp.experts.down_proj": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.37.mlp.experts.gate_up_proj": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.37.mlp.gate.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.37.mlp.shared_expert.down_proj.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.37.mlp.shared_expert.gate_proj.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.37.mlp.shared_expert.up_proj.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.37.mlp.shared_expert_gate.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.37.post_attention_layernorm.weight": "model-00024-of-00026.safetensors",
+    "model.language_model.layers.38.input_layernorm.weight": "model-00025-of-00026.safetensors",
+    "model.language_model.layers.38.linear_attn.A_log": "model-00025-of-00026.safetensors",
+    "model.language_model.layers.38.linear_attn.conv1d.weight": "model-00025-of-00026.safetensors",
+    "model.language_model.layers.38.linear_attn.dt_bias": "model-00025-of-00026.safetensors",
+    "model.language_model.layers.38.linear_attn.in_proj_a.weight": "model-00025-of-00026.safetensors",
+    "model.language_model.layers.38.linear_attn.in_proj_b.weight": "model-00025-of-00026.safetensors",
+    "model.language_model.layers.38.linear_attn.in_proj_qkv.weight": "model-00025-of-00026.safetensors",
+    "model.language_model.layers.38.linear_attn.in_proj_z.weight": "model-00025-of-00026.safetensors",
+    "model.language_model.layers.38.linear_attn.norm.weight": "model-00025-of-00026.safetensors",
+    "model.language_model.layers.38.linear_attn.out_proj.weight": "model-00025-of-00026.safetensors",
+    "model.language_model.layers.38.mlp.experts.down_proj": "model-00025-of-00026.safetensors",
+    "model.language_model.layers.38.mlp.experts.gate_up_proj": "model-00025-of-00026.safetensors",
+    "model.language_model.layers.38.mlp.gate.weight": "model-00025-of-00026.safetensors",
+    "model.language_model.layers.38.mlp.shared_expert.down_proj.weight": "model-00025-of-00026.safetensors",
+    "model.language_model.layers.38.mlp.shared_expert.gate_proj.weight": "model-00025-of-00026.safetensors",
+    "model.language_model.layers.38.mlp.shared_expert.up_proj.weight": "model-00025-of-00026.safetensors",
+    "model.language_model.layers.38.mlp.shared_expert_gate.weight": "model-00025-of-00026.safetensors",
+    "model.language_model.layers.38.post_attention_layernorm.weight": "model-00025-of-00026.safetensors",
+    "model.language_model.layers.39.input_layernorm.weight": "model-00026-of-00026.safetensors",
+    "model.language_model.layers.39.mlp.experts.down_proj": "model-00026-of-00026.safetensors",
+    "model.language_model.layers.39.mlp.experts.gate_up_proj": "model-00025-of-00026.safetensors",
+    "model.language_model.layers.39.mlp.gate.weight": "model-00026-of-00026.safetensors",
+    "model.language_model.layers.39.mlp.shared_expert.down_proj.weight": "model-00026-of-00026.safetensors",
+    "model.language_model.layers.39.mlp.shared_expert.gate_proj.weight": "model-00026-of-00026.safetensors",
+    "model.language_model.layers.39.mlp.shared_expert.up_proj.weight": "model-00026-of-00026.safetensors",
+    "model.language_model.layers.39.mlp.shared_expert_gate.weight": "model-00026-of-00026.safetensors",
+    "model.language_model.layers.39.post_attention_layernorm.weight": "model-00026-of-00026.safetensors",
+    "model.language_model.layers.39.self_attn.k_norm.weight": "model-00026-of-00026.safetensors",
+    "model.language_model.layers.39.self_attn.k_proj.weight": "model-00026-of-00026.safetensors",
+    "model.language_model.layers.39.self_attn.o_proj.weight": "model-00026-of-00026.safetensors",
+    "model.language_model.layers.39.self_attn.q_norm.weight": "model-00026-of-00026.safetensors",
+    "model.language_model.layers.39.self_attn.q_proj.weight": "model-00026-of-00026.safetensors",
+    "model.language_model.layers.39.self_attn.v_proj.weight": "model-00026-of-00026.safetensors",
+    "model.language_model.layers.4.input_layernorm.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.4.linear_attn.A_log": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.4.linear_attn.conv1d.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.4.linear_attn.dt_bias": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.4.linear_attn.in_proj_a.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.4.linear_attn.in_proj_b.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.4.linear_attn.in_proj_qkv.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.4.linear_attn.in_proj_z.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.4.linear_attn.norm.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.4.linear_attn.out_proj.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.4.mlp.experts.down_proj": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.4.mlp.experts.gate_up_proj": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.4.mlp.gate.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.4.mlp.shared_expert.down_proj.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.4.mlp.shared_expert.gate_proj.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.4.mlp.shared_expert.up_proj.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.4.mlp.shared_expert_gate.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.4.post_attention_layernorm.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.5.input_layernorm.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.5.linear_attn.A_log": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.5.linear_attn.conv1d.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.5.linear_attn.dt_bias": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.5.linear_attn.in_proj_a.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.5.linear_attn.in_proj_b.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.5.linear_attn.in_proj_qkv.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.5.linear_attn.in_proj_z.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.5.linear_attn.norm.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.5.linear_attn.out_proj.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.5.mlp.experts.down_proj": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.5.mlp.experts.gate_up_proj": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.5.mlp.gate.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.5.mlp.shared_expert.down_proj.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.5.mlp.shared_expert.gate_proj.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.5.mlp.shared_expert.up_proj.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.5.mlp.shared_expert_gate.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.5.post_attention_layernorm.weight": "model-00004-of-00026.safetensors",
+    "model.language_model.layers.6.input_layernorm.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.6.linear_attn.A_log": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.6.linear_attn.conv1d.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.6.linear_attn.dt_bias": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.6.linear_attn.in_proj_a.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.6.linear_attn.in_proj_b.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.6.linear_attn.in_proj_qkv.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.6.linear_attn.in_proj_z.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.6.linear_attn.norm.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.6.linear_attn.out_proj.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.6.mlp.experts.down_proj": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.6.mlp.experts.gate_up_proj": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.6.mlp.gate.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.6.mlp.shared_expert.down_proj.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.6.mlp.shared_expert.gate_proj.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.6.mlp.shared_expert.up_proj.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.6.mlp.shared_expert_gate.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.6.post_attention_layernorm.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.7.input_layernorm.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.7.mlp.experts.down_proj": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.7.mlp.experts.gate_up_proj": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.7.mlp.gate.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.7.mlp.shared_expert.down_proj.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.7.mlp.shared_expert.gate_proj.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.7.mlp.shared_expert.up_proj.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.7.mlp.shared_expert_gate.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.7.post_attention_layernorm.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.7.self_attn.k_norm.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.7.self_attn.k_proj.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.7.self_attn.o_proj.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.7.self_attn.q_norm.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.7.self_attn.q_proj.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.7.self_attn.v_proj.weight": "model-00005-of-00026.safetensors",
+    "model.language_model.layers.8.input_layernorm.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.8.linear_attn.A_log": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.8.linear_attn.conv1d.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.8.linear_attn.dt_bias": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.8.linear_attn.in_proj_a.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.8.linear_attn.in_proj_b.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.8.linear_attn.in_proj_qkv.weight": "model-00006-of-00026.safetensors",
+    "model.language_model.layers.8.linear_attn.in_proj_z.weight": "model-00006-of-00026.safetensors",
+    "model.language_model.layers.8.linear_attn.norm.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.8.linear_attn.out_proj.weight": "model-00006-of-00026.safetensors",
+    "model.language_model.layers.8.mlp.experts.down_proj": "model-00006-of-00026.safetensors",
+    "model.language_model.layers.8.mlp.experts.gate_up_proj": "model-00006-of-00026.safetensors",
+    "model.language_model.layers.8.mlp.gate.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.8.mlp.shared_expert.down_proj.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.8.mlp.shared_expert.gate_proj.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.8.mlp.shared_expert.up_proj.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.8.mlp.shared_expert_gate.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.8.post_attention_layernorm.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.9.input_layernorm.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.9.linear_attn.A_log": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.9.linear_attn.conv1d.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.9.linear_attn.dt_bias": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.9.linear_attn.in_proj_a.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.9.linear_attn.in_proj_b.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.9.linear_attn.in_proj_qkv.weight": "model-00006-of-00026.safetensors",
+    "model.language_model.layers.9.linear_attn.in_proj_z.weight": "model-00006-of-00026.safetensors",
+    "model.language_model.layers.9.linear_attn.norm.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.9.linear_attn.out_proj.weight": "model-00006-of-00026.safetensors",
+    "model.language_model.layers.9.mlp.experts.down_proj": "model-00006-of-00026.safetensors",
+    "model.language_model.layers.9.mlp.experts.gate_up_proj": "model-00006-of-00026.safetensors",
+    "model.language_model.layers.9.mlp.gate.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.9.mlp.shared_expert.down_proj.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.9.mlp.shared_expert.gate_proj.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.9.mlp.shared_expert.up_proj.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.9.mlp.shared_expert_gate.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.layers.9.post_attention_layernorm.weight": "model-00007-of-00026.safetensors",
+    "model.language_model.norm.weight": "model-00026-of-00026.safetensors",
+    "model.visual.blocks.0.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.0.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.0.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.0.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.0.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.0.mlp.linear_fc1.weight": "model-00001-of-00026.safetensors",
+    "model.visual.blocks.0.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.0.mlp.linear_fc2.weight": "model-00001-of-00026.safetensors",
+    "model.visual.blocks.0.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.0.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.0.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.0.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.1.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.1.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.1.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.1.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.1.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.1.mlp.linear_fc1.weight": "model-00001-of-00026.safetensors",
+    "model.visual.blocks.1.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.1.mlp.linear_fc2.weight": "model-00001-of-00026.safetensors",
+    "model.visual.blocks.1.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.1.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.1.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.1.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.10.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.10.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.10.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.10.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.10.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.10.mlp.linear_fc1.weight": "model-00001-of-00026.safetensors",
+    "model.visual.blocks.10.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.10.mlp.linear_fc2.weight": "model-00001-of-00026.safetensors",
+    "model.visual.blocks.10.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.10.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.10.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.10.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.11.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.11.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.11.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.11.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.11.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.11.mlp.linear_fc1.weight": "model-00001-of-00026.safetensors",
+    "model.visual.blocks.11.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.11.mlp.linear_fc2.weight": "model-00001-of-00026.safetensors",
+    "model.visual.blocks.11.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.11.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.11.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.11.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.12.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.12.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.12.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.12.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.12.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.12.mlp.linear_fc1.weight": "model-00001-of-00026.safetensors",
+    "model.visual.blocks.12.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.12.mlp.linear_fc2.weight": "model-00001-of-00026.safetensors",
+    "model.visual.blocks.12.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.12.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.12.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.12.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.13.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.13.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.13.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.13.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.13.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.13.mlp.linear_fc1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.13.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.13.mlp.linear_fc2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.13.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.13.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.13.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.13.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.14.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.14.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.14.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.14.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.14.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.14.mlp.linear_fc1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.14.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.14.mlp.linear_fc2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.14.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.14.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.14.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.14.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.15.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.15.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.15.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.15.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.15.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.15.mlp.linear_fc1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.15.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.15.mlp.linear_fc2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.15.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.15.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.15.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.15.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.16.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.16.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.16.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.16.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.16.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.16.mlp.linear_fc1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.16.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.16.mlp.linear_fc2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.16.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.16.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.16.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.16.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.17.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.17.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.17.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.17.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.17.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.17.mlp.linear_fc1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.17.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.17.mlp.linear_fc2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.17.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.17.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.17.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.17.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.18.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.18.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.18.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.18.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.18.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.18.mlp.linear_fc1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.18.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.18.mlp.linear_fc2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.18.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.18.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.18.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.18.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.19.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.19.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.19.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.19.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.19.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.19.mlp.linear_fc1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.19.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.19.mlp.linear_fc2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.19.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.19.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.19.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.19.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.2.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.2.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.2.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.2.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.2.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.2.mlp.linear_fc1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.2.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.2.mlp.linear_fc2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.2.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.2.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.2.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.2.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.20.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.20.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.20.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.20.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.20.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.20.mlp.linear_fc1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.20.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.20.mlp.linear_fc2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.20.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.20.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.20.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.20.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.21.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.21.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.21.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.21.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.21.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.21.mlp.linear_fc1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.21.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.21.mlp.linear_fc2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.21.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.21.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.21.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.21.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.22.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.22.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.22.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.22.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.22.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.22.mlp.linear_fc1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.22.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.22.mlp.linear_fc2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.22.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.22.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.22.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.22.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.23.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.23.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.23.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.23.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.23.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.23.mlp.linear_fc1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.23.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.23.mlp.linear_fc2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.23.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.23.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.23.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.23.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.24.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.24.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.24.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.24.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.24.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.24.mlp.linear_fc1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.24.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.24.mlp.linear_fc2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.24.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.24.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.24.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.24.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.25.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.25.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.25.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.25.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.25.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.25.mlp.linear_fc1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.25.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.25.mlp.linear_fc2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.25.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.25.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.25.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.25.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.26.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.26.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.26.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.26.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.26.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.26.mlp.linear_fc1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.26.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.26.mlp.linear_fc2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.26.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.26.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.26.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.26.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.3.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.3.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.3.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.3.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.3.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.3.mlp.linear_fc1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.3.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.3.mlp.linear_fc2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.3.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.3.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.3.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.3.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.4.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.4.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.4.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.4.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.4.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.4.mlp.linear_fc1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.4.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.4.mlp.linear_fc2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.4.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.4.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.4.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.4.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.5.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.5.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.5.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.5.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.5.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.5.mlp.linear_fc1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.5.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.5.mlp.linear_fc2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.5.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.5.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.5.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.5.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.6.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.6.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.6.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.6.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.6.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.6.mlp.linear_fc1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.6.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.6.mlp.linear_fc2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.6.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.6.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.6.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.6.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.7.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.7.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.7.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.7.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.7.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.7.mlp.linear_fc1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.7.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.7.mlp.linear_fc2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.7.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.7.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.7.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.7.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.8.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.8.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.8.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.8.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.8.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.8.mlp.linear_fc1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.8.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.8.mlp.linear_fc2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.8.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.8.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.8.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.8.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.9.attn.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.9.attn.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.9.attn.qkv.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.9.attn.qkv.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.9.mlp.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.9.mlp.linear_fc1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.9.mlp.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.9.mlp.linear_fc2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.9.norm1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.9.norm1.weight": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.9.norm2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.blocks.9.norm2.weight": "model-00002-of-00026.safetensors",
+    "model.visual.merger.linear_fc1.bias": "model-00002-of-00026.safetensors",
+    "model.visual.merger.linear_fc1.weight": "model-00001-of-00026.safetensors",
+    "model.visual.merger.linear_fc2.bias": "model-00002-of-00026.safetensors",
+    "model.visual.merger.linear_fc2.weight": "model-00001-of-00026.safetensors",
+    "model.visual.merger.norm.bias": "model-00002-of-00026.safetensors",
+    "model.visual.merger.norm.weight": "model-00002-of-00026.safetensors",
+    "model.visual.patch_embed.proj.bias": "model-00002-of-00026.safetensors",
+    "model.visual.patch_embed.proj.weight": "model-00002-of-00026.safetensors",
+    "model.visual.pos_embed.weight": "model-00002-of-00026.safetensors",
+    "mtp.fc.weight": "model-00026-of-00026.safetensors",
+    "mtp.layers.0.input_layernorm.weight": "model-00026-of-00026.safetensors",
+    "mtp.layers.0.mlp.experts.down_proj": "model-00026-of-00026.safetensors",
+    "mtp.layers.0.mlp.experts.gate_up_proj": "model-00025-of-00026.safetensors",
+    "mtp.layers.0.mlp.gate.weight": "model-00026-of-00026.safetensors",
+    "mtp.layers.0.mlp.shared_expert.down_proj.weight": "model-00026-of-00026.safetensors",
+    "mtp.layers.0.mlp.shared_expert.gate_proj.weight": "model-00026-of-00026.safetensors",
+    "mtp.layers.0.mlp.shared_expert.up_proj.weight": "model-00026-of-00026.safetensors",
+    "mtp.layers.0.mlp.shared_expert_gate.weight": "model-00026-of-00026.safetensors",
+    "mtp.layers.0.post_attention_layernorm.weight": "model-00026-of-00026.safetensors",
+    "mtp.layers.0.self_attn.k_norm.weight": "model-00026-of-00026.safetensors",
+    "mtp.layers.0.self_attn.k_proj.weight": "model-00026-of-00026.safetensors",
+    "mtp.layers.0.self_attn.o_proj.weight": "model-00026-of-00026.safetensors",
+    "mtp.layers.0.self_attn.q_norm.weight": "model-00026-of-00026.safetensors",
+    "mtp.layers.0.self_attn.q_proj.weight": "model-00026-of-00026.safetensors",
+    "mtp.layers.0.self_attn.v_proj.weight": "model-00026-of-00026.safetensors",
+    "mtp.norm.weight": "model-00026-of-00026.safetensors",
+    "mtp.pre_fc_norm_embedding.weight": "model-00026-of-00026.safetensors",
+    "mtp.pre_fc_norm_hidden.weight": "model-00026-of-00026.safetensors"
+  }
+}

processor_config.json ADDED Viewed

	@@ -0,0 +1,63 @@

+{
+  "image_processor": {
+    "data_format": "channels_first",
+    "do_convert_rgb": true,
+    "do_normalize": true,
+    "do_rescale": true,
+    "do_resize": true,
+    "image_mean": [
+      0.5,
+      0.5,
+      0.5
+    ],
+    "image_processor_type": "Qwen2VLImageProcessorFast",
+    "image_std": [
+      0.5,
+      0.5,
+      0.5
+    ],
+    "merge_size": 2,
+    "patch_size": 16,
+    "resample": 3,
+    "rescale_factor": 0.00392156862745098,
+    "size": {
+      "longest_edge": 16777216,
+      "shortest_edge": 65536
+    },
+    "temporal_patch_size": 2
+  },
+  "processor_class": "Qwen3VLProcessor",
+  "video_processor": {
+    "data_format": "channels_first",
+    "default_to_square": true,
+    "do_convert_rgb": true,
+    "do_normalize": true,
+    "do_rescale": true,
+    "do_resize": true,
+    "do_sample_frames": true,
+    "fps": 2,
+    "image_mean": [
+      0.5,
+      0.5,
+      0.5
+    ],
+    "image_std": [
+      0.5,
+      0.5,
+      0.5
+    ],
+    "max_frames": 768,
+    "merge_size": 2,
+    "min_frames": 4,
+    "patch_size": 16,
+    "resample": 3,
+    "rescale_factor": 0.00392156862745098,
+    "return_metadata": false,
+    "size": {
+      "longest_edge": 25165824,
+      "shortest_edge": 4096
+    },
+    "temporal_patch_size": 2,
+    "video_processor_type": "Qwen3VLVideoProcessor"
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:87a7830d63fcf43bf241c3c5242e96e62dd3fdc29224ca26fed8ea333db72de4
+size 19989343

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "add_prefix_space": false,
+  "audio_bos_token": "<|audio_start|>",
+  "audio_eos_token": "<|audio_end|>",
+  "audio_token": "<|audio_pad|>",
+  "backend": "tokenizers",
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "image_token": "<|image_pad|>",
+  "is_local": false,
+  "model_max_length": 262144,
+  "model_specific_special_tokens": {
+    "audio_bos_token": "<|audio_start|>",
+    "audio_eos_token": "<|audio_end|>",
+    "audio_token": "<|audio_pad|>",
+    "image_token": "<|image_pad|>",
+    "video_token": "<|video_pad|>",
+    "vision_bos_token": "<|vision_start|>",
+    "vision_eos_token": "<|vision_end|>"
+  },
+  "pad_token": "<|vision_pad|>",
+  "padding_side": "right",
+  "pretokenize_regex": "(?i:'s|'t|'re|'ve|'m|'ll|'d)|[^\\r\\n\\p{L}\\p{N}]?[\\p{L}\\p{M}]+|\\p{N}| ?[^\\s\\p{L}\\p{M}\\p{N}]+[\\r\\n]*|\\s*[\\r\\n]+|\\s+(?!\\S)|\\s+",
+  "processor_class": "Qwen3VLProcessor",
+  "split_special_tokens": false,
+  "tokenizer_class": "TokenizersBackend",
+  "unk_token": null,
+  "video_token": "<|video_pad|>",
+  "vision_bos_token": "<|vision_start|>",
+  "vision_eos_token": "<|vision_end|>",
+  "chat_template": "{%- set image_count = namespace(value=0) %}\n{%- set video_count = namespace(value=0) %}\n{%- macro render_content(content, do_vision_count, is_system_content=false) %}\n    {%- if content is string %}\n        {{- content }}\n    {%- elif content is iterable and content is not mapping %}\n        {%- for item in content %}\n            {%- if 'image' in item or 'image_url' in item or item.type == 'image' %}\n                {%- if is_system_content %}\n                    {{- raise_exception('System message cannot contain images.') }}\n                {%- endif %}\n                {%- if do_vision_count %}\n                    {%- set image_count.value = image_count.value + 1 %}\n                {%- endif %}\n                {%- if add_vision_id %}\n                    {{- 'Picture ' ~ image_count.value ~ ': ' }}\n                {%- endif %}\n                {{- '<|vision_start|><|image_pad|><|vision_end|>' }}\n            {%- elif 'video' in item or item.type == 'video' %}\n                {%- if is_system_content %}\n                    {{- raise_exception('System message cannot contain videos.') }}\n                {%- endif %}\n                {%- if do_vision_count %}\n                    {%- set video_count.value = video_count.value + 1 %}\n                {%- endif %}\n                {%- if add_vision_id %}\n                    {{- 'Video ' ~ video_count.value ~ ': ' }}\n                {%- endif %}\n                {{- '<|vision_start|><|video_pad|><|vision_end|>' }}\n            {%- elif 'text' in item %}\n                {{- item.text }}\n            {%- else %}\n                {{- raise_exception('Unexpected item type in content.') }}\n            {%- endif %}\n        {%- endfor %}\n    {%- elif content is none or content is undefined %}\n        {{- '' }}\n    {%- else %}\n        {{- raise_exception('Unexpected content type.') }}\n    {%- endif %}\n{%- endmacro %}\n{%- if not messages %}\n    {{- raise_exception('No messages provided.') }}\n{%- endif %}\n{%- set num_sys = 0 %}\n{%- set merged_system = '' %}\n{%- if messages[0].role == 'system' or messages[0].role == 'developer' %}\n    {%- set first = render_content(messages[0].content, false, true)|trim %}\n    {%- if messages|length > 1 and (messages[1].role == 'system' or messages[1].role == 'developer') %}\n        {%- set second = render_content(messages[1].content, false, true)|trim %}\n        {%- set merged_system = first + '\\n' + second %}\n        {%- set num_sys = 2 %}\n    {%- else %}\n        {%- set merged_system = first %}\n        {%- set num_sys = 1 %}\n    {%- endif %}\n{%- endif %}\n{%- if tools and tools is iterable and tools is not mapping %}\n    {{- '<|im_start|>system\\n' }}\n    {{- \"# Tools\\n\\nYou have access to the following functions:\\n\\n<tools>\" }}\n    {%- for tool in tools %}\n        {{- \"\\n\" }}\n        {{- tool | tojson }}\n    {%- endfor %}\n    {{- \"\\n</tools>\" }}\n    {{- '\\n\\nIf you choose to call a function ONLY reply in the following format with NO suffix:\\n\\n<tool_call>\\n<function=example_function_name>\\n<parameter=example_parameter_1>\\nvalue_1\\n</parameter>\\n<parameter=example_parameter_2>\\nThis is the value for the second parameter\\nthat can span\\nmultiple lines\\n</parameter>\\n</function>\\n</tool_call>\\n\\n<IMPORTANT>\\nReminder:\\n- Function calls MUST follow the specified format: an inner <function=...></function> block must be nested within <tool_call></tool_call> XML tags\\n- Required parameters MUST be specified\\n- You may provide optional reasoning for your function call in natural language BEFORE the function call, but NOT after\\n- If there is no function call available, answer the question like normal with your current knowledge and do not tell the user about function calls\\n</IMPORTANT>' }}\n    {%- if merged_system %}\n        {{- '\\n\\n' + merged_system }}\n    {%- endif %}\n    {{- '<|im_end|>\\n' }}\n{%- else %}\n    {%- if merged_system %}\n        {{- '<|im_start|>system\\n' + merged_system + '<|im_end|>\\n' }}\n    {%- endif %}\n{%- endif %}\n{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}\n{%- for message in messages[::-1] %}\n    {%- set index = (messages|length - 1) - loop.index0 %}\n    {%- if ns.multi_step_tool and message.role == \"user\" %}\n        {%- set content = render_content(message.content, false)|trim %}\n        {%- if not(content.startswith('<tool_response>') and content.endswith('</tool_response>')) %}\n            {%- set ns.multi_step_tool = false %}\n            {%- set ns.last_query_index = index %}\n        {%- endif %}\n    {%- endif %}\n{%- endfor %}\n{%- for message in messages %}\n    {%- if loop.index0 >= num_sys and message.role != \"system\" and message.role != \"developer\" %}\n    {%- set content = render_content(message.content, true)|trim %}\n    {%- if message.role == \"user\" %}\n        {{- '<|im_start|>' + message.role + '\\n' + content + '<|im_end|>' + '\\n' }}\n    {%- elif message.role == \"assistant\" %}\n        {%- set reasoning_content = '' %}\n        {%- if message.reasoning_content is string %}\n            {%- set reasoning_content = message.reasoning_content %}\n        {%- else %}\n            {%- if '</think>' in content %}\n                {%- set reasoning_content = content.split('</think>')[0].rstrip('\\n').split('<think>')[-1].lstrip('\\n') %}\n                {%- set content = content.split('</think>')[-1].lstrip('\\n') %}\n            {%- endif %}\n        {%- endif %}\n        {%- set reasoning_content = reasoning_content|trim %}\n        {%- if (preserve_thinking is defined and preserve_thinking is true) or (loop.index0 > ns.last_query_index) %}\n            {{- '<|im_start|>' + message.role + '\\n<think>\\n' + reasoning_content + '\\n</think>\\n\\n' + content }}\n        {%- else %}\n            {{- '<|im_start|>' + message.role + '\\n' + content }}\n        {%- endif %}\n        {%- if message.tool_calls and message.tool_calls is iterable and message.tool_calls is not mapping %}\n            {%- for tool_call in message.tool_calls %}\n                {%- if tool_call.function is defined %}\n                    {%- set tool_call = tool_call.function %}\n                {%- endif %}\n                {%- if loop.first %}\n                    {%- if content|trim %}\n                        {{- '\\n\\n<tool_call>\\n<function=' + tool_call.name + '>\\n' }}\n                    {%- else %}\n                        {{- '<tool_call>\\n<function=' + tool_call.name + '>\\n' }}\n                    {%- endif %}\n                {%- else %}\n                    {{- '\\n<tool_call>\\n<function=' + tool_call.name + '>\\n' }}\n                {%- endif %}\n                {%- if tool_call.arguments is mapping %}\n                    {%- for args_name in tool_call.arguments %}\n                        {%- set args_value = tool_call.arguments[args_name] %}\n                        {{- '<parameter=' + args_name + '>\\n' }}\n                        {%- set args_value = args_value | tojson | safe if args_value is mapping or (args_value is sequence and args_value is not string) else args_value | string %}\n                        {{- args_value }}\n                        {{- '\\n</parameter>\\n' }}\n                    {%- endfor %}\n                {%- endif %}\n                {{- '</function>\\n</tool_call>' }}\n            {%- endfor %}\n        {%- endif %}\n        {{- '<|im_end|>\\n' }}\n    {%- elif message.role == \"tool\" %}\n        {%- if loop.previtem and loop.previtem.role != \"tool\" %}\n            {{- '<|im_start|>user' }}\n        {%- endif %}\n        {{- '\\n<tool_response>\\n' }}\n        {{- content }}\n        {{- '\\n</tool_response>' }}\n        {%- if not loop.last and loop.nextitem.role != \"tool\" %}\n            {{- '<|im_end|>\\n' }}\n        {%- elif loop.last %}\n            {{- '<|im_end|>\\n' }}\n        {%- endif %}\n    {%- endif %}\n    {%- endif %}\n{%- endfor %}\n{%- if add_generation_prompt %}\n    {{- '<|im_start|>assistant\\n' }}\n    {%- if enable_thinking is defined and enable_thinking is false %}\n        {{- '<think>\\n\\n</think>\\n\\n' }}\n    {%- else %}\n        {{- '<think>\\n' }}\n    {%- endif %}\n{%- endif %}\n{#- Unsloth fixes - developer role, tool calling #}"
+}