nemotron3-nano-30b-a3b-spiral-step130

tmarques

maxbittker commited on May 6

Commit

eb88ea6

0 Parent(s):

Duplicate from maxbittker/nemotron3-nano-30b-a3b-spiral-step130

Browse files

Co-authored-by: max bittker <maxbittker@users.noreply.huggingface.co>

Files changed (4) hide show

.gitattributes +35 -0
README.md +63 -0
adapter_config.json +31 -0
adapter_model.safetensors +3 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,63 @@

+---
+base_model: nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16
+library_name: peft
+tags:
+  - spiral
+  - self-play
+  - reinforcement-learning
+  - lora
+  - nemotron
+---
+# nemotron3-nano-30b-a3b-spiral-step130 (LoRA)
+LoRA adapter trained with the [SPIRAL](https://arxiv.org/abs/2506.24119) self-play RL framework on top of
+`nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16`.
+## Training
+- **Base model**: `nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16` (30B-total / 3B-active MoE, reasoning-capable)
+- **Renderer**: `nemotron3` (thinking enabled)
+- **Environments**: `TicTacToe-v0`, `KuhnPoker-v1`, `SimpleNegotiation-v1` (self-play, role-conditioned advantage estimation / RAE)
+- **LoRA rank**: 64 (`target_modules=all-linear`, alpha 32)
+- **Batch size**: 128 self-play games
+- **Max tokens per turn**: 4096
+- **Learning rate**: 4e-5
+- **Checkpointed at**: training step 130 (of planned 400)
+- **Training backend**: [Tinker](https://tinker-docs.thinkingmachines.ai/) (LoRA fine-tuning API from Thinking Machines Lab)
+## Math benchmark results (step-130 vs base)
+| Benchmark | Base | Step-130 | Δ |
+|---|---:|---:|---:|
+| AIME24 | 36.7% | 36.7% | 0.0 |
+| AMC23 | 67.1% | 74.4% | +7.3 |
+| MATH500 | 89.0% | 90.8% | +1.8 |
+| Minerva | 29.4% | 30.1% | +0.7 |
+| Olympiad-Bench | 50.1% | 53.2% | +3.1 |
+| **Average** | **54.5%** | **57.0%** | **+2.5** |
+All evals done with `nemotron3` renderer (thinking enabled), max_tokens 8192, full test sets, unified `\boxed{}` answer extraction.
+## Load
+```python
+from peft import AutoPeftModelForCausalLM
+from transformers import AutoTokenizer
+model = AutoPeftModelForCausalLM.from_pretrained("maxbittker/nemotron3-nano-30b-a3b-spiral-step130",
+                                                  device_map="auto",
+                                                  torch_dtype="auto")
+tokenizer = AutoTokenizer.from_pretrained("nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16")
+```
+Or merge and save as a full model:
+```python
+merged = model.merge_and_unload()
+merged.save_pretrained("./nemotron3-spiral-step130-merged")
+```
+## Status
+Training is ongoing — further checkpoints will land at `step200`, `step300`, `step400`.

adapter_config.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16",
+  "bias": "none",
+  "corda_config": null,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": false,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 32,
+  "lora_bias": false,
+  "lora_dropout": 0,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 64,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": "all-linear",
+  "task_type": "CAUSAL_LM",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_rslora": false
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b2de86f80a09f1bc1b1db949859a5c715bbc132c8c9d530a7a05cb528d934baa
+size 3088638968