Update README.md

Files changed (1) hide show

README.md CHANGED Viewed

@@ -37,7 +37,7 @@ This model has been optimized using DPO to align its responses with preferred ou
 ## Training Pipeline
 1. **Base**: Qwen/Qwen3-4B-Instruct-2507
-2. **SFT**: Structured data generation/conversion with Chain-of-Thought (V4+V5+daichira converted, ~9.3k samples)
 3. **DPO Round 1**: Generic preference optimization (u-10bei/dpo-dataset-qwen-cot)
 4. **DPO Round 2 (this model)**: Format-specific preference optimization with programmatically generated chosen/rejected pairs (~1,150 pairs)

 ## Training Pipeline
 1. **Base**: Qwen/Qwen3-4B-Instruct-2507
+2. **SFT**: Structured data generation/conversion with Chain-of-Thought (V4+V5)
 3. **DPO Round 1**: Generic preference optimization (u-10bei/dpo-dataset-qwen-cot)
 4. **DPO Round 2 (this model)**: Format-specific preference optimization with programmatically generated chosen/rejected pairs (~1,150 pairs)