File size: 1,882 Bytes

5fb9559

---
license: apache-2.0
tags:
  - film-music
  - cinematic
  - music-generation
  - scene-understanding
  - pytorch
---

# Cinematic Music Descriptor v2 — All Checkpoints

This repository consolidates all training checkpoints for the
**Cinematic Music Descriptor v2** pipeline (Modules 1, 2, 3).

## Repository Layout

```
module1/
    module1_mlm_final.pt          ← Phase 2a: MLM pre-training
    module1_finetune_final.pt     ← Phase 2b: Supervised fine-tuning
    module1_regression_final.pt   ← Phase 2c: Regression heads
    module1_e2e_final.pt          ← Phase 6:  After E2E joint training

module2/
    module2_pretrain_final.pt     ← Phase 3a: Masked scene pre-training
    module2_finetune_final.pt     ← Phase 3b: Supervised fine-tuning
    module2_e2e_best.pt           ← Phase 5:  E2E best checkpoint
    module2_e2e_final.pt          ← Phase 6:  Final E2E checkpoint

module3/
    module3_m3_final.pt           ← Phase 4:  M3 standalone training
    module3_e2e_best.pt           ← Phase 5:  E2E best checkpoint  ★ recommended
    module3_e2e_final.pt          ← Phase 6:  Final E2E checkpoint
```

## Architecture Summary

| Module | Role | Backbone |
|--------|------|----------|
| Module 1 | Scene-level encoding & classification | RoBERTa-base + task heads |
| Module 2 | Cross-scene narrative context | Transformer encoder (4L × 8H) |
| Module 3 | Music descriptor prediction | Gated fusion (M1 + M2) + heads |

## Recommended Checkpoint Combination

For best end-to-end performance, load:
- `module1/module1_e2e_final.pt`
- `module2/module2_e2e_final.pt`
- `module3/module3_e2e_best.pt`  ← or `module3_e2e_final.pt`

## Source Repositories

Originally spread across:
- `suyashnpande/cinematic-music-descriptor-v2-module1`
- `suyashnpande/cinematic-music-descriptor-v2-module2`
- `suyashnpande/cinematic-music-descriptor-v2-module3`