Spaces:

Lightricks
/

LTX-2-3

Runtime error

multimodalart HF Staff commited on Mar 5

Commit

8396596

verified ·

1 Parent(s): 3f08dd1

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -90,25 +90,24 @@ pipeline = DistilledPipeline(
     quantization=QuantizationPolicy.fp8_cast(),
 )
-# Preload all models so first request is fast.
-# On ZeroGPU, .to('cuda') is intercepted and actual GPU allocation
-# happens inside the @spaces.GPU decorated function.
-print("Preloading models...")
 ledger = pipeline.model_ledger
-_transformer = ledger.transformer()
 _video_encoder = ledger.video_encoder()
 _video_decoder = ledger.video_decoder()
 _audio_decoder = ledger.audio_decoder()
 _vocoder = ledger.vocoder()
 _spatial_upsampler = ledger.spatial_upsampler()
-ledger.transformer = lambda: _transformer
 ledger.video_encoder = lambda: _video_encoder
 ledger.video_decoder = lambda: _video_decoder
 ledger.audio_decoder = lambda: _audio_decoder
 ledger.vocoder = lambda: _vocoder
 ledger.spatial_upsampler = lambda: _spatial_upsampler
-print("All models preloaded!")
 # Connect to text encoder space
 print(f"Connecting to text encoder space: {TEXT_ENCODER_SPACE}")

     quantization=QuantizationPolicy.fp8_cast(),
 )
+# Preload small models for ZeroGPU tensor packing.
+# DO NOT preload the transformer (~20GB) — the pipeline needs to load/unload
+# it between stages (FP8 upcast doubles it to ~44GB during forward pass).
+# Keeping it cached prevents cleanup_memory() from freeing it.
+print("Preloading small models...")
 ledger = pipeline.model_ledger
 _video_encoder = ledger.video_encoder()
 _video_decoder = ledger.video_decoder()
 _audio_decoder = ledger.audio_decoder()
 _vocoder = ledger.vocoder()
 _spatial_upsampler = ledger.spatial_upsampler()
 ledger.video_encoder = lambda: _video_encoder
 ledger.video_decoder = lambda: _video_decoder
 ledger.audio_decoder = lambda: _audio_decoder
 ledger.vocoder = lambda: _vocoder
 ledger.spatial_upsampler = lambda: _spatial_upsampler
+print("Small models preloaded! (transformer loads on demand per stage)")
 # Connect to text encoder space
 print(f"Connecting to text encoder space: {TEXT_ENCODER_SPACE}")