Spaces:

abhishekpawar7218
/

llama3.2-finetunemodel

Runtime error

abhishekpawar7218 commited on Apr 2, 2025

Commit

c979f49

1 Parent(s): 2f9fb17

Update space

Files changed (1) hide show

app.py CHANGED Viewed

@@ -27,8 +27,18 @@ def load_model():
         low_cpu_mem_usage=True
     )
     # Load tokenizer
     tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL, trust_remote_code=True)
     # Load LoRA adapter
     print(f"Loading LoRA adapter: {ADAPTER_MODEL}")
@@ -79,4 +89,4 @@ demo = gr.Interface(
     description=f"Running on {'CUDA' if torch.cuda.is_available() else 'CPU'} - May be slow on CPU."
 )
-demo.launch()

         low_cpu_mem_usage=True
     )
+    # Resize token embeddings to match the adapter
+    if base_model.get_input_embeddings().weight.shape[0] != 128257:
+        base_model.resize_token_embeddings(128257)
+        print(f"Resized embeddings from {base_model.get_input_embeddings().weight.shape[0]-1} to 128257")
     # Load tokenizer
     tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL, trust_remote_code=True)
+    # Ensure tokenizer has the same vocab size as the model
+    if len(tokenizer) != base_model.get_input_embeddings().weight.shape[0]:
+        tokenizer.add_special_tokens({'pad_token': '[PAD]'})
+        print(f"Added padding token to tokenizer. New size: {len(tokenizer)}")
     # Load LoRA adapter
     print(f"Loading LoRA adapter: {ADAPTER_MODEL}")
     description=f"Running on {'CUDA' if torch.cuda.is_available() else 'CPU'} - May be slow on CPU."
 )
+demo.launch()