Wrap audio placeholders with <so_start>/<so_end> tokens

Audio context is now expanded as <so_start>{<|audio_placeholder|>*N}<so_end>
instead of bare repeated placeholders, mirroring the <img>...</img>
wrapping used for vision tokens and matching vLLM's audio prompt format.

Signed-off-by: Chen Cui <chcui@nvidia.com>

Files changed (1) hide show

processing.py +3 -1

processing.py CHANGED Viewed

@@ -91,6 +91,8 @@ class NemotronH_Nano_Omni_Reasoning_V3Processor(ProcessorMixin):
         self.image_token = "<image>" if not hasattr(tokenizer, "image_token") else tokenizer.image_token
         self.video_token = "<video>" if not hasattr(tokenizer, "video_token") else tokenizer.video_token
         self.audio_token = "<so_embedding>" if not hasattr(tokenizer, "audio_token") else tokenizer.audio_token
         self.image_start_token = "<img>" if not hasattr(tokenizer, "image_start_token") else tokenizer.image_start_token
         self.image_end_token = "</img>" if not hasattr(tokenizer, "image_end_token") else tokenizer.image_end_token
         self.image_token_id = (
@@ -305,7 +307,7 @@ class NemotronH_Nano_Omni_Reasoning_V3Processor(ProcessorMixin):
                 while self.audio_token in text[i]:
                     num_tokens = audio_num_tokens[index] if index < len(audio_num_tokens) else 1
                     # Replace <audio> with repeated audio tokens
-                    text[i] = text[i].replace(self.audio_token, "<|audio_placeholder|>" * num_tokens, 1)
                     index += 1
                 text[i] = text[i].replace("<|audio_placeholder|>", self.audio_token)

         self.image_token = "<image>" if not hasattr(tokenizer, "image_token") else tokenizer.image_token
         self.video_token = "<video>" if not hasattr(tokenizer, "video_token") else tokenizer.video_token
         self.audio_token = "<so_embedding>" if not hasattr(tokenizer, "audio_token") else tokenizer.audio_token
+        self.audio_start_token = "<so_start>"
+        self.audio_end_token = "<so_end>"
         self.image_start_token = "<img>" if not hasattr(tokenizer, "image_start_token") else tokenizer.image_start_token
         self.image_end_token = "</img>" if not hasattr(tokenizer, "image_end_token") else tokenizer.image_end_token
         self.image_token_id = (
                 while self.audio_token in text[i]:
                     num_tokens = audio_num_tokens[index] if index < len(audio_num_tokens) else 1
                     # Replace <audio> with repeated audio tokens
+                    text[i] = text[i].replace(self.audio_token, self.audio_start_token + "<|audio_placeholder|>" * num_tokens + self.audio_end_token, 1)
                     index += 1
                 text[i] = text[i].replace("<|audio_placeholder|>", self.audio_token)