Spaces:

alexandrainst
/

roest-chatterbox-demo

Sleeping

Biorrith commited on Sep 22, 2025

Commit

18de4f2

1 Parent(s): 82892a4

Refactor to use local voices with Git LFS support

- Replace online voice URLs with local files from voices/ folder
- Add Danish voice selection dropdown (mic vs nic)
- Configure Git LFS for audio file handling
- Update UI to show/hide Danish voice options dynamically

Files changed (5) hide show

.gitattributes +2 -0
app.py +51 -9
voices/en_f1.flac +3 -0
voices/mic.wav +3 -0
voices/nic.wav +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,5 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+*.wav filter=lfs diff=lfs merge=lfs -text
+*.flac filter=lfs diff=lfs merge=lfs -text

app.py CHANGED Viewed

@@ -12,24 +12,36 @@ MODEL = None
 LANGUAGE_CONFIG = {
     "da": {
-        "audio": "https://storage.googleapis.com/chatterbox-demo-samples/mtl_prompts/da_m1.flac",
         "text": "Sidste måned nåede vi en ny milepæl med to milliarder visninger på vores YouTube-kanal."
     },
     "en": {
-        "audio": "https://storage.googleapis.com/chatterbox-demo-samples/mtl_prompts/en_f1.flac",
         "text": "Last month, we reached a new milestone with two billion views on our YouTube channel."
     },
 }
 # --- UI Helpers ---
-def default_audio_for_ui(lang: str) -> str | None:
-    return LANGUAGE_CONFIG.get(lang, {}).get("audio")
 def default_text_for_ui(lang: str) -> str:
     return LANGUAGE_CONFIG.get(lang, {}).get("text", "")
 def get_supported_languages_display() -> str:
     """Generate a formatted display of all supported languages."""
     language_items = []
@@ -80,21 +92,23 @@ def set_seed(seed: int):
     random.seed(seed)
     np.random.seed(seed)
-def resolve_audio_prompt(language_id: str, provided_path: str | None) -> str | None:
     """
     Decide which audio prompt to use:
     - If user provided a path (upload/mic/url), use it.
     - Else, fall back to language-specific default (if any).
     """
     if provided_path and str(provided_path).strip():
         return provided_path
-    return LANGUAGE_CONFIG.get(language_id, {}).get("audio")
 def generate_tts_audio(
     text_input: str,
     language_id: str,
     audio_prompt_path_input: str = None,
     exaggeration_input: float = 0.5,
     temperature_input: float = 0.8,
     seed_num_input: int = 0,
@@ -131,7 +145,7 @@ def generate_tts_audio(
     print(f"Generating audio for text: '{text_input[:50]}...'")
     # Handle optional audio prompt
-    chosen_prompt = audio_prompt_path_input or default_audio_for_ui(language_id)
     generate_kwargs = {
         "exaggeration": exaggeration_input,
@@ -178,6 +192,14 @@ with gr.Blocks() as demo:
                 info="Select the language for text-to-speech synthesis"
             )
             ref_wav = gr.Audio(
                 sources=["upload", "microphone"],
                 type="filepath",
@@ -207,12 +229,31 @@ with gr.Blocks() as demo:
             audio_output = gr.Audio(label="Output Audio")
         def on_language_change(lang, current_ref, current_text):
-            return default_audio_for_ui(lang), default_text_for_ui(lang)
         language_id.change(
             fn=on_language_change,
             inputs=[language_id, ref_wav, text],
-            outputs=[ref_wav, text],
             show_progress=False
         )
@@ -222,6 +263,7 @@ with gr.Blocks() as demo:
             text,
             language_id,
             ref_wav,
             exaggeration,
             temp,
             seed_num,

 LANGUAGE_CONFIG = {
     "da": {
+        "audio_options": {
+            "mic": "voices/mic.wav",
+            "nic": "voices/nic.wav"
+        },
+        "default_audio": "voices/mic.wav",  # Default to mic
         "text": "Sidste måned nåede vi en ny milepæl med to milliarder visninger på vores YouTube-kanal."
     },
     "en": {
+        "audio": "voices/en_f1.flac",
         "text": "Last month, we reached a new milestone with two billion views on our YouTube channel."
     },
 }
 # --- UI Helpers ---
+def default_audio_for_ui(lang: str, danish_voice: str = "mic") -> str | None:
+    config = LANGUAGE_CONFIG.get(lang, {})
+    if lang == "da" and "audio_options" in config:
+        return config["audio_options"].get(danish_voice, config.get("default_audio"))
+    return config.get("audio")
 def default_text_for_ui(lang: str) -> str:
     return LANGUAGE_CONFIG.get(lang, {}).get("text", "")
+def get_danish_voice_options() -> list[tuple[str, str]]:
+    """Get the available Danish voice options for the dropdown."""
+    return [("Mic", "mic"), ("Nic", "nic")]
 def get_supported_languages_display() -> str:
     """Generate a formatted display of all supported languages."""
     language_items = []
     random.seed(seed)
     np.random.seed(seed)
+def resolve_audio_prompt(language_id: str, provided_path: str | None, danish_voice: str = "mic") -> str | None:
     """
     Decide which audio prompt to use:
     - If user provided a path (upload/mic/url), use it.
     - Else, fall back to language-specific default (if any).
+    - For Danish, use the selected voice option.
     """
     if provided_path and str(provided_path).strip():
         return provided_path
+    return default_audio_for_ui(language_id, danish_voice)
 def generate_tts_audio(
     text_input: str,
     language_id: str,
     audio_prompt_path_input: str = None,
+    danish_voice_input: str = "mic",
     exaggeration_input: float = 0.5,
     temperature_input: float = 0.8,
     seed_num_input: int = 0,
     print(f"Generating audio for text: '{text_input[:50]}...'")
     # Handle optional audio prompt
+    chosen_prompt = resolve_audio_prompt(language_id, audio_prompt_path_input, danish_voice_input)
     generate_kwargs = {
         "exaggeration": exaggeration_input,
                 info="Select the language for text-to-speech synthesis"
             )
+            danish_voice = gr.Dropdown(
+                choices=get_danish_voice_options(),
+                value="mic",
+                label="Danish Voice Selection",
+                info="Choose between different Danish voice options",
+                visible=(initial_lang == "da")
+            )
             ref_wav = gr.Audio(
                 sources=["upload", "microphone"],
                 type="filepath",
             audio_output = gr.Audio(label="Output Audio")
         def on_language_change(lang, current_ref, current_text):
+            is_danish = (lang == "da")
+            danish_voice_val = "mic" if is_danish else "mic"  # Default to mic
+            return (
+                default_audio_for_ui(lang, danish_voice_val),
+                default_text_for_ui(lang),
+                gr.update(visible=is_danish),  # Update Danish voice dropdown visibility
+                danish_voice_val
+            )
+        def on_danish_voice_change(lang, danish_voice_val):
+            if lang == "da":
+                return default_audio_for_ui(lang, danish_voice_val)
+            return gr.update()  # No change if not Danish
         language_id.change(
             fn=on_language_change,
             inputs=[language_id, ref_wav, text],
+            outputs=[ref_wav, text, danish_voice, danish_voice],
+            show_progress=False
+        )
+        danish_voice.change(
+            fn=on_danish_voice_change,
+            inputs=[language_id, danish_voice],
+            outputs=[ref_wav],
             show_progress=False
         )
             text,
             language_id,
             ref_wav,
+            danish_voice,
             exaggeration,
             temp,
             seed_num,

voices/en_f1.flac ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e81950378b53827aed08d164ebd332a7b8c5805b8a97b4f79ab057071e359c72
+size 83323

voices/mic.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:40956f5a6e515ea8cb322432516a768bac4ca6bc89d22876204e74c10fbd65d8
+size 1584998

voices/nic.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4406e09d3a1cdac713f54ea5153b56adb7bf4996c47d975aff27c65b034a2575
+size 1700098