Spaces:

stukenov
/

sozkz-kazakh-asr-demo

Sleeping

stukenov commited on 29 days ago

Commit

7768093

verified ·

1 Parent(s): 99a484e

Upload app.py with huggingface_hub

Files changed (1) hide show

app.py CHANGED Viewed

@@ -11,6 +11,7 @@ import torch
 import torch.nn as nn
 import torch.nn.functional as F
 import numpy as np
 import time
 from transformers import PreTrainedTokenizerFast
 from huggingface_hub import hf_hub_download, login
@@ -249,9 +250,7 @@ def transcribe(audio, model_name):
         if wav.ndim > 1:
             wav = wav.mean(axis=-1)
         if sr != 16000:
-            # Simple resample via interpolation
-            length = int(len(wav) * 16000 / sr)
-            wav = np.interp(np.linspace(0, len(wav)-1, length), np.arange(len(wav)), wav).astype(np.float32)
     elif isinstance(audio, tuple):
         sr, wav = audio
         wav = np.array(wav, dtype=np.float32)
@@ -260,9 +259,7 @@ def transcribe(audio, model_name):
         if np.abs(wav).max() > 1.0:
             wav = wav / 32768.0
         if sr != 16000:
-            # Simple resample via interpolation
-            length = int(len(wav) * 16000 / sr)
-            wav = np.interp(np.linspace(0, len(wav)-1, length), np.arange(len(wav)), wav).astype(np.float32)
     else:
         return "Unsupported audio format"

 import torch.nn as nn
 import torch.nn.functional as F
 import numpy as np
+import librosa
 import time
 from transformers import PreTrainedTokenizerFast
 from huggingface_hub import hf_hub_download, login
         if wav.ndim > 1:
             wav = wav.mean(axis=-1)
         if sr != 16000:
+            wav = librosa.resample(wav, orig_sr=sr, target_sr=16000)
     elif isinstance(audio, tuple):
         sr, wav = audio
         wav = np.array(wav, dtype=np.float32)
         if np.abs(wav).max() > 1.0:
             wav = wav / 32768.0
         if sr != 16000:
+            wav = librosa.resample(wav, orig_sr=sr, target_sr=16000)
     else:
         return "Unsupported audio format"