Spaces:

badrex
/

JASRv1.1

Running on Zero

badrex commited on Oct 20

Commit

6ebefda

verified ·

1 Parent(s): 08eda6a

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,4 +1,5 @@
 import os
 import gradio as gr
 import spaces
 import torch
@@ -33,7 +34,16 @@ def process_audio(audio_path):
     if not audio_path:
         return "Please upload an audio file."
-    inputs = inputs = processor(audio_path, sampling_rate=16000, return_tensors="pt")
     inputs = inputs.to(device, dtype=torch.bfloat16)
     with torch.no_grad():
@@ -48,7 +58,7 @@ def process_audio(audio_path):
 # Define Gradio interface
 with gr.Blocks(title="Voxtral Demo") as demo:
-    gr.Markdown("<div>JASR v1.1 🎙️ <br>Speech Recognition for Dialectal Arabic</div>")
     gr.Markdown("Upload an audio file and get a transcription from JASR v1.1.")
     with gr.Row():

 import os
+import torchaudio
 import gradio as gr
 import spaces
 import torch
     if not audio_path:
         return "Please upload an audio file."
+    # get audio array
+    audio_array, sample_rate = torchaudio.load(audio_path)
+    # if sample rate is not 16000, resample to 16000
+    if sample_rate != 16000:
+        audio_array = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)(audio_array)
+    audio_array = audio_array.to(device)
+    inputs = inputs = processor(audio_array, sampling_rate=16000, return_tensors="pt")
     inputs = inputs.to(device, dtype=torch.bfloat16)
     with torch.no_grad():
 # Define Gradio interface
 with gr.Blocks(title="Voxtral Demo") as demo:
+    gr.Markdown("#JASR v1.1 🎙️ <Speech Recognition for Dialectal Arabic")
     gr.Markdown("Upload an audio file and get a transcription from JASR v1.1.")
     with gr.Row():