Spaces:

Gapeleon
/

granite-speech-3.2-demo

Paused

App Files Files Community

Gapeleon commited on Apr 9

Commit

b0e4499

verified ·

1 Parent(s): eb92e9b

Update app.py

Browse files

Files changed (1) hide show

app.py +15 -17

app.py CHANGED Viewed

@@ -4,7 +4,6 @@ from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq, BitsAndBytesC
 import gradio as gr
 import os
 import time
-import numpy as np
 # Load model and processor (runs once on startup)
 model_name = "ibm-granite/granite-speech-3.2-8b"
@@ -54,7 +53,7 @@ def transcribe_audio(audio_input):
         else:
             # File input: filepath string
             logs.append(f"Processing file input: {audio_input}")
-            wav, sr = torchaudio.load(audio_input)
             logs.append(f"Loaded audio file with sample rate {sr}Hz and shape {wav.shape}")
         # Convert to mono if stereo
@@ -71,10 +70,8 @@ def transcribe_audio(audio_input):
         logs.append(f"Final audio: sample rate {sr}Hz, shape {wav.shape}, min: {wav.min().item()}, max: {wav.max().item()}")
-        # Convert to numpy array as expected by the processor
-        # Make sure it's in the format [time]
-        wav_np = wav.squeeze().numpy()
-        logs.append(f"Audio array shape for processor: {wav_np.shape}")
         # Create text prompt
         chat = [
@@ -92,19 +89,15 @@ def transcribe_audio(audio_input):
             chat, tokenize=False, add_generation_prompt=True
         )
-        # Compute audio embeddings
         logs.append("Preparing model inputs")
         model_inputs = speech_granite_processor(
-            text=text,
-            audio=wav_np,  # Pass numpy array in format [time]
-            sampling_rate=sr,
             return_tensors="pt",
         ).to(device)
-        # Verify audio tokens are present
-        if "audio_values" not in model_inputs:
-            logs.append(f"WARNING: No audio_values in model inputs. Keys present: {list(model_inputs.keys())}")
         # Generate transcription
         logs.append("Generating transcription")
         model_outputs = speech_granite.generate(
@@ -117,16 +110,21 @@ def transcribe_audio(audio_input):
             repetition_penalty=3.0,
             length_penalty=1.0,
             temperature=1.0,
         )
         # Extract the generated text (skipping input tokens)
         logs.append("Processing output")
         num_input_tokens = model_inputs["input_ids"].shape[-1]
-        new_tokens = model_outputs[0, num_input_tokens:]
-        output_text = tokenizer.decode(new_tokens, skip_special_tokens=True)
-        transcription = output_text.strip().upper()
         logs.append(f"Transcription complete: {transcription[:50]}...")
     except Exception as e:

 import gradio as gr
 import os
 import time
 # Load model and processor (runs once on startup)
 model_name = "ibm-granite/granite-speech-3.2-8b"
         else:
             # File input: filepath string
             logs.append(f"Processing file input: {audio_input}")
+            wav, sr = torchaudio.load(audio_input, normalize=True)
             logs.append(f"Loaded audio file with sample rate {sr}Hz and shape {wav.shape}")
         # Convert to mono if stereo
         logs.append(f"Final audio: sample rate {sr}Hz, shape {wav.shape}, min: {wav.min().item()}, max: {wav.max().item()}")
+        # Verify audio format matches what the model expects
+        assert wav.shape[0] == 1 and sr == 16000, "Audio must be mono and 16kHz"
         # Create text prompt
         chat = [
             chat, tokenize=False, add_generation_prompt=True
         )
+        # CRITICAL CHANGE: Pass text and waveform directly to processor (don't pass audio as named param)
         logs.append("Preparing model inputs")
         model_inputs = speech_granite_processor(
+            text,
+            wav,
+            device=device,  # Explicitly set device
             return_tensors="pt",
         ).to(device)
         # Generate transcription
         logs.append("Generating transcription")
         model_outputs = speech_granite.generate(
             repetition_penalty=3.0,
             length_penalty=1.0,
             temperature=1.0,
+            bos_token_id=tokenizer.bos_token_id,
+            eos_token_id=tokenizer.eos_token_id,
+            pad_token_id=tokenizer.pad_token_id,
         )
         # Extract the generated text (skipping input tokens)
         logs.append("Processing output")
         num_input_tokens = model_inputs["input_ids"].shape[-1]
+        new_tokens = torch.unsqueeze(model_outputs[0, num_input_tokens:], dim=0)
+        output_text = tokenizer.batch_decode(
+            new_tokens, add_special_tokens=False, skip_special_tokens=True
+        )
+        transcription = output_text[0].strip().upper()
         logs.append(f"Transcription complete: {transcription[:50]}...")
     except Exception as e: