Spaces:

Gapeleon
/

granite-speech-3.2-demo

Runtime error

App Files Files Community

Gapeleon commited on Apr 9

Commit

eb92e9b

verified ·

1 Parent(s): 8bce1e6

Update app.py

Browse files

Files changed (1) hide show

app.py +17 -10

app.py CHANGED Viewed

@@ -47,7 +47,10 @@ def transcribe_audio(audio_input):
             # Microphone input: (sample_rate, numpy_array)
             logs.append("Processing microphone input")
             sr, wav_np = audio_input
-            wav = torch.from_numpy(wav_np).float().unsqueeze(0)
         else:
             # File input: filepath string
             logs.append(f"Processing file input: {audio_input}")
@@ -68,6 +71,11 @@ def transcribe_audio(audio_input):
         logs.append(f"Final audio: sample rate {sr}Hz, shape {wav.shape}, min: {wav.min().item()}, max: {wav.max().item()}")
         # Create text prompt
         chat = [
             {
@@ -88,11 +96,15 @@ def transcribe_audio(audio_input):
         logs.append("Preparing model inputs")
         model_inputs = speech_granite_processor(
             text=text,
-            audio=wav.numpy().squeeze(),  # Convert to numpy and squeeze
             sampling_rate=sr,
             return_tensors="pt",
         ).to(device)
         # Generate transcription
         logs.append("Generating transcription")
         model_outputs = speech_granite.generate(
@@ -105,21 +117,16 @@ def transcribe_audio(audio_input):
             repetition_penalty=3.0,
             length_penalty=1.0,
             temperature=1.0,
-            bos_token_id=tokenizer.bos_token_id,
-            eos_token_id=tokenizer.eos_token_id,
-            pad_token_id=tokenizer.pad_token_id,
         )
         # Extract the generated text (skipping input tokens)
         logs.append("Processing output")
         num_input_tokens = model_inputs["input_ids"].shape[-1]
-        new_tokens = torch.unsqueeze(model_outputs[0, num_input_tokens:], dim=0)
-        output_text = tokenizer.batch_decode(
-            new_tokens, add_special_tokens=False, skip_special_tokens=True
-        )
-        transcription = output_text[0].strip().upper()
         logs.append(f"Transcription complete: {transcription[:50]}...")
     except Exception as e:

             # Microphone input: (sample_rate, numpy_array)
             logs.append("Processing microphone input")
             sr, wav_np = audio_input
+            wav = torch.from_numpy(wav_np).float()
+            # Make sure we have the right dimensions [channels, time]
+            if len(wav.shape) == 1:
+                wav = wav.unsqueeze(0)
         else:
             # File input: filepath string
             logs.append(f"Processing file input: {audio_input}")
         logs.append(f"Final audio: sample rate {sr}Hz, shape {wav.shape}, min: {wav.min().item()}, max: {wav.max().item()}")
+        # Convert to numpy array as expected by the processor
+        # Make sure it's in the format [time]
+        wav_np = wav.squeeze().numpy()
+        logs.append(f"Audio array shape for processor: {wav_np.shape}")
         # Create text prompt
         chat = [
             {
         logs.append("Preparing model inputs")
         model_inputs = speech_granite_processor(
             text=text,
+            audio=wav_np,  # Pass numpy array in format [time]
             sampling_rate=sr,
             return_tensors="pt",
         ).to(device)
+        # Verify audio tokens are present
+        if "audio_values" not in model_inputs:
+            logs.append(f"WARNING: No audio_values in model inputs. Keys present: {list(model_inputs.keys())}")
         # Generate transcription
         logs.append("Generating transcription")
         model_outputs = speech_granite.generate(
             repetition_penalty=3.0,
             length_penalty=1.0,
             temperature=1.0,
         )
         # Extract the generated text (skipping input tokens)
         logs.append("Processing output")
         num_input_tokens = model_inputs["input_ids"].shape[-1]
+        new_tokens = model_outputs[0, num_input_tokens:]
+        output_text = tokenizer.decode(new_tokens, skip_special_tokens=True)
+        transcription = output_text.strip().upper()
         logs.append(f"Transcription complete: {transcription[:50]}...")
     except Exception as e: