Spaces:

7H4M3R
/

Audio

Running

App Files Files Community

7H4M3R commited on May 23

Commit

b25a75c

verified ·

1 Parent(s): 4aab7b8

Update src/streamlit_app.py

Browse files

Files changed (1) hide show

src/streamlit_app.py +11 -26

src/streamlit_app.py CHANGED Viewed

@@ -1,8 +1,5 @@
 import streamlit as st
 import os
-# from transformers import Wav2Vec2ForSequenceClassification, Wav2Vec2Processor
-# from utils import download_video, extract_audio, accent_classify
-# import whisper
 from transformers import pipeline
 from transformers.utils import logging
 import numpy as np
@@ -16,7 +13,7 @@ logging.set_verbosity_info()
 RATE_HZ = 16000
 MAX_SECONDS = 1
 MAX_LENGTH = RATE_HZ * MAX_SECONDS
 def download_video(url, output_path="video.mp4"):
     ydl_opts = {
@@ -44,27 +41,24 @@ def extract_audio(input_path, output_path="audio.mp3"):
     return output_path
 def split_audio(file):
     try:
         audio, rate = torchaudio.load(str(file))
         num_segments = (len(audio[0]) // MAX_LENGTH)  # Floor division to get segments
-        segmented_audio = []
         for i in range(num_segments):
             start = i * MAX_LENGTH
             end = min((i + 1) * MAX_LENGTH, len(audio[0]))
             segment = audio[0][start:end]
-            transform = torchaudio.transforms.Resample(rate, RATE_HZ)
             segment = transform(segment).squeeze(0).numpy().reshape(-1)
             segmented_audio.append(segment)
-        df_segments = pd.DataFrame({'audio': segmented_audio})
-        return df_segments
     except Exception as e:
         print(f"Error processing file: {e}")
-        return None
-# def accent_classify(pipe, audio_path):
-#     audio_df = split_audio(audio_path)
-#     return pipe(np.concatenate(audio_df["audio"][:250].to_list()))[0]
 accent_mapping = {
     'us': 'American',
@@ -89,15 +83,9 @@ if st.button("Analyze"):
         with st.spinner("Extracting audio..."):
             audio_path = extract_audio(video_path)
-#         with st.spinner("Transcribing with Whisper..."):
-#             whisper_model = whisper.load_model("base")
-#             result = whisper_model.transcribe(audio_path)
-#             transcription = result['text']
-#             # pass
-        with st.spinner("Extracting waves..."):
-            audio_df = split_audio(audio_path)
-            waves = np.concatenate(audio_df["audio"][:250].to_list())
         with st.spinner("Classifying accent..."):
             model_name = "dima806/english_accents_classification"
             pipe = pipeline('audio-classification', model=model_name, device=0)
@@ -110,9 +98,6 @@ if st.button("Analyze"):
         st.markdown(f"**Accent:** {accent}")
         st.markdown(f"**Confidence Score:** {confidence:.2f}%")
-        # st.markdown("**Transcription:**")
-        # st.text_area("Transcript", transcription, height=200)
         # Cleanup
         os.remove(video_path)
         os.remove(audio_path)

 import streamlit as st
 import os
 from transformers import pipeline
 from transformers.utils import logging
 import numpy as np
 RATE_HZ = 16000
 MAX_SECONDS = 1
 MAX_LENGTH = RATE_HZ * MAX_SECONDS
+MAX_SEGMENTS = 250
 def download_video(url, output_path="video.mp4"):
     ydl_opts = {
     return output_path
 def split_audio(file):
+    segmented_audio = []
     try:
         audio, rate = torchaudio.load(str(file))
+        transform = torchaudio.transforms.Resample(rate, RATE_HZ)
         num_segments = (len(audio[0]) // MAX_LENGTH)  # Floor division to get segments
         for i in range(num_segments):
+            if i >= MAX_SEGMENTS:
+                break
             start = i * MAX_LENGTH
             end = min((i + 1) * MAX_LENGTH, len(audio[0]))
             segment = audio[0][start:end]
             segment = transform(segment).squeeze(0).numpy().reshape(-1)
             segmented_audio.append(segment)
     except Exception as e:
         print(f"Error processing file: {e}")
+        return segmented_audio
+    else:
+        return np.concatenate(segmented_audio)
 accent_mapping = {
     'us': 'American',
         with st.spinner("Extracting audio..."):
             audio_path = extract_audio(video_path)
+        with st.spinner("Extracting Waves..."):
+            waves = split_audio(audio_path)
         with st.spinner("Classifying accent..."):
             model_name = "dima806/english_accents_classification"
             pipe = pipeline('audio-classification', model=model_name, device=0)
         st.markdown(f"**Accent:** {accent}")
         st.markdown(f"**Confidence Score:** {confidence:.2f}%")
         # Cleanup
         os.remove(video_path)
         os.remove(audio_path)