Spaces:

divython
/

yt-video-summariser

Running

App Files Files Community

divython commited on 23 days ago

Commit

c64a626

verified ·

1 Parent(s): b3e2e09

Update app.py

Browse files

fourth changes

Files changed (1) hide show

app.py +112 -23

app.py CHANGED Viewed

@@ -1,36 +1,125 @@
 import gradio as gr
 import pytube
 from transformers import pipeline
 # Initialize pipelines
 asr = pipeline("automatic-speech-recognition", model="openai/whisper-base", chunk_length_s=30)
 summarizer = pipeline("summarization", model="facebook/bart-large-cnn")
-def summarize_youtube(url):
-    # Download audio
-    yt = pytube.YouTube(url)
-    stream = yt.streams.filter(only_audio=True).first()
-    stream.download(filename="audio.mp3")
-    # Transcribe
-    result = asr("audio.mp3")
-    transcript = result["text"]
-    # Summarize
-    summary = summarizer(transcript, max_length=150, min_length=50, do_sample=False)[0]["summary_text"]
-    # Embed video
-    v_id = url.split("v=")[-1]
-    embed_html = f'<iframe width="560" height="315" src="https://www.youtube.com/embed/{v_id}" frameborder="0" allowfullscreen></iframe>'
-    return embed_html, transcript, summary
 # Build Gradio app
-with gr.Blocks() as demo:
-    gr.Markdown("## 🎓 Multi‑lingual YouTube Summarizer (Hindi / Hinglish / English)")
-    url_input = gr.Textbox(label="YouTube URL")
-    vid, txt, summ = gr.HTML(), gr.Textbox(label="Transcript"), gr.Textbox(label="Summary")
-    btn = gr.Button("Summarize")
     btn.click(summarize_youtube, inputs=url_input, outputs=[vid, txt, summ])
-demo.launch()

 import gradio as gr
 import pytube
 from transformers import pipeline
+import os
+import re
 # Initialize pipelines
 asr = pipeline("automatic-speech-recognition", model="openai/whisper-base", chunk_length_s=30)
 summarizer = pipeline("summarization", model="facebook/bart-large-cnn")
+def extract_video_id(url):
+    """Extract video ID from various YouTube URL formats"""
+    patterns = [
+        r'(?:v=|\/)([0-9A-Za-z_-]{11}).*',
+        r'(?:embed\/)([0-9A-Za-z_-]{11})',
+        r'(?:v\/)([0-9A-Za-z_-]{11})'
+    ]
+    for pattern in patterns:
+        match = re.search(pattern, url)
+        if match:
+            return match.group(1)
+    return None
+def summarize_youtube(url):
+    try:
+        # Clean up any existing audio file
+        if os.path.exists("audio.mp4"):
+            os.remove("audio.mp4")
+        # Create YouTube object with error handling
+        yt = pytube.YouTube(url, use_oauth=False, allow_oauth_cache=False)
+        # Get audio stream with better filtering
+        audio_streams = yt.streams.filter(only_audio=True, file_extension='mp4')
+        if not audio_streams:
+            # Fallback to any audio stream
+            audio_streams = yt.streams.filter(only_audio=True)
+        if not audio_streams:
+            return "❌ Error: No audio streams available", "Could not extract audio from video", "No summary available"
+        stream = audio_streams.first()
+        # Download with proper filename
+        audio_file = stream.download(filename="audio")
+        # Transcribe
+        result = asr(audio_file)
+        transcript = result["text"]
+        # Clean up audio file
+        if os.path.exists(audio_file):
+            os.remove(audio_file)
+        # Check transcript length for summarization
+        if len(transcript.split()) < 10:
+            return "❌ Error: Transcript too short", transcript, "Cannot summarize - transcript too brief"
+        # Summarize with better parameters
+        max_chunk = 1024  # BART's max input length
+        if len(transcript) > max_chuck:
+            # Split transcript into chunks if too long
+            words = transcript.split()
+            chunks = [' '.join(words[i:i+200]) for i in range(0, len(words), 200)]
+            summaries = []
+            for chunk in chunks[:3]:  # Limit to first 3 chunks to avoid timeout
+                if len(chunk.strip()) > 50:
+                    chunk_summary = summarizer(chunk, max_length=100, min_length=30, do_sample=False)[0]["summary_text"]
+                    summaries.append(chunk_summary)
+            summary = " ".join(summaries)
+        else:
+            summary = summarizer(transcript, max_length=150, min_length=50, do_sample=False)[0]["summary_text"]
+        # Create embed HTML
+        v_id = extract_video_id(url)
+        if v_id:
+            embed_html = f'<iframe width="560" height="315" src="https://www.youtube.com/embed/{v_id}" frameborder="0" allowfullscreen></iframe>'
+        else:
+            embed_html = "❌ Could not extract video ID"
+        return embed_html, transcript, summary
+    except pytube.exceptions.RegexMatchError:
+        return "❌ Error: Invalid YouTube URL", "Please check the URL format", "No summary available"
+    except pytube.exceptions.VideoUnavailable:
+        return "❌ Error: Video unavailable", "Video may be private or deleted", "No summary available"
+    except Exception as e:
+        return f"❌ Error: {str(e)}", "An error occurred during processing", "No summary available"
 # Build Gradio app
+with gr.Blocks(theme=gr.themes.Soft()) as demo:
+    gr.Markdown("## 🎓 Multi-lingual YouTube Summarizer (Hindi / Hinglish / English)")
+    gr.Markdown("Enter a YouTube URL to get an AI-generated summary of the video content.")
+    with gr.Row():
+        with gr.Column():
+            url_input = gr.Textbox(
+                label="YouTube URL",
+                placeholder="https://www.youtube.com/watch?v=...",
+                lines=1
+            )
+            btn = gr.Button("🚀 Summarize Video", variant="primary")
+    with gr.Row():
+        with gr.Column():
+            vid = gr.HTML(label="Video Player")
+        with gr.Column():
+            with gr.Accordion("📝 Transcript", open=False):
+                txt = gr.Textbox(label="Full Transcript", lines=10, max_lines=15)
+            summ = gr.Textbox(label="📋 Summary", lines=5)
     btn.click(summarize_youtube, inputs=url_input, outputs=[vid, txt, summ])
+    # Add examples
+    gr.Examples(
+        examples=[
+            ["https://www.youtube.com/watch?v=dQw4w9WgXcQ"],  # Replace with actual examples
+        ],
+        inputs=url_input
+    )
+if __name__ == "__main__":
+    demo.launch(share=True)