Spaces:

Miraj3
/

Object_Detector_with_Audio

Sleeping

App Files Files Community

Miraj3 commited on Jun 23

Commit

d85cc90

verified ·

1 Parent(s): ec23bd9

Update app.py

Browse files

Files changed (1) hide show

app.py +28 -32

app.py CHANGED Viewed

@@ -1,38 +1,30 @@
-import gradio as gr  # not used here, but kept if needed later
 from PIL import Image, ImageDraw, ImageFont
 import scipy.io.wavfile as wavfile
 import numpy as np
 from transformers import pipeline
 from collections import Counter
 import inflect
-# # Paths for your models
-# tts_model_path = ("../Models/models--kakao-enterprise--vits-ljs/snapshots/"
-#                   "3bcb8321394f671bd948ebf0d086d694dda95464")
-# narrator = pipeline("text-to-speech", model=tts_model_path)
 narrator = pipeline("text-to-speech", model="kakao-enterprise/vits-ljs")
-# obj_detector_path = ("../Models/models--facebook--detr-resnet-50/snapshots/"
-#                      "1d5f47bd3bdd2c4bbfa585418ffe6da5028b4c0b")
-# obj_detector = pipeline("object-detection", model=obj_detector_path)
 obj_detector = pipeline("object-detection", model="facebook/detr-resnet-50")
-def generate_audio(text, output_path="finetuned_output.wav"):
     narrated = narrator(text)
     audio = narrated["audio"]
     sampling_rate = narrated["sampling_rate"]
-    # Convert to int16 if needed
     if audio.dtype != np.int16:
         audio = (audio * 32767).astype(np.int16)
-    wavfile.write(output_path, sampling_rate, audio)
-    return output_path
 def read_objects(detections: list[dict]) -> str:
     if not detections:
         return "No objects were detected in this picture."
@@ -53,6 +45,7 @@ def read_objects(detections: list[dict]) -> str:
     return f"This picture contains {result}."
 def draw_detected_objects(image, detections, score_threshold=0.5):
     annotated_image = image.copy()
     draw = ImageDraw.Draw(annotated_image)
@@ -92,21 +85,24 @@ def draw_detected_objects(image, detections, score_threshold=0.5):
     return annotated_image
 def detect_image(image):
-    raw_image = image
-    output = obj_detector(raw_image)
-    processed_image = draw_detected_objects(raw_image, output)
-    natural_text = read_objects(output)
-    processed_audio = generate_audio(natural_text)
-    return processed_image, processed_audio
 gr.close_all()
-demo = gr.Interface(fn=detect_image,
-                    inputs=[gr.Image(label="Select Image", type="pil")],
-                    outputs=[gr.Image(label="Processed Image", type="pil"), gr.Audio(label="Generated Audio")],
-                    title="@GenAI Project 7: Object Detector with Audio",
-                    description="THIS APPLICATION IS USED TO DETECT, HIGHLIGHT THE IMAGE AND ALSO GIVES AUDIO DESCRIPTION.")
-demo.launch()

+import gradio as gr
 from PIL import Image, ImageDraw, ImageFont
 import scipy.io.wavfile as wavfile
 import numpy as np
+import tempfile
 from transformers import pipeline
 from collections import Counter
 import inflect
+# Load models
 narrator = pipeline("text-to-speech", model="kakao-enterprise/vits-ljs")
 obj_detector = pipeline("object-detection", model="facebook/detr-resnet-50")
+# Generate audio and save as temporary .wav
+def generate_audio(text):
     narrated = narrator(text)
     audio = narrated["audio"]
     sampling_rate = narrated["sampling_rate"]
     if audio.dtype != np.int16:
         audio = (audio * 32767).astype(np.int16)
+    with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as f:
+        wavfile.write(f.name, int(sampling_rate), audio)
+        return f.name
+# Turn detections into human-friendly text
 def read_objects(detections: list[dict]) -> str:
     if not detections:
         return "No objects were detected in this picture."
     return f"This picture contains {result}."
+# Annotate the image with bounding boxes and labels
 def draw_detected_objects(image, detections, score_threshold=0.5):
     annotated_image = image.copy()
     draw = ImageDraw.Draw(annotated_image)
     return annotated_image
+# Gradio function
 def detect_image(image):
+    try:
+        raw_image = image
+        output = obj_detector(raw_image)
+        processed_image = draw_detected_objects(raw_image, output)
+        natural_text = read_objects(output)
+        processed_audio = generate_audio(natural_text)
+        return processed_image, processed_audio
+    except Exception as e:
+        print("❌ Error:", e)
+        return None, None
+# Launch Gradio app
 gr.close_all()
+demo = gr.Interface(
+    fn=detect_image,
+    inputs=[gr.Image(label="Upload an Image", type="pil")],
+    outputs=[
+        gr.Image(label="Image with Detecte