Spaces:

jena-shreyas
/

Audio-RedTeaming-Demo

Sleeping

App Files Files Community

jena-shreyas commited on May 27

Commit

232ff56

verified ·

1 Parent(s): ce2ed27

Upload folder using huggingface_hub

Browse files

Files changed (4) hide show

README.md +2 -2
audio_redteam_demo.py +35 -18
audio_transform_demo.py +5 -4
requirements.txt +1 -0

README.md CHANGED Viewed

@@ -2,5 +2,5 @@
 title: Audio-RedTeaming-Demo
 app_file: audio_redteam_demo.py
 sdk: gradio
-sdk_version: 3.50.2
----

 title: Audio-RedTeaming-Demo
 app_file: audio_redteam_demo.py
 sdk: gradio
+sdk_version: 5.31.0
+---

audio_redteam_demo.py CHANGED Viewed

@@ -8,15 +8,24 @@ TARGET_MODELS = [
     "gpt-4o-audio-preview",
     "gemini-2.5-pro-preview-05-06",
     "gemini-2.0-flash",
 ]
 TTS_PROVIDERS = ["kokoro", "smallestai"]
 VOICE_IDS = [
-    "af_heart (Kokoro)",
-    "karen (SmallestAI)",
-    "rebecca (SmallestAI)",
-    "chetan (SmallestAI)",
-    "george (SmallestAI)",
-    "saina (SmallestAI)",
 ]
 TRANSFORM_TYPES = ["none", "speed", "pitch", "echo", "reverb", "noise"]
@@ -67,7 +76,7 @@ def create_transform_ui():
             minimum=50,
             maximum=1000,
             value=250,
-            step=10,
             label="Echo Delay (ms)",
             info="Delay in milliseconds for the echo effect",
             visible=False,
@@ -157,6 +166,7 @@ def create_redteam_demo():
         prompt,
         target_model,
         tts_provider,
         voice_id,
         transform_type,
         speed_rate: Optional[float] = None,
@@ -198,7 +208,10 @@ def create_redteam_demo():
         print("Voice ID: ", voice_id)
         # Initialize the orchestrator with selected parameters
         orchestrator = AudioRedTeamOrchestrator(
-            tts_provider=tts_provider, model_name=target_model, voice_id=voice_id
         )
         # print("CCCC")
         # Create a temporary directory for saving files
@@ -241,6 +254,9 @@ def create_redteam_demo():
         tts_provider = gr.Dropdown(
             choices=TTS_PROVIDERS, label="TTS Provider", value=TTS_PROVIDERS[0]
         )
         voice_id = gr.Dropdown(choices=VOICE_IDS, label="Voice ID", value=VOICE_IDS[0])
         transform_type = gr.Dropdown(
             choices=TRANSFORM_TYPES,
@@ -283,7 +299,7 @@ def create_redteam_demo():
             minimum=50,
             maximum=1000,
             value=250,
-            step=10,
             label="Echo Delay (ms)",
             interactive=True,
             info="Delay in milliseconds for the echo effect",
@@ -333,15 +349,15 @@ def create_redteam_demo():
         # Function to update visible components based on transform type
         def update_transform_ui(transform_type):
             return [
-                speed_rate.update(visible=transform_type == "speed"),
-                pitch_steps.update(visible=transform_type == "pitch"),
-                pitch_bins.update(visible=transform_type == "pitch"),
-                echo_delay.update(visible=transform_type == "echo"),
-                echo_volume.update(visible=transform_type == "echo"),
-                reverb_rir.update(visible=transform_type == "reverb"),
-                reverb_method.update(visible=transform_type == "reverb"),
-                noise_file.update(visible=transform_type == "noise"),
-                noise_volume.update(visible=transform_type == "noise"),
             ]
         # print("FFFF")
@@ -374,6 +390,7 @@ def create_redteam_demo():
                 prompt,
                 target_model,
                 tts_provider,
                 voice_id,
                 transform_type,
                 speed_rate,

     "gpt-4o-audio-preview",
     "gemini-2.5-pro-preview-05-06",
     "gemini-2.0-flash",
+    "gemini-2.5-flash-preview-04-17",
 ]
 TTS_PROVIDERS = ["kokoro", "smallestai"]
+TTS_MODELS = [
+    "Kokoro-82M",
+    "lightning",
+    "lightning-large",
+]
 VOICE_IDS = [
+    "af_heart (American, F, Kokoro-82M)",
+    "karen (British, F, lightning)",
+    "rebecca (American, F, lightning)",
+    "chetan (Indian, M, lightning)",
+    "george (American, M, lightning)",
+    "solomon (British, M, lightning-large)",
+    "saina (Indian, F, lightning)",
+    "angela (British, F, lightning-large)",
+    "nyah (Australian, F, lightning-large)",
 ]
 TRANSFORM_TYPES = ["none", "speed", "pitch", "echo", "reverb", "noise"]
             minimum=50,
             maximum=1000,
             value=250,
+            step=1,
             label="Echo Delay (ms)",
             info="Delay in milliseconds for the echo effect",
             visible=False,
         prompt,
         target_model,
         tts_provider,
+        tts_model,
         voice_id,
         transform_type,
         speed_rate: Optional[float] = None,
         print("Voice ID: ", voice_id)
         # Initialize the orchestrator with selected parameters
         orchestrator = AudioRedTeamOrchestrator(
+            tts_provider=tts_provider,
+            model_name=target_model,
+            voice_id=voice_id,
+            tts_model=tts_model,
         )
         # print("CCCC")
         # Create a temporary directory for saving files
         tts_provider = gr.Dropdown(
             choices=TTS_PROVIDERS, label="TTS Provider", value=TTS_PROVIDERS[0]
         )
+        tts_model = gr.Dropdown(
+            choices=TTS_MODELS, label="TTS Model", value=TTS_MODELS[0]
+        )
         voice_id = gr.Dropdown(choices=VOICE_IDS, label="Voice ID", value=VOICE_IDS[0])
         transform_type = gr.Dropdown(
             choices=TRANSFORM_TYPES,
             minimum=50,
             maximum=1000,
             value=250,
+            step=1,
             label="Echo Delay (ms)",
             interactive=True,
             info="Delay in milliseconds for the echo effect",
         # Function to update visible components based on transform type
         def update_transform_ui(transform_type):
             return [
+                gr.update(visible=transform_type == "speed"),
+                gr.update(visible=transform_type == "pitch"),
+                gr.update(visible=transform_type == "pitch"),
+                gr.update(visible=transform_type == "echo"),
+                gr.update(visible=transform_type == "echo"),
+                gr.update(visible=transform_type == "reverb"),
+                gr.update(visible=transform_type == "reverb"),
+                gr.update(visible=transform_type == "noise"),
+                gr.update(visible=transform_type == "noise"),
             ]
         # print("FFFF")
                 prompt,
                 target_model,
                 tts_provider,
+                tts_model,
                 voice_id,
                 transform_type,
                 speed_rate,

audio_transform_demo.py CHANGED Viewed

@@ -429,10 +429,11 @@ class AudioRedTeamOrchestrator:
     def __init__(
         self,
         tts_provider: Any = "kokoro",
         model_name: str = "gpt-4o-audio-preview",
         voice_id: str = "af_heart",
     ):
-        self.tts_client = self.load_tts(tts_provider, voice_id)
         # Initialize target model to None
         self.generate_client = self.load_model(model_name)
@@ -441,10 +442,10 @@ class AudioRedTeamOrchestrator:
         self.evaluate_client = OpenAI(api_key=openai_api_key)
         self.waveform_transform = WaveformTransform()
-    def load_tts(self, tts_provider: str, voice_id: str = "af_heart"):
         if tts_provider == "smallestai":
             return SmallestAITTS(
-                model_name="lightning",
                 api_key=smallest_api_key,
                 provider=tts_provider,
                 endpoint_url="https://waves-api.smallest.ai/api/v1/",
@@ -452,7 +453,7 @@ class AudioRedTeamOrchestrator:
             )
         elif tts_provider == "kokoro":
             return KokoroTTS(
-                model_name="Kokoro-82M",
                 voice_id=voice_id,
             )
         else:

     def __init__(
         self,
         tts_provider: Any = "kokoro",
+        tts_model: str = "Kokoro-82M",
         model_name: str = "gpt-4o-audio-preview",
         voice_id: str = "af_heart",
     ):
+        self.tts_client = self.load_tts(tts_provider, tts_model, voice_id)
         # Initialize target model to None
         self.generate_client = self.load_model(model_name)
         self.evaluate_client = OpenAI(api_key=openai_api_key)
         self.waveform_transform = WaveformTransform()
+    def load_tts(self, tts_provider: str, tts_model: str, voice_id: str = "af_heart"):
         if tts_provider == "smallestai":
             return SmallestAITTS(
+                model_name=tts_model,
                 api_key=smallest_api_key,
                 provider=tts_provider,
                 endpoint_url="https://waves-api.smallest.ai/api/v1/",
             )
         elif tts_provider == "kokoro":
             return KokoroTTS(
+                model_name=tts_model,
                 voice_id=voice_id,
             )
         else:

requirements.txt CHANGED Viewed

@@ -38,3 +38,4 @@ pydub==0.25.1
 websockets==13.0.0
 torch==2.3.0
 torchaudio==2.3.0

 websockets==13.0.0
 torch==2.3.0
 torchaudio==2.3.0
+kokoro==0.9.4