Spaces:

RiteshAkhade
/

Interview-prep_app

Running

App Files Files Community

RiteshAkhade commited on May 12

Commit

466d120

verified ·

1 Parent(s): 24a1975

Update app.py

Browse files

Files changed (1) hide show

app.py +58 -54

app.py CHANGED Viewed

@@ -1,7 +1,3 @@
-import os
-os.system("pip install --upgrade openai-whisper torch")
-os.system("pip install --upgrade transformers")
 import whisper
 import gradio as gr
 import torch
@@ -50,19 +46,19 @@ def predict_relevance(question, answer):
     context_model.eval()
     with torch.no_grad():
         outputs = context_model(**inputs)
-        probabilities = torch.softmax(outputs.logits, dim=-1)
-        return "Relevant" if probabilities[0, 1] > 0.5 else "Irrelevant"
 # Confidence prediction
 def predict_confidence(question, answer, threshold=0.4):
-    if not isinstance(answer, str) or not answer.strip():
         return "Not Confident"
     inputs = confidence_tokenizer(question, answer, return_tensors="pt", padding=True, truncation=True)
     confidence_model.eval()
     with torch.no_grad():
         outputs = confidence_model(**inputs)
-        probabilities = torch.softmax(outputs.logits, dim=-1)
-        return "Confident" if probabilities[0, 1].item() > threshold else "Not Confident"
 # Emotion detection
 def detect_emotion(answer):
@@ -70,8 +66,7 @@ def detect_emotion(answer):
         return "No Answer", ""
     result = emotion_pipe(answer)
     label = result[0][0]["label"].lower()
-    emotion_text, emoji = interview_emotion_map.get(label, ("Unknown", "❓"))
-    return emotion_text, emoji
 # Question navigation (non-tech)
 def show_non_tech_question():
@@ -81,6 +76,7 @@ def show_non_tech_question():
 def next_non_tech_question():
     global current_non_tech_index
     current_non_tech_index = (current_non_tech_index + 1) % len(non_technical_questions)
     return non_technical_questions[current_non_tech_index], "", ""
 # Question navigation (tech)
@@ -91,34 +87,33 @@ def show_tech_question():
 def next_tech_question():
     global current_tech_index
     current_tech_index = (current_tech_index + 1) % len(technical_questions)
     return technical_questions[current_tech_index], "", "", ""
 # Transcribe + analyze (non-technical)
 def transcribe_and_analyze_non_tech(audio, question):
     try:
-        audio = whisper.load_audio(audio)
-        audio = whisper.pad_or_trim(audio)
-        mel = whisper.log_mel_spectrogram(audio).to(whisper_model.device)
         result = whisper.decode(whisper_model, mel, whisper.DecodingOptions(fp16=False))
-        transcribed_text = result.text
-        emotion_text, emoji = detect_emotion(transcribed_text)
-        return transcribed_text, f"{emotion_text} {emoji}"
     except Exception as e:
-        return f"Error: {str(e)}", "❓"
 # Transcribe + analyze (technical)
 def transcribe_and_analyze_tech(audio, question):
     try:
-        audio = whisper.load_audio(audio)
-        audio = whisper.pad_or_trim(audio)
-        mel = whisper.log_mel_spectrogram(audio).to(whisper_model.device)
         result = whisper.decode(whisper_model, mel, whisper.DecodingOptions(fp16=False))
-        transcribed_text = result.text
-        context_result = predict_relevance(question, transcribed_text)
-        confidence_result = predict_confidence(question, transcribed_text)
-        return transcribed_text, context_result, confidence_result
     except Exception as e:
-        return f"Error: {str(e)}", "", ""
 # UI layout
 with gr.Blocks(css="textarea, .gr-box { font-size: 18px !important; }") as demo:
@@ -129,35 +124,44 @@ with gr.Blocks(css="textarea, .gr-box { font-size: 18px !important; }") as demo:
         # NON-TECHNICAL TAB
         with gr.Tab("Non-Technical"):
             gr.Markdown("### Emotional Context Analysis (🧠 + 😊)")
-            question_display_1 = gr.Textbox(label="Interview Question", value=show_non_tech_question(), interactive=False)
-            audio_input_1 = gr.Audio(type="filepath", label="Record Your Answer")
-            transcribed_text_1 = gr.Textbox(label="Transcribed Answer", interactive=False, lines=4)
-            emotion_output = gr.Textbox(label="Detected Emotion", interactive=False)
-            audio_input_1.change(fn=transcribe_and_analyze_non_tech,
-                                 inputs=[audio_input_1, question_display_1],
-                                 outputs=[transcribed_text_1, emotion_output])
-            next_button_1 = gr.Button("Next Question")
-            next_button_1.click(fn=next_non_tech_question,
-                                outputs=[question_display_1, audio_input_1, transcribed_text_1, emotion_output])
         # TECHNICAL TAB
         with gr.Tab("Technical"):
             gr.Markdown("### Technical Question Analysis (🎓 + 🤖)")
-            question_display_2 = gr.Textbox(label="Interview Question", value=show_tech_question(), interactive=False)
-            audio_input_2 = gr.Audio(type="filepath", label="Record Your Answer")
-            transcribed_text_2 = gr.Textbox(label="Transcribed Answer", interactive=False, lines=4)
-            context_analysis_result = gr.Textbox(label="Context Analysis", interactive=False)
-            confidence_analysis_result = gr.Textbox(label="Confidence Analysis", interactive=False)
-            audio_input_2.change(fn=transcribe_and_analyze_tech,
-                                 inputs=[audio_input_2, question_display_2],
-                                 outputs=[transcribed_text_2, context_analysis_result, confidence_analysis_result])
-            next_button_2 = gr.Button("Next Question")
-            next_button_2.click(fn=next_tech_question,
-                                outputs=[question_display_2, audio_input_2, transcribed_text_2,
-                                         context_analysis_result, confidence_analysis_result])
-demo.launch(share=True)

 import whisper
 import gradio as gr
 import torch
     context_model.eval()
     with torch.no_grad():
         outputs = context_model(**inputs)
+        probs = torch.softmax(outputs.logits, dim=-1)
+        return "Relevant" if probs[0, 1] > 0.5 else "Irrelevant"
 # Confidence prediction
 def predict_confidence(question, answer, threshold=0.4):
+    if not answer.strip():
         return "Not Confident"
     inputs = confidence_tokenizer(question, answer, return_tensors="pt", padding=True, truncation=True)
     confidence_model.eval()
     with torch.no_grad():
         outputs = confidence_model(**inputs)
+        probs = torch.softmax(outputs.logits, dim=-1)
+        return "Confident" if probs[0, 1].item() > threshold else "Not Confident"
 # Emotion detection
 def detect_emotion(answer):
         return "No Answer", ""
     result = emotion_pipe(answer)
     label = result[0][0]["label"].lower()
+    return interview_emotion_map.get(label, ("Unknown", "❓"))
 # Question navigation (non-tech)
 def show_non_tech_question():
 def next_non_tech_question():
     global current_non_tech_index
     current_non_tech_index = (current_non_tech_index + 1) % len(non_technical_questions)
+    # return: question, cleared transcribed_text, cleared emotion
     return non_technical_questions[current_non_tech_index], "", ""
 # Question navigation (tech)
 def next_tech_question():
     global current_tech_index
     current_tech_index = (current_tech_index + 1) % len(technical_questions)
+    # return: question, cleared transcribed_text, cleared context, cleared confidence
     return technical_questions[current_tech_index], "", "", ""
 # Transcribe + analyze (non-technical)
 def transcribe_and_analyze_non_tech(audio, question):
     try:
+        audio_data = whisper.load_audio(audio)
+        audio_data = whisper.pad_or_trim(audio_data)
+        mel = whisper.log_mel_spectrogram(audio_data).to(whisper_model.device)
         result = whisper.decode(whisper_model, mel, whisper.DecodingOptions(fp16=False))
+        text = result.text
+        emotion_text, emoji = detect_emotion(text)
+        return text, f"{emotion_text} {emoji}"
     except Exception as e:
+        return f"Error: {e}", "❓"
 # Transcribe + analyze (technical)
 def transcribe_and_analyze_tech(audio, question):
     try:
+        audio_data = whisper.load_audio(audio)
+        audio_data = whisper.pad_or_trim(audio_data)
+        mel = whisper.log_mel_spectrogram(audio_data).to(whisper_model.device)
         result = whisper.decode(whisper_model, mel, whisper.DecodingOptions(fp16=False))
+        text = result.text
+        return text, predict_relevance(question, text), predict_confidence(question, text)
     except Exception as e:
+        return f"Error: {e}", "", ""
 # UI layout
 with gr.Blocks(css="textarea, .gr-box { font-size: 18px !important; }") as demo:
         # NON-TECHNICAL TAB
         with gr.Tab("Non-Technical"):
             gr.Markdown("### Emotional Context Analysis (🧠 + 😊)")
+            q1 = gr.Textbox(label="Interview Question", value=show_non_tech_question(), interactive=False)
+            a1 = gr.Audio(type="filepath", label="Record Your Answer")
+            t1 = gr.Textbox(label="Transcribed Answer", interactive=False, lines=4)
+            e1 = gr.Textbox(label="Detected Emotion", interactive=False)
+            a1.change(
+                fn=transcribe_and_analyze_non_tech,
+                inputs=[a1, q1],
+                outputs=[t1, e1]
+            )
+            btn1 = gr.Button("Next Question")
+            btn1.click(
+                fn=next_non_tech_question,
+                inputs=[],
+                outputs=[q1, t1, e1]
+            )
         # TECHNICAL TAB
         with gr.Tab("Technical"):
             gr.Markdown("### Technical Question Analysis (🎓 + 🤖)")
+            q2 = gr.Textbox(label="Interview Question", value=show_tech_question(), interactive=False)
+            a2 = gr.Audio(type="filepath", label="Record Your Answer")
+            t2 = gr.Textbox(label="Transcribed Answer", interactive=False, lines=4)
+            c2 = gr.Textbox(label="Context Analysis", interactive=False)
+            f2 = gr.Textbox(label="Confidence Analysis", interactive=False)
+            a2.change(
+                fn=transcribe_and_analyze_tech,
+                inputs=[a2, q2],
+                outputs=[t2, c2, f2]
+            )
+            btn2 = gr.Button("Next Question")
+            btn2.click(
+                fn=next_tech_question,
+                inputs=[],
+                outputs=[q2, t2, c2, f2]
+            )
+demo.launch(share=True)