Spaces:

RiteshAkhade
/

Interview-prep_app

Running

App Files Files Community

RiteshAkhade commited on May 18

Commit

56d0b10

verified ·

1 Parent(s): ada6201

Update app.py

Browse files

Files changed (1) hide show

app.py +51 -60

app.py CHANGED Viewed

@@ -4,8 +4,7 @@ import torch
 from transformers import BertTokenizer, BertForSequenceClassification, pipeline
 from app.questions import get_question
-# Load models
-whisper_model = whisper.load_model("small")
 confidence_model = BertForSequenceClassification.from_pretrained('RiteshAkhade/final_confidence')
 confidence_tokenizer = BertTokenizer.from_pretrained('RiteshAkhade/final_confidence')
 context_model = BertForSequenceClassification.from_pretrained('RiteshAkhade/context_model')
@@ -46,19 +45,19 @@ def predict_relevance(question, answer):
     context_model.eval()
     with torch.no_grad():
         outputs = context_model(**inputs)
-        probs = torch.softmax(outputs.logits, dim=-1)
-        return "Relevant" if probs[0, 1] > 0.5 else "Irrelevant"
 # Confidence prediction
 def predict_confidence(question, answer, threshold=0.4):
-    if not answer.strip():
         return "Not Confident"
     inputs = confidence_tokenizer(question, answer, return_tensors="pt", padding=True, truncation=True)
     confidence_model.eval()
     with torch.no_grad():
         outputs = confidence_model(**inputs)
-        probs = torch.softmax(outputs.logits, dim=-1)
-        return "Confident" if probs[0, 1].item() > threshold else "Not Confident"
 # Emotion detection
 def detect_emotion(answer):
@@ -66,7 +65,8 @@ def detect_emotion(answer):
         return "No Answer", ""
     result = emotion_pipe(answer)
     label = result[0][0]["label"].lower()
-    return interview_emotion_map.get(label, ("Unknown", "❓"))
 # Question navigation (non-tech)
 def show_non_tech_question():
@@ -76,8 +76,7 @@ def show_non_tech_question():
 def next_non_tech_question():
     global current_non_tech_index
     current_non_tech_index = (current_non_tech_index + 1) % len(non_technical_questions)
-    # return: question, cleared transcribed_text, cleared emotion
-    return non_technical_questions[current_non_tech_index], "", ""
 # Question navigation (tech)
 def show_tech_question():
@@ -87,33 +86,34 @@ def show_tech_question():
 def next_tech_question():
     global current_tech_index
     current_tech_index = (current_tech_index + 1) % len(technical_questions)
-    # return: question, cleared transcribed_text, cleared context, cleared confidence
-    return technical_questions[current_tech_index], "", "", ""
 # Transcribe + analyze (non-technical)
 def transcribe_and_analyze_non_tech(audio, question):
     try:
-        audio_data = whisper.load_audio(audio)
-        audio_data = whisper.pad_or_trim(audio_data)
-        mel = whisper.log_mel_spectrogram(audio_data).to(whisper_model.device)
         result = whisper.decode(whisper_model, mel, whisper.DecodingOptions(fp16=False))
-        text = result.text
-        emotion_text, emoji = detect_emotion(text)
-        return text, f"{emotion_text} {emoji}"
     except Exception as e:
-        return f"Error: {e}", "❓"
 # Transcribe + analyze (technical)
 def transcribe_and_analyze_tech(audio, question):
     try:
-        audio_data = whisper.load_audio(audio)
-        audio_data = whisper.pad_or_trim(audio_data)
-        mel = whisper.log_mel_spectrogram(audio_data).to(whisper_model.device)
         result = whisper.decode(whisper_model, mel, whisper.DecodingOptions(fp16=False))
-        text = result.text
-        return text, predict_relevance(question, text), predict_confidence(question, text)
     except Exception as e:
-        return f"Error: {e}", "", ""
 # UI layout
 with gr.Blocks(css="textarea, .gr-box { font-size: 18px !important; }") as demo:
@@ -124,44 +124,35 @@ with gr.Blocks(css="textarea, .gr-box { font-size: 18px !important; }") as demo:
         # NON-TECHNICAL TAB
         with gr.Tab("Non-Technical"):
             gr.Markdown("### Emotional Context Analysis (🧠 + 😊)")
-            q1 = gr.Textbox(label="Interview Question", value=show_non_tech_question(), interactive=False)
-            a1 = gr.Audio(type="filepath", label="Record Your Answer")
-            t1 = gr.Textbox(label="Transcribed Answer", interactive=False, lines=4)
-            e1 = gr.Textbox(label="Detected Emotion", interactive=False)
-            a1.change(
-                fn=transcribe_and_analyze_non_tech,
-                inputs=[a1, q1],
-                outputs=[t1, e1]
-            )
-            btn1 = gr.Button("Next Question")
-            btn1.click(
-                fn=next_non_tech_question,
-                inputs=[],
-                outputs=[q1, t1, e1]
-            )
         # TECHNICAL TAB
         with gr.Tab("Technical"):
             gr.Markdown("### Technical Question Analysis (🎓 + 🤖)")
-            q2 = gr.Textbox(label="Interview Question", value=show_tech_question(), interactive=False)
-            a2 = gr.Audio(type="filepath", label="Record Your Answer")
-            t2 = gr.Textbox(label="Transcribed Answer", interactive=False, lines=4)
-            c2 = gr.Textbox(label="Context Analysis", interactive=False)
-            f2 = gr.Textbox(label="Confidence Analysis", interactive=False)
-            a2.change(
-                fn=transcribe_and_analyze_tech,
-                inputs=[a2, q2],
-                outputs=[t2, c2, f2]
-            )
-            btn2 = gr.Button("Next Question")
-            btn2.click(
-                fn=next_tech_question,
-                inputs=[],
-                outputs=[q2, t2, c2, f2]
-            )
 demo.launch(share=True)

 from transformers import BertTokenizer, BertForSequenceClassification, pipeline
 from app.questions import get_question
+# Load modelswhisper_model = whisper.load_model("small")
 confidence_model = BertForSequenceClassification.from_pretrained('RiteshAkhade/final_confidence')
 confidence_tokenizer = BertTokenizer.from_pretrained('RiteshAkhade/final_confidence')
 context_model = BertForSequenceClassification.from_pretrained('RiteshAkhade/context_model')
     context_model.eval()
     with torch.no_grad():
         outputs = context_model(**inputs)
+        probabilities = torch.softmax(outputs.logits, dim=-1)
+        return "Relevant" if probabilities[0, 1] > 0.5 else "Irrelevant"
 # Confidence prediction
 def predict_confidence(question, answer, threshold=0.4):
+    if not isinstance(answer, str) or not answer.strip():
         return "Not Confident"
     inputs = confidence_tokenizer(question, answer, return_tensors="pt", padding=True, truncation=True)
     confidence_model.eval()
     with torch.no_grad():
         outputs = confidence_model(**inputs)
+        probabilities = torch.softmax(outputs.logits, dim=-1)
+        return "Confident" if probabilities[0, 1].item() > threshold else "Not Confident"
 # Emotion detection
 def detect_emotion(answer):
         return "No Answer", ""
     result = emotion_pipe(answer)
     label = result[0][0]["label"].lower()
+    emotion_text, emoji = interview_emotion_map.get(label, ("Unknown", "❓"))
+    return emotion_text, emoji
 # Question navigation (non-tech)
 def show_non_tech_question():
 def next_non_tech_question():
     global current_non_tech_index
     current_non_tech_index = (current_non_tech_index + 1) % len(non_technical_questions)
+    return non_technical_questions[current_non_tech_index], None, "", ""
 # Question navigation (tech)
 def show_tech_question():
 def next_tech_question():
     global current_tech_index
     current_tech_index = (current_tech_index + 1) % len(technical_questions)
+    return technical_questions[current_tech_index], None, "", "", ""
 # Transcribe + analyze (non-technical)
 def transcribe_and_analyze_non_tech(audio, question):
     try:
+        audio = whisper.load_audio(audio)
+        audio = whisper.pad_or_trim(audio)
+        mel = whisper.log_mel_spectrogram(audio).to(whisper_model.device)
         result = whisper.decode(whisper_model, mel, whisper.DecodingOptions(fp16=False))
+        transcribed_text = result.text
+        emotion_text, emoji = detect_emotion(transcribed_text)
+        return transcribed_text, f"{emotion_text} {emoji}"
     except Exception as e:
+        return f"Error: {str(e)}", "❓"
 # Transcribe + analyze (technical)
 def transcribe_and_analyze_tech(audio, question):
     try:
+        audio = whisper.load_audio(audio)
+        audio = whisper.pad_or_trim(audio)
+        mel = whisper.log_mel_spectrogram(audio).to(whisper_model.device)
         result = whisper.decode(whisper_model, mel, whisper.DecodingOptions(fp16=False))
+        transcribed_text = result.text
+        context_result = predict_relevance(question, transcribed_text)
+        confidence_result = predict_confidence(question, transcribed_text)
+        return transcribed_text, context_result, confidence_result
     except Exception as e:
+        return f"Error: {str(e)}", "", ""
 # UI layout
 with gr.Blocks(css="textarea, .gr-box { font-size: 18px !important; }") as demo:
         # NON-TECHNICAL TAB
         with gr.Tab("Non-Technical"):
             gr.Markdown("### Emotional Context Analysis (🧠 + 😊)")
+            question_display_1 = gr.Textbox(label="Interview Question", value=show_non_tech_question(), interactive=False)
+            audio_input_1 = gr.Audio(type="filepath", label="Record Your Answer")
+            transcribed_text_1 = gr.Textbox(label="Transcribed Answer", interactive=False, lines=4)
+            emotion_output = gr.Textbox(label="Detected Emotion", interactive=False)
+            audio_input_1.change(fn=transcribe_and_analyze_non_tech,
+                                 inputs=[audio_input_1, question_display_1],
+                                 outputs=[transcribed_text_1, emotion_output])
+            next_button_1 = gr.Button("Next Question")
+            next_button_1.click(fn=next_non_tech_question,
+                                outputs=[question_display_1, audio_input_1, transcribed_text_1, emotion_output])
         # TECHNICAL TAB
         with gr.Tab("Technical"):
             gr.Markdown("### Technical Question Analysis (🎓 + 🤖)")
+            question_display_2 = gr.Textbox(label="Interview Question", value=show_tech_question(), interactive=False)
+            audio_input_2 = gr.Audio(type="filepath", label="Record Your Answer")
+            transcribed_text_2 = gr.Textbox(label="Transcribed Answer", interactive=False, lines=4)
+            context_analysis_result = gr.Textbox(label="Context Analysis", interactive=False)
+            confidence_analysis_result = gr.Textbox(label="Confidence Analysis", interactive=False)
+            audio_input_2.change(fn=transcribe_and_analyze_tech,
+                                 inputs=[audio_input_2, question_display_2],
+                                 outputs=[transcribed_text_2, context_analysis_result, confidence_analysis_result])
+            next_button_2 = gr.Button("Next Question")
+            next_button_2.click(fn=next_tech_question,
+                                outputs=[question_display_2, audio_input_2, transcribed_text_2,
+                                         context_analysis_result, confidence_analysis_result])
 demo.launch(share=True)