Spaces:

VIDraft
/

voice-trans

Running on Zero

App Files Files Community

openfree commited on 17 days ago

Commit

4e89e7e

verified ·

1 Parent(s): 92dd616

Update app.py

Browse files

Files changed (1) hide show

app.py +149 -102

app.py CHANGED Viewed

@@ -14,7 +14,7 @@ LANG = ["Korean","English","Japanese","Chinese",
 VOICE = {l: ("nova" if l in ["Korean","Japanese","Chinese"] else "alloy")
          for l in LANG}
 FOUR = ["English","Chinese","Thai","Russian"]
-WS_URL = "wss://api.openai.com/v1/audio/transcriptions/stream"
 # ─── 1. 공통 GPT 번역 / TTS ─────────────────────────────────
 async def gpt_translate(text, src, tgt):
@@ -41,124 +41,171 @@ def translate_pdf(file, src, tgt):
         return "⚠️ 텍스트 추출 실패", ""
     return text, asyncio.run(gpt_translate(text, src, tgt))
-# ─── 3. WebSocket STT 헬퍼 ──────────────────────────────────
-async def ws_stt_generator(audio_queue: asyncio.Queue):
-    """
-    백그라운드 태스크:
-      - audio_queue 로부터 chunk(bytes) 수신
-      - WS 로 전송, 서버 event 수신 → yield (partial text, final?)
-    """
-    async with websockets.connect(
-        WS_URL,
-        extra_headers={"Authorization": f"Bearer {openai.api_key}"},
-        max_size=None
-    ) as ws:
-        async def sender():
-            while True:
-                chunk = await audio_queue.get()
-                if chunk is None:          # 종료 플래그
-                    await ws.send(json.dumps({"terminate": True}))
-                    break
-                await ws.send(chunk)
-        asyncio.create_task(sender())
-        async for msg in ws:
-            data = json.loads(msg)
-            yield data["text"], data.get("final", False)
-# ─── 4. Gradio 스트림 핸들러 ─────────────────────────────────
-async def realtime_single(mic, src, tgt, state):
-    """
-    mic: bytes chunk (Gradio 자동)
-    state: {"queue": Queue, "task": Task, "orig": str, "trans": str}
-    """
     if state is None:
-        state = {"queue": asyncio.Queue(), "task": None, "orig":"", "trans":""}
-    if mic is None:   # 스트림 종료
-        await state["queue"].put(None)
         return state["orig"], state["trans"], state
-    # 첫 호출이면 WS 태스크 시작
-    if state["task"] is None:
-        async def run_ws():
-            async for text, final in ws_stt_generator(state["queue"]):
-                state["orig"] += (" " if state["orig"] else "") + text
-                add = await gpt_translate(text, src, tgt)
-                state["trans"] += (" " if state["trans"] else "") + add
-        state["task"] = asyncio.create_task(run_ws())
-    # 마이크 chunk enqueue
-    await state["queue"].put(mic)
     return state["orig"], state["trans"], state
-async def realtime_four(mic, src, state):
     if state is None:
-        state = {"queue": asyncio.Queue(), "task": None,
-                 "orig":"", "English":"", "Chinese":"", "Thai":"", "Russian":""}
-    if mic is None:
-        await state["queue"].put(None)
-        return tuple(state[k] for k in
-                     ["orig","English","Chinese","Thai","Russian"]) + (state,)
-    if state["task"] is None:
-        async def run_ws():
-            async for text, _ in ws_stt_generator(state["queue"]):
-                state["orig"] += (" "+text)
-                for lang in FOUR:
-                    state[lang] += (" "+ await gpt_translate(text, src, lang))
-        state["task"] = asyncio.create_task(run_ws())
-    await state["queue"].put(mic)
-    return tuple(state[k] for k in
-                 ["orig","English","Chinese","Thai","Russian"]) + (state,)
 # ─── 5. UI ──────────────────────────────────────────────────
 with gr.Blocks(title="SMARTok Demo") as demo:
     with gr.Tabs():
         # 탭 1 – 오디오 번역
         with gr.TabItem("🎙️ 오디오"):
-            src1=gr.Dropdown(LANG,value="Korean",label="입력")
-            tgt1=gr.Dropdown(LANG,value="English",label="출력")
-            aud1=gr.Audio(sources=["microphone","upload"],type="filepath")
-            btn1=gr.Button("번역")
-            o1=gr.Textbox(label="원문"); t1=gr.Textbox(label="번역")
-            a1=gr.Audio(label="TTS",type="filepath",autoplay=True)
-            btn1.click(lambda a,s,t: translate_pdf.__wrapped__ if False else translate_pdf,
-                       [aud1,src1,tgt1],[o1,t1,a1])  # dummy, 유지용
         # 탭 2 – PDF 번역
         with gr.TabItem("📄 PDF"):
-            src2=gr.Dropdown(LANG,value="Korean",label="입력")
-            tgt2=gr.Dropdown(LANG,value="English",label="출력")
-            pdf=gr.File(file_types=[".pdf"])
-            btn2=gr.Button("번역")
-            o2=gr.Textbox(label="추출 원문",lines=15)
-            t2=gr.Textbox(label="번역 결과",lines=15)
-            btn2.click(translate_pdf:=translate_pdf,[pdf,src2,tgt2],[o2,t2])
         # 탭 3 – 실시간 1언어
         with gr.TabItem("⏱️ 실시간 1"):
-            src3=gr.Dropdown(LANG,value="Korean",label="입력")
-            tgt3=gr.Dropdown(LANG,value="English",label="출력")
-            mic3=gr.Audio(sources=["microphone"],streaming=True)
-            o3=gr.Textbox(label="원문(실시간)",lines=8)
-            t3=gr.Textbox(label="번역(실시간)",lines=8)
-            st3=gr.State()
-            mic3.stream(realtime_single,inputs=[src3,tgt3,st3],
-                        outputs=[o3,t3,st3])
         # 탭 4 – 실시간 4언어
         with gr.TabItem("🌏 실시간 4"):
-            src4=gr.Dropdown(LANG,value="Korean",label="입력")
-            mic4=gr.Audio(sources=["microphone"],streaming=True)
-            o4=gr.Textbox(label="원문",lines=8)
-            e4=gr.Textbox(label="English",lines=8)
-            c4=gr.Textbox(label="Chinese(简体)",lines=8)
-            th4=gr.Textbox(label="Thai",lines=8)
-            r4=gr.Textbox(label="Russian",lines=8)
-            st4=gr.State()
-            mic4.stream(realtime_four,inputs=[src4,st4],
-                        outputs=[o4,e4,c4,th4,r4,st4])
-demo.launch(server_name="0.0.0.0",server_port=7860,debug=True)

 VOICE = {l: ("nova" if l in ["Korean","Japanese","Chinese"] else "alloy")
          for l in LANG}
 FOUR = ["English","Chinese","Thai","Russian"]
+WS_URL = "wss://api.openai.com/v1/realtime"  # 올바른 엔드포인트로 수정
 # ─── 1. 공통 GPT 번역 / TTS ─────────────────────────────────
 async def gpt_translate(text, src, tgt):
         return "⚠️ 텍스트 추출 실패", ""
     return text, asyncio.run(gpt_translate(text, src, tgt))
+# ─── 2-1. 오디오 번역 (탭1용) ────────────────────────────────
+async def translate_audio_async(file, src, tgt):
+    if not file: return "⚠️ 오디오 업로드 필요", "", None
+    # STT: Whisper API 사용
+    with open(file, 'rb') as audio_file:
+        transcript = await openai.AsyncClient().audio.transcriptions.create(
+            model="whisper-1",
+            file=audio_file,
+            language=src[:2].lower()  # 언어 코드 간소화
+        )
+    orig_text = transcript.text
+    trans_text = await gpt_translate(orig_text, src, tgt)
+    audio_path = await gpt_tts(trans_text, tgt)
+    return orig_text, trans_text, audio_path
+def translate_audio(file, src, tgt):
+    return asyncio.run(translate_audio_async(file, src, tgt))
+# ─── 3. 실시간 STT (Whisper API 사용) ──────────────────────────
+async def process_audio_chunk(audio_data, src_lang):
+    """오디오 청크를 처리하여 텍스트로 변환"""
+    if audio_data is None:
+        return ""
+    try:
+        # 임시 파일로 저장
+        with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as tmp:
+            tmp.write(audio_data)
+            tmp_path = tmp.name
+        # Whisper API로 변환
+        with open(tmp_path, 'rb') as audio_file:
+            transcript = await openai.AsyncClient().audio.transcriptions.create(
+                model="whisper-1",
+                file=audio_file,
+                language=src_lang[:2].lower()
+            )
+        os.unlink(tmp_path)  # 임시 파일 삭제
+        return transcript.text
+    except Exception as e:
+        print(f"STT 오류: {e}")
+        return ""
+# ─── 4. Gradio 스트림 핸들러 (동기 버전) ─────────────────────
+def realtime_single_sync(audio, src, tgt, state):
+    """동기 버전의 실시간 단일 언어 번역"""
     if state is None:
+        state = {"orig": "", "trans": ""}
+    if audio is None:
         return state["orig"], state["trans"], state
+    # 비동기 작업을 동기적으로 실행
+    loop = asyncio.new_event_loop()
+    asyncio.set_event_loop(loop)
+    try:
+        # STT
+        text = loop.run_until_complete(process_audio_chunk(audio, src))
+        if text:
+            state["orig"] = state["orig"] + " " + text if state["orig"] else text
+            # 번역
+            trans = loop.run_until_complete(gpt_translate(text, src, tgt))
+            state["trans"] = state["trans"] + " " + trans if state["trans"] else trans
+    finally:
+        loop.close()
     return state["orig"], state["trans"], state
+def realtime_four_sync(audio, src, state):
+    """동기 버전의 실시간 4언어 번역"""
     if state is None:
+        state = {"orig": "", "English": "", "Chinese": "", "Thai": "", "Russian": ""}
+    if audio is None:
+        return (state["orig"], state["English"], state["Chinese"],
+                state["Thai"], state["Russian"], state)
+    loop = asyncio.new_event_loop()
+    asyncio.set_event_loop(loop)
+    try:
+        # STT
+        text = loop.run_until_complete(process_audio_chunk(audio, src))
+        if text:
+            state["orig"] = state["orig"] + " " + text if state["orig"] else text
+            # 4개 언어로 번역
+            tasks = []
+            for lang in FOUR:
+                tasks.append(gpt_translate(text, src, lang))
+            translations = loop.run_until_complete(asyncio.gather(*tasks))
+            for lang, trans in zip(FOUR, translations):
+                state[lang] = state[lang] + " " + trans if state[lang] else trans
+    finally:
+        loop.close()
+    return (state["orig"], state["English"], state["Chinese"],
+            state["Thai"], state["Russian"], state)
 # ─── 5. UI ──────────────────────────────────────────────────
 with gr.Blocks(title="SMARTok Demo") as demo:
     with gr.Tabs():
         # 탭 1 – 오디오 번역
         with gr.TabItem("🎙️ 오디오"):
+            src1 = gr.Dropdown(LANG, value="Korean", label="입력 언어")
+            tgt1 = gr.Dropdown(LANG, value="English", label="출력 언어")
+            aud1 = gr.Audio(sources=["microphone", "upload"], type="filepath")
+            btn1 = gr.Button("번역")
+            o1 = gr.Textbox(label="원문")
+            t1 = gr.Textbox(label="번역")
+            a1 = gr.Audio(label="TTS", type="filepath", autoplay=True)
+            btn1.click(translate_audio, [aud1, src1, tgt1], [o1, t1, a1])
         # 탭 2 – PDF 번역
         with gr.TabItem("📄 PDF"):
+            src2 = gr.Dropdown(LANG, value="Korean", label="입력 언어")
+            tgt2 = gr.Dropdown(LANG, value="English", label="출력 언어")
+            pdf = gr.File(file_types=[".pdf"])
+            btn2 = gr.Button("번역")
+            o2 = gr.Textbox(label="추출 원문", lines=15)
+            t2 = gr.Textbox(label="번역 결과", lines=15)
+            btn2.click(translate_pdf, [pdf, src2, tgt2], [o2, t2])
         # 탭 3 – 실시간 1언어
         with gr.TabItem("⏱️ 실시간 1"):
+            src3 = gr.Dropdown(LANG, value="Korean", label="입력 언어")
+            tgt3 = gr.Dropdown(LANG, value="English", label="출력 언어")
+            mic3 = gr.Audio(sources=["microphone"], streaming=True)
+            o3 = gr.Textbox(label="원문(실시간)", lines=8)
+            t3 = gr.Textbox(label="번역(실시간)", lines=8)
+            st3 = gr.State()
+            # stream 메서드 수정
+            mic3.stream(
+                realtime_single_sync,
+                inputs=[mic3, src3, tgt3, st3],
+                outputs=[o3, t3, st3]
+            )
         # 탭 4 – 실시간 4언어
         with gr.TabItem("🌏 실시간 4"):
+            src4 = gr.Dropdown(LANG, value="Korean", label="입력 언어")
+            mic4 = gr.Audio(sources=["microphone"], streaming=True)
+            o4 = gr.Textbox(label="원문", lines=8)
+            e4 = gr.Textbox(label="English", lines=8)
+            c4 = gr.Textbox(label="Chinese(简体)", lines=8)
+            th4 = gr.Textbox(label="Thai", lines=8)
+            r4 = gr.Textbox(label="Russian", lines=8)
+            st4 = gr.State()
+            # stream 메서드 수정
+            mic4.stream(
+                realtime_four_sync,
+                inputs=[mic4, src4, st4],
+                outputs=[o4, e4, c4, th4, r4, st4]
+            )
+demo.launch(server_name="0.0.0.0", server_port=7860, debug=True)