VisionOCR-Chat

Runtime error

App Files Files Community

openfree commited on Feb 10

Commit

16a2fde

verified ·

1 Parent(s): 00039aa

Update app-backup.py

Browse files

Files changed (1) hide show

app-backup.py +275 -257

app-backup.py CHANGED Viewed

@@ -8,9 +8,11 @@ import re
 import uuid
 import pymupdf
 os.system('pip uninstall -y magic-pdf')
 os.system('pip install git+https://github.com/opendatalab/MinerU.git@dev')
 os.system('wget https://github.com/opendatalab/MinerU/raw/dev/scripts/download_models_hf.py -O download_models_hf.py')
 os.system('python download_models_hf.py')
@@ -26,7 +28,6 @@ with open('/home/user/magic-pdf.json', 'w') as file:
     json.dump(data, file, indent=4)
 os.system('cp -r paddleocr /home/user/.paddleocr')
-from gradio_pdf import PDF
 import gradio as gr
 from loguru import logger
@@ -35,23 +36,33 @@ from magic_pdf.data.data_reader_writer import FileBasedDataReader
 from magic_pdf.libs.hash_utils import compute_sha256
 from magic_pdf.tools.common import do_parse, prepare_env
 def create_css():
     return """
-    /* 전체 스타일 */
     .gradio-container {
         background: linear-gradient(135deg, #EFF6FF 0%, #F5F3FF 100%);
-        max-width: 1200px !important;
-        margin: 0 auto !important;
-        padding: 2rem !important;
     }
-    /* 제목 스타일 */
     .title-area {
         text-align: center;
-        margin-bottom: 2rem;
         padding: 1rem;
         background: white;
         border-radius: 1rem;
         box-shadow: 0 4px 6px -1px rgba(0, 0, 0, 0.1);
     }
     .title-area h1 {
         background: linear-gradient(90deg, #2563EB 0%, #7C3AED 100%);
@@ -65,81 +76,11 @@ def create_css():
         color: #6B7280;
         font-size: 1.1rem;
     }
-    /* 컴포넌트 스타일링 */
-    .gr-box, .gr-panel {
-        border: 2px solid #E0E7FF !important;
-        border-radius: 12px !important;
-        box-shadow: 0 4px 6px -1px rgba(0, 0, 0, 0.1) !important;
-        background: white !important;
-    }
-    /* 파일 업로드 영역 */
-    .file-upload {
-        border: 2px dashed #93C5FD !important;
-        border-radius: 8px !important;
-        padding: 2rem !important;
-        background: #F0F9FF !important;
-        transition: all 0.3s ease;
-    }
-    .file-upload:hover {
-        background: #E0F2FE !important;
-        border-color: #60A5FA !important;
-    }
-    /* 버튼 스타일링 */
-    .gr-button.primary-button {
-        background: linear-gradient(90deg, #2563EB 0%, #7C3AED 100%) !important;
-        color: white !important;
-        border: none !important;
-        border-radius: 8px !important;
-        padding: 0.75rem 1.5rem !important;
-        font-weight: bold !important;
-        transition: opacity 0.2s !important;
-    }
-    .gr-button.primary-button:hover {
-        opacity: 0.9 !important;
-    }
-    .gr-button.secondary-button {
-        background: white !important;
-        color: #4B5563 !important;
-        border: 1px solid #D1D5DB !important;
-        border-radius: 8px !important;
-        padding: 0.75rem 1.5rem !important;
-    }
-    .gr-button.secondary-button:hover {
-        background: #F9FAFB !important;
-    }
-    /* 슬라이더 스타일링 */
-    .gr-slider {
-        background: #E0E7FF !important;
-    }
-    .gr-slider .gr-slider-handle {
-        background: #4F46E5 !important;
-    }
-    /* 체크박스 스타일링 */
-    .gr-checkbox {
-        border-color: #6366F1 !important;
     }
-    .gr-checkbox:checked {
-        background-color: #4F46E5 !important;
-    }
-    /* 탭 스타일링 */
-    .gr-tabs {
-        border-bottom: 2px solid #E0E7FF !important;
-    }
-    .gr-tab-button {
-        color: #6B7280 !important;
-        padding: 0.75rem 1rem !important;
-        font-weight: 500 !important;
-    }
-    .gr-tab-button.selected {
-        color: #4F46E5 !important;
-        border-bottom: 2px solid #4F46E5 !important;
-    }
-    /* 마크다운 출력 영역 */
-    .markdown-output {
-        background: white !important;
-        border-radius: 8px !important;
-        padding: 1rem !important;
-        box-shadow: inset 0 2px 4px rgba(0, 0, 0, 0.05) !important;
     }
     """
@@ -149,14 +90,10 @@ def read_fn(path):
 def parse_pdf(doc_path, output_dir, end_page_id, is_ocr, layout_mode, formula_enable, table_enable, language):
     os.makedirs(output_dir, exist_ok=True)
     try:
         file_name = f"{str(Path(doc_path).stem)}_{time.time()}"
         pdf_data = read_fn(doc_path)
-        if is_ocr:
-            parse_method = "ocr"
-        else:
-            parse_method = "auto"
         local_image_dir, local_md_dir = prepare_env(output_dir, file_name, parse_method)
         do_parse(
             output_dir,
@@ -170,7 +107,7 @@ def parse_pdf(doc_path, output_dir, end_page_id, is_ocr, layout_mode, formula_en
             formula_enable=formula_enable,
             table_enable=table_enable,
             lang=language,
-            f_dump_orig_pdf=False,
         )
         return local_md_dir, file_name
     except Exception as e:
@@ -202,48 +139,69 @@ def replace_image_with_base64(markdown_text, image_dir_path):
         return f"![{relative_path}](data:image/jpeg;base64,{base64_image})"
     return re.sub(pattern, replace, markdown_text)
-def to_markdown(file_path, end_pages, is_ocr, layout_mode, formula_enable, table_enable, language):
     file_path = to_pdf(file_path)
     if end_pages > 20:
         end_pages = 20
     local_md_dir, file_name = parse_pdf(file_path, './output', end_pages - 1, is_ocr,
-                                      layout_mode, formula_enable, table_enable, language)
     archive_zip_path = os.path.join("./output", compute_sha256(local_md_dir) + ".zip")
     zip_archive_success = compress_directory_to_zip(local_md_dir, archive_zip_path)
     if zip_archive_success == 0:
         logger.info("압축 성공")
     else:
         logger.error("압축 실패")
     md_path = os.path.join(local_md_dir, file_name + ".md")
     with open(md_path, 'r', encoding='utf-8') as f:
         txt_content = f.read()
     md_content = replace_image_with_base64(txt_content, local_md_dir)
-    new_pdf_path = os.path.join(local_md_dir, file_name + "_layout.pdf")
-    return md_content, txt_content, archive_zip_path, new_pdf_path
-def to_pdf(file_path):
-    with pymupdf.open(file_path) as f:
-        if f.is_pdf:
-            return file_path
-        else:
-            pdf_bytes = f.convert_to_pdf()
-            unique_filename = f"{uuid.uuid4()}.pdf"
-            tmp_file_path = os.path.join(os.path.dirname(file_path), unique_filename)
-            with open(tmp_file_path, 'wb') as tmp_pdf_file:
-                tmp_pdf_file.write(pdf_bytes)
-            return tmp_file_path
-latex_delimiters = [{"left": "$$", "right": "$$", "display": True},
-                   {"left": '$', "right": '$', "display": False}]
 def init_model():
     from magic_pdf.model.doc_analyze_by_custom_model import ModelSingleton
     try:
         model_manager = ModelSingleton()
         txt_model = model_manager.get_model(False, False)
-        logger.info(f"txt_model init final")
         ocr_model = model_manager.get_model(True, False)
-        logger.info(f"ocr_model init final")
         return 0
     except Exception as e:
         logger.exception(e)
@@ -253,161 +211,221 @@ model_init = init_model()
 logger.info(f"model_init: {model_init}")
 latin_lang = [
-    'af', 'az', 'bs', 'cs', 'cy', 'da', 'de', 'es', 'et', 'fr', 'ga', 'hr',
-    'hu', 'id', 'is', 'it', 'ku', 'la', 'lt', 'lv', 'mi', 'ms', 'mt', 'nl',
-    'no', 'oc', 'pi', 'pl', 'pt', 'ro', 'rs_latin', 'sk', 'sl', 'sq', 'sv',
-    'sw', 'tl', 'tr', 'uz', 'vi', 'french', 'german'
 ]
-arabic_lang = ['ar', 'fa', 'ug', 'ur']
-cyrillic_lang = [
-    'ru', 'rs_cyrillic', 'be', 'bg', 'uk', 'mn', 'abq', 'ady', 'kbd', 'ava',
-    'dar', 'inh', 'che', 'lbe', 'lez', 'tab'
-]
-devanagari_lang = [
-    'hi', 'mr', 'ne', 'bh', 'mai', 'ang', 'bho', 'mah', 'sck', 'new', 'gom',
-    'sa', 'bgc'
-]
-other_lang = ['ch', 'en', 'korean', 'japan', 'chinese_cht', 'ta', 'te', 'ka']
 all_lang = ['', 'auto']
 all_lang.extend([*other_lang, *latin_lang, *arabic_lang, *cyrillic_lang, *devanagari_lang])
-if __name__ == "__main__":
-    with gr.Blocks(title="OCR FLEX", css=create_css()) as demo:
-        # 타이틀 영역
-        with gr.Row(elem_classes="title-area"):
-            gr.HTML("""
-                <h1>OCR FLEX</h1>
-                <p>PDF와 이미지에서 텍스트를 빠르고 정확하게 추출하세요</p>
-            """)
-        with gr.Row():
-            # 왼쪽 패널
-            with gr.Column(variant='panel', scale=5):
-                file = gr.File(
-                    label="PDF 또는 이미지 파일을 업로드하세요",
-                    file_types=[".pdf", ".png", ".jpeg", ".jpg"],
-                    elem_classes="file-upload"
-                )
-                max_pages = gr.Slider(
-                    1, 20, 10,
-                    step=1,
-                    label='최대 변환 페이지 수',
-                    elem_classes="custom-slider"
-                )
-                with gr.Row():
-                    layout_mode = gr.Dropdown(
-                        ["layoutlmv3", "doclayout_yolo"],
-                        label="레이아웃 모델",
-                        value="doclayout_yolo",
-                        elem_classes="custom-dropdown"
-                    )
-                    language = gr.Dropdown(
-                        all_lang,
-                        label="언어",
-                        value='auto',
-                        elem_classes="custom-dropdown"
-                    )
-                with gr.Row():
-                    formula_enable = gr.Checkbox(
-                        label="수식 인식 활성화",
-                        value=True,
-                        elem_classes="custom-checkbox"
-                    )
-                    is_ocr = gr.Checkbox(
-                        label="OCR 강제 활성화",
-                        value=False,
-                        elem_classes="custom-checkbox"
-                    )
-                    table_enable = gr.Checkbox(
-                        label="표 인식 활성화(테스트)",
-                        value=True,
-                        elem_classes="custom-checkbox"
-                    )
-                with gr.Row():
-                    change_bu = gr.Button(
-                        "변환",
-                        elem_classes="primary-button"
-                    )
-                    clear_bu = gr.ClearButton(
-                        value="초기화",
-                        elem_classes="secondary-button"
-                    )
-                pdf_show = PDF(
-                    label='PDF 미리보기',
-                    interactive=False,
-                    visible=True,
-                    height=800,
-                    elem_classes="pdf-preview"
                 )
-                with gr.Accordion("예제:", open=False):
-                    example_root = os.path.join(os.path.dirname(__file__), "examples")
-                    gr.Examples(
-                        examples=[os.path.join(example_root, _) for _ in os.listdir(example_root) if
-                                _.endswith("pdf")],
-                        inputs=file
-                    )
-            # 오른쪽 패널
-            with gr.Column(variant='panel', scale=5):
-                output_file = gr.File(
-                    label="변환 결과",
-                    interactive=False,
-                    elem_classes="output-file"
                 )
-                with gr.Tabs() as tabs:
-                    with gr.Tab("마크다운 렌더링"):
-                        md = gr.Markdown(
-                            label="마크다운 렌더링",
-                            height=1100,
-                            show_copy_button=True,
-                            latex_delimiters=latex_delimiters,
-                            line_breaks=True,
-                            elem_classes="markdown-output"
-                        )
-                    with gr.Tab("마크다운 텍스트"):
-                        md_text = gr.TextArea(
-                            lines=45,
-                            show_copy_button=True,
-                            elem_classes="markdown-text"
-                        )
-        # 이벤트 핸들러
-        file.change(
-            fn=to_pdf,
-            inputs=file,
-            outputs=pdf_show
-        )
-        change_bu.click(
-            fn=to_markdown,
-            inputs=[
-                file,
-                max_pages,
-                is_ocr,
-                layout_mode,
-                formula_enable,
-                table_enable,
-                language
-            ],
-            outputs=[
-                md,
-                md_text,
-                output_file,
-                pdf_show
-            ],
-            api_name=False
-        )
-        clear_bu.add([file, md, pdf_show, md_text, output_file, is_ocr])
-    # 앱 실행
-    demo.launch(ssr_mode=True)

 import uuid
 import pymupdf
+# =======================================================
+# magic-pdf & MinerU 설치 관련 (기존 코드 그대로 예시)
+# =======================================================
 os.system('pip uninstall -y magic-pdf')
 os.system('pip install git+https://github.com/opendatalab/MinerU.git@dev')
 os.system('wget https://github.com/opendatalab/MinerU/raw/dev/scripts/download_models_hf.py -O download_models_hf.py')
 os.system('python download_models_hf.py')
     json.dump(data, file, indent=4)
 os.system('cp -r paddleocr /home/user/.paddleocr')
 import gradio as gr
 from loguru import logger
 from magic_pdf.libs.hash_utils import compute_sha256
 from magic_pdf.tools.common import do_parse, prepare_env
+###########################################
+# 1) UI 스타일(CSS) + PDF처리 관련 함수들
+###########################################
 def create_css():
+    """
+    화면을 가득 채우고 스크롤 가능하도록 설정
+    """
     return """
     .gradio-container {
+        width: 100vw !important;
+        min-height: 100vh !important;
+        margin: 0 !important;
+        padding: 0 !important;
         background: linear-gradient(135deg, #EFF6FF 0%, #F5F3FF 100%);
+        display: flex;
+        flex-direction: column;
+        overflow-y: auto !important;
     }
     .title-area {
         text-align: center;
+        margin: 1rem auto;
         padding: 1rem;
         background: white;
         border-radius: 1rem;
         box-shadow: 0 4px 6px -1px rgba(0, 0, 0, 0.1);
+        max-width: 800px;
     }
     .title-area h1 {
         background: linear-gradient(90deg, #2563EB 0%, #7C3AED 100%);
         color: #6B7280;
         font-size: 1.1rem;
     }
+    .invisible {
+        display: none !important;
     }
+    .gr-block, .gr-box {
+        padding: 0.5rem !important;
     }
     """
 def parse_pdf(doc_path, output_dir, end_page_id, is_ocr, layout_mode, formula_enable, table_enable, language):
     os.makedirs(output_dir, exist_ok=True)
     try:
         file_name = f"{str(Path(doc_path).stem)}_{time.time()}"
         pdf_data = read_fn(doc_path)
+        parse_method = "ocr" if is_ocr else "auto"
         local_image_dir, local_md_dir = prepare_env(output_dir, file_name, parse_method)
         do_parse(
             output_dir,
             formula_enable=formula_enable,
             table_enable=table_enable,
             lang=language,
+            f_dump_orig_pdf=False
         )
         return local_md_dir, file_name
     except Exception as e:
         return f"![{relative_path}](data:image/jpeg;base64,{base64_image})"
     return re.sub(pattern, replace, markdown_text)
+def to_pdf(file_path):
+    with pymupdf.open(file_path) as f:
+        if f.is_pdf:
+            return file_path
+        else:
+            pdf_bytes = f.convert_to_pdf()
+            unique_filename = f"{uuid.uuid4()}.pdf"
+            tmp_file_path = os.path.join(os.path.dirname(file_path), unique_filename)
+            with open(tmp_file_path, 'wb') as tmp_pdf_file:
+                tmp_pdf_file.write(pdf_bytes)
+            return tmp_file_path
+def to_markdown(file_path, end_pages, is_ocr, layout_mode, formula_enable, table_enable, language, progress=gr.Progress(track_tqdm=False)):
+    """
+    - PDF 변환 과정에서 'progress(...)' 로 진행률 업데이트
+    - Gradio 버전이 낮아도 'with progress:' 를 쓰지 않으면 __enter__ 오류가 안뜸
+    """
+    progress(0, "PDF로 변환 중...")
     file_path = to_pdf(file_path)
+    time.sleep(0.5)
     if end_pages > 20:
         end_pages = 20
+    progress(20, "문서 파싱 중...")
     local_md_dir, file_name = parse_pdf(file_path, './output', end_pages - 1, is_ocr,
+                                        layout_mode, formula_enable, table_enable, language)
+    time.sleep(0.5)
+    progress(50, "압축(zip) 생성 중...")
     archive_zip_path = os.path.join("./output", compute_sha256(local_md_dir) + ".zip")
     zip_archive_success = compress_directory_to_zip(local_md_dir, archive_zip_path)
     if zip_archive_success == 0:
         logger.info("압축 성공")
     else:
         logger.error("압축 실패")
+    time.sleep(0.5)
+    progress(70, "마크다운 로드 중...")
     md_path = os.path.join(local_md_dir, file_name + ".md")
     with open(md_path, 'r', encoding='utf-8') as f:
         txt_content = f.read()
+    time.sleep(0.5)
+    progress(90, "이미지(base64) 변환 중...")
     md_content = replace_image_with_base64(txt_content, local_md_dir)
+    time.sleep(0.5)
+    progress(100, "변환 완료!")
+    return md_content
+###############################
+# magic_pdf 모델 초기화
+###############################
 def init_model():
     from magic_pdf.model.doc_analyze_by_custom_model import ModelSingleton
     try:
         model_manager = ModelSingleton()
         txt_model = model_manager.get_model(False, False)
+        logger.info("txt_model init final")
         ocr_model = model_manager.get_model(True, False)
+        logger.info("ocr_model init final")
         return 0
     except Exception as e:
         logger.exception(e)
 logger.info(f"model_init: {model_init}")
 latin_lang = [
+    'af','az','bs','cs','cy','da','de','es','et','fr','ga','hr','hu','id','is','it','ku',
+    'la','lt','lv','mi','ms','mt','nl','no','oc','pi','pl','pt','ro','rs_latin','sk','sl',
+    'sq','sv','sw','tl','tr','uz','vi','french','german'
 ]
+arabic_lang = ['ar','fa','ug','ur']
+cyrillic_lang = ['ru','rs_cyrillic','be','bg','uk','mn','abq','ady','kbd','ava','dar','inh','che','lbe','lez','tab']
+devanagari_lang = ['hi','mr','ne','bh','mai','ang','bho','mah','sck','new','gom','sa','bgc']
+other_lang = ['ch','en','korean','japan','chinese_cht','ta','te','ka']
 all_lang = ['', 'auto']
 all_lang.extend([*other_lang, *latin_lang, *arabic_lang, *cyrillic_lang, *devanagari_lang])
+#################################
+# 2) Gemini (google.generativeai)
+#################################
+import google.generativeai as genai
+from gradio import ChatMessage
+from typing import Iterator
+import time
+GEMINI_API_KEY = os.getenv("GEMINI_API_KEY")
+genai.configure(api_key=GEMINI_API_KEY)
+model = genai.GenerativeModel("gemini-2.0-flash-thinking-exp-1219")
+def format_chat_history(messages: list) -> list:
+    """
+    Gemini가 이해할 수 있는 형식 (role, content)
+    """
+    formatted_history = []
+    for message in messages:
+        if not (message.role == "assistant" and hasattr(message, "metadata")):
+            formatted_history.append({
+                "role": "user" if message.role == "user" else "assistant",
+                "parts": [message.content]
+            })
+    return formatted_history
+def stream_gemini_response(user_message: str, messages: list) -> Iterator[list]:
+    """
+    Gemini 응답 스트리밍: user_message가 비어있으면 기본 문구로 대체
+    """
+    # 빈 문자열이면 기본 문구로 교체(오류 방지)
+    if not user_message.strip():
+        user_message = "…(No content from user)…"
+    try:
+        print(f"\n=== [Gemini] New Request ===\nUser message: '{user_message}'")
+        chat_history = format_chat_history(messages)
+        chat = model.start_chat(history=chat_history)
+        response = chat.send_message(user_message, stream=True)
+        thought_buffer = ""
+        response_buffer = ""
+        thinking_complete = False
+        # "Thinking" 메시지 추가
+        messages.append(
+            ChatMessage(
+                role="assistant",
+                content="",
+                metadata={"title": "⚙️ Thinking: *The thoughts produced by the model are experimental"}
+            )
+        )
+        yield convert_chat_messages_to_gradio_format(messages)
+        for chunk in response:
+            parts = chunk.candidates[0].content.parts
+            current_chunk = parts[0].text
+            if len(parts) == 2 and not thinking_complete:
+                # Complete thought
+                thought_buffer += current_chunk
+                messages[-1] = ChatMessage(
+                    role="assistant",
+                    content=thought_buffer,
+                    metadata={"title": "⚙️ Thinking: *The thoughts produced by the model are experimental"}
                 )
+                yield convert_chat_messages_to_gradio_format(messages)
+                # Start final response
+                response_buffer = parts[1].text
+                messages.append(ChatMessage(role="assistant", content=response_buffer))
+                thinking_complete = True
+            elif thinking_complete:
+                # Response ongoing
+                response_buffer += current_chunk
+                messages[-1] = ChatMessage(role="assistant", content=response_buffer)
+            else:
+                # Still thinking
+                thought_buffer += current_chunk
+                messages[-1] = ChatMessage(
+                    role="assistant",
+                    content=thought_buffer,
+                    metadata={"title": "⚙️ Thinking: *The thoughts produced by the model are experimental"}
                 )
+            yield convert_chat_messages_to_gradio_format(messages)
+        print(f"\n=== [Gemini] Final Response ===\n{response_buffer}")
+    except Exception as e:
+        print(f"\n=== [Gemini] Error ===\n{str(e)}")
+        messages.append(ChatMessage(role="assistant", content=f"I encountered an error: {str(e)}"))
+        yield convert_chat_messages_to_gradio_format(messages)
+def convert_chat_messages_to_gradio_format(messages):
+    """
+    ChatMessage list -> [ (유저발화, 봇응답), (...), ... ]
+    """
+    gradio_chat = []
+    user_text, assistant_text = None, None
+    for msg in messages:
+        if msg.role == "user":
+            # 이전 턴 저장
+            if user_text is not None or assistant_text is not None:
+                gradio_chat.append((user_text or "", assistant_text or ""))
+            user_text = msg.content
+            assistant_text = None
+        else:
+            # assistant
+            if user_text is None:
+                user_text = ""
+            if assistant_text is None:
+                assistant_text = msg.content
+            else:
+                assistant_text += msg.content  # 스트리밍 시 누적
+    # 마지막 턴
+    if user_text is not None or assistant_text is not None:
+        gradio_chat.append((user_text or "", assistant_text or ""))
+    return gradio_chat
+def user_message(msg: str, history: list, doc_text: str) -> tuple[str, list]:
+    """
+    doc_text(마크다운) 참고 문구를 자동 삽입
+    """
+    if doc_text.strip():
+        user_query = f"다음 문서를 참고하여 답변:\n\n{doc_text}\n\n질문: {msg}"
+    else:
+        user_query = msg
+    history.append(ChatMessage(role="user", content=user_query))
+    return "", history
+################################
+# 3) 통합 Gradio 앱 구성 & 실행
+################################
+with gr.Blocks(title="OCR FLEX + Gemini Chat", css=create_css()) as demo:
+    gr.HTML("""
+    <div class="title-area">
+        <h1>OCR FLEX + Gemini Chat</h1>
+        <p>PDF/이미지 -> 텍스트(마크다운) 변환 후, Gemini LLM 대화</p>
+    </div>
+    """)
+    md_state = gr.State("")
+    chat_history = gr.State([])
+    with gr.Row():
+        file = gr.File(label="PDF/이미지 업로드", file_types=[".pdf", ".png", ".jpeg", ".jpg"], interactive=True)
+        convert_btn = gr.Button("변환하기")
+    # 숨긴 컴포넌트들
+    max_pages = gr.Slider(1, 20, 10, visible=False, elem_classes="invisible")
+    layout_mode = gr.Dropdown(["layoutlmv3","doclayout_yolo"], value="doclayout_yolo", visible=False, elem_classes="invisible")
+    language = gr.Dropdown(all_lang, value='auto', visible=False, elem_classes="invisible")
+    formula_enable = gr.Checkbox(value=True, visible=False, elem_classes="invisible")
+    is_ocr = gr.Checkbox(value=False, visible=False, elem_classes="invisible")
+    table_enable = gr.Checkbox(value=True, visible=False, elem_classes="invisible")
+    # 변환 클릭 -> to_markdown (progress)
+    convert_btn.click(
+        fn=to_markdown,
+        inputs=[file, max_pages, is_ocr, layout_mode, formula_enable, table_enable, language],
+        outputs=md_state,
+        show_progress=True  # 프로그레스바+로딩 표시
+    )
+    # Gemini Chat
+    gr.Markdown("## Gemini 2.0 Flash (Thinking) Chat")
+    chatbot = gr.Chatbot(height=600)
+    with gr.Row():
+        chat_input = gr.Textbox(lines=1, placeholder="질문을 입력하세요...")
+        clear_btn = gr.Button("대화 초기화")
+    # 프롬프트 전송 -> user_message -> stream_gemini_response
+    chat_input.submit(
+        fn=user_message,
+        inputs=[chat_input, chat_history, md_state],
+        outputs=[chat_input, chat_history]
+    ).then(
+        fn=stream_gemini_response,
+        inputs=[chat_input, chat_history],
+        outputs=chatbot
+    )
+    def clear_states():
+        return [], ""
+    clear_btn.click(
+        fn=clear_states,
+        inputs=[],
+        outputs=[chat_history, md_state]
+    ).then(
+        fn=lambda: [],
+        inputs=[],
+        outputs=chatbot
+    )
+if __name__ == "__main__":
+    demo.launch(server_name="0.0.0.0", server_port=7860, debug=True)