VisionOCR-Chat

Runtime error

App Files Files Community

openfree commited on Feb 10

Commit

00039aa

verified ·

1 Parent(s): 630dc5d

Update app.py

Browse files

Files changed (1) hide show

app.py +54 -58

app.py CHANGED Viewed

@@ -1,7 +1,3 @@
-##############################
-# 1) 기존 PDF 처리 코드
-##############################
 import base64
 import json
 import os
@@ -12,6 +8,9 @@ import re
 import uuid
 import pymupdf
 os.system('pip uninstall -y magic-pdf')
 os.system('pip install git+https://github.com/opendatalab/MinerU.git@dev')
 os.system('wget https://github.com/opendatalab/MinerU/raw/dev/scripts/download_models_hf.py -O download_models_hf.py')
@@ -37,9 +36,13 @@ from magic_pdf.data.data_reader_writer import FileBasedDataReader
 from magic_pdf.libs.hash_utils import compute_sha256
 from magic_pdf.tools.common import do_parse, prepare_env
 def create_css():
     """
-    화면을 꽉 채우고 스크롤 가능하도록 설정
     """
     return """
     .gradio-container {
@@ -50,7 +53,7 @@ def create_css():
         background: linear-gradient(135deg, #EFF6FF 0%, #F5F3FF 100%);
         display: flex;
         flex-direction: column;
-        overflow-y: auto !important;
     }
     .title-area {
         text-align: center;
@@ -87,7 +90,6 @@ def read_fn(path):
 def parse_pdf(doc_path, output_dir, end_page_id, is_ocr, layout_mode, formula_enable, table_enable, language):
     os.makedirs(output_dir, exist_ok=True)
     try:
         file_name = f"{str(Path(doc_path).stem)}_{time.time()}"
         pdf_data = read_fn(doc_path)
@@ -105,7 +107,7 @@ def parse_pdf(doc_path, output_dir, end_page_id, is_ocr, layout_mode, formula_en
             formula_enable=formula_enable,
             table_enable=table_enable,
             lang=language,
-            f_dump_orig_pdf=False,
         )
         return local_md_dir, file_name
     except Exception as e:
@@ -150,19 +152,23 @@ def to_pdf(file_path):
             return tmp_file_path
 def to_markdown(file_path, end_pages, is_ocr, layout_mode, formula_enable, table_enable, language, progress=gr.Progress(track_tqdm=False)):
-    progress(0, "파일을 PDF로 변환 중...")
     file_path = to_pdf(file_path)
     time.sleep(0.5)
     if end_pages > 20:
         end_pages = 20
-    progress(30, "PDF 파싱 중...")
     local_md_dir, file_name = parse_pdf(file_path, './output', end_pages - 1, is_ocr,
                                         layout_mode, formula_enable, table_enable, language)
     time.sleep(0.5)
-    progress(50, "압축(Zip) 생성 중...")
     archive_zip_path = os.path.join("./output", compute_sha256(local_md_dir) + ".zip")
     zip_archive_success = compress_directory_to_zip(local_md_dir, archive_zip_path)
     if zip_archive_success == 0:
@@ -171,13 +177,13 @@ def to_markdown(file_path, end_pages, is_ocr, layout_mode, formula_enable, table
         logger.error("압축 실패")
     time.sleep(0.5)
-    progress(70, "마크다운 읽는 중...")
     md_path = os.path.join(local_md_dir, file_name + ".md")
     with open(md_path, 'r', encoding='utf-8') as f:
         txt_content = f.read()
     time.sleep(0.5)
-    progress(90, "이미지 base64 변환 중...")
     md_content = replace_image_with_base64(txt_content, local_md_dir)
     time.sleep(0.5)
@@ -185,6 +191,9 @@ def to_markdown(file_path, end_pages, is_ocr, layout_mode, formula_enable, table
     return md_content
 def init_model():
     from magic_pdf.model.doc_analyze_by_custom_model import ModelSingleton
     try:
@@ -215,9 +224,9 @@ all_lang = ['', 'auto']
 all_lang.extend([*other_lang, *latin_lang, *arabic_lang, *cyrillic_lang, *devanagari_lang])
-##############################
-# 2) Gemini LLM 챗 코드
-##############################
 import google.generativeai as genai
 from gradio import ChatMessage
 from typing import Iterator
@@ -230,13 +239,10 @@ model = genai.GenerativeModel("gemini-2.0-flash-thinking-exp-1219")
 def format_chat_history(messages: list) -> list:
     """
-    Gemini가 이해할 수 있는 형식
     """
     formatted_history = []
     for message in messages:
-        # ChatMessage => role, content
-        # metadata는 "thinking" 표시 용도
-        # Gemini input에서는 제외
         if not (message.role == "assistant" and hasattr(message, "metadata")):
             formatted_history.append({
                 "role": "user" if message.role == "user" else "assistant",
@@ -246,14 +252,11 @@ def format_chat_history(messages: list) -> list:
 def stream_gemini_response(user_message: str, messages: list) -> Iterator[list]:
     """
-    Gemini 응답 스트리밍
-    - user_message가 공백이어도 오류 X
     """
-    # 1) 공백 입력도 그냥 통과(오류 안내 메시지 제거)
-    # if not user_message.strip():
-    #     messages.append(ChatMessage(role="assistant", content="Please provide a non-empty text message."))
-    #     yield convert_chat_messages_to_gradio_format(messages)
-    #     return
     try:
         print(f"\n=== [Gemini] New Request ===\nUser message: '{user_message}'")
@@ -266,7 +269,7 @@ def stream_gemini_response(user_message: str, messages: list) -> Iterator[list]:
         response_buffer = ""
         thinking_complete = False
-        # "Thinking" 메시지
         messages.append(
             ChatMessage(
                 role="assistant",
@@ -299,7 +302,7 @@ def stream_gemini_response(user_message: str, messages: list) -> Iterator[list]:
                 response_buffer += current_chunk
                 messages[-1] = ChatMessage(role="assistant", content=response_buffer)
             else:
-                # Still in "Thinking"
                 thought_buffer += current_chunk
                 messages[-1] = ChatMessage(
                     role="assistant",
@@ -318,28 +321,28 @@ def stream_gemini_response(user_message: str, messages: list) -> Iterator[list]:
 def convert_chat_messages_to_gradio_format(messages):
     """
-    ChatMessage 리스트 => Gradio (유저, 봇) 튜플 리스트
     """
     gradio_chat = []
     user_text, assistant_text = None, None
     for msg in messages:
-        role = msg.role
-        content = msg.content
-        if role == "user":
             if user_text is not None or assistant_text is not None:
                 gradio_chat.append((user_text or "", assistant_text or ""))
-            user_text = content
             assistant_text = None
         else:
             # assistant
             if user_text is None:
                 user_text = ""
             if assistant_text is None:
-                assistant_text = content
             else:
-                assistant_text += content  # 스트리밍 시 이어붙임
     if user_text is not None or assistant_text is not None:
         gradio_chat.append((user_text or "", assistant_text or ""))
@@ -347,8 +350,7 @@ def convert_chat_messages_to_gradio_format(messages):
 def user_message(msg: str, history: list, doc_text: str) -> tuple[str, list]:
     """
-    - doc_text(마크다운) 참고 문구를 자동으로 추가
-    - 공백 입력도 에러 없이 진행
     """
     if doc_text.strip():
         user_query = f"다음 문서를 참고하여 답변:\n\n{doc_text}\n\n질문: {msg}"
@@ -359,44 +361,38 @@ def user_message(msg: str, history: list, doc_text: str) -> tuple[str, list]:
     return "", history
-##############################
-# 3) 통합 Gradio 앱 구성
-##############################
 with gr.Blocks(title="OCR FLEX + Gemini Chat", css=create_css()) as demo:
     gr.HTML("""
     <div class="title-area">
         <h1>OCR FLEX + Gemini Chat</h1>
-        <p>PDF/이미지 -> 텍스트(마크다운) 변환 후, Gemini LLM과 대화</p>
     </div>
     """)
-    # 변환된 마크다운, 채팅 이력
     md_state = gr.State("")
     chat_history = gr.State([])
-    # 업로드 & 변환
     with gr.Row():
-        file = gr.File(
-            label="PDF/이미지 업로드",
-            file_types=[".pdf", ".png", ".jpeg", ".jpg"],
-            interactive=True
-        )
         convert_btn = gr.Button("변환하기")
-    # 숨김 컴포넌트
     max_pages = gr.Slider(1, 20, 10, visible=False, elem_classes="invisible")
-    layout_mode = gr.Dropdown(["layoutlmv3", "doclayout_yolo"], value="doclayout_yolo", visible=False, elem_classes="invisible")
     language = gr.Dropdown(all_lang, value='auto', visible=False, elem_classes="invisible")
     formula_enable = gr.Checkbox(value=True, visible=False, elem_classes="invisible")
     is_ocr = gr.Checkbox(value=False, visible=False, elem_classes="invisible")
     table_enable = gr.Checkbox(value=True, visible=False, elem_classes="invisible")
-    # 변환 버튼 → to_markdown + progress
     convert_btn.click(
         fn=to_markdown,
         inputs=[file, max_pages, is_ocr, layout_mode, formula_enable, table_enable, language],
         outputs=md_state,
-        show_progress=True  # Gradio 자체 로딩 스피너도 표시
     )
     # Gemini Chat
@@ -404,9 +400,9 @@ with gr.Blocks(title="OCR FLEX + Gemini Chat", css=create_css()) as demo:
     chatbot = gr.Chatbot(height=600)
     with gr.Row():
         chat_input = gr.Textbox(lines=1, placeholder="질문을 입력하세요...")
-        clear_button = gr.Button("대화 초기화")
-    # 프롬프트 입력 -> user_message -> stream_gemini_response
     chat_input.submit(
         fn=user_message,
         inputs=[chat_input, chat_history, md_state],
@@ -417,10 +413,10 @@ with gr.Blocks(title="OCR FLEX + Gemini Chat", css=create_css()) as demo:
         outputs=chatbot
     )
-    # 초기화: 상태 리셋 + 챗봇 초기화
     def clear_states():
         return [], ""
-    clear_button.click(
         fn=clear_states,
         inputs=[],
         outputs=[chat_history, md_state]
@@ -432,4 +428,4 @@ with gr.Blocks(title="OCR FLEX + Gemini Chat", css=create_css()) as demo:
 if __name__ == "__main__":
-    demo.launch(debug=True, server_name="0.0.0.0", server_port=7860)

 import base64
 import json
 import os
 import uuid
 import pymupdf
+# =======================================================
+# magic-pdf & MinerU 설치 관련 (기존 코드 그대로 예시)
+# =======================================================
 os.system('pip uninstall -y magic-pdf')
 os.system('pip install git+https://github.com/opendatalab/MinerU.git@dev')
 os.system('wget https://github.com/opendatalab/MinerU/raw/dev/scripts/download_models_hf.py -O download_models_hf.py')
 from magic_pdf.libs.hash_utils import compute_sha256
 from magic_pdf.tools.common import do_parse, prepare_env
+###########################################
+# 1) UI 스타일(CSS) + PDF처리 관련 함수들
+###########################################
 def create_css():
     """
+    화면을 가득 채우고 스크롤 가능하도록 설정
     """
     return """
     .gradio-container {
         background: linear-gradient(135deg, #EFF6FF 0%, #F5F3FF 100%);
         display: flex;
         flex-direction: column;
+        overflow-y: auto !important;
     }
     .title-area {
         text-align: center;
 def parse_pdf(doc_path, output_dir, end_page_id, is_ocr, layout_mode, formula_enable, table_enable, language):
     os.makedirs(output_dir, exist_ok=True)
     try:
         file_name = f"{str(Path(doc_path).stem)}_{time.time()}"
         pdf_data = read_fn(doc_path)
             formula_enable=formula_enable,
             table_enable=table_enable,
             lang=language,
+            f_dump_orig_pdf=False
         )
         return local_md_dir, file_name
     except Exception as e:
             return tmp_file_path
 def to_markdown(file_path, end_pages, is_ocr, layout_mode, formula_enable, table_enable, language, progress=gr.Progress(track_tqdm=False)):
+    """
+    - PDF 변환 과정에서 'progress(...)' 로 진행률 업데이트
+    - Gradio 버전이 낮아도 'with progress:' 를 쓰지 않으면 __enter__ 오류가 안뜸
+    """
+    progress(0, "PDF로 변환 중...")
     file_path = to_pdf(file_path)
     time.sleep(0.5)
     if end_pages > 20:
         end_pages = 20
+    progress(20, "문서 파싱 중...")
     local_md_dir, file_name = parse_pdf(file_path, './output', end_pages - 1, is_ocr,
                                         layout_mode, formula_enable, table_enable, language)
     time.sleep(0.5)
+    progress(50, "압축(zip) 생성 중...")
     archive_zip_path = os.path.join("./output", compute_sha256(local_md_dir) + ".zip")
     zip_archive_success = compress_directory_to_zip(local_md_dir, archive_zip_path)
     if zip_archive_success == 0:
         logger.error("압축 실패")
     time.sleep(0.5)
+    progress(70, "마크다운 로드 중...")
     md_path = os.path.join(local_md_dir, file_name + ".md")
     with open(md_path, 'r', encoding='utf-8') as f:
         txt_content = f.read()
     time.sleep(0.5)
+    progress(90, "이미지(base64) 변환 중...")
     md_content = replace_image_with_base64(txt_content, local_md_dir)
     time.sleep(0.5)
     return md_content
+###############################
+# magic_pdf 모델 초기화
+###############################
 def init_model():
     from magic_pdf.model.doc_analyze_by_custom_model import ModelSingleton
     try:
 all_lang.extend([*other_lang, *latin_lang, *arabic_lang, *cyrillic_lang, *devanagari_lang])
+#################################
+# 2) Gemini (google.generativeai)
+#################################
 import google.generativeai as genai
 from gradio import ChatMessage
 from typing import Iterator
 def format_chat_history(messages: list) -> list:
     """
+    Gemini가 이해할 수 있는 형식 (role, content)
     """
     formatted_history = []
     for message in messages:
         if not (message.role == "assistant" and hasattr(message, "metadata")):
             formatted_history.append({
                 "role": "user" if message.role == "user" else "assistant",
 def stream_gemini_response(user_message: str, messages: list) -> Iterator[list]:
     """
+    Gemini 응답 스트리밍: user_message가 비어있으면 기본 문구로 대체
     """
+    # 빈 문자열이면 기본 문구로 교체(오류 방지)
+    if not user_message.strip():
+        user_message = "…(No content from user)…"
     try:
         print(f"\n=== [Gemini] New Request ===\nUser message: '{user_message}'")
         response_buffer = ""
         thinking_complete = False
+        # "Thinking" 메시지 추가
         messages.append(
             ChatMessage(
                 role="assistant",
                 response_buffer += current_chunk
                 messages[-1] = ChatMessage(role="assistant", content=response_buffer)
             else:
+                # Still thinking
                 thought_buffer += current_chunk
                 messages[-1] = ChatMessage(
                     role="assistant",
 def convert_chat_messages_to_gradio_format(messages):
     """
+    ChatMessage list -> [ (유저발화, 봇응답), (...), ... ]
     """
     gradio_chat = []
     user_text, assistant_text = None, None
     for msg in messages:
+        if msg.role == "user":
+            # 이전 턴 저장
             if user_text is not None or assistant_text is not None:
                 gradio_chat.append((user_text or "", assistant_text or ""))
+            user_text = msg.content
             assistant_text = None
         else:
             # assistant
             if user_text is None:
                 user_text = ""
             if assistant_text is None:
+                assistant_text = msg.content
             else:
+                assistant_text += msg.content  # 스트리밍 시 누적
+    # 마지막 턴
     if user_text is not None or assistant_text is not None:
         gradio_chat.append((user_text or "", assistant_text or ""))
 def user_message(msg: str, history: list, doc_text: str) -> tuple[str, list]:
     """
+    doc_text(마크다운) 참고 문구를 자동 삽입
     """
     if doc_text.strip():
         user_query = f"다음 문서를 참고하여 답변:\n\n{doc_text}\n\n질문: {msg}"
     return "", history
+################################
+# 3) 통합 Gradio 앱 구성 & 실행
+################################
 with gr.Blocks(title="OCR FLEX + Gemini Chat", css=create_css()) as demo:
     gr.HTML("""
     <div class="title-area">
         <h1>OCR FLEX + Gemini Chat</h1>
+        <p>PDF/이미지 -> 텍스트(마크다운) 변환 후, Gemini LLM 대화</p>
     </div>
     """)
     md_state = gr.State("")
     chat_history = gr.State([])
     with gr.Row():
+        file = gr.File(label="PDF/이미지 업로드", file_types=[".pdf", ".png", ".jpeg", ".jpg"], interactive=True)
         convert_btn = gr.Button("변환하기")
+    # 숨긴 컴포넌트들
     max_pages = gr.Slider(1, 20, 10, visible=False, elem_classes="invisible")
+    layout_mode = gr.Dropdown(["layoutlmv3","doclayout_yolo"], value="doclayout_yolo", visible=False, elem_classes="invisible")
     language = gr.Dropdown(all_lang, value='auto', visible=False, elem_classes="invisible")
     formula_enable = gr.Checkbox(value=True, visible=False, elem_classes="invisible")
     is_ocr = gr.Checkbox(value=False, visible=False, elem_classes="invisible")
     table_enable = gr.Checkbox(value=True, visible=False, elem_classes="invisible")
+    # 변환 클릭 -> to_markdown (progress)
     convert_btn.click(
         fn=to_markdown,
         inputs=[file, max_pages, is_ocr, layout_mode, formula_enable, table_enable, language],
         outputs=md_state,
+        show_progress=True  # 프로그레스바+로딩 표시
     )
     # Gemini Chat
     chatbot = gr.Chatbot(height=600)
     with gr.Row():
         chat_input = gr.Textbox(lines=1, placeholder="질문을 입력하세요...")
+        clear_btn = gr.Button("대화 초기화")
+    # 프롬프트 전송 -> user_message -> stream_gemini_response
     chat_input.submit(
         fn=user_message,
         inputs=[chat_input, chat_history, md_state],
         outputs=chatbot
     )
     def clear_states():
         return [], ""
+    clear_btn.click(
         fn=clear_states,
         inputs=[],
         outputs=[chat_history, md_state]
 if __name__ == "__main__":
+    demo.launch(server_name="0.0.0.0", server_port=7860, debug=True)