VisionOCR-Chat

Runtime error

App Files Files Community

openfree commited on Feb 10

Commit

21d018a

verified ·

1 Parent(s): cf7458b

Update app.py

Browse files

Files changed (1) hide show

app.py +19 -64

app.py CHANGED Viewed

@@ -27,7 +27,6 @@ with open('/home/user/magic-pdf.json', 'w') as file:
 os.system('cp -r paddleocr /home/user/.paddleocr')
 ###############################
 # Gradio 및 기타 라이브러리
 ###############################
@@ -38,9 +37,6 @@ from magic_pdf.data.data_reader_writer import FileBasedDataReader
 from magic_pdf.libs.hash_utils import compute_sha256
 from magic_pdf.tools.common import do_parse, prepare_env
-#######################
-# 1) UI CSS + PDF funcs
-#######################
 def create_css():
     """화면 가득 사용 + 스크롤 허용"""
     return """
@@ -186,10 +182,6 @@ def to_markdown(file_path, end_pages, is_ocr, layout_mode, formula_enable, table
     progress(100, "변환 완료!")
     return md_content
-################################
-# magic_pdf 모델 초기화
-################################
 def init_model():
     from magic_pdf.model.doc_analyze_by_custom_model import ModelSingleton
     try:
@@ -206,9 +198,6 @@ def init_model():
 model_init = init_model()
 logger.info(f"model_init: {model_init}")
-##################
-# 언어 목록
-##################
 latin_lang = [
     'af','az','bs','cs','cy','da','de','es','et','fr','ga','hr','hu','id','is','it','ku',
     'la','lt','lv','mi','ms','mt','nl','no','oc','pi','pl','pt','ro','rs_latin','sk','sl',
@@ -222,10 +211,6 @@ other_lang = ['ch','en','korean','japan','chinese_cht','ta','te','ka']
 all_lang = ['', 'auto']
 all_lang.extend([*other_lang, *latin_lang, *arabic_lang, *cyrillic_lang, *devanagari_lang])
-##################################
-# 2) Gemini (google.generativeai)
-##################################
 import google.generativeai as genai
 from gradio import ChatMessage
 from typing import Iterator
@@ -233,13 +218,10 @@ import time
 GEMINI_API_KEY = os.getenv("GEMINI_API_KEY")
 genai.configure(api_key=GEMINI_API_KEY)
 model = genai.GenerativeModel("gemini-2.0-flash-thinking-exp-1219")
 def format_chat_history(messages: list) -> list:
-    """
-    Gemini가 이해할 수 있는 (role, parts[]) 형식으로 변환
-    """
     formatted_history = []
     for message in messages:
         if not (message.role == "assistant" and hasattr(message, "metadata")):
@@ -250,9 +232,7 @@ def format_chat_history(messages: list) -> list:
     return formatted_history
 def stream_gemini_response(user_message: str, messages: list) -> Iterator[list]:
-    """
-    Gemini 응답 스트리밍 (user_message가 공백이면 기본 문구로 교체)
-    """
     if not user_message.strip():
         user_message = "...(No content from user)..."
@@ -266,7 +246,6 @@ def stream_gemini_response(user_message: str, messages: list) -> Iterator[list]:
         response_buffer = ""
         thinking_complete = False
-        # "Thinking" 메시지 추가
         messages.append(
             ChatMessage(
                 role="assistant",
@@ -281,7 +260,6 @@ def stream_gemini_response(user_message: str, messages: list) -> Iterator[list]:
             current_chunk = parts[0].text
             if len(parts) == 2 and not thinking_complete:
-                # Complete thought
                 thought_buffer += current_chunk
                 messages[-1] = ChatMessage(
                     role="assistant",
@@ -290,16 +268,13 @@ def stream_gemini_response(user_message: str, messages: list) -> Iterator[list]:
                 )
                 yield convert_chat_messages_to_gradio_format(messages)
-                # Start final response
                 response_buffer = parts[1].text
                 messages.append(ChatMessage(role="assistant", content=response_buffer))
                 thinking_complete = True
             elif thinking_complete:
-                # Response ongoing
                 response_buffer += current_chunk
                 messages[-1] = ChatMessage(role="assistant", content=response_buffer)
             else:
-                # Still in "thinking"
                 thought_buffer += current_chunk
                 messages[-1] = ChatMessage(
                     role="assistant",
@@ -317,9 +292,7 @@ def stream_gemini_response(user_message: str, messages: list) -> Iterator[list]:
         yield convert_chat_messages_to_gradio_format(messages)
 def convert_chat_messages_to_gradio_format(messages):
-    """
-    ChatMessage list -> [ (유저발화, 봇응답), (...), ... ]
-    """
     gradio_chat = []
     user_text, assistant_text = None, None
@@ -330,7 +303,6 @@ def convert_chat_messages_to_gradio_format(messages):
             user_text = msg.content
             assistant_text = None
         else:
-            # assistant
             if user_text is None:
                 user_text = ""
             if assistant_text is None:
@@ -344,9 +316,7 @@ def convert_chat_messages_to_gradio_format(messages):
     return gradio_chat
 def user_message(msg: str, history: list, doc_text: str) -> tuple[str, list]:
-    """
-    doc_text(마크다운) 사용해 질문 자동 변형
-    """
     if doc_text.strip():
         user_query = f"다음 문서를 참고하여 답변:\n\n{doc_text}\n\n질문: {msg}"
     else:
@@ -355,22 +325,15 @@ def user_message(msg: str, history: list, doc_text: str) -> tuple[str, list]:
     history.append(ChatMessage(role="user", content=user_query))
     return "", history
-########################
-# 새 파일 업로드시 초기화
-########################
 def reset_states(_):
     """
-    파일이 변경되면(새 파일 업로드되면)
-    - 대화 이력(chat_history)
-    - 마크다운 상태(md_state)
-    - 챗봇(기존 대화)
-    모두 초기화
     """
     return [], "", []
-################################
-# 3) 통합 Gradio 앱 구성
-################################
 with gr.Blocks(title="OCR FLEX + Gemini Chat", css=create_css()) as demo:
     gr.HTML("""
     <div class="title-area">
@@ -379,25 +342,21 @@ with gr.Blocks(title="OCR FLEX + Gemini Chat", css=create_css()) as demo:
     </div>
     """)
-    # 상태
-    md_state = gr.State("")
-    chat_history = gr.State([])
-    # 1) 업로드 & 변환
     with gr.Row():
-        file = gr.File(
-            label="PDF/이미지 업로드",
-            file_types=[".pdf", ".png", ".jpeg", ".jpg"],
-            interactive=True
-        )
         convert_btn = gr.Button("변환하기")
     # 새 파일 업로드 시: 이전 대화/마크다운/챗봇 초기화
-    # => 만약 "파일 변경 이벤트"로 초기화하길 원치 않으면 주석 처리
     file.change(
         fn=reset_states,
         inputs=file,
-        outputs=[chat_history, md_state, "chatbot"]
     )
     # 숨긴 컴포넌트
@@ -408,23 +367,20 @@ with gr.Blocks(title="OCR FLEX + Gemini Chat", css=create_css()) as demo:
     is_ocr = gr.Checkbox(value=False, visible=False, elem_classes="invisible")
     table_enable = gr.Checkbox(value=True, visible=False, elem_classes="invisible")
-    # 변환 버튼 → to_markdown
     convert_btn.click(
         fn=to_markdown,
         inputs=[file, max_pages, is_ocr, layout_mode, formula_enable, table_enable, language],
         outputs=md_state,
-        show_progress=True  # 프로그레스바+로딩 표시
     )
-    # 2) Gemini Chat
     gr.Markdown("## Gemini 2.0 Flash (Thinking) Chat")
-    chatbot = gr.Chatbot(height=600, elem_id="chatbot")  # elem_id 지정 (reset에서 outputs로 사용)
     with gr.Row():
         chat_input = gr.Textbox(lines=1, placeholder="질문을 입력하세요...")
         clear_btn = gr.Button("대화 초기화")
-    # 채팅 흐름
     chat_input.submit(
         fn=user_message,
         inputs=[chat_input, chat_history, md_state],
@@ -435,12 +391,11 @@ with gr.Blocks(title="OCR FLEX + Gemini Chat", css=create_css()) as demo:
         outputs=chatbot
     )
-    # 초기화 버튼: 대화/상태/챗봇 모두 초기화
-    def clear_states():
         return [], "", []
     clear_btn.click(
-        fn=clear_states,
         inputs=[],
         outputs=[chat_history, md_state, chatbot]
     )

 os.system('cp -r paddleocr /home/user/.paddleocr')
 ###############################
 # Gradio 및 기타 라이브러리
 ###############################
 from magic_pdf.libs.hash_utils import compute_sha256
 from magic_pdf.tools.common import do_parse, prepare_env
 def create_css():
     """화면 가득 사용 + 스크롤 허용"""
     return """
     progress(100, "변환 완료!")
     return md_content
 def init_model():
     from magic_pdf.model.doc_analyze_by_custom_model import ModelSingleton
     try:
 model_init = init_model()
 logger.info(f"model_init: {model_init}")
 latin_lang = [
     'af','az','bs','cs','cy','da','de','es','et','fr','ga','hr','hu','id','is','it','ku',
     'la','lt','lv','mi','ms','mt','nl','no','oc','pi','pl','pt','ro','rs_latin','sk','sl',
 all_lang = ['', 'auto']
 all_lang.extend([*other_lang, *latin_lang, *arabic_lang, *cyrillic_lang, *devanagari_lang])
 import google.generativeai as genai
 from gradio import ChatMessage
 from typing import Iterator
 GEMINI_API_KEY = os.getenv("GEMINI_API_KEY")
 genai.configure(api_key=GEMINI_API_KEY)
 model = genai.GenerativeModel("gemini-2.0-flash-thinking-exp-1219")
 def format_chat_history(messages: list) -> list:
+    """Gemini가 이해할 수 있는 (role, parts[]) 형식으로 변환"""
     formatted_history = []
     for message in messages:
         if not (message.role == "assistant" and hasattr(message, "metadata")):
     return formatted_history
 def stream_gemini_response(user_message: str, messages: list) -> Iterator[list]:
+    """Gemini 응답 스트리밍 (user_message가 공백이면 기본 문구로 교체)"""
     if not user_message.strip():
         user_message = "...(No content from user)..."
         response_buffer = ""
         thinking_complete = False
         messages.append(
             ChatMessage(
                 role="assistant",
             current_chunk = parts[0].text
             if len(parts) == 2 and not thinking_complete:
                 thought_buffer += current_chunk
                 messages[-1] = ChatMessage(
                     role="assistant",
                 )
                 yield convert_chat_messages_to_gradio_format(messages)
                 response_buffer = parts[1].text
                 messages.append(ChatMessage(role="assistant", content=response_buffer))
                 thinking_complete = True
             elif thinking_complete:
                 response_buffer += current_chunk
                 messages[-1] = ChatMessage(role="assistant", content=response_buffer)
             else:
                 thought_buffer += current_chunk
                 messages[-1] = ChatMessage(
                     role="assistant",
         yield convert_chat_messages_to_gradio_format(messages)
 def convert_chat_messages_to_gradio_format(messages):
+    """ChatMessage list -> [ (유저발화, 봇응답), (...), ... ]"""
     gradio_chat = []
     user_text, assistant_text = None, None
             user_text = msg.content
             assistant_text = None
         else:
             if user_text is None:
                 user_text = ""
             if assistant_text is None:
     return gradio_chat
 def user_message(msg: str, history: list, doc_text: str) -> tuple[str, list]:
+    """doc_text(마크다운) 사용해 질문 자동 변형"""
     if doc_text.strip():
         user_query = f"다음 문서를 참고하여 답변:\n\n{doc_text}\n\n질문: {msg}"
     else:
     history.append(ChatMessage(role="user", content=user_query))
     return "", history
 def reset_states(_):
     """
+    새 파일 업로드 시
+    - chat_history -> 빈 리스트
+    - md_state -> 빈 문자열
+    - chatbot -> 빈 list of tuples
     """
     return [], "", []
 with gr.Blocks(title="OCR FLEX + Gemini Chat", css=create_css()) as demo:
     gr.HTML("""
     <div class="title-area">
     </div>
     """)
+    md_state = gr.State("")      # 변환된 마크다운 텍스트
+    chat_history = gr.State([])  # ChatMessage 리스트
+    # 업로드 & 변환
     with gr.Row():
+        file = gr.File(label="PDF/이미지 업로드", file_types=[".pdf", ".png", ".jpeg", ".jpg"], interactive=True)
         convert_btn = gr.Button("변환하기")
     # 새 파일 업로드 시: 이전 대화/마크다운/챗봇 초기화
+    chatbot = gr.Chatbot(height=600)  # 실제 Chatbot 컴포넌트
     file.change(
         fn=reset_states,
         inputs=file,
+        outputs=[chat_history, md_state, chatbot]  # <--- 문자열 "chatbot" 아니라 chatbot 컴포넌트 객체
     )
     # 숨긴 컴포넌트
     is_ocr = gr.Checkbox(value=False, visible=False, elem_classes="invisible")
     table_enable = gr.Checkbox(value=True, visible=False, elem_classes="invisible")
     convert_btn.click(
         fn=to_markdown,
         inputs=[file, max_pages, is_ocr, layout_mode, formula_enable, table_enable, language],
         outputs=md_state,
+        show_progress=True  # 프로그레스바 표시
     )
+    # Gemini Chat
     gr.Markdown("## Gemini 2.0 Flash (Thinking) Chat")
     with gr.Row():
         chat_input = gr.Textbox(lines=1, placeholder="질문을 입력하세요...")
         clear_btn = gr.Button("대화 초기화")
     chat_input.submit(
         fn=user_message,
         inputs=[chat_input, chat_history, md_state],
         outputs=chatbot
     )
+    def clear_all():
         return [], "", []
     clear_btn.click(
+        fn=clear_all,
         inputs=[],
         outputs=[chat_history, md_state, chatbot]
     )