Spaces:

singhdevendra58
/

DocQA

Running

App Files Files Community

singhdevendra58 commited on 14 days ago

Commit

318d005

verified ·

1 Parent(s): 0cfdd6a

Update src/streamlit_app.py

Browse files

Files changed (1) hide show

src/streamlit_app.py +129 -38

src/streamlit_app.py CHANGED Viewed

@@ -1,40 +1,131 @@
-import altair as alt
-import numpy as np
-import pandas as pd
 import streamlit as st
-"""
-# Welcome to Streamlit!
-Edit `/streamlit_app.py` to customize this app to your heart's desire :heart:.
-If you have any questions, checkout our [documentation](https://docs.streamlit.io) and [community
-forums](https://discuss.streamlit.io).
-In the meantime, below is an example of what you can do with just a few lines of code:
-"""
-num_points = st.slider("Number of points in spiral", 1, 10000, 1100)
-num_turns = st.slider("Number of turns in spiral", 1, 300, 31)
-indices = np.linspace(0, 1, num_points)
-theta = 2 * np.pi * num_turns * indices
-radius = indices
-x = radius * np.cos(theta)
-y = radius * np.sin(theta)
-df = pd.DataFrame({
-    "x": x,
-    "y": y,
-    "idx": indices,
-    "rand": np.random.randn(num_points),
-})
-st.altair_chart(alt.Chart(df, height=700, width=700)
-    .mark_point(filled=True)
-    .encode(
-        x=alt.X("x", axis=None),
-        y=alt.Y("y", axis=None),
-        color=alt.Color("idx", legend=None, scale=alt.Scale()),
-        size=alt.Size("rand", legend=None, scale=alt.Scale(range=[1, 150])),
-    ))

 import streamlit as st
+from langchain.document_loaders import PyPDFLoader, Docx2txtLoader, TextLoader
+from langchain.text_splitter import CharacterTextSplitter
+from langchain.embeddings.openai import OpenAIEmbeddings
+from langchain.vectorstores import FAISS
+from langchain.chains import ConversationalRetrievalChain
+from langchain.llms import OpenAI
+import os
+import tempfile
+from doc_qa import  embeddings,llm
+from doc_qa_1 import embeddings,doc_qa
+def start_message(doc_name):
+    st.success("✅ ドキュメントのアップロードが完了しました！")
+    st.markdown(f"### 📄 アップロードされました: `{doc_name}`")
+    st.markdown("これで文書に関する質問ができます。 💬")
+    st.markdown("例えば、次のような質問ができます。:")
+    st.markdown("- この文書は何について書かれていますか？")
+    st.markdown("- 重要なポイントを要約してください。")
+    st.markdown("- 著者は誰ですか？")
+    st.markdown("はじめるには、下に質問を入力してください。!")
+# Function to load individual file
+def load_file(file, suffix):
+    with tempfile.NamedTemporaryFile(delete=False, suffix=suffix) as temp_file:
+        temp_file.write(file.read())
+        temp_file_path = temp_file.name
+    if suffix == ".pdf":
+        loader = PyPDFLoader(temp_file_path)
+    elif suffix == ".docx":
+        loader = Docx2txtLoader(temp_file_path)
+    elif suffix == ".txt":
+        loader = TextLoader(temp_file_path)
+    else:
+        return []
+    return loader.load()
+st.set_page_config(
+    page_title="QA Assistant",
+    page_icon="https://yourdomain.com/logo.png",
+    layout="centered"
+)
+# Title
+st.title("📄 ドキュメント質問応答支援ツール")
+# Step 1: Upload document
+if "file_uploaded" not in st.session_state:
+    st.session_state.file_uploaded = False
+    st.markdown("""
+    👋 こちらへようこそ！私は文書の内容を理解するためのインテリジェントアシスタントです。
+あなたは以下のことができます：
+PDF、DOCX、TXTファイルをアップロード
+文書の内容について質問
+要約、重要ポイント、または具体的な詳細の取得
+🛠️ 質問の例：
+この文書は何について書かれていますか？
+主要なポイントを要約してください。
+著者は誰ですか？
+重要な日付や締め切りは何ですか？
+結論や推奨事項は何ですか？
+📂 まず、1つ以上の文書をアップロードしてください。
+💬 その後、下に質問を入力しましょう！
+    """)
+if "messages" not in st.session_state:
+    st.session_state.messages = []
+flag = 0
+# Upload multiple files
+with st.sidebar:
+    uploaded_files = st.file_uploader("PDF、DOCX、またはTXTファイルをアップロードしてください。", type=["pdf", "docx", "txt"], accept_multiple_files=True)
+    # Load and process documents
+    file_names=[]
+    if uploaded_files:
+        all_docs = []
+        for file in uploaded_files:
+            suffix = os.path.splitext(file.name)[1]
+            docs = load_file(file, suffix)
+            all_docs.extend(docs)
+            file_names.append(file.name)
+        # Split and embed documents
+        text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
+        split_docs = text_splitter.split_documents(all_docs)
+        #embeddings = OpenAIEmbeddings()
+        vectorstore = FAISS.from_documents(split_docs, embeddings)
+        # Setup ConversationalRetrievalChain
+        qa_chain = ConversationalRetrievalChain.from_llm(
+            llm=llm,
+            retriever=vectorstore.as_retriever(),
+            return_source_documents=False
+        )
+        start_message('\n'.join(file_names))
+        flag = 1
+# Initialize session state
+if "chat_history" not in st.session_state:
+    st.session_state.chat_history = []
+for msg in st.session_state.messages:
+    st.chat_message(msg["role"]).write(msg["content"])
+if flag==1:
+    if user_query := st.chat_input():
+        st.session_state.messages.append({"role": "user", "content": user_query})
+        with st.chat_message("user"):
+            st.markdown(f"**Q:** {user_query}")
+        result=doc_qa(user_query,vectorstore)
+        st.session_state.messages.append({"role": "assistant", "content": result["answer"]})
+        with st.chat_message("assistant"):
+            st.markdown(f"**A:** {result["answer"]}")
+        st.session_state.chat_history.append((user_query, result["answer"]))
+        # # Display conversation history
+        # if st.session_state.chat_history:
+        #     st.markdown("### 🗨️ Chat History")
+        #     for i, (q, a) in enumerate(st.session_state.chat_history, 1):
+        #         st.markdown(f"**Q{i}:** {q}")
+        #         st.markdown(f"**A{i}:** {a}")