Spaces:

arsiba
/

GDPR-EDPB-AI

Runtime error

App Files Files Community

arsiba commited on Apr 26

Commit

2bfc379

1 Parent(s): f0f3243

feat: add pdf links

Browse files

Files changed (1) hide show

app.py +14 -2

app.py CHANGED Viewed

@@ -15,6 +15,7 @@ with open("vector_db/metadata.pkl", "rb") as f:
     metadata_dict = pickle.load(f)
 ST = SentenceTransformer("BAAI/bge-large-en-v1.5")
 model_id = "nvidia/Llama-3.1-Nemotron-Nano-8B-v1"
 bnb = BitsAndBytesConfig(
@@ -59,9 +60,18 @@ def make_prompt(q, docs, reasoning_mode):
     prompt += f"Instruct: {SYS} {q} based on the following documents:\n{context}\nOutput:"
     return prompt
 @spaces.GPU()
 def qa_fn(question, reasoning_mode, top_k, temperature, max_tokens):
     docs, file_sources = retrieve(question, top_k)
     prompt = make_prompt(question, docs, reasoning_mode)[:8000]
     inputs = tokenizer(prompt, return_tensors="pt", truncation=True)
     inputs = {k: v.to(model.device) for k, v in inputs.items()}
@@ -80,10 +90,12 @@ def qa_fn(question, reasoning_mode, top_k, temperature, max_tokens):
         output += tok
     if "</think>" in output:
         output = output.split("</think>", 1)[1].strip()
-    return output, file_sources
 outputs_answer = gr.Textbox(label="Answer")
 outputs_sources = gr.JSON(label="Sources (Used Files)")
 demo = gr.Interface(
     fn=qa_fn,
@@ -94,7 +106,7 @@ demo = gr.Interface(
         gr.Slider(0.1, 1.0, value=0.6, step=0.05, label="Temperature"),
         gr.Slider(64, 1024, value=512, step=64, label="Max Answer Length")
     ],
-    outputs=[outputs_answer, outputs_sources],
     title="GDPR Legal Assistant",
     description="Ask any question about GDPR or EDPB documents. The response includes used files and chunks.",
     allow_flagging="never"

     metadata_dict = pickle.load(f)
 ST = SentenceTransformer("BAAI/bge-large-en-v1.5")
+github_base_url = "https://github.com/arsiba/EDPB-AI/blob/main/"
 model_id = "nvidia/Llama-3.1-Nemotron-Nano-8B-v1"
 bnb = BitsAndBytesConfig(
     prompt += f"Instruct: {SYS} {q} based on the following documents:\n{context}\nOutput:"
     return prompt
+def build_markdown_links(file_input):
+    lines = []
+    for idx, item in enumerate(file_input, start=1):
+        url = f"{github_base_url}/{item['directory']}/{item['source']}"
+        line = f"**Source {idx}:** [{item['source']}]({url}) on page {item['page']}"
+        lines.append(line)
+    return "\n\n".join(lines)
 @spaces.GPU()
 def qa_fn(question, reasoning_mode, top_k, temperature, max_tokens):
     docs, file_sources = retrieve(question, top_k)
+    file_links = build_markdown_links(file_sources)
     prompt = make_prompt(question, docs, reasoning_mode)[:8000]
     inputs = tokenizer(prompt, return_tensors="pt", truncation=True)
     inputs = {k: v.to(model.device) for k, v in inputs.items()}
         output += tok
     if "</think>" in output:
         output = output.split("</think>", 1)[1].strip()
+    return output, file_sources, file_links
 outputs_answer = gr.Textbox(label="Answer")
 outputs_sources = gr.JSON(label="Sources (Used Files)")
+outputs_link = gr.Markdown(label="Source Link")
 demo = gr.Interface(
     fn=qa_fn,
         gr.Slider(0.1, 1.0, value=0.6, step=0.05, label="Temperature"),
         gr.Slider(64, 1024, value=512, step=64, label="Max Answer Length")
     ],
+    outputs=[outputs_answer, outputs_sources, outputs_link],
     title="GDPR Legal Assistant",
     description="Ask any question about GDPR or EDPB documents. The response includes used files and chunks.",
     allow_flagging="never"