Spaces:

Copain22
/

Cafe-Chatbot

Sleeping

Copain22 commited on May 14

Commit

51f7fc7

verified ·

1 Parent(s): 723c370

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -41,18 +41,21 @@ def retrieve_context_faiss(query, top_k=3):
     distances, indices = index.search(query_vec, top_k)
     return "\n".join([menu_chunks[i] for i in indices[0]])
 # === Generate LLM Response ===
-@GPU
 def generate_response(message, history, system_message, max_tokens, temperature, top_p):
     context = retrieve_context_faiss(message)
     messages = [{"role": "system", "content": system_message}]
-    for user, bot in history:
-        messages.append({"role": "user", "content": user})
-        messages.append({"role": "assistant", "content": bot})
     messages.append({"role": "user", "content": f"{message}\n\nRelevant info:\n{context}"})
     prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
-    inputs = tokenizer(prompt, return_tensors="pt").to(DEVICE)
     streamer = TextIteratorStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
     generate_kwargs = dict(
@@ -71,7 +74,8 @@ def generate_response(message, history, system_message, max_tokens, temperature,
     for token in streamer:
         output += token
         yield output
 # === UI ===
 demo = gr.ChatInterface(
     fn=generate_response,

     distances, indices = index.search(query_vec, top_k)
     return "\n".join([menu_chunks[i] for i in indices[0]])
 # === Generate LLM Response ===
+@spaces.GPU  # Only if you're using ZeroGPU
 def generate_response(message, history, system_message, max_tokens, temperature, top_p):
     context = retrieve_context_faiss(message)
     messages = [{"role": "system", "content": system_message}]
+    for user_msg, bot_msg in history:
+        messages.append({"role": "user", "content": user_msg})
+        messages.append({"role": "assistant", "content": bot_msg})
     messages.append({"role": "user", "content": f"{message}\n\nRelevant info:\n{context}"})
     prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
+    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
     streamer = TextIteratorStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
     generate_kwargs = dict(
     for token in streamer:
         output += token
         yield output
+print("Inputs received:", message, history, system_message, max_tokens, temperature, top_p)
 # === UI ===
 demo = gr.ChatInterface(
     fn=generate_response,