Spaces:

gouravbhadraDev
/

server_test

Running

gouravbhadraDev commited on Jun 24

Commit

f138f18

verified ·

1 Parent(s): f73717a

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -253,7 +253,11 @@ def generate_qwen3_gguf(prompt: str) -> (str, str):
     messages = [
         {"role": "user", "content": prompt}
     ]
-    response = qwen3_gguf_llm.create_chat_completion(messages=messages)
     generated_text = response['choices'][0]['message']['content']
     if "</think>" in generated_text:
@@ -264,6 +268,7 @@ def generate_qwen3_gguf(prompt: str) -> (str, str):
 @app.post("/generate/{model_name}", response_model=GenerateResponse)
 async def generate(
     request: PromptRequest,

     messages = [
         {"role": "user", "content": prompt}
     ]
+    # Set max_tokens or max_new_tokens to keep total tokens <= 512
+    response = qwen3_gguf_llm.create_chat_completion(
+        messages=messages,
+        max_tokens=512  # or smaller, adjust to fit your use case
+    )
     generated_text = response['choices'][0]['message']['content']
     if "</think>" in generated_text:
 @app.post("/generate/{model_name}", response_model=GenerateResponse)
 async def generate(
     request: PromptRequest,