Spaces:

DauroCamilo
/

chat-backend-test

Sleeping

DauroCamilo commited on May 27

Commit

9a3dc1c

verified ·

1 Parent(s): 44a1525

Update main.py

Files changed (1) hide show

main.py CHANGED Viewed

@@ -21,8 +21,7 @@ class ChatRequest(BaseModel):
 @app.post("/chat/stream")
 async def chat_stream(request: ChatRequest):
     prompt = f"Responde en español de forma clara y breve como un asistente IA.\nUsuario: {request.message}\nIA:"
-    # NO usamos return_tensors aquí
-    input_ids = tokenizer.encode(prompt)
     input_ids = torch.tensor([input_ids])
     streamer = TextIteratorStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
@@ -33,8 +32,9 @@ async def chat_stream(request: ChatRequest):
         top_p=0.9,
         do_sample=True,
         streamer=streamer,
-        pad_token_id=tokenizer.eos_token_id,
     )
     thread = threading.Thread(target=model.generate, kwargs=generation_kwargs)
     thread.start()

 @app.post("/chat/stream")
 async def chat_stream(request: ChatRequest):
     prompt = f"Responde en español de forma clara y breve como un asistente IA.\nUsuario: {request.message}\nIA:"
+    input_ids = tokenizer.encode(prompt, add_special_tokens=True)
     input_ids = torch.tensor([input_ids])
     streamer = TextIteratorStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
         top_p=0.9,
         do_sample=True,
         streamer=streamer,
+        pad_token_id=tokenizer.eos_token_id if hasattr(tokenizer, "eos_token_id") else None,
     )
+    # Elimina attention_mask, padding, y cualquier argumento de batch.
     thread = threading.Thread(target=model.generate, kwargs=generation_kwargs)
     thread.start()