Spaces:

sarthak501
/

general-api

Sleeping

sarthak501 commited on Aug 5

Commit

52808f5

verified ·

1 Parent(s): 4417053

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -6,6 +6,7 @@ import torch
 app = FastAPI()
 app.add_middleware(
     CORSMiddleware,
     allow_origins=["*"],
@@ -14,8 +15,8 @@ app.add_middleware(
     allow_headers=["*"]
 )
-# Load FLAN-T5 model and tokenizer
-model_name = "google/flan-t5-base"  # or use "flan-t5-large" if space/resources allow
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
@@ -32,8 +33,20 @@ async def generate_response(req: QueryRequest):
     if req.echo:
         return {"response": query}
     inputs = tokenizer(query, return_tensors="pt", truncation=True)
-    outputs = model.generate(**inputs, max_new_tokens=200)
-    generated = tokenizer.decode(outputs[0], skip_special_tokens=True)
     return {"response": generated}

 app = FastAPI()
+# Enable CORS for frontend fetch requests
 app.add_middleware(
     CORSMiddleware,
     allow_origins=["*"],
     allow_headers=["*"]
 )
+# Load FLAN-T5 model
+model_name = "google/flan-t5-base"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
     if req.echo:
         return {"response": query}
+    # Encode input
     inputs = tokenizer(query, return_tensors="pt", truncation=True)
+    # Generate response with better decoding
+    outputs = model.generate(
+        **inputs,
+        max_new_tokens=150,
+        temperature=0.9,
+        top_p=0.95,
+        repetition_penalty=1.2,
+        do_sample=True,
+        num_return_sequences=1
+    )
+    # Decode output
+    generated = tokenizer.decode(outputs[0], skip_special_tokens=True)
     return {"response": generated}