Spaces:

sarthak501
/

general-api

Running

sarthak501 commited on Aug 5

Commit

5dd83cb

verified ·

1 Parent(s): b947ef0

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,7 +2,6 @@ from fastapi import FastAPI, HTTPException
 from fastapi.middleware.cors import CORSMiddleware
 from pydantic import BaseModel
 from transformers import AutoTokenizer, AutoModelForCausalLM
-import torch
 app = FastAPI()
 app.add_middleware(
@@ -13,9 +12,13 @@ app.add_middleware(
     allow_headers=["*"]
 )
-model_name = "togethercomputer/RedPajama-INCITE-7B-Base"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
-model = AutoModelForCausalLM.from_pretrained(model_name)
 class PromptRequest(BaseModel):
     prompt: str
@@ -26,13 +29,13 @@ async def generate_story(req: PromptRequest):
     if not prompt:
         raise HTTPException(status_code=400, detail="Prompt must not be empty")
-    inputs = tokenizer(prompt, return_tensors="pt", truncation=True)
     outputs = model.generate(
         **inputs,
         max_new_tokens=200,
         do_sample=True,
         top_p=0.9,
-        temperature=0.85,
         repetition_penalty=1.2
     )
     story = tokenizer.decode(outputs[0], skip_special_tokens=True)

 from fastapi.middleware.cors import CORSMiddleware
 from pydantic import BaseModel
 from transformers import AutoTokenizer, AutoModelForCausalLM
 app = FastAPI()
 app.add_middleware(
     allow_headers=["*"]
 )
+model_name = "ethzanalytics/RedPajama-INCITE-7B-Base-sharded-bf16"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModelForCausalLM.from_pretrained(
+    model_name,
+    torch_dtype="bfloat16",
+    device_map="auto"
+)
 class PromptRequest(BaseModel):
     prompt: str
     if not prompt:
         raise HTTPException(status_code=400, detail="Prompt must not be empty")
+    inputs = tokenizer(prompt, return_tensors="pt", truncation=True).to(model.device)
     outputs = model.generate(
         **inputs,
         max_new_tokens=200,
         do_sample=True,
+        temperature=0.9,
         top_p=0.9,
         repetition_penalty=1.2
     )
     story = tokenizer.decode(outputs[0], skip_special_tokens=True)