Spaces:

rieon
/

deepcoder-v1

Sleeping

File size: 3,533 Bytes

87e8c3e
 
8b2a8d4
 
0d226aa
87e8c3e
8642e97
 
87e8c3e
8642e97
8b2a8d4
 
 
 
 
 
 
 
 
 
87e8c3e
c5d6f8a
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3f72dd0
c5d6f8a
 
 
 
 
 
 
 
 
 
 
3f72dd0
0d226aa
d0dc3ee
8642e97
c5d6f8a
8642e97
 
 
 
87e8c3e
8642e97
 
c5d6f8a
 
8642e97
 
 
8b2a8d4
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5b1cb20
8b2a8d4
 
 
 
 
 
 
 
87e8c3e
 
d91c6b8
 
5780d63
 
87e8c3e
8642e97
 
 
 
87e8c3e

import gradio as gr
from huggingface_hub import InferenceClient
from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
import torch
import spaces

# ←–– set this to the exact name of your HF repo
HF_MODEL_ID = "rieon/DeepCoder-14B-Preview-Suger"

# explicitly tell the client you want text-generation
# client = InferenceClient(model=HF_MODEL_ID)
device = "cuda" if torch.cuda.is_available() else "cpu"

tokenizer = AutoTokenizer.from_pretrained(HF_MODEL_ID, use_fast=True)
model = AutoModelForCausalLM.from_pretrained(
    HF_MODEL_ID,
    device_map="auto",       # spreads across all available GPUs
    torch_dtype=torch.float16
)
model.eval()

# def respond(
#     message: str,
#     history: list[dict],       # [{"role":"user"/"assistant","content":…}, …]
#     system_message: str,
#     max_tokens: int,
#     temperature: float,
#     top_p: float,
# ):
#     # 1️⃣ Build one raw-text prompt from system + chat history + new user turn
#     prompt = system_message.strip() + "\n"
#     for msg in history:
#         role = msg["role"]
#         content = msg["content"]
#         if role == "user":
#             prompt += f"User: {content}\n"
#         elif role == "assistant":
#             prompt += f"Assistant: {content}\n"
#     prompt += f"User: {message}\nAssistant:"

#     # 2️⃣ Stream tokens from the text-generation endpoint
#     generated = ""
#     for chunk in client.text_generation(
#         prompt,                     # first positional arg
#         max_new_tokens=max_tokens,
#         temperature=temperature,
#         top_p=top_p,
#         stream=True,
#     ):
#         generated += chunk.generated_text
#         yield generated

@spaces.GPU
def respond(
    message: str,
    history: list[dict],
    system_message: str,
    max_tokens: int,
    temperature: float,
    top_p: float,
):
    # assemble a single prompt from system message + history
    prompt = system_message.strip() + "\n"
    # for user, bot in history:
    #     prompt += f"User: {user}\nAssistant: {bot}\n"
    prompt += f"User: {message}\nAssistant:"

    # stream back tokens
    # generated = ""
    # for chunk in client.text_generation(
    #     prompt,
    #     max_new_tokens=max_tokens,
    #     temperature=temperature,
    #     top_p=top_p,
    #     stream=True,
    # ):
    #     # the API returns a small JSON with .generated_text
    #     generated += chunk.generated_text
    #     yield generated
    streamer = TextIteratorStreamer(tokenizer,
                                    skip_prompt=True,
                                    skip_special_tokens=True)
    inputs = tokenizer(prompt, return_tensors="pt").to(device)
    model.generate(**inputs,
                   streamer=streamer,
                   max_new_tokens=max_tokens,
                   temperature=temperature,
                   top_p=top_p)

    output = ""
    for tok in streamer:
        output += tok
        yield output


demo = gr.ChatInterface(
    fn=respond,
    type="messages",
    title="DeepCoder with Suger",
    description="Upload any text or pdf files and ask questions about them!",
    additional_inputs=[
        gr.Textbox(value="You are a helpful coding assistant.", label="System message"),
        gr.Slider(1, 2048, value=512, step=1, label="Max new tokens"),
        gr.Slider(0.1, 4.0, value=0.7, step=0.1, label="Temperature"),
        gr.Slider(0.1, 1.0, value=0.95, step=0.05, label="Top-p"),
    ],
)

if __name__ == "__main__":
    demo.launch()