import gradio as gr
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

# Load tokenizer and model
tokenizer = AutoTokenizer.from_pretrained("BAAI/Video-XL-2", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("BAAI/Video-XL-2", trust_remote_code=True)

# Inference function
def generate_response(prompt, max_new_tokens=100):
    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
    with torch.no_grad():
        outputs = model.generate(
            **inputs,
            max_new_tokens=max_new_tokens,
            do_sample=True,
            top_k=50,
            top_p=0.95,
            temperature=0.7,
            pad_token_id=tokenizer.eos_token_id
        )
    response = tokenizer.decode(outputs[0], skip_special_tokens=True)
    return response[len(prompt):].strip()

# Gradio interface
iface = gr.Interface(
    fn=generate_response,
    inputs=[
        gr.Textbox(label="Enter your prompt", lines=4, placeholder="Ask me something..."),
        gr.Slider(minimum=10, maximum=300, step=10, value=100, label="Max New Tokens"),
    ],
    outputs=gr.Textbox(label="Response"),
    title="Video-XL-2 Chatbot",
    description="This chatbot uses the BAAI Video-XL-2 model to generate responses based on your input."
)

if __name__ == "__main__":
    iface.launch()