Spaces:

yusufs
/

llama32-3b-instruct

Paused

yusufs commited on 21 days ago

Commit

f6ddd47

verified ·

1 Parent(s): bc37efd

Update Dockerfile

Files changed (1) hide show

Dockerfile CHANGED Viewed

@@ -4,6 +4,12 @@ ENV VLLM_LOGGING_LEVEL=DEBUG
 ENV HF_HOME=/tmp/.cache/huggingface
 ENV OMP_NUM_THREADS=1
 RUN apt-get update && apt-get install -y python3 python3-pip git
 RUN pip3 install --upgrade pip
@@ -32,6 +38,7 @@ RUN mkdir -p /tmp/.cache/huggingface
 EXPOSE 7860
 CMD python3 -m vllm.entrypoints.openai.api_server \
   --model "meta-llama/Llama-3.2-3B-Instruct" \
   --task generate \

 ENV HF_HOME=/tmp/.cache/huggingface
 ENV OMP_NUM_THREADS=1
+# https://github.com/vllm-project/vllm/blob/v0.10.0/docs/getting_started/installation/gpu/rocm.inc.md?plain=1#L124
+ENV VLLM_USE_TRITON_FLASH_ATTN=0
+# https://github.com/vllm-project/vllm/blob/v0.10.0/docs/getting_started/quickstart.md?plain=1#L213
+# `FLASH_ATTN` or `FLASHINFER` or `XFORMERS`.
+ENV VLLM_ATTENTION_BACKEND=FLASH_ATTN
 RUN apt-get update && apt-get install -y python3 python3-pip git
 RUN pip3 install --upgrade pip
 EXPOSE 7860
+# Export for runtime environment
 CMD python3 -m vllm.entrypoints.openai.api_server \
   --model "meta-llama/Llama-3.2-3B-Instruct" \
   --task generate \