Spaces:

yusufs
/

llama32-3b-instruct

Paused

yusufs commited on 18 days ago

Commit

89c17e2

verified ·

1 Parent(s): b983fc2

Update Dockerfile

Files changed (1) hide show

Dockerfile CHANGED Viewed

@@ -2,7 +2,6 @@
 FROM vllm/vllm-openai:v0.10.0
 # FROM nvidia/cuda:11.7.1-cudnn8-runtime-ubuntu22.04
-ENV OMP_NUM_THREADS=2
 # ENV VLLM_LOGGING_LEVEL=DEBUG
 # ENV HF_HOME=/tmp/.cache/huggingface
 # ENV OMP_NUM_THREADS=1
@@ -52,8 +51,25 @@ ENV OMP_NUM_THREADS=2
 EXPOSE 7860
 # Export for runtime environment
-CMD vllm serve \
-  --model "meta-llama/Llama-3.2-3B-Instruct" \
   --task generate \
   --revision "0cb88a4f764b7a12671c53f0838cd831a0843b95" \
   --code-revision "0cb88a4f764b7a12671c53f0838cd831a0843b95" \

 FROM vllm/vllm-openai:v0.10.0
 # FROM nvidia/cuda:11.7.1-cudnn8-runtime-ubuntu22.04
 # ENV VLLM_LOGGING_LEVEL=DEBUG
 # ENV HF_HOME=/tmp/.cache/huggingface
 # ENV OMP_NUM_THREADS=1
 EXPOSE 7860
 # Export for runtime environment
+# CMD vllm serve \
+#   --model "meta-llama/Llama-3.2-3B-Instruct" \
+#   --task generate \
+#   --revision "0cb88a4f764b7a12671c53f0838cd831a0843b95" \
+#   --code-revision "0cb88a4f764b7a12671c53f0838cd831a0843b95" \
+#   --tokenizer-revision "0cb88a4f764b7a12671c53f0838cd831a0843b95" \
+#   --seed 42 \
+#   --host 0.0.0.0 \
+#   --port 7860 \
+#   --max-num-batched-tokens 32768 \
+#   --max-model-len 32768 \
+#   --dtype float16 \
+#   --enforce-eager \
+#   --gpu-memory-utilization 0.9 \
+#   --enable-prefix-caching \
+#   --disable-log-requests \
+#   --trust-remote-code
+CMD --model "meta-llama/Llama-3.2-3B-Instruct" \
   --task generate \
   --revision "0cb88a4f764b7a12671c53f0838cd831a0843b95" \
   --code-revision "0cb88a4f764b7a12671c53f0838cd831a0843b95" \