Spaces:

Devakumar868
/

Maya-AI

Runtime error

Devakumar868 commited on Jun 24

Commit

59ffc63

verified ·

1 Parent(s): 0e0768b

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -7,55 +7,46 @@ from diffusers import DiffusionPipeline
 from pyannote.audio import Pipeline as PyannotePipeline
 from dia.model import Dia
 from dac.utils import load_model as load_dac_model
-from accelerate import init_empty_weights, load_checkpoint_and_dispatch
 # Environment token from HF Secrets
 HF_TOKEN = os.environ["HF_TOKEN"]
-device_map = "auto"
 print("Loading models...")
-# 1. RVQ Codec (Descript Audio Codec)
 print("Loading RVQ Codec...")
 rvq = load_dac_model(tag="latest", model_type="44khz")
 rvq.eval()
 if torch.cuda.is_available():
     rvq = rvq.to("cuda")
-# 2. Voice Activity Detection
 print("Loading VAD...")
 vad_pipe = PyannotePipeline.from_pretrained(
     "pyannote/voice-activity-detection",
     use_auth_token=HF_TOKEN
 )
-# 3. Ultravox ASR+LLM
 print("Loading Ultravox...")
 ultravox_pipe = pipeline(
     model="fixie-ai/ultravox-v0_4",
     trust_remote_code=True,
-    device_map=device_map,
     torch_dtype=torch.float16
 )
-# 4. Audio Diffusion Model
 print("Loading Audio Diffusion...")
 diff_pipe = DiffusionPipeline.from_pretrained(
     "teticio/audio-diffusion-instrumental-hiphop-256",
     torch_dtype=torch.float16
 ).to("cuda")
-# 5. Dia TTS Model
 print("Loading Dia TTS...")
-with init_empty_weights():
-    dia = Dia.from_pretrained("nari-labs/Dia-1.6B")
-dia = load_checkpoint_and_dispatch(
-    dia,
-    "nari-labs/Dia-1.6B",
-    device_map=device_map,
-    dtype=torch.float16
-)
 print("All models loaded successfully!")

 from pyannote.audio import Pipeline as PyannotePipeline
 from dia.model import Dia
 from dac.utils import load_model as load_dac_model
 # Environment token from HF Secrets
 HF_TOKEN = os.environ["HF_TOKEN"]
 print("Loading models...")
+# 1. Load RVQ Codec (Descript Audio Codec)
 print("Loading RVQ Codec...")
 rvq = load_dac_model(tag="latest", model_type="44khz")
 rvq.eval()
 if torch.cuda.is_available():
     rvq = rvq.to("cuda")
+# 2. Load Voice Activity Detection
 print("Loading VAD...")
 vad_pipe = PyannotePipeline.from_pretrained(
     "pyannote/voice-activity-detection",
     use_auth_token=HF_TOKEN
 )
+# 3. Load Ultravox ASR+LLM
 print("Loading Ultravox...")
 ultravox_pipe = pipeline(
     model="fixie-ai/ultravox-v0_4",
     trust_remote_code=True,
+    device_map="auto",
     torch_dtype=torch.float16
 )
+# 4. Load Audio Diffusion Model
 print("Loading Audio Diffusion...")
 diff_pipe = DiffusionPipeline.from_pretrained(
     "teticio/audio-diffusion-instrumental-hiphop-256",
     torch_dtype=torch.float16
 ).to("cuda")
+# 5. Load Dia TTS Model (WITHOUT meta tensor approach)
 print("Loading Dia TTS...")
+# Direct loading without init_empty_weights to avoid meta tensor issues
+dia = Dia.from_pretrained("nari-labs/Dia-1.6B")
 print("All models loaded successfully!")