Spaces:

alexnasa
/

OmniAvatar

Running on Zero

App Files Files Community

alexnasa commited on 6 days ago

Commit

d672cc3

verified ·

1 Parent(s): d67610b

Update app.py

Browse files

Files changed (1) hide show

app.py +30 -38

app.py CHANGED Viewed

@@ -561,14 +561,16 @@ def get_duration(image_path, audio_path, text, orientation_state, num_steps, ses
         return 0
-    audio_chunks = inferpipe.get_times(
-                prompt=text,
-                image_path=image_path,
-                audio_path=audio_path,
-                orientation_state= orientation_state,
-                seq_len=args.seq_len,
-                num_steps=num_steps
-            )
     warmup_s = 30
     duration_s = (20 * num_steps) + warmup_s
@@ -635,13 +637,15 @@ def infer_scene(image_path, audio_path, text, orientation_state, num_steps, sess
     if session_id is None:
         session_id = uuid.uuid4().hex
     result = None
     try:
-        result = infer(image_path, audio_path, text, orientation_state, num_steps, session_id, progress)
     except Exception as e:
         err = str(e).lower()
-        print(f"{session_id} failed due to {err}")
         raise
     return result
@@ -864,7 +868,7 @@ with gr.Blocks(css=css) as demo:
                 infer_btn = gr.Button("🦜 Avatar Me", variant='primary', elem_classes="button-gradient")
                 with gr.Accordion("Advanced Settings", open=False):
                     raw_img_text = gr.Text(show_label=False, label="", value='', visible=False)
-                    limit_on = gr.Checkbox(label="Limit Audio files to 5 seconds", value=True)
                     adaptive_text = gr.Checkbox(label="Adaptive Video Prompt", value=True)
                     text_input = gr.Textbox(show_label=False, lines=6, elem_classes=["stateful"], interactive=False, value= ADAPTIVE_PROMPT_TEMPLATES[1])
@@ -872,28 +876,29 @@ with gr.Blocks(css=css) as demo:
                 cached_examples = gr.Examples(
                     examples=[
-                        [
-                            "examples/images/creature-001.png",
-                            "examples/audios/keen.wav",
-                            ADAPTIVE_PROMPT_TEMPLATES[2],
-                            20,
-                            ''
-                        ],
                         [
                             "examples/images/female-001.png",
                             "examples/audios/script.wav",
-                            ADAPTIVE_PROMPT_TEMPLATES[2],
-                            14,
                             ''
                         ],
                         [
                             "examples/images/male-001.png",
                             "examples/audios/denial.wav",
-                            ADAPTIVE_PROMPT_TEMPLATES[2],
-                            12,
                             ''
                         ],
@@ -968,14 +973,6 @@ with gr.Blocks(css=css) as demo:
         fn=speak_to_me,
         inputs=[session_state],
         outputs=[audio_input]
-    ).then(
-        fn=apply_audio,
-        inputs=[audio_input],
-        outputs=[audio_input]
-    ).then(
-        fn=preprocess_audio_first_5s_librosa,
-        inputs=[audio_input, limit_on, session_state],
-        outputs=[audio_input],
     )
     image_input.orientation(fn=orientation_changed, inputs=[session_state], outputs=[orientation_state]).then(fn=preprocess_img, inputs=[image_input, raw_img_text, orientation_state, session_state], outputs=[image_input, raw_img_text])
     image_input.clear(fn=clear_raw_image, outputs=[raw_img_text])
@@ -984,12 +981,7 @@ with gr.Blocks(css=css) as demo:
     audio_input.change(fn=update_generate_button, inputs=[image_input, audio_input, orientation_state, text_input, num_steps, session_state], outputs=[time_required])
     num_steps.change(fn=slider_value_change, inputs=[image_input, audio_input, orientation_state, text_input, num_steps, session_state, adaptive_text], outputs=[time_required, text_input])
     adaptive_text.change(fn=check_box_clicked, inputs=[adaptive_text], outputs=[text_input])
-    audio_input.upload(fn=apply_audio, inputs=[audio_input], outputs=[audio_input]
-    ).then(
-        fn=preprocess_audio_first_5s_librosa,
-        inputs=[audio_input, limit_on, session_state],
-        outputs=[audio_input],
-    )
 if __name__ == "__main__":
     demo.unload(cleanup)

         return 0
+    # audio_chunks = inferpipe.get_times(
+    #             prompt=text,
+    #             image_path=image_path,
+    #             audio_path=audio_path,
+    #             orientation_state= orientation_state,
+    #             seq_len=args.seq_len,
+    #             num_steps=num_steps
+    #         )
+    audio_chunks = 1
     warmup_s = 30
     duration_s = (20 * num_steps) + warmup_s
     if session_id is None:
         session_id = uuid.uuid4().hex
+    limited_audio_path = preprocess_audio_first_5s_librosa(audio_path, True, session_id)
     result = None
     try:
+        result = infer(image_path, limited_audio_path, text, orientation_state, num_steps, session_id, progress)
     except Exception as e:
         err = str(e).lower()
+        print(f"{session_id} failed due to {err}")
         raise
     return result
                 infer_btn = gr.Button("🦜 Avatar Me", variant='primary', elem_classes="button-gradient")
                 with gr.Accordion("Advanced Settings", open=False):
                     raw_img_text = gr.Text(show_label=False, label="", value='', visible=False)
+                    limit_on = gr.Checkbox(label="Limit Audio files to 5 seconds", value=True, visible=False)
                     adaptive_text = gr.Checkbox(label="Adaptive Video Prompt", value=True)
                     text_input = gr.Textbox(show_label=False, lines=6, elem_classes=["stateful"], interactive=False, value= ADAPTIVE_PROMPT_TEMPLATES[1])
                 cached_examples = gr.Examples(
                     examples=[
                         [
                             "examples/images/female-001.png",
                             "examples/audios/script.wav",
+                            ADAPTIVE_PROMPT_TEMPLATES[1],
+                            8,
                             ''
                         ],
                         [
                             "examples/images/male-001.png",
                             "examples/audios/denial.wav",
+                            ADAPTIVE_PROMPT_TEMPLATES[1],
+                            8,
+                            ''
+                        ],
+                        [
+                            "examples/images/female-003.png",
+                            "examples/audios/matcha.wav",
+                            ADAPTIVE_PROMPT_TEMPLATES[1],
+                            8,
                             ''
                         ],
         fn=speak_to_me,
         inputs=[session_state],
         outputs=[audio_input]
     )
     image_input.orientation(fn=orientation_changed, inputs=[session_state], outputs=[orientation_state]).then(fn=preprocess_img, inputs=[image_input, raw_img_text, orientation_state, session_state], outputs=[image_input, raw_img_text])
     image_input.clear(fn=clear_raw_image, outputs=[raw_img_text])
     audio_input.change(fn=update_generate_button, inputs=[image_input, audio_input, orientation_state, text_input, num_steps, session_state], outputs=[time_required])
     num_steps.change(fn=slider_value_change, inputs=[image_input, audio_input, orientation_state, text_input, num_steps, session_state, adaptive_text], outputs=[time_required, text_input])
     adaptive_text.change(fn=check_box_clicked, inputs=[adaptive_text], outputs=[text_input])
 if __name__ == "__main__":
     demo.unload(cleanup)