Spaces:

tencent
/

HunyuanVideo-Foley

Running on Zero

App Files Files Community

James Zhou commited on 3 days ago

Commit

49611df

1 Parent(s): 3fff971

[update] neg prompt

Browse files

Files changed (2) hide show

app.py +14 -6
hunyuanvideo_foley/utils/feature_utils.py +4 -3

app.py CHANGED Viewed

@@ -120,6 +120,7 @@ def auto_load_models() -> str:
 def infer_single_video(
     video_file,
     text_prompt: str,
     guidance_scale: float = 4.5,
     num_inference_steps: int = 50,
     sample_nums: int = 1
@@ -147,7 +148,8 @@ def infer_single_video(
             video_file,
             text_prompt,
             model_dict,
-            cfg
         )
         # Denoising process to generate multiple audio samples
@@ -566,6 +568,12 @@ def create_gradio_interface():
                     placeholder="A person walks on frozen ice",
                     lines=3,
                 )
                 with gr.Row():
                     guidance_scale = gr.Slider(
@@ -748,10 +756,10 @@ def create_gradio_interface():
                                 example_buttons.append((example_btn, example))
         # Event handlers
-        def process_inference(video_file, text_prompt, guidance_scale, inference_steps, sample_nums):
             # Generate videos
             video_list, status_msg = infer_single_video(
-                video_file, text_prompt, guidance_scale, inference_steps, int(sample_nums)
             )
             # Update outputs with proper visibility
             return update_video_outputs(video_list, status_msg)
@@ -777,7 +785,7 @@ def create_gradio_interface():
         generate_btn.click(
             fn=process_inference,
-            inputs=[video_input, text_input, guidance_scale, inference_steps, sample_nums],
             outputs=[
                 video_output_1,  # Sample 1 value
                 video_output_2,  # Sample 2 value
@@ -810,12 +818,12 @@ def create_gradio_interface():
                     if not result_video:
                         status_msg += f"\n⚠️ Result video not found: {ex['result_path']}"
-                    return video_file, ex['caption'], result_video, status_msg
                 return handler
             btn.click(
                 fn=create_example_handler(example),
-                outputs=[video_input, text_input, video_output_1, result_text]
             )
         # Footer

 def infer_single_video(
     video_file,
     text_prompt: str,
+    neg_prompt: str = None,
     guidance_scale: float = 4.5,
     num_inference_steps: int = 50,
     sample_nums: int = 1
             video_file,
             text_prompt,
             model_dict,
+            cfg,
+            neg_prompt=neg_prompt
         )
         # Denoising process to generate multiple audio samples
                     placeholder="A person walks on frozen ice",
                     lines=3,
                 )
+                neg_prompt_input = gr.Textbox(
+                    label="🚫 Negative Prompt",
+                    placeholder="noisy, harsh",
+                    lines=2,
+                )
                 with gr.Row():
                     guidance_scale = gr.Slider(
                                 example_buttons.append((example_btn, example))
         # Event handlers
+        def process_inference(video_file, text_prompt, neg_prompt, guidance_scale, inference_steps, sample_nums):
             # Generate videos
             video_list, status_msg = infer_single_video(
+                video_file, text_prompt, neg_prompt, guidance_scale, inference_steps, int(sample_nums)
             )
             # Update outputs with proper visibility
             return update_video_outputs(video_list, status_msg)
         generate_btn.click(
             fn=process_inference,
+            inputs=[video_input, text_input, neg_prompt_input, guidance_scale, inference_steps, sample_nums],
             outputs=[
                 video_output_1,  # Sample 1 value
                 video_output_2,  # Sample 2 value
                     if not result_video:
                         status_msg += f"\n⚠️ Result video not found: {ex['result_path']}"
+                    return video_file, ex['caption'], "noisy, harsh", result_video, status_msg
                 return handler
             btn.click(
                 fn=create_example_handler(example),
+                outputs=[video_input, text_input, neg_prompt_input, video_output_1, result_text]
             )
         # Footer

hunyuanvideo_foley/utils/feature_utils.py CHANGED Viewed

@@ -10,7 +10,7 @@ from typing import Any, Dict, List, Union, Tuple
 from loguru import logger
 from .config_utils import AttributeDict
-from ..constants import FPS_VISUAL, MAX_VIDEO_DURATION_SECONDS
 class FeatureExtractionError(Exception):
@@ -134,9 +134,10 @@ def encode_text_feat(text: List[str], model_dict):
     return outputs.last_hidden_state, outputs.attentions
-def feature_process(video_path, prompt, model_dict, cfg):
     visual_feats, audio_len_in_s = encode_video_features(video_path, model_dict)
-    neg_prompt = "noisy, harsh"
     prompts = [neg_prompt, prompt]
     text_feat_res, text_feat_mask = encode_text_feat(prompts, model_dict)

 from loguru import logger
 from .config_utils import AttributeDict
+from ..constants import FPS_VISUAL, MAX_VIDEO_DURATION_SECONDS, DEFAULT_NEGATIVE_PROMPT
 class FeatureExtractionError(Exception):
     return outputs.last_hidden_state, outputs.attentions
+def feature_process(video_path, prompt, model_dict, cfg, neg_prompt=None):
     visual_feats, audio_len_in_s = encode_video_features(video_path, model_dict)
+    if neg_prompt is None:
+        neg_prompt = DEFAULT_NEGATIVE_PROMPT  # 使用常量中的默认值
     prompts = [neg_prompt, prompt]
     text_feat_res, text_feat_mask = encode_text_feat(prompts, model_dict)