Spaces:
Running
on
Zero
A newer version of the Gradio SDK is available:
5.38.0
title: VEO3 Free
emoji: ๐
colorFrom: blue
colorTo: indigo
sdk: gradio
sdk_version: 5.35.0
app_file: app.py
pinned: false
short_description: Wan2.1-T2V-14B + Fast 4-step with NAG + Automatic Audio
models:
- VIDraft/Gemma-3-R1984-4B
- google/gemma-3-4b-it
- Wan-AI/Wan2.1-T2V-14B-Diffusers
- vrgamedevgirl84/Wan14BT2VFusioniX
- Kijai/WanVideo_comfy
English Explanation
Overview
This is a VEO3 Free application - an advanced AI video generation system that combines Wan2.1-T2V-14B model with automatic audio generation capabilities. It creates videos from text descriptions and automatically generates matching audio using MMAudio technology.
Key Features
Text-to-Video Generation
- Uses Wan2.1-T2V-14B Diffusion model (14 billion parameters)
- Fast 4-step generation with NAG (Noise-Augmented Generation)
- Supports various resolutions from 128x128 to 896x896
- Duration: 1-8 seconds at 16 FPS
- Cinema-quality output with professional camera movements
Automatic Audio Generation
- MMAudio integration for synchronized sound effects
- Uses the same text prompt for both video and audio
- Configurable audio quality and guidance strength
- Optional feature - can be disabled if needed
Advanced Controls
- NAG Scale: Controls guidance strength (1.0-20.0)
- Inference Steps: Balances quality vs speed (1-8 steps)
- Seed Control: For reproducible results
- Negative Prompts: Specify what to avoid in generation
How It Works
- Input: Enter a detailed scene description
- Video Generation: The AI creates video frames based on your prompt
- Audio Synthesis: Automatically generates matching sound effects
- Output: Combined video with synchronized audio
Example Use Cases
- Film previews and concept visualization
- Music video creation
- Advertising content
- Creative storytelling
- Game cinematics
Technical Details
- GPU Acceleration: Uses CUDA for fast processing
- Model Architecture: Transformer-based diffusion model
- Audio Model: Flow-matching based audio synthesis
- Processing Time: ~30-70 seconds depending on settings
Tips for Best Results
- Use detailed, cinematic descriptions
- Include camera movements and visual style
- Specify lighting, colors, and atmosphere
- Add sound descriptions for better audio matching
- Higher NAG scale = more prompt adherence
ํ๊ธ ์ค๋ช
๊ฐ์
VEO3 Free๋ Wan2.1-T2V-14B ๋ชจ๋ธ๊ณผ ์๋ ์ค๋์ค ์์ฑ ๊ธฐ๋ฅ์ ๊ฒฐํฉํ ๊ณ ๊ธ AI ๋น๋์ค ์์ฑ ์์คํ ์ ๋๋ค. ํ ์คํธ ์ค๋ช ์ผ๋ก๋ถํฐ ๋น๋์ค๋ฅผ ์์ฑํ๊ณ MMAudio ๊ธฐ์ ์ ์ฌ์ฉํด ์๋์ผ๋ก ์ผ์นํ๋ ์ค๋์ค๋ฅผ ์์ฑํฉ๋๋ค.
์ฃผ์ ๊ธฐ๋ฅ
ํ ์คํธ-๋น๋์ค ๋ณํ
- Wan2.1-T2V-14B Diffusion ๋ชจ๋ธ ์ฌ์ฉ (140์ต ํ๋ผ๋ฏธํฐ)
- NAG(๋ ธ์ด์ฆ ์ฆ๊ฐ ์์ฑ)๋ฅผ ํตํ ๋น ๋ฅธ 4๋จ๊ณ ์์ฑ
- 128x128๋ถํฐ 896x896๊น์ง ๋ค์ํ ํด์๋ ์ง์
- ์ง์ ์๊ฐ: 16 FPS๋ก 1-8์ด
- ์ ๋ฌธ์ ์ธ ์นด๋ฉ๋ผ ์์ง์์ ํฌํจํ ์ํ ํ์ง ์ถ๋ ฅ
์๋ ์ค๋์ค ์์ฑ
- ๋๊ธฐํ๋ ์ฌ์ด๋ ํจ๊ณผ๋ฅผ ์ํ MMAudio ํตํฉ
- ๋น๋์ค์ ์ค๋์ค ๋ชจ๋ ๋์ผํ ํ ์คํธ ํ๋กฌํํธ ์ฌ์ฉ
- ์ค๋์ค ํ์ง๊ณผ ๊ฐ์ด๋์ค ๊ฐ๋ ์กฐ์ ๊ฐ๋ฅ
- ์ ํ์ ๊ธฐ๋ฅ - ํ์์ ๋นํ์ฑํ ๊ฐ๋ฅ
๊ณ ๊ธ ์ ์ด ๊ธฐ๋ฅ
- NAG ์ค์ผ์ผ: ๊ฐ์ด๋์ค ๊ฐ๋ ์ ์ด (1.0-20.0)
- ์ถ๋ก ๋จ๊ณ: ํ์ง ๋ ์๋ ๊ท ํ ์กฐ์ (1-8๋จ๊ณ)
- ์๋ ์ ์ด: ์ฌํ ๊ฐ๋ฅํ ๊ฒฐ๊ณผ๋ฅผ ์ํ ์ค์
- ๋ค๊ฑฐํฐ๋ธ ํ๋กฌํํธ: ์์ฑ์์ ํผํ ์์ ์ง์
์๋ ๋ฐฉ์
- ์ ๋ ฅ: ์์ธํ ์ฅ๋ฉด ์ค๋ช ์ ๋ ฅ
- ๋น๋์ค ์์ฑ: AI๊ฐ ํ๋กฌํํธ ๊ธฐ๋ฐ ๋น๋์ค ํ๋ ์ ์์ฑ
- ์ค๋์ค ํฉ์ฑ: ์๋์ผ๋ก ์ผ์นํ๋ ์ฌ์ด๋ ํจ๊ณผ ์์ฑ
- ์ถ๋ ฅ: ๋๊ธฐํ๋ ์ค๋์ค๊ฐ ํฌํจ๋ ๋น๋์ค ์ถ๋ ฅ
ํ์ฉ ์ฌ๋ก
- ์ํ ํ๋ฆฌ๋ทฐ ๋ฐ ์ปจ์ ์๊ฐํ
- ๋ฎค์ง ๋น๋์ค ์ ์
- ๊ด๊ณ ์ฝํ ์ธ ์์ฑ
- ์ฐฝ์์ ์คํ ๋ฆฌํ ๋ง
- ๊ฒ์ ์๋ค๋งํฑ
๊ธฐ์ ์ฌ์
- GPU ๊ฐ์: ๋น ๋ฅธ ์ฒ๋ฆฌ๋ฅผ ์ํ CUDA ์ฌ์ฉ
- ๋ชจ๋ธ ์ํคํ ์ฒ: ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ํ์ฐ ๋ชจ๋ธ
- ์ค๋์ค ๋ชจ๋ธ: ํ๋ก์ฐ ๋งค์นญ ๊ธฐ๋ฐ ์ค๋์ค ํฉ์ฑ
- ์ฒ๋ฆฌ ์๊ฐ: ์ค์ ์ ๋ฐ๋ผ ์ฝ 30-70์ด
์ต์์ ๊ฒฐ๊ณผ๋ฅผ ์ํ ํ
- ์์ธํ๊ณ ์ํ์ ์ธ ์ค๋ช ์ฌ์ฉ
- ์นด๋ฉ๋ผ ์์ง์๊ณผ ์๊ฐ์ ์คํ์ผ ํฌํจ
- ์กฐ๋ช , ์์, ๋ถ์๊ธฐ ๋ช ์
- ๋ ๋์ ์ค๋์ค ๋งค์นญ์ ์ํด ์ฌ์ด๋ ์ค๋ช ์ถ๊ฐ
- ๋์ NAG ์ค์ผ์ผ = ํ๋กฌํํธ์ ๋ ์ถฉ์คํ ์์ฑ
ํน๋ณ ๊ธฐ๋ฅ
- ์ํ๊ธ ํ๋กฌํํธ ์์ : ์ ๋ฌธ์ ์ธ ์ดฌ์ ๊ธฐ๋ฒ์ด ํฌํจ๋ 3๊ฐ์ง ์์ ์ ๊ณต
- ์ค์๊ฐ ์งํ ํ์: ์์ฑ ๊ณผ์ ์ ์ค์๊ฐ์ผ๋ก ํ์ธ
- ์ํด๋ฆญ ์์ ์ ์ฉ: ์์ ๋ฅผ ํด๋ฆญํ๋ฉด ์๋์ผ๋ก ์ค์ ๊ฐ ์ ์ฉ
์ด ๋๊ตฌ๋ ์ ๋ฌธ๊ฐ ์์ค์ ๋น๋์ค ์ฝํ ์ธ ๋ฅผ ์ฝ๊ฒ ์์ฑํ ์ ์๋๋ก ์ค๊ณ๋์์ผ๋ฉฐ, ์ฐฝ์์ ์ธ ์์ด๋์ด๋ฅผ ๋น ๋ฅด๊ฒ ์๊ฐํํ๋ ๋ฐ ์ด์์ ์ ๋๋ค.