VEO3-Free

Running on Zero

App Files Files Community

VEO3-Free / README.md

ginipick

Update README.md

c942c40 verified 14 days ago

preview code

raw

history blame contribute delete

5.13 kB

	---
	title: VEO3 Free
	emoji: 🔊
	colorFrom: blue
	colorTo: indigo
	sdk: gradio
	sdk_version: 5.35.0
	app_file: app.py
	pinned: false
	short_description: Wan2.1-T2V-14B + Fast 4-step with NAG + Automatic Audio
	models:
	- VIDraft/Gemma-3-R1984-4B
	- google/gemma-3-4b-it
	- Wan-AI/Wan2.1-T2V-14B-Diffusers
	- vrgamedevgirl84/Wan14BT2VFusioniX
	- Kijai/WanVideo_comfy
	---
	## English Explanation

	### Overview
	This is a VEO3 Free application - an advanced AI video generation system that combines Wan2.1-T2V-14B model with automatic audio generation capabilities. It creates videos from text descriptions and automatically generates matching audio using MMAudio technology.

	### Key Features

	1. Text-to-Video Generation
	- Uses Wan2.1-T2V-14B Diffusion model (14 billion parameters)
	- Fast 4-step generation with NAG (Noise-Augmented Generation)
	- Supports various resolutions from 128x128 to 896x896
	- Duration: 1-8 seconds at 16 FPS
	- Cinema-quality output with professional camera movements

	2. Automatic Audio Generation
	- MMAudio integration for synchronized sound effects
	- Uses the same text prompt for both video and audio
	- Configurable audio quality and guidance strength
	- Optional feature - can be disabled if needed

	3. Advanced Controls
	- NAG Scale: Controls guidance strength (1.0-20.0)
	- Inference Steps: Balances quality vs speed (1-8 steps)
	- Seed Control: For reproducible results
	- Negative Prompts: Specify what to avoid in generation

	### How It Works
	1. Input: Enter a detailed scene description
	2. Video Generation: The AI creates video frames based on your prompt
	3. Audio Synthesis: Automatically generates matching sound effects
	4. Output: Combined video with synchronized audio

	### Example Use Cases
	- Film previews and concept visualization
	- Music video creation
	- Advertising content
	- Creative storytelling
	- Game cinematics

	### Technical Details
	- GPU Acceleration: Uses CUDA for fast processing
	- Model Architecture: Transformer-based diffusion model
	- Audio Model: Flow-matching based audio synthesis
	- Processing Time: ~30-70 seconds depending on settings

	### Tips for Best Results
	- Use detailed, cinematic descriptions
	- Include camera movements and visual style
	- Specify lighting, colors, and atmosphere
	- Add sound descriptions for better audio matching
	- Higher NAG scale = more prompt adherence

	---

	## 한글 설명

	### 개요
	VEO3 Free는 Wan2.1-T2V-14B 모델과 자동 오디오 생성 기능을 결합한 고급 AI 비디오 생성 시스템입니다. 텍스트 설명으로부터 비디오를 생성하고 MMAudio 기술을 사용해 자동으로 일치하는 오디오를 생성합니다.

	### 주요 기능

	1. 텍스트-비디오 변환
	- Wan2.1-T2V-14B Diffusion 모델 사용 (140억 파라미터)
	- NAG(노이즈 증강 생성)를 통한 빠른 4단계 생성
	- 128x128부터 896x896까지 다양한 해상도 지원
	- 지속 시간: 16 FPS로 1-8초
	- 전문적인 카메라 움직임을 포함한 영화 품질 출력

	2. 자동 오디오 생성
	- 동기화된 사운드 효과를 위한 MMAudio 통합
	- 비디오와 오디오 모두 동일한 텍스트 프롬프트 사용
	- 오디오 품질과 가이던스 강도 조절 가능
	- 선택적 기능 - 필요시 비활성화 가능

	3. 고급 제어 기능
	- NAG 스케일: 가이던스 강도 제어 (1.0-20.0)
	- 추론 단계: 품질 대 속도 균형 조절 (1-8단계)
	- 시드 제어: 재현 가능한 결과를 위한 설정
	- 네거티브 프롬프트: 생성에서 피할 요소 지정

	### 작동 방식
	1. 입력: 상세한 장면 설명 입력
	2. 비디오 생성: AI가 프롬프트 기반 비디오 프레임 생성
	3. 오디오 합성: 자동으로 일치하는 사운드 효과 생성
	4. 출력: 동기화된 오디오가 포함된 비디오 출력

	### 활용 사례
	- 영화 프리뷰 및 컨셉 시각화
	- 뮤직 비디오 제작
	- 광고 콘텐츠 생성
	- 창의적 스토리텔링
	- 게임 시네마틱

	### 기술 사양
	- GPU 가속: 빠른 처리를 위한 CUDA 사용
	- 모델 아키텍처: 트랜스포머 기반 확산 모델
	- 오디오 모델: 플로우 매칭 기반 오디오 합성
	- 처리 시간: 설정에 따라 약 30-70초

	### 최상의 결과를 위한 팁
	- 상세하고 영화적인 설명 사용
	- 카메라 움직임과 시각적 스타일 포함
	- 조명, 색상, 분위기 명시
	- 더 나은 오디오 매칭을 위해 사운드 설명 추가
	- 높은 NAG 스케일 = 프롬프트에 더 충실한 생성

	### 특별 기능
	- 영화급 프롬프트 예제: 전문적인 촬영 기법이 포함된 3가지 예제 제공
	- 실시간 진행 표시: 생성 과정을 실시간으로 확인
	- 원클릭 예제 적용: 예제를 클릭하면 자동으로 설정값 적용

	이 도구는 전문가 수준의 비디오 콘텐츠를 쉽게 생성할 수 있도록 설계되었으며, 창의적인 아이디어를 빠르게 시각화하는 데 이상적입니다.