NeoPy commited on
Commit
ca1460b
·
verified ·
1 Parent(s): e4bf6d8

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +1 -330
README.md CHANGED
@@ -1,7 +1,6 @@
1
  ---
2
  license: apache-2.0
3
  language:
4
- - vi
5
  - en
6
  pipeline_tag: audio-to-audio
7
  tags:
@@ -12,338 +11,10 @@ tags:
12
  base_model:
13
  - lj1995/VoiceConversionWebUI
14
  - IAHispano/Applio
 
15
  - cvssp/audioldm2
16
  - cvssp/audioldm2-music
17
  - cvssp/audioldm2-large
18
  - speechbrain/spkrec-ecapa-voxceleb
19
  ---
20
 
21
- <div align="center">
22
- <img alt="LOGO" src="https://huggingface.co/AnhP/Vietnamese-RVC-Project/resolve/main/ico.png" width="300" height="300" />
23
-
24
- # Vietnamese RVC BY ANH
25
- Công cụ chuyển đổi giọng nói chất lượng và hiệu suất cao đơn giản dành cho người Việt.
26
-
27
- [![Vietnamese RVC](https://img.shields.io/badge/GitHub-100000?style=for-the-badge&logo=github&logoColor=white)](https://github.com/PhamHuynhAnh16/Vietnamese-RVC)
28
- [![Open In Colab](https://img.shields.io/badge/Colab-F9AB00?style=for-the-badge&logo=googlecolab&color=525252)](https://colab.research.google.com/github/PhamHuynhAnh16/Vietnamese-RVC-ipynb/blob/main/Vietnamese-RVC.ipynb)
29
- [![Licence](https://img.shields.io/github/license/saltstack/salt?style=for-the-badge)](https://github.com/PhamHuynhAnh16/Vietnamese-RVC/blob/main/LICENSE)
30
-
31
- </div>
32
-
33
- <div align="center">
34
-
35
- [![Hugging Face](https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-Spaces-blue)](https://huggingface.co/spaces/AnhP/RVC-GUI)
36
- [![Hugging Face](https://img.shields.io/badge/%F0%9F%A4%97-Models-blue)](https://huggingface.co/AnhP/Vietnamese-RVC-Project)
37
-
38
- </div>
39
-
40
- # Mô tả
41
- Dự án này là một công cụ chuyển đổi giọng nói đơn giản, dễ sử dụng, được thiết kế cho người Việt Nam. Với mục tiêu tạo ra các sản phẩm chuyển đổi giọng nói chất lượng cao và hiệu suất tối ưu, dự án cho phép người dùng thay đổi giọng nói một cách mượt mà, tự nhiên.
42
-
43
- # Các tính năng của dự án
44
-
45
- - Tách nhạc (MDX-Net/Demucs)
46
-
47
- - Chuyển đổi giọng nói (Chuyển đổi tệp/Chuyển đổi hàng loạt/Chuyển đổi với Whisper/Chuyển đổi văn bản)
48
-
49
- - Chỉnh sửa nhạc nền
50
-
51
- - Áp dụng hiệu ứng cho âm thanh
52
-
53
- - Tạo dữ liệu huấn luyện (Từ đường dẫn liên kết)
54
-
55
- - Huấn luyện mô hình (v1/v2, bộ mã hóa chất lượng cao)
56
-
57
- - Dung hợp mô hình
58
-
59
- - Đọc thông tin mô hình
60
-
61
- - Xuất mô hình sang ONNX
62
-
63
- - Tải xuống từ kho mô hình có sẳn
64
-
65
- - Tìm kiếm mô hình từ web
66
-
67
- - Trích xuất cao độ
68
-
69
- - Hỗ trợ suy luận chuyển đổi âm thanh bằng mô hình ONNX
70
-
71
- - Mô hình ONNX RVC cũng sẽ hỗ trợ chỉ mục để suy luận
72
-
73
- - Nhiều tùy chọn mô hình:
74
-
75
- F0: `pm, dio, mangio-crepe-tiny, mangio-crepe-small, mangio-crepe-medium, mangio-crepe-large, mangio-crepe-full, crepe-tiny, crepe-small, crepe-medium, crepe-large, crepe-full, fcpe, fcpe-legacy, rmvpe, rmvpe-legacy, harvest, yin, pyin, swipe`
76
-
77
- F0_ONNX: Một số mô hình được chuyển đổi sang ONNX để hỗ trợ tăng tốc trích xuất
78
-
79
- F0_HYBRID: Có thể kết hợp nhiều tùy chọn lại với nhau như `hybrid[rmvpe+harvest]` hoặc bạn có thể thử kết hợp toàn bộ tất cả tùy chọn lại với nhau
80
-
81
- EMBEDDERS: `contentvec_base, hubert_base, japanese_hubert_base, korean_hubert_base, chinese_hubert_base, portuguese_hubert_base`
82
-
83
- EMBEDDERS_ONNX: Tất cả mô hình nhúng ở trên điều có phiên bản được chuyển đổi sẳn sang ONNX để sử dụng tăng tốc trích xuất nhúng
84
-
85
- EMBEDDERS_TRANSFORMERS: Tất cả mô hình nhúng ở trên điều có phiên bản được chuyển đổi sẳn sang huggingface để sử dụng thay thế cho fairseq
86
-
87
- SPIN_EMBEDDERS: Một mô hình trích xuất nhúng mới, có thể mang đến chất lượng cao hơn các trích xuất cũ.
88
-
89
- # Hướng dẫn sử dụng
90
-
91
- **Sẽ có nếu tôi thực sự rảnh...**
92
-
93
- # Cách cài đặt và sử dụng
94
-
95
- - B1: **Cài đặt python từ trang chủ hoặc [python](https://www.python.org/ftp/python/3.10.7/python-3.10.7-amd64.exe) (YÊU CẦU PYTHON 3.10.x HOẶC PYTHON 3.11.x)**
96
- - B2: **Cài đặt ffmpeg từ [FFMPEG](https://github.com/BtbN/FFmpeg-Builds/releases) giải nén và thêm vào PATH**
97
- - B3: **Tải mã nguồn về và giải nén ra**
98
- - B4: **Vào thư mục mã nguồn và mở Command Prompt hoặc Terminal**
99
- - B5: **Nhập lệnh để cài đặt thư viện cần thiết để hoạt động**
100
-
101
- ```
102
- python -m venv env
103
- env\\Scripts\\activate
104
- ```
105
-
106
- Nếu có GPU NVIDIA thì chạy bước này tùy theo cuda của bạn có thể thay đổi cu117 thành cu128...
107
-
108
- ```
109
- # Nếu sử dụng Torch 2.3.1
110
- python -m pip install torch==2.3.1 torchaudio==2.3.1 torchvision==0.18.1 --index-url https://download.pytorch.org/whl/cu117
111
-
112
- # Nếu sử dụng Torch 2.6.0
113
- python -m pip install torch==2.6.0 torchaudio==2.6.0 torchvision==0.21.0 --index-url https://download.pytorch.org/whl/cu117
114
- ```
115
-
116
- Tiếp theo chạy
117
-
118
- ```
119
- python -m pip install -r requirements.txt
120
- ```
121
-
122
- - B5: **Chạy tệp run_app để mở giao diện sử dụng(Lưu ý: không tắt Command Prompt hoặc Terminal của giao diện)**
123
- - Hoặc sử dụng cửa sổ Command Prompt hoặc cửa sổ Terminal trong thư mục mã nguồn
124
- - Nếu muốn cho phép giao diện truy cập được các tệp ngoài dự án hãy thêm --allow_all_disk vào lệnh
125
- ```
126
- env\\Scripts\\python.exe main\\app\\app.py --open
127
- ```
128
-
129
- **Với trường hợp bạn sử dụng Tensorboard để kiểm tra huấn luyện**
130
- ```
131
- Chạy tệp: tensorboard hoặc lệnh env\\Scripts\\python.exe main/app/tensorboard.py
132
- ```
133
-
134
- # Sử dụng với cú pháp lệnh
135
- ```
136
- python main\\app\\parser.py --help
137
- ```
138
-
139
- # Cấu trúc chính của mã nguồn:
140
-
141
- <pre>
142
- Vietnamese-RVC-main
143
- ├── assets
144
- │ ├── f0
145
- │ ├── languages
146
- │ │ ├── en-US.json
147
- │ │ └── vi-VN.json
148
- │ ├── logs
149
- │ │ └── mute
150
- │ │ ├── f0
151
- │ │ │ └── mute.wav.npy
152
- │ │ ├── f0_voiced
153
- │ │ │ └── mute.wav.npy
154
- │ │ ├── sliced_audios
155
- │ │ │ ├── mute32000.wav
156
- │ │ │ ├── mute40000.wav
157
- │ │ │ └── mute48000.wav
158
- │ │ ├── sliced_audios_16k
159
- │ │ │ └── mute.wav
160
- │ │ ├── v1_extracted
161
- │ │ │ ├── mute.npy
162
- │ │ │ └── mute_spin.npy
163
- │ │ └── v2_extracted_spin
164
- │ │ ├── mute.npy
165
- │ │ └── mute_spin.npy
166
- │ ├── models
167
- │ │ ├── audioldm2
168
- │ │ ├── embedders
169
- │ │ ├── predictors
170
- │ │ ├── pretrained_custom
171
- │ │ ├── pretrained_v1
172
- │ │ ├── pretrained_v2
173
- │ │ ├── speaker_diarization
174
- │ │ │ ├── assets
175
- │ │ │ │ ├── gpt2.tiktoken
176
- │ │ │ │ ├── mel_filters.npz
177
- │ │ │ │ └── multilingual.tiktoken
178
- │ │ │ └── models
179
- │ │ └── uvr5
180
- │ ├── presets
181
- │ ├── weights
182
- │ └── ico.png
183
- ├── audios
184
- ├── dataset
185
- ├── main
186
- │ ├── app
187
- │ │ ├── app.py
188
- │ │ ├── tensorboard.py
189
- │ │ └── parser.py
190
- │ ├── configs
191
- │ │ ├── v1
192
- │ │ │ ├── 32000.json
193
- │ │ │ ├── 40000.json
194
- │ │ │ └── 48000.json
195
- │ │ ├── v2
196
- │ │ │ ├── 32000.json
197
- │ │ │ ├── 40000.json
198
- │ │ │ └── 48000.json
199
- │ │ ├── config.json
200
- │ │ └── config.py
201
- │ ├── inference
202
- │ │ ├── audio_effects.py
203
- │ │ ├── audioldm2.py
204
- │ │ ├── convert.py
205
- │ │ ├── create_dataset.py
206
- │ │ ├── create_index.py
207
- │ │ ├── extract.py
208
- │ │ ├── preprocess.py
209
- │ │ ├── separator_music.py
210
- │ │ └── train.py
211
- │ ├── library
212
- │ │ ├── algorithm
213
- │ │ │ ├── commons.py
214
- │ │ │ ├── modules.py
215
- │ │ │ ├── mrf_hifigan.py
216
- │ │ │ ├── onnx_export.py
217
- │ │ │ ├── refinegan.py
218
- │ │ │ ├── residuals.py
219
- │ │ │ ├── separator.py
220
- │ │ │ └── stftpitchshift.py
221
- │ │ ├── architectures
222
- │ │ │ ├── demucs_separator.py
223
- │ │ │ ├── fairseq.py
224
- │ │ │ └── mdx_separator.py
225
- │ │ ├── audioldm2
226
- │ │ │ ├── models.py
227
- │ │ │ └── utils.py
228
- │ │ ├── predictors
229
- │ │ │ ├── CREPE.py
230
- │ │ │ ├── FCPE.py
231
- │ │ │ ├── Generator.py
232
- │ │ │ ├── RMVPE.py
233
- │ │ │ ├── SWIPE.py
234
- │ │ │ └── WORLD_WRAPPER.py
235
- │ │ ├── speaker_diarization
236
- │ │ │ ├── audio.py
237
- │ │ │ ├── ECAPA_TDNN.py
238
- │ │ │ ├── embedding.py
239
- │ │ │ ├── encoder.py
240
- │ │ │ ├── features.py
241
- │ │ │ ├── parameter_transfer.py
242
- │ │ │ ├── segment.py
243
- │ │ │ ├── speechbrain.py
244
- │ │ │ └── whisper.py
245
- │ │ ├── uvr5_separator
246
- │ │ │ ├── common_separator.py
247
- │ │ │ ├── spec_utils.py
248
- │ │ │ └── demucs
249
- │ │ │ ├── apply.py
250
- │ │ │ ├── demucs.py
251
- │ │ │ ├── hdemucs.py
252
- │ │ │ ├── htdemucs.py
253
- │ │ │ ├── states.py
254
- │ │ │ └── utils.py
255
- │ │ └── utils.py
256
- │ └── tools
257
- │ ├── gdown.py
258
- │ ├── huggingface.py
259
- │ ├── mediafire.py
260
- │ ├���─ meganz.py
261
- │ ├── noisereduce.py
262
- │ └── pixeldrain.py
263
- ├── docker-compose-cpu.yaml
264
- ├── docker-compose-cuda118.yaml
265
- ├── docker-compose-cuda128.yaml
266
- ├── Dockerfile
267
- ├── Dockerfile.cuda118
268
- ├── Dockerfile.cuda128
269
- ├── LICENSE
270
- ├── README.md
271
- ├── requirements.txt
272
- ├── run_app.bat
273
- └── tensorboard.bat
274
- </pre>
275
-
276
- # LƯU Ý
277
-
278
- - **Dự án này chỉ hỗ trợ trên gpu của NVIDIA (Có thể sẽ hỗ trợ AMD sau nếu tôi có gpu AMD để thử)**
279
- - **Hiện tại các bộ mã hóa mới như MRF HIFIGAN vẫn chưa đầy đủ các bộ huấn luyện trước**
280
- - **Bộ mã hóa MRF HIFIGAN và REFINEGAN không hỗ trợ huấn luyện khi không không huấn luyện cao độ**
281
- - **Các mô hình trong kho lưu trữ Vietnamese-RVC được thu thập rải rác trên AI Hub, HuggingFace và các các kho lưu trữ khác. Có thể mang các giấy phép bản quyền khác nhau (Ví dụ: Audioldm2 có các trọng số mô hình với điều khoản "Phi Thương Mại")**
282
- - **Mã nguồn này có chứa thành phần phần mềm bên thứ ba được cấp phép với điều khoản "phi thương mại". Bất kỳ hành vi sử dụng thương mại nào, bao gồm kêu gọi tài trợ hoặc tài chính hóa phần mềm phái sinh, đều có thể vi phạm giấy phép và sẽ phải chịu trách nhiệm pháp lý tương ứng.**
283
-
284
- # Điều khoản sử dụng
285
-
286
- - Bạn phải đảm bảo rằng các nội dung âm thanh bạn tải lên và chuyển đổi qua dự án này không vi phạm quyền sở hữu trí tuệ của bên thứ ba.
287
-
288
- - Không được phép sử dụng dự án này cho bất kỳ hoạt động nào bất hợp pháp, bao gồm nhưng không giới hạn ở việc sử dụng để lừa đảo, quấy rối, hay gây tổn hại đến người khác.
289
-
290
- - Bạn chịu trách nhiệm hoàn toàn đối với bất kỳ thiệt hại nào phát sinh từ việc sử dụng sản phẩm không đúng cách.
291
-
292
- - Tôi sẽ không chịu trách nhiệm với bất kỳ thiệt hại trực tiếp hoặc gián tiếp nào phát sinh từ việc sử dụng dự án này.
293
-
294
- # Dự án này được xây dựng dựa trên các dự án như sau
295
-
296
- | Tác Phẩm | Tác Giả | Giấy Phép |
297
- |--------------------------------------------------------------------------------------------------------------------------------|-------------------------|-------------|
298
- | **[Applio](https://github.com/IAHispano/Applio/tree/main)** | IAHispano | MIT License |
299
- | **[Python-audio-separator](https://github.com/nomadkaraoke/python-audio-separator/tree/main)** | Nomad Karaoke | MIT License |
300
- | **[Retrieval-based-Voice-Conversion-WebUI](https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/tree/main)** | RVC Project | MIT License |
301
- | **[RVC-ONNX-INFER-BY-Anh](https://github.com/PhamHuynhAnh16/RVC_Onnx_Infer)** | Phạm Huỳnh Anh | MIT License |
302
- | **[Torch-Onnx-Crepe-By-Anh](https://github.com/PhamHuynhAnh16/TORCH-ONNX-CREPE)** | Phạm Huỳnh Anh | MIT License |
303
- | **[Hubert-No-Fairseq](https://github.com/PhamHuynhAnh16/hubert-no-fairseq)** | Phạm Huỳnh Anh | MIT License |
304
- | **[Local-attention](https://github.com/lucidrains/local-attention)** | Phil Wang | MIT License |
305
- | **[TorchFcpe](https://github.com/CNChTu/FCPE/tree/main)** | CN_ChiTu | MIT License |
306
- | **[FcpeONNX](https://github.com/deiteris/voice-changer/blob/master-custom/server/utils/fcpe_onnx.py)** | Yury | MIT License |
307
- | **[ContentVec](https://github.com/auspicious3000/contentvec)** | Kaizhi Qian | MIT License |
308
- | **[Mediafiredl](https://github.com/Gann4Life/mediafiredl)** | Santiago Ariel Mansilla | MIT License |
309
- | **[Noisereduce](https://github.com/timsainb/noisereduce)** | Tim Sainburg | MIT License |
310
- | **[World.py-By-Anh](https://github.com/PhamHuynhAnh16/world.py)** | Phạm Huỳnh Anh | MIT License |
311
- | **[Mega.py](https://github.com/3v1n0/mega.py)** | Marco Trevisan | No License |
312
- | **[Gdown](https://github.com/wkentaro/gdown)** | Kentaro Wada | MIT License |
313
- | **[Whisper](https://github.com/openai/whisper)** | OpenAI | MIT License |
314
- | **[PyannoteAudio](https://github.com/pyannote/pyannote-audio)** | pyannote | MIT License |
315
- | **[AudioEditingCode](https://github.com/HilaManor/AudioEditingCode)** | Hila Manor | MIT License |
316
- | **[StftPitchShift](https://github.com/jurihock/stftPitchShift)** | Jürgen Hock | MIT License |
317
- | **[Codename-RVC-Fork-3](https://github.com/codename0og/codename-rvc-fork-3)** | Codename;0 | MIT License |
318
-
319
- # Kho mô hình của công cụ tìm kiếm mô hình
320
-
321
- - **[VOICE-MODELS.COM](https://voice-models.com/)**
322
-
323
- # Các phương pháp trích xuất Pitch trong RVC
324
-
325
- Tài liệu này trình bày chi tiết các phương pháp trích xuất cao độ được sử dụng, thông tin về ưu, nhược điểm, sức mạnh và độ tin cậy của từng phương pháp theo trải nghiệm cá nhân.
326
-
327
- | Phương pháp | Loại | Ưu điểm | Hạn chế | Sức mạnh | Độ tin cậy |
328
- |--------------------|----------------|---------------------------|------------------------------|--------------------|--------------------|
329
- | pm | Praat | Nhanh | Kém chính xác | Thấp | Thấp |
330
- | dio | PYWORLD | Thích hợp với Rap | Kém chính xác với tần số cao | Trung bình | Trung bình |
331
- | harvest | PYWORLD | Chính xác hơn DIO | Xử lý chậm hơn | Cao | Rất cao |
332
- | crepe | Deep Learning | Chính xác cao | Yêu cầu GPU | Rất cao | Rất cao |
333
- | mangio-crepe | crepe finetune | Tối ưu hóa cho RVC | Đôi khi kém crepe gốc | Trung bình đến cao | Trung bình đến cao |
334
- | fcpe | Deep Learning | Chính xác, thời gian thực | Cần GPU mạnh | Khá | Trung bình |
335
- | fcpe-legacy | Old | Chính xác, thời gian thực | Cũ hơn | Khá | Trung bình |
336
- | rmvpe | Deep Learning | Hiệu quả với giọng hát | Tốn tài nguyên | Rất cao | Xuất sắc |
337
- | rmvpe-legacy | Old | Hỗ trợ hệ thống cũ | Cũ hơn | Cao | Khá |
338
- | yin | Librosa | Đơn giản, hiệu quả | Dễ lỗi bội | Trung bình | Thấp |
339
- | pyin | Librosa | Ổn định hơn YIN | Tính toán phức tạp hơn | Khá | Khá |
340
- | swipe | WORLD | Độ chính xác cao | Nhạy cảm với nhiễu | Cao | Khá |
341
-
342
- # Báo cáo lỗi
343
-
344
- - **Với trường hợp gặp lỗi khi sử dụng mã nguồn này tôi thực sự xin lỗi bạn vì trải nghiệm không tốt này, bạn có thể gửi báo cáo lỗi thông qua cách phía dưới**
345
- - **Bạn có thể báo cáo lỗi cho tôi thông qua hệ thống báo cáo lỗi webhook trong giao diện sử dụng**
346
- - **Với trường hợp hệ thống báo cáo lỗi không hoạt động bạn có thể báo cáo lỗi cho tôi thông qua Discord `pham_huynh_anh` Hoặc [ISSUE](https://github.com/PhamHuynhAnh16/Vietnamese-RVC/issues)**
347
-
348
- # ☎️ Liên hệ tôi
349
- - Discord: **pham_huynh_anh**
 
1
  ---
2
  license: apache-2.0
3
  language:
 
4
  - en
5
  pipeline_tag: audio-to-audio
6
  tags:
 
11
  base_model:
12
  - lj1995/VoiceConversionWebUI
13
  - IAHispano/Applio
14
+ - AnhP/Vietnamese-RVC-Project
15
  - cvssp/audioldm2
16
  - cvssp/audioldm2-music
17
  - cvssp/audioldm2-large
18
  - speechbrain/spkrec-ecapa-voxceleb
19
  ---
20