Voff

Running on Zero

App Files Files Community

TDN-M commited on Feb 13

Commit

11019ca

verified ·

1 Parent(s): c9207a5

Update app.py

Browse files

Files changed (1) hide show

app.py +34 -40

app.py CHANGED Viewed

@@ -13,12 +13,9 @@ from huggingface_hub import HfApi, hf_hub_download, snapshot_download
 from TTS.tts.configs.xtts_config import XttsConfig
 from TTS.tts.models.xtts import Xtts
 from vinorm import TTSnorm
-from langchain.prompts import PromptTemplate
-from langchain.chains import LLMChain
-from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline
-from langchain_community.llms import HuggingFacePipeline
-# Download for mecab
 os.system("python -m unidic download")
 HF_TOKEN = os.environ.get("HF_TOKEN")
 api = HfApi(token=HF_TOKEN)
@@ -55,30 +52,6 @@ supported_languages = config.languages
 if not "vi" in supported_languages:
     supported_languages.append("vi")
-# Load LangChain components with the new model
-model = AutoModelForSeq2SeqLM.from_pretrained("google/flan-t5-xl")
-tokenizer = AutoTokenizer.from_pretrained("google/flan-t5-xl")
-pipe = pipeline(
-    'text2text-generation',
-    model=model,
-    tokenizer=tokenizer,
-    max_length=1024  # Update max_length
-)
-local_llm = HuggingFacePipeline(pipeline=pipe)
-# Define the caption_chain function
-def caption_chain(llm):
-    sum_template = """What is the most significant action, place, or thing? Say it in at most 5 words:
-    {sentence}
-    """
-    sum_prompt = PromptTemplate(template=sum_template, input_variables=["sentence"])
-    sum_llm_chain = LLMChain(prompt=sum_prompt, llm=llm)
-    return sum_llm_chain
-# Initialize the caption_chain and tag_chain
-llm_chain = caption_chain(llm=local_llm)
 def normalize_vietnamese_text(text):
     text = (
         TTSnorm(text, unknown=False, lower=False, rule=True)
@@ -113,7 +86,16 @@ def predict(
     language,
     audio_file_pth,
     normalize_text=True,
 ):
     if language not in supported_languages:
         metrics_text = gr.Warning(
             f"Language you put {language} in is not in our Supported Languages, please choose from dropdown"
@@ -148,7 +130,6 @@ def predict(
         prompt = re.sub("([^\x00-\x7F]|\w)(\.|\。|\?)", r"\1 \2\2", prompt)
         if normalize_text and language == "vi":
             prompt = normalize_vietnamese_text(prompt)
         print("I: Generating new audio...")
         t0 = time.time()
         out = MODEL.inference(
@@ -175,13 +156,13 @@ def predict(
         torchaudio.save("output.wav", torch.tensor(out["wav"]).unsqueeze(0), 24000)
     except RuntimeError as e:
         if "device-side assert" in str(e):
-            # Cannot do anything on CUDA device side error, need to restart
             print(
                 f"Exit due to: Unrecoverable exception caused by language:{language} prompt:{prompt}",
                 flush=True,
             )
             gr.Warning("Unhandled Exception encounter, please retry in a minute")
-            print("CUDA device-assert Runtime encountered need restart")
             error_time = datetime.datetime.now().strftime("%d-%m-%Y-%H:%M:%S")
             error_data = [
                 error_time,
@@ -196,7 +177,7 @@ def predict(
             csv.writer(write_io).writerows([error_data])
             csv_upload = write_io.getvalue().encode()
             filename = error_time + "_" + str(uuid.uuid4()) + ".csv"
-            print("Writing error CSV")
             error_api = HfApi()
             error_api.upload_file(
                 path_or_fileobj=csv_upload,
@@ -204,7 +185,7 @@ def predict(
                 repo_id="coqui/xtts-flagged-dataset",
                 repo_type="dataset",
             )
-            # Speaker WAV
             print("Writing error reference audio")
             speaker_filename = error_time + "_reference_" + str(uuid.uuid4()) + ".wav"
             error_api = HfApi()
@@ -234,24 +215,25 @@ def predict(
             return (None, metrics_text)
     return ("output.wav", metrics_text)
 with gr.Blocks(analytics_enabled=False) as demo:
     with gr.Row():
         with gr.Column():
             gr.Markdown(
                 """
-                # tts@TDNM ✨ https://www.tdn-m.com
                 """
             )
         with gr.Column():
-            # Placeholder to align the image
             pass
     with gr.Row():
         with gr.Column():
             input_text_gr = gr.Textbox(
-                label="Text Prompt (Văn bản cần đọc)",
-                info="Mỗi câu nên từ 10 từ trở lên.",
-                value="Xin chào, tôi là một mô hình chuyển đổi văn bản thành giọng nói tiếng Việt.",
             )
             language_gr = gr.Dropdown(
                 label="Language (Ngôn ngữ)",
@@ -283,10 +265,20 @@ with gr.Blocks(analytics_enabled=False) as demo:
                 info="Normalize Vietnamese text",
                 value=True,
             )
             ref_gr = gr.Audio(
                 label="Reference Audio (Giọng mẫu)",
                 type="filepath",
-                value="nam-tai-lieu.wav",
             )
             tts_button = gr.Button(
                 "Đọc 🗣️🔥",
@@ -306,6 +298,8 @@ with gr.Blocks(analytics_enabled=False) as demo:
             language_gr,
             ref_gr,
             normalize_text,
         ],
         outputs=[audio_gr, out_text_gr],
         api_name="predict",

 from TTS.tts.configs.xtts_config import XttsConfig
 from TTS.tts.models.xtts import Xtts
 from vinorm import TTSnorm
+from content_generation import create_content  # Nhập hàm create_content từ file content_generation.py
+# download for mecab
 os.system("python -m unidic download")
 HF_TOKEN = os.environ.get("HF_TOKEN")
 api = HfApi(token=HF_TOKEN)
 if not "vi" in supported_languages:
     supported_languages.append("vi")
 def normalize_vietnamese_text(text):
     text = (
         TTSnorm(text, unknown=False, lower=False, rule=True)
     language,
     audio_file_pth,
     normalize_text=True,
+    use_llm=False,  # Thêm tùy chọn sử dụng LLM
+    content_type="Theo yêu cầu",  # Loại nội dung (ví dụ: "triết lý sống" hoặc "Theo yêu cầu")
 ):
+    if use_llm:
+        # Nếu sử dụng LLM, tạo nội dung văn bản từ đầu vào
+        print("I: Generating text with LLM...")
+        generated_text = create_content(prompt, content_type, language)
+        print(f"Generated text: {generated_text}")
+        prompt = generated_text  # Gán văn bản được tạo bởi LLM vào biến prompt
     if language not in supported_languages:
         metrics_text = gr.Warning(
             f"Language you put {language} in is not in our Supported Languages, please choose from dropdown"
         prompt = re.sub("([^\x00-\x7F]|\w)(\.|\。|\?)", r"\1 \2\2", prompt)
         if normalize_text and language == "vi":
             prompt = normalize_vietnamese_text(prompt)
         print("I: Generating new audio...")
         t0 = time.time()
         out = MODEL.inference(
         torchaudio.save("output.wav", torch.tensor(out["wav"]).unsqueeze(0), 24000)
     except RuntimeError as e:
         if "device-side assert" in str(e):
+            # cannot do anything on cuda device side error, need to restart
             print(
                 f"Exit due to: Unrecoverable exception caused by language:{language} prompt:{prompt}",
                 flush=True,
             )
             gr.Warning("Unhandled Exception encounter, please retry in a minute")
+            print("Cuda device-assert Runtime encountered need restart")
             error_time = datetime.datetime.now().strftime("%d-%m-%Y-%H:%M:%S")
             error_data = [
                 error_time,
             csv.writer(write_io).writerows([error_data])
             csv_upload = write_io.getvalue().encode()
             filename = error_time + "_" + str(uuid.uuid4()) + ".csv"
+            print("Writing error csv")
             error_api = HfApi()
             error_api.upload_file(
                 path_or_fileobj=csv_upload,
                 repo_id="coqui/xtts-flagged-dataset",
                 repo_type="dataset",
             )
+            # speaker_wav
             print("Writing error reference audio")
             speaker_filename = error_time + "_reference_" + str(uuid.uuid4()) + ".wav"
             error_api = HfApi()
             return (None, metrics_text)
     return ("output.wav", metrics_text)
+# Cập nhật giao diện Gradio
 with gr.Blocks(analytics_enabled=False) as demo:
     with gr.Row():
         with gr.Column():
             gr.Markdown(
                 """
+                # tts@TDNM ✨ https:www.tdn-m.com
                 """
             )
         with gr.Column():
+            # placeholder to align the image
             pass
     with gr.Row():
         with gr.Column():
             input_text_gr = gr.Textbox(
+                label="Bạn cần nội dung gì?",
+                info="Tôi có thể viết và thu âm luôn cho bạn",
+                value="Lời tự sự của AI, 150 từ",
             )
             language_gr = gr.Dropdown(
                 label="Language (Ngôn ngữ)",
                 info="Normalize Vietnamese text",
                 value=True,
             )
+            use_llm_checkbox = gr.Checkbox(
+                label="Sử dụng LLM để tạo nội dung",
+                info="Use LLM to generate content",
+                value=True,
+            )
+            content_type_dropdown = gr.Dropdown(
+                label="Loại nội dung",
+                choices=["triết lý sống", "Theo yêu cầu"],
+                value="Theo yêu cầu",
+            )
             ref_gr = gr.Audio(
                 label="Reference Audio (Giọng mẫu)",
                 type="filepath",
+                value="nam-tai-llieu.wav",
             )
             tts_button = gr.Button(
                 "Đọc 🗣️🔥",
             language_gr,
             ref_gr,
             normalize_text,
+            use_llm_checkbox,  # Thêm checkbox để bật/tắt LLM
+            content_type_dropdown,  # Thêm dropdown để chọn loại nội dung
         ],
         outputs=[audio_gr, out_text_gr],
         api_name="predict",