ebook2audiobookXTTS-dev-testing-grounds-3

Runtime error

App Files Files Community

drewThomasson commited on Oct 9, 2024

Commit

1df0182

verified ·

1 Parent(s): e35df2e

Update app.py

Browse files

Files changed (1) hide show

app.py +21 -10

app.py CHANGED Viewed

@@ -77,7 +77,7 @@ parser.add_argument("--length_penalty", type=float, default=1.0, help="A length
 parser.add_argument("--repetition_penalty", type=float, default=2.0, help="A penalty that prevents the autoregressive decoder from repeating itself. Defaults to 2.0.")
 parser.add_argument("--top_k", type=int, default=50, help="Top-k sampling. Lower values mean more likely outputs. Defaults to 50.")
 parser.add_argument("--top_p", type=float, default=0.8, help="Top-p sampling. Lower values mean more likely outputs. Defaults to 0.8.")
-parser.add_argument("--speed", type=float, default=1.0, help="Speed factor for the speech generation. Defaults to 1.0.")
 parser.add_argument("--enable_text_splitting", type=bool, default=False, help="Enable splitting text into sentences. Defaults to True.")
 args = parser.parse_args()
@@ -110,10 +110,10 @@ import socket
 #nltk.download('punkt_tab')
 # Import the locally stored Xtts default model
-import import_locally_stored_tts_model_files
 #make the nltk folder point to the nltk folder in the app dir
-nltk.data.path.append('/home/user/app/nltk_data')
 # Download UniDic if it's not already installed
 #unidic.download()
@@ -893,7 +893,7 @@ def run_gradio_interface():
                 temperature = gr.Slider(
                     label="Temperature",
                     minimum=0.1,
-                    maximum=2.0,
                     step=0.1,
                     value=0.65,
                     info="Higher values lead to more creative, unpredictable outputs. Lower values make it more monotone."
@@ -901,7 +901,7 @@ def run_gradio_interface():
                 length_penalty = gr.Slider(
                     label="Length Penalty",
                     minimum=0.5,
-                    maximum=3.0,
                     step=0.1,
                     value=1.0,
                     info="Penalize longer sequences. Higher values produce shorter outputs."
@@ -909,7 +909,7 @@ def run_gradio_interface():
                 repetition_penalty = gr.Slider(
                     label="Repetition Penalty",
                     minimum=1.0,
-                    maximum=5.0,
                     step=0.1,
                     value=2.0,
                     info="Penalizes repeated phrases. Higher values reduce repetition."
@@ -926,17 +926,17 @@ def run_gradio_interface():
                     label="Top-p Sampling",
                     minimum=0.1,
                     maximum=1.0,
-                    step=0.1,
                     value=0.8,
                     info="Controls cumulative probability for word selection. Lower values make the output more predictable."
                 )
                 speed = gr.Slider(
                     label="Speed",
                     minimum=0.5,
-                    maximum=4.0,
                     step=0.1,
                     value=1.0,
-                    info="Adjusts the playback speed of the generated audio."
                 )
                 enable_text_splitting = gr.Checkbox(
                     label="Enable Text Splitting",
@@ -951,7 +951,16 @@ def run_gradio_interface():
         download_files = gr.File(label="Download Files", interactive=False)
         convert_btn.click(
-            convert_ebook_to_audio,
             inputs=[
                 ebook_file, target_voice_file, language, use_custom_model, custom_model_file, custom_config_file,
                 custom_vocab_file, temperature, length_penalty, repetition_penalty,
@@ -959,6 +968,8 @@ def run_gradio_interface():
             ],
             outputs=[output, audio_player]
         )
         use_custom_model.change(
             lambda x: [gr.update(visible=x)] * 4,
             inputs=[use_custom_model],

 parser.add_argument("--repetition_penalty", type=float, default=2.0, help="A penalty that prevents the autoregressive decoder from repeating itself. Defaults to 2.0.")
 parser.add_argument("--top_k", type=int, default=50, help="Top-k sampling. Lower values mean more likely outputs. Defaults to 50.")
 parser.add_argument("--top_p", type=float, default=0.8, help="Top-p sampling. Lower values mean more likely outputs. Defaults to 0.8.")
+parser.add_argument("--speed", type=float, default=1.0, help="Speed factor for the speech generation. IE: How fast the Narrerator will speak. Defaults to 1.0.")
 parser.add_argument("--enable_text_splitting", type=bool, default=False, help="Enable splitting text into sentences. Defaults to True.")
 args = parser.parse_args()
 #nltk.download('punkt_tab')
 # Import the locally stored Xtts default model
+#import import_locally_stored_tts_model_files
 #make the nltk folder point to the nltk folder in the app dir
+#nltk.data.path.append('/home/user/app/nltk_data')
 # Download UniDic if it's not already installed
 #unidic.download()
                 temperature = gr.Slider(
                     label="Temperature",
                     minimum=0.1,
+                    maximum=10.0,
                     step=0.1,
                     value=0.65,
                     info="Higher values lead to more creative, unpredictable outputs. Lower values make it more monotone."
                 length_penalty = gr.Slider(
                     label="Length Penalty",
                     minimum=0.5,
+                    maximum=10.0,
                     step=0.1,
                     value=1.0,
                     info="Penalize longer sequences. Higher values produce shorter outputs."
                 repetition_penalty = gr.Slider(
                     label="Repetition Penalty",
                     minimum=1.0,
+                    maximum=10.0,
                     step=0.1,
                     value=2.0,
                     info="Penalizes repeated phrases. Higher values reduce repetition."
                     label="Top-p Sampling",
                     minimum=0.1,
                     maximum=1.0,
+                    step=.01,
                     value=0.8,
                     info="Controls cumulative probability for word selection. Lower values make the output more predictable."
                 )
                 speed = gr.Slider(
                     label="Speed",
                     minimum=0.5,
+                    maximum=3.0,
                     step=0.1,
                     value=1.0,
+                    info="Adjusts How fast the narrator will speak."
                 )
                 enable_text_splitting = gr.Checkbox(
                     label="Enable Text Splitting",
         download_files = gr.File(label="Download Files", interactive=False)
         convert_btn.click(
+            lambda *args: convert_ebook_to_audio(
+                *args[:7],
+                float(args[7]),  # Ensure temperature is float
+                float(args[8]),  # Ensure length_penalty is float
+                float(args[9]),  # Ensure repetition_penalty is float
+                int(args[10]),   # Ensure top_k is int
+                float(args[11]), # Ensure top_p is float
+                float(args[12]), # Ensure speed is float
+                *args[13:]
+            ),
             inputs=[
                 ebook_file, target_voice_file, language, use_custom_model, custom_model_file, custom_config_file,
                 custom_vocab_file, temperature, length_penalty, repetition_penalty,
             ],
             outputs=[output, audio_player]
         )
         use_custom_model.change(
             lambda x: [gr.update(visible=x)] * 4,
             inputs=[use_custom_model],