Spaces:

Lorenzob
/

aurora-1.6b

Runtime error

App Files Files Community

Lorenzob commited on May 9

Commit

b5b5037

verified ·

1 Parent(s): d98c95d

Completely revised approach using direct Microsoft SpeechT5 model

Browse files

Files changed (1) hide show

app.py +95 -172

app.py CHANGED Viewed

@@ -2,11 +2,10 @@
 import gradio as gr
 import torch
 import os
-import json
 import numpy as np
 from scipy import signal
 import warnings
-from transformers import AutoConfig, AutoProcessor, SpeechT5ForTextToSpeech, set_seed
 import requests
 import tempfile
 from pathlib import Path
@@ -17,39 +16,44 @@ warnings.filterwarnings("ignore")
 set_seed(42)
 # Definizioni di variabili globali
-MODEL_REPO = "Lorenzob/aurora-1.6b-complete"  # Repository del modello completo
 CACHE_DIR = "./model_cache"  # Directory per la cache del modello
-SAMPLE_RATE = 24000  # Frequenza di campionamento
-# Cache per il modello, processor e speaker embeddings
 processor = None
 model = None
 speaker_embeddings_cache = {}
 def download_file(url, save_path):
     """Scarica un file da un URL"""
-    response = requests.get(url, stream=True)
-    response.raise_for_status()
-    os.makedirs(os.path.dirname(save_path), exist_ok=True)
-    with open(save_path, 'wb') as f:
-        for chunk in response.iter_content(chunk_size=8192):
-            f.write(chunk)
-    return save_path
-def get_speaker_embeddings(speaker_id=0):
-    """Ottieni gli speaker embeddings dal dataset CMU Arctic"""
     global speaker_embeddings_cache
     if speaker_id in speaker_embeddings_cache:
         return speaker_embeddings_cache[speaker_id]
     try:
-        # Limita lo speaker_id a un intervallo valido (0-9)
-        speaker_id = max(0, min(9, speaker_id))
-        # Genera l'URL per gli embeddings
         url = f"https://huggingface.co/datasets/Matthijs/cmu-arctic-xvectors/resolve/main/cmu_us_{speaker_id:02d}_xvector.pt"
         # Crea un file temporaneo per gli embeddings
@@ -60,7 +64,9 @@ def get_speaker_embeddings(speaker_id=0):
         # Scarica gli embeddings se non esistono già
         if not os.path.exists(tmp_file):
             print(f"Scaricamento degli speaker embeddings per lo speaker {speaker_id}...")
-            download_file(url, tmp_file)
         # Carica gli embeddings
         speaker_embeddings = torch.load(tmp_file)
@@ -72,94 +78,46 @@ def get_speaker_embeddings(speaker_id=0):
         return speaker_embeddings
     except Exception as e:
         print(f"Errore nel caricamento degli speaker embeddings: {e}")
-        # Crea dei default embeddings
-        default_embeddings = torch.zeros(1, 512)
-        speaker_embeddings_cache[speaker_id] = default_embeddings
-        return default_embeddings
-def ensure_model_config():
-    """Assicura che il modello abbia una configurazione corretta"""
-    try:
-        # Crea la directory cache se non esiste
-        os.makedirs(CACHE_DIR, exist_ok=True)
-        # Percorso per il file di configurazione locale
-        config_path = os.path.join(CACHE_DIR, "config.json")
-        # Controlla se il file di configurazione esiste già
-        if not os.path.exists(config_path):
-            # URL del file di configurazione su Hugging Face
-            config_url = f"https://huggingface.co/{MODEL_REPO}/raw/main/config.json"
-            # Scarica il file di configurazione
-            print(f"Scaricamento della configurazione da {config_url}...")
-            download_file(config_url, config_path)
-        # Leggi il file di configurazione
-        with open(config_path, "r") as f:
-            config = json.load(f)
-        # Modifica la configurazione per SpeechT5
-        config["model_type"] = "speecht5"
-        if "architectures" not in config or not config["architectures"]:
-            config["architectures"] = ["SpeechT5ForTextToSpeech"]
-        # Salva la configurazione modificata
-        with open(config_path, "w") as f:
-            json.dump(config, f, indent=2)
-        print(f"Configurazione aggiornata salvata in {config_path}")
-        return config_path
-    except Exception as e:
-        print(f"Errore nella configurazione del modello: {e}")
-        return None
-def load_model_and_processor():
-    """Carica il modello e il processor con caricamento manuale della configurazione"""
-    global model, processor
-    if model is None or processor is None:
         try:
-            print(f"📂 Caricamento del modello Aurora-1.6b-complete...")
-            # Configura il modello manualmente
-            config_path = ensure_model_config()
-            if not config_path:
-                raise ValueError("Impossibile creare la configurazione del modello")
-            # Carica la configurazione
-            config = AutoConfig.from_pretrained(config_path)
-            # Carica il processor
-            processor = AutoProcessor.from_pretrained(MODEL_REPO)
-            # Carica il modello con la configurazione corretta
-            model = SpeechT5ForTextToSpeech.from_pretrained(
-                MODEL_REPO,
-                config=config,
-                torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32,
-                device_map="auto"
-            )
-            print("✅ Modello e processor caricati con successo!")
         except Exception as e:
-            print(f"❌ Errore nel caricamento del modello Aurora: {str(e)}")
             traceback_str = traceback.format_exc()
             print(f"Traceback completo:\n{traceback_str}")
-            try:
-                # Fallback al modello di Microsoft (più affidabile)
-                print("⚠️ Tentativo di fallback al modello Microsoft...")
-                from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech
-                processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_tts")
-                model = SpeechT5ForTextToSpeech.from_pretrained("microsoft/speecht5_tts")
-                print("✅ Modello di fallback caricato con successo!")
-            except Exception as e2:
-                print(f"❌ Errore anche nel caricamento del modello di fallback: {str(e2)}")
-                raise RuntimeError("Impossibile caricare alcun modello TTS")
-    return model, processor
 def text_to_speech(text, language="it", speaker_id=0, speed=1.0, show_log=False):
     """Converte testo in voce utilizzando il modello TTS"""
@@ -171,72 +129,41 @@ def text_to_speech(text, language="it", speaker_id=0, speed=1.0, show_log=False)
         print(f"Richiesta TTS ricevuta: '{text}' (Lingua: {language}, Speaker: {speaker_id}, Velocità: {speed})")
     try:
-        # Carica il modello e il processor
-        model, processor = load_model_and_processor()
         # Ottieni gli speaker embeddings
-        speaker_emb = get_speaker_embeddings(speaker_id)
-        # Controlla se stiamo usando il modello di Microsoft
-        is_microsoft_model = "microsoft" in str(type(model))
-        if is_microsoft_model:
-            # Usa il modello Microsoft
-            if show_log:
-                print("Utilizzo del modello Microsoft SpeechT5...")
-            # Crea input IDs dal testo
-            inputs = processor(text=text, return_tensors="pt")
             # Genera l'audio
-            with torch.no_grad():
-                speech = model.generate_speech(
-                    inputs["input_ids"],
-                    speaker_emb
-                )
-            # Imposta la frequenza di campionamento
-            sample_rate = 16000  # Microsoft usa 16kHz
-        else:
-            # Usa il modello Aurora
-            if show_log:
-                print("Utilizzo del modello Aurora-1.6b-complete...")
-            # Prepara gli input
-            inputs = processor(
-                text=text,
-                language=language,
-                return_tensors="pt"
             )
-            # Sposta gli input sul dispositivo di calcolo
-            for k, v in inputs.items():
-                if hasattr(v, "to"):
-                    inputs[k] = v.to(model.device)
-            # Sposta gli speaker embeddings sul dispositivo di calcolo
-            speaker_emb = speaker_emb.to(model.device)
-            # Genera il speech
-            with torch.no_grad():
-                if hasattr(model, "generate_speech") and callable(model.generate_speech):
-                    # Usa generate_speech se disponibile
-                    speech = model.generate_speech(
-                        inputs["input_ids"],
-                        speaker_emb
-                    )
-                else:
-                    # Prova a passare gli speaker embeddings come parametro
-                    speech = model.generate(
-                        **inputs,
-                        speaker_embeddings=speaker_emb
-                    )
-            # Imposta la frequenza di campionamento
-            sample_rate = SAMPLE_RATE
         # Converti il tensore in un array numpy
-        speech_array = speech.cpu().numpy().squeeze()
         # Applica il controllo della velocità
         if speed != 1.0:
@@ -257,21 +184,21 @@ def text_to_speech(text, language="it", speaker_id=0, speed=1.0, show_log=False)
 # Esempi predefiniti per l'interfaccia
 examples = [
     ["Ciao, mi chiamo Aurora e sono un assistente vocale italiano.", "it", 0, 1.0, False],
-    ["Hello, my name is Aurora and I'm an Italian voice assistant.", "en", 2, 1.0, False],
-    ["Hola, me llamo Aurora y soy un asistente de voz italiano.", "es", 4, 1.0, False],
-    ["La vita è bella e il sole splende nel cielo azzurro.", "it", 0, 1.0, False],
-    ["Mi piace viaggiare e scoprire nuove città e culture.", "it", 7, 1.2, False],
-    ["L'intelligenza artificiale sta trasformando il modo in cui interagiamo con i computer e con il mondo che ci circonda.", "it", 9, 0.9, False]
 ]
 # Definizione dell'interfaccia Gradio
-with gr.Blocks(title="Aurora-1.6b TTS Demo", theme=gr.themes.Soft()) as demo:
     gr.Markdown("""
-    # 🎙️ Aurora-1.6b Text-to-Speech Demo
-    Questa demo utilizza il modello **Aurora-1.6b-complete** per la sintesi vocale (TTS), un modello fine-tuned basato su Dia-1.6B con pesi completi.
-    Il modello supporta italiano, inglese, spagnolo, francese e tedesco, ma è stato ottimizzato per l'italiano.
     """)
     with gr.Row():
@@ -288,7 +215,7 @@ with gr.Blocks(title="Aurora-1.6b TTS Demo", theme=gr.themes.Soft()) as demo:
                     choices=["it", "en", "es", "fr", "de"],
                     label="Lingua",
                     value="it",
-                    info="Seleziona la lingua del testo"
                 )
                 speaker_input = gr.Slider(
                     label="Speaker ID",
@@ -329,16 +256,12 @@ with gr.Blocks(title="Aurora-1.6b TTS Demo", theme=gr.themes.Soft()) as demo:
     ## 📝 Note sull'utilizzo
     - Il modello funziona meglio con frasi di lunghezza media (fino a 20-30 parole)
-    - Per l'italiano, il modello è stato ottimizzato per una pronuncia naturale
     - Puoi cambiare lo Speaker ID per ottenere voci con caratteristiche diverse
     - La velocità di generazione dipende dalle risorse disponibili sul server
     ## 🔗 Crediti
-    Questo modello è una combinazione di:
-    - [Lorenzob/aurora-1.6b](https://huggingface.co/Lorenzob/aurora-1.6b) (versione fine-tuned)
-    - [Lorenzob/aurora-1.6b-complete](https://huggingface.co/Lorenzob/aurora-1.6b-complete) (versione completa con pesi)
-    - [nari-labs/Dia-1.6B](https://huggingface.co/nari-labs/Dia-1.6B) (modello base originale)
     - [CMU Arctic XVectors](https://huggingface.co/datasets/Matthijs/cmu-arctic-xvectors) (speaker embeddings)
     """)

 import gradio as gr
 import torch
 import os
 import numpy as np
 from scipy import signal
 import warnings
+from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5HifiGan, set_seed
 import requests
 import tempfile
 from pathlib import Path
 set_seed(42)
 # Definizioni di variabili globali
 CACHE_DIR = "./model_cache"  # Directory per la cache del modello
+SAMPLE_RATE = 16000  # Frequenza di campionamento per il modello Microsoft
+# Cache per i componenti del modello
 processor = None
 model = None
+vocoder = None
 speaker_embeddings_cache = {}
 def download_file(url, save_path):
     """Scarica un file da un URL"""
+    try:
+        response = requests.get(url, stream=True)
+        response.raise_for_status()
+        os.makedirs(os.path.dirname(save_path), exist_ok=True)
+        with open(save_path, 'wb') as f:
+            for chunk in response.iter_content(chunk_size=8192):
+                f.write(chunk)
+        return save_path
+    except Exception as e:
+        print(f"Errore nel download del file: {e}")
+        return None
+def get_correct_speaker_embeddings(speaker_id):
+    """Ottieni gli speaker embeddings corretti per il modello SpeechT5"""
     global speaker_embeddings_cache
+    # Correggi il valore di speaker_id per essere tra 1 e 10 (e non 0-9)
+    # poiché i file su Hugging Face sono numerati da 01 a 24
+    speaker_id = max(1, min(10, speaker_id + 1))
     if speaker_id in speaker_embeddings_cache:
         return speaker_embeddings_cache[speaker_id]
     try:
+        # Url corretto per gli speaker embeddings
         url = f"https://huggingface.co/datasets/Matthijs/cmu-arctic-xvectors/resolve/main/cmu_us_{speaker_id:02d}_xvector.pt"
         # Crea un file temporaneo per gli embeddings
         # Scarica gli embeddings se non esistono già
         if not os.path.exists(tmp_file):
             print(f"Scaricamento degli speaker embeddings per lo speaker {speaker_id}...")
+            filepath = download_file(url, tmp_file)
+            if not filepath:
+                raise ValueError(f"Impossibile scaricare gli embeddings per lo speaker {speaker_id}")
         # Carica gli embeddings
         speaker_embeddings = torch.load(tmp_file)
         return speaker_embeddings
     except Exception as e:
         print(f"Errore nel caricamento degli speaker embeddings: {e}")
+        # Prova a utilizzare un embedding predefinito dal speaker 1
+        try:
+            fallback_id = 1
+            url = f"https://huggingface.co/datasets/Matthijs/cmu-arctic-xvectors/resolve/main/cmu_us_{fallback_id:02d}_xvector.pt"
+            tmp_file = os.path.join(tmp_dir, f"speaker_{fallback_id:02d}.pt")
+            if not os.path.exists(tmp_file):
+                download_file(url, tmp_file)
+            speaker_embeddings = torch.load(tmp_file)
+            speaker_embeddings_cache[speaker_id] = speaker_embeddings
+            print(f"Utilizzando speaker embeddings di fallback (speaker {fallback_id})")
+            return speaker_embeddings
+        except:
+            # Se tutto fallisce, crea una embedding vuota
+            print("Creazione di embeddings vuoti")
+            default_embeddings = torch.zeros((1, 512))
+            speaker_embeddings_cache[speaker_id] = default_embeddings
+            return default_embeddings
+def load_tts_components():
+    """Carica tutti i componenti TTS"""
+    global processor, model, vocoder
+    if processor is None or model is None or vocoder is None:
         try:
+            print("📂 Caricamento dei componenti TTS...")
+            # Carica il processor, modello e vocoder
+            processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_tts")
+            model = SpeechT5ForTextToSpeech.from_pretrained("microsoft/speecht5_tts")
+            vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")
+            print("✅ Componenti TTS caricati con successo!")
+            return True
         except Exception as e:
+            print(f"❌ Errore nel caricamento dei componenti TTS: {e}")
             traceback_str = traceback.format_exc()
             print(f"Traceback completo:\n{traceback_str}")
+            return False
 def text_to_speech(text, language="it", speaker_id=0, speed=1.0, show_log=False):
     """Converte testo in voce utilizzando il modello TTS"""
         print(f"Richiesta TTS ricevuta: '{text}' (Lingua: {language}, Speaker: {speaker_id}, Velocità: {speed})")
     try:
+        # Carica i componenti se non già caricati
+        if not load_tts_components():
+            return None, "Errore nel caricamento dei componenti TTS. Riprova più tardi."
         # Ottieni gli speaker embeddings
+        speaker_emb = get_correct_speaker_embeddings(speaker_id)
+        # Microsoft SpeechT5 non supporta il parametro language, quindi lo ignoriamo
+        if show_log:
+            print(f"Elaborazione del testo: '{text}'")
+        # Crea input IDs dal testo
+        inputs = processor(text=text, return_tensors="pt")
+        # Genera l'audio con speaker embeddings
+        if show_log:
+            print("Generazione dell'audio...")
+        with torch.no_grad():
+            # Sposta gli speaker embeddings sul dispositivo di calcolo
+            if hasattr(model, "device"):
+                speaker_emb = speaker_emb.to(model.device)
             # Genera l'audio
+            speech = model.generate_speech(
+                inputs["input_ids"],
+                speaker_emb,
+                vocoder=vocoder
             )
+        # Imposta la frequenza di campionamento
+        sample_rate = SAMPLE_RATE
         # Converti il tensore in un array numpy
+        speech_array = speech.numpy()
         # Applica il controllo della velocità
         if speed != 1.0:
 # Esempi predefiniti per l'interfaccia
 examples = [
     ["Ciao, mi chiamo Aurora e sono un assistente vocale italiano.", "it", 0, 1.0, False],
+    ["Hello, my name is Aurora and I'm an Italian voice assistant.", "en", 1, 1.0, False],
+    ["Hola, me llamo Aurora y soy un asistente de voz italiano.", "es", 2, 1.0, False],
+    ["La vita è bella e il sole splende nel cielo azzurro.", "it", 3, 1.0, False],
+    ["Mi piace viaggiare e scoprire nuove città e culture.", "it", 4, 1.2, False],
+    ["L'intelligenza artificiale sta trasformando il modo in cui interagiamo con i computer e con il mondo che ci circonda.", "it", 5, 0.9, False]
 ]
 # Definizione dell'interfaccia Gradio
+with gr.Blocks(title="Aurora TTS Demo", theme=gr.themes.Soft()) as demo:
     gr.Markdown("""
+    # 🎙️ Text-to-Speech Demo
+    Questa demo utilizza il modello Microsoft SpeechT5 per la sintesi vocale (TTS).
+    Puoi selezionare diversi stili di voce cambiando lo Speaker ID.
     """)
     with gr.Row():
                     choices=["it", "en", "es", "fr", "de"],
                     label="Lingua",
                     value="it",
+                    info="Seleziona la lingua del testo (nota: il modello attuale si comporta meglio con l'inglese)"
                 )
                 speaker_input = gr.Slider(
                     label="Speaker ID",
     ## 📝 Note sull'utilizzo
     - Il modello funziona meglio con frasi di lunghezza media (fino a 20-30 parole)
     - Puoi cambiare lo Speaker ID per ottenere voci con caratteristiche diverse
     - La velocità di generazione dipende dalle risorse disponibili sul server
     ## 🔗 Crediti
+    - [Microsoft SpeechT5](https://huggingface.co/microsoft/speecht5_tts) (modello base)
     - [CMU Arctic XVectors](https://huggingface.co/datasets/Matthijs/cmu-arctic-xvectors) (speaker embeddings)
     """)