Spaces:

klentyboopathi
/

VoiceStack

Running

App Files Files Community

VoiceStack / service /orpheus /tts.py

klentyboopathi

Intital commit

8362005 5 days ago

raw

history blame contribute delete

3.78 kB

	import asyncio
	from queue import Queue
	from threading import Thread
	from typing import AsyncGenerator, List, Optional

	from loguru import logger
	from orpheus_tts import OrpheusModel
	from pydantic import BaseModel, Field

	from pipecat.frames.frames import (
	ErrorFrame,
	Frame,
	TTSAudioRawFrame,
	TTSStartedFrame,
	TTSStoppedFrame,
	)
	from pipecat.services.tts_service import TTSService


	class OrpheusTTSService(TTSService):
	"""TTS service for Orpheus.

	This service uses Orpheus to generate speech. It streams the audio chunks.
	"""

	class InputParams(BaseModel):
	"""Configuration parameters for Orpheus TTS service."""

	voice: str = Field("tara", description="Voice to use for generation.")
	repetition_penalty: Optional[float] = Field(1.1)
	stop_token_ids: Optional[List[int]] = Field([128258])
	max_tokens: Optional[int] = Field(2000)
	temperature: Optional[float] = Field(0.4)
	top_p: Optional[float] = Field(0.9)

	def __init__(
	self,
	*,
	model_name: str = "canopylabs/orpheus-tts-0.1-finetune-prod",
	sample_rate: int = 24000,
	params: InputParams = InputParams(),
	**kwargs,
	):
	"""Initialize Orpheus TTS service.

	Args:
	model_name: The name of the Orpheus model to use.
	sample_rate: The sample rate of the audio.
	params: Configuration parameters for TTS generation.
	"""
	super().__init__(sample_rate=sample_rate, **kwargs)
	logger.info(f"Initializing Orpheus TTS service with model: {model_name}")
	self._model = OrpheusModel(model_name=model_name)
	self._settings = params.dict()
	logger.info("Orpheus TTS service initialized")

	def can_generate_metrics(self) -> bool:
	return True

	async def run_tts(self, text: str) -> AsyncGenerator[Frame, None]:
	logger.debug(f"Generating TTS for: [{text}]")
	try:
	await self.start_ttfb_metrics()
	yield TTSStartedFrame()

	loop = asyncio.get_running_loop()
	q = Queue()

	def generate():
	try:
	stream = self._model.generate_speech(
	prompt=text,
	voice=self._settings["voice"],
	repetition_penalty=self._settings["repetition_penalty"],
	stop_token_ids=self._settings["stop_token_ids"],
	max_tokens=self._settings["max_tokens"],
	temperature=self._settings["temperature"],
	top_p=self._settings["top_p"],
	)
	for chunk in stream:
	q.put(chunk)
	except Exception as e:
	logger.error(
	f"Error in Orpheus generate_speech thread: {e}", exc_info=True
	)
	q.put(e)
	finally:
	q.put(None) # Sentinel to indicate end of stream

	thread = Thread(target=generate)
	thread.start()

	await self.start_tts_usage_metrics(text)

	while True:
	item = await loop.run_in_executor(None, q.get)
	if isinstance(item, Exception):
	raise item
	if item is None:
	break

	yield TTSAudioRawFrame(
	audio=item, sample_rate=self.sample_rate, num_channels=1
	)

	thread.join()

	yield TTSStoppedFrame()
	except Exception as e:
	logger.error(f"{self} exception: {e}", exc_info=True)
	yield ErrorFrame(f"Error generating audio: {str(e)}")