Spaces:

Luigi
/

Streaming-Zipformer

Running

Luigi commited on 18 days ago

Commit

c335e79

1 Parent(s): 69b815b

1. convert every hotword into zhcn for zhcn models

Files changed (1) hide show

app/asr_worker.py CHANGED Viewed

@@ -13,7 +13,8 @@ from sentencepiece import SentencePieceProcessor
 CACHE_DIR = Path(__file__).parent / "hf_cache"
 os.makedirs(CACHE_DIR, exist_ok=True)
-converter = OpenCC('s2t')
 # Streaming Zipformer model registry: paths relative to repo root
 STREAMING_ZIPFORMER_MODELS = {
@@ -227,6 +228,7 @@ def create_recognizer(
             for w in hotwords:
                 # Remove backslashes and angle-bracket tokens
                 clean = w.replace("\\", "").replace("<unk>", "").strip()
                 if clean:  # only write non-empty lines
                     tf.write(f"{clean}\n")
             tf.flush()
@@ -276,4 +278,4 @@ def stream_audio(raw_pcm_bytes, stream, recognizer, orig_sr):
     if recognizer.is_ready(stream):
         recognizer.decode_streams([stream])
     result = recognizer.get_result(stream)
-    return converter.convert(result), rms

 CACHE_DIR = Path(__file__).parent / "hf_cache"
 os.makedirs(CACHE_DIR, exist_ok=True)
+to_ZHTW = OpenCC('s2t')
+to_ZHCN = OpenCC('t2s')
 # Streaming Zipformer model registry: paths relative to repo root
 STREAMING_ZIPFORMER_MODELS = {
             for w in hotwords:
                 # Remove backslashes and angle-bracket tokens
                 clean = w.replace("\\", "").replace("<unk>", "").strip()
+                clean = to_ZHCN.convert(clean) # convert all hotword into zh-cn for zh-cn models
                 if clean:  # only write non-empty lines
                     tf.write(f"{clean}\n")
             tf.flush()
     if recognizer.is_ready(stream):
         recognizer.decode_streams([stream])
     result = recognizer.get_result(stream)
+    return to_ZHTW.convert(result), rms