Model Card for chris365312/whisper-large-v3-de-at

Ein feingetuntes Whisper-large-v3 Modell für österreichisches Deutsch, trainiert mit LoRA auf dem Common Voice v14 Datensatz.

Model Details

Model Description

Dieses Modell ist eine Low-Rank-Adapter (LoRA) Feineinstellung von OpenAIs whisper-large-v3 auf auf Common Voice v14 gefiltert für österreichische Sprecher. Es liefert verbesserte Transkriptionen für Österreich-Dialekt bei minimalem zusätzlichem Ressourcen­aufwand.

  • Developed by: Chris (GitHub: @chris365312)
  • Model type: Encoder-Decoder (Seq2Seq) mit Low-Rank-Adapter (PEFT/LoRA)
  • Language(s): Deutsch (de), spezialisiert auf österreichisches Deutsch
  • License: MIT
  • Finetuned from: openai/whisper-large-v3 (MIT License)
  • Training data: Mozilla Common Voice v14 (CC-0 Public Domain), Subset “locale=de” mit accent="at*" und positive Votes, 40 000 zufällig ausgewählte Clips, 16 kHz Mono WAV

Uses

Direct Use

Dieses Modell kann direkt zur Spracherkennung (Speech-to-Text) von deutschem Audio mit österreichischem Dialekt verwendet werden. Es ist ideal für:

  • Transkription von Interviews, Vorträgen oder Podcasts aus Österreich
  • Untertitelsoftware für Video- oder Audio-Inhalte in österreichischem Deutsch

Out-of-Scope Use

  • Andere Sprachen oder starke Dialekte außerhalb Österreichs
  • Echtzeit-Streaming mit hoher Latenzbegrenzung (< 1 s)
  • Sprachsynthese oder Sprachübersetzung

Bias, Risks, and Limitations

  • Bias: Getestet auf Common Voice, daher voreingenommen gegenüber dem dort vertretenen Sprecherprofil (z. B. junge, technikaffine Nutzer).
  • Risks: Kann bei stark abweichenden Dialekten, Akzentvariationen oder Hintergrundgeräuschen Fehler produzieren.
  • Limitations:
    • Keine Gewährleistung für medizinische, juristische oder sicherheitskritische Anwendungen.
    • Training auf 40 000 Clips → begrenzter Datensatzumfang (≈ 50 h Audio).

Recommendations

  • Evaluieren Sie das Modell auf einem eigenen Validation-Set (WER-Messung mit jiwer).
  • Pre- und Post-Processing (Rauschunterdrückung, Punctuation-Restoration) kann die finale Transkript-Qualität steigern.

How to Get Started with the Model

from transformers import WhisperProcessor, WhisperForConditionalGeneration
import torchaudio, torch

model_id = "chris365312/whisper-large-v3-de-at"
proc     = WhisperProcessor.from_pretrained(model_id)
model    = WhisperForConditionalGeneration.from_pretrained(model_id, device_map="auto")
model.generation_config.forced_decoder_ids = None

# Beispiel: WAV-Datei laden und transkribieren
audio, sr = torchaudio.load("mein_audio.wav")
if sr != 16000:
    audio = torchaudio.functional.resample(audio, sr, 16000)

features = proc(audio.squeeze(), sampling_rate=16000, return_tensors="pt").input_features.to(model.device)
ids      = model.generate(features, language="de", task="transcribe", num_beams=6, temperature=0.0)
text     = proc.batch_decode(ids, skip_special_tokens=True)[0]
print(text)
Downloads last month
79
Safetensors
Model size
1.54B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support