Model Card for chris365312/whisper-large-v3-de-at
Ein feingetuntes Whisper-large-v3 Modell für österreichisches Deutsch, trainiert mit LoRA auf dem Common Voice v14 Datensatz.
Model Details
Model Description
Dieses Modell ist eine Low-Rank-Adapter (LoRA) Feineinstellung von OpenAIs whisper-large-v3
auf auf Common Voice v14 gefiltert für österreichische Sprecher. Es liefert verbesserte Transkriptionen für Österreich-Dialekt bei minimalem zusätzlichem Ressourcenaufwand.
- Developed by: Chris (GitHub: @chris365312)
- Model type: Encoder-Decoder (Seq2Seq) mit Low-Rank-Adapter (PEFT/LoRA)
- Language(s): Deutsch (de), spezialisiert auf österreichisches Deutsch
- License: MIT
- Finetuned from:
openai/whisper-large-v3
(MIT License) - Training data: Mozilla Common Voice v14 (CC-0 Public Domain), Subset “locale=de” mit
accent="at*"
und positive Votes, 40 000 zufällig ausgewählte Clips, 16 kHz Mono WAV
Uses
Direct Use
Dieses Modell kann direkt zur Spracherkennung (Speech-to-Text) von deutschem Audio mit österreichischem Dialekt verwendet werden. Es ist ideal für:
- Transkription von Interviews, Vorträgen oder Podcasts aus Österreich
- Untertitelsoftware für Video- oder Audio-Inhalte in österreichischem Deutsch
Out-of-Scope Use
- Andere Sprachen oder starke Dialekte außerhalb Österreichs
- Echtzeit-Streaming mit hoher Latenzbegrenzung (< 1 s)
- Sprachsynthese oder Sprachübersetzung
Bias, Risks, and Limitations
- Bias: Getestet auf Common Voice, daher voreingenommen gegenüber dem dort vertretenen Sprecherprofil (z. B. junge, technikaffine Nutzer).
- Risks: Kann bei stark abweichenden Dialekten, Akzentvariationen oder Hintergrundgeräuschen Fehler produzieren.
- Limitations:
- Keine Gewährleistung für medizinische, juristische oder sicherheitskritische Anwendungen.
- Training auf 40 000 Clips → begrenzter Datensatzumfang (≈ 50 h Audio).
Recommendations
- Evaluieren Sie das Modell auf einem eigenen Validation-Set (WER-Messung mit jiwer).
- Pre- und Post-Processing (Rauschunterdrückung, Punctuation-Restoration) kann die finale Transkript-Qualität steigern.
How to Get Started with the Model
from transformers import WhisperProcessor, WhisperForConditionalGeneration
import torchaudio, torch
model_id = "chris365312/whisper-large-v3-de-at"
proc = WhisperProcessor.from_pretrained(model_id)
model = WhisperForConditionalGeneration.from_pretrained(model_id, device_map="auto")
model.generation_config.forced_decoder_ids = None
# Beispiel: WAV-Datei laden und transkribieren
audio, sr = torchaudio.load("mein_audio.wav")
if sr != 16000:
audio = torchaudio.functional.resample(audio, sr, 16000)
features = proc(audio.squeeze(), sampling_rate=16000, return_tensors="pt").input_features.to(model.device)
ids = model.generate(features, language="de", task="transcribe", num_beams=6, temperature=0.0)
text = proc.batch_decode(ids, skip_special_tokens=True)[0]
print(text)
- Downloads last month
- 79
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support