|
--- |
|
language: |
|
- de |
|
- en |
|
license: mit |
|
library_name: ctranslate2 |
|
pipeline_tag: automatic-speech-recognition |
|
tags: |
|
- whisper-large-v3 |
|
- ctranslate2 |
|
- int8_float16 |
|
- austrian-german |
|
- speech-to-text |
|
- localai |
|
- faster-whisper |
|
model_type: whisper |
|
base_model: openai/whisper-large-v3 |
|
quantization: int8_float16 |
|
inference: true |
|
datasets: |
|
- common_voice_15_0 |
|
- mozilla-foundation/common_voice_16_1 |
|
- own/callcenter_at |
|
metrics: |
|
- wer |
|
--- |
|
|
|
# Whisper‐large-v3-DE-AT (CT2 INT8 + FP16) |
|
|
|
Feingetuntes Whisper-large-v3-Modell auf österreichisch-deutschen Sprachdaten. |
|
Diese Variante ist **komplett in [CTranslate2]-Format** vorliegend und wurde mit |
|
`--quantization int8_float16` exportiert. |
|
Dadurch halbiert sich der GPU-VRAM-Bedarf bei praktisch identischer Genauigkeit. |
|
|
|
| Eigenschaft | Wert | |
|
|------------------------|--------------------------------------------------| |
|
| Basismodell | `openai/whisper-large-v3` | |
|
| Quantisierung | **INT8-Gewichte** + FP16-Aktivierungen | |
|
| Größe (model.bin) | ≈ 5.6 GB | |
|
| Empfohlene Hardware | ≥ 16 GB GPU (VRAM) oder starke CPU mit AVX2/AVX-512 | |
|
| Compute Type YAML | `compute_type: int8_float16` | |
|
| Licence | MIT (wie Original) | |
|
|
|
--- |
|
|
|
## 🛠️ Verwendung |
|
|
|
### LocalAI ≥ v3.0 |
|
|
|
```yaml |
|
# whisper-large-v3-de-at.yaml |
|
name: whisper-large-v3-de-at |
|
backend: fast-whisper |
|
parameters: |
|
model: whisper-large-v3-de-at-ct2 |
|
language: de |
|
translate: false |
|
compute_type: int8_float16 |
|
vad_filter: true |
|
|