File size: 1,700 Bytes
b75d000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
---
language:
  - de
  - en
license: mit
library_name: ctranslate2
pipeline_tag: automatic-speech-recognition
tags:
  - whisper-large-v3
  - ctranslate2
  - int8_float16
  - austrian-german
  - speech-to-text
  - localai
  - faster-whisper
model_type: whisper
base_model: openai/whisper-large-v3
quantization: int8_float16
inference: true
datasets:
  - common_voice_15_0
  - mozilla-foundation/common_voice_16_1
  - own/callcenter_at
metrics:
  - wer
---

# Whisper‐large-v3-DE-AT (CT2 INT8 + FP16)

Fein­getuntes Whisper-large-v3-Modell auf österreichisch-deutschen Sprachdaten.  
Diese Variante ist **komplett in [CTranslate2]-Format** vor­liegend und wurde mit  
`--quantization int8_float16` exportiert.  
Dadurch halbiert sich der GPU-VRAM-Bedarf bei praktisch identischer Genauigkeit.

| Eigenschaft            | Wert                                             |
|------------------------|--------------------------------------------------|
| Basismodell            | `openai/whisper-large-v3`                        |
| Quantisierung          | **INT8-Gewichte** + FP16-Aktivierungen           |
| Größe (model.bin)      | ≈ 5.6 GB                                         |
| Empfohlene Hardware    | ≥ 16 GB GPU (VRAM) oder starke CPU mit AVX2/AVX-512 |
| Compute Type YAML      | `compute_type: int8_float16`                     |
| Licence                | MIT (wie Original)                               |

---

## 🛠️ Verwendung

### LocalAI ≥ v3.0

```yaml
# whisper-large-v3-de-at.yaml
name: whisper-large-v3-de-at
backend: fast-whisper
parameters:
  model: whisper-large-v3-de-at-ct2
  language: de
  translate: false
  compute_type: int8_float16
  vad_filter: true