i3-80M - Model de Limbaj cu Arhitectură Hibridă
Descrierea Modelului
Modelul i3-80M este o arhitectură hibridă inovatoare care combină straturi convoluționale/recurente cu straturi de atenție completă pentru modelarea eficientă a limbajului. Această arhitectură îmbină în mod unic time-mixing în stil RWKV cu dinamica spațiului de stare Mamba în straturile timpurii, urmată de atenție multi-cap standard în straturile mai profunde.
Acesta este al doilea model din seria i3, scalat de la originalul i3-22M cu arhitectură îmbunătățită și antrenament pe multiple seturi de date.
Pentru a utiliza modelul, încercați-l aici
Statistici Model
- Parametri Totali: ~82,77M (82.765.160)
- Arhitectură: 10 Straturi Hibride (RWKV-Mamba) + 6 Straturi de Atenție Completă = 16 Straturi Totale
- Dimensiune Vocabular: 35.560 token-uri (fragmente de lungime variabilă cu token )
- Dimensiune Ascunsă (d_model): 512
- Capete de Atenție: 16
- Dimensiune Stare (d_state): 32
- Lungime Maximă Secvență: 256
- Tokenizare: Fragmentare cu lungime variabilă eficientă din punct de vedere al memoriei (2-3 caractere)
Defalcare Arhitectură
Straturile 1-10: Blocuri Hibride RWKV-Mamba (Recurent/Conv)
├─ RWKVMambaHybrid (Time-mixing + Spațiu de stare)
└─ Rețea Feed-Forward (expansiune 4x)
Straturile 11-16: Blocuri de Atenție Completă
├─ Atenție Multi-Cap (16 capete)
└─ Rețea Feed-Forward (expansiune 4x)
Comparație cu i3-22M
| Caracteristică | i3-22M | i3-80M (Acest Model) |
|---|---|---|
| Parametri | 22,6M | 82,77M |
| Arhitectură | 24 Straturi Hibride | 10 Straturi Hibride + 6 Straturi de Atenție |
| Dimensiune Ascunsă | 512 | 512 |
| Dimensiune Vocabular | 4.466 | 35.560 |
| Set de Date Antrenament | Doar TinyChat | TinyStories + TinyChat + Propoziții HQ |
| Token-uri Totale | ~1M conversații | ~3M+ token-uri |
| Pierdere Finală | ~2,0 | ~2,0 |
| Perplexitate Finală | 7,29-9,70 | 7,29-10,0 |
| Timp Antrenament | ~17 ore | ~2-4 ore |
| Straturi de Atenție | Niciuna (Pur Hibrid) | 6 Straturi de Atenție Completă |
Îmbunătățiri Cheie față de i3-22M
- Arhitectură Hibridă: Introduce atenție multi-cap completă în straturile superioare pentru dependențe pe distanțe lungi mai bune
- Vocabular Mai Mare: Vocabular de 8 ori mai mare (35.560 vs 4.466) pentru acoperire mai bună a token-urilor
- Antrenament pe Multiple Seturi de Date: Antrenat pe 3 seturi de date diverse vs un singur set de date
- Generalizare Mai Bună: Expunere la narative (TinyStories), conversații (TinyChat) și text formal (Propoziții HQ)
- Gestionare Îmbunătățită a Token-urilor Necunoscute: Sistem robust de token-uri pentru cuvinte în afara vocabularului
Când să Folosiți Fiecare Model
Folosiți i3-22M dacă aveți nevoie de:
- Dimensiune mai mică a modelului (~22M parametri)
- Focus pur conversațional (specializat TinyChat)
- Amprenta de memorie mai mică
- Inferență mai rapidă
Folosiți i3-80M dacă aveți nevoie de:
- Generare de text cu scop general mai bună
- Raționament bazat pe atenție mai puternic (6 straturi de atenție)
- Acoperire mai mare a vocabularului
- Înțelegere a textului multi-domeniu (povești, chat, text formal)
Caracteristici Cheie
Arhitectură Hibridă: Combină eficiența procesării recurente/convoluționale cu puterea atenției
- Straturile timpurii folosesc hibridul RWKV-Mamba pentru procesarea eficientă a secvențelor
- Straturile ulterioare folosesc atenție multi-cap completă pentru recunoașterea de modele complexe
Antrenament Optimizat pentru Memorie:
- Construirea vocabularului în flux (fără stocare completă a textului)
- Cache vocabular (construiește o dată, reutilizează)
- Numărare eficientă a frecvenței fragmentelor
- Curățare automată a memoriei
Pre-antrenament pe Multiple Seturi de Date: Antrenat pe surse de text diverse pentru înțelegerea robustă a limbajului
- TinyStories: Narațiuni și povestiri
- TinyChat: Dinamici conversaționale
- Propoziții Engleze de Înaltă Calitate: Diversitate lingvistică
Tokenizare Inteligentă: Fragmentare cu lungime variabilă (2-3 caractere) cu optimizare trigrame comune
- Token-uri totale procesate: 3.000.000+
- Gestionează token-urile necunoscute cu grație folosind token-ul
Detalii Antrenament
Configurație Antrenament
- Seturi de Date:
agentlans/high-quality-english-sentencesroneneldan/TinyStoriesstarhopp3r/TinyChat
- Pași de Antrenament: 5.000 iterații
- Dimensiune Lot: 4 (cu suport pentru acumulare gradient)
- Rată de Învățare: 3e-4 (cu încălzire și declin cosinusoidal)
- Optimizator: AdamW cu tăiere gradient (normă maximă: 1,0)
- Hardware: NVIDIA P100 (16GB VRAM)
- Timp de Antrenament: ~2-4 ore
- Framework: PyTorch
Dinamica Antrenamentului
- Utilizare GPU: Stabilă la ~15-20% în timpul antrenamentului
- Memorie GPU:
18% alocată (2,2GB / 12GB) - Consum Energie: ~40W mediu
- Debit: ~100-550 token-uri/sec
Metrici de Performanță
| Metrică | Inițială | Finală |
|---|---|---|
| Pierdere Antrenament | ~10,0 | ~1,7 |
| Perplexitate | ~4000+ | ~6 |
Nu știu de ce înregistrarea începe la pasul 4,6k.
Comparație i3-22m și i3-80m?
Modelul prezintă o convergență puternică cu dinamică stabilă de antrenament și utilizare eficientă a GPU.
Utilizare
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
# Încarcă modelul și tokenizatorul
model = AutoModelForCausalLM.from_pretrained("FlameF0X/i3-80m")
tokenizer = AutoTokenizer.from_pretrained("FlameF0X/i3-80m")
# Generează text
prompt = "salut"
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(
inputs.input_ids,
max_length=100,
temperature=0.8,
top_k=40
)
generated_text = tokenizer.decode(outputs[0])
print(generated_text)
Inovații Tehnice
Recurență Hibridă RWKV-Mamba: Combină time-mixing-ul RWKV cu dinamica spațiului de stare Mamba
- Complexitate liniară pentru secvențe lungi
- Procesare recurentă eficientă
- Modelarea spațiului de stare pentru dependențe temporale
Procesare Ierarhică:
- Straturile inferioare se concentrează pe modele locale (conv/recurent)
- Straturile superioare captează dependențe globale (atenție)
Eficiență Memorie:
- Tokenizare în flux în timpul construirii vocabularului
- Fără stocare completă a setului de date în RAM
- Curățare automată a datelor intermediare
Fișiere Model
pytorch_model.bin: Greutăți modelconfig.json: Configurație modelchunk_vocab_combined.json: Vocabular tokenizator
Urmărire Antrenament
Acest model a fost urmărit folosind Weights & Biases (WandB) cu metrici cuprinzătoare:
- Urmărire în timp real a pierderii și perplexității
- Monitorizare normă gradient
- Vizualizare programare rată de învățare
- Eșantioane de generare înregistrate în tabele
- Checkpoint-uri model ca artefacte
- Monitorizare resurse sistem
Limitări
- Antrenat doar pe text în limba engleză
- Limitat la fereastră de context de 256 token-uri
- Poate necesita reglaj fin pentru sarcini specifice ulterioare
- Stil conversațional influențat de setul de date TinyChat
Serie Model
- i3-22M - Model original cu arhitectură hibridă pură
- i3-80M (Acest model) - Versiune scalată cu straturi de atenție și antrenament pe multiple seturi de date
Citare
@misc{i3-80m,
author = {FlameF0X},
title = {i3-80M: Model de Limbaj cu Arhitectură Hibridă},
year = {2025},
publisher = {HuggingFace},
howpublished = {\url{https://huggingface.co/FlameF0X/i3-80m}}
}

