3wolne
3w toku
0review
6done
TIER 016/12
Początkujący
kilka godzin · zero treningu
TIER 020/0
Średnio
trochę kodu i compute · pierwszy trening
TIER 030/0
Zaawansowane
pełne treningi · RL · infra
Początkującykilka godzin · zero treningu12 zadań
05
Benchmark Qwen 27b na benchmarkach Bielika
· · SLA-5
WZIĘTE
KW
k.wikiel
06
LLM as a judge do oceny błędów językowych
· · SLA-6
W TOKU
KW
kwiscion
07
1. Zestaw ~150 promptów (held-out, długie, domeny) + decon
· · SLA-7
DONE
08
2. Skrypt generacji — modele @own defaults, length-normalized
· · SLA-8
DONE
09
3. Warstwa A: LanguageTool scoring per-dokument, kategorie
· · SLA-9
DONE
10
4. Warstwa B: sędzia blind/structured/family-independent (panel ≥3 DEFERRED)
· · SLA-10
DONE
11
5. Złoto ludzkie ~30–50 + walidacja P/R sędziego + inter-judge agreement
· · SLA-11
W TOKU
12
6. Agregacja + sekcja bledy-jezykowe-pl w matrix.json
· · SLA-12
DONE
13
7. Run: Bielik, Qwen3.5-27B base+instruct, Qwen3.6-27B, gemma-4-31B-it + raport
· · SLA-13
DONE
14
PL-GEN follow-up: panel ≥3 sędziów + inter-judge agreement (IJA)
· · SLA-14
WOLNE
15
PL-GEN follow-up: pełny bieg 193×3 ziarna + Qwen3.5-27B base
· · SLA-15
WOLNE
16
PL-GEN follow-up: error-span gold (web UI) + neural GEC — czułość Warstwy A
· · SLA-16
WOLNE