TIER 016/12
Początkujący
kilka godzin · zero treningu
TIER 020/0
Średnio
trochę kodu i compute · pierwszy trening
TIER 030/0
Zaawansowane
pełne treningi · RL · infra
Początkującykilka godzin · zero treningu12 zadań
05
Benchmark Qwen 27b na benchmarkach Bielika
WZIĘTE
KW
k.wikiel06
LLM as a judge do oceny błędów językowych
W TOKU
KW
kwiscion07
1. Zestaw ~150 promptów (held-out, długie, domeny) + decon
DONE
08
2. Skrypt generacji — modele @own defaults, length-normalized
DONE
09
3. Warstwa A: LanguageTool scoring per-dokument, kategorie
DONE
10
4. Warstwa B: sędzia blind/structured/family-independent (panel ≥3 DEFERRED)
DONE
11
5. Złoto ludzkie ~30–50 + walidacja P/R sędziego + inter-judge agreement
W TOKU
12
6. Agregacja + sekcja bledy-jezykowe-pl w matrix.json
DONE
13
7. Run: Bielik, Qwen3.5-27B base+instruct, Qwen3.6-27B, gemma-4-31B-it + raport
DONE
14
PL-GEN follow-up: panel ≥3 sędziów + inter-judge agreement (IJA)
WOLNE
15
PL-GEN follow-up: pełny bieg 193×3 ziarna + Qwen3.5-27B base
WOLNE
16
PL-GEN follow-up: error-span gold (web UI) + neural GEC — czułość Warstwy A
WOLNE