Zadania — od początkującego do zaawansowanego

3wolne

3w toku

0review

6done

TIER 016/12

Początkujący

kilka godzin · zero treningu

TIER 020/0

Średnio

trochę kodu i compute · pierwszy trening

TIER 030/0

Zaawansowane

pełne treningi · RL · infra

Początkującykilka godzin · zero treningu12 zadań

Benchmark Qwen 27b na benchmarkach Bielika

· —· SLA-5

WZIĘTE

k.wikiel

LLM as a judge do oceny błędów językowych

· —· SLA-6

W TOKU

kwiscion

1. Zestaw ~150 promptów (held-out, długie, domeny) + decon

· —· SLA-7

DONE

2. Skrypt generacji — modele @own defaults, length-normalized

· —· SLA-8

DONE

3. Warstwa A: LanguageTool scoring per-dokument, kategorie

· —· SLA-9

DONE

4. Warstwa B: sędzia blind/structured/family-independent (panel ≥3 DEFERRED)

· —· SLA-10

DONE

5. Złoto ludzkie ~30–50 + walidacja P/R sędziego + inter-judge agreement

· —· SLA-11

W TOKU

6. Agregacja + sekcja bledy-jezykowe-pl w matrix.json

· —· SLA-12

DONE

7. Run: Bielik, Qwen3.5-27B base+instruct, Qwen3.6-27B, gemma-4-31B-it + raport

· —· SLA-13

DONE

PL-GEN follow-up: panel ≥3 sędziów + inter-judge agreement (IJA)

· —· SLA-14

WOLNE

PL-GEN follow-up: pełny bieg 193×3 ziarna + Qwen3.5-27B base

· —· SLA-15

WOLNE

PL-GEN follow-up: error-span gold (web UI) + neural GEC — czułość Warstwy A

· —· SLA-16

WOLNE