Kontrybutorzy
Ewaluacje, dekontaminacja, loadery, dane. Wejdź na dowolnym poziomie.
Od pomiaru bazowego, przez dane i pierwszy trening, po RL na egzaminach. Wszystko jawne, odtwarzalne, mierzone na held-out. Daty orientacyjne — projekt idzie tak szybko, jak społeczność.
Decyzja (wg leaderboardu): baza = Qwen3.5-9B. W pomiarze Fazy 0 Qwen3.5-9B jest silny na większości osi polskich, słabszy na LLMzSzŁ (egzaminy państwowe/zawodowe) — naszej osi docelowej. Plan: Qwen jako baza + polska specjalizacja celowana w LLMzSzŁ i prawo/administrację. wyniki →
Qwen3.5-9B zmierzony na zewnętrznej suicie (multi-seed). Werdykt: baza = Qwen3.5-9B. leaderboard.
QLoRA SFT na Qwen3.5-9B (PL + egzaminy zawodowe) → ORPO/DPO. metody.
GRPO/RLVR z weryfikowalną nagrodą + trening odmowy/grounding.
Ablacje, merging, pomiar na held-out, publiczny raport. Decyzja: czy o epsilon lepiej.
Cel: otwarty, odtwarzalny polski model 11–14B — super tanio (~15–20k zł) i o epsilon lepszy od punktu odniesienia.
Ewaluacje, dekontaminacja, loadery, dane. Wejdź na dowolnym poziomie.
ISAP, orzeczenia, interpretacje — to nasz moat.
Powiedz, czego potrzebujesz. Zostań pierwszym użytkownikiem.
GPU lub kredyty (RunPod/Vast). Budżet 15–20k zł, każda złotówka jawna.
Metodyka, ewaluacje, współautorstwo wyników.