harmonogram · 6–8 tygodni

Plan i zaproszenie do współpracy

Od pomiaru bazowego, przez dane i pierwszy trening, po RL na egzaminach. Wszystko jawne, odtwarzalne, mierzone na held-out. Daty orientacyjne — projekt idzie tak szybko, jak społeczność.

Decyzja (wg leaderboardu): baza = Qwen3.5-9B. W pomiarze Fazy 0 Qwen3.5-9B jest silny na większości osi polskich, słabszy na LLMzSzŁ (egzaminy państwowe/zawodowe) — naszej osi docelowej. Plan: Qwen jako baza + polska specjalizacja celowana w LLMzSzŁ i prawo/administrację. wyniki →

Harmonogram

zakończone · następne · planowane
F0 · czerwiec
zakończona ✓

Pomiar bazowy

Qwen3.5-9B zmierzony na zewnętrznej suicie (multi-seed). Werdykt: baza = Qwen3.5-9B. leaderboard.

F1 · czerwiec
w toku

Społeczność i dane

Repo otwarte, zespół (zapisy), korpusy prawno-urzędowe (datasety), dekontaminacja, held-out.

F2 · lipiec
planowane

Pierwszy trening

QLoRA SFT na Qwen3.5-9B (PL + egzaminy zawodowe) → ORPO/DPO. metody.

F3 · lipiec/sierpień
planowane

RL na egzaminach

GRPO/RLVR z weryfikowalną nagrodą + trening odmowy/grounding.

F4 · sierpień
planowane

Iteracje i raport

Ablacje, merging, pomiar na held-out, publiczny raport. Decyzja: czy o epsilon lepiej.

Cel: otwarty, odtwarzalny polski model 11–14B — super tanio (~15–20k zł) i o epsilon lepszy od punktu odniesienia.

Zaproszenie do współpracy

czego potrzebujemy teraz (F0→F1)
RĘCE

Kontrybutorzy

Ewaluacje, dekontaminacja, loadery, dane. Wejdź na dowolnym poziomie.

DANE

Dane prawno-urzędowe

ISAP, orzeczenia, interpretacje — to nasz moat.

RYNEK

Firmy — zastosowanie

Powiedz, czego potrzebujesz. Zostań pierwszym użytkownikiem.

ZASOBY

Fundatorzy

GPU lub kredyty (RunPod/Vast). Budżet 15–20k zł, każda złotówka jawna.

NAUKA

Naukowcy

Metodyka, ewaluacje, współautorstwo wyników.