SOTA 2026 · public roadmap · feedback open

Plan na poprawny polski model SOTA

Nie zaczynamy od hasla "wiekszy dataset". Zaczynamy od pelnej mapy przewag i regresji, potem budujemy dane, trening, RLVR i runtime tylko tam, gdzie jest mierzony deficyt. Ta strona jest publicznym planem do krytyki spolecznosci.

Faza 0: zamkniecie macierzy

1 dzien · ok. $50 inferencji · przed treningiem

Status: baza Qwen3.5-27B jest juz zmierzona na pelnym zestawie (likelihood/generacja, best-of per zadanie), v3 prawie domkniety, v4 w toku. Pelna macierz base vs v3 vs v4 (kolor = delta vs base): /eksperymenty. Faza 0 dalej blokuje trening, ale to juz pomiar, nie wiara — luki sa nazwane liczbami.

CDSC-Ebase 86 · v3/v4 → matryca
ARC-Cbase 84 · EN-retencja
MMLUbase 71 · EN-retencja
GSM8Kbase 20 · prompt do poprawy
Belebele-ENbase 80 · EN-retencja
F0.1
gate

Qwen3.5-27B proxy 5-shot baseline

Odpalamy wlasny proxy harness dla Qwen3.5-27B: zadania publiczne tam, gdzie sa otwarte, oraz prywatne izomorficzne sety tam, gdzie oryginalny test jest zamkniety. Bez adaptera, bez prompt hackow, ze stalym protokolem i artefaktami raw.

  • Kolumny obowiazkowe: CDSC-E, ARC-C, MMLU, GSM8K, Belebele-PL, Belebele-EN, LLMzSzL, PoQuAD, PES.
  • Raport: score, stderr/CI tam gdzie mozliwe, format error, confusion matrix dla classification.
  • Wyjscie: mapa "base wygrywa", "base przegrywa", "brak sygnalu" na naszym proxy.
F0.2
decyzja

Mapa treningu zamiast wiary

Jesli baza juz radzi sobie z rozumowaniem, nie zuzywamy budzetu na generic reasoning. Budzet idzie tylko w polskie deficyty: zadania PL-specyficzne, format, kalibracja, prawo/administracja, grounding.

F0.3
stop/go

Zakaz startu SFT bez baseline report

Trening rusza dopiero po publicznym raporcie F0. Bez tego caly budzet idzie na slepo i latwo powtorzyc V3: poprawic target, rozwalic krytyczna umiejetnosc.

Roadmap po Fazie 0

SOTA jako system, nie pojedynczy fine-tune
F1 · 2 tyg.
no-regression SFT

Celowany SFT na deficytach z macierzy

50k-150k przykladow, 30% replay, preservation set i KL-to-base. Cel: +1-3 pp na wskazanych polskich skillach, zero krytycznych regresji powyzej progu, format compliance powyzej 98%.

F2 · 1 mies.
verifiable corpus

Polski korpus z verifierami

100k-500k zadan math/code/table/legal/admin/QA. Kazdy rekord ma skill, source metadata, decontamination status, verifier, difficulty i replay policy. Synthetic tylko po filtracji verifierem.

F3 · 1-2 mies.
RLVR

GRPO/DAPO-style RL na obiektywnych nagrodach

RLVR tylko tam, gdzie reward jest twardy: exact answer, label, unit test, table execution, evidence span, abstention. Zero RL na "ladne odpowiedzi" bez sprawdzalnej nagrody.

F4 · 2-3 mies.
agentic loop

Polish agentic benchmark i runtime

Browser/forms/docs/spreadsheets/repos z initial state, tools, trajectory, observations i success condition. Runtime ma uzywac retrieval, verifierow i budget forcing, nie tylko jednego greedy strzalu.

Strategia treningu 27B

operator-grade plan · repo artifact

Pelny dokument techniczny jest w repo: TRAINING_STRATEGY_27B_SOTA.md. Cel: Qwen3.5-27B mocny na macierzy PL/core, bez trainowania pod zamkniete benchmarki i bez utraty zdolnosci bazy.

1. Proxy/private matrix firstNajpierw base/Qwen27 na publicznych zadaniach i prywatnych izomorficznych proxy dla zamknietych testow. Zamkniety leaderboard tylko jako finalny external check.
2. Source shards, nie worek danychSpeakLeash/Spichlerz to inventory. ISAP, SAOS, PPC, plwiki, lektury, dialogi i nauka ida jako oddzielne shardy z license, quality, decon i skill tagiem. Dostep: pip install speakleash, dashboard i publiczne wpisy datasetowe.
3. No-regression SFT50k-150k zaakceptowanych rekordow, 30-40% replay, hard-neutral NLI, format control, EN/core retention i KL/replay do bazy.
4. DPO-P jako glowna dzwignia20k-50k par na smoke, potem 100k-300k jesli przechodzi gate. Otwarte sedzie tam, gdzie finalny claim ma byc reprodukowalny.
5. RLVR tylko z verifieremMCQ, NLI, math, code, table QA, citation span, abstention i legal/admin finite-state reward. Zero RL na "ladne odpowiedzi".
6. CPT tylko po dowodzie lukiNie robimy CPT na zapas. CPT dopiero jesli proxy long-tail pokazuje realna luke, w drabinie 10M > 100M > 1B z replay i stop-gate.

Reguly publiczne

co spolecznosc moze podwazac
Benchmarki nie wchodza do treninguLLMzSzL, KLEJ/CDSC-E, PES, PoQuAD, Belebele i inne splity ewaluacyjne sa tylko do decon/eval.
Release wybiera Pareto-frontNie promujemy checkpointa po jednym target score, jesli rozwala NLI, EN retention, parser albo kalibracje.
Zamkniety leaderboard dopiero na koncuNie uzywamy go do treningu, wyboru checkpointow ani publicznego gate'u. Gdy model jest juz mocny na proxy/public eval, wysylamy go do autora jako finalny zewnetrzny check.
Najpierw source-of-truthDane maja miec licencje, lineage, dedup, decontamination, skill tag i replay policy.
Runtime jest czescia wynikuRaportujemy greedy, pass@k/best-of-n z verifierem, latency per correct answer i cost per solved task.
Feedback publicznyKrytyka planu, brakujace benchmarki, slabe gate'y i ryzyka treningowe trafiaja do komentarzy pod spodem.

Polska specjalizacja jako przewaga

na czym budujemy roznice

Przewaga strukturalna: startujemy z Qwen3.5-27B (mocna baza). Wiedze i rozumowanie juz niesie baza, wiec budzet idzie w polska specjalizacje: LLMzSzL Slayer v3 66.8.

1. DPO — dzwignia #1Pelny pipeline preferencji (dedup, generacja, ocena metamodelem, filtr marginesu, DPO-P) — z sedzia OTWARTYM (Qwen3.5/deepseek), nie GPT4o. Tej fazy jeszcze nie zrobilismy.
2. Skala SFT z pokryciemNasze 2k przykladow ruszyly tylko sentyment. Styl = maly kurowany (LIMA), pokrycie + brak regresji = duzy zroznicowany SFT wg manifestu danych.
3. Polski styl jako wyroznikMocna baza + DPO + kuracja (zero kalki, zero naduzycia myslnikow) = szansa na mocny wynik na MT-Bench-PL.
Czego NIE robic terazNie robic CPT na zapas — nasza baza juz niesie wiedze. CPT (EntiGraph) dopiero jesli proxy pokaze realna luke dlugiego ogona PL.
Najpierw wlasciwy pomiarProxy 5-shot (22 zadania) + MT-Bench-PL + EQ-Bench dla base/v3. Bez tego claim jest pusty — i to na NASZYM proxy, nie na zamknietym leaderboardzie.
Proxy jest PRYWATNYZamkniete testy odtwarzamy tylko przez izomorficzny proxy zgodny z publicznym opisem/paperem. Itemy trzymamy wewnatrz organizacji (tylko agregaty publiczne), zeby nie kontaminowac. Publiczna jest metodologia i liczby, nie pytania.
Dane otwarteKorpusy SpeakLeash/Spichlerz sa dostepne przez PyPI package speakleash, dashboard projektu i publiczne wpisy datasetowe, ale public copy nie powinno podawac rozmiaru bez aktualnego zrodla. Mix instrukcyjny/DPO odbudowujemy samodzielnie.