Nie zaczynamy od hasla "wiekszy dataset". Zaczynamy od pelnej mapy przewag i regresji, potem budujemy dane, trening, RLVR i runtime tylko tam, gdzie jest mierzony deficyt. Ta strona jest publicznym planem do krytyki spolecznosci.
Status: baza Qwen3.5-27B jest juz zmierzona na pelnym zestawie (likelihood/generacja, best-of per zadanie), v3 prawie domkniety, v4 w toku. Pelna macierz base vs v3 vs v4 (kolor = delta vs base): /eksperymenty. Faza 0 dalej blokuje trening, ale to juz pomiar, nie wiara — luki sa nazwane liczbami.
Odpalamy wlasny proxy harness dla Qwen3.5-27B: zadania publiczne tam, gdzie sa otwarte, oraz prywatne izomorficzne sety tam, gdzie oryginalny test jest zamkniety. Bez adaptera, bez prompt hackow, ze stalym protokolem i artefaktami raw.
Jesli baza juz radzi sobie z rozumowaniem, nie zuzywamy budzetu na generic reasoning. Budzet idzie tylko w polskie deficyty: zadania PL-specyficzne, format, kalibracja, prawo/administracja, grounding.
Trening rusza dopiero po publicznym raporcie F0. Bez tego caly budzet idzie na slepo i latwo powtorzyc V3: poprawic target, rozwalic krytyczna umiejetnosc.
50k-150k przykladow, 30% replay, preservation set i KL-to-base. Cel: +1-3 pp na wskazanych polskich skillach, zero krytycznych regresji powyzej progu, format compliance powyzej 98%.
100k-500k zadan math/code/table/legal/admin/QA. Kazdy rekord ma skill, source metadata, decontamination status, verifier, difficulty i replay policy. Synthetic tylko po filtracji verifierem.
RLVR tylko tam, gdzie reward jest twardy: exact answer, label, unit test, table execution, evidence span, abstention. Zero RL na "ladne odpowiedzi" bez sprawdzalnej nagrody.
Browser/forms/docs/spreadsheets/repos z initial state, tools, trajectory, observations i success condition. Runtime ma uzywac retrieval, verifierow i budget forcing, nie tylko jednego greedy strzalu.
Pelny dokument techniczny jest w repo: TRAINING_STRATEGY_27B_SOTA.md. Cel: Qwen3.5-27B mocny na macierzy PL/core, bez trainowania pod zamkniete benchmarki i bez utraty zdolnosci bazy.
Przewaga strukturalna: startujemy z Qwen3.5-27B (mocna baza). Wiedze i rozumowanie juz niesie baza, wiec budzet idzie w polska specjalizacje: LLMzSzL Slayer v3 66.8.
Brak komentarzy.