propozycja · linia v3 · czysta z konstrukcji

v3: czysty miks danych

v2 nauczyło nas, jak wygląda skażenie train-splitami; v3 jest czyste z konstrukcji: benchmarki są wyłącznie miarą i blocklistą, każda warstwa przechodzi audyt verbatim, a wszystko, co weszło do treningu, da się wskazać co do rekordu. Claim publiczny: tylko held-out, 5-shot.

1 · Miks SFT

train_v3.jsonl · 2 239 przykładów · seed 42 · stan 2026-06-11

destylacja własna 46%distill verified 17%human PL 15%EN retention 22%

1022

374

344

499

46%1022 ex

Destylacja własna — 10 zdolności

Teacher (deepseek-v4-pro) WYMYŚLA różnorodne przykłady uczące umiejętności stojących za zadaniami PL: sentyment, temat, parafraza, NLI, poprawność QA, rozumienie tekstu, moderacja, nazwy własne, oceny recenzji plus instrukcje ogólne. Naturalne, zmienne sformułowania — nigdy format ani treść benchmarków.

sentiment 111 · topic 120 · paraphrase 98 · nli 104 · qa_correctness 116 · reading 117 · toxicity 125 · ner 25 · rating 106 · general 100

17%374 ex

Distill, frakcja zweryfikowana

Zewnętrzny zbiór destylacji (Apache-2.0). Surowy miał 51% poważnych błędów faktograficznych, więc każdy rekord ocenił niezależny otwarty sędzia; do miksu wchodzą wyłącznie przykłady z czystymi faktami i naturalną polszczyzną (4 091 z 9 769 w puli). Werdykty per rekord opublikowane do audytu.

źródło: distill_external · sędzia: Qwen3.5-122B (open) · pula verified: 4091

15%344 ex

Human PL + styl

Ludzkie polskie instrukcje (Aya, OASST2) plus nasz re-judged zbiór stylu w wersji rozłącznej z holdoutem ewaluacji (wyciek 85 promptów wykryty audytem i usunięty zanim cokolwiek trenowaliśmy).

aya_pl_human 124 · oasst2_pl_human 96 · qwen_raw_teacher_rewrite (styl, holdout-disjoint) 124

22%499 ex

EN retention — anty-zapominanie

Osiem podzbiorów Tulu 3 (odc-by): matematyka, kod, nauka. Pilnuje, żeby tuning polski nie zjadał kompetencji bazowych; czytane razem z gate'ami regresji (MMLU, ARC, GSM8K, HumanEval, Δ ≥ −0.5 pp).

personahub_math 77 · personas-code 74 · math-grade 73 · gsm8k 66 · numinamath 66 · algebra 62 · evol_code 62 · sciriff 19

2 · Warstwa wiedzy (CPT, osobny tor)

szczegóły i hipotezy: /wiedza

entigraph

10M tokenów · 92k doków

Fakty z 6.5k artykułów PL-focus zmultiplikowane w relacje, parafrazy, streszczenia i QA. ~100k faktów.

graf 2-hop

2k doków kompozycyjnych

Graf 274k encji / 2M krawędzi; ścieżki A→B→C dają pomosty i wielohopowe QA (wiedza składana, nie odtwarzana).

ZPE

60k+ akapitów egzaminacyjnych

Rządowe e-materiały (podstawa programowa) w kolejce do multiplikacji: materiał dokładnie pod LLMzSzŁ.

Kolejność treningu (V3_PROPOSAL): wiedza (CPT, high-rank QLoRA) → umiejętności (SFT, miks wyżej) → preferencje (DPO na parach on-policy ocenianych otwartym sędzią; pula par stylu: 1 581). Każdy etap z probe'em wiedzy i gate'ami regresji przed przejściem dalej.

3 · Bramki jakości

co musiał przejść każdy rekord

[1]Zero benchmarków. Twardy bezpiecznik w assemblerze: jakiekolwiek źródło KLEJ-owe w puli przerywa budowę miksu.forbidden-sources guard

[2]Audyt verbatim 8-gram vs wszystkie zbiory testowe i held-outy (328k n-gramów). Złapał m.in. 9% kolizji w syntetycznych MCQ i wyciek 85 promptów stylu.decon_audit.py

[3]Weryfikacja faktów zewnętrznych danych otwartym sędzią, rekord po rekordzie; odpadło 51% zbioru distill.verify_external_sft.py

[4]Filtr stylu: nadużycie myślników wycina rekord (AI-tell); 229 przykładów odpadło z miksu.dash-rate ≤ 1.5/100 słów

[5]Dedup promptów między warstwami + balans per źródło (cap, żaden podzbiór nie dominuje).sha1 + per-source cap

[6]Provenance per rekord: źródło, teacher, sędzia i ścieżka grafu zapisane przy każdym przykładzie; raport miksu publikowany.train_v3_mix_report.json

Status: miks SFT i warstwa wiedzy gotowe; trening v3 jeszcze nie wystartował. Pełne dane, werdykty sędziów i lineage w wewnętrznym repo datasets (dostęp do audytu na życzenie); metodologia i karty benchmarków: /benchmarks.