10M tokenów · 92k doków
Fakty z 6.5k artykułów PL-focus zmultiplikowane w relacje, parafrazy, streszczenia i QA. ~100k faktów.
v2 nauczyło nas, jak wygląda skażenie train-splitami; v3 jest czyste z konstrukcji: benchmarki są wyłącznie miarą i blocklistą, każda warstwa przechodzi audyt verbatim, a wszystko, co weszło do treningu, da się wskazać co do rekordu. Claim publiczny: tylko held-out, 5-shot.
Teacher (deepseek-v4-pro) WYMYŚLA różnorodne przykłady uczące umiejętności stojących za zadaniami PL: sentyment, temat, parafraza, NLI, poprawność QA, rozumienie tekstu, moderacja, nazwy własne, oceny recenzji plus instrukcje ogólne. Naturalne, zmienne sformułowania — nigdy format ani treść benchmarków.
Zewnętrzny zbiór destylacji (Apache-2.0). Surowy miał 51% poważnych błędów faktograficznych, więc każdy rekord ocenił niezależny otwarty sędzia; do miksu wchodzą wyłącznie przykłady z czystymi faktami i naturalną polszczyzną (4 091 z 9 769 w puli). Werdykty per rekord opublikowane do audytu.
Ludzkie polskie instrukcje (Aya, OASST2) plus nasz re-judged zbiór stylu w wersji rozłącznej z holdoutem ewaluacji (wyciek 85 promptów wykryty audytem i usunięty zanim cokolwiek trenowaliśmy).
Osiem podzbiorów Tulu 3 (odc-by): matematyka, kod, nauka. Pilnuje, żeby tuning polski nie zjadał kompetencji bazowych; czytane razem z gate'ami regresji (MMLU, ARC, GSM8K, HumanEval, Δ ≥ −0.5 pp).
Fakty z 6.5k artykułów PL-focus zmultiplikowane w relacje, parafrazy, streszczenia i QA. ~100k faktów.
Graf 274k encji / 2M krawędzi; ścieżki A→B→C dają pomosty i wielohopowe QA (wiedza składana, nie odtwarzana).
Rządowe e-materiały (podstawa programowa) w kolejce do multiplikacji: materiał dokładnie pod LLMzSzŁ.
Kolejność treningu (V3_PROPOSAL): wiedza (CPT, high-rank QLoRA) → umiejętności (SFT, miks wyżej) → preferencje (DPO na parach on-policy ocenianych otwartym sędzią; pula par stylu: 1 581). Każdy etap z probe'em wiedzy i gate'ami regresji przed przejściem dalej.
Status: miks SFT i warstwa wiedzy gotowe; trening v3 jeszcze nie wystartował. Pełne dane, werdykty sędziów i lineage w wewnętrznym repo datasets (dostęp do audytu na życzenie); metodologia i karty benchmarków: /benchmarks.