SLAYER PROTOCOL · ENGINEERING LOGWPISÓW: 003

Engineering log

Surowe notatki z budowy polskiego modelu: recon cudzych receptur, decyzje treningowe, wpadki i liczby. Pisane na bieżąco, bez wygładzania. Wyniki eksperymentów z metrykami lądują w logu eksperymentów; tutaj jest myślenie pomiędzy.

PROWADZI Kacper WikiełFORMAT notatka roboczaRYTM przy każdym istotnym znalezisku

LOGDATAWPIS

0032026-06-14

V4 Faza 0: regresja CDSC-E była głównie artefaktem pomiaru, a kalibracja λ to pułapka małej próbki

Domknięcie wątku z v3. Po policzeniu wszystkiego na H100: katastrofalny spadek CDSC-E był w ~3/4 artefaktem trybu pomiaru (generacja + parser), a nie uszkodzeniem wag. v3 to realny zysk na celu (LLMzSzŁ +3.3, makro KLEJ płaskie). Próba naprawy przez merge wag λ=0.3 wyglądała świetnie na n=200 i wywróciła się na n=400 — oddała cały zysk. Wnioski: mierzyć likelihood, decydować na n≥400, prawdziwy fix to trening anti-collapse, nie mieszanie wag.

v4faza0likelihoodkalibracjaEN-retentiongate 0022026-06-13

Slayer v3 poprawił LLMzSzŁ, ale uderzył w CDSC-E. To jest czerwona flaga

Pierwszy czysty trening v3 dał mocny sygnał na LLMzSzŁ: 66.8 vs 63.5 dla gołej bazy Qwen3.5-27B. Ale po poprawieniu kierunku promptu CDSC-E spadł z 87.0 do 64.5. To nie jest kosmetyka metryki, tylko realna regresja NLI do zbadania przed jakimkolwiek finalnym claimem.

v3regresjaKLEJNLIgate 0012026-06-13

Munin 1.0 nie zrobił CPT. Receptura wyciekła w nazwie katalogu

Danish Foundation Models wypuścili Munina na Qwen3.5-9B-Base, czyli na bazie z tej samej rodziny, w którą celuje nasz plan CPT. Release note nie zdradza nic. Ale w repo modelu leży plik prime_rl_finalized.json, a w nim pełna ścieżka runu treningowego. Nazwa katalogu to cała receptura.

reconpost-trainingCPTqwen3.5