Surowe notatki z budowy polskiego modelu: recon cudzych receptur, decyzje treningowe, wpadki i liczby. Pisane na bieżąco, bez wygładzania. Wyniki eksperymentów z metrykami lądują w logu eksperymentów; tutaj jest myślenie pomiędzy.
Domknięcie wątku z v3. Po policzeniu wszystkiego na H100: katastrofalny spadek CDSC-E był w ~3/4 artefaktem trybu pomiaru (generacja + parser), a nie uszkodzeniem wag. v3 to realny zysk na celu (LLMzSzŁ +3.3, makro KLEJ płaskie). Próba naprawy przez merge wag λ=0.3 wyglądała świetnie na n=200 i wywróciła się na n=400 — oddała cały zysk. Wnioski: mierzyć likelihood, decydować na n≥400, prawdziwy fix to trening anti-collapse, nie mieszanie wag.
0022026-06-13Pierwszy czysty trening v3 dał mocny sygnał na LLMzSzŁ: 66.8 vs 63.5 dla gołej bazy Qwen3.5-27B. Ale po poprawieniu kierunku promptu CDSC-E spadł z 87.0 do 64.5. To nie jest kosmetyka metryki, tylko realna regresja NLI do zbadania przed jakimkolwiek finalnym claimem.
0012026-06-13Danish Foundation Models wypuścili Munina na Qwen3.5-9B-Base, czyli na bazie z tej samej rodziny, w którą celuje nasz plan CPT. Release note nie zdradza nic. Ale w repo modelu leży plik prime_rl_finalized.json, a w nim pełna ścieżka runu treningowego. Nazwa katalogu to cała receptura.