Munin 1.0 nie zrobił CPT. Receptura wyciekła w nazwie katalogu
Danish Foundation Models wypuścili Munina na Qwen3.5-9B-Base, czyli na bazie z tej samej rodziny, w którą celuje nasz plan CPT. Release note nie zdradza nic. Ale w repo modelu leży plik prime_rl_finalized.json, a w nim pełna ścieżka runu treningowego. Nazwa katalogu to cała receptura.
Co znaleźliśmy
W repo danish-foundation-models/munin-qwen3.5-9B na HF leży plik prime_rl_finalized.json z polem source_step_dir:
qwen3_5-9b-base-official-apertus-wildchat-ifbench-when2call-agentic-code-danish-v1
-4n-prime-cp1-ac-fla-bs64-mbs1-lr1e4-warmup50-steps1521Rozbiór tej nazwy mówi więcej niż release note:
- Munin 1.0 to NIE jest CPT. Katalog
post/outputs, framework prime-rl, 1521 kroków przy batchu 64 to około 97k przykładów, rzędu 0.3-0.8B tokenów. Czysty, krótki post-training (SFT) na Qwen3.5-9B-Base. CPT na korpusie DynaWord robili tylko w paperze, na modelach 1B. - Chat template zbudowali sami na bazie (w repo:
tokenizer_build_manifest.json,chat_template.jinja, EOS<|im_end|>). Nie wzięli instructa Qwena. - Mix SFT wprost z nazwy runu: apertus (otwarte dane instrukcyjne Swiss AI) + wildchat + ifbench (instruction following) + when2call (tool calling) + agentic-code + danish-v1 (ich warstwa narodowa).
- Hiperparametry: 4 nody (LUMI), bs 64, mbs 1, LR 1e-4, warmup 50, 1521 kroków.
- Smaczek operacyjny:
dropped_extra_tensors: 333, czyli wycinanie wieży multimodalnej z Qwen3.5. Ta sama klasa zabaw co nasze łatanie GGUF (blk.64 / nextn).
Ile za to zapłacili
Wyniki vs goła baza (EuroEval, z ich pełnego raportu):
- duński: NLI +11.8, knowledge +1.7, reading comprehension +1.1
- duński w dół: word-in-context −4.5, instruction following −3.7, common sense −2.4
- angielski: MMLU-Pro −19.8 (80.6 → 60.9), RULER 32k −12.6, GSM8K −2.6
Zysk narodowy jest realny, ale replay (apertus + wildchat + code) nie uratował trudnych zdolności ogólnych. Przy LR 1e-4 na pełnym SFT wygląda to na przepalenie.
Co z tego bierzemy dla Slayera
- Walidacja sekwencji SFT-first. Narodowy projekt z superkomputerem pod ręką też zaczął od post-trainingu na mocnej bazie, nie od drogiego CPT. Nasza kolejność v3 (styl SFT teraz, CPT wiedzy jako następna faza) dostała zewnętrzne potwierdzenie.
- LR ma znaczenie. Ich 1e-4 kosztowało 20 punktów MMLU-Pro. Nasz QLoRA z niższym efektywnym LR jest z natury łagodniejszy, ale bramka en-regression zostaje obowiązkowa przy każdym runie.
- Brakuje nam checku long-context. RULER 32k −12.6 to kategoria regresji, której w ogóle nie mierzymy. Do dodania przy v3.
- Lista mixów retention do podejrzenia: apertus-SFT, wildchat, ifbench, when2call, agentic-code. Tool calling w mixie narodowego modelu to też sygnał, czego oczekuje rynek.
Źródła
munin-qwen3.5-9B · release note · pełne wyniki · prime-rl · Dynaword paper
KONIEC WPISU · LOG 001 · SLAYER PROTOCOL
— Kacper Wikieł
SLAYER LAB · 2026-06-13