Slayer v3 poprawił LLMzSzŁ, ale uderzył w CDSC-E. To jest czerwona flaga

Pierwszy czysty trening v3 dał mocny sygnał na LLMzSzŁ: 66.8 vs 63.5 dla gołej bazy Qwen3.5-27B. Ale po poprawieniu kierunku promptu CDSC-E spadł z 87.0 do 64.5. To nie jest kosmetyka metryki, tylko realna regresja NLI do zbadania przed jakimkolwiek finalnym claimem.

Co zmierzyliśmy

Po treningu v3 na H100 zrobiliśmy dwa typy szybkich bramek:

LLMzSzŁ likelihood n=400 seed 42: base Qwen3.5-27B 63.5, Slayer v3 66.8. Zysk: +3.3 pp.
KLEJ sample n=200/task: makro prawie płaskie, base 77.36, Slayer v3 77.27.
Pierwszy pomiar CDSC-E na starym promptcie pokazał 75.0 → 57.0, ale prompt miał prawdopodobnie odwrócony kierunek wynikania.
Po poprawce kierunku promptu na oficjalny sens b entails a / a wynika z b, czysty rerun pokazał 87.0 → 64.5.

To oznacza około 174/200 poprawnych odpowiedzi przed treningiem i około 129/200 po treningu na tej samej bramce. Skala spadku jest za duża, żeby traktować to jako szum.

Autopsja: rozkład predykcji

Na tej samej próbce n=200 rozkłady wyglądają tak:

gold:
neutralna       147
wynikanie        40
sprzeczność      13

base pred:
neutralna       143
wynikanie        29
sprzeczność      28

v3 pred:
neutralna        86
wynikanie        50
sprzeczność      64

To jest właściwa diagnoza: v3 mocno zaniża neutralność. Problem nie polega na tym, że model nagle nie rozumie etykiet wynikanie i sprzeczność; przeciwnie, rozpoznaje złote sprzeczność bezbłędnie i poprawia wynikanie z 29/40 do 35/40. Regresja idzie prawie cała przez złote neutralna: base trafia 132/147 neutralnych par, a v3 tylko 81/147.

Macierz:

base, gold -> pred
              wynikanie  sprzeczność  neutralna
wynikanie            29            0         11
sprzeczność           0           13          0
neutralna             0           15        132

v3, gold -> pred
              wynikanie  sprzeczność  neutralna
wynikanie            35            0          5
sprzeczność           0           13          0
neutralna            15           51         81

W praktyce: adapter zrobił model bardziej stanowczy. Zamiast mówić neutralna, za często dopowiada relację, szczególnie sprzeczność.

Co to jest CDSC-E

CDSC-E to polskie zadanie NLI/entailment z KLEJ, oparte o pary podpisów obrazów. Model dostaje sentence_A i sentence_B, a wyjściem jest entailment_judgment: entailment, contradiction albo neutral.

Kluczowy detal definicji: dokumentacja opisuje relację jako b entails a / a wynika z b. Innymi słowy: jeśli zachodzi sytuacja opisana przez zdanie B, to uznajemy, że zachodzi też sytuacja opisana przez zdanie A.

W naszych polskich etykietach:

wynikanie — drugie zdanie wynika z pierwszego;
sprzeczność — zdania sobie przeczą;
neutralna — nie ma ani pewnego wynikania, ani sprzeczności.

To jest dokładnie ten rodzaj zdolności, którego potrzebujemy w zastosowaniach prawno-urzędowych: nie dopowiadać faktów, nie mylić sugestii z wynikiem, nie robić z neutralnej pary zdaniowej twardego wniosku.

Błąd w pierwszym promptcie

Pierwszy harness pytał model: Czy B wynika z A?. To była najpewniej odwrotność oficjalnej definicji b entails a / a wynika z b.

Po poprawce prompt pyta: Czy A wynika z B?. Na tej wersji base wzrósł do 87.0, a v3 do 64.5. To znaczy, że poprawny prompt naprawia absolutną interpretację benchmarku, ale nie usuwa regresji po adapterze.

Hipoteza robocza

Najbardziej prawdopodobne wyjaśnienie: v3 nauczył model lepszego stylu / formatu odpowiedzi i trochę mocniej pcha go do stanowczych decyzji, ale przy okazji pogorszył kalibrację NLI. Szczególnie podejrzany jest rozkład etykiet w danych syntetycznych: jeśli trening pokazuje za dużo par typu wynikanie albo sprzeczność, model może przestać wybierać neutralna wtedy, gdy powinien.

To trzeba sprawdzić, nie zgadywać. Sama liczba 64.5 mówi, że jest problem; nie mówi jeszcze, czy winny jest prior etykiet, parser odpowiedzi, prompt, konkretna warstwa danych, czy katastroficzne zapominanie w wąskiej umiejętności.

Co sprawdzić przed kolejnym wydaniem

Rerun CDSC-E na pełnym teście, tym samym seedem i poprawionym promptem.
Odpalić małą ablacją: base, v3, checkpoint-240, checkpoint-246, ewentualnie v3b jeśli dokończony.
Przejrzeć dane treningowe pod kątem fałszywego priora: za mało neutralna, za dużo twardych etykiet.
Jeśli problem potwierdzi się, zrobić v3c z NLI-retention albo usunąć/naprawić warstwę danych, która uczy złego priora.

Decyzja

Nie traktujemy v3 jako finalnego modelu tylko dlatego, że LLMzSzŁ wzrósł. LLMzSzŁ jest ważny, ale CDSC-E jest ważną regresją logiczną. Dla Slayera bramka musi być Pareto: styl i LLMzSzŁ w górę, bez rozwalenia NLI/EN/long-context.

Najkrótszy opis stanu: v3 jest ciekawym checkpointem badawczym, nie zamkniętym release'em.

Artefakty

Adapter: ssh slayer:~/slayer-out/qwen-v3-dora
Najlepszy checkpoint według eval loss: checkpoint-240
LLMzSzŁ: ssh slayer:~/slayer-train/eval_v3/llmzszl_likelihood_Qwen__Qwen3.5-27B_n400_s42_answer_none.json
KLEJ full-gate, stary prompt: ssh slayer:~/slayer-train/eval_v3/klej_v3.json
CDSC-E fixed prompt, base: ssh slayer:~/slayer-train/eval_cdsc_fixed/klej_base_cdsc_e_fixed.json
CDSC-E fixed prompt, v3: ssh slayer:~/slayer-train/eval_cdsc_fixed/klej_v3_cdsc_e_fixed_clean.json
CDSC-E confusion matrix: ssh slayer:~/slayer-train/eval_cdsc_fixed/cdsc_confusion_n200_s42.json

KONIEC WPISU · LOG 002 · SLAYER PROTOCOL

— Kacper Wikieł

SLAYER LAB · 2026-06-13