Slayer v3 poprawił LLMzSzŁ, ale uderzył w CDSC-E. To jest czerwona flaga
Pierwszy czysty trening v3 dał mocny sygnał na LLMzSzŁ: 66.8 vs 63.5 dla gołej bazy Qwen3.5-27B. Ale po poprawieniu kierunku promptu CDSC-E spadł z 87.0 do 64.5. To nie jest kosmetyka metryki, tylko realna regresja NLI do zbadania przed jakimkolwiek finalnym claimem.
Co zmierzyliśmy
Po treningu v3 na H100 zrobiliśmy dwa typy szybkich bramek:
- LLMzSzŁ likelihood n=400 seed 42: base Qwen3.5-27B 63.5, Slayer v3 66.8. Zysk: +3.3 pp.
- KLEJ sample n=200/task: makro prawie płaskie, base 77.36, Slayer v3 77.27.
- Pierwszy pomiar CDSC-E na starym promptcie pokazał 75.0 → 57.0, ale prompt miał prawdopodobnie odwrócony kierunek wynikania.
- Po poprawce kierunku promptu na oficjalny sens b entails a / a wynika z b, czysty rerun pokazał 87.0 → 64.5.
To oznacza około 174/200 poprawnych odpowiedzi przed treningiem i około 129/200 po treningu na tej samej bramce. Skala spadku jest za duża, żeby traktować to jako szum.
Autopsja: rozkład predykcji
Na tej samej próbce n=200 rozkłady wyglądają tak:
gold:
neutralna 147
wynikanie 40
sprzeczność 13
base pred:
neutralna 143
wynikanie 29
sprzeczność 28
v3 pred:
neutralna 86
wynikanie 50
sprzeczność 64To jest właściwa diagnoza: v3 mocno zaniża neutralność. Problem nie polega na tym, że model nagle nie rozumie etykiet wynikanie i sprzeczność; przeciwnie, rozpoznaje złote sprzeczność bezbłędnie i poprawia wynikanie z 29/40 do 35/40. Regresja idzie prawie cała przez złote neutralna: base trafia 132/147 neutralnych par, a v3 tylko 81/147.
Macierz:
base, gold -> pred
wynikanie sprzeczność neutralna
wynikanie 29 0 11
sprzeczność 0 13 0
neutralna 0 15 132
v3, gold -> pred
wynikanie sprzeczność neutralna
wynikanie 35 0 5
sprzeczność 0 13 0
neutralna 15 51 81W praktyce: adapter zrobił model bardziej stanowczy. Zamiast mówić neutralna, za często dopowiada relację, szczególnie sprzeczność.
Co to jest CDSC-E
CDSC-E to polskie zadanie NLI/entailment z KLEJ, oparte o pary podpisów obrazów. Model dostaje sentence_A i sentence_B, a wyjściem jest entailment_judgment: entailment, contradiction albo neutral.
Kluczowy detal definicji: dokumentacja opisuje relację jako b entails a / a wynika z b. Innymi słowy: jeśli zachodzi sytuacja opisana przez zdanie B, to uznajemy, że zachodzi też sytuacja opisana przez zdanie A.
W naszych polskich etykietach:
wynikanie— drugie zdanie wynika z pierwszego;sprzeczność— zdania sobie przeczą;neutralna— nie ma ani pewnego wynikania, ani sprzeczności.
To jest dokładnie ten rodzaj zdolności, którego potrzebujemy w zastosowaniach prawno-urzędowych: nie dopowiadać faktów, nie mylić sugestii z wynikiem, nie robić z neutralnej pary zdaniowej twardego wniosku.
Błąd w pierwszym promptcie
Pierwszy harness pytał model: Czy B wynika z A?. To była najpewniej odwrotność oficjalnej definicji b entails a / a wynika z b.
Po poprawce prompt pyta: Czy A wynika z B?. Na tej wersji base wzrósł do 87.0, a v3 do 64.5. To znaczy, że poprawny prompt naprawia absolutną interpretację benchmarku, ale nie usuwa regresji po adapterze.
Hipoteza robocza
Najbardziej prawdopodobne wyjaśnienie: v3 nauczył model lepszego stylu / formatu odpowiedzi i trochę mocniej pcha go do stanowczych decyzji, ale przy okazji pogorszył kalibrację NLI. Szczególnie podejrzany jest rozkład etykiet w danych syntetycznych: jeśli trening pokazuje za dużo par typu wynikanie albo sprzeczność, model może przestać wybierać neutralna wtedy, gdy powinien.
To trzeba sprawdzić, nie zgadywać. Sama liczba 64.5 mówi, że jest problem; nie mówi jeszcze, czy winny jest prior etykiet, parser odpowiedzi, prompt, konkretna warstwa danych, czy katastroficzne zapominanie w wąskiej umiejętności.
Co sprawdzić przed kolejnym wydaniem
- Rerun CDSC-E na pełnym teście, tym samym seedem i poprawionym promptem.
- Odpalić małą ablacją: base, v3, checkpoint-240, checkpoint-246, ewentualnie v3b jeśli dokończony.
- Przejrzeć dane treningowe pod kątem fałszywego priora: za mało
neutralna, za dużo twardych etykiet. - Jeśli problem potwierdzi się, zrobić v3c z NLI-retention albo usunąć/naprawić warstwę danych, która uczy złego priora.
Decyzja
Nie traktujemy v3 jako finalnego modelu tylko dlatego, że LLMzSzŁ wzrósł. LLMzSzŁ jest ważny, ale CDSC-E jest ważną regresją logiczną. Dla Slayera bramka musi być Pareto: styl i LLMzSzŁ w górę, bez rozwalenia NLI/EN/long-context.
Najkrótszy opis stanu: v3 jest ciekawym checkpointem badawczym, nie zamkniętym release'em.
Artefakty
- Adapter:
ssh slayer:~/slayer-out/qwen-v3-dora - Najlepszy checkpoint według eval loss:
checkpoint-240 - LLMzSzŁ:
ssh slayer:~/slayer-train/eval_v3/llmzszl_likelihood_Qwen__Qwen3.5-27B_n400_s42_answer_none.json - KLEJ full-gate, stary prompt:
ssh slayer:~/slayer-train/eval_v3/klej_v3.json - CDSC-E fixed prompt, base:
ssh slayer:~/slayer-train/eval_cdsc_fixed/klej_base_cdsc_e_fixed.json - CDSC-E fixed prompt, v3:
ssh slayer:~/slayer-train/eval_cdsc_fixed/klej_v3_cdsc_e_fixed_clean.json - CDSC-E confusion matrix:
ssh slayer:~/slayer-train/eval_cdsc_fixed/cdsc_confusion_n200_s42.json