V3 podniósł LLMzSzŁ, ale obniżył CDSC-E z 87.0 do 64.5 na poprawionym promptcie. To jest klasyczny przypadek, gdzie pojedynczy benchmark docelowy wygląda lepiej, a model traci kalibrację logiczną. V4 ma zamknąć tę lukę: każdy checkpoint przechodzi bramki rozkładu etykiet, neutral recall i parser error zanim w ogóle mówimy o release.
V3 nie popsuł wszystkich etykiet po równo. Model stał się zbyt stanowczy: zamiast wybierać neutralna , przesuwał neutralne pary w sprzeczność i częściowo w wynikanie . Dlatego średnia KLEJ może wyglądać niewinnie, a konkretna umiejętność logiczna jest realnie naruszona.
Gold miał 147/200 neutralnych par. Base przewidział neutralność 143 razy, v3 tylko 86 razy. Taki drift musi blokować release nawet wtedy, gdy target score rośnie.
Każdy spadek rozbijamy na gold distribution, base pred distribution, candidate pred distribution, confusion matrix i parser error. Bez tej tabeli nie ma diagnozy.
Generacja mierzy też styl i gadatliwość. Dla KLEJ classification dokładamy scoring etykiet logprobami: model wybiera spośród zamkniętej listy labeli.
Najpierw sprawdzamy λ = 0.0, 0.1, 0.2, 0.3, 0.5, 0.7, 1.0. Jeśli mniejsza skala odzyskuje CDSC-E i trzyma target, można wypuścić calibrated adapter.
CDSC-like NLI ma mieć realny prior: 70-80% neutral, 15-25% entailment, 5-10% contradiction, z dużym udziałem hard-neutral. Zero przykładów testowych.
V4 mix: target data, general replay, task-preservation replay (typy zadań na własnych/zdekontaminowanych danych, nie na splitach benchmarków) i NLI calibration. Na preservation set testujemy KL-to-base, żeby adapter nie przesuwał całej polityki decyzji.
Nie wybieramy najlepszego checkpointa po jednym target score. Warunek: target w górę, CDSC-E blisko bazy, neutral pred blisko gold/base, parser error 0.
Wszystkie benchmarki monotonicznie w górę to zbyt ostra reguła. Małe próbki, judge-based evale i prompt-sensitive zadania mają szum, więc decyzja idzie po progach i trendach, nie po pojedynczym zielonym/czerwonym polu.
Jeśli run jest pod LLMzSzŁ, LLMzSzŁ ma iść w górę. Jeśli run jest pod natywność polszczyzny, PolNative ma iść w górę. Bez wyraźnego zysku na celu nie ma sensu akceptować ryzyka regresji.
CDSC-E/NLI, KLEJ critical tasks, parser error, MMLU/ARC/GSM8K i podstawowe EN retention mają tolerancję spadku, ale nie mogą zostać rozwalone. Parser error ma zostać 0.
PolNative judge, EQ-Bench, małe sample i zadania z otwartym sędzią oceniamy przez powtórki, przedziały ufności albo większą próbkę release. Pojedynczy spadek o 1-2 pp nie musi być realny.
Nie wybieramy checkpointa z najlepszym jednym score. Wybieramy taki, który daje zysk na celu i nie przekracza progów regresji. +3 pp LLMzSzŁ przy -22 pp CDSC-E odpada; +10 pp PolNative przy -0.5 pp MMLU może przejść.
Mała próbka KLEJ/CDSC-E + LLMzSzŁ. Łapie awarie promptu, parsera, label drift i oczywisty spadek targetu.
KLEJ generation i likelihood, rozkłady etykiet, confusion matrix, parser error, neutral recall oraz LLMzSzŁ n=400.
Większe próbki, ostrzejsze progi i raport PASS/FAIL. Release nie przechodzi, jeśli pojedyncza umiejętność odpada mimo dobrego target score.
V4 musi przejść PolNative: fleksja, frazeologia, literatura, realia, rejestr, EQ, naturalność i kalibracja. To osobny gate dla claimu “lepsza polszczyzna”, komplementarny do PLCC.
Brak komentarzy.