metodologia · piątka startowa

Jak mierzymy, żeby wynik znaczył

Publiczne zbiory, deterministycznie, przez lm-eval-harness. „Wyżej = lepiej". Wszystko liczone czysto: bez inspekcji itemów, bez benchmaxxingu. Pełna tablica na żywo: /leaderboard.

model
Qwen3.5-9B
·
benchmarki
suita zewnętrzna

Piątka startowa

live · wyniki z leaderboard.json
BenchmarkQwen3.5-9B
egzaminy państwowe CKE · accuracy MCQ
egzaminy specjalizacyjne · accuracy
grounding / refusal · trafność (sędzia-LLM)
reading comprehension · accuracy MCQ
tłumaczenie PL↔ · chrF

Pełna lista 10 benchmarków (z kontrolą regresji EN): /leaderboard · zamknięte: /closed-benchmarks

Zasady pomiaru

czego nauczył nas V4
RÓWNE WARUNKI

Ten sam harness

Identyczny tryb, few-shot, szablon promptu i seed dla wszystkich modeli.

METODA PER ZADANIE

Likelihood vs generacja

NLI/MCQ scoringujemy likelihood (log-prob etykiet), binarne i sentyment generacją. Zła metoda daje fałszywą regresję: CDSC-E to −22.5 w generacji, ale tylko −6.0 w likelihood.

PRÓBKA

Decyzje na n≥400

Mały n potrafi skłamać (kalibracja, która na n=200 dawała +3, na n=400 = 0). n=100 tylko jako szybki screen, nigdy do release.

CZYSTOŚĆ

Tylko agregaty

Bez inspekcji itemów, zero benchmaxxingu. Dane treningowe ze źródeł rozłącznych od evala — skill-transfer, nie zapamiętywanie pytań.

DEKONTAMINACJA

vs train+dev+test

Każdy shard sprawdzany n-gramowo i atom-overlapem przeciw wszystkim splitom — także train. Train-split jako paliwo = kontaminacja.

REGRESJA

Bramki + Pareto

Per-zadanie progi (CDSC-E ≤−3pp, parser=0), EN-retencja (ARC/MMLU/GSM8K) pilnuje angielskiego. Release wybiera Pareto-front, nie jeden score.

Best-of per zadanie: dla każdego zadania jedna, właściwa metoda — ta sama dla wszystkich modeli, żeby Δ było porównywalne. Pełna macierz base vs v3 vs v4 × benchmarki (kolor = Δ): /eksperymenty. Projektowanie danych pod brak regresji prowadzi jawny manifest skill → eval_proxy → źródło → waga → regression_guard.