Ten sam harness
Identyczny tryb, few-shot, szablon promptu i seed dla wszystkich modeli.
Publiczne zbiory, deterministycznie, przez lm-eval-harness. „Wyżej = lepiej". Wszystko liczone czysto: bez inspekcji itemów, bez benchmaxxingu. Pełna tablica na żywo: /leaderboard.
| Benchmark | Qwen3.5-9B |
|---|---|
egzaminy państwowe CKE · accuracy MCQ | … |
egzaminy specjalizacyjne · accuracy | … |
grounding / refusal · trafność (sędzia-LLM) | … |
reading comprehension · accuracy MCQ | … |
tłumaczenie PL↔ · chrF | … |
Pełna lista 10 benchmarków (z kontrolą regresji EN): /leaderboard · zamknięte: /closed-benchmarks
Identyczny tryb, few-shot, szablon promptu i seed dla wszystkich modeli.
NLI/MCQ scoringujemy likelihood (log-prob etykiet), binarne i sentyment generacją. Zła metoda daje fałszywą regresję: CDSC-E to −22.5 w generacji, ale tylko −6.0 w likelihood.
Mały n potrafi skłamać (kalibracja, która na n=200 dawała +3, na n=400 = 0). n=100 tylko jako szybki screen, nigdy do release.
Bez inspekcji itemów, zero benchmaxxingu. Dane treningowe ze źródeł rozłącznych od evala — skill-transfer, nie zapamiętywanie pytań.
Każdy shard sprawdzany n-gramowo i atom-overlapem przeciw wszystkim splitom — także train. Train-split jako paliwo = kontaminacja.
Per-zadanie progi (CDSC-E ≤−3pp, parser=0), EN-retencja (ARC/MMLU/GSM8K) pilnuje angielskiego. Release wybiera Pareto-front, nie jeden score.
Best-of per zadanie: dla każdego zadania jedna, właściwa metoda — ta sama dla wszystkich modeli, żeby Δ było porównywalne. Pełna macierz base vs v3 vs v4 × benchmarki (kolor = Δ): /eksperymenty. Projektowanie danych pod brak regresji prowadzi jawny manifest skill → eval_proxy → źródło → waga → regression_guard.