Benchmarki — metodologia

model

Qwen3.5-9B

benchmarki

suita zewnętrzna

—

Piątka startowa

live · wyniki z leaderboard.json

Benchmark	Qwen3.5-9B
LLMzSzŁ egzaminy państwowe CKE · accuracy MCQ	…
PES (medyczny) egzaminy specjalizacyjne · accuracy	…
PoQuAD grounding / refusal · trafność (sędzia-LLM)	…
Belebele (PL) reading comprehension · accuracy MCQ	…
FLORES-200 (PL) tłumaczenie PL↔ · chrF	…

Pełna lista 10 benchmarków (z kontrolą regresji EN): /leaderboard · zamknięte: /closed-benchmarks

Zasady pomiaru

czego nauczył nas V4

RÓWNE WARUNKI

Ten sam harness

Identyczny tryb, few-shot, szablon promptu i seed dla wszystkich modeli.

METODA PER ZADANIE

Likelihood vs generacja

NLI/MCQ scoringujemy likelihood (log-prob etykiet), binarne i sentyment generacją. Zła metoda daje fałszywą regresję: CDSC-E to −22.5 w generacji, ale tylko −6.0 w likelihood.

PRÓBKA

Decyzje na n≥400

Mały n potrafi skłamać (kalibracja, która na n=200 dawała +3, na n=400 = 0). n=100 tylko jako szybki screen, nigdy do release.

CZYSTOŚĆ

Tylko agregaty

Bez inspekcji itemów, zero benchmaxxingu. Dane treningowe ze źródeł rozłącznych od evala — skill-transfer, nie zapamiętywanie pytań.

DEKONTAMINACJA

vs train+dev+test

Każdy shard sprawdzany n-gramowo i atom-overlapem przeciw wszystkim splitom — także train. Train-split jako paliwo = kontaminacja.

REGRESJA

Bramki + Pareto

Per-zadanie progi (CDSC-E ≤−3pp, parser=0), EN-retencja (ARC/MMLU/GSM8K) pilnuje angielskiego. Release wybiera Pareto-front, nie jeden score.

Best-of per zadanie: dla każdego zadania jedna, właściwa metoda — ta sama dla wszystkich modeli, żeby Δ było porównywalne. Pełna macierz base vs v3 vs v4 × benchmarki (kolor = Δ): /eksperymenty. Projektowanie danych pod brak regresji prowadzi jawny manifest skill → eval_proxy → źródło → waga → regression_guard.

Jak mierzymy, żeby wynik znaczył