poza zakresem pomiaru

Benchmarki zamknięte

Tych benchmarków nie mierzymy — ich zbiory testowe nie są publicznie dostępne, więc nie da się ich odtworzyć ani uczciwie zweryfikować. Listujemy je jawnie. Pomiary publiczne: leaderboard.

Trzy benchmarki bez otwartych danych

czego nie da się zmierzyć i czemu

zamknięty

Polish EQ-Bench

Inteligencja emocjonalna.

Dlaczego nie mierzymy: brak publicznego zbioru pytań: zamknięty leaderboard, zestaw testowy held-out. Nie odtworzymy wyniku.

EQ scorePLzbiór: niepubliczny

zamknięty

CPTUB

Pragmatyka, implikatury, podchwytliwe pytania.

Dlaczego nie mierzymy: istnieje jako przestrzeń-leaderboard, ale bez pobieralnego datasetu. Nie powtórzymy ewaluacji na równych warunkach.

accuracyPLleaderboard

zamknięty

PLCC

Kompetencja kulturowo-językowa.

Dlaczego nie mierzymy: publiczne są jedynie przykłady; pełny zestaw 600 pytań trzymany prywatnie (anty-kontaminacja). Bez całości brak rzetelnego wyniku.

accuracyPLleaderboard

Zasada

mierzymy tylko to, co odtwarzalne

Odtwarzalność ponad zasięg

Jeśli nie możemy pobrać zbioru i powtórzyć runu, benchmark nie trafia na tablicę.

Równe warunki

Porównanie ma sens tylko, gdy oba modele przechodzą identyczny, jawny test.

Otwarci na zmianę

Gdy któryś zbiór zostanie udostępniony — przenosimy go na leaderboard i mierzymy.

Masz dostęp do tych danych? Jeśli możesz legalnie udostępnić zbiór testowy lub harness, odezwij się