Odtwarzalność ponad zasięg
Jeśli nie możemy pobrać zbioru i powtórzyć runu, benchmark nie trafia na tablicę.
Tych benchmarków nie mierzymy — ich zbiory testowe nie są publicznie dostępne, więc nie da się ich odtworzyć ani uczciwie zweryfikować. Listujemy je jawnie. Pomiary publiczne: leaderboard.
Dlaczego nie mierzymy: brak publicznego zbioru pytań: zamknięty leaderboard, zestaw testowy held-out. Nie odtworzymy wyniku.
Dlaczego nie mierzymy: istnieje jako przestrzeń-leaderboard, ale bez pobieralnego datasetu. Nie powtórzymy ewaluacji na równych warunkach.
Dlaczego nie mierzymy: publiczne są jedynie przykłady; pełny zestaw 600 pytań trzymany prywatnie (anty-kontaminacja). Bez całości brak rzetelnego wyniku.
Jeśli nie możemy pobrać zbioru i powtórzyć runu, benchmark nie trafia na tablicę.
Porównanie ma sens tylko, gdy oba modele przechodzą identyczny, jawny test.
Gdy któryś zbiór zostanie udostępniony — przenosimy go na leaderboard i mierzymy.
Masz dostęp do tych danych? Jeśli możesz legalnie udostępnić zbiór testowy lub harness, odezwij się