Start: czerwiec 2026

Bielik Slayer Challenge

Community challenge: sprawdźmy, czy da się zbudować polski model 11-14B konkurencyjny wobec Bielik-11B-v3 na polskich benchmarkach przy budżecie rzędu 15-20 tys. zł compute.

Low-cost. Open-source. Razem.

11-14B parametrów budżet testowy 15-20 tys. zł 6-8 tygodni researchu

Dlaczego teraz

Bielik-11B-v3 jest świetny. Sprawdźmy, gdzie jest margines.

Bielik pokazał, że polski model może być realnym punktem odniesienia. Teraz chcemy publicznie sprawdzić, które niskokosztowe ścieżki faktycznie mają sens: dobór bazy, dane, tokenizer, dostrajanie, ewaluacje, automatyczny research i szybkie iteracje społeczności.

open pl llm leaderboard
Bielik-11B-v3baseline
Ścieżka Slayerhipoteza
Koszt eksperymentów< 20k zł

Cel badawczy: sprawdzić, czy któraś ścieżka może dać wynik powyżej Bielika na Open PL LLM Leaderboard oraz testach w domenach PLCC, EQ-Bench, medycznej i prawnej.

Wyzwanie

Trzy warunki sensownego testu.

Nie zakładamy z góry jednej techniki ani jednej recepty. Chodzi o publiczną listę hipotez, szybkie odrzucanie ślepych uliczek i uczciwe raportowanie kosztu oraz wyników.

Cel

Sprawdzić drogę do przebicia Bielika

Open PL LLM Leaderboard oraz kluczowe polskie benchmarki: PLCC, EQ-Bench, med, prawo i zadania instrukcyjne.

Budżet

Maks. 15-20 tys. zł

Budżet traktujemy jako twarde ograniczenie researchu, więc każda hipoteza musi mieć sens kosztowy.

Tempo

6-8 tygodni

Od startu do pierwszych wiarygodnych eksperymentów, z publicznym logiem decyzji, metryk i zmian.

5 obszarów do zbadania w trybie autoresearch: hipoteza, tani eksperyment, wynik, decyzja.

Agenda researchowa

Co sprawdzamy.

  1. Kandydaci bazowi

    Porównujemy kilka otwartych baz 11-14B i sprawdzamy, gdzie polski wynik można poprawić najtaniej.

  2. Ścieżki danych

    Testujemy różne miksy danych, filtry jakości, domeny i źródła błędów bez deklarowania z góry jednej skali.

  3. Tokenizer jako kosztowna hipoteza

    Sprawdzamy, czy polski słownik i dodatkowe tokeny realnie obniżają koszt pracy na języku, bo to nie jest darmowy ruch.

  4. Dostrajanie i preferencje

    Porównujemy instrukcje, preferencje, zadania domenowe i iteracje na błędach z benchmarków.

  5. Odtwarzalność i raporty

    Skrypty, konfiguracje, kosztorys, evale i decyzje projektowe trafiają do publicznego repo niezależnie od wyniku.

Dołącz

Chcesz sprawdzić, czy da się podejść Bielika taniej?

Potrzebujemy ludzi od danych, evali, infrastruktury, automatycznego researchu, pisania testów i finansowania compute. Projekt jest otwarty: każdy wkład ma być widoczny i możliwy do sprawdzenia.