Sprawdzić drogę do przebicia Bielika
Open PL LLM Leaderboard oraz kluczowe polskie benchmarki: PLCC, EQ-Bench, med, prawo i zadania instrukcyjne.
Start: czerwiec 2026
Community challenge: sprawdźmy, czy da się zbudować polski model 11-14B konkurencyjny wobec Bielik-11B-v3 na polskich benchmarkach przy budżecie rzędu 15-20 tys. zł compute.
Low-cost. Open-source. Razem.
Dlaczego teraz
Bielik pokazał, że polski model może być realnym punktem odniesienia. Teraz chcemy publicznie sprawdzić, które niskokosztowe ścieżki faktycznie mają sens: dobór bazy, dane, tokenizer, dostrajanie, ewaluacje, automatyczny research i szybkie iteracje społeczności.
Cel badawczy: sprawdzić, czy któraś ścieżka może dać wynik powyżej Bielika na Open PL LLM Leaderboard oraz testach w domenach PLCC, EQ-Bench, medycznej i prawnej.
Wyzwanie
Nie zakładamy z góry jednej techniki ani jednej recepty. Chodzi o publiczną listę hipotez, szybkie odrzucanie ślepych uliczek i uczciwe raportowanie kosztu oraz wyników.
Open PL LLM Leaderboard oraz kluczowe polskie benchmarki: PLCC, EQ-Bench, med, prawo i zadania instrukcyjne.
Budżet traktujemy jako twarde ograniczenie researchu, więc każda hipoteza musi mieć sens kosztowy.
Od startu do pierwszych wiarygodnych eksperymentów, z publicznym logiem decyzji, metryk i zmian.
Agenda researchowa
Porównujemy kilka otwartych baz 11-14B i sprawdzamy, gdzie polski wynik można poprawić najtaniej.
Testujemy różne miksy danych, filtry jakości, domeny i źródła błędów bez deklarowania z góry jednej skali.
Sprawdzamy, czy polski słownik i dodatkowe tokeny realnie obniżają koszt pracy na języku, bo to nie jest darmowy ruch.
Porównujemy instrukcje, preferencje, zadania domenowe i iteracje na błędach z benchmarków.
Skrypty, konfiguracje, kosztorys, evale i decyzje projektowe trafiają do publicznego repo niezależnie od wyniku.
Dołącz
Potrzebujemy ludzi od danych, evali, infrastruktury, automatycznego researchu, pisania testów i finansowania compute. Projekt jest otwarty: każdy wkład ma być widoczny i możliwy do sprawdzenia.