pomysły do decyzji

Jakim modelem ma być Slayer?

Polski model 11–14B wygrywa tam, gdzie ma moat: polskie dane, których nie ma globalna konkurencja. Ocena moatu jest wstępna — weryfikujemy ją pomiarem na leaderboardzie.

Decyzja (Faza 0): baza = Qwen3.5-9B — silna na większości osi polskich (zob. leaderboard), słabsza na LLMzSzŁ (egzaminy państwowe/zawodowe). Stąd kierunek: specjalizacja prawno-urzędowa na bazie Qwen — celowana w LLMzSzŁ i przepisy. dane pod LLMzSzŁ →

Specjalizacje domenowe

wąska wiedza · wysoki moat
moat wysoki

Prawniczy

Analiza umów, pisma, orzecznictwo, przepisy (KC/KPC/KK).

dane ISAP, SAOS, wzory pism
eval legal QA + reasoning
moat wysoki

Medyczny

Wsparcie kliniczne, PES/LEK, streszczanie dokumentacji.

dane egzaminy PES/LEK, ChPL
eval PES leaderboard
moat wysoki

Finansowo-podatkowy

Interpretacje podatkowe, faktury, JPK, KPiR.

dane interpretacje KIS, ustawy
eval QA + dokładność liczb
moat wysoki

Administracja publiczna

ZUS, US, urzędy, wnioski. Przekład „urzędowego” na ludzki.

dane gov.pl, druki, ePUAP
eval benchmark biurokracji

Zdolności horyzontalne

przekrojowe · moat niższy
moat średni

Agentowy / tool-use

Function calling, planowanie, orkiestracja, RAG po polsku.

eval tool-use + instrukcyjność
moat średni

RAG / enterprise

Odpowiedzi z firmowych dokumentów z cytatem, on-prem.

eval rozumienie tekstu + faithfulness
moat średni

Tłumaczeniowy PL↔

Tłumaczenia wysokiej jakości — oś, gdzie polskie modele są mocne.

eval FLORES-200 (BLEU/chrF)
moat niski

Coding po polsku

Asystent dev z polskim kontekstem, code review, docs.

eval code + EN regresja

Profil ogólny i obsługa

szeroki zasięg
moat średni

Flagowy ogólny PL

Naturalny styl, idiomy, rejestry, wiedza kulturowa.

eval Open PL LLM (agregat)
moat średni

Edukacyjny

Korepetytor pod podstawę programową, matura, ósmoklasista.

eval QA przedmiotowe + reasoning
moat niski

Obsługa klienta

Centrum obsługi: ton, deeskalacja, polityki firmowe.

eval instrukcyjność + ton
moat średni

Guard / moderacja

Mały model-strażnik: moderacja, ryzyka, bezpieczeństwo po polsku.

eval klasyfikacja (P/R)

Jak wybieramy: najlepszy stosunek moatu danych do kosztu w budżecie 15–20k zł. Masz pomysł albo use case? Dołącz / zgłoś →