zbiory danych

Datasety — ewaluacja i trening

Twardy podział: zbiory ewaluacyjne służą TYLKO do pomiaru (held-out, nigdy w treningu), a treningowe są niezależne — bez benchmaxxingu.

Ewaluacja — polski rdzeń

held-out · tylko pomiar
DatasetRolaMetrykaRozmiarStatus
egzaminy państwowe CKE · 154 domeny
główny agregataccuracy MCQ18 821publiczny
egzaminy specjalizacyjne
egzamin zawodowyaccuracy70 010publiczny
SQuAD 2.0, natywnie PL, no-answer
grounding / refusalF1 + sędzia-LLM~52 000CC-BY-4.0
reading comprehension
rozumienieaccuracy MCQ900CC-BY-SA
wiedza kulturowo-regionalna
wiedza PLaccuracy MCQconfig PLpubliczny
tłumaczenie PL↔inne
regresja generacjiBLEU / chrF1 012gated · dostęp

Ewaluacja — kontrola regresji (EN)

czy angielski/rozumowanie nie spadły
DatasetRolaMetrykaLicencja
ten sam task → regres PL↔EN
regresjaaccuracy MCQCC-BY-SA
rozumowanie EN
regresjaaccuracy MCQCC-BY-SA
wiedza EN, 57 dziedzin
regresjaaccuracy MCQMIT
matematyka / rozumowanie EN
regresjaexact matchMIT

Ewaluacja — zamknięte

nie mierzymy — brak otwartych danych
DatasetDomenaDlaczego pominięte
Polish EQ-Benchinteligencja emocjonalnazbiór testowy niepubliczny
CPTUBpragmatyka / implikaturytylko leaderboard, brak datasetu
PLCCkompetencja kulturowapubliczne tylko przykłady

Szczegóły: /closed-benchmarks.

Dane jakościowe do treningu

nie trainsety benchmarków · umiejętności, które benchmarki mierzą przy okazji
Zbiór / źródłoCo poprawiaRozmiarStatus
Polski styl SFT
slayer-data/style/style_pl_sft_full.jsonl
naturalność, instrukcje, odmowy, krótkie pisma, QA z kontekstu1 600gotowe
Polskie preferencje
slayer-data/style/style_pl_pref_full.jsonl
DPO/ORPO: lepsza polszczyzna bez zmiany faktów1 581 pargotowe
V3 SFT mix
distill + human PL + style + EN retention, po decon
bazowy miks instrukcyjny; dobry jako punkt odniesienia, nie jako ślepy przepis2 251użyć ostrożnie
EN retention
slayer-data/v3/en_retention_tulu3.jsonl
utrzymanie ARC/MMLU/GSM8K/Belebele EN przy polskim tuningu733gotowe
Replay mix
slayer-data/replay/replay_mix.jsonl
antyregresja zachowań bazowych228gotowe
Syntetyczne polskie MCQ
slayer-data/mcq/mcq_synth_v3.clean.jsonl
format odpowiedzi, wybór opcji, krótkie rozumowanie364po audycie
Task-preservation (niezależne)
własne/syntetyczne typy zadań po dekontaminacji — nie KLEJ train split
replay typów zadań i kalibracja formatów (NLI, MCQ, klasyfikacja, parser), bez oficjalnych splitów benchmarkudo zbudowania

Dane wiedzy — status ryzyka

CPT/RAG/SFT tylko po filtrze wierności
ZbiórPotencjałRozmiarDecyzja
EntiGraph PL focus
wiki PL / wiedza ogólna
PoQuAD, Belebele, LLMzSzŁ, wiedza szkolna92 084warunkowo: filtr faithfulness
EntiGraph hops
łączenie faktów / wieloskok
rozumowanie na faktach, QA, MCQ1 999do audytu
EntiGraph ZPE
materiały edukacyjne
teoretycznie szkoła i egzaminy91 626kwarantanna
Distill zewnętrzny 10k
odpowiedzi zewnętrznego modelu PL
analiza luk i halucynacji4 091 verifiednie trenować

Braki danych dla V4

to trzeba zbudować, żeby wzrost był realny
BrakPo coEfekt na benchmarkach
Hard-neutral NLI PL
niezależne pary zdań, nie CDSC-E train/test
naprawa nadmiernej pewności v3CDSC-E, KLEJ, refusal/neutral calibration
Zweryfikowane korpusy prawno-urzędowe
ISAP, SAOS, KIS/MF, BHP, instrukcje branżowe
wiedza domenowa bez benchmark leakageLLMzSzŁ, PES, PoQuAD, PolNative-realism
PolNative-dev / PLCC-like / CPTUB-like
własne, rozłączne dev sety
iteracja nad polskością, pragmatyką i kulturąPolNative, PLCC, CPTUB proxy
Prywatny held-out CKE/PES
świeże arkusze poza publicznym benchmarkiem
wykrywanie przeuczenia i benchmark contaminationLLMzSzŁ/PES release gate

Zasada V4: benchmarki są termometrem, nie paliwem. Trenujemy na niezależnych, zweryfikowanych danych jakościowych, które uczą tej samej umiejętności: wierności źródłu, neutralności, polszczyzny, rozumowania MCQ i wiedzy domenowej. Z treningu wykluczone są nie tylko zbiory eval/test — oficjalne train splity benchmarków (np. KLEJ) też są poza treningiem; replay i stabilizacja idą wyłącznie na własnych lub zdekontaminowanych danych, które nie są splitem benchmarku. Każdy większy korpus przechodzi dekontaminację oraz filtr wierności. Masz dobre dane prawno-urzędowe? Dołącz / zgłoś →

Mapa treningu V4

dane → umiejętność → bramka
Warstwa treninguDaneCelGate
Neutralność i NLI
nowy hard-neutral NLI PL + bezpieczny replay typów zadań (własne/decontaminated, nie KLEJ split)model ma częściej mówić “nie wynika”, gdy relacja jest neutralnaCDSC-E: neutral recall, pred distribution, macro-F1
Polska naturalność
style_pl_sft_full + style_pl_pref_full + PolNative-like devodpowiedzi mają brzmieć po polsku, bez kalki i bez utraty faktówPolNative, judge style, factuality judge
Wierność źródłu
QA/summarize z kontekstu, PoQuAD-like własne dane, EntiGraph po filtrzeodpowiedź tylko z podanego źródła, odmowa przy braku podstawyPoQuAD, refusal, hallucination spot-check
Wiedza prawno-urzędowa
ISAP, SAOS, KIS/MF, BHP, instrukcje branżowe po czyszczeniukompetencja w polskich przepisach i egzaminach zawodowychLLMzSzŁ, PES, prywatny held-out
MCQ i format odpowiedzi
własne syntetyczne MCQ ze źródeł + starsze publiczne arkusze poza held-outemwybór poprawnej opcji, stabilna litera, mniej parser errorówLLMzSzŁ, PES, Belebele, ARC/MMLU smoke
EN retention
en_retention_tulu3 + replay bazowypolski tuning nie może niszczyć angielskiego i rozumowaniaARC-C, MMLU, GSM8K, Belebele EN
Replay zachowań bazowych
replay_mix + małe, decontaminated próbki taskówadapter ma być lokalną poprawką, nie zmianą osobowości całego modeluloss drift, KL/replay, regression gate

Dane pod LLMzSzŁ

target: umiejętność, nie trainset benchmarku

LLMzSzŁ mierzy dużo egzaminów zawodowych, przepisów branżowych, BHP i prawa. Sensowny trening to niezależne korpusy z tych domen oraz własne zadania MCQ generowane ze źródeł, nie kopiowanie publicznych pozycji benchmarkowych.

A · Najwyższa dźwignia

on-target
ŹródłoCo budujeStatus
Starsze arkusze CKE/OKE + klucze
matura, ósmoklasista, egzaminy zawodowe/kwalifikacje poza held-outem
format MCQ i umiejętność egzaminacyjnado zebrania
ISAP + BHP / normy
ustawy, rozporządzenia, przepisy branżowe, bezpieczeństwo
rdzeń części zawodowej + specjalizacja prawnado zebrania

B · Wiedza ogólna i program szkolny

ŹródłoCo budujeStatus
wiedza + treści podręcznikowe
szerokość (matura/ósmoklasista)publiczne
Korpusy SpeakLeash · CulturaX-pl / OSCAR-pl
polski pretraining/CPT
nie regresować polskiegopubliczne

C · Format MCQ + rozumowanie

to test wielokrotnego wyboru
SYNTETYCZNE

Polskie MCQ z korpusów

Generowane z Wikipedia/ISAP (Evol/Magpie) z weryfikacją; uczy „odpowiedz literą" i szerokości.

CoT

Distylacja rozumowania PL

Łańcuchy myślenia z mocnego nauczyciela na trudniejsze pozycje.

RLVR

GRPO na polskich MCQ

Nagroda = poprawna litera → optymalizuje dokładnie to, co mierzy LLMzSzŁ, czysto.

Przepis: CPT/RAG na wiernych źródłach (Wikipedia + ISAP/BHP/SAOS/KIS) → SFT na niezależnych zadaniach użytkowych i MCQ → preference/RLVR na formacie odpowiedzi. Pomiar zostaje na publicznych benchmarkach i prywatnym held-oucie, nigdy na danych użytych w treningu. Masz arkusze/przepisy/dane? Zgłoś →