Datasety — ewaluacja i trening

Ewaluacja — polski rdzeń

held-out · tylko pomiar

Dataset	Rola	Metryka	Rozmiar	Status
LLMzSzŁ egzaminy państwowe CKE · 154 domeny	główny agregat	accuracy MCQ	18 821	publiczny
PES egzaminy specjalizacyjne	egzamin zawodowy	accuracy	70 010	publiczny
PoQuAD SQuAD 2.0, natywnie PL, no-answer	grounding / refusal	F1 + sędzia-LLM	~52 000	CC-BY-4.0
Belebele (PL) reading comprehension	rozumienie	accuracy MCQ	900	CC-BY-SA
INCLUDE-44 (PL) wiedza kulturowo-regionalna	wiedza PL	accuracy MCQ	config PL	publiczny
FLORES-200 (PL) tłumaczenie PL↔inne	regresja generacji	BLEU / chrF	1 012	gated · dostęp

Ewaluacja — kontrola regresji (EN)

czy angielski/rozumowanie nie spadły

Dataset	Rola	Metryka	Licencja
Belebele (EN) ten sam task → regres PL↔EN	regresja	accuracy MCQ	CC-BY-SA
ARC-Challenge rozumowanie EN	regresja	accuracy MCQ	CC-BY-SA
MMLU wiedza EN, 57 dziedzin	regresja	accuracy MCQ	MIT
GSM8K matematyka / rozumowanie EN	regresja	exact match	MIT

Ewaluacja — zamknięte

nie mierzymy — brak otwartych danych

Dataset	Domena	Dlaczego pominięte
Polish EQ-Bench	inteligencja emocjonalna	zbiór testowy niepubliczny
CPTUB	pragmatyka / implikatury	tylko leaderboard, brak datasetu
PLCC	kompetencja kulturowa	publiczne tylko przykłady

Szczegóły: /closed-benchmarks.

Dane jakościowe do treningu

nie trainsety benchmarków · umiejętności, które benchmarki mierzą przy okazji

Zbiór / źródło	Co poprawia	Rozmiar	Status
Polski styl SFT slayer-data/style/style_pl_sft_full.jsonl	naturalność, instrukcje, odmowy, krótkie pisma, QA z kontekstu	1 600	gotowe
Polskie preferencje slayer-data/style/style_pl_pref_full.jsonl	DPO/ORPO: lepsza polszczyzna bez zmiany faktów	1 581 par	gotowe
V3 SFT mix distill + human PL + style + EN retention, po decon	bazowy miks instrukcyjny; dobry jako punkt odniesienia, nie jako ślepy przepis	2 251	użyć ostrożnie
EN retention slayer-data/v3/en_retention_tulu3.jsonl	utrzymanie ARC/MMLU/GSM8K/Belebele EN przy polskim tuningu	733	gotowe
Replay mix slayer-data/replay/replay_mix.jsonl	antyregresja zachowań bazowych	228	gotowe
Syntetyczne polskie MCQ slayer-data/mcq/mcq_synth_v3.clean.jsonl	format odpowiedzi, wybór opcji, krótkie rozumowanie	364	po audycie
Task-preservation (niezależne) własne/syntetyczne typy zadań po dekontaminacji — nie KLEJ train split	replay typów zadań i kalibracja formatów (NLI, MCQ, klasyfikacja, parser), bez oficjalnych splitów benchmarku	—	do zbudowania

Dane wiedzy — status ryzyka

CPT/RAG/SFT tylko po filtrze wierności

Zbiór	Potencjał	Rozmiar	Decyzja
EntiGraph PL focus wiki PL / wiedza ogólna	PoQuAD, Belebele, LLMzSzŁ, wiedza szkolna	92 084	warunkowo: filtr faithfulness
EntiGraph hops łączenie faktów / wieloskok	rozumowanie na faktach, QA, MCQ	1 999	do audytu
EntiGraph ZPE materiały edukacyjne	teoretycznie szkoła i egzaminy	91 626	kwarantanna
Distill zewnętrzny 10k odpowiedzi zewnętrznego modelu PL	analiza luk i halucynacji	4 091 verified	nie trenować

Braki danych dla V4

to trzeba zbudować, żeby wzrost był realny

Brak	Po co	Efekt na benchmarkach
Hard-neutral NLI PL niezależne pary zdań, nie CDSC-E train/test	naprawa nadmiernej pewności v3	CDSC-E, KLEJ, refusal/neutral calibration
Zweryfikowane korpusy prawno-urzędowe ISAP, SAOS, KIS/MF, BHP, instrukcje branżowe	wiedza domenowa bez benchmark leakage	LLMzSzŁ, PES, PoQuAD, PolNative-realism
PolNative-dev / PLCC-like / CPTUB-like własne, rozłączne dev sety	iteracja nad polskością, pragmatyką i kulturą	PolNative, PLCC, CPTUB proxy
Prywatny held-out CKE/PES świeże arkusze poza publicznym benchmarkiem	wykrywanie przeuczenia i benchmark contamination	LLMzSzŁ/PES release gate

Zasada V4: benchmarki są termometrem, nie paliwem. Trenujemy na niezależnych, zweryfikowanych danych jakościowych, które uczą tej samej umiejętności: wierności źródłu, neutralności, polszczyzny, rozumowania MCQ i wiedzy domenowej. Z treningu wykluczone są nie tylko zbiory eval/test — oficjalne train splity benchmarków (np. KLEJ) też są poza treningiem; replay i stabilizacja idą wyłącznie na własnych lub zdekontaminowanych danych, które nie są splitem benchmarku. Każdy większy korpus przechodzi dekontaminację oraz filtr wierności. Masz dobre dane prawno-urzędowe? Dołącz / zgłoś →

Mapa treningu V4

dane → umiejętność → bramka

Warstwa treningu	Dane	Cel	Gate
Neutralność i NLI	nowy hard-neutral NLI PL + bezpieczny replay typów zadań (własne/decontaminated, nie KLEJ split)	model ma częściej mówić “nie wynika”, gdy relacja jest neutralna	CDSC-E: neutral recall, pred distribution, macro-F1
Polska naturalność	style_pl_sft_full + style_pl_pref_full + PolNative-like dev	odpowiedzi mają brzmieć po polsku, bez kalki i bez utraty faktów	PolNative, judge style, factuality judge
Wierność źródłu	QA/summarize z kontekstu, PoQuAD-like własne dane, EntiGraph po filtrze	odpowiedź tylko z podanego źródła, odmowa przy braku podstawy	PoQuAD, refusal, hallucination spot-check
Wiedza prawno-urzędowa	ISAP, SAOS, KIS/MF, BHP, instrukcje branżowe po czyszczeniu	kompetencja w polskich przepisach i egzaminach zawodowych	LLMzSzŁ, PES, prywatny held-out
MCQ i format odpowiedzi	własne syntetyczne MCQ ze źródeł + starsze publiczne arkusze poza held-outem	wybór poprawnej opcji, stabilna litera, mniej parser errorów	LLMzSzŁ, PES, Belebele, ARC/MMLU smoke
EN retention	en_retention_tulu3 + replay bazowy	polski tuning nie może niszczyć angielskiego i rozumowania	ARC-C, MMLU, GSM8K, Belebele EN
Replay zachowań bazowych	replay_mix + małe, decontaminated próbki tasków	adapter ma być lokalną poprawką, nie zmianą osobowości całego modelu	loss drift, KL/replay, regression gate

Dane pod LLMzSzŁ

target: umiejętność, nie trainset benchmarku

LLMzSzŁ mierzy dużo egzaminów zawodowych, przepisów branżowych, BHP i prawa. Sensowny trening to niezależne korpusy z tych domen oraz własne zadania MCQ generowane ze źródeł, nie kopiowanie publicznych pozycji benchmarkowych.

A · Najwyższa dźwignia

on-target

Źródło	Co buduje	Status
Starsze arkusze CKE/OKE + klucze matura, ósmoklasista, egzaminy zawodowe/kwalifikacje poza held-outem	format MCQ i umiejętność egzaminacyjna	do zebrania
ISAP + BHP / normy ustawy, rozporządzenia, przepisy branżowe, bezpieczeństwo	rdzeń części zawodowej + specjalizacja prawna	do zebrania

B · Wiedza ogólna i program szkolny

Źródło	Co buduje	Status
Wikipedia / Wikibooks / Wikisource PL wiedza + treści podręcznikowe	szerokość (matura/ósmoklasista)	publiczne
Korpusy SpeakLeash · CulturaX-pl / OSCAR-pl polski pretraining/CPT	nie regresować polskiego	publiczne

C · Format MCQ + rozumowanie

to test wielokrotnego wyboru

SYNTETYCZNE

Polskie MCQ z korpusów

Generowane z Wikipedia/ISAP (Evol/Magpie) z weryfikacją; uczy „odpowiedz literą" i szerokości.

CoT

Distylacja rozumowania PL

Łańcuchy myślenia z mocnego nauczyciela na trudniejsze pozycje.

RLVR

GRPO na polskich MCQ

Nagroda = poprawna litera → optymalizuje dokładnie to, co mierzy LLMzSzŁ, czysto.

Przepis: CPT/RAG na wiernych źródłach (Wikipedia + ISAP/BHP/SAOS/KIS) → SFT na niezależnych zadaniach użytkowych i MCQ → preference/RLVR na formacie odpowiedzi. Pomiar zostaje na publicznych benchmarkach i prywatnym held-oucie, nigdy na danych użytych w treningu. Masz arkusze/przepisy/dane? Zgłoś →