Polskie MCQ z korpusów
Generowane z Wikipedia/ISAP (Evol/Magpie) z weryfikacją; uczy „odpowiedz literą" i szerokości.
Twardy podział: zbiory ewaluacyjne służą TYLKO do pomiaru (held-out, nigdy w treningu), a treningowe są niezależne — bez benchmaxxingu.
| Dataset | Rola | Metryka | Rozmiar | Status |
|---|---|---|---|---|
egzaminy państwowe CKE · 154 domeny | główny agregat | accuracy MCQ | 18 821 | publiczny |
egzaminy specjalizacyjne | egzamin zawodowy | accuracy | 70 010 | publiczny |
SQuAD 2.0, natywnie PL, no-answer | grounding / refusal | F1 + sędzia-LLM | ~52 000 | CC-BY-4.0 |
reading comprehension | rozumienie | accuracy MCQ | 900 | CC-BY-SA |
wiedza kulturowo-regionalna | wiedza PL | accuracy MCQ | config PL | publiczny |
tłumaczenie PL↔inne | regresja generacji | BLEU / chrF | 1 012 | gated · dostęp |
| Dataset | Rola | Metryka | Licencja |
|---|---|---|---|
ten sam task → regres PL↔EN | regresja | accuracy MCQ | CC-BY-SA |
rozumowanie EN | regresja | accuracy MCQ | CC-BY-SA |
wiedza EN, 57 dziedzin | regresja | accuracy MCQ | MIT |
matematyka / rozumowanie EN | regresja | exact match | MIT |
| Dataset | Domena | Dlaczego pominięte |
|---|---|---|
| Polish EQ-Bench | inteligencja emocjonalna | zbiór testowy niepubliczny |
| CPTUB | pragmatyka / implikatury | tylko leaderboard, brak datasetu |
| PLCC | kompetencja kulturowa | publiczne tylko przykłady |
Szczegóły: /closed-benchmarks.
| Zbiór / źródło | Co poprawia | Rozmiar | Status |
|---|---|---|---|
Polski styl SFT slayer-data/style/style_pl_sft_full.jsonl | naturalność, instrukcje, odmowy, krótkie pisma, QA z kontekstu | 1 600 | gotowe |
Polskie preferencje slayer-data/style/style_pl_pref_full.jsonl | DPO/ORPO: lepsza polszczyzna bez zmiany faktów | 1 581 par | gotowe |
V3 SFT mix distill + human PL + style + EN retention, po decon | bazowy miks instrukcyjny; dobry jako punkt odniesienia, nie jako ślepy przepis | 2 251 | użyć ostrożnie |
EN retention slayer-data/v3/en_retention_tulu3.jsonl | utrzymanie ARC/MMLU/GSM8K/Belebele EN przy polskim tuningu | 733 | gotowe |
Replay mix slayer-data/replay/replay_mix.jsonl | antyregresja zachowań bazowych | 228 | gotowe |
Syntetyczne polskie MCQ slayer-data/mcq/mcq_synth_v3.clean.jsonl | format odpowiedzi, wybór opcji, krótkie rozumowanie | 364 | po audycie |
Task-preservation (niezależne) własne/syntetyczne typy zadań po dekontaminacji — nie KLEJ train split | replay typów zadań i kalibracja formatów (NLI, MCQ, klasyfikacja, parser), bez oficjalnych splitów benchmarku | — | do zbudowania |
| Zbiór | Potencjał | Rozmiar | Decyzja |
|---|---|---|---|
EntiGraph PL focus wiki PL / wiedza ogólna | PoQuAD, Belebele, LLMzSzŁ, wiedza szkolna | 92 084 | warunkowo: filtr faithfulness |
EntiGraph hops łączenie faktów / wieloskok | rozumowanie na faktach, QA, MCQ | 1 999 | do audytu |
EntiGraph ZPE materiały edukacyjne | teoretycznie szkoła i egzaminy | 91 626 | kwarantanna |
Distill zewnętrzny 10k odpowiedzi zewnętrznego modelu PL | analiza luk i halucynacji | 4 091 verified | nie trenować |
| Brak | Po co | Efekt na benchmarkach |
|---|---|---|
Hard-neutral NLI PL niezależne pary zdań, nie CDSC-E train/test | naprawa nadmiernej pewności v3 | CDSC-E, KLEJ, refusal/neutral calibration |
Zweryfikowane korpusy prawno-urzędowe ISAP, SAOS, KIS/MF, BHP, instrukcje branżowe | wiedza domenowa bez benchmark leakage | LLMzSzŁ, PES, PoQuAD, PolNative-realism |
PolNative-dev / PLCC-like / CPTUB-like własne, rozłączne dev sety | iteracja nad polskością, pragmatyką i kulturą | PolNative, PLCC, CPTUB proxy |
Prywatny held-out CKE/PES świeże arkusze poza publicznym benchmarkiem | wykrywanie przeuczenia i benchmark contamination | LLMzSzŁ/PES release gate |
Zasada V4: benchmarki są termometrem, nie paliwem. Trenujemy na niezależnych, zweryfikowanych danych jakościowych, które uczą tej samej umiejętności: wierności źródłu, neutralności, polszczyzny, rozumowania MCQ i wiedzy domenowej. Z treningu wykluczone są nie tylko zbiory eval/test — oficjalne train splity benchmarków (np. KLEJ) też są poza treningiem; replay i stabilizacja idą wyłącznie na własnych lub zdekontaminowanych danych, które nie są splitem benchmarku. Każdy większy korpus przechodzi dekontaminację oraz filtr wierności. Masz dobre dane prawno-urzędowe? Dołącz / zgłoś →
| Warstwa treningu | Dane | Cel | Gate |
|---|---|---|---|
Neutralność i NLI | nowy hard-neutral NLI PL + bezpieczny replay typów zadań (własne/decontaminated, nie KLEJ split) | model ma częściej mówić “nie wynika”, gdy relacja jest neutralna | CDSC-E: neutral recall, pred distribution, macro-F1 |
Polska naturalność | style_pl_sft_full + style_pl_pref_full + PolNative-like dev | odpowiedzi mają brzmieć po polsku, bez kalki i bez utraty faktów | PolNative, judge style, factuality judge |
Wierność źródłu | QA/summarize z kontekstu, PoQuAD-like własne dane, EntiGraph po filtrze | odpowiedź tylko z podanego źródła, odmowa przy braku podstawy | PoQuAD, refusal, hallucination spot-check |
Wiedza prawno-urzędowa | ISAP, SAOS, KIS/MF, BHP, instrukcje branżowe po czyszczeniu | kompetencja w polskich przepisach i egzaminach zawodowych | LLMzSzŁ, PES, prywatny held-out |
MCQ i format odpowiedzi | własne syntetyczne MCQ ze źródeł + starsze publiczne arkusze poza held-outem | wybór poprawnej opcji, stabilna litera, mniej parser errorów | LLMzSzŁ, PES, Belebele, ARC/MMLU smoke |
EN retention | en_retention_tulu3 + replay bazowy | polski tuning nie może niszczyć angielskiego i rozumowania | ARC-C, MMLU, GSM8K, Belebele EN |
Replay zachowań bazowych | replay_mix + małe, decontaminated próbki tasków | adapter ma być lokalną poprawką, nie zmianą osobowości całego modelu | loss drift, KL/replay, regression gate |
LLMzSzŁ mierzy dużo egzaminów zawodowych, przepisów branżowych, BHP i prawa. Sensowny trening to niezależne korpusy z tych domen oraz własne zadania MCQ generowane ze źródeł, nie kopiowanie publicznych pozycji benchmarkowych.
| Źródło | Co buduje | Status |
|---|---|---|
Starsze arkusze CKE/OKE + klucze matura, ósmoklasista, egzaminy zawodowe/kwalifikacje poza held-outem | format MCQ i umiejętność egzaminacyjna | do zebrania |
ISAP + BHP / normy ustawy, rozporządzenia, przepisy branżowe, bezpieczeństwo | rdzeń części zawodowej + specjalizacja prawna | do zebrania |
| Źródło | Co buduje | Status |
|---|---|---|
wiedza + treści podręcznikowe | szerokość (matura/ósmoklasista) | publiczne |
Korpusy SpeakLeash · CulturaX-pl / OSCAR-pl polski pretraining/CPT | nie regresować polskiego | publiczne |
Generowane z Wikipedia/ISAP (Evol/Magpie) z weryfikacją; uczy „odpowiedz literą" i szerokości.
Łańcuchy myślenia z mocnego nauczyciela na trudniejsze pozycje.
Nagroda = poprawna litera → optymalizuje dokładnie to, co mierzy LLMzSzŁ, czysto.
Przepis: CPT/RAG na wiernych źródłach (Wikipedia + ISAP/BHP/SAOS/KIS) → SFT na niezależnych zadaniach użytkowych i MCQ → preference/RLVR na formacie odpowiedzi. Pomiar zostaje na publicznych benchmarkach i prywatnym held-oucie, nigdy na danych użytych w treningu. Masz arkusze/przepisy/dane? Zgłoś →