Held-out z konstrukcji
Pytania losowane z doków QA korpusu trafiają na exclusion list i nie wchodzą do treningu CPT. Model musi znać fakt z relacji i parafraz, nie z wykutego itemu.
Nasza baza (Qwen3.5-27B) zna 16% naszego długiego ogona polskich faktów. Pytanie za kilka tysięcy dolarów: czy syntetyczna multiplikacja faktów (EntiGraph) wstrzykuje ogon taniej i głębiej niż surowy korpus? Wszystko poniżej jest mierzone, z falsyfikatorami.
| wiedza świata (Wikidata, encyklopedie) | ~10⁹ | |
| udokumentowane tylko w polskich źródłach Wikipedia PL, SAOS, ISAP, prasa lokalna, BIP, GUS | 10⁷–10⁸ | |
| jądro pytalne to, o co realnie zapyta egzamin, prawnik, mieszkaniec | 1–5M | |
| w kolejce: ZPE (surowe akapity × ~8 faktów) | ~400k | |
| zmultiplikowane w naszym korpusie (10M tok) | ~100k |
Odczyt: długi ogon leży u obu modeli bazowych (16–18% na polonica). Nasza baza 27B ma najlepszą wiedzę ogólną (transfer z EN/ZH) i najsłabszą lokalną: faktów o eksporcie piwa z Mławy nie ma w żadnym nie-polskim korpusie. Tej luki nie da się przetransferować; można ją tylko wstrzyknąć.
Za EntiGraph (Stanford 2024): accuracy closed-book rośnie ~log-liniowo z liczbą syntetycznych tokenów multiplikujących fakty. Pierwszy punkt pomiarowy: CPT na 10M tokenów, probe przed/po.
Fakty istniejące tylko w polskich źródłach (lokalna gospodarka, regionalia, administracja) są nieobecne w modelach trenowanych globalnie, niezależnie od ich rozmiaru. Qwen 27B: 15.8% na polonica przy 33.3% na wiedzy ogólnej.
Surowy korpus kupuje ogon nieefektywnie: fakt występujący w korpusie raz, w jednym sformułowaniu, zwykle nie zapisuje się w wagach. Multiplikacja sformułowań (×10) powinna być radykalnie tańsza na fakt niż skala surowa.
~5M faktów × 1k tokenów = ~5B tokenów syntetycznych ≈ $2k generacji + $0.7–1.5k treningu. Jeśli H1 i H3 się bronią, pełne jądro to rząd $3–4k, czyli wciąż „super tanio + epsilon".
CPT na 5B tokenów to poważna dywergencja od bazy. Warunek brzegowy każdego etapu: gate'y regresji (MMLU, ARC, GSM8K, HumanEval) z Δ ≥ −0.5 pp; przeciwwaga: replay EN 20–30%.
Pytania losowane z doków QA korpusu trafiają na exclusion list i nie wchodzą do treningu CPT. Model musi znać fakt z relacji i parafraz, nie z wykutego itemu.
Otwarty Qwen3.5-122B porównuje odpowiedź z goldem ugruntowanym w akapicie źródłowym. Pusta odpowiedź = błędna. W planie: drugi niezależny sędzia (gpt-oss-120b) i raport zgodności.
Każdy wygenerowany dokument przechodzi przez indeks n-gramów wszystkich zbiorów testowych (KLEJ, LLMzSzŁ, PolKnowledge, held-outy). Kopie wypadają; fakty zostają.
Pipeline (stan na 2026-06-11): korpus EntiGraph 10M tokenów / 92k dokumentów z 6.5k artykułów (PL-focus Wikipedia) · ZPE: 50k+ akapitów materiałów egzaminacyjnych w kolejce do multiplikacji · zewnętrzny zbiór destylacji: przyjęte 4 091 z 9 769 po weryfikacji faktów otwartym sędzią (51% surowych odpadło jako konfabulacje). Następny krok: pilot CPT (high-rank QLoRA, 27B) na 10M → probe przed/po → decyzja o skali ze slope'u, nie z wiary.