Wiedza — wstrzykiwanie polskiego długiego ogona (synthetic CPT)

1 · Ile w ogóle jest faktów

Fermi-rachunek, rzędy wielkości

Piramida faktów: od świata do naszego korpusu

fakt = atomowe twierdzenie "X ma własność Y" · skala logarytmiczna

wiedza świata (Wikidata, encyklopedie)	~10⁹
udokumentowane tylko w polskich źródłach Wikipedia PL, SAOS, ISAP, prasa lokalna, BIP, GUS	10⁷–10⁸
jądro pytalne to, o co realnie zapyta egzamin, prawnik, mieszkaniec	1–5M
w kolejce: ZPE (surowe akapity × ~8 faktów)	~400k
zmultiplikowane w naszym korpusie (10M tok)	~100k

74 616 par QA + 46 713 akapitów relacji z 6 506 artykułów · skala log: każdy stopień to ~rząd wielkości

2 · Probe długiego ogona

knowledge_probe_v1 · 71 pytań closed-book · 2026-06-11

Kto zna polski długi ogon? (accuracy, %)

pytania z korpusu EntiGraph · sędzia: otwarty Qwen3.5-122B vs gold ugruntowany w źródle · temp 0

results/knowledge_probe_v1.json · itemy probe = held-out (exclusion list z treningu) · n=71 (potwierdzenie: probe 300–500 + drugi sędzia)

Odczyt: długi ogon leży u obu modeli bazowych (16–18% na polonica). Nasza baza 27B ma najlepszą wiedzę ogólną (transfer z EN/ZH) i najsłabszą lokalną: faktów o eksporcie piwa z Mławy nie ma w żadnym nie-polskim korpusie. Tej luki nie da się przetransferować; można ją tylko wstrzyknąć.

3 · Koszt vs pokrycie jądra

ekonomia wstrzykiwania · ceny 2026-06

Za ile kupuje się pokrycie pytalnego jądra (1–5M faktów)

1 fakt ≈ 10 sformułowań × ~100 tok = ~1k tokenów syntetycznych · generacja (deepseek-flash) + trening (QLoRA 27B, 1 epoka) · oś X logarytmiczna

kształt krzywej = hipoteza H1 (log-liniowość, EntiGraph); pozycje punktów 50M+ to prognoza do zmierzenia, nie wynik · pełne jądro ≈ $2k generacji + $0.7–1.5k treningu, czyli mieści się w tezie „model za 15–20k zł"

4 · Hipotezy badawcze

każda z falsyfikatorem · status na 2026-06-11

Wstrzykiwanie wiedzy skaluje się log-liniowo z tokenami syntetycznymi

Za EntiGraph (Stanford 2024): accuracy closed-book rośnie ~log-liniowo z liczbą syntetycznych tokenów multiplikujących fakty. Pierwszy punkt pomiarowy: CPT na 10M tokenów, probe przed/po.

falsyfikator: delta na probe po 10M ≤ +3 pp → krzywa płaska, ekonomia z sekcji 3 nieaktualna

do testu

Lokalnego ogona nie da się przetransferować między językami

Fakty istniejące tylko w polskich źródłach (lokalna gospodarka, regionalia, administracja) są nieobecne w modelach trenowanych globalnie, niezależnie od ich rozmiaru. Qwen 27B: 15.8% na polonica przy 33.3% na wiedzy ogólnej.

falsyfikator: na probe 300–500 z czystą stratą „fakt lokalny" Qwen 27B osiąga >40% bez CPT

wstępnie potwierdzona

Surowy korpus kupuje ogon fragmentarycznie

Surowy korpus kupuje ogon nieefektywnie: fakt występujący w korpusie raz, w jednym sformułowaniu, zwykle nie zapisuje się w wagach. Multiplikacja sformułowań (×10) powinna być radykalnie tańsza na fakt niż skala surowa.

falsyfikator: nasz CPT na 10M tokenów syntetycznych nie podnosi accuracy na polonica powyżej bazy 27B (≤16%)

wstępnie potwierdzona

Pytalne jądro polskiej wiedzy mieści się w budżecie hobbystycznym

~5M faktów × 1k tokenów = ~5B tokenów syntetycznych ≈ $2k generacji + $0.7–1.5k treningu. Jeśli H1 i H3 się bronią, pełne jądro to rząd $3–4k, czyli wciąż „super tanio + epsilon".

falsyfikator: koszt za punkt procentowy probe rośnie zamiast maleć między 10M a 250M tokenów

do testu

Wstrzykiwanie nie może zjadać kompetencji bazowych

CPT na 5B tokenów to poważna dywergencja od bazy. Warunek brzegowy każdego etapu: gate'y regresji (MMLU, ARC, GSM8K, HumanEval) z Δ ≥ −0.5 pp; przeciwwaga: replay EN 20–30%.

falsyfikator: regresja EN przekracza −0.5 pp przy proporcji replay ≤30% → koszt rośnie o kolejne przebiegi

warunek brzegowy

5 · Metoda i czystość

jak to jest mierzone

probe

Held-out z konstrukcji

Pytania losowane z doków QA korpusu trafiają na exclusion list i nie wchodzą do treningu CPT. Model musi znać fakt z relacji i parafraz, nie z wykutego itemu.

sędzia

Otwarte wagi, gold w źródle

Otwarty Qwen3.5-122B porównuje odpowiedź z goldem ugruntowanym w akapicie źródłowym. Pusta odpowiedź = błędna. W planie: drugi niezależny sędzia (gpt-oss-120b) i raport zgodności.

anty-kontaminacja

Audyt verbatim 8-gram

Każdy wygenerowany dokument przechodzi przez indeks n-gramów wszystkich zbiorów testowych (KLEJ, LLMzSzŁ, PolKnowledge, held-outy). Kopie wypadają; fakty zostają.

Pipeline (stan na 2026-06-11): korpus EntiGraph 10M tokenów / 92k dokumentów z 6.5k artykułów (PL-focus Wikipedia) · ZPE: 50k+ akapitów materiałów egzaminacyjnych w kolejce do multiplikacji · zewnętrzny zbiór destylacji: przyjęte 4 091 z 9 769 po weryfikacji faktów otwartym sędzią (51% surowych odpadło jako konfabulacje). Następny krok: pilot CPT (high-rank QLoRA, 27B) na 10M → probe przed/po → decyzja o skali ze slope'u, nie z wiary.

Ile wiedzy o Polsce da się wstrzyknąć w model?