Prawo, administracja, edukacja, gospodarka lokalna, dokumenty publiczne i dlugi ogon polskiej wiedzy.
Ksiazki, artykuly, poradniki, Wikipedia/encyklopedie po dedupie, materialy edukacyjne.
Retencja ogolnych kompetencji i ograniczenie zapominania.
Dokumentacja techniczna, kod, API, narzedzia i teksty strukturalne.
Material pod pozniejsze RLVR/GRPO i sanity-check reasoning.
Bramka wejścia: licencja, language ID, boilerplate removal, exact/near dedup, PII policy, contamination check, quality score i split holdout. Stan: 2026-06-13.
Skala logarytmiczna (1M → 2B): na starcie każdy pakiet widać, a szczeble 50M / 250M / 1B / 2B pokazują, ile drabiny zostało. Licznik rośnie wyłącznie o dokumenty, które przeszły bramki jakości (dedup, filtr, decon) — surowe pobrania nie są wliczane.
—