CPT corpus — cel 2B tokenówcollection
QWEN3.5-9B-BASE · HIGH QUALITY DATA

CPT 2B high-quality tokens

program wiedzy →
0.50%
10M
zaakceptowane tokeny
2B
cel smoke CPT
1.99B
brakuje
92 000
dokumenty seed
Polski korpus domenowy10M / 1B

Prawo, administracja, edukacja, gospodarka lokalna, dokumenty publiczne i dlugi ogon polskiej wiedzy.

Ogolny polski wysokiej jakosci0 / 500M

Ksiazki, artykuly, poradniki, Wikipedia/encyklopedie po dedupie, materialy edukacyjne.

Replay europejski/angielski0 / 200M

Retencja ogolnych kompetencji i ograniczenie zapominania.

Kod i dokumentacja0 / 200M

Dokumentacja techniczna, kod, API, narzedzia i teksty strukturalne.

Math/reasoning/fakty weryfikowalne0 / 100M

Material pod pozniejsze RLVR/GRPO i sanity-check reasoning.

50Mpierwszy audyt miksu
250Mmaly CPT signal run
1Bdecyzja o pelnym 2B runie
2BCPT 2B ready

Bramka wejścia: licencja, language ID, boilerplate removal, exact/near dedup, PII policy, contamination check, quality score i split holdout. Stan: 2026-06-13.

droga do 2B — postęp w czasieaktualizacja przy każdym przyjętym pakiecie
0.50%
zebrane10M / 2B
tempo5M/dzień
2B przy tym tempie16 lip 2027
50M · audyt miksu250M · signal run1B · decyzja o pełnym runie2B · CPT ready11 cze13 cze11 cze — 0 tok · start zbiórkistart zbiórki13 cze — 10M tok · seed corpusseed corpus

Skala logarytmiczna (1M → 2B): na starcie każdy pakiet widać, a szczeble 50M / 250M / 1B / 2B pokazują, ile drabiny zostało. Licznik rośnie wyłącznie o dokumenty, które przeszły bramki jakości (dedup, filtr, decon) — surowe pobrania nie są wliczane.

POMIAR — autonomiczna kolejka · simp / RTX 3090

Konsola pomiaru

łączenie…
aktualny benchmark
ETA benchmarku
pyt/s
wynik zbiorczy
0
Qwen3.5-9B · benchmarki zaliczone
0
benchmarków
do końca kolejki
postęp całości — faza A
ukończone
ETA fazy A
przewidywany koniec
wyniki — ukończone benchmarki
pierwsze wyniki po ukończeniu benchmarków…
pipeline — faza A