Mały, czysty zbiór instrukcji PL > duży i brudny (LIMA).
Każdą zdolność budujemy na niezależnych danych i mierzymy na held-out — bez benchmaxxingu.
RLHF/PPO → DPO (’23) → GRPO+RLVR (’25, króluje przy weryfikowalnej nagrodzie).
2026: SFT (QLoRA) → DPO/ORPO → GRPO/RLVR na egzaminach. Nie: RLHF-PPO z modelem nagrody (wyparte); IPO i process-reward modele okazały się niszowe. KTO/SimPO = tańsze alternatywy DPO.
Mały, czysty zbiór instrukcji PL > duży i brudny (LIMA).
Magpie, Evol-Instruct, self-instruct → filtruj.
ISAP, SAOS → pary „kontekst→odpowiedź z cytatem".
n-gram/embedding overlap vs zbiory testowe.
4-bit + adaptery → 11–14B na jednym GPU.
Bliżej full-FT przy podobnym koszcie.
2–4× szybciej, mniej VRAM.
Darmowy zysk jakości i przepustowości.
Pary lepsza/gorsza, stabilne, bez modelu nagrody.
SFT + preferencje naraz, bez modelu ref.
Ref-free / bez par — łatwiej o dane.
Generuj → oceń (RLAIF) → dotrenuj, w pętli.
RL bez modelu wartości. Nagroda = poprawna litera.
Egzaminy mają klucz → tania, mocna nagroda.
Łańcuchy myślenia z mocnego nauczyciela.
mergekit TIES/DARE/SLERP — często darmowy zysk.
Krótsze sekwencje, tańszy inference.
YaRN/RoPE-scaling pod długie pisma.
Start z mocniejszej bazy — stąd leaderboard.
Zmierzyliśmy fertility na tej samej próbce Wikipedii (PL+EN). Tokenizer Qwena jest ~23% wydajniejszy na polskim niż tokenizer Mistrala — tańszy inference i dłuższy efektywny kontekst (ważne dla długich pism). Przewagę dostajemy za darmo, wyborem bazy. Skrypt: tokenizer_fertility.py.
| Tokenizer | vocab | TpW PL ↓ | CpT PL ↑ | TpW EN | PL/EN |
|---|---|---|---|---|---|
| Gemma-2-9B | 256k | 2.244 | 3.31 | 1.340 | 1.68 |
| Qwen3.5 (9B/27B) nasza baza: 27B | 248k | 2.357 | 3.15 | 1.385 | 1.70 |
| Llama-3.1-8B | 128k | 2.743 | 2.71 | 1.343 | 2.04 |
Mistral-7B tokenizer Mistrala (32k) | 32k | 3.060 | 2.43 | 1.544 | 1.98 |
TpW = tokeny/słowo (niżej = wydajniej) · CpT = znaki/token (wyżej = wydajniej) · PL/EN = o ile bardziej token-głodny polski. Próbka: ~200 akapitów Wikipedii PL i EN.
Wg leaderboardu — start z mocniejszej = najtańszy zysk.
Kurowane PL + domenowe, Unsloth/Liger.
Preferencje; ORPO oszczędza etap i VRAM.
Weryfikowalna nagroda pod target.
Grounding i „nie wiem" na niezależnych danych.
mergekit między checkpointami; mierz na held-out.
Czystość: żadnej metody nie kierujemy na dane testowe. Metodologia →