Trening — metody fine-tuningu (SOTA 2026)

Lineage — co działa w 2026, co było modą 2025

SOTA 2026nadal użyteczneniszowe / wypartelegacy

2022

RLHF/PPOLoRA (’21)Self-Instruct

2023

DPOIPOQLoRAEvol-Instruct

2024

ORPOSimPOKTOSelf-RewardingGRPODoRAUnsloth/LigerMagpie

2025

RLVR (R1)distylacja CoTPRMiterative DPOmergekit

2026

GRPO+RLVR = domyślneDPO/ORPO żyjąQLoRA+merging

RLHF/PPO → DPO (’23) → GRPO+RLVR (’25, króluje przy weryfikowalnej nagrodzie).

2026: SFT (QLoRA) → DPO/ORPO → GRPO/RLVR na egzaminach. Nie: RLHF-PPO z modelem nagrody (wyparte); IPO i process-reward modele okazały się niszowe. KTO/SimPO = tańsze alternatywy DPO.

1 · Dane

fundament

kurowany SFTrekom.

Mały, czysty zbiór instrukcji PL > duży i brudny (LIMA).

syntetycznetanie

Magpie, Evol-Instruct, self-instruct → filtruj.

domena prawniczamoat

ISAP, SAOS → pary „kontekst→odpowiedź z cytatem".

dekontaminacjaczystość

n-gram/embedding overlap vs zbiory testowe.

2 · SFT

tanio na 1 GPU

QLoRA / LoRArekom.

4-bit + adaptery → 11–14B na jednym GPU.

DoRA / LoRA+zaawans.

Bliżej full-FT przy podobnym koszcie.

Unsloth / Ligertanie

2–4× szybciej, mniej VRAM.

NEFTune + packingtanie

Darmowy zysk jakości i przepustowości.

3 · Preferencje

offline, bez ciężkiego RLHF

DPOsprawdzone

Pary lepsza/gorsza, stabilne, bez modelu nagrody.

ORPO1 etap

SFT + preferencje naraz, bez modelu ref.

SimPO / KTOtańsze

Ref-free / bez par — łatwiej o dane.

iterative DPOzaawans.

Generuj → oceń (RLAIF) → dotrenuj, w pętli.

4 · RL na weryfikowalnych nagrodach

przełom pod egzaminy

GRPOpod egzaminy

RL bez modelu wartości. Nagroda = poprawna litera.

RLVRpod target

Egzaminy mają klucz → tania, mocna nagroda.

distylacja CoTtanie

Łańcuchy myślenia z mocnego nauczyciela.

5 · Tanie triki budżetowe

model merging0 treningu

mergekit TIES/DARE/SLERP — często darmowy zysk.

tokenizer PLhipoteza

Krótsze sekwencje, tańszy inference.

long-contexttanie

YaRN/RoPE-scaling pod długie pisma.

wybór bazynajtańsze

Start z mocniejszej bazy — stąd leaderboard.

Tokenizer — dlaczego nie rozszerzamy

fertility (tokeny/słowo) · niżej = wydajniej

Zmierzyliśmy fertility na tej samej próbce Wikipedii (PL+EN). Tokenizer Qwena jest ~23% wydajniejszy na polskim niż tokenizer Mistrala — tańszy inference i dłuższy efektywny kontekst (ważne dla długich pism). Przewagę dostajemy za darmo, wyborem bazy. Skrypt: tokenizer_fertility.py.

Tokenizer	vocab	TpW PL ↓	CpT PL ↑	TpW EN	PL/EN
Gemma-2-9B	256k	2.244	3.31	1.340	1.68
Qwen3.5 (9B/27B) nasza baza: 27B	248k	2.357	3.15	1.385	1.70
Llama-3.1-8B	128k	2.743	2.71	1.343	2.04
Mistral-7B tokenizer Mistrala (32k)	32k	3.060	2.43	1.544	1.98

TpW = tokeny/słowo (niżej = wydajniej) · CpT = znaki/token (wyżej = wydajniej) · PL/EN = o ile bardziej token-głodny polski. Próbka: ~200 akapitów Wikipedii PL i EN.

Rekomendowana recepta

sekwencja, nie wszystko naraz

Wybierz bazę

Wg leaderboardu — start z mocniejszej = najtańszy zysk.

QLoRA SFT

Kurowane PL + domenowe, Unsloth/Liger.

ORPO / DPO

Preferencje; ORPO oszczędza etap i VRAM.

GRPO/RLVR na egzaminach

Weryfikowalna nagroda pod target.

Odmowa + RAG-aware

Grounding i „nie wiem" na niezależnych danych.

Merging

mergekit między checkpointami; mierz na held-out.

Czystość: żadnej metody nie kierujemy na dane testowe. Metodologia →

Jak trenować — tanio i czysto