metody fine-tuningu · SOTA 2026

Jak trenować — tanio i czysto

Każdą zdolność budujemy na niezależnych danych i mierzymy na held-out — bez benchmaxxingu.

Lineage — co działa w 2026, co było modą 2025

SOTA 2026nadal użyteczneniszowe / wypartelegacy
2022
RLHF/PPOLoRA (’21)Self-Instruct
2023
DPOIPOQLoRAEvol-Instruct
2024
ORPOSimPOKTOSelf-RewardingGRPODoRAUnsloth/LigerMagpie
2025
RLVR (R1)distylacja CoTPRMiterative DPOmergekit
2026
GRPO+RLVR = domyślneDPO/ORPO żyjąQLoRA+merging

RLHF/PPO DPO (’23) GRPO+RLVR (’25, króluje przy weryfikowalnej nagrodzie).

2026: SFT (QLoRA) → DPO/ORPO → GRPO/RLVR na egzaminach. Nie: RLHF-PPO z modelem nagrody (wyparte); IPO i process-reward modele okazały się niszowe. KTO/SimPO = tańsze alternatywy DPO.

1 · Dane

fundament
kurowany SFTrekom.

Mały, czysty zbiór instrukcji PL > duży i brudny (LIMA).

syntetycznetanie

Magpie, Evol-Instruct, self-instruct → filtruj.

domena prawniczamoat

ISAP, SAOS → pary „kontekst→odpowiedź z cytatem".

dekontaminacjaczystość

n-gram/embedding overlap vs zbiory testowe.

2 · SFT

tanio na 1 GPU
QLoRA / LoRArekom.

4-bit + adaptery → 11–14B na jednym GPU.

DoRA / LoRA+zaawans.

Bliżej full-FT przy podobnym koszcie.

Unsloth / Ligertanie

2–4× szybciej, mniej VRAM.

NEFTune + packingtanie

Darmowy zysk jakości i przepustowości.

3 · Preferencje

offline, bez ciężkiego RLHF
DPOsprawdzone

Pary lepsza/gorsza, stabilne, bez modelu nagrody.

ORPO1 etap

SFT + preferencje naraz, bez modelu ref.

SimPO / KTOtańsze

Ref-free / bez par — łatwiej o dane.

iterative DPOzaawans.

Generuj → oceń (RLAIF) → dotrenuj, w pętli.

4 · RL na weryfikowalnych nagrodach

przełom pod egzaminy
GRPOpod egzaminy

RL bez modelu wartości. Nagroda = poprawna litera.

RLVRpod target

Egzaminy mają klucz → tania, mocna nagroda.

distylacja CoTtanie

Łańcuchy myślenia z mocnego nauczyciela.

5 · Tanie triki budżetowe

model merging0 treningu

mergekit TIES/DARE/SLERP — często darmowy zysk.

tokenizer PLhipoteza

Krótsze sekwencje, tańszy inference.

long-contexttanie

YaRN/RoPE-scaling pod długie pisma.

wybór bazynajtańsze

Start z mocniejszej bazy — stąd leaderboard.

Tokenizer — dlaczego nie rozszerzamy

fertility (tokeny/słowo) · niżej = wydajniej

Zmierzyliśmy fertility na tej samej próbce Wikipedii (PL+EN). Tokenizer Qwena jest ~23% wydajniejszy na polskim niż tokenizer Mistrala — tańszy inference i dłuższy efektywny kontekst (ważne dla długich pism). Przewagę dostajemy za darmo, wyborem bazy. Skrypt: tokenizer_fertility.py.

TokenizervocabTpW PL ↓CpT PL ↑TpW ENPL/EN
Gemma-2-9B256k2.2443.311.3401.68
Qwen3.5 (9B/27B) nasza baza: 27B248k2.3573.151.3851.70
Llama-3.1-8B128k2.7432.711.3432.04
Mistral-7B
tokenizer Mistrala (32k)
32k3.0602.431.5441.98

TpW = tokeny/słowo (niżej = wydajniej) · CpT = znaki/token (wyżej = wydajniej) · PL/EN = o ile bardziej token-głodny polski. Próbka: ~200 akapitów Wikipedii PL i EN.

Rekomendowana recepta

sekwencja, nie wszystko naraz
01

Wybierz bazę

Wg leaderboardu — start z mocniejszej = najtańszy zysk.

02

QLoRA SFT

Kurowane PL + domenowe, Unsloth/Liger.

03

ORPO / DPO

Preferencje; ORPO oszczędza etap i VRAM.

04

GRPO/RLVR na egzaminach

Weryfikowalna nagroda pod target.

05

Odmowa + RAG-aware

Grounding i „nie wiem" na niezależnych danych.

06

Merging

mergekit między checkpointami; mierz na held-out.

Czystość: żadnej metody nie kierujemy na dane testowe. Metodologia →