History

Tobi Lütke 189916d6fb Move GRPO training out of default finetune pipeline		2026-02-22 15:26:23 -05:00
..
grpo.py	Move GRPO training out of default finetune pipeline	2026-02-22 15:26:23 -05:00
grpo.yaml	Move GRPO training out of default finetune pipeline	2026-02-22 15:26:23 -05:00
README.md	Move GRPO training out of default finetune pipeline	2026-02-22 15:26:23 -05:00

README.md

GRPO (Experimental)

This folder contains the experimental GRPO training path for query expansion. It is not part of the default production pipeline.

Files

grpo.yaml – experimental GRPO hyperparameters
grpo.py – standalone GRPO training script

Run

# Recommended default: run from repo root
cd /home/tobi/qmd
uv run finetune/experiments/grpo/grpo.py

# Or use unified entrypoint (deprecated in main pipeline):
uv run train.py grpo --config finetune/experiments/grpo/grpo.yaml

Notes

Current mainline focuses on SFT-only quality and benchmarks.
Keep this workflow isolated unless you are explicitly experimenting with reinforcement-learning refinement.

README.md Unescape Escape

GRPO (Experimental)

Files

Run

Notes

README.md