RLVR

technique

Reinforcement Learning with Verifiable Rewards - a training method where AI models learn by generating answers and receiving rewards based on verifiable correctness.