Uczenie ze wzmacnianiem to sposób uczenia modelu, w którym model otrzymuje nagrodę lub karę za swoje działania w dynamicznym środowisku. Celem jest znalezienie najlepszych działań, które maksymalizują nagrodę. To jest podobne do uczenia się w świecie rzeczywistym, gdzie model musi podejmować decyzje w oparciu o wyniki swoich działań.