πŸ€– Как Π±Ρ‹ Π²Ρ‹ объяснили ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ с ΠΏΠΎΠ΄ΠΊΡ€Π΅ΠΏΠ»Π΅Π½ΠΈΠ΅ΠΌ (reinforcement learning)?



Π­Ρ‚ΠΎΡ‚ ΠΌΠ΅Ρ‚ΠΎΠ΄ ΠΌΠΎΠ΄Π΅Π»ΠΈΡ€ΡƒΠ΅Ρ‚ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠΌ ΠΏΡ€ΠΎΠ± ΠΈ ошибок. ВмСсто ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅ΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ взаимодСйствуСт с Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ срСдой (environment), Π° Π² Ρ€ΠΎΠ»ΠΈ Β«Ρ€Π°Π·ΠΌΠ΅Ρ‚ΠΊΠΈΒ» Π²Ρ‹ΡΡ‚ΡƒΠΏΠ°ΡŽΡ‚ Π½Π°Π³Ρ€Π°Π΄Π° (reward) ΠΈΠ»ΠΈ ΡˆΡ‚Ρ€Π°Ρ„ (penalty). Π­Ρ‚ΠΎ Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ скалярныС Π²Π΅Π»ΠΈΡ‡ΠΈΠ½Ρ‹, которая Π²Ρ‹Π΄Π°ΡŽΡ‚ΡΡ послС ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ шага взаимодСйствия со срСдой. Они ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‚, насколько Ρ…ΠΎΡ€ΠΎΡˆΠΎ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ справляСтся с Π·Π°Π΄Π°Ρ‡Π΅ΠΉ. По Ρ‚Ρ€Π°Π΄ΠΈΡ†ΠΈΠΈ, ΡΡƒΠ±ΡŠΠ΅ΠΊΡ‚, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ взаимодСйствуСт со срСдой, называСтся Π² reinforcement learning Π°Π³Π΅Π½Ρ‚ΠΎΠΌ (agent).



ЦСль обучСния с ΠΏΠΎΠ΄ΠΊΡ€Π΅ΠΏΠ»Π΅Π½ΠΈΠ΅ΠΌ β€” Π½Π°ΠΉΡ‚ΠΈ ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½ΡƒΡŽ ΡΡ‚Ρ€Π°Ρ‚Π΅Π³ΠΈΡŽ, которая максимизируСт совокупноС Π²ΠΎΠ·Π½Π°Π³Ρ€Π°ΠΆΠ΄Π΅Π½ΠΈΠ΅, ΠΏΠΎΠ»ΡƒΡ‡Π°Π΅ΠΌΠΎΠ΅ Π°Π³Π΅Π½Ρ‚ΠΎΠΌ с Ρ‚Π΅Ρ‡Π΅Π½ΠΈΠ΅ΠΌ Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ.