
πDeep Reinforcement Learning in Action (2020)
βοΈΠΠ²ΡΠΎΡ: Alexander Zai, Brandon Brown
πΠ‘ΡΡΠ°Π½ΠΈΡ: 383
ΠΠ»ΡΠ±ΠΎΠΊΠΎΠ΅ ΠΎΠ±ΡΡΠ΅Π½ΠΈΠ΅ Ρ ΠΏΠΎΠ΄ΠΊΡΠ΅ΠΏΠ»Π΅Π½ΠΈΠ΅ΠΌ Π² Π΄Π΅ΠΉΡΡΠ²ΠΈΠΈ Π½Π°ΡΡΠΈΡ Π²Π°Ρ ΠΏΡΠΎΠ³ΡΠ°ΠΌΠΌΠΈΡΠΎΠ²Π°ΡΡ Π°Π³Π΅Π½ΡΠΎΠ² ΠΈΡΠΊΡΡΡΡΠ²Π΅Π½Π½ΠΎΠ³ΠΎ ΠΈΠ½ΡΠ΅Π»Π»Π΅ΠΊΡΠ°, ΠΊΠΎΡΠΎΡΡΠ΅ Π°Π΄Π°ΠΏΡΠΈΡΡΡΡΡΡ ΠΈ ΡΠΎΠ²Π΅ΡΡΠ΅Π½ΡΡΠ²ΡΡΡΡΡ Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ ΠΏΡΡΠΌΠΎΠΉ ΠΎΠ±ΡΠ°ΡΠ½ΠΎΠΉ ΡΠ²ΡΠ·ΠΈ Ρ ΠΎΠΊΡΡΠΆΠ°ΡΡΠ΅ΠΉ ΡΡΠ΅Π΄ΠΎΠΉ. Π ΡΡΠΎΠΌ ΡΡΠ΅Π±Π½ΠΎΠΌ ΠΏΠΎΡΠΎΠ±ΠΈΠΈ, Π±ΠΎΠ³Π°ΡΠΎΠΌ ΠΏΡΠΈΠΌΠ΅ΡΠ°ΠΌΠΈ, Π²Ρ ΠΎΡΠ²ΠΎΠΈΡΠ΅ Π±Π°Π·ΠΎΠ²ΡΠ΅ ΠΈ ΠΏΡΠΎΠ΄Π²ΠΈΠ½ΡΡΡΠ΅ ΠΌΠ΅ΡΠΎΠ΄Ρ DRL, ΡΠ΅ΡΠ°Ρ ΠΈΠ½ΡΠ΅ΡΠ΅ΡΠ½ΡΠ΅ Π·Π°Π΄Π°ΡΠΈ, ΡΠ°ΠΊΠΈΠ΅ ΠΊΠ°ΠΊ Π½Π°Π²ΠΈΠ³Π°ΡΠΈΡ ΠΏΠΎ Π»Π°Π±ΠΈΡΠΈΠ½ΡΡ ΠΈ Π²ΠΈΠ΄Π΅ΠΎΠΈΠ³ΡΡ. ΠΠΎΠΏΡΡΠ½ΠΎ Π²Ρ Π±ΡΠ΄Π΅ΡΠ΅ ΡΠ°Π±ΠΎΡΠ°ΡΡ Ρ ΠΎΡΠ½ΠΎΠ²Π½ΡΠΌΠΈ Π°Π»Π³ΠΎΡΠΈΡΠΌΠ°ΠΌΠΈ, Π²ΠΊΠ»ΡΡΠ°Ρ Π³Π»ΡΠ±ΠΎΠΊΠΈΠ΅ Q-ΡΠ΅ΡΠΈ ΠΈ Π³ΡΠ°Π΄ΠΈΠ΅Π½ΡΡ ΠΏΠΎΠ»ΠΈΡΠΈΠΊ, Π° ΡΠ°ΠΊΠΆΠ΅ Ρ ΡΠ°ΠΊΠΈΠΌΠΈ ΡΡΠ°Π½Π΄Π°ΡΡΠ½ΡΠΌΠΈ ΠΎΡΡΠ°ΡΠ»Π΅Π²ΡΠΌΠΈ ΠΈΠ½ΡΡΡΡΠΌΠ΅Π½ΡΠ°ΠΌΠΈ, ΠΊΠ°ΠΊ PyTorch ΠΈ OpenAI Gym.
Π‘ΡΡΠ»ΠΊΠ° Π½Π° ΠΊΠ½ΠΈΠ³Ρ
βοΈΠΠ²ΡΠΎΡ: Alexander Zai, Brandon Brown
πΠ‘ΡΡΠ°Π½ΠΈΡ: 383
ΠΠ»ΡΠ±ΠΎΠΊΠΎΠ΅ ΠΎΠ±ΡΡΠ΅Π½ΠΈΠ΅ Ρ ΠΏΠΎΠ΄ΠΊΡΠ΅ΠΏΠ»Π΅Π½ΠΈΠ΅ΠΌ Π² Π΄Π΅ΠΉΡΡΠ²ΠΈΠΈ Π½Π°ΡΡΠΈΡ Π²Π°Ρ ΠΏΡΠΎΠ³ΡΠ°ΠΌΠΌΠΈΡΠΎΠ²Π°ΡΡ Π°Π³Π΅Π½ΡΠΎΠ² ΠΈΡΠΊΡΡΡΡΠ²Π΅Π½Π½ΠΎΠ³ΠΎ ΠΈΠ½ΡΠ΅Π»Π»Π΅ΠΊΡΠ°, ΠΊΠΎΡΠΎΡΡΠ΅ Π°Π΄Π°ΠΏΡΠΈΡΡΡΡΡΡ ΠΈ ΡΠΎΠ²Π΅ΡΡΠ΅Π½ΡΡΠ²ΡΡΡΡΡ Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ ΠΏΡΡΠΌΠΎΠΉ ΠΎΠ±ΡΠ°ΡΠ½ΠΎΠΉ ΡΠ²ΡΠ·ΠΈ Ρ ΠΎΠΊΡΡΠΆΠ°ΡΡΠ΅ΠΉ ΡΡΠ΅Π΄ΠΎΠΉ. Π ΡΡΠΎΠΌ ΡΡΠ΅Π±Π½ΠΎΠΌ ΠΏΠΎΡΠΎΠ±ΠΈΠΈ, Π±ΠΎΠ³Π°ΡΠΎΠΌ ΠΏΡΠΈΠΌΠ΅ΡΠ°ΠΌΠΈ, Π²Ρ ΠΎΡΠ²ΠΎΠΈΡΠ΅ Π±Π°Π·ΠΎΠ²ΡΠ΅ ΠΈ ΠΏΡΠΎΠ΄Π²ΠΈΠ½ΡΡΡΠ΅ ΠΌΠ΅ΡΠΎΠ΄Ρ DRL, ΡΠ΅ΡΠ°Ρ ΠΈΠ½ΡΠ΅ΡΠ΅ΡΠ½ΡΠ΅ Π·Π°Π΄Π°ΡΠΈ, ΡΠ°ΠΊΠΈΠ΅ ΠΊΠ°ΠΊ Π½Π°Π²ΠΈΠ³Π°ΡΠΈΡ ΠΏΠΎ Π»Π°Π±ΠΈΡΠΈΠ½ΡΡ ΠΈ Π²ΠΈΠ΄Π΅ΠΎΠΈΠ³ΡΡ. ΠΠΎΠΏΡΡΠ½ΠΎ Π²Ρ Π±ΡΠ΄Π΅ΡΠ΅ ΡΠ°Π±ΠΎΡΠ°ΡΡ Ρ ΠΎΡΠ½ΠΎΠ²Π½ΡΠΌΠΈ Π°Π»Π³ΠΎΡΠΈΡΠΌΠ°ΠΌΠΈ, Π²ΠΊΠ»ΡΡΠ°Ρ Π³Π»ΡΠ±ΠΎΠΊΠΈΠ΅ Q-ΡΠ΅ΡΠΈ ΠΈ Π³ΡΠ°Π΄ΠΈΠ΅Π½ΡΡ ΠΏΠΎΠ»ΠΈΡΠΈΠΊ, Π° ΡΠ°ΠΊΠΆΠ΅ Ρ ΡΠ°ΠΊΠΈΠΌΠΈ ΡΡΠ°Π½Π΄Π°ΡΡΠ½ΡΠΌΠΈ ΠΎΡΡΠ°ΡΠ»Π΅Π²ΡΠΌΠΈ ΠΈΠ½ΡΡΡΡΠΌΠ΅Π½ΡΠ°ΠΌΠΈ, ΠΊΠ°ΠΊ PyTorch ΠΈ OpenAI Gym.
Π‘ΡΡΠ»ΠΊΠ° Π½Π° ΠΊΠ½ΠΈΠ³Ρ