
資料內(nèi)容:
4.5 深度強(qiáng)化學(xué)習(xí)(DRL)
強(qiáng)化學(xué)習(xí) (Reinforcement learning,RL)強(qiáng)調(diào)如何基于環(huán)境而行動(dòng),以取得最大化的預(yù)期利益。結(jié)合了深
度學(xué)習(xí)技術(shù)后的強(qiáng)化學(xué)習(xí)更是如虎添翼。這兩年廣為人知的 AlphaGo 即是深度強(qiáng)化學(xué)習(xí)的典型應(yīng)用。深度
強(qiáng)化學(xué)習(xí)的基礎(chǔ)知識(shí)可參考:
• Demystifying Deep Reinforcement Learning (中文編譯)
• [Mnih2013]
這里,我們使用深度強(qiáng)化學(xué)習(xí)玩 CartPole(平衡桿)游戲。簡(jiǎn)單說(shuō),我們需要讓模型控制桿的左右運(yùn)動(dòng),以
讓其一直保持豎直平衡狀態(tài)。