Python知識(shí)分享網(wǎng) - 專業(yè)的Python學(xué)習(xí)網(wǎng)站 學(xué)Python,上Python222
簡(jiǎn)單粗暴Tensorflow教程 PDF 下載
匿名網(wǎng)友發(fā)布于:2025-10-26 10:20:59
(侵權(quán)舉報(bào))
(假如點(diǎn)擊沒(méi)反應(yīng),多刷新兩次就OK!)

簡(jiǎn)單粗暴Tensorflow教程 PDF 下載 圖1

 

 

資料內(nèi)容:

 

4.5 深度強(qiáng)化學(xué)習(xí)(DRL)
強(qiáng)化學(xué)習(xí) (Reinforcement learning,RL)強(qiáng)調(diào)如何基于環(huán)境而行動(dòng),以取得最大化的預(yù)期利益。結(jié)合了深
度學(xué)習(xí)技術(shù)后的強(qiáng)化學(xué)習(xí)更是如虎添翼。這兩年廣為人知的 AlphaGo 即是深度強(qiáng)化學(xué)習(xí)的典型應(yīng)用。深度
強(qiáng)化學(xué)習(xí)的基礎(chǔ)知識(shí)可參考:
• Demystifying Deep Reinforcement Learning (中文編譯)
• [Mnih2013]
這里,我們使用深度強(qiáng)化學(xué)習(xí)玩 CartPole(平衡桿)游戲。簡(jiǎn)單說(shuō),我們需要讓模型控制桿的左右運(yùn)動(dòng),以
讓其一直保持豎直平衡狀態(tài)。