最早把這個心理學原理引人人工學習系統(tǒng)的是加nsky(1954)。1959年,加Mel在他著名的跳棋游戲中也應用了時序差分的思想。1972年,重錘式破碎機K10p5把試錯學習和時序差分結合在一起。1978年開始,Sukon、Ba亢o、Moorc,包括KloPf等對這兩者進行結合,開始探人研究。最伏控制于20世紀50年代被提出:為動態(tài)系統(tǒng)設計一個控制器,重錘式破碎機在從初態(tài)轉移到終態(tài)時,保證系統(tǒng)的某個性能指標保持最小值(或最大值)。1953—1957年,Eellman提出了求解最優(yōu)控制問題的一個有效方法:動態(tài)規(guī)劃(dyna此c prosm瓤—ming)。另一個有效方法是蘇聯(lián)龐特里雅金等人于1955—1958年提出的最大值原理。重錘式破碎機動態(tài)規(guī)劃在隨后的四十年里得到深入的研究,特別是在自動控制領域。
1957年,Bellmsn提出了最優(yōu)控制問題的隨機離散版本,就是著名的馬爾可夫決策過程(Markov dec的on processe,AOP)。U60午Hnward提出馬爾可夫決策過程的策略迭代方法,重錘式破碎機這些都成為現(xiàn)代強化學習的理論基礎。真正把時序差分和最優(yōu)控制結合在一起的是Watkins等提出的Q—學習[Wa廣kins以al 19891,也把強化學習的三條主線扭在了一起。199z年,Tesauro用強化學習成功了應用到雙陸棋(back8咖咖n)中,重錘式破碎機稱為TyGa咖onLTesaur01992],從此開始了強化學習的深入研究。強化學習模型
通過主體與環(huán)境的交互進行學習。主體與環(huán)境的交互接口包括行動(action)、獎勵(r即ard)和狀態(tài)(歡ate)。重錘式破碎機交互過程可以表述為如圖lo.1所示的形式:每一步,主體根據(jù)策略選擇一個行動執(zhí)行,然后感知下一步的狀態(tài)和即時獎勵,通過經(jīng)驗再修改自己的策略。主體的目標就是最大化長期獎勵。
網(wǎng)址:
www.zzyawei.com制砂機
www.zzhuaye.com破碎機
www.zzhtzgjx.com制砂機
www.hnhuaye.cn對輥破碎機
www.zzhyzg.com破碎機
www.hyzgsy.com顎式破碎機
www.zzhyzg.cn制砂機,砂石生產(chǎn)線