強化學習系統(tǒng)接受環(huán)境狀態(tài)的輸入破碎機,根據(jù)內(nèi)部的推理機制,系統(tǒng)輸出相應的行為動作d。環(huán)境在系統(tǒng)動作作用a下,變遷到新的狀態(tài)‘’。系統(tǒng)接受環(huán)境新狀態(tài)的輸入,同時得到環(huán)境對于系統(tǒng)的瞬時獎懲反饋r。對于強化學習系統(tǒng)來講,其目標是學習一個行為策略?:破碎機使系統(tǒng)選擇的動作能夠獲得環(huán)境獎勵的累計值最大。換言之,系統(tǒng)要最大化式(10.1),其中,y為折扣因子。在學習過程中,強化學習技術的基本原理是:如果系統(tǒng)某個動作導致環(huán)境正的獎勵,那么系統(tǒng)以后產(chǎn)生這個動作的趨勢便會加強。反之系統(tǒng)產(chǎn)生這個動作的趨勢便減弱。破碎機這和生理學中的條件反射原理是接近的。 如果假定環(huán)境是馬爾可夫型的,則順序型強化學習問題可以通過馬爾可夫決策過程建模。下面首先給出馬爾可夫決策過程的形式化定義。
馬爾可夫決策過程的本質(zhì)是:當前狀態(tài)向下一狀態(tài)轉(zhuǎn)移的概率和獎勵值只取決于當前狀態(tài)和選擇的動作,破碎機而與歷史狀態(tài)和歷史動作無關。因此在已知狀態(tài)轉(zhuǎn)移概率函數(shù)尸和獎勵函數(shù)只的環(huán)境模型知識下,可以采用動態(tài)規(guī)劃技術求解最優(yōu)策略。而強化學習著重研究在P函數(shù)和只函數(shù)未知的情況下,系統(tǒng)如何學習最優(yōu)行為策略。破碎機為解決這個問題,固10.2中給出強化學習四個關鍵要素之間的關系,即策略”、狀態(tài)值函數(shù)v、獎勵函數(shù)只和一個環(huán)境的模型(通常情況)。網(wǎng)址:
www.zzyawei.com制砂機
www.zzhuaye.com破碎機
www.zzhtzgjx.com制砂機
www.hnhuaye.cn對輥破碎機
www.zzhyzg.com破碎機
www.hyzgsy.com顎式破碎機
www.zzhyzg.cn制砂機,砂石生產(chǎn)線