強(qiáng)化學(xué)習(xí)系統(tǒng)接受環(huán)境狀態(tài)的輸入破碎機(jī),根據(jù)內(nèi)部的推理機(jī)制,系統(tǒng)輸出相應(yīng)的行為動(dòng)作d。環(huán)境在系統(tǒng)動(dòng)作作用a下,變遷到新的狀態(tài)‘’。系統(tǒng)接受環(huán)境新?tīng)顟B(tài)的輸入,同時(shí)得到環(huán)境對(duì)于系統(tǒng)的瞬時(shí)獎(jiǎng)懲反饋r。對(duì)于強(qiáng)化學(xué)習(xí)系統(tǒng)來(lái)講,其目標(biāo)是學(xué)習(xí)一個(gè)行為策略?:破碎機(jī)使系統(tǒng)選擇的動(dòng)作能夠獲得環(huán)境獎(jiǎng)勵(lì)的累計(jì)值最大。換言之,系統(tǒng)要最大化式(10.1),其中,y為折扣因子。在學(xué)習(xí)過(guò)程中,強(qiáng)化學(xué)習(xí)技術(shù)的基本原理是:如果系統(tǒng)某個(gè)動(dòng)作導(dǎo)致環(huán)境正的獎(jiǎng)勵(lì),那么系統(tǒng)以后產(chǎn)生這個(gè)動(dòng)作的趨勢(shì)便會(huì)加強(qiáng)。反之系統(tǒng)產(chǎn)生這個(gè)動(dòng)作的趨勢(shì)便減弱。破碎機(jī)這和生理學(xué)中的條件反射原理是接近的。 如果假定環(huán)境是馬爾可夫型的,則順序型強(qiáng)化學(xué)習(xí)問(wèn)題可以通過(guò)馬爾可夫決策過(guò)程建模。下面首先給出馬爾可夫決策過(guò)程的形式化定義。
馬爾可夫決策過(guò)程的本質(zhì)是:當(dāng)前狀態(tài)向下一狀態(tài)轉(zhuǎn)移的概率和獎(jiǎng)勵(lì)值只取決于當(dāng)前狀態(tài)和選擇的動(dòng)作,破碎機(jī)而與歷史狀態(tài)和歷史動(dòng)作無(wú)關(guān)。因此在已知狀態(tài)轉(zhuǎn)移概率函數(shù)尸和獎(jiǎng)勵(lì)函數(shù)只的環(huán)境模型知識(shí)下,可以采用動(dòng)態(tài)規(guī)劃技術(shù)求解最優(yōu)策略。而強(qiáng)化學(xué)習(xí)著重研究在P函數(shù)和只函數(shù)未知的情況下,系統(tǒng)如何學(xué)習(xí)最優(yōu)行為策略。破碎機(jī)為解決這個(gè)問(wèn)題,固10.2中給出強(qiáng)化學(xué)習(xí)四個(gè)關(guān)鍵要素之間的關(guān)系,即策略”、狀態(tài)值函數(shù)v、獎(jiǎng)勵(lì)函數(shù)只和一個(gè)環(huán)境的模型(通常情況)。網(wǎng)址:
www.zzyawei.com制砂機(jī)
www.zzhuaye.com破碎機(jī)
www.zzhtzgjx.com制砂機(jī)
www.hnhuaye.cn對(duì)輥破碎機(jī)
www.zzhyzg.com破碎機(jī)
www.hyzgsy.com顎式破碎機(jī)
www.zzhyzg.cn制砂機(jī),砂石生產(chǎn)線
掃一掃“二維碼”快速鏈接企業(yè)微店
推薦使用 微信 或 UC 掃一掃 等掃碼工具
微店融入移動(dòng)互聯(lián)網(wǎng)帶來(lái)更多的商業(yè)機(jī)會(huì)。