免費發(fā)布產(chǎn)品

掃描我,即刻查看

供應河北礦山機械設備

該商品已下架,歡迎挑選其他商品!
  • 單價:
    面議
  • 可售數(shù)量:
    26
  • 品牌名稱:
    華冶
  • 所在地:
    河南鄭州
  • 產(chǎn)品規(guī)格:
  • 包裝說明:
暫時無圖
  • 商品名稱:供應河北礦山機械設備
  • 自定義分類:破碎機
  • 上架時間:2013/1/7 14:05
如果您發(fā)現(xiàn)商品信息不準確,歡迎糾錯
產(chǎn)品關鍵詞: 破碎機,

   強化學習系統(tǒng)接受環(huán)境狀態(tài)的輸入破碎機,根據(jù)內(nèi)部的推理機制,系統(tǒng)輸出相應的行為動作d。環(huán)境在系統(tǒng)動作作用a下,變遷到新的狀態(tài)‘’。系統(tǒng)接受環(huán)境新狀態(tài)的輸入,同時得到環(huán)境對于系統(tǒng)的瞬時獎懲反饋r。對于強化學習系統(tǒng)來講,其目標是學習一個行為策略?:破碎機使系統(tǒng)選擇的動作能夠獲得環(huán)境獎勵的累計值最大。換言之,系統(tǒng)要最大化式(10.1),其中,y為折扣因子。在學習過程中,強化學習技術的基本原理是:如果系統(tǒng)某個動作導致環(huán)境正的獎勵,那么系統(tǒng)以后產(chǎn)生這個動作的趨勢便會加強。反之系統(tǒng)產(chǎn)生這個動作的趨勢便減弱。破碎機這和生理學中的條件反射原理是接近的。    如果假定環(huán)境是馬爾可夫型的,則順序型強化學習問題可以通過馬爾可夫決策過程建模。下面首先給出馬爾可夫決策過程的形式化定義。

   馬爾可夫決策過程的本質(zhì)是:當前狀態(tài)向下一狀態(tài)轉(zhuǎn)移的概率和獎勵值只取決于當前狀態(tài)和選擇的動作,破碎機而與歷史狀態(tài)和歷史動作無關。因此在已知狀態(tài)轉(zhuǎn)移概率函數(shù)尸和獎勵函數(shù)只的環(huán)境模型知識下,可以采用動態(tài)規(guī)劃技術求解最優(yōu)策略。而強化學習著重研究在P函數(shù)和只函數(shù)未知的情況下,系統(tǒng)如何學習最優(yōu)行為策略。破碎機為解決這個問題,固10.2中給出強化學習四個關鍵要素之間的關系,即策略”、狀態(tài)值函數(shù)v、獎勵函數(shù)只和一個環(huán)境的模型(通常情況)。

網(wǎng)址:

www.zzyawei.com制砂機

www.zzhuaye.com破碎機

www.zzhtzgjx.com制砂機  

www.hnhuaye.cn對輥破碎機

www.zzhyzg.com破碎機

www.hyzgsy.com顎式破碎機

www.zzhyzg.cn制砂機,砂石生產(chǎn)線

產(chǎn)品關鍵詞: 破碎機,
溫馨提示: 以上是關于“供應河北礦山機械設備”的詳細介紹,產(chǎn)品由“鄭州華冶重工機械有限公司”為您提供,如果您感興趣可以聯(lián)系供應商或者讓供應商主動聯(lián)系您,您也可以查看更多與“礦山施工設備”相關的產(chǎn)品!
*
*

聯(lián)系方式

李衛(wèi)霞女士 (網(wǎng)絡部員工)
手機:13783469999
聯(lián)系我時務必告知是在“賽門國際商貿(mào)網(wǎng)”上看到的!

鄭州華冶重工機械有限公司

企業(yè)旺鋪

  • 地址:河南 鄭州市鄭州市鄭上路西崗66號
  • 電話:86-0371-0371-67826980傳真:86--
快速鏈接企業(yè)微店

掃一掃“二維碼”快速鏈接企業(yè)微店

推薦使用 微信UC 掃一掃 等掃碼工具

微店融入移動互聯(lián)網(wǎng)帶來更多的商業(yè)機會。

免責聲明: 本站信息由會員自行提供,內(nèi)容的真實性、準確性和合法性由發(fā)布會員負責。本站不提供任何保證,并不承擔任何法律責任。

企業(yè)產(chǎn)品分類

企業(yè)相關產(chǎn)品

Url:/5176578 [用戶IP:46.149.205.235-代理IP:46.149.205.235], Time:2025/03/25 上 01:41:31