<ul id="8eaoi"><sup id="8eaoi"></sup></ul>
  • <del id="8eaoi"><dfn id="8eaoi"></dfn></del>
  • <ul id="8eaoi"></ul>
    <strike id="8eaoi"></strike>
    葉梓
    • 葉梓國(guó)內(nèi)知名上市IT企業(yè)的資深技術(shù)專家,高級(jí)工程師
    • 擅長(zhǎng)領(lǐng)域: 人工智能 大數(shù)據(jù)
    • 講師報(bào)價(jià): 面議
    • 常駐城市:上海市
    • 學(xué)員評(píng)價(jià): 暫無(wú)評(píng)價(jià) 發(fā)表評(píng)價(jià)
    • 助理電話: 13006597891 QQ:2116768103 微信掃碼加我好友
    • 在線咨詢

    強(qiáng)化學(xué)習(xí)與深度強(qiáng)化學(xué)習(xí)

    主講老師:葉梓
    發(fā)布時(shí)間:2021-05-21 14:51:35
    課程詳情:

    【課程時(shí)長(zhǎng)】

    3天(6小時(shí)/天)

     

    【課程簡(jiǎn)介】

    強(qiáng)化學(xué)習(xí)是當(dāng)前最熱門(mén)的研究方向之一,廣泛應(yīng)用于機(jī)器人學(xué)、電子競(jìng)技等領(lǐng)域。本課程系統(tǒng)性的介紹了強(qiáng)化學(xué)習(xí)(深度強(qiáng)化學(xué)習(xí))的基本理論和關(guān)鍵算法,包括:馬爾科夫決策過(guò)程、動(dòng)態(tài)規(guī)劃法、蒙特卡羅法、時(shí)間差分法、值函數(shù)逼近法,策略梯度法等;以及該領(lǐng)域的最新前沿發(fā)展,包括:DQN及其變種、信賴域系方法、Actor-Critic類方法、多Agent深度強(qiáng)化學(xué)習(xí)等;同時(shí)也介紹大量的實(shí)際案例,包括深度強(qiáng)化學(xué)習(xí)中最著名的工程應(yīng)用:Alpha Go。

     

    【課程對(duì)象】

    計(jì)算機(jī)相關(guān)專業(yè)本科;或理工科本科,具備初步的IT基礎(chǔ)知識(shí)的人員

     

    第一天 強(qiáng)化學(xué)習(xí)

     

    第一課 強(qiáng)化學(xué)習(xí)綜述

    1.強(qiáng)化學(xué)習(xí)要解決的問(wèn)題

    2.強(qiáng)化學(xué)習(xí)方法的分類

    3.強(qiáng)化學(xué)習(xí)方法的發(fā)展趨勢(shì)

    4.環(huán)境搭建實(shí)驗(yàn)(Gym,TensorFlow等)

    5.Gym環(huán)境的基本使用方法

     

    第二課 馬爾科夫決策過(guò)程

    1.基本概念:馬爾科夫性、馬爾科夫過(guò)程、馬爾科夫決策過(guò)程

    2.MDP基本元素:策略、回報(bào)、值函數(shù)、狀態(tài)行為值函數(shù)

    3.貝爾曼方程

    4.最優(yōu)策略

    案例:構(gòu)建機(jī)器人找金幣和迷宮的環(huán)境

     

    第三課 基于模型的動(dòng)態(tài)規(guī)劃方法

    1.動(dòng)態(tài)規(guī)劃概念介紹

    2.策略評(píng)估過(guò)程介紹

    3.策略改進(jìn)方法介紹

    4.策略迭代和值迭代

    案例:實(shí)現(xiàn)基于模型的強(qiáng)化學(xué)習(xí)算法

     

    第四課 蒙特卡羅方法

    1.蒙特卡羅策略評(píng)估

    2.蒙特卡羅策略改進(jìn)

    3.基于蒙特卡羅的強(qiáng)化學(xué)習(xí)

    4.同策略和異策略

    案例:利用蒙特卡羅方法實(shí)現(xiàn)機(jī)器人找金幣和迷宮

     

    第五課 時(shí)序差分方法

    1.DP,MC和TD方法比較

    2.MC和TD方法偏差與方差平衡

    3.同策略TD方法:Sarsa 方法

    4.異策略TD方法:Q-learning 方法

    案例:Q-learning和Sarsa的實(shí)現(xiàn)

     

    第二天 從強(qiáng)化學(xué)習(xí)到深度強(qiáng)化學(xué)習(xí)

     

    第一課 基于值函數(shù)逼近方法(強(qiáng)化學(xué)習(xí))

    1.維數(shù)災(zāi)難與表格型強(qiáng)化學(xué)習(xí)

    2.值函數(shù)的參數(shù)化表示

    3.值函數(shù)的估計(jì)過(guò)程

    4.常用的基函數(shù)

     

    第二課 基于值函數(shù)逼近方法(深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的結(jié)合)

    1.簡(jiǎn)單提一下深度學(xué)習(xí)

    2.深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的結(jié)合

    3.DQN 方法介紹

    4.DQN變種:Double DQN, Prioritized Replay, Dueling Network

    案例:用DQN玩游戲——flappy bird

     

    第三課 策略梯度方法(強(qiáng)化學(xué)習(xí))

    1.策略梯度方法介紹

    2.常見(jiàn)的策略表示

    3.常見(jiàn)的減小方差的方法:引入基函數(shù)法,修改估計(jì)值函數(shù)法

    案例:利用gym和tensorflow實(shí)現(xiàn)小車倒立擺系統(tǒng)等

     

    第四課 Alpha Go(深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的結(jié)合)

    1.MCTS

    2.策略網(wǎng)絡(luò)與價(jià)值網(wǎng)絡(luò)

    3.Alpha Go的完整架構(gòu)

     

    第五課 GAN(深度學(xué)習(xí))

    1.VAE與基本GAN

    2.DCGAN

    3.WGAN

    案例:生成手寫(xiě)數(shù)字的GAN

     

    第三天 深度強(qiáng)化學(xué)習(xí)進(jìn)階

     

    第一課 AC類方法-1

    1. PG的問(wèn)題與AC的思路

    2. AC類方法的發(fā)展歷程

    3. Actor-Critic基本原理

     

    第二課 AC類方法-2

    1. DPG方法

    2. DDPG方法

    3. A3C方法

    案例:AC類方法的案例

     

    第三課 信賴域系方法-1

    1.信賴域系方法背景

    2.信賴域系方法發(fā)展路線圖

    3.TRPO方法

    案例:TRPO方法的案例

     

    第四課 信賴域系方法-2

    1.PPO方法

    2.DPPO方法簡(jiǎn)介

    3.ACER方法

    案例:PPO方法的案例

     

    第五課 多Agent強(qiáng)化學(xué)習(xí)

    1.矩陣博弈

    2.納什均衡

    3.多人隨機(jī)博弈學(xué)習(xí)

    4.完全合作、完全競(jìng)爭(zhēng)與混合任務(wù)

    5.MADDPG

    案例:MADDPG的案例等


    授課見(jiàn)證
    推薦講師

    馬成功

    Office超級(jí)實(shí)戰(zhàn)派講師,國(guó)內(nèi)IPO排版第一人

    講師課酬: 面議

    常駐城市:北京市

    學(xué)員評(píng)價(jià):

    賈倩

    注冊(cè)形象設(shè)計(jì)師,國(guó)家二級(jí)企業(yè)培訓(xùn)師,國(guó)家二級(jí)人力資源管理師

    講師課酬: 面議

    常駐城市:深圳市

    學(xué)員評(píng)價(jià):

    鄭惠芳

    人力資源專家

    講師課酬: 面議

    常駐城市:上海市

    學(xué)員評(píng)價(jià):

    晏世樂(lè)

    資深培訓(xùn)師,職業(yè)演說(shuō)家,專業(yè)咨詢顧問(wèn)

    講師課酬: 面議

    常駐城市:深圳市

    學(xué)員評(píng)價(jià):

    文小林

    實(shí)戰(zhàn)人才培養(yǎng)應(yīng)用專家

    講師課酬: 面議

    常駐城市:深圳市

    學(xué)員評(píng)價(jià):

    主站蜘蛛池模板: 亚洲第一永久AV网站久久精品男人的天堂AV | 亚洲国产精品久久久久久| 久久久久成人精品无码| 第一福利永久视频精品| 无码人妻精品中文字幕免费| 麻豆精品| 国产精品色视频ⅹxxx | 大伊香蕉精品一区视频在线| 午夜精品久久久久久影视777| 99精品福利国产在线| www.99精品| 国产精品无码成人午夜电影| 亚洲国产精品久久电影欧美| 日韩精品欧美| 久久露脸国产精品| 国产精品.XX视频.XXTV| 欧美精品人爱c欧美精品| 国产精品jizz视频| 精品欧洲AV无码一区二区男男| 亚洲av永久无码精品秋霞电影影院| 欧美日韩成人精品久久久免费看| 国产精品亚洲不卡一区二区三区 | 亚洲AV无码精品无码麻豆| 亚洲?V无码成人精品区日韩| 国内精品视频在线观看| 国产精品毛片一区二区| 99久久精品国产毛片| 欧美一区二区精品久久| 久久99热狠狠色精品一区| 国产成人精品日本亚洲专一区| 国产精品9999久久久久| 国产精品后入内射日本在线观看| 亚洲精品二区国产综合野狼| 亚洲精品乱码久久久久久蜜桃图片| 天天视频国产精品| 无码乱码观看精品久久| 亚洲国产午夜中文字幕精品黄网站| 亚洲av无码成人精品区在线播放| 亚洲福利精品电影在线观看| 午夜精品久久久内射近拍高清 | 精品亚洲A∨无码一区二区三区|