<ul id="8eaoi"><sup id="8eaoi"></sup></ul>
  • <del id="8eaoi"><dfn id="8eaoi"></dfn></del>
  • <ul id="8eaoi"></ul>
    <strike id="8eaoi"></strike>
    葉梓
    • 葉梓國內知名上市IT企業的資深技術專家,高級工程師
    • 擅長領域: 人工智能 大數據
    • 講師報價: 面議
    • 常駐城市:上海市
    • 學員評價: 暫無評價 發表評價
    • 助理電話: 13006597891 QQ:2116768103 微信掃碼加我好友
    • 在線咨詢

    強化學習

    主講老師:葉梓
    發布時間:2021-05-21 14:54:00
    課程詳情:

    第一課 強化學習綜述

    1.強化學習要解決的問題

    2.強化學習的發展歷史

    3.強化學習方法的分類

    4.強化學習方法的發展趨勢

    5.環境搭建實驗(Gym,TensorFlow等)

    6.Gym環境的基本使用方法

    7.TensorFlow基本使用方法


    第二課 馬爾科夫決策過程

    1.基本概念:馬爾科夫性、馬爾科夫過程、馬爾科夫決策過程

    2.MDP基本元素:策略、回報、值函數、狀態行為值函數

    3.貝爾曼方程

    4.最優策略

    5.Python介紹及簡單的代碼演示

    案例:構建機器人找金幣和迷宮的環境


    第三課 基于模型的動態規劃方法

    1.動態規劃概念介紹

    2.策略評估過程介紹

    3.策略改進方法介紹

    4.策略迭代和值迭代

    5.值迭代與最優控制介紹

    6.基于 python 的動態規劃方法演示

    案例:實現基于模型的強化學習算法


    第四課 蒙特卡羅方法

    1.蒙特卡羅策略評估方法

    2.蒙特卡羅策略改進方法

    3.基于蒙特卡羅的強化學習方法

    4.同策略和異策略強化學習

    5.重要性采樣

    6.基于 python 的蒙特卡羅強化學習方法演示

    案例:利用蒙特卡羅方法實現機器人找金幣和迷宮


    第五課 時序差分方法

    1.DP,MC 和TD方法比較

    2.MC和TD方法偏差與方差平衡

    3.同策略TD方法:Sarsa 方法

    4.異策略TD方法:Q-learning 方法

    5.N步預測及的前向和后向觀點

    案例:Q-learning和Sarsa的實現


    第六課 基于值函數逼近方法

    1.值函數的參數化表示

    2.值函數的估計過程

    3.神經網絡基礎講解

    4.DQN 方法介紹

    5.DQN變種:Double DQN, Prioritized Replay, Dueling Network

    案例:用DQN玩游戲——flappy bird


    第七課 策略梯度方法

    1.策略梯度方法介紹

    2.似然率策略梯度推導及重要性采樣視角推導

    3.似然率策略梯度的直觀理解

    4.常見的策略表示

    5.常見的減小方差的方法:引入基函數法,修改估計值函數法

    案例:利用gym和tensorflow實現小車倒立擺系統,乒乓球游戲


    第八課 TRPO方法介紹及推導

    1.替代回報函數的構建

    2.單調的改進策略

    3.TRPO 實用算法介紹

    4.共軛梯度法搜索可行方向

    5.PPO方法

    6.基于python的TRPO方法實現

    案例:trpo算法和ppo算法實現


    第九課 AC方法

    1.隨機策略與確定性策略比較

    2.隨機策略AC的方法

    3.確定性策略梯度方法

    4.DDPG 方法及實現

    5.A3C方法講解

    案例:基于 python 的 DDPG 方法實現


    第十課 逆向強化學習

    1.基于最大邊際的方法

    2.學徒學習、MMP

    3.結構化分類、神經逆向強化學習

    4.基于概率模型的方法

    5.最大熵、相對熵

    6.深度逆向強化學習

    案例:略


    授課見證
    推薦講師

    馬成功

    Office超級實戰派講師,國內IPO排版第一人

    講師課酬: 面議

    常駐城市:北京市

    學員評價:

    賈倩

    注冊形象設計師,國家二級企業培訓師,國家二級人力資源管理師

    講師課酬: 面議

    常駐城市:深圳市

    學員評價:

    鄭惠芳

    人力資源專家

    講師課酬: 面議

    常駐城市:上海市

    學員評價:

    晏世樂

    資深培訓師,職業演說家,專業咨詢顧問

    講師課酬: 面議

    常駐城市:深圳市

    學員評價:

    文小林

    實戰人才培養應用專家

    講師課酬: 面議

    常駐城市:深圳市

    學員評價:

    主站蜘蛛池模板: 久久夜色精品国产www| 免费视频精品一区二区| 久久久久亚洲精品男人的天堂| 精品国产粉嫩内射白浆内射双马尾| 精品国产一区二区三区2021| 91在线视频精品| 亚洲精品色午夜无码专区日韩| 国产精品综合久成人| 久久91综合国产91久久精品| 久久99热只有频精品8| 亚洲av无码成人精品区在线播放 | 久久99精品久久久久久久不卡| 久久精品人妻一区二区三区| 6080亚洲精品午夜福利| 凹凸国产熟女精品视频app | 91不卡在线精品国产| 国产成人精品一区二区秒拍| 亚洲国产精品无码久久SM| 麻豆精品三级全部视频| 国产91精品一区二区麻豆亚洲 | 国产精品三级在线观看无码| 亚洲国产精品无码专区影院| 亚洲精品97久久中文字幕无码| 久久久久这里只有精品 | 国产成人精品福利网站在线| 久久66热人妻偷产精品9| 亚洲精品高清无码视频| 亚洲精品国产日韩无码AV永久免费网| 久久久精品久久久久久| 精品日韩在线视频一区二区三区| 国产精品推荐天天看天天爽| 国产精品99爱免费视频| 国产成人精品午夜福麻豆| 777久久精品一区二区三区无码| 欧美日韩精品一区二区三区| 老司机69精品成免费视频| 精品久久久久久中文字幕| 日本精品久久久中文字幕| 日韩精品免费在线视频| 国产精品单位女同事在线| 精品亚洲一区二区三区在线播放|