課程概述
第1模塊概述強化學習的基本概念,包括agent(智能體)、環境及其之間的關係,還涵蓋了獎勵函數、折扣獎勵(discounted
rewards)、價值函數和優勢函數(advantage functions)、策略函數、馬爾科夫過程、Bellman方程等內容。
第2模塊介紹時序差分、SARSA與Q-Learning等算法,還在經典的迷宮遊戲問題上進行訓練和測試。
第3模塊介紹深度Q網絡、深度強化學習算法DQN,還討論了新聞推薦案例。
第4模塊介紹Double DQN、競爭網絡結構。
第5模塊討論actor-critic算法,討論如何訓練actor(agent)的策略,解決基金定投策略問題。
最後結課測試。
教學單元
1 第一單元 強化學習基礎
2 第二單元 強化學習基本概念
2.1 強化學習概述
2.2 強化學習入門
2.3 馬爾科夫過程和貝爾曼方程
3 第三單元 深度強化學習常用算法
3.1 算法概述
3.2 基本算法
3.3 深度強化學習常用算法
4 第四單元 深度強化學習應用
5 深度強化學習導論結課
課程列表
名稱 時間長度
第01講強化學習簡介 00:11:22
第02講2.1 強化學習概述 00:16:28
第03講智能體 00:07:22
第04講策略 00:07:34
第05講回合、軌跡和狀態轉移 00:13:16
第06講折扣獎勵 00:10:09
第07講價值函數 00:21:07
第08講最優策略與動作 00:08:33
第09講馬爾科夫過程 00:03:59
第10講貝爾曼方程 00:24:54
第11講深度強化學習算法概述 00:17:40
第12講SARSA算法 00:23:11
第13講Q-learning算法-1 00:19:12
第14講Q-learning算法-2 00:31:11
第15講Q-learning算法-3 00:08:57
第16講Q-learning算法補充 00:19:52
第17講DQN算法-1 00:07:20
第18講DQN算法-2 00:11:35
第19講DQN算法-3 00:07:24
第20講DDQN算法 00:19:08
第21講基於策略的強化學習 00:13:51
第22講Actor-critic算法 00:26:29
第23講A2C算法 00:10:32
第24講案例1:新聞推薦 00:29:33
第25講案例2:基金定投
|