专题报告
根据学生的兴趣采用专题报告,包含下面的全部或部分内容:
马尔科夫决策过程和动态规划 (2-3周)
模拟方法 (2周)
- 强化学习异步数值和策略迭代,Q-学习算法,复杂度。基本工具的修正,如Lyapunov函数分析和ODE方法.
数值函数近似 (4周)
- TD学习算法,近似线性规划,性能界,函数近似理论。
策略查找方法 (2-3周)
在线学习和练习 (2周)
我们在整个过程中都能看到实际应用,包括动态的资源分配,金融和排队网络,等等。
教材
Bertsekas, Dimitri P. Dynamic Programming and Optimal
Control. 2 vols. Belmont, MA: Athena Scientific, 2000-2001. (ISBN:
1886529086)
Bertsekas, Dimitri P., and John N. Tsitsiklis.
Neuro-Dynamic Programming. Belmont, MA: Athena Scientific, 1996. (ISBN:
1886529108)
个别论文同样被很多课程采用,在参考读物中列出。
评分标准
| 每周或每两周习题集中的2或3个习题 |
40% |
| 期末项目 |
60% | |
学期项目
学生可自由选择理论、算法或实际应用工作。项目建议在期中提交,最后的项目报告在期末提交。
需要准备10-15页的项目,以及15-20分钟的演讲。