Anscor

Anscor

编程是人造的学科,而数学是神造的学科.

Anscor

2020-02-22

强化学习中无处不在的贝尔曼最优性方程,背后的数学原理知多少?

可以说,贝尔曼方程在强化学习中无处不在,了解此方程的数学基础对于理解 RL 算法的工作原理必不可少。它是由美国应用数学家理查德·贝尔曼提出,用于求解求解马尔可夫决策过程。文本对此方程背后的数学基础的进行了详尽介绍,通俗易懂而又不失数学上的严格性。P 表示转移概率矩阵。