发展历程 什么是马尔可夫决策过程(mdp)? -技术百科的定义

什么是马尔可夫决策过程(mdp)? -技术百科的定义

目录:

Anonim

定义-马尔可夫决策过程(MDP)是什么意思?

专业人士将马尔可夫决策过程(MDP)称为“离散时间随机控制过程”。它基于19世纪末20世纪初俄罗斯学者安德烈·马尔科夫(Andrey Markov)提出的数学方法。

技术百科解释了马尔可夫决策过程(MDP)

解释马尔可夫决策过程和相关的马尔可夫链的一种方法是,这些是现代博弈论的要素,基于几百年前俄国科学家进行的较简单的数学研究。 马尔可夫决策过程的描述是,它研究一种系统处于某些给定状态集的情况,并根据决策者的决策前进到另一个状态。

马尔可夫链作为模型显示了一系列事件,其中给定事件的概率取决于先前获得的状态。 专业人士可能会在描述Markov决策过程时谈论“可数状态空间”-一些人将Markov决策模型的思想与基于概率的“随机游走”模型或其他随机模型(通常在Wall上引用的随机游走模型)联系在一起。 Street,模拟了在市场概率背景下股票的涨跌走势。

通常,马尔可夫决策过程通常应用于专业人员正在研究的某些最复杂的技术,例如机器人技术,自动化和研究模型。

什么是马尔可夫决策过程(mdp)? -技术百科的定义