2026年春江苏开放大学神经网络与深度学习060732形成性考核作业四答案
试题列表单选题题型:单选题客观题分值4分难度:一般得分:41下列关于⻢尔可夫决策过程的叙述,错误的是()A⻢尔可夫决策过程综合了过去所有的动作来决定下⼀时刻的动作B⻢尔可夫决策过程的⽬标是得到回报的期望最⼤C许多强化学习问题都可以转化为⻢尓可夫决策过程来描述D⻢尔可夫决策过程的主要元素包括所有状态的集合,所有动作的集合,转移概率算⼦以及奖励函 数学生答案:A老师点评:题型:单选题客观题分值3分难度
