当代的强化学习理论是基于多巴*奖赏系统。
学习是一种典型的强化学习,其学习效率较低,尤其是当状态空间和决策空间较大时。
本文提出了一种基于反应式行为控制的智能控制器,以强化学习作为智能控制器的学习算法。
强化学习是这种情况下的常用技术,而更多的传统情形下需要使用效用函数。
一百利用Q强化学习算法对模糊规则中各行为的值函数进行在线增量学习,实现模糊决策的逐步求精。
当代的强化学习理论是基于多巴*奖赏系统。
学习是一种典型的强化学习,其学习效率较低,尤其是当状态空间和决策空间较大时。
本文提出了一种基于反应式行为控制的智能控制器,以强化学习作为智能控制器的学习算法。
强化学习是这种情况下的常用技术,而更多的传统情形下需要使用效用函数。
一百利用Q强化学习算法对模糊规则中各行为的值函数进行在线增量学习,实现模糊决策的逐步求精。