基于强化学习TD算法的乒乓游戏击球策略优化

2011-12-31 00:00:00
电脑知识与技术 2011年28期


  摘要:计算机乒乓游戏是出现在个人计算机上最早的游戏之一,该文利用强化学习中的TD算法,将状态的变化与得分的统计规律统计出来,就是研究在当前状态S下,球拍怎样移动获利最大,让机器击球手快速运动并准确击球。
  关键词:机器学习;TD算法;策略优化
  中图分类号:TP311文献标识码:A文章编号:1009-3044(2011)28-6926-02
  Pong Game Batting Strategy Optimization Based on the TD Algorithm of Reinforcement Learning
  CHEN G