摘要:计算机乒乓游戏是出现在个人计算机上最早的游戏之一,该文利用强化学习中的TD算法,将状态的变化与得分的统计规律统计出来,就是研究在当前状态S下,球拍怎样移动获利最大,让机器击球手快速运动并准确击球。
关键词:机器学习;TD算法;策略优化
中图分类号:TP311文献标识码:A文章编号:1009-3044(2011)28-6926-02
Pong Game Batting Strategy Optimization Based on the TD Algorithm of Reinforcement Learning
CHEN G