赵会群 孙 晶 花勇民 金季春
摘要:马尔科夫过程模型已经广泛地应用于系统可靠性评价中。基于马尔科夫模型系统关键因素分析方法被讨论,重点讨论了状态转移概率和状态可靠性灵敏度分析两种途径。给出系统可靠性差分概念后,提出了通过状态转移概率和状态可靠性增量分析系统可靠性差分的方法,具体分析了各个增量的选择条件。在上述讨论的基础上,给出系统关键因素数据挖掘算法。为了展示和验证算法的可行性和正确性,对乒乓球比赛制胜关进因素进行分析,实验结果表明提出的算法具有正确性和可行性。
关键词:马尔科夫过程模型;数据挖掘;技战术分析
中图分类号:G80-32文献标识码:A文章编号:1007-3612(2008)05-0712-04
数据挖掘(Data Mining简称DM)是用算法来抽取信息和模式,它是知识发现(Knowledge Discovery in Databases,简称KDD)过程的一个步骤[1]。一般认为数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取出隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程[1]。
长期的研究与实践已经总结出多种数据挖掘方法。
关联模式挖掘(Association Rule Mining)就是从给定的数据集中发现频繁出现的项集模式知识。关联分析已经广泛应用于市场营销、事务分析等应用领域。最著名的关联规则挖掘算法是由Agrawal等人于1944年提出的Apriori算法[2]。Apriori算法的核心是:用前一次扫描数据库的结果产生本次扫描的候选项目集,从而提高搜索效率。在此基础上一些学者先后提出了许多关联规则的挖掘算法,但其主要工作集中在如何提高项集的生成效率和降低计算代价上[3]。
还有许多数据挖掘技术,如分类与预测、聚类分析、异类分析、演化分析、回归分析等等,这里不再一一介绍。本文提出一种基于马尔科夫过程的数据挖掘方法,并结合体育比赛技战术分析中制胜战术挖掘为例,介绍该方法的具体应用。
1基于马尔科夫过程的系统分析模型
以上算法并没有讨论状态可靠性的变化情况。从实际系统控制角度,状态转移是可以调控的因素,而状态可靠性相对稳定,所以这里仅给出转移概率变化的系统可靠性分析的挖掘算法。同理不难给出基于状态可靠性的挖掘算法。
3算法应用
数据挖掘技术在商品零售、银行、保险等行业得到广泛地应用,用于体育比赛中技战术分析并不多见。下面以乒乓球为例,介绍算法2.1在乒乓球比赛临场技战术分析中的应用。
3.1乒乓球比赛技战术数据采集根据乒乓球比赛临场技战术分析和算法2.1的要求,需要对比赛中每一个技术动作的执行过程进行记录。由于比赛中运动员的技战术动作变化较多,并且各种动作在瞬间完成,所以纪录比赛的过程具有挑战性,为此专门设计了乒乓球比赛脚本描述语言(Table Tennis Language简称TTL)和脚本数据库来完成纪录工作。
3.1.1乒乓球技战术描述TTL语言首先把运动员的技术动作分解成击球方式、击球基本动作、击球效果、击球路线四个方面,并对其进行编码,这些编码构成乒乓球技战术描述语言的基本词汇。下面是单词表的部分单词。
表1中的第3列“动作编码”是描述语言的基本词汇,第4列是适合英语习惯的编码。开发者可以二选一,或一起使用。
对乒乓球比赛中的常见技战术进行分类和编码,这些技战术编码构成了脚本描述语言的基本句型。下面是部分技战术编码。
3.1.2乒乓球技战术采集技术在实际比赛中可以分别利用脚本描述语言的单词与句型编码进行技战术信息的采集。下面介绍基于技术动作编码的采集方法。
基于技术动作编码的数据采集技术是指,利用技术动作编码规则,对比赛中双方运动实际运用的技术动作,逐一加以描述并输入到计算机中。使用方法案例如下:
图1脚本和对应的输入码上述脚本纪录存放在技战术数据的数据库中,如图2所示。
图2部分技战术脚本数据3.2乒乓球比赛技战术分析乒乓球比赛中每一次比分的形成过程都是由若干技术动作构成,不同的技术动作的组合形成各种战术套路。在比赛中,技战术的制定与对手采用的战术有关,所以一个优秀运动员在比赛过程中要制定多种技战术套路,这些套路在比赛中交替采用,形成各种战术变化。比赛的制胜与技术动作的成功率(状态可靠性)和技术动作转换,即战术的成功率(状态转移概率)有关。从统计学角度,高水平运动员的技术动作成功率呈现一种相对的稳定性,而战术的调整是比赛制胜的关键,所以对战术分析尤为重要。
4结论
本文对基于马尔科夫过程的数据挖掘方法进行了研究和讨论,其主要贡献如下:1) 从理论上证明了基于马尔科夫过程的系统关键因素挖掘方法的正确性,给出了系统可靠性灵敏度分析中转移概率增量的设定方法,为进一步挖掘关键因素奠定了基础。2) 提出了基于马尔科夫过程的数据挖掘算法,并对算法的执行时间和空间进行了分析。3) 结合乒乓球比赛中制胜因素分析问题,给出了挖掘算法的应用。经过分析得出“高水平乒乓球比赛中,控制到相持、发球到接发球和控制到进攻”是比赛制胜关键的结论,这一结论与实际情况吻合。
本文提出的数据挖掘方法不但可以用于乒乓球比赛的技战术分析,还可以用于其他球类比赛的技战术分析,比如排球、羽毛球、网球等等,只要系统行为满足马尔科夫过程条件既可。体育比赛技战术分析中应用数据挖掘技术还是一种新的尝试,我们已经开发出乒乓球比赛临场技战术分析系统。
参考文献:
[1] Usama Fayyad, Gregory Piatetsky-Shapiro, and Padhraic Smyth, Knowledge discovery and data mining: Towards a unifying framework. Proceedings of the International Conference on Knowledge Discovery and Data Mining, pages,1996:82-88.
[2] Agrawal R,Srikant R. Fast algorithms for mining association rules[A].Proceedings of the 20th International Conference on Very Large Databases[C].Santiago:Morgan Kaufmann,1994:487-499.
[3] Agrawal R,Srikant R. Mining sequential patterns. In Proc, 1995 Int,Conf.Data Engineering (ICDE'95), pages 3-14,Taipei,Taiwan,Mar,1995.
[4] A. Hohmann and Hui Zhang. Performance diagnosis by mathematical simulation in table tennis. Science and Racket Sports III. pages 220-226. Taylor & Francis Group. New York.
注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文