刘硕明 刘佳
摘 要:早期动作识别的研究主要关注在简单背景及可控环境下单个人体动作的分类从而忽略了人的身份信息。本文主提出如何同时识别动作和身份。提出时空兴趣点不仅仅刻画了动作的时空属性,在采取不同的描述算子的情况下,它也能反映出关于动作执行人的身份信息。实验的结果验证了本文的想法。
关键词:动作识别;身份识别;码书;主题模型
中图分类号:TP915 文献标识码:A
1 概述
绝大多数用于识别的方法中,仅仅存在一种视觉码书。本文提出利用两种码书来进行视频表示。具体来说,用动作码书来表示动作,而用作者码书来表示身份。基本思想类似于文章的内容用主题来表示,而写文章的人用作者来表示。本文认为时空兴趣点不仅仅刻画了动作的时空属性,在采取不同的描述算子的情况下,它也能反映出关于动作执行人的身份信息。实验的结果验证了本文的想法。已经有一些文献致力于同时进行动作识别和身份验证。例如文献[1,2]。
2 动作身份模型
1)识别框架
基本框架如下:首先,利用时空兴趣点检测器提取局部时空点区域,然后分别对动作和身份两种问题,提取不同的局部描述子,接着利用聚类的方法得到两种码书:动作码书和作者码书。利用LDA和AM进行模型参数的学习和推断。
2)视频表示及码书
文中利用Dollar[3]提出的时空检测器进行兴趣点的检测,它能产生稳健的时空点,给定一组时空兴趣点的描述子后,建立了两种类型的码书,分别用来进行动作信息的表示和身份信息的表示。首先为了学习得到码书中的词项,首先将所有训练视频中的时空兴趣描述子进行聚类,本文采用K均值聚类的方法,每一个聚类中心对应码书(动作码书和身份码书)中的一个词项。
3)动作-身份模型
本文提出的动作身份模型是一个概率主题模型,因此可用图模型的方法表示,如图1所示。
其中ad表示身份信息,w1和w2分别表示动作码书和身份码书中的单词项。Nd1和Nd2分别表示动作单词和身份单词的个数,其余变量为隐含变量或模型参数。在这个生成模型中包含了两种类型的码书,w1和w2是分别来自动作码书和身份码书中的视觉词。 实际上,这个包含两种码书的动作身份模型正是LDA模型[4]和作者模型[5]的组合。在动作模型和身份模型相对独立时,可以将动作模型和身份模型分开进行学习和推断。尽管w1和w2来自不同的描述子,但他们都对应相同的时空点位置,只是在这个时空点上提取的特征不同。
3 实验及结果分析
本文在KTH 数据库上进行了测试。通过利用时空兴趣点局部特征以及采用隐主题模型进行动作身份分类,能够有效的克服这些因素的影响。实验结果表明本文的方法不仅能够对动作类别和位置进行识别,同时还能给出关于身份的信息。平均识别率的混淆矩阵如图3所示。6个主题的LDA模型对应的混淆矩阵如图3 (a)所示,这里采用的动作码书的大小为1000。关于身份模型的25类的混淆矩阵如图3 (b)所示,这里作者码书的大小也是1000。从图中可以看出,对于身份的识别具有一定的可判别性。
(a)动作分类的结果(b)身份的分类结果平均分类正确率(54.6%)。
实验结果表明本文的方法不仅能够对动作类别和位置进行识别,同时还能给出关于身份的信息。
结语
本文在时空兴趣点的基础上,提出了一种动作身份模型用来识别动作的类型、位置以及动作执行人的身份。文中将动作身份模型在三种数据库上进行了测试,验证了该方法的有效性。
参考文献
[1]Fabio, C. Using bilinear models for view-invariant action and identity recognition. in CVPR. 2006.
[2].Jack M.. Multifactor Gaussian process models for style-content separation. In ICML. 2007. Corvallis.
[3] Dollar, , Behavior recognition via sparse spatio-temporal features. IEEE Workshop on VSPETS, 2005: p. 1-8.
[4] Blei, D.M., Latent Dirichlet allocation, In JMLR, 2003. 3(4-5): p. 993-1022.
[5] M. Rosen-Zvi, The author-topic model for authors and documents. in Conference on UAI. 2004.
摘 要:早期动作识别的研究主要关注在简单背景及可控环境下单个人体动作的分类从而忽略了人的身份信息。本文主提出如何同时识别动作和身份。提出时空兴趣点不仅仅刻画了动作的时空属性,在采取不同的描述算子的情况下,它也能反映出关于动作执行人的身份信息。实验的结果验证了本文的想法。
关键词:动作识别;身份识别;码书;主题模型
中图分类号:TP915 文献标识码:A
1 概述
绝大多数用于识别的方法中,仅仅存在一种视觉码书。本文提出利用两种码书来进行视频表示。具体来说,用动作码书来表示动作,而用作者码书来表示身份。基本思想类似于文章的内容用主题来表示,而写文章的人用作者来表示。本文认为时空兴趣点不仅仅刻画了动作的时空属性,在采取不同的描述算子的情况下,它也能反映出关于动作执行人的身份信息。实验的结果验证了本文的想法。已经有一些文献致力于同时进行动作识别和身份验证。例如文献[1,2]。
2 动作身份模型
1)识别框架
基本框架如下:首先,利用时空兴趣点检测器提取局部时空点区域,然后分别对动作和身份两种问题,提取不同的局部描述子,接着利用聚类的方法得到两种码书:动作码书和作者码书。利用LDA和AM进行模型参数的学习和推断。
2)视频表示及码书
文中利用Dollar[3]提出的时空检测器进行兴趣点的检测,它能产生稳健的时空点,给定一组时空兴趣点的描述子后,建立了两种类型的码书,分别用来进行动作信息的表示和身份信息的表示。首先为了学习得到码书中的词项,首先将所有训练视频中的时空兴趣描述子进行聚类,本文采用K均值聚类的方法,每一个聚类中心对应码书(动作码书和身份码书)中的一个词项。
3)动作-身份模型
本文提出的动作身份模型是一个概率主题模型,因此可用图模型的方法表示,如图1所示。
其中ad表示身份信息,w1和w2分别表示动作码书和身份码书中的单词项。Nd1和Nd2分别表示动作单词和身份单词的个数,其余变量为隐含变量或模型参数。在这个生成模型中包含了两种类型的码书,w1和w2是分别来自动作码书和身份码书中的视觉词。 实际上,这个包含两种码书的动作身份模型正是LDA模型[4]和作者模型[5]的组合。在动作模型和身份模型相对独立时,可以将动作模型和身份模型分开进行学习和推断。尽管w1和w2来自不同的描述子,但他们都对应相同的时空点位置,只是在这个时空点上提取的特征不同。
3 实验及结果分析
本文在KTH 数据库上进行了测试。通过利用时空兴趣点局部特征以及采用隐主题模型进行动作身份分类,能够有效的克服这些因素的影响。实验结果表明本文的方法不仅能够对动作类别和位置进行识别,同时还能给出关于身份的信息。平均识别率的混淆矩阵如图3所示。6个主题的LDA模型对应的混淆矩阵如图3 (a)所示,这里采用的动作码书的大小为1000。关于身份模型的25类的混淆矩阵如图3 (b)所示,这里作者码书的大小也是1000。从图中可以看出,对于身份的识别具有一定的可判别性。
(a)动作分类的结果(b)身份的分类结果平均分类正确率(54.6%)。
实验结果表明本文的方法不仅能够对动作类别和位置进行识别,同时还能给出关于身份的信息。
结语
本文在时空兴趣点的基础上,提出了一种动作身份模型用来识别动作的类型、位置以及动作执行人的身份。文中将动作身份模型在三种数据库上进行了测试,验证了该方法的有效性。
参考文献
[1]Fabio, C. Using bilinear models for view-invariant action and identity recognition. in CVPR. 2006.
[2].Jack M.. Multifactor Gaussian process models for style-content separation. In ICML. 2007. Corvallis.
[3] Dollar, , Behavior recognition via sparse spatio-temporal features. IEEE Workshop on VSPETS, 2005: p. 1-8.
[4] Blei, D.M., Latent Dirichlet allocation, In JMLR, 2003. 3(4-5): p. 993-1022.
[5] M. Rosen-Zvi, The author-topic model for authors and documents. in Conference on UAI. 2004.
摘 要:早期动作识别的研究主要关注在简单背景及可控环境下单个人体动作的分类从而忽略了人的身份信息。本文主提出如何同时识别动作和身份。提出时空兴趣点不仅仅刻画了动作的时空属性,在采取不同的描述算子的情况下,它也能反映出关于动作执行人的身份信息。实验的结果验证了本文的想法。
关键词:动作识别;身份识别;码书;主题模型
中图分类号:TP915 文献标识码:A
1 概述
绝大多数用于识别的方法中,仅仅存在一种视觉码书。本文提出利用两种码书来进行视频表示。具体来说,用动作码书来表示动作,而用作者码书来表示身份。基本思想类似于文章的内容用主题来表示,而写文章的人用作者来表示。本文认为时空兴趣点不仅仅刻画了动作的时空属性,在采取不同的描述算子的情况下,它也能反映出关于动作执行人的身份信息。实验的结果验证了本文的想法。已经有一些文献致力于同时进行动作识别和身份验证。例如文献[1,2]。
2 动作身份模型
1)识别框架
基本框架如下:首先,利用时空兴趣点检测器提取局部时空点区域,然后分别对动作和身份两种问题,提取不同的局部描述子,接着利用聚类的方法得到两种码书:动作码书和作者码书。利用LDA和AM进行模型参数的学习和推断。
2)视频表示及码书
文中利用Dollar[3]提出的时空检测器进行兴趣点的检测,它能产生稳健的时空点,给定一组时空兴趣点的描述子后,建立了两种类型的码书,分别用来进行动作信息的表示和身份信息的表示。首先为了学习得到码书中的词项,首先将所有训练视频中的时空兴趣描述子进行聚类,本文采用K均值聚类的方法,每一个聚类中心对应码书(动作码书和身份码书)中的一个词项。
3)动作-身份模型
本文提出的动作身份模型是一个概率主题模型,因此可用图模型的方法表示,如图1所示。
其中ad表示身份信息,w1和w2分别表示动作码书和身份码书中的单词项。Nd1和Nd2分别表示动作单词和身份单词的个数,其余变量为隐含变量或模型参数。在这个生成模型中包含了两种类型的码书,w1和w2是分别来自动作码书和身份码书中的视觉词。 实际上,这个包含两种码书的动作身份模型正是LDA模型[4]和作者模型[5]的组合。在动作模型和身份模型相对独立时,可以将动作模型和身份模型分开进行学习和推断。尽管w1和w2来自不同的描述子,但他们都对应相同的时空点位置,只是在这个时空点上提取的特征不同。
3 实验及结果分析
本文在KTH 数据库上进行了测试。通过利用时空兴趣点局部特征以及采用隐主题模型进行动作身份分类,能够有效的克服这些因素的影响。实验结果表明本文的方法不仅能够对动作类别和位置进行识别,同时还能给出关于身份的信息。平均识别率的混淆矩阵如图3所示。6个主题的LDA模型对应的混淆矩阵如图3 (a)所示,这里采用的动作码书的大小为1000。关于身份模型的25类的混淆矩阵如图3 (b)所示,这里作者码书的大小也是1000。从图中可以看出,对于身份的识别具有一定的可判别性。
(a)动作分类的结果(b)身份的分类结果平均分类正确率(54.6%)。
实验结果表明本文的方法不仅能够对动作类别和位置进行识别,同时还能给出关于身份的信息。
结语
本文在时空兴趣点的基础上,提出了一种动作身份模型用来识别动作的类型、位置以及动作执行人的身份。文中将动作身份模型在三种数据库上进行了测试,验证了该方法的有效性。
参考文献
[1]Fabio, C. Using bilinear models for view-invariant action and identity recognition. in CVPR. 2006.
[2].Jack M.. Multifactor Gaussian process models for style-content separation. In ICML. 2007. Corvallis.
[3] Dollar, , Behavior recognition via sparse spatio-temporal features. IEEE Workshop on VSPETS, 2005: p. 1-8.
[4] Blei, D.M., Latent Dirichlet allocation, In JMLR, 2003. 3(4-5): p. 993-1022.
[5] M. Rosen-Zvi, The author-topic model for authors and documents. in Conference on UAI. 2004.