多视点视频编码技术的专利分析

2012-06-29 01:37张维克龙玄耀

电视技术 2012年2期

张维克，龙玄耀

（国家知识产权局专利局专利审查协作北京中心，北京 100190）

多视点视频[1-2]是一种即将出现的交互式多媒体应用，而生成多视点视频的多视编码技术在立体电视、立体视频会议、多视点视频点播等领域都有着非常广泛的应用前景。但是，相比于现有的单视点视频，由于增加了多个数据源设备，多视点视频毫无疑问存在产生数据量过大的问题，目前，国内外各大厂商、国内外的科研机构、国内外高校都在积极的研发多视点编码技术，近几年的专利申请量也在不断增加，本文对多视点编码技术的相关专利做了初步的统计，并针对厂商和高校联合申请的案例进行分析，提出了产研结合的可行性。

1 MVC技术的基本介绍

多视点视频是指，在场景中放置不同角度的多个视频采集设备，记录多个视角的视频，用户通过视点选择观看更加真实的场景，它是一种有效的3D视频表示方法，能够生动地再现场景，提供立体感和交互功能。图1给出了多视点视频的典型拍摄场景[3]和序列示例[4]。

但是，多个视点导致采集的数据量过大，因此，为了可以像目前的高清视频点播一样能真正地实现产业化应用，也就必然需要使用数据压缩方法减小数据量，以适应所能提供的带宽或存储媒体。

2 专利文献库选取及检索结果的可靠性

统计使用了中国专利全文数据库CNTXT，之所以选用全文数据库，是考虑到大多数外国申请并不会在摘要或权利要求中记载例如多视点视频编码这样的描述，而往往会在说明书的背景技术部分或具体的实施方式中，写明技术方案会应用在多视点视频编码中。

采用了关键词“多视点视频编码、多视角视频编码、多视点编码、多视视频编码、多视编码、多视角编码、多视点编码”进行了“或”操作检索，之所以采用上述关键词，是因为作者通过初次检索的大范围浏览以及对网络上和学术届对于多视点视频编码技术MVC的叫法进行了全方位的考察，收集了领域内所有可能的叫法，而未采用MVC进行检索的原因是，MVC还可能是其他的专业术语的简称。

通过“或”检索操作，最终得到239篇专利文献结果，为了使统计结果更为准确，作者通过浏览每一篇文献的具体内容筛选出191篇文献，其余的48篇都存在边缘领域或者跨领域的问题，即核心思想并不是关于MVC技术的。

3 统计结果分析

下面我们将针对这191篇文献进行统计，以得出后续的结论。

3.1 专利申请趋势

由于2011年的很多专利申请未满18个月，尚未公开，并且从公开的申请人来看，18件中的17件都是中国申请，因考虑到习惯于晚公开的外国申请，实际数字应远多于18件。从上述的统计数字不难看到，从2006年开始，多视点视频编码技术的专利申请呈现了保持较为稳定的申请数量的趋势，并且在2007年、2009年都超过了40件。

3.2 各公司战略

申请量排名前五名分别是汤姆逊公司31件、华为公司20件、清华大学20件、索尼公司16件、三星公司15件、宁波大学15件。

从申请的国别来看，国内申请为92件，约占全部申请的48%，这也一定程度上表明了国内在这一前沿领域的研发关注度，在这92件专利申请中，55件为大学申请。

从专利申请所要解决的技术问题来看，主要涉及如下几个方面的研究：时间和空间预测结构的设计、视点预测、视点间运动信息的预测、视点间的亮度补偿、视点间的颜色补偿、虚拟视图合成预测、自适应参考图像滤波、高层语法设计等几个方面。我们重点关注申请量最高的汤姆逊公司的研发动态，结果显示，汤姆逊的研发重点主要集中在高级语法的设计，同时也涉及了颜色补偿、滤波、预测结构的设计等方面。相比于汤姆逊公司的研发重点，国内公司的研究集中在视点预测、视点间运动信息的预测、预测结构的设计、亮度和颜色补偿这几个方面。

高级语法设计是MVC语法和语义的设计，汤姆逊关注语法设计也就是在关注主导编码形成的协议，这也是编码形成、传输的基础，我们都知道，编码效率的提高可能意味着硬件或软件运算成本的增加，国内申请人尤其是大学申请人关注的编码方法的改进能否产业化，是值得我们思考的问题。

3.3 专利质量和专利保护意识

权利要求决定了保护范围，因此，我们使用了独立权利要求的字数来量化保护范围的大小，字数越多粗略认定为保护范围越大，从这个数字的统计我们尝试了解申请人对某项技术的保护意愿，也从某种程度上反映了专利的质量，这里将“字数在100字以内”的权利要求认定为核心专利，统计结果表明：这191件专利申请中有25件核心专利，其中国外申请20件，以汤姆逊公司的13件为最多，国内的核心专利仅为5件，其中华为公司占了其中的4件。我们还发现，国内的大量申请出现了权利要求字数超过1000字的情况，从保护范围的角度来说，这样的权利要求是没有价值的，也无法合理的保护相应的产品或方法，国内申请人应当重视权利要求的字数在后续保护中的作用，仔细、合理地确定出提交的专利申请的保护范围，发挥出专利权的最大效用。

其次，根据专利法第二十九条的规定，申请人就相同主题的发明或者实用新型在外国第一次提出专利申请之日起12个月内，又在中国提出申请的，依照该国同中国签订的协议或者共同参加的国际条约，或者依照相互承认优先权的原则，可以享有外国优先权。而对于本国申请人来说，只须在本国第一次提出专利申请后又在12个月之内向本国专利局提出专利申请，就可以享受优先权。优先权的12个月可以给予申请人更多的时间来完善和优化专利申请的技术方案，能够划定专利审查时对比文件的时间线，改变专利类型，还可以解决不同国家专利申请时间上的协调问题，因此，对是否使用优先权进行统计来比较国内外申请人在利用优先权方面的差别，统计结果表明：62件专利申请享受了优先权权利，其中仅有1件香港应用科技研究院有限公司的申请享受了优先权。从统计结果不难看出，国内申请人还没有使用优先权这一项针对申请人权利的意识，从专利的审查角度来看，大量的国内专利申请因为没有优先权日而被审查员使用申请日之前12个月以内的对比文件评述了新颖性或创造性，因此，国内的专利申请人应该尝试使用针对申请人的权利来保护自己的利益。

4 产研结合的可行性

在这一部分，将对大学和公司的联合专利申请的研发水平进行分析，通过与单独的公司申请和大学申请的比较，证明国内公司和大学联合研发提交专利申请的可行性。

案例一：CN101056398A

华为公司和清华大学的联合申请，涉及一种视差向量的估计方法，现有的视差估计使用传统单视点视频编码工具进行多视编码，通常视差矢量的动态范围比较大，以大小为640×480像素的图像为例，在立体对中，水平位移在30～50个像素的情况可能会经常出现，有时甚至可达100个像素以上，而运动矢量则不会有如此大的动态范围，因此，由于视差矢量的动态范围比较大，若采用传统单视视频编码中的运动估值方法，则需要将搜索范围设得非常大，而且，无法保证会获得很好的效果。在此基础上，本发明专利申请仅对任意两个视点进行基于块搜索的视差向量估计，而对于需要编码的两个视点，则利用已估计的任意两个视点的视差向量结合需要编码的视点与所述任意两个视点位置的线性关系计算得到需要编码的两个视点的视差向量，与传统的技术相比，该发明专利申请利用线性计算代替块搜索，减少了计算复杂度，有益于产业应用。该申请目前已进入复审阶段，申请人并不认同审查意见，表明了该申请的重要性。并且请求保护的权利要求字数仅为128字，这也说明了联合申请人获取较大保护范围的意愿，从某种程度上也反映了该申请的研发水平。

案例二：CN101483765A

华为公司和清华大学的联合申请，涉及一种多视编解码方法，现有技术中，由于摄像机移动前后的图像可能差别较大，因此，在摄像机移动前后的图像互为参考时，预测的效果会较差。这种情况下前后内容联系不紧密的图像仍使用原始分辨率或尺寸进行编码也会导致占用较多的比特数，影响编码效率，并且也会占用比较多的编码和解码资源。与传统的技术相比，该发明专利申请根据获取图像的摄像机参数、物体的深度信息及至少两个视的图像对至少一个视的图像进行更新处理，以获得编码或解码过程中期望的输出图像。由于使用了深度信息和摄像机参数，两个视之间图像内容的相关性能够较精确获得。通过上述处理可以使得当前待编码图像或待解码图像的部分或全部内容使用其它视的图像进行预测，从而减少当前待编码图像的编码比特数，降低待编解码图像的计算负担，减少了运算成本。该申请已授权，且请求保护的权利要求字数仅为90字，这也说明了联合申请人获取较大保护范围的意愿，从某种程度上反映了申请的研发水平。

案例三：CN 101222638 A

同样是华为公司和清华大学的联合申请，涉及一种预测结构的设计方法，要解决的问题是：在参考帧列表的构建过程，通常需要将预测效果较好的图像排列于参考图像列表的前面，以便于优先选择作为当前图像的参考图像。但是，目前在多视视频编码对应的缓冲区中，还没有提供一种处理机制可以保证缓冲区中的图像满足按照最优预测效果排序的原则。在本发明专利申请中，根据当前图像和参考图像的位置关系分别得到空间距离和时间距离，之后，便可以利用两距离值查表得到对应的参考距离，再对参考帧排序，参考距离越小，在参考帧列表中越靠前，以保证参考效果较佳的参考图像被优先选用，从而可以有效的提高编码效率。该申请已授权，请求保护的权利要求字数为119字。

此外，LG公司和延世大学、日本电信电话公司和名古屋大学、韩国电子通信公司和延世大学、三星公司和世宗大学、三星公司和庆熙大学、华为公司和中国科学技术大学，也都先后提交多份关于多视编解码技术的联合专利申请，从这些联合专利申请的质量、保护范围的大小以及案件的法律状态来看，都具备了相当的研发水平。不仅利用了高校在学术研究方面的能力，也兼具了技术产业化的视野。而高校的单独申请往往具备了一定的学术高度，却脱离了产业，使得专利的本质属性“保护”无从体现，丧失了专利本身的意义；公司申请则往往过于浅显，仅仅是一些好的主意和点子，虽然也有一些技术上的改进，但由于缺乏理论支撑，很难涉足上游的高端技术，因此，在中国范围内，这些新技术公司可以利用大量的学术资源，来共同促进产业能力的提升，使得我们的公司具备上游产业竞争力。

5 结语

从以上的分析可以看出，目前在中国申请的以多视点编码技术为主题的专利申请呈现出以下特征：

1）处于稳定的发展趋势。

由于立体电视还没有普及，并且人们对于立体电视的交互性还没有概念，目前在中国的有关多视点编码技术的发明专利申请的申请量并不大，但是随着立体电视的出现和人们对于交互性的需求，该技术必将受到关注，专利申请量也会增长。

2）各个公司的研发重点不尽相同。

由于各个公司的研发实力、产品针对性以及企业战略的不同，也形成了不同的研发侧重点，研发主要分布于时间和空间预测结构的设计、视点的预测、视点间运动信息的预测、视点间的亮度补偿、视点间的颜色补偿、虚拟视图合成预测、自适应参考图像滤波、高层语法设计等几个方面。视频技术的领军公司汤姆逊更多地关注协议这种语法层面的技术，而国内公司侧重于编码的细节技术。

3）国内外公司专利质量和保护意识的差别。

国外公司更注重权利要求的范围和对优先权的使用，而国内的公司和高校则相对缺乏这方面的意识。

4）产研结合初见成效。

华为公司联合高校进行技术研发，并获得了较大保护范围的发明专利，值得国内的公司仿效学习。

[1]MPEG Video Subgroup.Introduction to multi-view video coding[R].[S.l.]：MPEG Video Subgroup，2008.

[2]HE Y，OSTERMANN J,TANIMOTO M.Introduction to the special section on multiview video coding[J].IEEE Trans.Circuits and Systems for Video Technology，2007，17（11）：1433-1435.

[3]FRAUNHOFER H I.HNI test material for 3D video[R].[S.l.]：MPEG，2008.

[4]SU Y P，VETRO A，SMOLIC A.A common test conditions for multi-view video coding：JVT-U211[R].[S.l.]：JVT，2006.