李 恒
(洛阳理工学院,河南 洛阳 471023)
在2012年的瑞士达沃斯世界经济论坛上大数据是一个重要主题,与会者发布了题为《大数据,大影响》(Big Data,Big Impact)的报告。《纽约时报》在2012年2月发表了《大数据的时代》(The Age of Big Data)的文章。2012年10月的《哈佛商业评论》中一半以上的内容和大数据相关。徐子沛的《大数据》,舍恩伯格的《大数据时代》和《删除》等也对大数据及其影响、大数据的分析等内容进行了介绍。《人民日报》也发表了多篇关于大数据的文章,如“2013被称为大数据元年:数据就是资源”“当‘大数据’来敲门”“大数据成信息技术领域热门概念”“数据时代,智者生存”“移动互联网和大数据挖掘”等,可见“大数据”已成为人们关心的一个热点词汇。
什么是大数据?《辞海》中定义数据为:电子计算机加工处理的对象。《大不列颠百科全书》对“data”的定义为“factual information(as measurements or statistics)used as a basis for reasoning,discussion,or calculation”。对于大数据的定义,维基百科和百度百科给出:大数据(bigdata),或称巨量资料,是现代数据中的一种,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。具有4V特点:Volume、Velocity、Variety、Veracity,即:数据量大,类型繁多,价值密度低,速度快、时效高。舍恩伯格在《大数据时代》中给出的定义与此一致。我国学者于洋给出的定义为“严格的解释是无法在容许的时间内用常规软件工具对其内容进行抓取、处理、分析的数据集合”。从上述定义中可以看出,大数据是数据中的一种,也是计算机加工处理的对象;是一种数据量大,多种类型混合,价值密度低,数据获得速度快,但难以在合理时间内快速处理的数据。所以笔者认为,在大数据时代能够快速低廉地找到任何想要的数据,但是整理数据,提取数据中的信息却相对困难。
由此可知,育明轮在艏倾时,主机每海里的油耗量比平吃水主机每海里油耗量都有所增加,能效营运水平都比平吃水时低,在较大的艉倾即吃水差为-1.4米时,主机每海里油耗量与平吃水相比有很大的增加,能效运营水平显著降低,在比较小的艉倾下,其运营能效水平有所提高,尤其在吃水差为-0.2米时主机每海里的油耗量最小,能效营运水平最高。
消费者价格指数(Consumer Price Index,简称 CPI)用来衡量住户消费的商品和服务的价格的平均变化情况。我国的CPI为一“篮子”消费品的价格变化百分比的加权平均数。
对于篮子的确定,使用全国12万户城乡居民家庭消费支出的抽样调查资料统一确定商品和服务项目的类别,将商品和服务项目分为:食品、烟酒及用品、衣着、家庭设备用品及服务、医疗保健及个人用品、交通和通信、娱乐教育文化用品及服务、居住等八大类。每个大类下分别依次划分中类、小类、基本分类,共39个种类,262个基本分类。每个基本分类下设一定数量的代表规格品作为经常性调查项目。各调查市县选择至少600种代表规格品,但不同调查市县的规格品不完全相同,如:粮食制品是国家统一确定的一个基本分类,北京选择的是馒头、火烧和大饼等规格品,贵阳选择的是米粉、卷粉和宽粉等规格品。若计算CPI中规格品的数量,则有成千上万种。代表规格品一年一定,如果某规格品在年内失去代表性或完全从市场上消失,就必须要进行更换。
在现阶段,由于篮子指数具有较强的可操作性,所以大部分国家都使用篮子指数。我国CPI也是篮子指数。
首先,中小企业管理制度内容不能全面化地涵盖企业管理中的日常工作。制定制度的管理者由于自身知识的缺乏,对岗位要求和内容等认识不清,因而不能很好地完善制度政策。如管理思想的偏差或管理细节的缺失导致企业管理效能不均衡。其次,管理制度内容缺乏针对性,容易在执行时产生监管不力的情况,制度较难以落实,对管理形式和管理方式提出了很大的挑战。最后,管理制度内容不能及时更迭。在当前经济时代发展迅速的时代,管理模式和管理方法及管理思想一定要紧跟时代潮流,但中小企业管理者在制定和修改制度的时候没有很好地结合当前的经济形势对管理制度进行修改。
在数据质量监控方面,已经启用了全新的数据采集管理系统。为这些调查员配备了CPI手持数据采集器,配备这一设备的调查员只要将现场采集到的价格信息输入其中,就能立即传送到国家统计局。这套系统还具有调查员定时定位、数据修改痕迹记忆等诸多功能,为确保源头数据的真实性提供了强有力的技术支撑。
CPI指数的汇总计算过程。首先计算各市的指数。各市指数计算时,分为两步:计算初级价格指数和计算较高层级价格指数。在计算初级价格指数时,使用Jevons指数,即:将基本分类下各代表规格品价格变动相对数或价格比的几何平均数作为该基本分类的指数。然后,采用对不同月份之间的指数采用链式法则计算。在较高层级指数的计算时,采用Young指数。即较高级的指数为下一级的价格指数的加权平均值。其中,权数主要也是根据全国12万户城乡居民家庭消费支出的抽样调查资料确定的,且每年适当调整。其次,按城乡居民消费支出金额加权平均各市的指数计算全省(区)指数(全省(区)城市和农村指数)。最后,计算全国指数。全国城市(农村)指数根据各省(区、市)指数按各地居民消费支出金额加权平均计算;全国指数根据全国城市和农村指数按城乡居民消费支出金额加权平均计算。
CPI的调整。为了保证CPI的科学性和准确性,对基期进行调整。我国自2001年计算CPI定基价格指数以来,首轮基期为2000年,第二轮基期为2005年,现基期为2010年。对比基期越久,价格规格品变化就越大,可比性就会下降。
理论上,消费者价格指数是衡量住户购买或以其他形式获得的、直接或间接用于满足自身需求的产品和服务在不同时间的价格变化指数。它可以从两个角度进行度量,一个是用户感受到的价格的上涨率;另一个是用户为维持自身的生活标准而所需支出金额的变化。从而形成了CPI的两个理论框架:一个是衡量商品和服务价格上涨率的价格变化指数,另一个是衡量在一定生活标准下生活费用增加情况的生活费用指数(cost-of-livingindex,COLI)。
设计完成后,对硬件和软件整体调试,对出现故障逐一排查,增强系统稳定性和实用性。硬件测试保证硬件设备正常运行,为软件调试提供了基础条件,验证系统软件的安全性,必须在硬件搭建基础上对系统进行实时运行。冷调库测试结果进行反复调试,直到符合设计要求,保证整个系统软件设计的可靠性和稳定程度,为将来的大面积推广应用提供有利的条件。系统[14-15]能够实时的监测环境温湿度以及气体浓度,测试结果如图8所示。
对于价格变化指数,既可以采用普查的数据,也可以使用调查的数据。所谓使用普查的数据就是将住户购买的产品和服务的价格变化进行计算,并基于适当的加权方法估计该指数。所谓使用调查数据的方法就是篮子指数(fixed-basket index),从住户购买的产品和服务中抽出一部分作为样本,依据该样本的价格变化来计算估计该指数。而生活费用指数因于使用效应函数刻画住户的生活水平,而住户的每一种消费品种可能都会影响到其效应函数的变化。所以,使用的是普查数据,即用户购买的所有的产品和服务的价格。
从调查问卷中可知:26%的学生对于无教师看管的自习课会自觉学习,65%的学生会选择小声聊天或讨论学习,令人遗憾的是,9%的学生会选择看杂志或干脆睡觉。调查结果还表明,60%的学生对学习的热情较高,30%的学生对学习的热情中等,10%的学生害怕学习。学生害怕学习或讨厌某些课程的根本原因与该课程的实用价值紧密相关。70%的学生对与现实生活联系紧、实用性强的语文、数学、物理、化学、劳技学习热情较高,而对学术性较强的历史、地理、生物、英语不感兴趣。在学生讨厌的课程中,英语是核心课程之一。
如果能够廉价地收集到住户购买的所有的产品和服务在前一期和当期的价格以及交易量,那么不仅可以使用普查的数据计算价格变化指数,而且可以计算篮子指数。同时,若能够对不同住户的效应函数找出解析式,则可以同时计算出生活费用指数。
1) 传统加工作坊。传统加工小作坊遍布于全国各竹区,主要分布于首都亚的斯亚贝巴、阿姆哈拉州的因吉巴拉和南方州的塞达玛。目前,亚的斯亚贝巴的传统作坊有20多家;人数约100多人。生产人员均为2005年和2006年中国在埃塞俄比亚举办的竹子加工培训班及其以后国际竹藤组织竹子培训班的学员。加工利用方向包括:房屋建造,外墙及屋顶装饰,小桥,脚手架;竹椅、竹沙发、竹茶几、竹凳、竹柜、竹橱等各式家具;竹篓、竹筐、竹篮、竹灯笼、竹篾板等各种日常用具。销售一般限于亚的斯亚贝巴市内、一些度假区以及南部咖啡产区(竹席用于咖啡凉晒)。
在数据收集环节。国家统计局在各地成立了直属调查队,一直采用派人直接调查方式收集原始价格资料,目前分布在31个省(区、市)500个调查市县的价格调查员有4 000人左右。价格调查员在31个省(区、市)共500个调查市县的5万个商业业态、农贸市场,以及医院、电影院等提供服务消费的单位(统称为价格调查点)收集原始数据。对于CPI中的粮食、猪牛羊肉、蔬菜等与居民生活密切相关、价格变动相对比较频繁的食品,每5天调查一次价格;对于服装鞋帽、耐用消费品、交通通信工具等大部分工业产品,每月调查2~3次价格;对于水、电等政府定价项目,每月调查核实一次价格。
第一类为抽样误差。首先,城乡居民家庭消费支出调查中的样本代表性误差。第六次人口普查显示,家庭数目多,现有家庭4亿多户;民族种类多,现有56个民族;覆盖范围广,跨越了热带、温带、寒带等不同的气候带;地貌特征多,既有平原也有高原、丘陵等。从而在不同的地域形成了不同的消费模式和消费习惯,所以在居民家庭消费支出调查中也将存在样本代表性误差。其次,篮子商品和服务的代表性误差。对于市场上存在的商品和服务的类型多至百万以上,其中有的是全国范围内流通,有的仅在某区域内流通,有的是不完全流通。所以从这么多的商品和服务中选择一定的商品和服务作为篮子将带来一定的误差。再次,调查市县选择的代表性误差。截至2011年底,我国共有332个地级区,2 853个县级区,从这些区中抽取500个作为调查市县。同时,即使在同一个市县,也存在不同的民族、不同的地貌,从而存在不同的消费构成。所以,抽样市县的选择也存在代表性误差。最后,价格调查点选择带来的代表性误差。价格调查点的确定是以零售额或经营规模为标志从高到低排队后,使用等距抽样,同时按照各种商业业态兼顾,大小兼顾以及区域分布合理的原则进行适当调整。但是,也同样存在代表性误差。
第二类为非调查误差。包括交易价格调查误差和支出调查的数据误差。在这两个调查中,都可能存在缺失数据误差、填写误差、敏感性回答误差等不同类型的误差。缺失数据误差是指由于调查数据不完全带来的误差。如在居民支出调查中,某用户对自己的某项支出没有填写,从而引起数据缺失带来误差;填写误差是指在填写过程中,由于书写问题引起的误差,如误将1写成了7,小数点位数错误等;由于这两个调查中都涉及到价格的问题,从而使得存在敏感性问题误差,如某低收入家庭购买的商品是促销商品,但是在居民支出调查中却按照正常的价格进行填写等。
CPI中的数据应该是购买者的购买价格,不是大多数交易点采集的价格,仅是采集员在采集点观测或记录的标价,或者是该交易点提供给采价员的价格,这些价格不一定是真实的交易价格。因为实际支付的购买价格,会因为多种原因,如打折、促销、讨价还价等,使得实际支付的价格和广告价格和交易点的价格不同。
第三类为模型计算误差。首先,指数选择误差。我国的CPI是基于链式定基Lowe指数。该指数不满足传递性,从而在计算时,该估计值一般高于真实值,并且与基期越远,该偏差也将越大。其次,逐级汇总带来计算误差。我国现行的计算方法是逐级汇总,即首先计算各市县的指数;然后汇总到省,计算省级的指数;最后将省级指数汇总到国家层面,计算全国的指数。由于在每次计算时都存在计算误差。所以,这种逐级汇总的方法将增加计算误差。
在上述几种误差中,如果数据都可以低廉快速地获得,那么,将不再需要设置调查市县和价格调查点,但由于商品和服务的数量太多,为了数据处理的需要,仍将选择篮子商品和服务以及居民消费支出调查中的家庭样本。由于所有交易数据可使用,所以不存在缺失数据、填写误差和敏感性问题误差,故调查误差将大大降低。在计算过程中,不再需要逐级汇总,而不同级别的指数都在统一数据库中数据的基础上分别计算,从而不再存在汇总误差;由于过去各期的商品和服务的交易价格以及交易数量的数据都可以获得,从而不再需要确定基期,可以降低误差;并且能够同时计算多种类型的指数,如Laspeyres指数、Paasche指数、Fisher理想指数等。
“我那天钱少,就只买了这么几枚。这枚‘广政通宝’,我是花了6 0 0 0 0元买下来。这枚‘靖康通宝’是5 0 0 0 0元。这枚‘崇庆通宝’是……”中年人如数家珍。
在我国现行的CPI指数的计算过程中,需要用到的数据为:篮子商品和服务在基期、上一期和当期的价格,以及基期的支出数量。从而,需要通过调查的方法获得上述数据,在此过程中主要存在以下几种误差:
在大数据时代,CPI计算需要的数据可以通过不同部门的数据库、不同区域的数据系统、甚至用户的行为数据等多种途径获得,这种数据获得方法不同于现在的抽样调查方法,从而将改变现有的数据收集方法。工作的重心转移到从已经储存下来的大量的、散乱的数据集中筛选整理出满足本需要的数据。在居民支出调查中,不再向住户要数据,而是向不同的数据集要数据;同样,消费价格指数调查中也不再在价格调查点记录数据,而是向不同的数据集要数据。
首先,统计系统的人员编组需要调整。现为了CPI指数的调查,在全国范围内,分为国家、省市、地市、县区四级管理体系中,共有价格调查员有4 000人左右。这些统计工作者的工作重心在于原始数据的收集、汇总。当原始数据能够廉价获得的时候,原有的四级管理体系将发生改变,可以研究仅有国家一级的CPI中心,也可以采用国家、省市两级的CPI中心模式。在前一种模式中,可以分别计算全国和各省市的CPI指数以及CPI各种分类指数;在后一种模式中,国家级的CPI中心仅计算全国的CPI指数以及CPI各种分类指数,而各个省市的计算自己省市的CPI指数以及CPI各种分类指数。对于不同模式的选择需要考虑现实情况。同样,由于不再需要原始数据的收集工作,所以统计工作者的数量将会大幅度地减少。
在现阶段,我国CPI数据的收集,主要通过两个调查:居民消费支出调查和消费价格指数统计调查。在第一个调查中,需要12万户家庭作为样本,记录自己每天的详细生活支出的数量、价格等商品信息,然后向上逐级汇总上报;在消费价格指数统计调查中,统计人员需要到全国5万个价格调查点,现场统计交易价格,且并非每日统计,而是根据商品的特性划分成不同间隔类型的采样商品。在这两个调查中,都需要质量监控方法对调查的数据进行监控,也需要数据质量的评估方法对数据质量进行评估。如在消费价格指数调查中要求采用“三定(定点、定时、定人)”原则进行收集调查登记,实际采价时要求同一规格品的价格必须与上期同质可比,即产品性质基本相同可以进行比较等等。
其次,统计工作更加专业化。统计工作者的工作重心将由数据收集转移到数据整理和数据分析上。在此过程中,统计工作者至少需要以下几种能力:掌握计算机操作能力,尤其是大型数据库的搜索能力、数据的读写能力、数据格式的转换等;掌握统计指数的计算方法,由于数据种类和数据量巨大,使得计算多种类型的指数成为可能,因此,统计工作人员需要掌握各种指数的原理、方法、优缺点等,并能够利用数据计算不同种类的指数;掌握数据质量的评价方法,对于已形成的数据集中的数据,需要形成一种新的数据质量评估方法,统计工作者需要对这些评估方法的原理、过程及优缺点非常熟悉。
最后,统计部门的权限有待进一步提高。在大数据时代,大量的数据存储于不同的部门或不同的企业之间,而统计系统想要使用这些数据,则需要与这些不同的单位进行协调与沟通,进而获得相应的使用权限。同时,由于部分数据设计商业机密或部门利益,所以在数据收集过程中,将会遇到一些实际困难。因此,应该从国家层面建立一个数据管理中心,对不同的单位设置不同的权限,对个人或法人隐私进行保护,从而形成一个完整系统的数据世界。
根据才府玻璃招股说明书,其所处玻璃包装容器年产量、行业利润总额近年来呈现明显的下滑态势。玻璃包装容器年产量从2015年和2016年的2047万吨和2064万吨的高峰下滑到2017年的1827.53万吨。行业利润总额也在2015年达到顶峰后开始滑落,2015年至2017年分别为:52.71亿元、49.77亿元和45.97亿元。
第一步:确定要计算的指数是价格变化指数,还是生活费用指数。确定使用的指数类型:Laspeyres指数,Paasche指数,Fisher指数等;当然,为了计算的方便和指数的连续,可以使用篮子指数,从而确定篮子中的商品和服务。确定商品缺失时的替代方案和质量调整方案。
第二步:通过不同的现有数据集对数据进行收集整理,完成数据的收集与整理。这一步是当前CPI调查中任务量较大的一步;但在大数据时代这一步需要的人力物力会大幅度的减少。同时,当前CPI调查中,能够最调查过程的非抽样误差进行控制,而在大数据时代对调查过程的非抽样误差的控制已经不在统计部门的工作范围内。
第三步:对收集的数据进行评估。如果通过评估则进入下一步;否则,则对数据重新收集与整理。这一步与现阶段的CPI调查过程中的数据质量评估类似,但是由于多途径获得数据或交叉数据存在的可能,因此评估的方法和方式也将进一步的得到改进。
第四步:计算CPI。利用整理好的数据和计算公式计算CPI的值;并根据相关要求对指数进行适当调整。
[1]Ewing,Ian,Ha,Yuong,and Mai,Brendan.What Should the Consumers Price Index Measure?[J].Statistics New Zealand paper prepared for the 2004 Consumer Price Index Revision Advisory Committee,2004.
[2] 大数据,http://zh.wikipedia.org/zh/%E5%A4%A7%E6%95%B0%E6%8D%AE.
[3] 百度百科,http://baike.baidu.com/view/6954399.htm.
[4]Hann J.De.,Heymerik A.Van der Grient,Eliminating Chain Drift in Price Indexes Based on Scanner Data[J].Journal of Econometrics,2011,(161):36-46.
[5]United nations.Practical guide to producing consumer price indices[M].2009.
[6]陈相成,乔晗.扫描数据支持下CPI编制方法研究[J].统计研究,2013,(1).
[7]国际劳工组织,等.消费者价格指数手册:理论与实践[M].北京:中国财政经济出版社,2008.
[8][美]维克托·迈尔—舍恩伯格,肯尼思·库克耶.大数据时代:生活、工作与思维的大变革[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013.
[9]徐强.CPI编制中的几个基本问题探析[J].统计研究.2007,(8).
[10]余建斌,赵展慧.大数据成信息技术领域热门概念[N].人民日报,2013-02-23.
[11]于洋.数据时代,智者生存[N].人民日报,2013-01-24.