李桥兴,胡雨晴
(1.贵州大学管理学院,2.贵州大学喀斯特地区发展战略研究中心,贵州贵阳 550025)
大数据作为信息时代的重要标志之一,已上升至国家战略并成为国家之间获取竞争优势的焦点和手段。在全球范围内,大数据正逐渐发展成为一种评估国家实力的全新要素[1],各国纷纷把大数据作为国家重要的基础性战略资源,并将大数据技术运用于推动经济发展、改善民生和提升国家治理能力等方面。我国自十八届五中全会提出“实施国家大数据战略”以来,大数据产业已具备一定的发展优势,技术创新取得明显突破,应用服务也在不断推进,同时呈现出丰富的产业形态。大数据产业不仅涉及交通、通信、工业等众多传统行业,其他几乎所有产业都可能与大数据相关,并且不断促进一大批新兴业态产生。实践先行,在商界和政界采用大数据进行技术创新和产业发展不断取得新突破的同时,学术界也正在思考大数据产业的理论架构。尽管大数据产业的相关研究已经取得了初步成果,但其基本问题如产业内涵、产业外延及其特征等方面还未形成普遍共识。商界和政界也热切期望学界能够在理论上尽快取得进展,以便于指导大数据产业的发展实践。本研究旨在探讨大数据产业的内涵、类别及其特征,并提出大数据企业的模糊识别方法,为大数据产业的未来发展与政策制定等提供理论指导和参考依据。
“大数据”的概念最早起源于美国,并由麦肯锡公司宣称“大数据时代”到来,此后大数据逐渐受到各行各业乃至各国的关注。目前关于“大数据”的认识尚未达成完全统一,美国Gartner公司指出“大数据”是需要利用新技术手段进行处理的海量、高速、类型多样的信息财富[2]。国外学者Yoo S等[3]通过案例分析出大数据产业的服务模式主要分为引入、成长和成熟三个阶段。经整理发现,国外针对大数据产业的相关研究主要采用将大数据结合某产业再进行具体分析的方法。如Mohammadpoor M[4]提出大数据在油气行业中能够呈现出包括体积、种类、速度、准确性、价值和复杂性等方面的六个主要特征。还有学者研究大数据分析及技术在工业、建筑业、能源密集型制造业、供应链管理等行业方面的作用及意义[5-8]。国外研究侧重于从大数据应用层面对大数据产业基础理论进行丰富。
2014年,“大数据”首次写入我国《政府工作报告》。李克强总理指出:“设立新兴产业创业创新平台,在新一代移动通信、集成电路、大数据、先进制造、新能源、新材料等方面赶超先进,引领未来产业发展”[9]。这也是国内首次将大数据与产业结合到一起并指出大数据为新兴产业的一种。目前国内针对大数据产业的相关研究成果基本集中于基础理论问题,如内涵特征、产业分类、影响因素、技术效率等方面。本节根据研究需要针对内涵特征与产业分类等文献进行述评。
(1)关于大数据产业的内涵界定。学术界因理解视角的差异而尚未对大数据产业的内涵形成共识。部分学者认为大数据产业实质上是一类信息服务产业。具体来说,大数据产业是建立在互联网、物联网的基础上关于数据服务的一系列产业的总和,涉及到数据采集、加工、处理以及相关的软硬件制造和研发等,主要由互联网行业引领发展并能够快速向传统行业延伸[10]。由此,大数据产业也可看作是关于信息传输、软件、计算机等现代信息技术产业的下属产业。还有部分学者结合产业概念来界定大数据产业的内涵。这类观点普遍认为大数据产业涵盖了关于大数据产生、管理、分析和应用服务的一切经济活动,是通过对自身生产的数据或对获取的数据进行挖掘、应用以创造价值的经济活动部门[11]。第一类观点较第二类观点而言,更偏向于探究大数据产业的产业归属问题,主要认为大数据产业应从属于第三产业,是与信息、计算机、数据等相关的服务业;第二类观点则主要从产业本身的角度出发,对大数据产业的内涵进行剖析。两类观点的侧重点和论述角度各有不同,表明学术界对大数据产业的内涵认知还不够清晰具体。
(2)关于大数据产业特征的研究。该方面成果可概括为两类:一类是大数据产业的发展问题特征研究,主要剖析了我国大数据产业在发展过程中呈现的若干问题特征,即存在大数据浮夸现象、垂直化发展趋势明显、大数据产业生态体系尚未健全等[10]。较国外而言,我国大数据产业链并不十分完善,产业创新急需核心技术[12]。另一类是关于大数据产业本身的特征研究,主要集中在数据、技术、决策、服务4个方面,包括数据资产化,即不断更新的海量数据逐渐成为关系到企业乃至国家之间竞争的一项重要资产[11];技术高创新性,即大数据产业技术需要不断进行革新才能够对大数据进行有效获取、挖掘和应用,也暗示着技术含量较高,要求相关人员具备相应的专业水平[13];决策智能化,即利用总体数据克服决策者的有限理性[14];服务个性化,即通过对大数据进行挖掘来提供精准服务[15]。这些研究对大数据产业特征作了概括论述,但并未将其细分与区分。因此,还需要对大数据产业特征进行更深层次、更全面的研究。
(3)关于大数据产业的分类研究。目前国内外学术界对于大数据产业的分类并没有统一规定,而且研究成果主要为定性研究并基于不同视角有不同的划分模式。尽管如此,国内外学术界普遍认为大数据产业的分类大致可分为数据提供、数据服务提供、基础设施提供以及数据应用等四大类别[16]。
总结以上文献发现,目前大数据产业的内涵特征和产业分类等基础研究,一方面由于理论视角的差异导致大数据产业内涵不一致,又鉴于特征是围绕内涵展开,因此产业内涵不一致也导致了产业特征的研究差异;另一方面,产业分类是建立在产业内涵及其特征基础上构成的产业概括,而大数据产业的内涵及其特征的不统一也使得大数据产业分类的不明确,导致识别上具有及较大的模糊性,从而妨碍大数据产业/企业的判别以及国民经济统计核算等实践活动的开展,同时也鲜有文献采用定量方法对大数据产业进行识别研究。鉴于此,本文从产业经济学理论出发,分析大数据产业的内涵与分类,剖析大数据产业的属性特征和类别特征,并构造模糊隶属度函数对大数据企业进行模糊识别。
产业是企业的集合体,因而大数据企业和大数据产业具有一致的内涵和属性。辨证唯物观认为,事物的内涵决定其属性。因此,本节首先界定大数据产业/企业的内涵,其次根据内涵探讨其属性特征。
产业经济学认为,基于同类属性经济活动的集合形成产业,即同一产业所有的经济活动都具有相同或相近的性质[17],因而大数据产业可归纳为具有某种同类属性的所有经济活动的集合。这里需要明确大数据产业具有何种同类属性。首先,大数据产业的出发点和落脚点均为大数据,是围绕大数据如何从产生到应用服务的整个生命周期而全面展开,因此大数据产业应以开发、提取并应用大数据价值为其基本属性。其次,大数据产业作为一种经济活动,涵盖了大数据从产生、采集、传输、存储、处理、分析到应用服务等整个价值实现流程,因而在这个实现流程内所涉及的所有经济活动个体,均可归属于大数据产业。基于以上分析,大数据产业就是由具有大数据价值这一基本属性并为实现该属性而从事一系列经济活动的联合体而构成。这个联合体的组成单位即大数据企业,则是指把大数据作为生产要素并采用大数据的构成要素如海量数据资源、大数据思维模式、大数据科学技术等向市场或消费者提供有关大数据的商品或服务的社会经济组织。因此,基于实现大数据价值这个共同属性的各个大数据企业的经济活动总和共同构成大数据产业这一联合体。这里需要注意的是,处于这一联合体中的大数据企业并非只从事某项单一而可能从事多种类型的经济活动,即跨行业经营。按照产业经济学的观点,只要某一企业具备“实现大数据价值”的基本属性则可被认为是大数据企业并成为大数据产业的组成个体。因此,大数据产业不能被简单地采用三次产业分类法进行归类,不能简单地归入到三大产业中的任一产业,它是独立于现有的一、二、三产业的融合性产业。按照部分学者近期提出的六次产业划分理论[18],虽然大数据产业的部分企业可被归入到第四产业中,但“数据生产”这个环节也是实现大数据价值的经济活动,即满足“大数据产业的基本属性”,因而其相关企业也属于大数据产业,但显然该类型企业又明显地被归入到第一或二产业中。因此,即使基于六次产业划分理论也不能将大数据产业简单地归入到其中某单一类型产业中。鉴于此,任一产业都可以部分而非全部地产生有关“实现大数据价值”的经济活动,从而构成大数据产业的企业并不仅仅局限于某单一产业内部。另外,大数据产业的融合性在于不论是一产、二产还是三产,凡是涉及对大数据价值进行开发、提取和应用的企业经济活动都属于大数据产业的一部分,即大数据产业是由基于“实现大数据价值”这一同类属性前提下来自不同产业的大数据企业所构成。根据以上大数据产业/企业的内涵分析并参考其他学者的研究成果,本节给出大数据产业的价值实现流程如图1所示。
图1 大数据价值实现流程
实现大数据价值是大数据产业的内在要求。大数据企业作为大数据产业的组成单位,涵盖了与大数据产业内在要求相关的经济活动。明确某一企业是否为大数据企业,实质上就是在判断其是否属于大数据产业。因此,大数据企业的属性特征其实等同于大数据产业的属性特征。基于IBM提出的大数据具有海量、多源异构、高速、低价值密度和真实性等5大特征[19],同时参考其他学者关于大数据产业特征的研究成果,本节依据上节成果重新提炼出大数据产业(企业)的4大基本属性特征,即数据涌现性、信息技术性、强实时性和高融合性,并分别细化相应的二级指标和三级指标,可用于判别某企业是否属于大数据企业,从而是否属于大数据产业。以下将逐一进行阐述。
2.2.1 数据涌现性
复杂性科学认为,涌现是指各部分通过特定关系作用使得整体具有而部分所不具有的属性、特征或功能等特性,就算是几个简单的要素经过相互作用都可能涌现出复杂的特性。数据涌现性指通过大量快速增长的数据彼此之间相互作用能够呈现出原本所不具备的复杂特性,是一种复杂性思维的体现。与其他产业不同,大数据产业的核心要素为大数据,其与普遍意义上的数据不同。根据大数据具有海量、多源异构和高速性等特征,大数据产业/企业的数据涌现性主要体现在来源广泛并类型各异的数据以高速度增长,能够在较短时间内形成PB级及以上的庞大复杂数据集。由于相关应用主体过去对数据的标准化要求较高,导致各应用客体所产生的非标准数据往往被作为无效数据而被排除。在大数据产业中,即使是非标准化即半结构化或非结构化数据都成为宝贵的资源,更何况海量、高速的大数据。大数据产业的各构成部分(行业或企业)可看作是一个个相对独立的复杂系统,各应用主体将某一或某些企业(行业)中所包含设计、生产、加工、销售等所有的数据汇聚到一起以后,这些数据自身内部将呈现丰富的非线性相互作用。这种由非线性相互作用所产生的相关关系能够揭示出该企业(行业)原本所无法被呈现的特性,并为企业(行业)的未来发展提供宝贵的价值。在大数据企业中,这种相关关系比因果关系更具价值意义[20]。同时,这些复杂的数据集又从属于该企业(即系统)的更上一层系统(如行业或产业)的大数据集之一。数据涌现性实质上反映了数据的集聚能力,具体可由数据增长速度、PB级及以上数据量集聚时间两个指标衡量(见表1)。
表1 大数据企业的数据涌现性特征指标
虽然数据普遍存在于国民经济的各个行业之中,但是大数据产业中的数据并非简单积累而是以涌现的形式集聚,同时能够在较短的时间内实现快速积聚。在互联网电商行业中,这个现象表现尤为突出。如在“双11”促销活动期,不同地区的不同用户对不同的商品从浏览、沟通询价到下单购买等环节所产生的一系列交易数据,就是在短时间内实现快速增长并形成庞大的动态数据集。
2.2.2 信息技术性
信息技术包括计算机和通信技术、传感技术等对信息进行管理和处理的一系列技术,主要应用于计算机软硬件的设计、开发等相关的电子信息领域。大数据产业的信息技术性反映了信息技术在数据价值实现流程中占据的重要地位,并反映在两个主要方面(见表2)。
表2 大数据企业的信息技术性特征指标
第一,技术先进性。对大数据产业而言,数据是核心要素,大数据产业离不开互联网、物联网、云计算等新一代信息技术的支持,各个经济活动都可能需要相应的新兴信息技术来实时捕捉数据。技术先进性具体体现在大数据企业涉及的信息技术含量较高,可由技术相对含量衡量。大数据意味着传统的软件技术已无法实现对信息的撷取、管理、处理等操作,需要具有更优化的机器算法和新的处理模式才能适应具有海量、多样、高速、低价值密度、真实性特征的数据资源。
第二,技术密集性。从大数据产业的内涵可知,大数据产业是围绕数据从产生、采集、传输、存储、处理到应用整个生命周期而展开的一系列经济活动的集合体,其中必然会涉及相应的前端采集技术、传输技术、存储技术、处理技术以及对相应设备的设计与制造技术等,形成一个庞大的信息技术密集群。技术密集性可由技术相对密度衡量。大数据企业的信息技术密集群就是一个技术系统,在实现大数据价值的相关经济活动中,符合技术先进性的环节数量与总环节数之比(达到技术相对含量的环节数/总环节数)为大数据企业的技术相对密度。技术相对密度能够反映出一个企业系统的技术分布状况和密集程度。大数据产业/企业的信息技术性对技术有着较高的要求,并且关系着大数据的价值实现这一基本属性,因此专门从事大数据技术、大数据软件研发和大数据硬件制造等相关的软件业、电子设备制造业等成为大数据产业的重要组成部分。
大数据产业所涉及的信息技术不仅技术含量较高而且密集。如智慧环保离不开各类信息技术的支持,特别是需要利用地理遥感、传感器监测等物联网技术和互联网、通信等先进传输技术来获取反映环境状况的海量数据,以对某区域环境信息进行全方位实时监测,同时还需要数据挖掘等分析处理技术发现污染原因及隐藏灾害等,便于及时治理和预先控制。
2.2.3 强实时性
实时性能够体现系统在一定时间内的反应能力。面对高速增长的海量数据,从采集到应用服务的速度都需要相应提升,从而保证数据的质量。这种速度的提升就是大数据产业强实时性的体现。强实时性意味着高速度,高速度才能准确及时地反映真实情况和预测未来并提供精准服务。大数据产业的强实时性对数据从提取到服务应用整个周期的速率提出了更高的要求,主要体现在数据管理能力、数据挖掘能力和服务应用能力等3个方面,具体表现为数据提取高速度、数据传输高速度、数据存储高速度、数据处理分析高速度以及服务应用高速度等(见表3)。大数据具有的海量高速、多源异构、低密度价值和真实性等“5V”特征表明了数据增长和更新的速度快且时效性强,同时不存在小样本数据而是总体数据集聚在一起并呈动态快速增长态势[21]。在此背景下,大数据企业只有通过高速即时处理才能随时调整企业自身行为并作出反应从而适应企业内外部环境的变化。因此互联网搜索服务业、交通运输业等数据资源庞大且强调数据时效性的行业也能成为大数据产业的重要组成部分。例如用户在互联网搜索引擎中查询最新资讯,要求搜索引擎在收到指令时能够快速在海量复杂的数据集中提取出关键信息并提供给用户,其涉及到数据提取高速度和数据传输高速度。又如在城市交通管理系统中,各路况数据通过摄像头、汽车导航等数据智能采集设备提取各种即时数据并同步传输到交管中心,形成一个庞大的动态数据集,同时交管中心需要对动态存储的数据进行即时分析处理,再将分析结果即时反馈到用户手机、车辆导航等智能终端设备。
表3 大数据企业的强实时性特征指标
2.2.4 高融合性
大数据产业的高融合性是指有关大数据的理念和技术能够快速与各行业融合,从而推动产业或企业的转型升级。系统论认为,一事物与他事物进行融合时,两者并非简单聚合,而是通过彼此关联的各要素之间相互作用、共同变化,并最终形成一个新的整体。大数据与各行业或领域的融合也是如此。根据大数据的特征,虽然在海量数据中,数据之间的相关关系即数据价值很难被发现,但一经挖掘其商业价值是巨大的。大数据产业的高融合性体现在大数据理念和技术能够与其他行业快速高度融合,实质上就是利用大数据及其相关技术工具来挖掘数据价值,并运用到其他行业以推动产业或企业快速转型升级的过程。大数据推动产业快速升级并非是将大数据与产业/企业进行简单聚合,而是包含了产业/企业的转型发展和结构升级两个方面。转型发展主要指其他行业融合采用大数据的理念和技术而发展形成新业态,可由融合发展度进行衡量;大数据技术的应用不仅能有效提高企业生产效率,还能促进信息化水平上升,体现了企业利用大数据来推动结构升级。因此,效率增长比和信息化水平可用来衡量企业的结构升级(见表4)。
表4 大数据企业的高融合性特征指标
大数据产业的高融合性能够大力推进传统产业向现代化和智能化升级,是大数据产业融合应用的体现。如传统金融业利用大数据技术对自身所产生的大数据进行分析处理,帮助金融机构实现风险控制以及对客户的精准服务,从而带动传统金融业快速发展,向大数据金融转型升级。在大数据与以农业为主的第一产业和以工业为主的第二产业的融合之中,将大数据技术应用到企业产品的研发、设计、生产等流程中,产品研制周期大幅缩短,企业及行业生产效率显著提高。企业利用大数据思维和技术,帮助组织内部各个部门进行信息化升级改造,使各部门之间实现数据共享、加深协同合作,推动企业朝着信息化、智能化方向发展。
以上分析表明,大数据产业/企业具有数据涌现性、信息技术性、强实时性和高融合性等4大特征,并且各一级特征指标还可以细化为二级三级指标体系。综合表1至表4,获得大数据产业/企业的属性特征指标体系如表5所示。
表5 大数据企业的属性特征指标体系
正如上节所探讨,大数据企业具有的属性特征也就是大数据产业具备的属性特征。然而,判断某一企业是否属于大数据产业之外还应明确其是哪一类型的产业。首先,利用属性特征明确某企业是否是大数据企业;其次,该企业若为大数据企业(从而判断为大数据产业),则进一步判别其属于哪一类大数据产业。因此,本节探讨大数据产业的分类及其类别特征。
依据大数据产业/企业的内涵理解,大数据产业显然是一种产业集合体或产业体系,其外延是内涵的外在表现,包括了大数据软件开发、大数据硬件制造、数据可视化、数据交易等与实现大数据价值直接相关的所有经济活动,是一个涉及交通、金融、电信、电商等众多行业的综合型产业。因此,研究大数据产业不仅仅是理解其内涵,还要把握其产业分类。大数据产业分类即是对大数据产业的外延进行分门别类。在大数据产业分类方面,若干地方政府及其职能部门已经先行先试。如贵州省大数据发展管理局对有关大数据的名词解释进行汇编,将大数据产业分为关联、核心和衍生等三类业态[22]。而《2018中国大数据产业生态地图》将大数据产业分为基础支撑、数据服务和融合应用等三层业态[23]。对比分析发现,关联业态与基础支撑、核心业态与数据服务、衍生业态与融合应用几乎相互对应,即后者相当于是前者的具体形式描述(见图2)。
图2 大数据产业类别对比
另外,学术界也对大数据产业的类别进行研究并大致概括为数据提供、数据服务提供、基础设施提供以及数据应用等4大主要部分。政府作为调控者,旨在为大数据产业发展提供宏观指导。但政府对大数据产业的类别分析较为笼统,并未将提供数据资源的相关行业纳入到大数据产业生态之列。学术界普遍认为,大数据产业链贯穿数据从生产到应用的整个生命周期,即数据源处于大数据产业链的最前端且产业链又能直观反映产业构成,因此数据源提供方必不可少。显然,学界观点是对政界观点的丰富和完善,但同时政界也为学界研究大数据产业提供素材和思路。由于大数据存在于其他所有产业中,不便于大数据产业的统计分析。为了有利于今后大数据产业发展的深入研究与实践指导,应将大数据产业进行科学分类。
基于图1提出的数据价值实现流程,本文采用产业经济学的产业链概念,并从产品和服务的角度将大数据产业分为大数据资源供应业、大数据设备供应业、大数据技术服务业和大数据融合应用业等四个大类(如图3)。大数据资源供应业是指能够产生并提供海量数据资源的经济活动,是处于大数据产业链前端的数据资源提供者,其主要产品为大数据资源。由于具备海量、多源异构和低密度价值等特征的大数据是开展大数据产业一系列经济活动的前提,而基于互联网、物联网、云计算等信息技术渠道的移动互联网行业以及电信业与金融业等传统行业,随时随地都在源源不断地产生数据,因此诸如互联网行业、电信业等行业往往会成为大数据资源的主要提供者。大数据设备供应业指涉及大数据采集、传输、存储、计算等硬件设备的制造、租赁、批发和零售等活动,其主要产品为大数据设备,包括光缆、网络设备、高核能计算机、集成电路、大数据一体机等。大数据技术服务业指对大数据产生、采集、传输、存储以及应用过程中产生的技术问题或技术需求所提供的服务以及相应的软件开发,其主要产品为大数据技术服务,包括前端采集、数据清洗、数据可视化、商务智能挖掘等技术及软件研发,以及信息处理和存储支持、大数据管理分析平台建设、互联网搜索等围绕数据提供的相关服务。大数据设备制造业和大数据技术服务业贯穿整条大数据产业链并提供相应的设备和技术支持,是保证大数据产业活动顺利进行的关键手段。大数据融合应用业指位于大数据产业链后端的数据应用方。数据应用是大数据产业发展的最终目的[24],通过前期对数据进行采集、分析和处理等操作,将挖掘到的潜在价值信息应用到各行各业中,发挥数据价值。大数据融合应用业是大数据与各行业的融合发展,包括与互联网、金融、交通、政务等行业的融合,根据不同领域的需求提供相应的服务和解决方案,推动传统产业转型升级。
图3 大数据产业体系构成
属性特征可用来判断某企业是否属于大数据产业,但是不能用于判断该企业是哪个类别的大数据产业。基于上述的产业链分类角度,可进一步以各类别中的不同经济对象总结出以下四个大数据产业的类别特征:
(1)数据主体性。大数据资源供应业不同于传统的以物质资源和围绕产品生产服务等为主体的经济活动。虽然数据资源的生产也涉及物质部分,但是其主要对象仍是数据而不是物质产品。因此,大数据资源供应业的显著特征为数据主体性。大数据资源供应业包括能够产生并拥有大数据的行业,因而数据主体性包含数据采集和数据存储两方面内容,分别可用大数据采集设备资产占比和大数据存储设备资产占比等指标进行衡量。
(2)设备主体性。在大数据设备供应业中,不论是制造、租赁、批发还是零售,都是针对大数据设备的经济活动,其对象主体均为大数据设备。因此,从行业中主要经济对象的角度来看,大数据设备供应业的显著特征为设备主体性。设备主体性主要表现为对大数据采集、传输、存储、计算等硬件设备的投入水平,可用大数据硬件设备的资产占比进行衡量。
(3)技术主体性。大数据技术服务业与大数据设备供应业相比,更关注技术。大数据技术服务业是针对数据提供技术服务,因而大数据技术服务业的显著特征为技术主体性,具体体现在大数据技术研发投入、技术人才建设以及技术创新产出等3个方面,分别反映企业内部用于研究开发以大数据技术、软件为主要创新成果的R&D投入强度(即研发经费与销售收入之比)、大数据技术员工数占比、大数据新产品效益占比等三个指标来衡量。
(4)应用主体性。位于大数据产业链后端的大数据融合应用业,其重点在于大数据的应用,可概括为“大数据+各传统行业”。在大数据融合应用业中,两者并非简单相加,而是将有关大数据的创新成果与经济、社会等领域深度融合,充分挖掘并发挥大数据资源的潜在价值,并应用于社会资源的优化配置中,从而达到减少成本、提高利用效率的目的。因此,应用主体性为大数据融合应用业的典型特征,体现为大数据为某企业带来的经济效益程度,即大数据经济效益增长贡献率。
基于以上分析,可归纳大数据产业类别的特征指标体系如表6所示,并采用表7进行指标说明。在某企业属于大数据产业的前提下,表6可用于进一步判定其属于哪一类别的大数据产业。
表6 大数据产业的类别特征指标体系
表7 衡量指标的指标说明
根据本文对大数据产业的内涵界定,所有产业的企业在理论上都有可能产生大量数据并成为大数据企业,即大数据产业可以覆盖整个国民经济行业而不仅仅局限于某一个或某几个行业,因此目前大数据产业范围的统计研究应属于当前经济技术条件下的产业状态,还不属于大数据产业的明确分类。模糊隶属度函数常用于研究产业发展水平的综合评价等[25],也有部分学者用于研究文献分类和汉语词类划分等[26-27]。显然,企业的大数据属性及其分类也属于模糊识别问题,因此模糊隶属度函数可用来描述某企业属于大数据产业的程度。如前所述,虽然大数据产业目前涉及了通信、交通、商业等众多社会和行业部门,但是进一步研究某个行业或企业属于大数据产业的程度,即明确在国民经济活动中哪些行业/企业的当前状态属于大数据产业以及隶属程度如何,对大数据产业的快速发展以及为政府制定大数据产业的相关政策等具有较重要的实践指导意义。因此,本节首先描述大数据产业在属性和类别的模糊性,然后介绍模糊识别过程方法,即通过建立属性模糊隶属度函数判断产业属性再建立类别隶属度函数判断企业所属的类别;最后采用模拟案例讨论某企业的大数据产业属性及其类别。
大数据产业的模糊性包括属性和类别两方面。各种不同属性的事物共同组成了这个客观世界,其间联系千变万化、错综复杂,而事物在不断的变化之中又相互渗透。绝大多数事物变成它事物并非突变,而是逐步过渡发展的结果。在客观世界不断发展的过程中,所有产业都有可能成为大数据产业,即非大数据产业能够成为大数据产业,而且大数据产业也可能成为另一更高阶产业的一部分,或者随着判别标准的变化而使部分大数据产业变成非大数据产业。同时,大数据产业与云计算、物联网等新一代信息技术产业紧密联系,其自身的界限并不明确。因此,在判别某产业是否属于大数据产业时存在明显的模糊性,即大数据产业属性的识别模糊性。依据不同的标准能够对大数据产业进行不同的分类,同一标准下不同类别之间的界限也并不十分明晰。在已知某行业/企业为大数据产业的前提下,该行业/企业也可能同属于几个类别。因此,判别某行业属于大数据产业的哪一个类别时在识别上也具有模糊性。
目前关于产业的分类方法基本属于统计分类法,如三次产业分类法、两大部类分类法、农轻重产业分类法等[17],还有新提出的六次产业理论[18]、九次产业分类方法等[28],但鲜有学者运用模糊系统理论对产业进行分类研究。鉴于判断国民经济行业属于大数据产业的程度符合模糊分类的思想,因此本文将模糊隶属度函数引入到大数据产业的分类研究中。本小节即尝试采用模糊系统理论的隶属度函数对大数据产业进行模糊识别。其模糊识别过程如下所述:
(1)某企业大数据属性的模糊识别。步骤一,根据表5构建每一个三级指标的模糊隶属度函数。即假设某三级指标C的取值为c(c≥0),其大数据属性的模糊识别区间[c1, c2]是非负区间,表示当指标值c低于c1时确认该指标C不具有大数据属性,当指标值c大于c2时确认该指标C具有大数据属性,当c介于二者之间时表示该指标C部分具有大数据属性。则可获得指标C具有大数据属性的模糊识别隶属度函数为:
由上面的模糊隶属度函数公式即P(c)可计算得每一个三级指标的隶属度值,并记某三级指标Ci的值为xi(i=1,2, ,12)。
步骤二,计算二级指标的模糊隶属度。即计算某二级指标B下属所有三级指标对该二级指标的模糊隶属度综合值并记综合值为X。当若干个三级指标有共同的二级指标时,需首先设置每个三级指标相对于该二级指标的重要程度即权重。假设某二级指标B含有n个三级指标并记Ci的权重为qi,其中qi∈[0,1]且(i=1,2, ,n),则该二级指标的模糊隶属度综合值X为其下属所有三级指标的隶属度与相应权重的乘积之和,即X=。以此类推,可计算出所有二级指标Bj的隶属度综合值Xj(j=1,2, ,8)。显然,若某二级指标只有一个三级指标时,则该二级指标的模糊隶属度即为其三级指标的隶属度值。
步骤三,计算一级指标的模糊隶属度。即某一级指标下属所有二级指标模糊隶属度的综合加权值并记为Y,且其计算过程与步骤二的过程类似。假设某一级指标Am(m=1,2,3,4)含有k个二级指标,且其二级指标的相应权重ωi满足ωi∈[0,1]和(i=1,2, ,k),则该一级指标Am的隶属度综合值Ym=(m=1, 2, ,4)。显然,某一级指标只有一个二级指标时,该一级指标的模糊隶属度即为其二级指标的隶属度值。
步骤四,计算某企业的大数据产业属性隶属度。即参照步骤二和步骤三的计算思路,记某企业的大数据产业属性隶属度为Q,对四个一级指标分别设置权重γm∈[0,1]且(m=1,2,3,4),则该企业的大数据产业属性的综合隶属度为Q=Ym。此时Q即表明该企业属于大数据产业的模糊程度。
(2)某企业大数据类别的模糊识别。若已经判断该企业属于大数据产业,则可进一步判断其属于哪一个类别的大数据产业。步骤如下:
步骤一,根据表6构建每一个二级指标即衡量指标的模糊隶属度函数。假设某衡量指标E的取值为e(e≥0),其大数据产业类别的模糊识别区间[e1, e2]是非负区间,表示当指标值e低于e1时确认该指标E不具有大数据产业的某类别特征,当指标值e大于e2时确认该指标E具有大数据产业的某类别特征,当e介于二者之间时表示该指标E部分具有大数据产业的某类别特征。则可获得指标E具有大数据产业的某类别特征的模糊识别隶属度函数为:
同样的,由上面的模糊隶属度函数公式即P'(e)可计算得每一个衡量指标的隶属度值,并记某衡量指标Ei的值为ai(i=1,2, ,7)。
步骤二,计算某类别特征的模糊隶属度。即计算某类别特征Dj的下属所有衡量指标对该类别指标的模糊隶属度综合值并记综合值为Hj(j=1,2,3,4)。假设某类别特征D含有n个衡量指标并记权重为βi∈[0,1]且(i=1,2, ,n),则D的模糊隶属度综合值H=。如此可计算四个类别特征的模糊隶属度综合值H1、H2、H3和H4,分别表示该企业含有四个类别特征的程度大小。
步骤三,计算某企业的大数据类别隶属度。每一类别对应一个类别特征,类别又是以属性为基础,因此某企业属于大数据某类别的模糊隶属度综合值Zj为该类别特征隶属度Hj与该企业的大数据产业属性隶属度Q之乘积,即Zj=Q×Hj(j=1,2,3,4)。一般情况下,若Zj0=max1≤j≤4{Zj},则可认为该企业属于j0类别的大数据产业。
由于现实的企业可实行多元化战略即跨行业经营,因此大数据企业也存在跨行业现象,则该企业不一定只属于大数据产业中的某单一类别,还可能同时属于多个类别的大数据产业,只不过其类型程度的大小不同。实际操作中,相关部门可以对每个类别设置阈值分别为Z10、Z20、Z30和Z40,则当Zj≥Zj0时,可认为该企业属于j(j=1,2,3,4)类别的大数据产业,即某企业可同时属于多个类别的大数据企业。
贵州省某茶叶经营企业实行工贸结合、多元化发展的经营模式,其产品覆盖茶叶、茶制品、茶叶机械等,包括茶叶的种植与加工以及相关机械制造等业务。为了增加企业效益,该企业融合生产端、需求端和销售端,构建“大数据+生产+销售终端”的新型产销模式:首先,通过互联网相关平台精准获取市场需求数据,以销定产;其次,采用传感器等相关设备对茶叶种植全过程实行全方位实时监测并获取和分析处理相关数据,从而保障茶叶种植与生产的高效率;再次,分析企业在种植、生产与定单交易等方面的数据,精准匹配供需双方以减少中间环节,帮助企业实现利润最大化。
现以该企业为例,模拟相关数据以探讨该企业的大数据产业的属性及类别。
(1)获取各项指标数据及赋权。收集该企业的相关资料,获取各项指标的数据及权重。假设该企业涉及大数据产业的属性及类别等指标的原始数据、权重与模糊识别区间如表8和表9所示。
表8 属性原始数据
表9 类别原始数据
(2)计算该企业的大数据产业属性的模糊隶属度。首先根据模糊隶属度函数公式P(c),可计算得到每个三级指标Ci的隶属度xi(i=1,2,...,12),接着采用公式Xj=可计算每个二级指标B(jj=1,2,...,8)的隶属度综合值,再根据公式Ym=计算得到每个一级指标Am(m=1,2,...,4)的隶属度综合值。如三级指标C2的值为0.2,其大数据属性的模糊隶属度为P(0.2)=(0.1-c2)/(0.1-0.5)=(c2-0.1)/0.4,即x2=0.25;同理,计算得到C1的隶属度即x1=1;由于三级指标C1和C2有共同的二级指标B1,因此计算B1的隶属度综合值为X1=0.5×1+0.5×0.25,即X1=0.625;再根据B1的隶属度综合值与对应权重的乘积可求得其一级指标A1的隶属度综合值为Y1=0.625。
以此类推,所有属性指标的模糊隶属度值如表10。最后根据公式Q=Ym得到该企业的大数据产业属性的综合隶属度Q=0.73,表明该企业属于大数据产业的程度为0.73。
表10 属性指标运算结果
(3)计算该企业的大数据产业类别的模糊隶属度。首先,根据模糊隶属度函数公式P'(e),可得到每个二级指标Ei的模糊隶属度值ai(i=1,2, ,7);然后采用公式H=可计算得到每个一级指标的模糊隶属度综合值;最后,根据公式Zj=Q×Hj可计算得到该企业属于大数据产业各类别的综合隶属度。如二级指标E1的值为0.6,其具有大数据该类别特征的模糊隶属度值P'(0.6)=(0.4-e1)/(0.4-0.8)=(e1-0.4)/0.4,即a1=0.5。同 理,计 算E2的模糊隶属度a2=1。由于二级指标E1和E2有共同的一级指标D1,因此计算D1的隶属度综合值H1=0.4×0.5+0.6×1=0.8。由于一级指标D1为大数据资源供应业的类别特征,因此该企业属于大数据资源供应业的模糊隶属度Z1=0.73×0.8=0.584。
同理,该企业属于其余类别的模糊隶属度分别为Z2=0;Z3=0.146;Z4=0.73。其运算结果见表11。
取Zj0=max1≤j≤4{Zj},即Z4=0.73,表明该企业对Z4即大数据融合应用业的模糊隶属度最大,则可认为该企业属于大数据融合应用业。但也可假定每个类别的阈值分别为0.5、0.1、0.12和0.7,则有Z1、Z3和Z4同时满足条件,表明该企业同时属于大数据资源供应业、大数据技术服务业和大数据融合应用业。
表11 类别指标运算结果
我国大数据产业发展虽已初具规模,但仍需加强理论研究以更好地指导大数据产业的发展实践。鉴于学术界对大数据产业的基本问题尚未形成普遍共识,本文基于产业经济学理论探讨了大数据产业的内涵、类别及其特征,并基于模糊识别方法建立模糊隶属度函数对企业进行大数据产业的属性和类别等识别。模拟案例验证了研究成果的可行性,有望为政府部门及相关行业对发展大数据产业提供理论指导和实践依据。