刘成勇
早在1980年,著名的未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,将大数据赞颂为“第三次浪潮的华彩乐章”。2009年前后,“大数据”一词才开始逐步受到信息技术行业的重视。在经历了几年的批判、质疑、讨论、炒作之后,大数据迎来了属于它的时代。2012年3月,美国白宫科技政策办公室发布《大数据研究和发展计划》,成立“大数据高级指导小组”,率先将“大数据战略”上升为国家战略。
2014年3月,“大数据”首次出现在我国《政府工作报告》中。2015年7月,国务院办公厅发布《关于运用大数据加强对市场主体服务和监管的若干意见》。8月,国务院印发《促进大数据发展行动纲要》,明确规划国家将实施政府数据资源共享开放工程、国家大数据资源统筹发展工程、政府治理大数据工程、公共服务大数据工程、万众创新大数据工程、大数据关键技术及产品研发与产业化工程、大数据产业支撑能力提升工程、网络和大数据安全保障工程等十项大数据工程。10月,党的十八届五中全会提出,实施网络强国战略,实施“互联网+”行动计划,实施国家大数据战略,标志着大数据战略正式上升为国家战略,开启了大数据建设的新篇章。
一、从信息视角认识世界
人类已经进入信息社会、信息时代,信息是我们这个世界赖以运行的血液、食物和生命力。尽管信息的原始形式已经存在了成千上万年,但是真正对信息进行理性认识,却还是上个世纪中叶左右的事。信息是什么?1948年,控制论的创始人维纳(Norbert Wiener)在《控制论——关于在动物和机器中控制和通信的科学》一书中指出:“信息就是信息,既不是物质也不是能量。”从而第一次把信息提到了与物质、能量并驾齐驱的地位,勾画出了一幅“物质—能量—信息”的世界三要素的新图景。哈佛大学信息政策研究中心主任A.欧廷格(Oettinger)说:“没有物质,任何东西都不存在;没有能量,任何事情都不会发生;没有信息,任何东西都没有意义。”
人们一般很少去思考信息与讯息、消息、知识、数据等之间的联系和区别。第一次洞察信息本质、也是第一次赋予“信息”一词精确定义的是克劳德·香农(Shannon)。1949年,香农发表了《通信的数学理论》,经典地阐明了通信的基本问题,提出了通信系统的模型,给出了信息量的数学表达式,这是人类第一次系统、全面、理性地认识信息,从此奠定了一门新的学科——信息论。香农认为,剥除了语义内容,“信息是用来消除随机不确定性的东西”,是出人意料,这一定义被人们看作是经典性定义并加以引用。香农还引入了测量信息的最小单位——比特(bit),如今已经跻身为量纳的一员,成为今天日常生活都离不开的词汇。信息与概率密不可分。1比特,从根本上说,就是代表一次掷硬币猜正反面时的不确定程度。令人颇感兴趣的是,香农当时能够想到的最大信息仓库是美国国会图书馆。
从此以后,信息论犹如一股洪流,在心理学、遗传学、量子力学、经济学、语言学等一个又一个领域掀起了颠覆性的革命,极大地改变了现代科学的面貌。万物源自比特。在这个大数据时代,所有新闻出版行业从业人员在世界观方面,应该具有“信息”视角,让信息成为我们世界观的核心之一,因为我们本身就是信息行业,我们现在所从事的社会活动和工作岗位,归根结底都是信息的获取利用、生产加工和传播消费。
二、树立三种新的数据思维
西方有一句话:“除了上帝,任何人都应该用数据说话。”《促进大数据发展行动纲要》提出建立“用数据说话、用数据决策、用数据管理、用数据创新”的管理机制,这将建立起全社会的数据思维和数据文化。正解大数据要上升到文化的高度,其本质就是理性思维、科学精神、实事求是,因为数据就是事实。大数据专家维克托·迈尔·舍恩伯格在《大数据时代》一书中具有洞见性地提出三种数据思维:整体思维、多样思维和相关思维,已经成为共识。但我认为,新闻出版行业更应该具备如下三种思维:
一是价值思维。我们要明明白白地认识到:数据是一种资产,数据是财富。大数据思维的核心是价值思维。这里所说的数据,不仅包括管理数据、交易数据和社交数据,也包括用户数据。传统新闻出版单位一定要充分认识到:用户也是不可忽视的一笔重要财富。2014年2月20日,Facebook宣布用160亿美元收购WhatsApp,在整个收购的价值组成中,对WhatsApp逾5亿用户的估值约为20亿美元(约合人民币123亿元),相当于每名用户约4美元(约合人民币25元)。
二是应用思维。有人说,谁拥有了大数据,谁就拥有了未来,就占领了制高点、取得了主动权。这种观点值得商榷,因为数据的价值在于应用,而不在于拥有。大数据真正重要的不是数据本身,如何利用数据驱动单位内部的业务流程和产品研发才是重中之重,这意味着要从业务驱动转变为数据驱动,这正是传统产业转型升级的关键所在。数据比流程更重要,这一点对于新闻出版行业尤其关键,因为我们这个行业定量思维、数据决策严重匮乏,选题策划、印数决策等更多地依赖于经验。亚马逊与传统书店对决的胜出,最核心的原因在于,其电子商务架构于大数据平台之上,通过全维度记录、存储与描述数据,深入进行数据关联与数据挖掘,并基于数据进行预测与推荐。而传统发行行业面临的痛点在于,产品与服务无法数据化。
三是共享思维。出版单位内部的数据孤岛现象是普遍存在的,有的出版社不同编辑室之间连作者信息都不能共享。出版传媒集团不同企业之间的孤岛效应更加明显,新闻出版行业层面更是缺乏大数据平台。大数据的发展需要全社会、全行业协同,最终实现数据共享。共享是指“使用而非拥有”,非公非私,既可以公有私用,也可以私有公用。必须要认识到,本部门、本企业、本集团、本行业内部数据如果不流动起来,不与外部数据融合,就会成为死数据。越共享,效率越高。当然共享并不意味着免费,关键在于利益机制设计。
三、大数据在解决新闻出版业痼疾方面大有可为
长期以来,新闻出版行业形成了几大痼疾,严重影响产业健康发展:一是库存暴涨,产能过剩,供需严重不匹配,已经成为产业不能承受之重,风险极大,行业亟需绿色发展。出版业和全国经济一样,面临巨大的去库存问题。2004到2014年10年时间,全国总库存(出版社和新华书店系统)数量增长近25亿册,金额突破1000亿元,达到创纪录的1010亿元,而2014年全国纯销售仅为778亿元,早已形成倒挂之势,剔除中小学教材,实际库销比已经逼近2。二是发行市场诸侯割据,条块分割,缺乏全国性的发行中盘,统一开放竞争有序的全国大市场远远没有形成,导致我国的出版传媒集团难以做大主业。三是出版发行生态链畸形,寄销制导致无条件退货,账期长,回款难,诚信缺失,真正意义上的出版社图书单品种核算难以实现,编辑绩效考核和激励机制难以建立,整个行业仍是粗放式管理。要想从根本上解决上述问题,就必须充分利用大数据技术,建立行业大数据平台和信用信息平台,从产业链上中下游进行精确管理,数据驱动选题策划、印刷决策,分析用户行为,精准营销、个性化推荐,重塑出版生产、销售和管理模式。
四、新闻出版行业有哪些大数据
人人都在谈大数据,到底新闻出版行业拥有哪些大数据?仁者见仁,智者见智,分类方法很多。我认为,从业务来分,新闻出版大数据可分为七类:一是机构数据。主要包括新闻出版政府机构、事业单位、行业协会,出版传媒集团、出版社、报社、期刊社、音像电子社、印刷厂、发行集团、书店等企业和机构的名称、地址、法定代表人、网址、规模、业务范围、收入、利润等数据。二是人员数据。主要包括公务员、企业管理人员、编辑、记者、发行、技术、作者、专家等新闻出版行业从业人员的基本数据,如姓名、性别、地区、行业、专长、职务、职称、主要作品、发表文章、教育经历、职业经历等数据。三是产品数据。包括图书数据、报纸数据、期刊数据、音像制品数据和网络出版物数据。既包括作者等元数据,也包括选题数据、发稿数据、印刷数据、版权数据等。四是政务数据。指政府在综合办公、市场监管、公共服务过程产生的数据,包括人事信息、财务数据、政策法规、统计信息、规划计划、标准信息等。五是商务数据。指新闻出版企业主体在市场交易过程中产生的数据,包括合同、供货、采购、发货、退货、结算、版权交易等数据。包括用户人口属性数据、用户关系数据、用户行为数据等。像评论、转发、分享、下载、点赞、收藏数据,粉丝数、认证信息、学习时段、阅读工具、阅读方式、阅读时间段、阅读时长、阅读偏好、阅读能力、阅读目的、阅读范围等用户行为数据正是目前移动互联网出版所必须关注的。七是内容数据,包括信息和知识。一般将知识归纳为四种类型:事实知识、原理知识、技能知识和人力知识。中文百科知识体系把人类科学文化知识和实践活动领域分为24个类别,形成了中文百科分类目录。这是我们新闻出版行业所特有的数据宝藏,也是知识服务的基础。
五、了解一点大数据技术
要想不被IT企业神乎其神的大数据软件和技术所忽悠,有必要对大数据技术略知一二。大数据关键技术一般包括大数据采集技术、大数据存储及管理技术、大数据分析及挖掘技术、大数据展现及应用技术等。
网络爬虫、ETL(Extract-Transform-Load)和数据众包属于大数据采集技术。我们所熟知的高德地图则综合采用情报搜集平台LSE、API轨迹分析、卫星影像自动识别、UGC反馈以及浮动车等多种数据采集技术。大数据存储及管理关键技术则包括Hadoop的三大核心技术,即分布式文件系统(HDFS)、分布式系统架构(MapReduce)和分布式数据库(NoSQL)。大数据分析及挖掘技术包括自然语言处理、语义分析、关联挖掘分析、神经网络、话题检测与追踪、情感倾向分析、序列分析、机器学习、个性化推荐、文本智能处理技术、图像识别、模式识别、语音识别等。个性化推荐又可以分别基于协同过滤、关联规则、社交圈、用户画像、内容来进行推荐。文本智能处理技术包括文本分类、相似性检测、自动摘要、主题词标引、信息抽取、文本聚类、中文分词。大数据展现及应用技术值得一提的是数据可视化技术,传统的数据展示是单调、乏味的,多以饼图、柱图和线图等形式展示,远远满足不了多角度、多层次及交互性的要求,那么大数据数据可视化技术则可以提供标签云、聚类图、流图、热图、散点图等更具表现力、更具交互性的数据可视化实现方案,将数据的各个属性值以多维数据的形式表示,使人们能够以更直观的方式看到数据及其结构关系,发现数据中隐含的信息,从不同的维度观察数据,从而对数据进行更深入的观察和分析。最后,还要提一下云计算与大数据的关系。大数据和云计算是一枚硬币的两面,大数据必须云计算来处理,云计算的本质就是大数据处理技术。云计算和大数据应当成为大型新闻出版传媒集团的标配。
六、亟需建立新闻出版大数据标准体系
标准化是建设新闻出版大数据的基础与关键,也是真正实现新闻出版大数据潜在价值的必要条件。2014年,工信部和国标委成立了“全国信标委大数据标准工作组”,负责制定和完善我国大数据领域标准体系。建设新闻出版大数据过程中,多源采集的数据存在格式混乱、对接困难等问题,必然会降低数据挖掘、分析的效率,影响其价值的实现。因此,必须开展新闻出版大数据标准顶层设计,从基础、技术、产品、安全、管理、应用等多个角度梳理新闻出版大数据标准需求,建立健全新闻出版大数据标准体系,重点突破一批涉及大数据的基础性、方法性、应用性标准的研制,指导新闻出版大数据的采集、共享、交换、加工、应用和服务,为新闻出版大数据发展夯实基础。在研究国家大数据技术标准体系框架的基础上,结合出版数据自身的特点,以及未来出版大数据发展的趋势,新闻出版大数据标准体系框架可以包括基础标准、技术标准、产品和平台标准、安全标准、应用和服务标准等五大类。其中,基础标准包括总则、术语、技术参考模型、元数据等标准。技术标准包括数据治理、数据质量等标准。产品和平台类标准主要包括智能工具、可视化工具、大数据平台、测试规范等标准。数据安全标准主要包括通用要求、隐私保护等标准。应用和服务标准包括开放数据集、数据服务平台、领域应用数据等标准。
七、建立新闻出版行业大数据共享交换机制和平台至关重要
正如英特尔中国研究院院长吴甘沙所说,数据之于数据社会,就如同水之于城市或者血液之于身体一样。要真正盘活新闻出版大数据资源,让散落在各处的新闻出版数据真正流动起来,建立新闻出版政府主管部门、新闻出版企业和社会之间的大数据共享交换机制和平台就显得格外必要。一是政府统筹规划、全面部署。倡导通过市场化、社会化方式汇聚和优化配置社会资源,避免出现新的“信息孤岛”。二是开辟多种数据采集渠道。综合行政收集、自愿提供、有偿购买、协议交换、网络抓取、传感收集等方式建立新闻出版大数据采集机制。尤其要加强对新闻出版企业信息化规划与行业大数据采集需求的融合指导,鼓励新闻出版企业加强对其生产经营活动中数据的采集。三是创造多种数据共享模式。鼓励各级新闻出版主管机构率先推进政务数据资源的集中与开放,与社会联动;鼓励新闻出版企业通过商业行为创新数据共享机制,探索既确保多方数据所有权又实现数据整合应用的商业模式;鼓励民间资本参与新闻出版大数据共享交换体系的建立。四是解决信息安全和隐私保护等。只有对涉及隐私保护和商业秘密的数据进行合理化处理,才能最大化发挥数据共享交换各方的积极性,才能实现新闻出版大数据的有序共享。
八、加快建设行业大数据重大工程,构建新闻出版大数据体系
新闻出版大数据体系应该包括基础设施、数据、技术、平台、应用、标准、安全、机构、机制等方面。重大工程对构建大数据体系起着核心作用。“十三五”期间,应该从政府监管、公共服务和产业发展三个层面启动若干重大工程。在政府监管层面,启动新闻出版及扫黄打非大数据监管工程,建设新闻出版信息资源数据库,提升政府决策支撑、风险防范、市场监管、重大事件预警能力。在公共服务层面,启动出版发行信息公共服务平台,建成全国出版可供书目数据库,形成基于国家标准的支撑出版、发行、采购、编目、决策于一体的新型公共服务模式。在产业发展层面,启动新闻出版大数据应用工程,包括国家知识服务大数据应用工程、国家出版发行大数据应用工程、ISLI标准大数据应用工程等。
对于新闻出版人来说,大数据完全不同于云计算、移动互联网、物联网,后者都是技术,而懂技术、关心技术的总是少数,而数据、信息、知识则不同,它们是内容,是我们生存的根本,我们应该具有信息视角、数据思维,我们的重点应该放在数据、信息的采集、处理和应用上,扎扎实实、一点一滴做好数字化转型工作,开创新闻出版业创新、协调、绿色、开放、共享发展之路,因为我们都是马歇尔·麦克卢汉所说的“采集信息为生的人”。
九、数字化转型仍然是大数据的基础
应用大数据首先要拥有大数据。可是,大数据在哪儿呢?目前,出版传媒企业自己拥有大数据平台和大数据采集能力的很少,大多没有用户多方位属性和行为数据,难以对用户行为和个性化需求进行深入分析。而拥有用户大数据的社交网站、电商、互联网公司也不会把大数据给出版企业使用。即使是出版企业内部的小数据,也散落在网站、ERP、协同编辑系统等不同的系统平台,没有统一整合。因此,出版企业大数据建设顶层设计要统筹大数据与小数据、内部数据与外部数据。首先,要全面进行ERP建设,加强对选题、生产、营销、发行、服务、财务、管理等全过程的管理信息化,完整收集过程中的内部数据,这是大数据的基础之基础。临渊羡鱼,不如退而结网。其次,全面推进数字化转型,国家数字复合出版系统工程研发的新闻内容选题与评价系统、图书选题及发行分析系统、出版信息采集与策划服务系统、全文相似性分析系统、内容动态重组系统、发布管理系统、出版机构运营服务与支撑系统、多形态广告发布系统、在线学习平台、数字资源标准管理与解析服务系统、复合出版数据传递系统、全国出版内容交换系统等众多系统和平台,全方位支持新闻出版企业的创意、生产、营销和经营管理活动,让新闻出版企业充分拥抱大数据和互联网,希望能在不久的将来全面应用在所有新闻出版企业,否则大数据就是无源之水,无本之本。
十、不能神化大数据
拨开对大数据纸上谈兵和美好理想的迷雾,对大数据专家所强调的全样本、相关性和混杂性需要保持清醒的认识,不要神化大数据。首先,大数据不能代替小数据,全样本分析依然不能代替抽样调查。原因是大数据技术本身以及现实的条件远远没有达到全体样本的水平,存在一定偏差。大数据与传统数据最主要的不同在于,大数据的采集过程更多是生产经营等各类活动的未经处理的附属产品,数据反映的信息可能只是总体的一部分。何况总体取决于人们关心的问题,总体是会变化的。另外,过度追求全样本可能造成建设模式复杂度升高、成本增加而导致事实上不可能。不能片面追求大数据。不是所有企业都必须考虑大数据战略,大数据分析有其门槛。规模不够大的企业可以考虑购买服务。第二,即使在使用抽样数据时,我们也从未奢望过数据的精确性。我们从来都要在信息混杂的情况下做出大多数的决策。百分百的数据决策、科学决策是做不到的,否则还要创意干什么呢?恐怕在相当长的时间,我们都要数据决策和经验决策并重。第三,强调相关关系而忽视因果关系是让人无法接受的,尤其是以知识传承为使命的新闻出版行业,大数据不能代替理性思考、逻辑演绎。甚至《大数据时代》一书的译者周涛都公开表示:如果放弃了对因果的追求,就是放弃了人凌驾计算机之上的智力优势,是人类自身的放纵和堕落。其实,因果关系也是相关关系的一种。
(作者系新闻出版总署信息中心副主任)