游桃琴
(江西省地方志编纂委员会办公室,江西南昌330008)
大数据思维方式对地方综合年鉴工作创新的启示
游桃琴
(江西省地方志编纂委员会办公室,江西南昌330008)
大数据时代来临,形成与之相适应的思维方式就成为驾驭大数据和实现其价值的关键。地方综合年鉴为更好地发挥为国存史,为当代社会服务的作用,就要在思维方式上进行创新,形成总体思维、容错思维、相关思维、智能思维。
大数据 思维方式 年鉴创新 启示
2013年被称为大数据时代元年,大数据已渗透到每一个行业和业务职能领域,逐渐成为竞争力、创新力和生产力发展的重要手段。大数据技术,让所有社会科学领域能够借由前沿技术的发展从宏观群体走向微观个体。谁能率先实现和占有大数据,谁对大数据的挖掘更为深刻,谁就将抢占未来先机。而这取决于人们对大数据及其潜在价值功能的认知和态度,也就是说,形成与之相适应的思维方式就成为驾驭大数据和实现其价值的关键。建立在大数据平台上,运用大数据思维方式运作的地方综合年鉴工作将不仅仅是一项工作,而将成为一项事业。当然,大数据思维方式离不开大数据的支撑,大数据是大数据思维方式出现的源头和赖以生存的基础。从根本上说,大数据思维方式是产生于大数据时代、立足于大数据技术之上的新观念体系。
何为“大数据”?至今还没有一个统一的定义。著云台的分析师团队认为,“大数据”通常用来形容一个公司创造的大量非结构化或半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据分析需要像MapReduce一样的框架来向数十、数百甚至数千的电脑分配工作。互联网行业认为,“大数据”指的是这样一种现象:互联网公司在日常运营中生成、累积的用户网络行为数据。在维克托·迈尔—舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中,“大数据”指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。美国互联网数据中心认为,“大数据”是通过高速捕捉、发现/分析,从大容量数据中获取价值的一种新的技术架构。我国政府还没直接就“大数据”专有名词提出来给予政策支持。不过,工信部发布的物联网“十二五”规划上,把信息处理技术作为4项关键技术创新工程之一被提出来,其中包括海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。而另外3项关键技术创新工程,包括信息感知技术、信息传输技术、信息安全技术,也都与“大数据”密切相关。可见,“大数据”是一个宽泛的概念,见仁见智。但也突出了一些共同的东西,即大数据的特点。
(一)大数据的特点
整体性。大数据的资料量规模庞大到不能用G或T来衡量,无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助决策的资讯。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,都在以数据的形式追踪人们的日常生活,并将这些数据存储在相应的数据库中。这些数据库以某些相关性相联,构成大数据海量资料量的整体。大数据的技术手段和理念赋予人们在更多领域、更多层次获取前所未有的信息机会。
多样性。大数据中数据类型繁多,这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。
关联性。大数据中所谓的“数据”与“数字”是具有不同内涵的。一个数字背后的背景数据、评论数据、心情数据等全方位界定了该数据的意义。数据能否被赋予新的价值、实现从数字支撑到数据支撑的顺利转化,理解巨量数据的关联性是至关重要的。发掘这些形态各异、快慢不一的数据流之间的相关性,是大数据做前人之未做、能前人所不能的机会。
开放性。大数据产生速度快、体量庞大,任何单位和个体想垄断占有都不现实,大数据向所有合法用户开放。海量数据本身的价值密度较低,但是经过清洗和“提纯”的数据价值却很高。这就造成大数据可以从多角度、多层面进行组合、筛选,为使用者所使用。
(二)大数据的价值
在总数据量相同的情况下,与个别分析独立的小型数据集相比,将各个小型数据集合并后进行分析可得出许多额外信息和数据关系性,来察觉商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定实时交通等用途是大型数据集盛行的原因。
预测价值。预测是大数据的核心价值。大数据将为人类的生活创造前所未有的可量化的维度,从而达到对事物发生的可能性进行预估的目的。美剧《纸牌屋》的走红,就是一次成功运用大数据预测的结果。Netflix公司基于其3000万北美用户观看视频时留下的行为数据,预测出“凯文·史派西”“大卫·芬奇”和“BBC出品”三种元素结合在一起的电视剧产品将会大火特火,由此大胆在拍摄、发布方式上做了一系列革新,并对观众需求进行了“精确推送”,在美国及40多个国家成为最热门的在线剧集。类似运用大数据成功预测的案例还有很多。而预测系统之所以受到重视,关键就在于他们是建立在海量数据基础之上的,接收和处理的数据量越庞大,系统纠错和自我改善的功能就越发达。在大数据时代日益精密的数字技术条件下,人们的活动、决定、社会关系都能够被记录,这些电子踪迹为分析人类行为提供了思路。人类的行为不再是被视为互不相关、随意偶然的独立事件,而是相互依存、相互关联的数据网络中的一部分。
科研价值。在信息流通和信息获取手段受限的时代,人们解释未知现象或寻找规律,往往采用经验或直觉判断甚至信奉超自然的神秘力量。科学研究则往往采取随机抽样、问卷调查的方法,并假设这些数据是具有代表性的典型样本,以期通过最少的数据获得更多的信息,这本身就存在很多的缺陷。在大数据时代的今天,无处不在的信息感知和采集终端为我们采集了海量的数据,而以云计算为代表的计算技术的不断进步,为我们提供了强大的计算能力,这就围绕个人以及组织的行为构建起了一个与物质世界相平行的数字世界。更本质上,它是为我们看待世界提供了一种全新的方法,即决策行为将日益基于数据分析做出,而不是像过去更多凭借经验和直觉做出。这就使得社会科学研究者能够在更多领域和更深层次获得和使用全面而完整的数据,改变从演绎到归纳到提升至理论的思维路径,颠覆千百年来人类的思维惯性,对人类的认知和与世界交流的方式提出了全新的挑战。
(一)总体思维
过去采样是获取主要数据的手段,大数据时代,随着数据收集、存储、分析技术的突破性发展,更方便、快捷、动态地获得研究对象有关的所有数据成为现实。相应地,思维方式也应该从样本思维转向总体思维,才能够更全面、立体、系统地反映研究对象。
(二)容错思维
小数据时代,对样本精确度的要求是苛刻的,因为收集信息的有限意味着细微的错误会被放大,甚至有可能影响整个结果的准确性。大数据时代,只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱,剩下95%的非结构化数据都无法利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。当拥有海量即时数据时,绝对的精准不再是追求的主要目标,适当忽略微观层面上的精确度,容许一定程度的错误与混杂,反而可以在宏观层面拥有更好的认知和洞察力。
(三)相关思维
小数据时代,人们往往执着于现象背后的因果关系,试图通过有限样本数据来剖析其中的内在机理。大数据时代,人们可以通过大数据技术挖掘出事物之间隐蔽的相关关系,获得更多的认知与洞见,运用这些认知与洞见就可以帮助捕捉现在和预测未来。通过关注线性的相关关系,以及复杂的非线性相关关系,可以看到很多以前不曾注意的联系,还可以掌握以前无法理解的复杂技术和社会动态,相关关系甚至可以超越因果关系,成为我们了解世界的更好视角,而且不易受偏见的影响。
(四)智能思维
自进入到信息社会以来,人类社会的自动化、智能化水平得到明显提升,但始终无法取得突破性进展,机器的思维方式仍属于线性、简单、物理的自然思维。但大数据时代的到来,可以为提升机器智能带来契机,推进机器思维方式由自然思维转向智能思维。随着物联网、云计算、社会计算、可视技术等的突破发展,大数据系统也能够自动地搜索所有相关的数据信息,并让数据主动“发声”,类似“人脑”一样主动、立体、逻辑地分析数据、做出判断,从而获得具有洞察力和新价值的东西,甚至类似于人类的“智慧”。
地方综合年鉴,是指系统记述本行政区域自然、政治、经济、文化、社会等方面情况的年度资料性文献,属信息密集型工具书。《全国地方志事业发展规划纲要(2015—2020年)》指出,修志编鉴、开发利用地方志资源……是为国存史的一项重要工作,在……传承文明、发展文化、激发民族自豪感和自信心、推动海内外文化交流合作、提供促进经济社会发展的历史借鉴和智力支持等方面有重要作用。修鉴为用,是年鉴发挥其作用的唯一途径,也是年鉴价值的重要体现。把大数据思维方式贯穿整个年鉴工作,是年鉴工作脱胎换骨的变革,必须统筹谋划、综合施策。结合地方志工作的实际,着眼大数据思维方式的有效贯彻,把握年鉴工作的阶段性特点和重要作用,应着重做好以下几方面的工作:
(一)建立以大数据整体性为支撑的总体思维
在小数据时代,由于技术条件的限制,人们只能通过把复杂的整体分解为简单的部分的方法来分析研究事物,并试图用这些部分来描述整体。而在大数据时代,人们可以利用大数据技术,收集、处理和运用海量数据,实现思维和认知从被迫关注局部向主动关注全局转变,从更广的范围、更高的层次、更深的程度认识事物,形成基于大数据网络环境的总体思维。
年鉴工作涉及组稿、供稿、编辑、出版发行、使用等多个环节和要素。结合笔者的工作实践来看,当前年鉴工作思维割裂的问题比较严重。年鉴工作者非常重视组稿、供稿、编辑、出版发行工作(不赘述),却忽略了最重要的读者体验,几乎没有关于读者体验的跟踪和反馈。因为年鉴是纸质的,发行后不知道谁在看,也不知道他看了哪些内容,看后有什么感想,所以最难以掌握的就是读者行为。而且,当前年鉴还只是靠内容一个维度影响读者,黏性较弱,读者更容易被新媒体全新的阅读体验所吸引,阅读兴趣也会随之发生转移。
年鉴工作应当抓住这一历史机遇,形成“读者画像”,通过与各种大数据团队的融合,知道读者的兴趣所在,并推送一些内容不断研究读者,增强读者黏性。从而扭转当前年鉴工作编辑忙得热火朝天,读者却“把头偏向一边”的自说自话、自娱自乐的现状,营造供稿者、编辑环境、编辑、读者间的良性互动封闭环,充分发挥年鉴为社会服务的作用。
(二)建立以大数据多样性为支撑的容错思维
容错思维,不是纵容错误存在,而是接受不精确的存在,并不断调整纠偏。在大数据时代,由于技术的进步,人们基本可以做到实时、实地采集、传输、处理数据,可以实时准确地把握事物的动态发展变化情况,随时调整决策,纠正错误。
从横向来看,地方综合年鉴反映本行政区域内自然、政治、经济、文化、社会等方面情况,稿件来源广泛,稿件质量参差不齐,数据统计口径也不尽相同,可谓名副其实的“众手成书”。再加上从组稿到使用有很长的时间,涉及多个环节,存在出错概率。从纵向来看,年鉴涉及的有些内容跨越多个年份,在记载过程中,可能存在有头无尾甚至无疾而终的现象。有些内容是以年度为单位持续开展的,但是有的年份记载、有的年份漏记;有的年份全面记载,有的年份只记了部分。有的事件有记载却实际没实施等等。
在信息受限的时代,可能缺乏参照,可能发现不了问题。但在大数据时代,信息来源广,更新快,数据分析能力极大提升,年鉴参与者发现问题的概率上升。这就需要突破年鉴纸质载体的限制,实现信息化和数字化,搭建大数据技术平台,不断采集最新数据、更新动态和进展。跳出汲汲于微观层面的精确性,反而能获得宏观领域更深刻的认知和把握,促使年鉴工作者更加完善每一部年鉴的顶层设计,突出地方综合年鉴的地方特色和年度特色。
(三)建立以大数据关联性为支撑的相关思维
大数据时代,事物各组成要素之间的关系已经不完全是简单的线性因果关系,而更多的是一种非线性的相关关系。通过分析研究数据变化所反映的事物之间的内在联系以及相关关系,可以避免我们的思维方式陷入冗长的因果关系链,较为快捷地发现事物不同要素之间的相互关系和相互影响及相互作用方式,为快捷准确地找到解决复杂问题的方案提供有效的路径。
年鉴工作要求基本形成党委领导、政府主持、负责地方志工作的机构(以下简称地方志工作机构)组织实施、社会各界广泛参与的工作体制。当前年鉴工作也确实是在党委领导、政府主持、地方志机构组织实施下开展工作的。但是社会各界参与度还比较欠缺,从稿件来源来看,还主要是政府各单位和部门,组稿方式主要靠行政手段。由于市场经济体制下,政府部门不再包揽一切,许多工作转移到民间组织、中介机构等,单靠政府部门供稿势必造成年鉴内容的缺项或遗漏,无法反映生动火热的社会实践。
拓展组稿渠道,扩大稿件来源,是做好做精年鉴工作的当务之急。因此,在维护原有来稿途径的同时,我们还可以向社会征集稿件,如向各行业协会、各主要企业、档案部门、主要媒体等组稿,向一些专家学者或行家里手征稿,甚至还可以及时采集互联网、物联网、手机、微信、Facebook以及Twitter等产生的海量数据,利用大数据处理技术,对这些海量数据进行分析处理筛选。多视角、全方位地记述社会实践,能提高年鉴“鉴”的价值,也有利于向读者推送多方面的相关信息,展示事物的多面性。
(四)建立以大数据开放性为支撑的智能思维
封闭导致混沌,而开放则会带来生机和活力。大数据的一个鲜明特征就是其开放性。从数据来源来看,大数据时代的数据建设对所有的有效数据保持开放;从数据的使用来看大数据时代的数据向所有的合法用户保持开放,任何用户都没有数据特权。这种开放性为人们的智能思维奠定了基础,为我们探索掌握现实和未来事物发展的特点规律,智慧思考、超前谋划提供了支撑和条件。
当前,绝大部分省级综合年鉴都能做到当年编辑当年出版,有些地方甚至在当年编辑的上半年就出版了。小数据时代,各类数据必须要在规定的某个时间点采集,到某个时间点结束,然后再利用相当长的时间处理采集到的数据,这是很快的速度。但是,大数据时代,这些数据从一出炉,就意味着已经是过时的历史数据。纸质年鉴更多时候可能从一出版,就决定了其更多的作用是“为国存史”的命运。
为国存史固然是年鉴的重要作用之一,但是年鉴还需要参与当下的社会实践,为当今时代服务,才能不断焕发生机活力。这就需要突破纸质介质的束缚,主动参与大数据时代、拥抱大数据平台。年鉴拥有强大而成熟的来稿途径,拥有打破各单位壁垒的数据库,这是非常宝贵的资源,但条块分割严重。建立相应的保障机制,融合大数据技术,重新分布和整合资源,在兼顾全面的基础上,打破均衡原则,年鉴资源也可以变成平台化的产品。平台化的产品有点像共享经济,本身并不生产内容,借助别人生产内容分享收益。地方综合年鉴借助大数据中心技术,把内容提供给第三方,第三方基于内容再生产深入加工还可以创造效益,这也是增加年鉴利用率的一种思考。
大数据时代已经来临,采集、处理某些特定数据的平台和技术都已具备,决策的制定不再依赖于直觉或经验判断,而是建立在体量庞大的数据基础上,让数据智能化、智慧化,年鉴工作只有与时俱进,主动拥抱和融入大数据热潮,才能不断焕发生机和活力,年鉴事业的大好局面才能顺利开展。(责编:樊誉)
Enlightenment about Big Data Thinking Mode to Innovation of Local Comprehensive Yearbook
You Taoqin
游桃琴(1982—),女,江西省地方志编纂委员会办公室,副主任科员,研究方向为年鉴编纂。