简东
(郑州大学文学院,河南郑州450000)
大数据时代的中文之美
——解析大数据在中文阅读与写作中的意义
简东
(郑州大学文学院,河南郑州450000)
我们已经进入了“大数据”的时代,在这样的一个数字化的时代,其背后起巨大支撑作用的就是“大数据”。作为我们母语体系的中文,如何在“大数据”的时代再次迸发出灿烂多姿的魅力,如何实现“大数据”与中文阅读、写作的结合,正是本文所要讨论的问题。
大数据;中文之美;阅读写作;数据库
提到“大数据”,可能还有部分人对其准确含义不甚了解,究竟什么是“大数据”?它的含义是否就可以等同于“数字化”“电子化”“信息化”?其实不然。
大数据(bigdata),又叫巨量资料,指的是这样的一种信息和资讯:它可以帮助学术研究、企业经营、经济市场分析、政府决策,但其所涉资料规模量巨大,以至于通过目前主流软件工具也无法在合理时间内完成对其的撷取、整理和管理。而在维克托·迈尔·舍恩伯格及肯尼思·库克耶编写的《大数据时代》中,大数据指采用所有数据而不用抽样调查等随机分析的捷径的方法。而且大数据具有“4V”特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。可见“大数据”这种海量、高增长率和多样化的信息资产,正是凭借新处理模式才拥有了更强的决策力、洞察力,才更便于分析研究与流程优化。需要明确的还有数据与信息、知识是不同的——数据仅是信息与知识的根据和基础,而大数据技术的战略意义就在于对这些富有意义的数据进行专业化处理,而非仅仅是对庞大数据的掌握。换言之,如果大数据是一种产业,该产业欲图盈利,则其关键在于提高加工数据的能力,通过“加工”实现“增值”。大数据“增值”的核心手段就在于将海量数据进行存储、阐释和分析。较其他的现有技术来说,大数据之“廉价、优化、迅速”三方面的综合成本是最理想的。
明白了大数据的确切含义,那么接下来我们所要做的工作就是让它更好地服务于新时代下的中文阅读与写作。
进入大数据的时代后,我们在日常生活中接触最多的就是这类数据以及对这些数据科技化、精确化的分析。各类的指标均以量化的形式出现,使我们感觉到精密如尖端仪表一般。诚然,数据分析和指标量化为人们在学习、工作、生产、生活上最大程度地实现其目的计划提供了坚实的依据,但如若过分依赖于其,人类势必有异化之感。例如,通过大量的实例,科学家总结出了最科学的学习作息时间,何时最适宜进行什么样的学习等,每一项安排背后都有详实的数据支撑。这种类似的科学解释在生产中也很多见。如果我们严格遵循它们,我们就被高度机械化了。
这样,“大数据”便取代了一切,海德格尔“诗意栖居”的人文精神将何从谈起?人的行为完全被数据所束缚,在获得科学性和行为惯性便利的同时,人类也丧失了部分的自主性。因此,维克托·迈尔·舍恩伯格在《大数据时代》最后一部分中也点明了大数据的风险:当数据主宰一切时的隐忧。大数据会带来作伪和隐私的威胁,造成机械化和繁杂化。
由此我们在接受和利用大数据的时候,也应对其持一定的批判态度,切莫陷入“唯数据主义”的泥淖。人类最具有自由性的思维便是感性思维,也被称作诗性思维。这正是人类思想和创造力的精灵。数据及其分析本身不是终极意义,它们不足以阐明世间所有;中文则是有灵性的文字,即使是在大数据即将一统天下的时代,中文也不应丧失其独特的地位。例如诗歌的创作,在唐代所取得的独一无二的辉煌成就,今人是难望其项背的。中文在大数据中不应沦陷!如何使大数据与中文相得益彰,继而弘扬文字的魅力,是我们当代不断着力研究的课题。
中文,充满灵感的象形文字,自其创作伊始便具有了非凡的美感。它是古代中国先人们实践和智慧的结晶,更是全人类共同的财富。在大数据时代的话语权方面,中文与汉语理应占有较为可观的一席之地。从现有中文类数字化学术期刊的状况看,几乎所有的出版编辑单位都不同程度地针对传统学术期刊开展了数字出版工作,如加入了中国知网、万方、中文科技期刊等大型期刊数据库,有的还建有自己独立的网站。一批以中文数字化学术期刊为经营核心的企业所建立的数据库已经形成了一定的市场规模,其数据库平台功能强大,使读者能十分方便地获取相关信息。中文大数据的话语权初步得到了强化。但是我们必须看到,中文类学术期刊数字化进程虽然初见成效,但我国大多数中文学术期刊出版编辑单位的数字化工作,只是简单地将传统中文学术期刊的纸质版内容不加改动地交给了大型数据库,由其统一制作、全文上网。即使是建有独立网站的学术期刊,也大多格局雷同,仅仅是将“千刊一面”的中文传统纸质媒体置换成了“千网一面”的数字媒体,实质是在网络空间里依旧无法延续传统品牌的效力。况且,各大型中文学术期刊数据库也尚未达到用户在“大数据”时代获取信息的要求。由此看来,离“大数据”时代的基本要求尚且还相差很远,更何谈中文与大数据的完美结合以超越“唯大数据”的局限性呢?
鉴于此,还必须加强使“大数据”有效服务于中文学术创作的技术研究。在“大数据”背景下,严谨的中文学术创作不仅是理念上的要求,还需要技术的支持。探索如何在“大数据”平台上精细设计中文学术研究数据库平台,并深层次地探讨其构建过程中涉及的关键技术。同时,还要以需求为指引,以信息技术与人文精神融合为重点,结合“大数据”学术平台服务模式的内涵和特征,研究中文“大数据”学术平台的基础框架体系、交互体系、处理体系、过程管理体系、分析与决策体系等。
让数据和数据分析服务于中文最直接的运用就是其在阅读和写作领域发挥的价值。但是数据库的庞大足以使我们在参考、使用时有“眩晕”之感。我们所晕非其“大”,而是其“杂”。大数据是个鱼龙混杂的地方,常常使我们在材料选择与行为指引方面感觉手足无措。这里面最关键的原因就是真伪难辨。例如,当我们在写作中需要从某个时代的背景出发去展现人物的行为与心理时,关于这样的时代背景的界定就成为了首先要考虑的问题。而我们在进行界定时,时代背景的资料是可以通过一系列的的数据与数据分析进行萃取的。那么,我们可以提炼当时GDP水平、CPI指数等等背后的原因。这些提供出来的原因是完全客观的吗?不但不是,而且还有着获取方式的差异性、主体的绝对在场性。能不能信、该怎么信等问题是我们不得不思考以及无法逃避的。在阅读方面更是如此。
阅读作为一种社会行为,其对象、性质、形式的变化每次都会受到媒体语境变迁和传播技术革新的深刻影响,处于大数据、新媒体环境下的中文阅读更是如此。除传统纸质阅读外,现阶段的阅读还包括网络在线阅读、电子阅读器阅读、手机阅读等多种方式。这些方式给中文阅读带来了冲击,产生了一些新问题。受当下阅读消费性、阅读时空随意性的影响,事实上出现了泛阅读、浅阅读、伪阅读、娱乐性阅读、功利性阅读、非导向性阅读、重图轻文等问题,中文阅读自然也不可幸免。阅读本身是人从图文符号中获取意义的一种心理过程和社会实践活动,阅读方式的改变并不一定就导致阅读理解的困难或阅读心理的退化。无论读者选择何种媒介进行阅读,都面临着一个选择阅读内容的问题——可信度甄别、阅读侧重点和引用思考。面对中文阅读的嬗变,我们作为接受者,应能建设性地整合、梳理各类信息、知识,对阅读内容进行“二次提炼”以达到科学地建构与评估,来改善并促进中文阅读。
由此可知,对大数据进行具有弹性深度的“二次提炼”是十分必要的。同时,还由于主体的绝对在场性,追求所谓的“绝对真实性”与“冷静客观性”其实是不切实际的。这里所说的“真”是指在阅读或写作的某一具体情境中能够最准确、最完整、最大化地展现中文之美的要求。这也是要让大数据服务于中文的阅读与写作的应有之义。准确说来,中文中有很多多义性、委婉性的语言或文字现象,故当中文遭遇条分缕析的大数据时很有尴尬之感。中文更多的是感性的世界,象形文字背后跳跃着更多的是灵感和灵性,而数据所能提供的信息看似丰富、多样、高速,实则干瘪而缺乏灵动。然而“大数据”就是以科学又极具理性的形式出现,它的整体详实而有真实依据感冲击着人们的思维和判断力。若完全以大数据来支撑中文的阅读与写作的话,则必使文字材料僵硬、冗杂而少美感和灵气。表现力的降低反而造成了对“内蕴真实”的削弱。
但从另一方面而言,通过本文第一部分对“大数据”真实含义的把握,我们不难发现它也是新时代下技术美的鲜明体现。它将中文阅读与写作变得多媒体化,它的4V特征、“廉价、迅速、优化”的成本,以及对事物本质、内在规律性尽力地揭示,反映出了科学实验美和技术事实美。这样的一种美符合人类对高效便利理想生活的共同期望与共同情感,使我们印象深刻。如若能够正确地加以利用,它必然使我们的操作性体验充满愉悦,从而得心应手。
于是,在对大数据的“真”进行了上述两方面的“拷问”,并对其技术美进行发掘后,我们对其在阅读与写作上的应用就要“去伪而存真”,凸显其技术之美了。这样,大数据的技术美方能服务于中文之美。在这一领域内,中文与大数据是可以相得益彰的。在阅读之中,我们不能盲目,不能迷信数据和数据分析,要发挥思维的积极主动性,要有存疑的精神。就这一点而言,“大胆假设,小心求证”对于大数据也是通用的。不仅如此,在我们思考的过程中应进行“二度提炼”,让数据灵动起来,统筹文字和数字两种思维模式。在写作时,就更要服务于主观真实,在理性依据的基础上展开灵动感性的文字,共同致力于中文之美的绽放。
[1](英)维克托·迈尔·舍恩伯格,肯尼思·库克耶.大数据时代[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013: 9,167.
[2]李晨晖,崔建明,陈超泉.大数据知识服务平台构建关键技术研究[J].情报资料工作,2013(2):29-34.
[3]吴斌.产业重构时代的出版与阅读——大数据背景下出版业应深度思考的五个关键命题[J].出版广角,2013(12):35.
I206
A
1673-0046(2015)7-0186-02