大数据时代传统出版业数据规模

2018-07-10 06:24李大美
传媒 2018年12期
关键词:印张印数数据量

文/张 立 李大美

关于传统出版业的数据规模,目前国内外均无明确的统计,只笼统地认为规模不大,这也只是与网上数据比较而言。被引用较多的说法是“人类生产的所有印刷材料的数据量是200PB”,但这个数据究竟如何得出也无从追查。为了弄清楚我国传统出版业的数据规模究竟有多大,笔者尝试着利用原国家新闻出版广电总局每年发布的《中国新闻出版统计资料汇编》中的统计数据,并通过一定的计算方法,来得出我国传统出版业的内容数据量,以便大家了解。

内容数据量的计算方法

为便于计算传统印刷媒体的整体内容数据量,笔者分别以中国新闻出版研究院所属中国书籍出版社出版的图书、出版发行研究杂志社出版的期刊,以及中国知识产权报为例,制定了一个每面大约排字量的计算标准(见表1),为方便统计,将图书、期刊、报纸中的图片、公式等换算为同等面积的文字进行计算。

表1 每面大约排字量计算标准

出版业年度内容数据量——以2016年为例

(一)2016年平均每册(份)书刊报内容的数据量

1.图书平均每本内容数据量为430KB

2016年全国共出版图书总印数90.37亿册(张),总印张777.21亿印张,用总印张除以总印数可以得出每本图书平均印张数,即777.21亿印张÷90.37 亿册(张)=8.60印张。平均每本图书内容数据量为:8.60印张×25600(字 / 印张)=22.02万字=430KB。

2.期刊平均每册内容数据量为316.60KB

2016 年全国共出版期刊总印数 26.97亿册,总印张 151.95亿印张,每册期刊平均印张数为:151.95亿印张÷26.97亿册 =5.63印张;平均每册期刊内容数据量为:5.63印张×28800(字/印张)=16.21万字=316.60KB。

3.报纸平均每份内容数据量为169.14KB

2016年全国共出版报纸总印数390.07亿份,总印张1267.27亿印张,每份报纸的平均印张数为:1267.27亿印张÷390.07亿份=3.25印张。平均每份报纸内容数据量为:3.25印张×26640(字/印张)=8.66万字=169.14KB。

为了弄清楚我国传统出版业的数据规模究竟有多大,笔者尝试着利用原国家新闻出版广电总局每年发布的《中国新闻出版统计资料汇编》中的统计数据,并通过一定的计算方法,来得出我国传统出版业的内容数据量,以便大家了解。

(二)2016年新出版的书刊报内容数据量为0.32TB

1.图书内容数据量为205.03GB

2016 年全国共出版图书499884种,平均每种图书为22.02万字,2016年出版图书内容数据量为:499884种×22.02万字=1100.74亿字=205.03GB。

2.期刊内容数据量为59.07GB

2016年全国共出版期刊10084种,平均期印数13905万册,总印数26.97 亿册;用总印数除以平均期印数,可以得知实际出版期数约每年19.4期,2016 年出版期刊内容数据量为:10084种×19.4期×16.21万字=317.12亿字=59.07GB。

3.报纸内容数据量为61.13GB

2016年全国共出版报纸1894种,平均期印数19494.94万份,总印数390.07 亿份;用总印数除以平均期印数,可以得知实际出版期数约每年200.09期,2016 年报纸出版内容数据量为:1894种×200.09期×8.66万字=328.19亿字=61.13GB。

2016年出版书刊报合计内容数据量为:1100.74亿字+317.12亿字+328.19 亿字=1746.05亿字=0.32TB。

(三)2016年度每家出版社平均出版图书内容数据量为0.35GB

截至2016年底,全国共有出版社584家(包括副牌社33家);平均每家出版社2016年度出版图书数据量为:1100.74亿字÷584家=1.88亿字=0.35GB。

由于《2017中国新闻出版统计资料汇编》中无杂志社和报社数量,且实际情况复杂、统计困难,故此处不计算平均每家杂志社和报社新出报刊内容数据量。

(四)全国大型出版集团2014年度出版图书内容数据量

根据《2014年新闻出版产业分析报告》,笔者选取总体经济规模综合排名前三的出版集团进行图书(不含集团中的报刊出版数据量)内容数据量的统计,具体如下。

1.排名前三的出版集团2014年图书出版总数据量(含复本数)

2014年总数据量排名第一的江苏凤凰出版传媒集团:2014年总印数39499 万册(张),总印张27.46111亿印张。总数据量为:27.46111亿印张×25600(字 /印张)=703千亿字=127.87TB。

排名第二的湖南出版投资控股集团:2014年总印数30051万册(张),总印张21.77402亿印张。总数据量为:21.77402亿印张×25600(字/印张)=557.41 千亿字=101.39TB。

排名第三的中国教育出版传媒集团:2014年总印数45035万册(张),总印张50.56242亿印张。总数据量为:50.56242亿印张×25600(字/印张)=1294.40 千亿字=235.45TB。

2.排名前三的出版集团 2014年新出图书数据量(不含复本数)

排名第一的江苏凤凰出版传媒集团:总印张除以总印数可以得出每本图书平均印张数,即274611.1万印张÷39499万册(张)=6.95印张,每本图书平均内容数据量为:6.95印张×25600(字/印张)=17.80万字;已知2014年共出版图书16534 种,可得出2014年新出图书数据量为:16534种×17.80万汉字=29.4 亿汉字=5.48GB。

排名第二的湖南出版投资控股集团:每本图书平均印张数为:217740.2万印张÷30051万册(张)=7.25印张,每本图书平均内容数据量为:7.25印张 ×25600(字/印张)=18.56万字;已知 2014年共出版图书9095种,可得出2014 年新出图书数据量为:9095种×18.56万字=16.88亿字=3.14GB。

排名第三的中国教育出版传媒集团:每本图书平均印张数为:505624.2万印张÷45035万册(张)=11.23印张,每本图书平均内容数据量为:11.23印张×25600(字/印张)=28.75万字;已知2014年共出版图书14483种,可得出 2014年新出图书数据量为:14483种×28.75万字=41.64亿字=7.76GB。

最近十年全国出版业累计出版书刊报内容数据量

上一部分对单年内容数据量进行了分析,那么,全国出版业最近十年累计出版书刊报的内容数据量又是多少呢?以2007~2016年《中国新闻出版统计资料汇编》中的统计数据为依据,笔者进行了详细的测算。

(一)2007~2016年,全国平均每种(份)书刊报数据量分别为417.97KB、 316.60KB和221.10KB

平均每本图书数据量:2007年至2016年的十年间全国出版图书的总印数为772.61册(张),总印张数为6457.80亿印张,用总印张数除以总印数可以得出每本图书平均印张数,即6457.80亿印张÷772.61亿册(张)=8.36印张,每本图书内容数据量为:8.36印张×25600(字/印张)=21.40万字=417.97KB。

平均每册期刊数据量:2007年至2016年的十年间全国出版期刊的总印数为310.89亿册,总印张数为1749.96亿印张,则每册期刊平均印张数为:1749.96亿印张÷310.89亿册=5.63印张,每册期刊内容数据量为:5.63印张×28800(字/印张)=16.21万字=316.60KB。

平均每份报纸数据量:2007年至2016年的十年间全国出版报纸的总印数为4488.32亿份,总印张数为19074.07亿印张,则每份报纸的平均印张数为:19074.07亿印张÷4488.32亿份=4.25印张,每份报纸内容数据量为:4.25印张×26640(字/印张)=11.32万字=221.10KB。

(二)2007~2016年,全国累计书刊报数据量为2.87TB

十年累计图书数据量:2007~2016 年全国累计出版图书3806095种,平均每种图书为21.40万字,则十年累计图书数据量为:3806095种×21.40万字 =8145.04亿字=1.48TB。

十年累计期刊数据量:2007~2016 年全国共出版期刊98409种,平均期印数 160564万册,总印数310.89亿册;用总印数除以平均期印数可以得知实际出版期数 约每年19.36期,则十年期刊累计出版内容数据量为:98409种×19.36期×16.21万字=3088.33亿字=0.56TB。

十年累计报纸数据量:2007~2016年全国累计出版报纸19230种,平均期印数214678.12万份,总印数4488.32亿份;用总印数除以平均期印数可以得知实际出版期数约每年209.07期,则十年报纸累计出版内容数据量为:19230种 ×209.07期×11.32万字=4551.11亿字=0.83TB。

则2007~2016年全国书刊报累计出版数据量为:8145.04亿字+3088.33亿字+4551.11亿字=15784.48亿字=2.87TB。

其他相关数据量

(一)发行数据量

笔者根据 2007~2016 年《中国新闻出版统计资料汇编》中的相关数据,整理了十年来的出版物发行数据。

1.2016 年度发行数据

2016年,全国新华书店系统、出版社自办发行单位出版物总购进量207.78 亿册(张、份、盒),总销售量208.27亿册(张、份、盒),总销售金额2771.34 亿元,纯销售量70.25亿册(张、份、盒),纯销售金额852.49亿元;非出版物商品销售金额319.46亿元(不含在销售总金额之内);库存数量65.75亿册(张、份、盒),库存金额1143.01亿元;发行网点163102处;从业人员67.12万人。

2016年全国出版物零售情况如下:① 图书零售量67.09亿册(张、份、盒),零售额795.56亿元;② 期刊零售量0.30亿册(张、份、盒),零售额 11.76 亿元; ③报纸零售量0.11亿册(张、份、盒),零售额1.10亿元;④ 音像制品零售量0.39亿册(张、份、盒),零售额7.63亿元;⑤电子出版物零售量0.16亿册(张、份、 盒),零售额11.39亿元;⑥ 数字出版物零售额5.66亿元。

2.2007~2016年累计发行数据

2007~2016年,全国新华书店系统、出版社自办发行单位出版物销售数量及金额合计为:总销售量1831.08亿册(张、份、盒),总销售金额20344.29亿元;纯销售量667.61亿册(张、份、盒),纯销售金额6745.31亿元。

2007~2016年,出版物总购进量1855.56亿册(张、份、 盒),总购进金额20904.24亿元;库存数量576.52亿册(张、份、盒),库存金额8480.58亿元;非出版物商品销售金额1084.14亿元(不含在销售总额之内);发行网点合计1666836处;从业人员合计714.39万人。

2007~2016年,出版物零售情况如下:①图书零售量593.42亿册(张、份、盒),零售额6153.45亿元;②期刊零售量9.45亿册(张、份、盒),零售额141.37亿元;③报纸零售量5.06亿册(张、份、盒),零售额18.08亿元;④音像制品零售量11.73亿册(张、份、盒),零售额149.26亿元;⑤电子出版物零售量2.28亿册(张、份、盒),零售额79.7亿元;⑥ 数字出版物零售额17.66亿元。

(二)印刷复制数据

笔者根据2007~2016年《中国新闻出版统计资料汇编》对印刷复制相关数据也进行了整理

2016年,印刷复制(包括出版物印刷、包装装潢印刷、专项印刷、打字复印、 复制和印刷物资供销)总体实现营业收入12711.59亿元,利润总额882.70亿元;全国出版物印刷企业(含专项印刷)8936家;图书、报纸、其他出版物黑白印刷产量31517.57万令,彩色印刷产量150688.38万对开色令;装订产量 33668.54万令;印刷 用纸量64299.06万令。

2007~2016年,印刷复制总体实现营业收入78334.83亿元,利润总额5427.38亿元;全国出版物印刷企业(含专项印刷)84102家;图书、报纸、其他出版物黑白印刷产量294288.64万令,彩色印刷产量1690138.69万对开色令;装订产量305001.04万令;印刷用纸量545632.08万令。

(三)进出口数据量

根据2007~2016年《中国新闻出版统计资料汇编》,笔者对全国出版物进出口数 据进行了详细的整理。其中图书、报纸、期刊、音像制品、电子出版物与数字出版物的出口数据,来自对全国出版物进出口经营单位和部分出版单位、发行单位的出口数据统计,系不完全统计;进口数据来自对全国出版物进出口经营单位的进口数据统计。

2016年,全国出口图书、报纸、期刊2169.94万册(份),出口金额7785.11 万美元;全国出版物进出口经营单位累计进口图书、报纸、期刊3108.18万册(份),出口金额30051.73万美元;全国出口音像制品、电子出版物与数字出版物 11.75万盒(张),出口金额3225.66万美元;全国出版物进出口经营单位进口音像制品、电子出版物与数字出版物 10.81万盒(张),出口金额25859.38万美元。

2007~2016年,全国累计出口图书、报纸、期刊16066.95万册(份),累计出口金额59273.74万美元;全国出版物进出口经营单位累计进口图书、报纸、期刊28453.20万册(份),累计进口金额271215.06万美元;全国累计出口音像制品、电子出版物与数字出版物282.64万盒(张),累计出口金额14414.03万美元;全国出版物进出口经营单位累计进口音像制品、电子出版物与数字出版物 233.73万盒(张),累计进口金额148717.08万美元。

(四)版权数据量

根据2007~2016年《中国新闻出版统计资料汇编》,版权数据主要包括版权管理与版权贸易数据。2016年,全国版权合同登记19744份,作品自愿登记 1895053份;全国共引进版权17252种,其中引进图书、音像制品和电子出版物版权17174种;全国共输出版权11133种,其中输出图书、音像制品和电子出版物版权9811种。

2007~2016年,全国版权合同登记167662份,作品自愿登记7950290份;全国共引进版权161274种,其中引进图书、音像制品和电子出版物版权154878 种;全国共输出版权74390种,其中输出图书、音像制品和电子出版物版权62249 种。

(五)出版物元数据

文章在此仅对出版物中的图书元数据的数据量进行介绍,其他出版物元数据由于未获得具体数据量,故在此不做介绍。由于图书元数据中包含的大部分数据项在图书在版编目(CIP)中都有所体现。因此,对图书元数据量的统计将以中国版权图书馆CIP登记数量及新中国成立以来的馆藏数量作为基本的规模统计。图书在版编目数据国家标准《图书在版编目数据》于1990年7月31日发布,自1991年3月1日起实施,经过几年的实施和准备,于1999年4月1日起在全国强制性推广实施,截至2016年7月共登记约340万条数据,加上自新中国成立以来的馆藏数据100多万条,目前我国图书元数据量为400多万条。

(六)出版业网站数据

根据中国新闻出版研究院2013~2015年《全国新闻出版业网站运营趋势分析报告》可以得到我国出版业网站的相关数据,该系列报告从三个指标来衡量出版业网站影响力,即页面浏览量、独立用户数及总访问次数(数据为网站月度平均值)。具体见图1~3。

图1 2013~2015 年全国新闻出版业网站月均页面浏览量

图2 2013~2015 年全国新闻出版业网站月均独立用户数

图3 2013~2015 年全国新闻出版业网站月均访问次数

从以上图中可以看出,出版业网站中新闻门户和在线教育类网站影响力明显高于其他三类;新闻门户类网站页面浏览量、独立用户数及访问次数总体上呈逐年增长态势;而在线教育类网站则进入了调整期,2015年出现明显下降。

猜你喜欢
印张印数数据量
基于大数据量的初至层析成像算法优化
高刷新率不容易显示器需求与接口标准带宽
宽带信号采集与大数据量传输系统设计与研究
全国少数民族文字期刊分类种数、印数、总印张、总金额
主要刊期的期刊出版数量
《2012年全国新闻出版业基本情况》(节选)
固定资产管理系统对物流管理的促进和发展