文|肖方
中国新闻社作为国家级通讯社之一,承担着对海外华人华侨和港澳台同胞的宣传任务。成立60年来,积累了大量珍贵的历史资料,包括文字、图片、音频、视频、电影资料等。中国新闻社摄影部是中新社的新闻图片采编业务部门,保留了大量的图片资料,而图片信息的存储是信息系统的重要方面,搭建共享的存储架构,实现数据的统一存储、管理和应用已成为媒体行业发展趋势。作者在中新社从事计算机应用和网络技术工作多年,在图片信息库数字化网络存储技术工作方面总结出一些经验,在此对中新社的技术创新能力、计算机网络技术发展、网络存储架构,大数据应对策略、安全存储措施进行一些回顾和探讨,供同行参考。
使用传统介质如纸和胶卷保存信息资料,检索速度很慢,而使用计算机存储数据信息,存取速度极快,存储的数据量也很大。一般凭证文件应当用纸介质存储,业务文件可用纸或磁带存储,主文件,如企业的企业结构、人事方面的档案材料、设备或材料的库存账目应当存储于磁盘,以便联机检索和查询。
电子存储介质是指存储数据的载体。比如软盘、DVD和CD光盘、HDD硬盘、闪存(快速闪存存储器)。与传统电脑内存不同,闪存的特点是非易失性(也就是所存储的数据在主机掉电后不会丢失),其保存与删除处理的速度较快。闪存被应用在计算机中的BIOS、PDA、数码相机、录音笔、手机、数字电视、游戏机等电子产品中。摄影记者使用的数码相机常用CF卡和SD卡,这两种存储卡具有体小质轻、低能耗、高容量、数据传输速度快的特点。
二进制序列用来表示计算机、电子信息数据容量的量纲,基本单位为字节B,计算机存储单位一般用b,B,KB、MB、GB、TB、PB、EB、ZB、YB、BB来表示,位bit(比特),存放一位二进制数,即 0 或1,是最小的存储单位。字节 byte是8个二进制位为一个字节(B),是最常用的单位。随着计算机存储数据不断增加,存储单位也在增加,计算机存储容量单位如下排列:
bit(位),byte(字节),KB(千字节),MB(兆字节),GB(吉字节), TB(太字节),PB(拍字节),EB(艾字节), ZB(泽字节),YB(尧字节),BB(波字节),在排列中每级为前一级的1024倍。表示容量越来越大。例如:1MB=1024KB,1GB=1024MB,1TB=1024GB。
90年代,中新社摄影部作为总社的新闻图片发稿业务部门,经历了从使用滚筒式模拟信号传真图片,到使用底片扫描仪和平板式扫描仪进行电脑数字化处理、文件存储和文件传输,实现了图片信息数字化存储。
1994年,摄影部进行图片发稿技术改造,通过苹果电脑进行彩色底片和黑白底片扫描处理,采用理光专用光盘存储图像信息,使用PC电脑和1.44M软盘存储传真图片和专题图片文字信息。每天发图片通稿5-10张,每月发10组专题图片。一张彩色图片原图大小4.5MB左右,黑白图片大小1.5MB,图像经过Adobe Photoshop软件压缩处理后生成100KB左右大小的传输文件,通过北京--香港专线网络,将图像文件传送到香港分社的苹果电脑中,然后经香港分社传送到海外媒体客户电脑接收设备中,经挑选登载在海外和香港澳门报纸和杂志上。数字化图片发稿技术使中新社能快速和准确将新闻稿件播发到海外和港澳地区。
1995年,摄影部使用基于DOS操作系统的PC电脑,建立了图片信息管理和检索数据库,将每日发送的传真图片、专稿图片和留资图片说明入库。为日后建立中新社图片网打下了良好的基础。摄影部工程师在同年3月“全国人大、政协两会”期间,使用苹果电脑首次制作了中国新闻彩色封面、封底和图片内页,送到两会代表手里。由于摆脱了原来黑白文字版面单调的格局,新颖的彩色封面和图片版面受到与会代表的好评。
1997年,摄影部采用PC电脑,使用VisualC++语言和面向对象技术开发的数据库开发工具,开发了基于Windows界面的比利时多媒体数据库,内容包括新闻图片、专题图片及留资图片全部文字信息,系统自动生成图像文件的快照图标(20K-30K)到数据库中。图文并茂的数据库信息检索画面受到摄影部和技术部领导的好评。在全国人大、政协两会和97’香港回归期间,工程师们使用苹果电脑制作了中国新闻彩色封面、封底和图片内页。保留下宝贵的历史图片资料。
1998年,中新社建成基于客户端/服务器架构的新闻图片采编网,服务器操作系统是Microsoft NT4.0 server,数据库是使用Microsoft SQL Server,全社每天发图片通稿10--20张,每月发10组专题图片,还有资料图片。摄影记者外地采访采用尼康底片扫描仪扫描底片,使用PC笔记本和苹果笔记本进行发稿。时政记者开始使用数码相机拍摄新闻图片,将图片传送到新闻采编系统中。值班主任通过PC电脑登录到采编系统,对图片说明进行编辑和校对,并签发图片,期间工程师们通过苹果电脑处理图像,包括图像修改、剪裁、角度、亮度、反差、色彩和色调的调整。保证了图片稿件产品的质量。
2001年,中新社建立了基于Internet互联网数据存储架构的中国新闻图片网,确立内网和外网数据库架构、外网网站域名www.cnsphoto.com。在社长和总编辑的领导下,与中国新闻网合作,将图片网服务器托管在中国电信机房。内网使用HP服务器,外网使用DELL服务器,采用磁盘冗余阵列存储,服务器使用Microsoft Window server 2000操作系统,图片采编和销售数据库采用Microsoft SQL server 2000。图片信息数据库全文检索系统由北京拓尔思TRS公司开发。中新社除了每日发图片通稿30-50张(同时发布到图片网上),其余有价值的图片也发布到网站,使用户能更方便挑选下载及购买图片,由此打开中新社图片销售市场,图片网在为图片客户提供丰富的图片资源同时,也收集网站用户上传的新闻图片、专题图片和资料图片,图片编辑有选择地将新闻图片上传到中新社新闻图片通稿采编系统中,由此丰富了中新社图片产品的内容,实现了中新社通稿采、编、发业务和图片网站业务的双向交流,促进了中新社图片信息库网络存储技术发展。网站通过提供智能检索提升图片信息的使用价值,取得了经济效益和社会效益。
《中国新闻图片网》项目受到了中国新闻技术工作者联合会领导的好评。帮助记者和签约摄影师个人保存了大量有价值的资料,也成为中新社的宝贵资源。另外,摄影部将30万张底片陆续扫描到电脑中,存入图片信息库,丰富了中新社的图片资源。截至2013年7月31日,中新社图片网共存储图片181万张。
2002年6月该项目作为《中国新闻社新闻信息电子商务解决方案》获得由中国新闻技术工作者联合会颁发的《新闻科技创新》一等奖。
2003年中新社建成了基于Internet 互联网数据存储架构的新闻采编平台和图文发布系统,建立了包括总社各部门、国内分社、国外分社的采集网络,总社、香港分社、美国分社成为文字通稿和图片通稿签稿中心。采编服务器是基于Windows Server 2000的DELL服务器,数据库采用SQL Server 2000,数据存储方式采用磁盘阵列。
至此,技术创新给中新社图片发稿业务带来质的飞跃,在全国两会及2008奥运会报道中发稿量剧增。平时,中新社每天发图片通稿50-100张(同时发布到图片网上),还包括只发网站图片,专题图片和资料图片。彩色图片发稿原图9MB-18MB,图片压缩后传输文件大小是300KB--800KB,通过图文发布系统播发到海外、香港、澳门媒体客户机上,为当地报纸提供图片内容。另外,中新社新闻图片采编系统和中新社图片网站进行合理的衔接,自动将每天发的新闻图片传送到图片网内网和外网上,以多种方式服务于客户。
计算机、服务器、存储器快速发展,对电子化数据机房的要求更高。分级存储管理(HSM)技术,就是系统根据数据的重要性、访问频次等指标分别存储在不同性能的存储设备上,采取不同的存储方式,实时监控数据的使用频率,并且自动地把长期闲置的数据块迁移到低性能的磁盘上,把活跃的数据块放在高性能的磁盘上。
2012年,中新社建立了基于高端SAN存储架构的多媒体采编平台,SAN的支撑技术是光纤通道(FC Fiber Channel)技术。存储系统具有硬件冗余设计,消除单点故障,能够对应用系统提供不间断的数据访问服务;对应用系统存储的数据具有RAID保护、链路冗余等多种技术手段,确保数据的可靠性和完整性。存储系统主体是一台磁盘阵列设备,以交叉冗余方式接在存储区域SAN交换机上。前端需要连接SAN的服务器上配有双口HBA卡,分别通过光纤连接两台SAN交换机。部署一套物理磁带库产品,通过备份服务器部署的备份软件控制进行自动数据备份。备份内容包括数据库服务器中的数据库数据以及各应用服务器的业务数据。
图片稿库采用TB级磁盘阵列存储,使用DELL服务器进行管理和检索。数据库采用Oracle。中新社每天发图片通稿100-200张,发图片网站200-500张(包括通稿),图片发稿原图30—50MB,由记者个人保存。图片压缩后传输文件大小为2MB,通过建立图片信息发布系统,借助Internet互联网和网络链路加密手段为国内国际用户进行推送和发布服务,建立中心站点(北京)为大陆图片用户服务,建立亚太、美国图片镜像站点为所在区域用户服务,并自动发布到中国新闻图片网(专业图片网站,可供大图)和中国新闻网(门户网站,只供小图)。图片网站服务器仍托管在在中国电信机房,通过两套相同数据库存储方式,使用大容量硬盘存储图片资料数据。存储容量仍是TB级存储。摄影记者的数码相机使用高速GB级CF卡和SD卡,移动硬盘是1TB和2TB硬盘。主力记者使用苹果笔记本,内装500GB SSD固态硬盘,通过无线上网卡,进行新闻图片的快速采集、处理、存储和传输。另外,摄影记者还使用联想ThinkPad笔记本电脑发稿。智能手机也成为记者现场抓拍新闻图片的工具,通过微信平台传输新闻图片和其他重要信息。图片值班编辑使用DELL电脑和苹果电脑对新闻采编系统中的新闻图像进行编辑、处理、存储、签发。使中新社的图片稿件通过多种销售平台传播到客户中。
数字化、创新型、多媒体网络平台存储是未来发展趋势,发展移动平台和电子化阅读是中新社等媒体应该考虑的问题,通过高科技手段提高多媒体信息传播速度是媒体的立足之本。
未来的存储器不仅具有更高的容量、速度和性能价格比,而且还将具有自动恢复和自动管理功能,同时具有高度的开放性和互操作性。
SSD固态硬盘和HDD机械硬盘共同使用将是发展趋势,内存和固态硬盘速度快但成本高,用于存放频繁读写的数据信息,而机械硬盘存取速度慢但成本低,适合存放不常读写的数据。按需分配数据存储才是通讯社要采取的方法。
云计算是分布处理、并行处理和网格计算几种技术发展后进行综合的结果,引入了虚拟化等最新技术。云计算主要提供的服务分为IaaS(Infrastructure as a Service基础架构服务)、PaaS(Platform as a Service平台服务)、SaaS(Software as a Service软件服务)。
IaaS服务提供商通过提供虚拟机、服务器、存储空间、网络带宽和安全防护,实现共享CPU资源池、内存资源池、网络资源池和存储资源池,并提供资源需求的弹性伸缩,如亚马逊数据中心即Amazon EC2(Elastic Computer Cloud)。
PaaS云平台服务通过提供数据库、开发工具、Web服务器和软件运行环境,实现分布式存储和分布式计算技术对海量数据的分析处理,以提高IT服务水平和资源的利用率。互联网比较著名的PaaS包括Google App Engine和Microsoft Azure。
SaaS云应用服务针对软件的最终用户,而不是软件开发人员。SaaS服务提供商为客户提供OA系统、电子邮件、虚拟桌面、在线游戏服务等,用户经过认证和授权可以在各种设备上通过客户端界面访问――通常是Web浏览器。
面对云计算和海量数据,如何分析和挖掘内在价值是急需考虑的问题。
Hadoop是Apache开源组织的一个分布式计算开源框架,在很多大型网站上都已经得到了应用,如亚马逊、Facebook和Yahoo等等。
Hadoop框架中最核心的设计就是:MapReduce编程模式和HDFS。MapReduce就是“任务的分解与结果的汇总”。HDFS是Hadoop分布式文件系统(Hadoop Distributed File System)的缩写,为分布式计算存储提供了底层支持。
在分布式系统中,机器集群就可以看作硬件资源池,将并行的任务拆分,然后交由每一个空闲机器资源去处理,能够极大地提高计算效率,同时这种资源无关性,对于计算集群的扩展无疑提供了最好的设计保证。
HDFS设计特点:
1、一个Block会有三份备份。
2、心跳检测DataNode的健康状况。
3、balancer命令,来平衡每一个DataNode磁盘利用率。
4、数据校验:采用CRC32作数据校验。
5、NameNode是单点:如果失败的话,任务处理信息将会纪录在本地文件系统和远端的文件系统中。
Hadoop用于分布式运算的优点:
1、可扩展:不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。
2、经济:框架可以运行在任何普通的PC上。
3、可靠:分布式文件系统的备份恢复机制以及MapReduce的任务监控保证了分布式处理的可靠性。
4、高效:分布式文件系统的高效数据交互实现以及MapReduce结合Local Data处理的模式,为高效处理海量的信息作了基础准备。
信息爆炸时代已经到来,未来几年全球数据存储容量将达到ZB级,施耐德电气IT事业部中国区副总裁/数据中心业务总经理曲颖在《2013通信行业数据中心和大数据峰会》演讲中提到:水和空气的单位是泽。地球上的水总量≈1.4Zg,地球上的空气质量≈0.7ZL,2020年全球数据量将突破40ZB,是2012年的12倍,2020年中国数据量将突破8ZB,是2012年的23倍[4]。
中新社未来将通过合理规划内部机房供电和制冷系统,建立绿色节能的数据中心,提高电源使用效率,将PUE值控制在1.5以下,加快社内宽带网络建设,图片网站进一步与电信服务商合作,提高数据上传和下载的传输速率。建立专业的存储技术研究和技术服务团队,迎接大数据存储时代的到来。
图片信息库是中新社业务发展的关键数据,要求中新社在数据信息安全存储方面采取如下措施:
1、保证存储数据机房24小时低温,将温度和湿度控制在安全范围。保障存储设备安全可靠。
2、检查配电箱、UPS不间断电源、空调设备是否正常。管理好机房空调、机柜、线路设备、服务器和存储设备。
3、注意防火和防盗,建立预警机制和巡查机制。
1、避免移动硬盘磕碰,掉地。
2、CF卡耗能低,速度快,接口针脚容易弯曲,进行插拔时要小心。
3、保证电子存储介质的存放环境恒温恒湿,注意防火和防盗。
为保证服务器、电脑和存储设备数据安全,设备管理人员要增加风险防范意识,在电脑上安装360安全卫士和杀毒软件,在服务器管理方面完善用户访问机制,严格授权,监控打开端口,阻止关键数据被窃取,安装防火墙,防病毒软件,监控路由器,防止复杂攻击,如欺骗、分布式拒绝服务攻击DDoS和恶意软件攻击。网站要做好安全防护工作,避免网站被篡改,或被植入后门,防止网站信息被黑客窃取。
当前,随着互联网及电子商务的应用发展,存储在企业网络中的数据就成为企业最珍贵的资产,存储已不再是附属于服务器的辅助备份设备,日益走向企业信息系统的核心。信息的有效存储保护,备份和灾难恢复已成为企业构建IT基础设施迫切需要考虑的重要环节。数据保护系统的建设是一个循序渐进的过程,在进行了本地备份系统建设之后,有必要建立一套可靠的远程容灾系统。当灾难发生后,通过备份的数据完整、快速、简捷、可靠地恢复原有系统。未来10年,中国新闻社技术团队通过与云计算服务商合作,有信心有能力迎接大数据的到来,通过7X24小时安全防护,保证服务器、存储设备和网络设备安全运行,保证全球新闻发稿业务的连续性,争取建设一个绿色节能和智慧化的数据中心。