施金龙
(南京市江宁区融媒体中心 江苏省南京市 211100)
在进入20世纪初,在IT 行业里,国产数据库被多次提出,也有很多IT 企业在国产数据库方面做了不少的研究。随着我国IT 技术栈的不断演进,去“IOE”已经由一个企业的目标,变成了整个行业的目标,也就是我国必须使信息系统数据,运行在自研系统之上,以防止数据丢失造成的一系列严重后果。人大金仓数据库面向事务处理类、兼顾分析类应用领域的新型数据库产品,致力于解决高并发、高可靠数据存储计算问题,是一款面向企事业单位管理信息系统、业务及生产系统、决策支持系统等量身打造的承载数据库,是国内成熟度较高的数据库产品。随着数据大数据的发展,数据安全已经上升到一个很高的高度。随着国家对数据安全的重视,国产数据库开始走进中国个大企业,广电也包括其中。新媒体广电实则是数据传播的平台,汇聚各种数据完成传播后,会以备案的方式存在数据库系统中。这就出现数据在不断储存过程中需要很多资源空间,对于数据的管理过程带来很大难题,数据存储空间也受到限制等等问题。国产人大金仓数据库能解决新闻媒体平台的数据存储、数据处理、数据提取问题等等问题,使广电行业能够在极短时间内获取准确有效的数据信息。
目前英特尔、微软、Oracle 等厂商已经在CPU、操作系统、数据库等软硬件核心领域确立了自己的垄断地位,对国内政府机关、企业、个人的信息安全造成极大威胁,在数据库的产品中,最熟悉的无非是Oracle、MySQL、SQL Server 等这些国外的产品,近年来我国IT 的一个现象,那就是硬件集成与应用等领域强,但是基础设施突破少。如何实现主流数据库向国产可靠安全软硬件的数据迁移的重要性也越来越高。
随着大数据和国家的发展,自主可控的国产信息化产品已在我国各个行业领域得到的应用,由于数据库是各个行业系统的应用基础,将之前主流的国外数据库移植到国产数据库是个耗时耗力的过程,需要投入大量的人力做这方面的工作。
虽然迁移过程浩大,但长期使用国外数据库是有很大安全隐患,目前国内市场大部分在使用国外数据库,随着国家的信息化的发展,这些数据库软件还是被国外公司掌控,存在巨大的风险。
打破国外垄断的重要条件:比如ORACLE 数据库,很早就进入中国,在信息化发展初期,大部分国内IT 公司都使用该数据库,导致很多IT 产品都有用该数据库。进入20世纪以来,国产数据库有了很大的发展,国产数据库有自主知识产权,经过这些年的发展,国产数据库也在各个领域得到了应用,也越来越成熟。目前主要还处在将国外数据库迁移到国产数据库的过程中,一步步的打破国外数据库垄断。
人大金仓数据库主要功能有:数据加载、查询计划执行、插入和删除、数据压缩、统计信息收集、表关联、排序和分组聚合、备份恢复、索引的建立和使用、数据库启停。同时支持各个功能并行运行。
表1
图1
主要有以下几点优势:
(1)读写分离等多种集群架构,扩展性强。
(2)应用平滑移植向导式数据迁移工具,快速、高效迁移数据开放融合,搭载多种云平台。
(3)与国产平台的兼容适配,兼容飞腾、龙芯、申威等国产品牌;兼容国外及国产芯片、操作系统、中间件平台全面兼容SQL、ODBC、JDBC 等数据库开发接口全面兼容各种Java 开发框架。
选择国产数据库人大金仓应用有广电行业有如下原因:
(1)采用了大规模并行处理架构。
(2)分布式(非共享)存储集群和行列混合存储技术,实现“秒”级分析。
(3)帮助用户解决海量数据的快速入库、存储、查询、统计、分析等问题。
(4)与大数据平台无缝对接。
人大金仓数据库具有如下特点:完善的备份方案、支持大规模并发处理能力、高效的执行计划和索引技术、加强的缓存机制、支持多种表分区、支持并行操作、支持快速加载。
对比ORACLE,如表1。
通过测试对比,两个数据库在相同的运行环境下,用同一测试软件进行测试,人大金仓数据库的事务处理能力明显强于Oracle 数据库,如图1所示。
测试结论:KingbaseES 在同等环境条件下,在2 小时、8 小时、24 小时时长测试中,均有比Oracle11g 更快的响应速度。
随着互联网的逐渐成熟,数量信息的数量也在爆发性的增长,对于新闻媒体平台而言数据库是所有信息的基础,对现有大数据的在数据库基础上做信息的有效提取,去除冗余信息,能够快速精准的对数据进行分类,以便后期平台对各种类型的信息进行数据挖掘,满足不同层次的用户群,建立以大数据为基础的决策平台。
基于人大金仓数据库搭建大数据基础平台:数据整合、数据存储、数据计算。在基础平台上进行大数据分析和智能推荐引擎。对于广电行业中的结构化、非结构化的大数据,数据库必须满足并行和数据带宽足够大的需求,同时能够对这些大数据能够进行快速的数据分析;对实时产生的数据,具备流计算能力。有以下优化技术方法:
(1)内存分配优化技术:首先将数据库的数据信息存储在内存和磁盘上,因为访问内存要速度要比磁盘高几十倍甚至更多的数量级,所有将数据线保存内存中,这样可以加快数据库执行速度,缩短数据库的响应时间,减少对磁盘读写的操作。
(2)分散热点文件技术:任何时候,如果某个磁盘上的I/O操作超过了其物理限制而其他进程必须排队等待时,系统中就出现了磁盘竞争。磁盘驱动器是计算机系统中的机械部件,因而磁盘检索的速度和吞吐量都受到了一定的物理限制。如果磁盘上的I/O 操作超过了这个限制,那么系统除了等待将别无他法。实现最小化磁盘的读写操作,减少对数据库服务器查询和对数据返回所消耗时间的最直接方法是采用分散热点文件和分区技术。
(3)分区技术:使用过程中,数据库的数据量在不断增大,尤其对数据库中表的维护更加复杂。这时采用分区技术,能够有效的提高数据库应用层的管理性能。分区技术是将表、索引以及索引编排表更加细化的划分,这样对数据就可以得到更细化的管理和访问。
广电的内容和资源比较丰富,但是在网络融合时代下,广电网络要不断加强自身的综合实力和竞争力,那么就要构造新的业务形态,以数据分析为主要切入点,根据大数据基础平台,实时分析用户行为,根据用户的喜好推送相关的内容,确保内容实际有效。
数据分析平台可实现根据客户的需求和实际使用情况,进行定制化分析,融合观众的多维度爱好进行分析,优化和升级新媒体产业。
针对广电行业数据类型多并且数据量大,针对有效快速的对数据进行分析有以下两种方式:
(1)SQL 语句优化技术:由于数据库是管理系统的基础,对应用层,查询操作是使用最频繁的操作语句,因此高效的查询速度是数据库的应用的关键,尤其是大型数据库服务器,对查询速度要求非常苛刻。优化SQL 语句实际就是采用一系列优化算法查询语句,尽可能利用索引来查询数据库表,减少查询次数,和查询范围。
(2)索引优化技术:数据索引是最常用的数据库对象,好的数据库索引建立,是影响应用程序执行效率和数据库的查询操作性能的关键。建立索引可以提高查询速度,但是为了改善查询性能,索引的使用注意事项:不去使用已存在的索引,索引的建立不是靠数量而是质量,一些冗余的索引对于应用层的运行速度和性能存在很大的影响。一般单列索引没有复合索引执行效率高。特别是在SQL 语句所查询的列都出现在复合索引中的时候。
人大金仓数据库对数据库文件的运行过程中备份以及对数据库在存储过程的保护,在数据库运行过程中具有安全措施对丢失和损坏的数据进行恢复功能,以保证数据在运行过程中的安全。
数据库管理系统对数据库的安全保障是通过以下几个控制实现的:
(1)数据安全性控制:数据库管理系统在各个操作系统上运行的,首先需保证操作系统的安全。操作系统保证只有数据库管理系统才能有权限访问数据库,其他任何软件不能以任何方式对数据库进行读写。数据经过加密后保存在数据库。
(2)数据完整性控制:完整性控制是指对数据库允许的用户或者对象对无效的操作语句进行有效的过滤和剔除不合理的数据。
(3)数据并发性控制:在实际运用过程中,不可能只有单一用户对数据库进行访问,多用户操作数据库时,需针对多用户并发操作时,对访问的同一数据进行保护控制,保证数据内容的一致。并发操作同一数据如果不加保护大概率会产生不正确的数据,并发保护是杜绝此类问题的发生,时刻保护数据的读写访问。
(4)数据库恢复功能:保护数据库的方法很多,也有很多算法进行数据保护,但都不能百分之百的保证数据不遭到破坏的情况,造成这种情况的原因有很多,比如硬件故障、人为的错误操作、代码的漏洞、或者其他破坏。这时需要采取数据恢复的功能,一旦数据遭到破坏,常用的方法有如下:在系统日志中记录并将数据进行转存、利用现有的数据通过重建算法进行数据恢复。
(1)更精准的切入角度:新闻媒体使用大数据平台通过当前互联网上现有的活跃的社交媒体、邮件、移动端数据、地理定位等多样化多角度的数据进行数据采集、数据处理、数据挖掘以及数据分析。更精准的了解老百姓关心的热点新闻。
(2)报道内容深度加强:根据数据库管理平台,对数据进行分析,得到有效有价的数据内容提供给相关部门对产品进行优化,使得新闻材料使用更加人性化、更加便捷、更加直观、更易操作,这样能够使得新闻报道具有更优的价值。
新媒体时代,媒体内容的生产、消费、运营都已形成数字化流通,经过长时间的累计,具有大量的用户消费数据和媒体业务运营数据,广电行业在面对大数据的融入时,需正确认识大数据的各个优势的同时,并认识到国产化是防止国外垄断技术,是时代发展的必然趋势,有助于国家技术发展,合理利用国产数据库优势,逐步替代目前媒体平台的国外主流数据库。将大数据的优势进行充分的利益,有效应对互联网竞争的大潮。