以全媒体思维建设中国科技媒体集团的大数据技术平台

2014-06-25 07:35史晓波
中国传媒科技 2014年11期
关键词:权值集群服务器

文|史晓波

为了打造中国科技网的核心竞争力,科技日报社提出要建设全媒体网站内容管理系统,以实现文字、图片、音视频的统一管理和服务,强化对外的网站服务模式,并建设丰富的互动体验功能,同时建设集团化的公共稿库,实现大媒体集团内部各子报、子刊、版面资源以及移动终端媒体APP的统一管理和共享,从而高效实现从供稿入库到对外授权服务、交流互动,全力提高中国科技网网站服务的影响力。

主要建设内容

服务科技领域,建立统一信息门户

中国科技网在现有技术平台的基础之上,将进一步建设集成的统一信息服务门户,为广大科技爱好者、广大科研人员、科技精英以及政府、科技界相关人员提供统一的信息门户和一站式服务平台:提供最新科技要闻、科技热点专题、科技前沿技术、相关科技服务咨询;为科技专家与广大科技工作者提供交流互动、个性化服务、全方位获取科技资源与发布科技信息的平台。基于互联网、WAP、RSS、移动终端等多种快捷的发布渠道发布各种信息,使之成为业界全方位获取与传播信息的最佳最快捷的友好平台。

科技行业垂直智能搜索平台

基于统一信息服务门户,构建科技行业垂直智能搜索平台,实现对所有中文科技网站的门户的垂直搜索。为广大用户提供最全面,最权威的科技行业信息搜索,提供更好的用户体验,能够实现相关性检索、检索结果分类、聚类、智能关联展示等信息智能化处理功能。通过构建具有集群架构的统一的智能搜索平台,满足大数据量和高并发量的需求。

建设科技全媒体资源库(大数据中心)

基于网络时代公众对科技新闻信息的快速获取需求,充分运用现代信息技术,增强对互联网海量信息进行采集和监测工作,通过权威专家和新颖灵活的网络专题,对热点科技话题及时策划、深入解读、破除流言和误解,增进公众对国家科技进步成就、重大科技工程、国内外科技前沿及其他热点科学话题的了解认知。提高分析互联网舆情问题的能力,为科技管理部门及时了解社情民意、引领舆论导向、进行科学决策、维护社会稳定提供重要支持。

建设以大数据为核心的科技信息分析平台(比如对全国中小学生感兴趣的读物进行分析),通过大数据采集、挖掘、模型建立,实现科技大数据的深度分析,如对报社记者采访的事件,选用了哪些稿件进行见报分析,对读者阅读习惯进行数据跟踪采集,以便为科技部领导和科技日报领导提供辅助决策支持,同时及时调整符合读者需求的报道内容。

建立知识中心,实现资源共享机制

提供以科技知识传播为中心,统一科技知识资源管理,搭建专家和网民的桥梁,建设知识展现,知识学习,知识推进为核心的科技知识管理服务平台,实现积累知识资产,共享知识资源,创新知识应用,复制知识能力的目标,充分利用专家资源,鼓励科技爱好者积极参与,使各行业科技知识得到更好的推广和普及。

应用网络虚拟技术,开展网络科技会展

充分运用3D虚拟会展技术,开设720°全景会展。包括国家科技活动周、国内外科普博览会、大型科技活动等丰富数字资源的网络科普会展中心,打造出“永不落幕的网络科技会展”。

关键技术分析

应用集群技术

◎ 主流Java应用服务器(如:IBM WebSphere Application Server、BEA WebLogic Server、Tomcat等)都提供了集群实现。但对于某些大并发的互动应用来说无法直接采用应用服务器本身提供的集群功能,而需要根据应用特点自身在应用层实现集群,基于以上考虑,我们对应用层进行集群设计:采取基于组播的对象同步策略实现应用高可用性,支持3-4个应用服务器节点建立应用集群。所有服务器对等配置,给每台服务器配置唯一的权值。在启动时设置一台为主服务器,其他为从服务器。主、从服务器的权值约定和协商策略说明如下(以3个节点为例):

随着数字化技术、通信技术和计算机技术的不断发展,极大地推动了媒体行业的信息化进程,同时也对传统的新闻传播业造成了前所未有的冲击。由于技术的发展,使传统诸媒体行业之间,媒体业与电信通信业之间的边界由清晰走向模糊。媒体行业由传统的以单一文字报道为主向集文字、图片和音视频为一体的全媒体转型,3G、4G时代更是将传媒引入跨媒介、跨文化、跨产业融合的全球传播新格局。

◎ 权值定为1、2、3,1为最高权值,3为最低权值,其中权值为1表示该服务器为主服务器;

◎ 新服务启动后首先通过组播的心跳通道检查当前存在的服务器节点,获得当前不被占用的最高权值。如集群组内没有其他服务器节点,则新服务启动后获得权值为1,成为主服务器节点;如集群组内只有主服务器节点,则新服务启动后获得权值为2,为从节点;如集群组内存在权值为1和3的两台服务器,则新服务启动后获得权值为2;

◎ 如果当前主服务器节点出现故障退出集群,则所有从节点的权值都升一级:如主服务器节点出现故障退出集群,则权值为2的从服务器节点权值变为1,成为新的主服务器节点,依此类推;

◎ 如果当前从服务器节点出现故障退出集群,则所有比此从服务器节点权值低的从服务器节点的权值都升一级:如权值为2的从服务器节点出现故障退出集群,则权值为3的从服务器节点权值变为2。

主/从服务器都是缓存读取的对象,不缓存数据库写入操作。每台服务器独立配置了高效的分布式缓存组件负责缓存对象的管理与同步。对于尚未缓冲(包括尚未加载过或者被更新命令删除后尚未加载)的对象,服务器直接通过Cache Loader从数据库自主加载;对于已经缓冲的对象则直接返回缓存对象。当服务器更新缓存对象时,同步发送更新缓存命令给其他服务器;其他服务器一旦接收到更新缓存命令,立即从缓存中删除该对象,直到再次请求时重新加载。

服务器间通过组播的方式传递数据与命令,服务器启动后会自动与其他服务器建立事务、数据、心跳三条传输通道。事务传输通道采取同步方式分发关键命令;通过快速数据传输通道异步分发内存对象等小实体;通过慢速数据传输通道异步分发文件等大对象。心跳检测通道负责探测服务器之间的活动情况,在服务器出现异常时,自主协商新的主服务器。对于异步的传输通道,集群自己维护认为队列,当队列满后,会采取一定的策略调整队列,保持关键信息完整。

为了保持分布式缓存对象的一致,缓存管理器定时刷新对象,并通过数据传输通道同步数据到从服务器,此项任务只由主服务器执行(如图所示)。

组播技术

组播技术被认为是互联网技术推广之后出现的最激动人心的网络技术之一。组播是一种允许一个或多个发送者发送单一的数据包到多个接收者的网络技术。组播源把数据包发送到特定组播组,而只有属于该组播组的地址才能接收到数据包。组播可以大大的节省网络带宽,因为无论有多少个目标地址,在整个网络的任何一条链路上只传送单一的数据包。

组播技术是IP网络数据传输三种方式之一。IP网络数据传输包括单播、组播和广播方式。

采用组播技术实现集群服务器间的数据同步具有如下特点:

◎ 效率增强:控制网络流量,降低服务器和CPU的负担;

◎ 分布式应用:使多点应用可行;

◎ 性能更优化:消除流量冗余。

AJAX技术

Ajax是由几种蓬勃发展的技术以新的强大方式组合而成,包括:

◎ 基于XHTML和CSS标准的表示;

◎ 使用Document Object Model进行动态显示和交互;

◎ 使用XMLHttpRequest与服务器进行异步通信;

◎ 使用JavaScript绑定一切。

Ajax的核心是JavaScript对象XmlHttpRequest。该对象在Internet Explorer 5中首次引入,它是一种支持异步请求的技术。简而言之,XmlHttpRequest使用户可以使用JavaScript向服务器提出请求并处理响应,而不阻塞用户。

Ajax相当于在用户和服务器之间加了—个中间层,使用户操作与服务器响应异步化。并不是所有的用户请求都提交给服务器,像—些数据验证和数据处理等都交给Ajax引擎自己来做,只有确定需要从服务器读取新数据时再由Ajax引擎代为向服务器提交请求。

使用AJAX能够给用户和应用带来如下好处:

☆ 减轻服务器的负担。

因为Ajax的根本理念是“按需取数据”,所以最大可能在减少了冗余请求和影响对服务器造成的负担。页面不读取无用的冗余数据,而是在用户操作过程中的某项交互需要某部分数据时才会向服务器发送请求。

☆ 减少用户实际和心理等待时间。

首先,“按需取数据”的模式减少了数据的实际读取量,打个很形象的比方,如果说重载的方式是从一个终点回到原点再到另一个终点的话,那么Ajax就是以一个终点为基点到达另一个终点;

其次,即使要读取比较大的数据,也不用像RELOAD一样出现白屏的情况,由于Ajax是用XMLHTTP发送请求得到服务端应答数据,在不重新载入整个页面的情况下用Javascript操作DOM最终更新页面的,所以在读取数据的过程中,用户所面对的也不是白屏,而是原来的页面状态(或者可以加一个 LOADING的提示框让用户了解数据读取的状态),只有当接收到全部数据后才更新相应部分的内容,而这种更新也是瞬间的,用户几乎感觉不到。

安全策略

每一种新的Web技术都不可避免的遭遇安全问题,Ajax也不例外。Ajax即时数据反馈的特点实现了良好的用户交互,使得IT工程师们通过基于Web的应用程序来改变用户访问和交互公共数据的方式。

但是Ajax技术同时也对组织内部应用带来了新的安全威胁,Ajax技术就如同对数据建立了一个直接通道。这使得开发者在不经意间会暴露比以前更多的数据和服务器逻辑。

Ajax的逻辑可以对客户端的安全扫描技术隐藏起来,允许黑客从远端服务器上建立新的攻击。还有Ajax也难以避免一些已知的安全弱点,诸如跨站点脚步攻击、SQL注入攻击和基于credentials的安全漏洞等。

为了发现Ajax应用所带来的安全威胁,并给出解决办法,我们可以分析Web应用程序开发生命周期的不同阶段和不同方面,进而选择特定的安全工具来帮助我们提高基于Ajax的应用的安全性。通过使用这些工具,项目和产品开发者可以显著的减少Ajax安全缺陷,并使得任何安全漏洞尽在掌握之中。

同时,在应用建设中,我们重点考虑了如下设计问题:

◎ 集中力量合理减少和简化AJAX调用,创建一个标准的响应格式。

◎ 遵循应用安全设计规范和相应标准。这里面特别包含了访问控制和输入校验漏洞检查,同时确保敏感信息使用SSL胜过使用普通文本。

◎ 永远不要假设服务器端AJAX对于访问控制或者用户输入校验检查能够代替在服务器上的最终再检查。

向外扩展(Scale-Out)满足不断增加的存储需要

系统扩展性是必须要考虑的问题,随着业务量逐步扩大;实现系统扩展有两种方式:Scale-Up和Scale-Out。所谓Scale-Up,简单的说就是在同一台机器内增加CPU、内存等硬件来增加系统的处理能力,一般不需要修改应用程序;而Scale-Out就是向外扩展,即通过增加运行服务器的数量来提高系统整体的能力,应用程序的软件架构需要与之配合,随着系统规模的不断增加,应用程序可能还需要进行相应的修改。

Scale-Up受软硬件体系的限制,因为不可能无限增加CPU和内存,相反Scale-Out却是可以“几乎”无限的扩展。因此,虽然Scale-Out会随着服务器数量的增多而带来管理、部署和维护的成本上升,但它是全球图片库这类更合适的选择。

技术难点和创新点

★ 满足Web3.0时代的全媒体传播的要求

基于目前现有的Web3.0的相关技术,应用Mashup技术实现企业内部各应用之间的微内容(Widget)的自由整合与有效聚合,实现组织内部用户创造信息的整合共享与深度利用,使得内容信息的特征更加明显,便于检索。将精确地阐明信息内容特征的标签进行整合,提高信息描述的精确度,从而便于用户的搜索与整理。通过创新性的利用TAG/ONTO/RSS基础聚合设施并融合渐进式语义网,为Web3.0构建完备的内容聚合与应用聚合平台。将传统意义的聚合技术和挖掘技术结合,创造出更加个性化、搜索反应迅速、准确的“业务应用服务”以满足业务发展的要求,其思想精髓是集中群体智慧、激活人员动力、展示员工才能、促进知识共享,满足企业业务的高度敏捷性(Agile)、很强适应性(Adaptable)和充分协作性(Aligned)。

★ 适合多种终端平台,实现信息服务的普适性

我们的技术平台建设将探索实现信息资源在不同终端的兼容和普适,满足从PC互联网到WAP手机,PDA,机顶盒,专用终端,不只应用在互联网这一单一终端上,使得各种终端的用户群体都可以享受到在互联网上冲浪的便捷。实现融合网络的普适化、公用显示装置与个人智能终端的通用,同时加入E-RAD的应用与研发,使得嵌入式技术在Web3.0模式下发挥更大的效力。同时,系统设计时考虑良好的人性化用户体验、以及基础性的个性化配置,在UGC筛选性的过滤的基础上同时引入偏好信息处理与个性化引擎技术,对用户的行为特征进行分析,形成可信度高的UGC发布源,同时对内部用户的资源获取习惯进行整理、挖掘,得出最佳的设计方案,帮助用户快速、准确地搜索到自己想要感兴趣的信息内容,实现业务的“随需应变”。

★ 海量数据的智能化检索服务

全媒体网络综合平台整合、管理着海量的各种格式的信息资源,而且系统服务受众广,数据量大、访问用户多是系统的重要特点之一,如何满足大数据量和高并发量的智能化的检索需求,是系统建设的技术关键、难点之一,采用先进、成熟的全文检索技术结合文本智能处理技术构建具有集群架构、具有良好扩展能力、满足大数据量和高并发检索请求的统一智能搜索平台,则是平台建设的重要技术创新点。

★ 全系统的流程整合与业务协同

全媒体综合平台建设涵盖十几个业务应用及支撑平台,实现这些业务应用平台间的统一身份管理、统一身份认证、业务流程互通、业务应用集成、业务办公协同存在着建设难点,如不能实现各业务应用平台间的流程整合与业务协同,则会在大平台上形成了新的信息孤岛,为此,采用灵活的具有良好扩展性的门户应用集成框架、统一的工作流引擎与统一身份认证技术,实现大平台上各系统间的全面业务流程互通,打造协同的工作环境,可科学的创新业务工作模式并有效的提升工作效率。

★ 智能数据映射和挖掘,实现统一数据访问

为了实现统一数据访问服务,需要借助各种智能映射技术、智能挖掘技术实现数据的组织构建,为不同应用提供统一的数据服务,为不同的需求提供推荐的数据资源。

智能数据映射和挖掘涉及多种分析和语义智能处理,如基于文档“指纹”的文本查重技术和跨语言的相似检索技术,基于规则和基于统计的多种分类引擎,基于大规模语料和层叠隐马尔可夫模型的实体识别方法,基于向量机算法的话题跟踪技术等。

★ 多元化、精准营销服务模式创新

当前的报业媒体除销售报纸、期刊外,虽然也同时具有网络服务功能,并对信息进行简单打包和推送服务,但远远不能达到精准服务要求。

互联网营销与传统营销相比,其在灵活性、信息快捷性、针对性方面具有先天的优势,因此在多元化、精准营销服务模式上进行创新,如按行业、按用户、按其关注的热点、订购的内容,推送最新文字、图片、音视频等多媒体内容,包括结合IP网、移动设备、智能客户端进行终端交互。

综上关键技术路线,中国科技网正努力将网站的新闻性、公益性和商业性融合用以打造中国科技第一门户网站群, 打造面向全产业链的中国科技服务平台,建成中国科技资源聚合中心,科技行业公共数据交换中心,全形态数字科技产品发布中心,和重要的科技与商务交易平台,科技行业决策支持平台,多元化与个性化的科技互动社区,在此基础上研究确立科技传媒行业规范,形成中国科技行业最大的知识库,为创建国家级数字科技基地打下良好的平台。

猜你喜欢
权值集群服务器
一种融合时间权值和用户行为序列的电影推荐模型
CONTENTS
服务器组功能的使用
通信控制服务器(CCS)维护终端的设计与实现
海上小型无人机集群的反制装备需求与应对之策研究
PowerTCP Server Tool
一种无人机集群发射回收装置的控制系统设计
程序属性的检测与程序属性的分类
Python与Spark集群在收费数据分析中的应用
基于权值动量的RBM加速学习算法研究