孟丽丽+宋锋
摘 要: Web网络中的数据量巨大,传统系统只采用软件或只采用硬件实现Web网络大数据分类系统的设计,所需消耗的系统资源较多,处理时间长,配置与管理不灵活,无法满足实时性的要求。为此,设计一种新的Web网络大数据分类系统,采用软硬件相结合的形式对Web网络大数据分类系统的总体结构进行设计,分析了的系统硬件结构,主要包括数据采集器、Web网络处理器、网络接口和存储模块,并详细介绍了各硬件结构。软件设计中,给出数据采集和大数据分类的部分代码,对大数据分类的实现进行了改进。实验结果表明,采用所设计系统对Web网络大数据进行分类,不仅分类精度高,而且能耗较低、效率较高,具有好的分类性能。
关键词: Web网络; 数据采集; 数据分类系统; 系统设计
中图分类号: TN926?34; TP311 文献标识码: A 文章编号: 1004?373X(2016)22?0036?0
0 引 言
近年来,随着计算机和Web网络的逐渐发展与广泛应用,Web网络中的数据量逐渐增多,但丰富的数据资源却令使用者面临更大的挑战,大量数据分散、无序大大增加了人们对Web网络信息利用的困难程度[1?3]。所以,需设计一种Web网络大数据分类系统,使用户快速有效地获取信息资源[4?5]。因此,对其进行探讨显得非常重要,已经变成了有关学者重要的研究方向,受到广大学者的关注,也产生了很多好方法[6]。
现在,有关Web网络大数据分类方法的研究有很多,有关学者还取得了非常好的成果。文献[7]提出基于决策树的Web网络大数据分类方法,该方法采用从上到下的方式,依据一组杂乱无章的数据建立树形的分类信息,将选择的测试样本属性作为树的节点,在对决策树进行建立时,依据一定的规则实现树的剪枝。决策树方法实现过程简单,计算量较少,但可扩展性较差,且易受到噪声的干扰。文献[8]提出一种基于关联规则的Web大数据分类方法,该方法的关联规则挖掘过程如下:利用迭代获取数据库的全部频繁项集,也就是支持度高于既定阈值的项集,通过频繁项集获取符合用户最小置信度的规则,依据挖掘的关联规则对Web网络数据进行分类。但该方法受计算机硬件条件约束,运行时间较长,资源耗费较多。文献[9]提出一种基于支持向量机的数据分类方法,该方法依据结构风险最小化准则,不受数据维数的影响。在对数据进行分类的过程中,将分类面置于两类数据样本距离较远处,经高维空间变换,将低维线性不可分问题转换为高维线性可分问题,实现数据的分类,但该方法分类的种类较少,性能不佳。
针对上述方法的弊端,设计了一种新的Web网络大数据分类系统,采用软硬件相结合的形式对Web网络大数据分类系统的总体结构进行设计,分析了的系统硬件设计。软件设计中,给出的数据采集和大数据分类的部分代码,对数据分类的实现进行了改进。实验结果表明,所设计系统具有很高的分类性能。
1 Web网络大数据分类系统总体设计方案
在对Web网络大数据进行分类时,如果只依据软件对大数据进行分类会消耗大量系统资源,同时处理时间长,不能达到实时性的要求。而若只通过硬件进行大数据分类,那么对硬件资源的需求将很大,让成本大大提高,且配置和管制上也不方便。为了能一起发挥软、硬件的优点,达成Web网络大数据的区分,使用软硬件相连接的形式实现Web网络大数据分类系统的设计,设计的系统总体结构图如图1所示。
首先,通过数据采集器和软件部分数据采集源代码的共同作用对Web网络数据进行采集,将采集到的Web网络数据通过网络接口传输至Web网络处理器中进行处理,在Web网络处理器中通过软件部分的数据分类程序实现对大数据的分类处理,最终将处理的结果传输至存储模块进行保存,以供管理者进行进一步的处理。
2 Web网络大数据分类系统硬件设计
2.1 数据采集器
该部分重点包含以太网管制芯片 CP2200及C8051F340单片机,用于实现Web网络大数据的采集,通过网络接口向Web网络处理器发送采集的Web网络数据。数据采集器的硬件结构如图2所示。
由图2可知,数据采集器电源模块产生的5 V电压经单片机的REGIN 引脚发送至C8051F340单片机的片上电压调节器,使得C8051F340单片机产生工作所需的3 V电压,同时将产生的3 V电压通过VDD引脚输送到剩余3 V器件运用。单片机经过P3,P4口及其余的I/O引脚结束与CP2200之间的信息交换。Web网络中被预测信号经过信号调整电路后,使用C8051F340单片机的P25引脚驶入单片机片上的A/D 转换器中,通过A/D转换器将信号转换成相应的数据,从而实现Web网络数据的采集。为了使数据采集器的收集领域加大,需要将采集器转变的参考电压、转化开启的时钟、差分及单端采集选取、采样频率等参数进行设置,而这些均能利用相应的软件设计灵活的改变。
2.2 Web网络处理器
Web网络处理器用于对接收到的Web数据进行处理,这里的数据处理主要针对大数据的分类。Web网络处理器选用由Intel公司产生的第二代网络处理器产品IXP2400,在硬件设计的过程中,采用高效灵活的共享数据线程与微引擎之间的事件信号对Web数据进行处理。IXP2400硬件结构图如图3所示。
图3中,通过Control Processor对Web网络处理器接收到的数据进行处理,其是完全可编程的,其工作模式可利用编程确定,该程序被保存在其内部的存储区中,将数据分类程序载入存储区的操作是在Control Processor的控制下实现的,将程序载入存储区后即可使Web网络处理模块实现对Web大数据的分类处理。将得到的Web数据处理结果通过SRAM控制器和外部存储模块相连,发送至外部存储模块中进行保存。
2.3 网络接口
在AT91RM9200的BSP研发的根本上达成,并可根据DM9161的网络接口进行硬件设置。AT91RM9200的集成内部有MAC模块,主要用于实现MAC子层的功能,提供MII接口。网络接口以DM9161为核心,其是高集成度、低功耗的100Base?TX物理层收发芯片,仅需和较少的外围元件连接即可完成Web数据的物理层收发,AT91RM9200及DM9161芯片构造成的网络接口硬件设计,如图4所示。
由图4可知,将非屏蔽双绞线看作是传输媒质,为MAC层设备提供MII,MII为接口规范,主要负责供应一个便捷的、容易达成的MAC子层及物理层的连接口。MII接口可以使不同的传送媒质和物理层接口版块经过一样的接口及MAC子层完成数据转换。
2.4 存储模块硬件设计
存储模块选用C8051F系列单片机和AT45DB081共同作用实现Web数据的存储。C8051F系列单片机为完全集成的混合信号SoC芯片,内置的FLASH程序存储器及内部RAM,都具备较高的存储性能。AT45DB081是Atmel公司的能够与系统重写的SPI兼容的FLASH数据存储器。C8051F020单片机与AT45DB081的硬件原理图如图5所示。由图5可知,把C8051F020的P0.2,P0.3和P0.4引脚采用交叉开关设置为SPI的CLK,MISO及MOSI (主出从入)信号线,均与AT45DB081的时钟、串行输出及串行输入引脚连接在一起。把P3.0,P3.1及P3.2和AT45DB081的芯片复位、片选及忙闲状况引脚相连接。C8051F020单片机采用SPI及存储器间开启一次数据存储的进程如下:先将SPI的标识SPIF进行清除,再向数据寄存器SPIODAT里写入一个字节,假如SPI由硬件1组成,那么表示一次存储结束。
3 Web网络大数据分类系统软件设计
3.1 Web网络大数据采集程序
为了使硬件设计中的数据采集器有效实现对Web数据的采集,需设计Web数据采集源代码。软件设计中,通过javahttpUser对Web网络数据进行采集,通过链接地址得到网页源码,为了保证采集数据的完整性,采用编码转换的形式进行数据采集。
3.2 Web网络大数据分类程序
为了实现Web网络处理器中大数据的分类,需给出相关的实现程序。对Web网络大数据进行分类,也就是依据数据的归属情况进行归类,以提供网络处理器逻辑判断的依据,相关代码如下:
3.3 Web网络大数据分类程序的改进
数据分类程序的有效性是整个系统的关键,第3.2节分析的代码仅依据Web数据属性对大数据进行分类,分类效率较低,实时性较差。因此,将决策树算法代码引入第3.2节的分类程序中对其进行改进,共同实现Web网络大数据的分类,相关代码如下:
4 实验结果分析
为了证明本文设计的系统的有效性,需要进行有关的实验解析。实验将基于知识库的Web网络大数据分类系统作为对比进行分析,系统由5台计算机构成,硬件配置如下: Intel Dual?core 2.6 GHz处理器,5 GB内存。Web网络测试集数据如表1所示。
分别采用本文系统和知识库系统对测试数据样本进行分类,将两种系统的分类与实际的结果进行对比解析,获取的结果如表2所示。
分析表2可以看出,在上述实验中采用本文系统进行分类正确的数量是6个,采用知识库系统进行分类正确的数量是3个,本文系统的分类准确性明显高于知识库系统,说明本文系统的分类效果较好。
Web网络大数据分类过程实质上就是一个映射过程,对数据分类的性能评测可有效体现分类系统分类的准确程度。通常采用召回率(recall)与精确率(precision)两个指标对系统的正确性实行评估。对本文系统及知识库系统的召回率及准确率实行对比解析,获取的结果如表3所示。
分析表3可以看出,采用本文系统对各类数据进行分类,得到的召回率与精确率均明显优于知识库系统,说明本文系统的分类精度较高,进一步验证了本文系统的有效性。在上述实验的基础上,对本文系统及知识库系统的内存损耗和分类速率实行对比解析,获取的结果如表4所示。
分析表4可以看出,采用本文系统所需的内存消耗明显低于知识库系统,且一直低于知识库系统,不仅如此,本文系统的分类时间也一直优于知识库系统,说明本文系统不仅分类精度高,而且分类速度快,所需能耗少。
5 结 论
本文设计了一种新的Web网络大数据分类系统,采用软硬件相结合的形式对Web网络大数据分类系统的整体构造实行设计,解析了的系统硬件构造,重点包含数据收集器、Web网络处理器、网络接口和存储模块,详细介绍了各硬件结构。软件设计中,给出的数据采集和大数据分类的部分代码,对大数据分类的实现进行了改进。实验结果表明,采用所设计系统对Web网络大数据进行分类,不仅分类精度很高,而且能耗较低效率较高,具有很好的分类性能。
参考文献
[1] 赵艳,唐诚,张华,等.基于GeoServer海底数据RIA WebGIS系统设计与建立[J].环境科学与技术,2014,37(z2):507?510.
[2] 高梦超,胡庆宝,程耀东,等.基于众包的社交网络数据采集模型设计与实现[J].计算机工程,2015(4):36?40.
[3] 李雪.基于大数据实时Web防火墙日志安全审计系统的探究[J].网络安全技术与应用,2014(12):109?110.
[4] 朱宁.面向Web大数据的企业竞争情报平台设计[J].淮海工学院学报(自然科学版),2015,24(4):26?29.
[5] 哈达,李斌兵,刘大伟.基于WebGIS消防网上合成训练系统的研究与设计[J].计算机应用与软件,2013,30(2):256?258.
[6] 张瑜.斯伦贝谢微地震数据处理系统改进完井设计[J].科技信息:石油与装备,2013(5):84.
[7] 瞿林,陈海亮,甄国涌,等.某飞行器双绞线数据传输系统的设计与实现[J].电子技术应用,2014,40(6):49?51.
[8] 毛中亮,应俊,周丹,等.国人健康档案卡终端数据采集系统的设计与开发[J].医疗卫生装备,2013,34(8):47?50.
[9] 吴丹.改进的人工免疫负选择算法在数据分类中的应用[J].电子世界,2013(12):109?110.