于茜 大连科技学院 数字技术学院
国务院《国家突发公共事件总体应急预案》和国家科技部《国家“十二五”科学和技术发展规划》中指出当前我国社会公共安全体系建设过程中迫切需要发展社会公共安全应急管控与指挥技术,重点突破应急指挥与处置、舆情监控和预测、图像处理等关键技术,提升社会公共安全的信息预警、应急处置、社会管控能力和水平。
当前大数据环境下突发公共安全事件网络舆情研究中亟待解决的问题有:(1)缺少针对突发公共安全事件网络舆情的有效分析方法;(2)缺少大数据环境下的突发公共安全事件网络舆情知识库。本文研究的大数据环境下突发公共安全事件网络舆情预警系统关键技术将解决网络舆情数据特征提取、网络舆情知识库构建等问题。
Map/Reduce是面向大数据分析和处理的并行计算模型,是实现大数据背景下突发公共安全事件网络舆情分析的工具。本文通过网络爬虫等软件获得与突发公共安全事件相关的网页信息,将网址和网页内容作为Map函数参数传递进去,计算得到中间键值对<突发公共安全事件词汇,所在网页段落文字>,再以该中间键值对为输入,使用Reduce函数计算得到该词汇的特征及特征值。通过Map和Reduce函数的定义使得网络舆情中杂乱无章的数据得到有效整理,得到含有突发公共安全事件特征及特征值列表的有效数据。
Map/Reduce从网络舆情数据中抽取出的突发公共安全事件数据特征及特征值列表封装成Web服务的形式发布服务器上进行下一步分析。下面给出Web服务定义及Web服务约减算法。
(1)Web服务定义
服务由若干输入构成,输入是数据特征及特征值列表类型序对。具体定义如下:
(2)Web服务约减算法
由于网络舆情中数据量过大,产生的服务过多,冗余也较多,影响计算速度,所以在正是计算之前先进行服务约减。基本算法如下:
for i=1 to n do
for j=1 to n do
delete sjfrom S.
end
买车、全家海外旅行,这些大宗消费可能一下子就花掉家庭几个月的收入,在相关的规划上要审慎。新婚夫妻最容易出现的就是被甜蜜冲昏头脑,想到就做,结果在真正需要用钱的时候却陷入困境。针对家庭的大宗消费,不妨多沟通多商量,看看是否真正需要再作决定。
siand sjkeep only one.
end
end
end
按照上述方法得到的服务队列是最简化的服务队列。
当前各领域成型知识库已有50多种,但在突发公共安全事件领域还未构建出知识库,由于突发公共安全事件具有其独特的特性,与其他领域知识概念完全不同,所以该领域的知识库需要单独构建。本文采用手工构建和半监督自动构建相结合的方法构建突发公共安全事件知识库。
(1)建立突发公共安全事件概念模型
构建突发公共安全事件概念模型的几个基本构成要素,包括抽取概念、实例、特征和关系。突发公共安全事件概念模型:,是突发公共安全事件对象集合;
(2)手工构建突发公共安全事件知识库技术
依据已有突发公共安全事件网络舆情数据,通过Map/Reduce模型计算得到网络舆情数据的特征和特征值,依据突发公共安全事件概念模型得到知识,添加到知识库,完成手工构建知识库。
(3)基于LCRF的半监督知识库构建技术
将捕获的网络舆情实时数据通过Map/Reduce模型计算得到特征和特征值,输入LCRF(lined conditional random field,LCRF)模型进行学习,识别出来的是新的突发公共安全事件需要进行预警,同时加入知识库,否则继续监控。由于LCRF模型训练时需要标注好的数据,而学习过程使用非标注数据所以属于半监督学习过程。
break;
next
next
本文提出了基于Map/Reduce的网络舆情数据特征及特征值提取方法用于从海量网络数据中提取网络舆情数据及其特征,提出基于Web服务的突发公共安全事件数据封装技术用于封装数据并进行约减从而减少计算量,提出大数据环境下手工和半监督相结合的突发公共安全事件知识库构建技术构建专门的突发公共安全事件知识库,弥补这方面的空白。以上关键技术能够解决当前突发公共安全事件网络舆情研究中亟待解决的缺少分析方法、缺少知识库等问题,为后续网络舆情分析奠定基础。