于新雨 毛立凯 陈桥
(北京中防昊通科技中心,北京 100013)
基于移动互联网的质检信息采集与聚类分析技术浅析
于新雨 毛立凯 陈桥
(北京中防昊通科技中心,北京 100013)
在移动互联网环境下,利用文本挖掘和搜索引擎技术,通过前端内容的自动采集处理、对敏感词进行过滤,并且进行智能聚类分类、主题检测、专题聚焦、统计分析,实现质检执法各部门对各自相关网络舆情关注的需要,支持形成质检信息分析报告,从而为决策层全面掌握信息动态、做出正确舆论引导提供分析依据。
移动互联网 质检执法 舆情信息 聚类分析
随着当今信息化技术的不断发展,移动互联网已经成为人们日常生活的必不可少的组成部分。依托十多年数字化进程中积蓄的能量,大量网络化信息从PC互联网向移动互联网快速迁移,与移动智能终端同步渗透到国民经济各个领域和日常生活之中。在庞大的互联网体系之中,网络舆情是人们关于社会中各种现象、问题所表达的信念、态度、意见和情绪等表现的总和,特别是关系到城市安全、供热锅炉和压力管线等特种设备的质检信息采集和聚类分析技术。如何正确采集供热锅炉和压力管线等特种设备的运行数据和情景现实,及时通知质检等相关部门,早发现、早治理,对维护城市安全具有重大意义。因此,亟待利用移动互联网技术,构建基于移动互联网的质检信息采集与聚类分析技术平台,为我国城市安全管理、质检领域热力锅炉和其它特种设备管理提供智能高效的信息化支撑服务。
2.1 移动互联网的质检信息来源
移动互联网的质检信息来源的选择对于以后的质检信息挖掘研究至关重要,只有准确地把握质检信息的最初来源,才可能获得更为全面的质检信息。目前,质检信息主要的来源有政府网站,如新华网、人民网等;新闻及网络媒体站点,如光明日报、新浪等;微博、微信、论坛、博客、百度贴吧,如强国论坛、天涯、新浪博客、中国博客网、高校贴吧等。
2.2 移动互联网的质检信息采集
移动互联网的质检信息采集主要是运营方搜索引擎Web信息采集,通过Web页面之间的链接关系,利用网络爬虫从Web页面上自动获取质检信息相关信息,并且随着链接不断向整个Web页面扩展的过程。
图1 广度优先搜索流程图
图2 web文本类别识别步骤
2.3 移动互联网的质检信息预处理
移动互联网的质检信息预处理主要是对采集到的质检信息网页进行初步的加工和处理,为后继的质检信息分析奠定基础。主要涉及信息过滤、关键信息抽取、自动摘要等核心技术。
2.4 移动互联网的质检信息分析
移动互联网的质检信息分析是指对从移动互联网中所采集到的反映质检信息的新闻、评论等信息素材进行分类、聚类、倾向性分析等,根据质检信息分析评价指标的结果,确认其可信度和有效性,然后对质检信息主题重新组织信息,经过分类和处理后生成有针对性的质检信息。
2.5 移动互联网的质检信息处理
移动互联网的质检信息处理包括质检信息预警、质检信息报告和质检信息引导。首先根据分析统计得到的相关质检信息,根据相关质检信息预警指标,实施报警和预测,然后向质检部门汇报总结后的质检信息,从而为质检信息工作者的决策提供服务。
3.1 爬虫技术
利用现有的网络爬虫(crawl)技术来完成网络质检信息的获取是个不错的选择,网络爬虫技术大部分是基于表单填写,按表单填写方法可分为基于领域知识的表单填写和基于网页结构分析的表单填写的爬虫技术。
(1)广度优先搜索。在互联网中,网页之间的关系错综复杂,可以借助图的结构来表示出它们之间的关系。遍历图的深度优先遍历或者广度优先遍历方法同样也可以适用于对网页进行遍历,规定抓取网页的顺序。实质上讲,应用于树中的遍历算法与广度优先遍历算法相同,要先对处于同一层次的节点,进行访问,才可再往下访问。广度优先遍历:遍历是从某个顶点V出发,在对顶点V访问后,再对还没有被访问过的V的邻接点W进行访问,然后分别从邻接点W出发来访问它们的邻接点,遵循“先被访问顶点的邻接点”早于“后被访问顶点的邻接点”被访问的原则,直到访问到图中的所有顶点的邻接点。
在广度优先遍历算法中,越离根节点近的越优先被访问,同样,若要使某些访问量高的网页被优先抓取,就应该越靠近种子站点。爬虫从种子站点开始抓取工作,依据宽度优先遍历的算法,距离种子站点越近的网页,则可以优先于在底层,距离种子站点远的网页被抓取。广度优先遍历具算法流程图,如图1所示。
将顶点V放入队列中,若队列为非空的时候就继续执行流程,否则程序结束。出队列时将取出队头的顶点V,并访问顶点V且标记为己访问。找出V的第一个邻接顶点W。如果顶点V的邻接顶点W没有被访问过的,则将顶点W放入队列中。继续查找,检查顶点V是否还存在另一个新的邻接顶点W,直至处理完V的所有未被访问过的邻接点。
(2)深度优先搜索。该方法采取的搜索策略具体为:深度优先搜索过程中,保持对图的搜索尽可能的“深”,针对最新顶点,若其以顶点作为起点,同时探测过程也是不存在边的情况下,进一步的探索则可沿此边完成。探索完结点V全部边后,搜索则会回到始结点。该过程的终点为完成源结点能够到的全部结点。若仍然有未被发现结点的情况,那么要以源结点为起点对上述过程重复进行,终点为节点全部被发现。对于多数的情况,深度优先使爬虫会出现陷入trapped的问题,因此,其不具有完备性以及最优化。
3.2 文本分类
网络上和质检领域相关的Web文本数据量越来越大,如何对这些包含不同信息的文本进行准确高效的分析整理,提升其潜在价值,成为一个待解决的重要问题。文本自动分类技术是解决该类问题的关键技术之一。文本分类的根本任务是根据Web文本内容识别出Web文本所属类别,大致包括以下几个步骤。
第一,获取文本数据集。在实际的文本分类系统中会建立标准的文本语料库,并且标注出样本集中每篇文本所属的类别。
第二,将文本表示成能够被计算机或者分类系统识别并且能顺利进行分类的形式,这也是分类中最重要的一步,比如可以用数字或者向量来呈现出文本内容的特征。而此步中最为重要的是消减特征和计算权重,它主要解决的是怎样又从获取的这些原始信息中提取出能代表其特征的测量值。
第三,构建出合适的分类器或分类算法。按照己经构建的分类器将训练集文本映射到定义好的类别集合中,分类算法有很多,但是使用频率较高的几个有:Rocchio算法、支持向量机算法、k最近邻(k-NN)算法、朴素贝叶斯算法、最大嫡模型等。
第四,评估分类器的相关性能。针对不同的分类问题,应该选择不同的参数作为评估标准,以获得需要的结果,目前大多采用查准率、查全率、宏平均以及微平均等作为评估分类器性能的指标。
依照以上四步,可以将一般文本分类的大致流程表示如图2所示。图中实线表示分类器的训练过程,而虚线则表示测试过程。
3.3 Web文本预处理
(1)页面去噪。按照各质检信息源表现出的网页呈现形式采集信息,网页上包含大量的广告、图片、链接,这些不是舆情关注的价值信息,还给系统的高效运行、检索增加负担。同时数据呈现按照各自信息源排列规则出现,利用HTML解析器语法和正则表达式去识别标题、来源、作者、发布时间、正文等,对信息预处理形成统一格式供后续的决策分析。
(2)分词。中文分词研究已较为成熟,根据是否使用切分词典,可分为有词典切分和无词典切分。根据切分的具体方法,可分为基于规则的方法和基于统计的方法。本模型采用中国科学院汁算技术研究所研制的汉语词法分析系统ICTCLAS,ICTCLAS采用了层叠隐马尔可夫模型,主要功能包括中文分词、词性标注、命名实体识别、新词识别;同时支持用户词典,分词效果良好。
(3)过滤。利用停用词表和过滤规则对分词结果进行过滤,停用词表中包括助词、介词、连词等虚词以及词语长度为1的无实际含义的词。设计相应的规则进行过滤。
质检检测现实情境与投诉举报信息智能分析模型的主要功能是实现供热锅炉和压力管线等特种设备的碎片信息的自动分类和推送。
通过对质检部门需求和投诉举报数据领域内特征的调查和分析,发现投诉信息自动分类的核心需求是建立对质检部门需求的目标投诉举报数据辨识度高的分类模型。因而通过理顺分类模型的建立过程,质检职能部门与分类类别的对应关系等过程,设计出能够由质检部门自由标记样本文件、灵活选择目标字段、按具体情况选择算法和设置分类参数的投诉举报信息自动分类与推送系统的机制和方案,构建由质检部门依据自己的专业知识支撑分类模型建立和判定分类结果满意度的服务平台,从而提高自动分类的准确度和适应性。
模型通过质检用户标识目标样本并确定挖掘字段,来划定当前用户关注的当前类别的学习样本;通过学习、去噪、抽取类特征词集和开放类特征词集,用户修改接口来创建和调整分类空间;为用户提供多种分类算法的选择权限以及提供参数修改权限来实现计算和优化分类结果的目的;通过记录用户行为,主要是记录哪位用户(或哪个用户部门)标记了哪些样本,来确定这批样本代表的投诉举报类别与用户(或用户部门)之间的映射关系,从而建立自动推送模型,以实现分类结果订阅和自动推送的功能。
模型通过建立分类空间,并结合不同的分类算法和参数值建立分类模型,分类模型的建立具有依赖部门或质检用户专业知识的特点,因而可以贴合质检用户真正的需求。分类模型是指导自动分类的标准,由于投诉举报信息自动分类数据源和目标结果的强专业性和精细的领域性,因此分类模型也必须具有随时根据用户需求的演变而灵活调整的性质。
质检用户根据自身需求标记样本,对样本经过分词处理、去噪和预处理后,确定分类空间,形成分类模型和推送模型,在两模型的指导下对从投诉举报信息收集平台输入的投诉数据完成自动分类和推送的全过程,使部门和用户可以节约大量时间并,及时获得最新的隶属于当前质检用户关注类别的投诉举报信息。最后正确分类的投诉举报信息就可以在闭环系统中流动起来,在不同部门之间传递并最终解决。
移动互联网的质检投诉举报信息智能分析模型可按照其具体逻辑功能,分为六大核心部门。
投诉举报信息收集平台:提供与投诉信息闭环管控系统的数据交互接口,不同来源的投诉信息在这部分进行汇集和整合,是投诉信息自动分类与推送系统的数据总源。
存储单元:投诉举报信息收集平台获得的信息来源广、内容复杂,经过去噪将用户真正关心的内容筛选出来并经过分词和构建索引后存储在系统内部,经预处理将数据转化为方便读取和计算的形式。存储采用增量存储的方式,允许数据不断累加,这同时也是对投诉信息收集平台的数据提供灾备支撑。
类别计算中心:这部分是整个系统的核心部分,指导数据分类过程,具有反馈调整的特性。
信息推送中心:这部分记录类别与质检用户或质检部门的映射关系,当类别计算中心完成自动分类运算后,信息推送中心执行信息从系统内部到用户或用户部门的传输,支撑运算结果的发送功能。
服务接口层:是人机接口和核心计算平台传递数据的通道,执行用户端和服务器端的数据交互功能。
人机接口:是用户使用系统、参与操作、查询数据和接收结果的接口,具有载入数据、标注样本、算法选择、选择目标字段、参数设置、调整类别特征词集、推送结果展示共7个部分。
基于移动互联网的质检信息采集与聚类分析技术对网络质检信息的解读、剖析、统计、处理等,对我国城市安全管理、供热锅炉和压力管线等特种设备的安全性、稳定性、具有重大的现实意义,也是创建和谐社会的应有内涵。在此体系的指导下,将对互联网中存在的海量质检信息自动实时的监控分析产生极大的推动作用,同时这些技术也可以被广泛应用于企业竞争情报系统、个人及企业知识门户等领域。
[1]田鹤楠,杜军平.产品质量食品安全互联网舆情监控系统设计[C].中国电子学会第十七届信息论学术年会论文集,2010,76-80.
[2]田鹤楠.质检总局舆情监控系统中信息抽取的研究[D].北京:北京邮电大学,2011.
[3]张红云.基于页面分析的主题网络爬虫的研究[D].武汉:武汉理工大学,2010.
[4]曾伟辉,李淼.深层网络爬虫研究综述[J].计算机系统应用,2008,(5):122-126.
[5]周德懋,李舟军.高性能网络爬虫:研究综述[J].计算机科学,2009,36(8):26-29.
本文受质检公益性行业科研专项课题(201310118-03)资金支持。作者,于新雨,北京中防昊通科技中心,从事移动计算,云服务,数据安全等专业领域研究工作。