薛重阳
(西藏自治区互联网信息办公室,西藏 拉萨850000)
舆情的发展具有两大特征,即不断增大与多方向发展,这一条件下如果舆情发展不受控,其就可能朝着错误方向不断扩散,引起社会错误舆论,这种表现在一些特殊事件上会带来极其重大的影响,由此可见舆情管理工作的重要性。而舆情管理工作必须在了解舆情现状的基础上才能开展,但单纯依靠人工或传统技术去了解现状是不现实的,此时网络爬虫技术就可以给该项工作提供技术支撑,妥善使用该项技术来开展舆情监测、管理工作,具有控制舆情、消除社会负面影响的重大意义。
网络爬虫技术就是在网络中根据“爬虫”原理来获取、分析、统计关键信息,由此生成结果供人工参考,其中“爬虫”原理是模仿“蜘蛛”爬行机制得出的程序运作机制,因此可以将网络爬虫技术视为应用程序。爬虫程序在运作当中首先会与万维网相互连接,随后自动在万维网上下载网页,这样就实现了网页自动获取功能,其次当爬虫下载的网页达到系统运作停止条件,就会生成分析队列,此时就进入了信息分析阶段,这一阶段中系统主要会根据预先设定好的种子样本对队列中网页进行信息搜索,其中种子样本泛指网页分类目录、日志分类目录,通过搜索可知用户浏览过程中显示标注的抓取样本、日志样本等,最后将样本与关键信息相互比对可得两者之间的匹配度,根据匹配度对样本信息进行分类统计,这一过程即为统计关键信息,根据统计结果可知当前网络中关键信息的发展情况[1]。
网络爬虫是舆情监测系统的重要组成部分,主要实现舆情检索功能,而该项技术又可以分为两个组成部分,分别为互联网信息采集技术、文本信息抽取技术。对此下文将对两项技术的具体内容进行分析。图1 为舆情监测系统网络基本框架。
图1 舆情监测系统网络基本框架(简化版)
顾名思义,互联网信息采集技术就是通过互联网搜索引擎来采集相关信息的一项技术,该项技术在现代发展中有两种应用形式,分别为元搜索和网络爬虫,其中元搜索是一种串联搜索形式,即在检索过程中将所有下载到的网络URL 进行串联运行,根据预设的搜索条件进行初步处理,再将处理后的URL 发送给串行搜索引擎,由搜索引擎对分配到的URL 进行深度检索(依靠自身数据库来进行检索),通过深度检索可得初步搜索结果,最后针对初步搜索结果进行二次处理,即通过去重、排列等方式来消除信息冗余,这样得到的结果就更加精细;网络爬虫的原理见文章第一部分内容,对此不多加赘述。相较之下,元搜索与网络爬虫在搜索性能上不相伯仲,但网络爬虫的流程更加简便、精准,因此在现代互联网信息采集当中网络爬虫的应用更加普及。此外值得一提的是,元搜索的应用普及性虽然不及网络爬虫,但与传统的单搜索引擎技术相比其具有巨大优势,即元搜索必须要对所有互联网信息进行搜集,因此在网络爬虫应用受限的条件下使用元搜索也未尝不可[2]。
文本信息抽取技术是在互联网信息采集技术基础上,对网页信息进行抽取,再通过预处理技术得到文本信息的一项技术。原理上,首先需要设定自然语言检索条件,相应该项技术就会对网络信息中与检索条件相关的自然语言进行提取,提取结果代表了用户所需的与事件相关的要素信息,其次通过预处理技术对自然语言进行规范化处理,让语言文本变得易于理解,此时再对结果进行记录生成文本,最后将文本进行展示即可。此外,文本信息抽取技术的功能特点在于信息筛滤,即现代网页中的信息种类、表现形式有很多,例如导航栏、正文标题、正文内容、相关链接、推广信息、版权公告等,这些信息当中真正与检索内容相关的只有正文标题、正文内容,其他都属于无关信息,而在传统信息抽取技术当中,所有信息都会被列入抽取结果当中,但文本信息抽取技术可以筛除无关信息,具有明显的效率优势[3]。
根据现代网络爬虫技术在舆情监测中的应用表现可知,其虽然监测效果良好,但却存在利用率偏低、主体覆盖率偏低的问题,对此下文将针对两个问题缺陷提出对应的改善方法。
网络爬虫在舆情监测中的利用率高低代表了该项技术的运作效率、信息全面性与准确性,因此网络爬虫利用率自然是越高越好,但因为网络爬虫在舆情监测过程中会遇到一些信息复杂的网页,所以导致其整个监测阶段中存在局部效率低下的现象,说明网络爬虫利用率偏低,需要得到改善。针对这一问题,本文通过测速方案对网络爬虫利用率偏低的具体表现进行了分析,结果显示真正影响网络爬虫利用率的原因是提取页面的大小,页面越大则提取速度越慢,利用率也更低,这一条件下网络爬虫利用率可以通过公式(1)进行表达。
式中:B 代表网络爬虫的提取速度;P 代表时间间隔内提取页面的大小;T 代表网络爬虫提取行为的时间间隔。这一基础上,以网络爬虫运行最大速度(100%)为度,取值40%为准,设置了一个简易的网络爬虫利用率报警系统,该系统会实时监测网络爬虫的运行速度,当期低于最大速度的40%时,将会发出警报,同时改变网络爬虫的运行策略,起到提升利用率的作用。关于警报后网络爬虫的运行策略可以分为两种,分别为减少爬行线程数、更换爬行网站,前者需要暂时停止当前网络爬虫的运作,再减少爬行任务队列中的线程数,最后在适当的时间重启爬虫即可;后者就是直接更换爬行网站,两项策略的应用可以让网络爬虫运行速度提升,起到改善利用率的作用,但值得注意的是,如果策略应用下网络爬虫的运行速度依旧没有恢复到40%以上,则需要人工干预,这也是报警系统存在的意义。
在舆情监测当中经常会遇到一些突发性的事件,这些事件事出突然,且会不断扩散,相应当网络爬虫没有预先覆盖事件主题,就很难第一时间做出反应,这就是主题覆盖率低的表现。相应,因为主题覆盖率低问题在现实情况中比较常见,所以需要得到改善,改善方法上,主要对网络爬虫主题覆盖运作策略进行优化,具体可以分为三个步骤。3.2.1 主题关键词优化。任何形式的网络舆情都有自己的主题关键词,例如娱乐事件的关键词就包括“娱乐圈”、“某明星的名字”、“节目名称”等等,这些关键词即使在舆情发生之前也可以设置,因此可以人工根据舆情事件类型,设置一些可以反应相关事件的关键词来提升网络爬虫的主题覆盖率,这项工作需要反复运作,可持续不断的提升覆盖率。3.2.2 URL 确认与返回。在以上主题关键词优化策略基础上,当发生突发性事件之后,网络爬虫会第一时间做出反应,即根据主题关键词进行舆情信息检索,而检索完成之后会随着搜索引擎返回搜索结果第一页中与关键词对应的URL。此举代表关键词主题覆盖率提升。3.2.3 URL 持续监测与信息更新。因为舆情是一种事件的动态变化,所以在监测中必须保持持续性,这一基础上网络爬虫在第二步骤条件下会反复运作,持续的对对应URL 进行监测,并提取内部相关信息,实现舆情信息更新,满足舆情全期监测需求。
综上,网络爬虫技术作为一种通过“爬虫”原理进行运作的应用程序,可以根据预设逻辑来监测舆情,对此本文阐述了该项技术在舆情监测中的应用方法、关键技术。同时因为网络爬虫技术本身存在应用缺陷,所以文中还提出了相关的改善方法,通过这些方法可以让网络爬虫技术运作更加准确、有效,同时舆情检测工作质量也将得到提升。