刘 滨,孙中贤,吕梓逸,孟宪达,陈 莉,詹世源
(1.河北科技大学经济管理学院,河北石家庄 050018;2.河北科技大学大数据与社会计算研究中心,河北石家庄 050018;3.北京交通大学经济管理学院,山东威海 264401;4.河北高速公路集团有限公司承德分公司,河北承德 067000;5.中国人民解放军空军预警学院,湖北武汉 430019)
截至2022年6月,中国网民规模达10.51亿,网络新闻用户规模为7.88亿,网民人均每周上网时长为29.5 h[1],网络和现实世界形成了事件和场景等多点映射、态势演变“同频共振”的关系。而与百姓生活密切相关的交通行业具有规律性和突发性并存、关联对象多、辐射面广等特点,是网络媒体内容的重要来源,也是产业数字化的主要战场。可见,构建智慧交通互联网态势感知平台(以下简称“平台”),是实现交通强国战略的重要举措。
目前,随着物联网技术[2]和人工智能(artificial intelligence,AI)[3]在交通领域的落地,人们在车辆特征(车牌、颜色、厂商标志等)识别、违法行为(遮挡车牌、开车打手机、不系安全带等)识别、交通信号配时、车路协同、无人驾驶等方面取得了一系列成果[4-5],但互联网赋能交通的研究则相对匮乏,处于数据丰富、需求多样、不缺落地支撑,但代表性案例较少的状态。
“互联网+”交通的目标之一,是通过对海量、活跃度高、时效性强的网络数据获取和分析,并利用数据可视化技术[6-8]形成数据驱动力,提升百姓生活的便捷度和舒适度,提高相关决策分析的客观度和精准度。学术界和产业界进行了大量研究和实践,成果丰富,但问题和挑战依然存在[9-10]。
场景1 交通事件的脉络梳理。当需要了解某交通事件(撞车、超载、塌陷等)的发展脉络时,搜索引擎倾向于推荐最新、热度高、网民兴趣度高的内容[11-12],而阅读量低、传播面窄、影响度低的内容则被置后或被噪声淹没,某些敏感内容在发出后不久会被撤回、屏蔽或删除,如上原因,导致阅读者观察或追踪事件完整脉络的成本非常高。
场景2 查询某类交通信息。司机想要了解出行路线上的管制和阻路等信息时,导航软件经常出现路况更新不及时等问题;当需要按照时间、地域等维度对某类交通信息进行梳理时,例如了解某市上个季度的某类交通事件情况时,则需要从大量网络碎片信息中提炼和总结,效率低且信息不完整。
场景3 观察特定区域的交通态势。现有的交通大数据平台以流量监控居多,当需要对互联网态势进行综合观察时,只能通过关键词+搜索引擎的方式,无法对特定区域与交通相关的新闻、事件、公告等进行全面、特定维度、主维度+辅助维度交叉式的观察和分析。例如:哪些地市发生了交通类事件、哪些事件上了官方媒体或门户站点、百度贴吧里正在议论哪些地区的交通事件、哪些媒体在进行追踪报道、在具体事件上媒体报道的倾向性等,难于支撑对交通态势的全局掌控能力。
面对上述问题和挑战,必须对内容最活跃、语义最复杂、覆盖面和服务面最广的网络大数据进行全面获取和深入解析,让互联网真正赋能、赋更多能于交通领域。平台建设的主要需求归纳如下:
1)全面及时获取网络信息。鉴于网络噪声大、媒体品质良莠不齐[13]的特点,需综合考虑权威性、严肃性和影响力,构建覆盖官方媒体、交通系统、门户站点、电子刊物、论坛、百度贴吧6类媒体的“全”媒体信息源体系。
2)“立体式”态势观察与分析。支持用户在某个具体维度上“上卷”和“下钻”,例如观察热点事件时,能在全省、省本级、地市三级地理维度灵活切换;支持以某个维度为主维度,进行维度交叉分析。例如,调阅石家庄市(地理维度)过去一个月(时间维度)在新浪网(媒体维度)上的交通新闻,以及事件本身的性质分析(正向、中性、负面)。
3)适度的AI技术支持。合理应用自然语言处理(natural language processing,NLP)领域的聚类、分类、极性分析等算法[14-18],对海量内容进行处理和分析,提高态势感知的准确性和智能性;合理应用数据可视化技术,优化布局、色彩、元素和组件等在内的UI设计,以便从海量数据里迅速发现线索、辅助观察和研判,提升人机交互[19-21]效率。
基于主要需求分析,给出平台的功能框架,如图1所示。平台包括前端和管理监测后台2个部分,主要功能模块包括地理视角(前端)、媒体视角(前端)、内容视角(前端)、数据分析(前端)、后台管理系统(后台)与数据监测(后台)。
图1 智慧交通互联网态势感知平台功能框架Fig.1 Functional framework of intelligent transportation internet situational awareness platform
2.1.1 主版面(前端)
该版面主要栏目:①基于地图的GIS,给出各地市挖掘出来价值信息数量、各极性正向(绿色)、中性(黄色)和负向(红色)信息的数量、热度Topn的信息;②媒体视角,给出官方媒体、门户站点、自媒体等6类媒体信息量和信息量曲线、总量占比、数量Topn的媒体和各类媒体最新的Topn条信息;③内容视角,对信息按照交通运输、安全运行、高速站点和运营聚焦4类进行划分,给出每类下的信息量和信息量曲线、数量Topn的媒体、Topn条最新信息;④实时动态和热点聚焦,给出从所有媒体中最新筛选出来Topn信息和热度Topn信息;⑤热门标签,通过热词提取和降噪技术,给出当前筛选出的信息中最热门的Topn个关键词,以及贡献度(关联度)Topn的媒体和其上的相关信息数量。通过页面顶部的标签切换,看到全省、省本级和11个地市的相关信息。
2.1.2 地理视角(前端)
该版面以地理为主维度,对海量媒体信息进行挖掘,发现并呈现和河北省、省本级、省内各地级市、县的交通相关信息,支持在地理维度上进行“上卷”和“下钻”,并和其他维度交叉分析。主要栏目:①媒体信息,对该区域交通领域新闻的来源进行汇总,通过比较各类来源发布的信息量,为用户进行媒体选择提供参考;②实时新闻,该区域发生的最新新闻,给出Topn新闻的地理位置(例如沧州市的新闻会标注沧州、吴桥、河间等)、来源(例如沧州新闻网等)与时间;③热门信息,根据用户对新闻的点击量与评论量对新闻热度进行评判与排序,对一定时间内排名靠前的新闻进行展示,便于快速掌握地区行业热点;④基于地图的GIS栏目,同主版面。
2.1.3 媒体视角(前端)
该版面以媒体为主维度,对海量媒体信息进行挖掘,发现并呈现和河北省、省本级、省内各地级市、县的交通相关信息,支持在媒体维度上进行“上卷”和“下钻”,并和其他维度交叉分析。主要栏目:①官方媒体,给出来自光明网、人民网、河北新闻网、石家庄新闻网等国家和地方级媒体的最新Topn条新闻、媒体指数(该媒体信息量在全部信息量的比值)Topn的媒体;②门户,给出来自新浪、网易、百度新闻、本地宝等的综合类门户和交通部、交通厅、沧州市交通局等系统内门户站点的、最新的Topn新闻、媒体指数Topn的站点;③电子刊物,给出来自人民日报、燕赵晚报、参考消息、张家口晚报等国家和地方级电子刊物的最新Topn新闻、媒体指数Topn的刊物;④自媒体,给出来自交通论坛、天涯论坛、猫扑网、河北吧、河北交警吧、张家口吧等论坛和百度贴吧等最新的Topn信息、媒体指数Topn的论坛或百度贴吧;⑤媒体综合,给出信息总量、监测站点数、各极性信息数、最新Topn的媒体信息,以及各类媒体对信息的贡献数和占比。
2.1.4 内容视角(前端)
该版面以内容类别为主维度,对海量媒体信息进行挖掘,发现并呈现和河北省、省本级、省内各地级市、县的交通相关信息,支持在类别维度上进行“上卷”和“下钻”,并和其他维度交叉分析。主要栏目:①交通运输,汇总对铁路、公路、水路及航空运输基础设施的布局及修建信息,或汽车、客车等运载工具运用相关的新闻信息;②运营聚焦,汇总交通领域项目搭建与服务创造等相关管理工作的新闻信息;③安全运行,汇总为保障交通安全而展开的培训、讲座、倡议、规章等相关活动信息,以及违反交通规则产生的交通事故等新闻信息;④高速站点,汇总高速路相关的最新信息,如开放时间、收费标准等。
2.1.5 综合管理系统(后端)
对全媒体数据源体系进行监测,通过分析系统每日抓取的信息量与数据量,确保算法能够对各数据源的数据进行及时获取与理解,同时对抓取的信息进行收集,便于检索使用。主要栏目:①数据概览,给出监测站点数、抓取的数据日增量、从中提炼出的信息日增量变化情况;②媒体,管理基于6类媒体构建的“全媒体体系”,动态调整每类媒体的网站种子库(其中,官方媒体泛指政府部门所设置的网站,如人民网、新华网、河北新闻网等;交通系统指交通领域的网站,如交通部、交通厅、交通局的网站等;门户网站指辐射面广、影响度大的综合性网站,如新浪、网易、百度新闻等;电子刊物指以电子版形式存在的定期发行的刊物,如中国青年报、河北青年报、燕赵都市报等;自媒体指论坛和百度贴吧,如网页社区、西陆论坛、华声在线、秦皇岛交通吧、河北交通吧等);③信息&数据,逐条展示爬取上来的原始数据(新闻、贴子等)和信息(AI算法筛选出来的数据),支持原文跳转、内容编辑、极性(在算法判断的结果上)修正、关键词修正等,即支持对AI结果进行人工修正,提高信息提取的准确性;④爬虫管理,支持对目标网站的XPATH、正则表达式等进行动态修改,以对网站改版进行及时响应,也可以对关键词进行增删和修改,即支持自主灵活地从海量内容中筛选目标内容。
2.1.6 运行监测(后端)
包括平台运行情况、网络数据采集情况、分析情况、信息提取等。主要栏目:①最新资讯,滚动展示(每次7条)最新筛选出的新闻或帖子等,给出标题、来源、信息类型和时间;②Topn媒体,给出信息量前n的媒体以及信息数量;③各类媒体数据情况,对平台抓取的数据总量、筛选后的信息量,以及每日数据与信息的增长量进行统计,并进行内容聚类;④基础运行指标观察,从内容视角对分析的数据进行分类,展示所分析的数据中交通事故、路况信息、安全生产、运营聚焦4类信息的占比情况,从数据源所属类别进行分类,展示该类别媒体近1周内分析的数据量变化曲线。
图2给出了平台的3个主体部分:网络信息获取、内容理解与分析、Web端开发语言的技术框架。
图2 智慧交通互联网态势感知平台技术框架Fig.2 Technological framework of intelligent transportation internet situational awareness platform
2.2.1 网络信息获取
根据媒体资源库中的网站种子,实现对互联网资讯的自适应采集、内容提取和筛选,形成价值信息。该部分的构建与部署采用SpringBoot+Docker,使用Java语言开发,应用WebMagic框架实现多线程分布式抓取,WebMagic结构分为下载器(Downloader)、页面解析器(PageProcessor)、调度器(Scheduler)、业务逻辑处理器(Pipeline)4大组件,并由Spider将它们彼此组织起来,这4大组件对应爬虫生命周期中的下载、处理、管理和持久化等功能[22]。Downloader通过URL将网页下载,主要是进行相应的伪装处理以模拟浏览器访问、下载网页,项目使用Apache Httpclient作为下载器;PageProcessor负责解析页面,抽取有用信息以及发现新的链接,项目借助Jsoup作为解析器,可直接解析URL地址、HTML文本内容等;Scheduler负责待抓取URL的管理和已抓取URL的去重,项目主要采用Redis进行分布式管理,以增强系统的可用性,在URL去重方面,Redis去重速度很快,且不占用爬虫服务器的资源,可以处理更大数据量的数据爬取;Pipeline负责抽取结果的处理,包括计算、持久化到文件、数据库等,项目在进行开发时采用了MySQL与MongoDB数据库,这2个数据库定位均为持久化的主存储,可以更好地保存数据。
2.2.2 内容理解与分析
对清洗后的数据进行处理,采取聚类、分类、时序挖掘和极性分析等AI算法从中提炼出有价值的信息,并按特定维度进行梳理。该部分的构建与部署采用SpringBoot+Docker,使用Java语言开发,SpringBoot是很好的微服务开发框架,具有自动配置、内置servlet容器等优点。相较于传统的虚拟化方式,应用容器引擎Docker具有更快速的启动时间、更高效的利用系统资源、更高效的虚拟化等优点。系统的认证与授权采用SpringSecurity框架。对象关系映射(ORM)采用MyBatis框架,不仅可以更好地与Spring进行集成,还提供对象关系映射标签,支持对象关系组件维护。数据层代码生成采用MyBatisGenerator,可以进行实体类、实体映射文件、接口的自动生成。数据库采用Redis与MongoDB,其中Redis数据库主要用于页面缓存,MongoDB是一种文档型数据库,适用于处理大而复杂的数据。静态资源服务器采用占用内存更少、并发能力更强的Nginx。对象存储采用MinIO组件,在减少出错机会、提高正常运行时间的同时,表现出卓越的读写性能。物理分页插件采用PageHelper,以插件的形式对Mybatis执行的流程进行强化,后端只需提供Select查询返回数据,插件进行自动分页。文档生成工具采用无依赖、易于浏览的Swagger-UI,允许任何人都可以可视化API资源并与之交互。
2.2.3 Web端开发
对挖掘出来的价值信息进行展示,支持全局、维度交叉、维度“上卷”和“下钻”等分析,并采用数据可视化技术提高人机交互效率。该部分前端框架采用Vue实现,通过MVVM模式(Model-View-ViewModel,其中View为视图层,ViewModel为业务逻辑层,Model为数据层)实现数据的双向绑定,减少DOM操作,更高效地实现视图和数据的交互[23]。在单个Web页面开发应用时,vue-router 提供路由管理的功能,将每个路径映射到对应的组件,并通过路由进行组件之间的切换;而组件之间是独立的,组件之间(尤其是兄弟组件之间)进行通信需要有相应的规则进行管理,Vuex是用来管理组件之间通信的一个插件,以集中式存储管理应用所有组件状态,并以相应的规则保证状态以一种可预测的方式发生变化;在进行数据请求时,Vue不支持Ajax请求,对原生的Ajax使用非常繁琐,为便于实现Ajax请求的发送,借助Axios对原生Ajax封装,用于浏览器的HTTP客户端;在进行数据交换时,系统将每个用户的数据以cookie的形式写给用户各自浏览器,并利用Js-cookie对cookie进行管理;前端UI框架主要采用了组件API方法、属性等封装较为完善的Element和V-charts。
前端主要功能界面如图3所示。
图3 智慧交通互联网态势感知平台前端主要页面Fig.3 Front-end main pages of intelligent transportation internet situational awareness platform
图3 a)—图3 d)为平台主版面(首页)、媒体视角、内容视角和地理视角页面,页面采用左中右横向满屏布局,综合运用地图、二维表、折线图等插件,合理而不复杂,用户能够按照日常阅读习惯,快速发现主要内容;将城市级地理纬度、时间维度、媒体维度、极性维度、热点维度进行组合;将颜色与语义进行关联,正向、中性、负向分别与绿色、黄色、红色进行关联,符合用户习惯认知的颜色-极性识别。
图3 a)给出的首页包括媒体视角、内容视角的最新信息与媒体指数,其中最新信息展示信息的标题、发布时间与资讯极性,媒体指数展示站点名称、发布的信息量以及信息量的占比情况,可以根据媒体类别、信息内容对信息进行筛选。根据不同媒体类别、不同信息内容的每日捕获增量,可形成相应的信息变化曲线。实时新闻与热点动态不仅标注了新闻标题,同时标注了信息来源、所属城市、发布时间、内容的资讯极性信息,使用户可以在短时间获取更多的信息。热门标签是根据河北省交通相关的最新新闻,统计新闻内容中关键词出现的频率,展示出现频率较高的关键词作为热门标签,通过对新闻内容进行高度浓缩和精简处理,更直观地反映河北省交通领域的最新热点。此外,首页可以从地理纬度对信息进行筛选,通过选择对应的城市,看到对应城市的信息量、信息量变化曲线、实时动态、热点聚焦、热门标签等相关信息。
图3 b)是媒体视角页,从信息来源角度将信息源分为官方媒体、门户、社交媒体、电子刊物4类,分别展示各类信息源的最新信息、媒体指数、资讯极性、进行分析的信息量以及监测站点数,并对各类媒体分析的信息量与总信息量的占比情况进行统计。
图3 c)是内容视角页,将交通相关信息从内容角度分为交通运输、运营聚焦、安全运行、高速站点4类,分别展示各类的最新信息、媒体指数、资讯极性、信息量以及占比情况。
图3 d)是地理视角页,在进行实时新闻与热门新闻的展示时,增加展示信息所在的地级市的功能,更清晰地展现出各地级市的媒体信息情况。
后端主要功能界面如图4所示。
图4 智慧交通互联网态势感知平台后端主要页面Fig.4 Back-end main pages of intelligent transportation internet situational awareness platform
图4 a)是媒体数据源库,可对官方媒体、交通系统、门户站点、电子刊物、论坛和百度贴吧每一类下的网站种子列表、XPath、正则表达式等进行维护;图4 b)是信息列表,即从基础数据中挖掘出来的符合平台要求的资讯,可以查看标题、信息URL、触发其进行分类的有效关键词等相关信息;图4 c)是关键词列表,用户可以通过对其维护,设定感兴趣的内容,辅助算法提升筛选效率;图4 d)是数据实时监测页面,每5 min刷新一次数据,通过对源数据、媒体数据、Top数据源、数据分布情况进行分析,以及对最新新闻与热点新闻的滚动展示,动态展示出后台数据的抓取、筛选和分析情况。例如,2022-11-15,当天截止到16:49,爬取了3 004条网络资讯,分析出37条信息。
平台上线后,以365 d*24 h方式运行,对670个站点自动进行周期性扫描,其中:官方媒体52个、门户站点214个、交通系统媒体51个、电子刊物65个、论坛42个、百度贴吧161个,在2021-02-22~2022-11-15期间,抓取并分析数据2 429 364条,筛选出信息9 698条。按极性分:正向信息903条,中性信息8 657条,负向信息138条;按地域分:河北省本级1 440条,11个地级市中邢台和邯郸分别以1 089条和1 087条位居前2位。以2022-07-21~2022-07-25期间为例,系统每日捕获数据量与来源媒体总量如图5所示,信息日增近1 000条,来自于媒体库中约89%的媒体。
图5 2022-07-21~2022-07-27平台每日爬取数据及来源媒体的数量Fig.5 2022-07-21~2022-07-27 daily new information volume and information source media volume of the platform
本文结合河北省推进“城市路网、高速路网、互联网”三网融合,建设智慧交通的时代背景,针对互联网赋能交通代表性案例较少的客观实际,设计并实现了智慧交通互联网媒体感知平台,综合多种AI算法对海量网络媒体数据进行获取、理解和分析,从中挖掘出适用于交通领域的价值信息。
经过上线运行,设计的智慧交通互联网媒体感知平台初步达到了利用互联网为交通领域进行“自动化、敏捷化和智能化”赋能的目标;同时,平台支持对媒体资源库、数据获取规则、信息提取方法等进行动态调整,操作灵活性和用户自主性较强。
未来将推动本平台与城市路网和高速路网领域相关平台的对接,实现数据协同、业务协同和技术协同,在多样性更强、数据量更多、覆盖面更广的数据集上进一步研发和优化算法,推动本研究在更多交通领域的实际场景中落地,让互联网更好地赋能智慧交通。