语言处理和词云图在交通关注领域分析的应用

2021-07-15 12:05:14郭淑霞
黑龙江交通科技 2021年6期
关键词:词频分词云图

姜 恒,郭淑霞

(北京市市政工程设计研究总院有限公司,北京 100082)

1 引 言

词频统计(Word Frequency Count)是一种词汇分析研究方法,通过统计一定长度的语言材料中每个词出现的次数,分析统计结果,以便描绘词汇规律。信息可视化(Information Visualization)是将抽象数据用可视的形式表示出来,以利于分析数据、发现规律(或信息)和制定决策。随着大数据技术的迅速发展,这些统计分析方法得到了广泛的应用。如研制一套微博热词发现和分析系统,提供从微博数据中发现热词、情感分类等功能,以及综合评价人们用自然语言描述同一路段道路通行状况时该路段的交通拥堵程度。以交通领域项目信息为研究对象,进行数据采集、数据清洗、数据分析和数据可视化,希望了解国内交通领域项目近年来主要的关注领域、重点发展方向等。

2 研究方案

2.1 确定数据源

国内近年交通规划类项目最佳来源是招投标信息。我国2000年就开始实施的《中华人民共和国招标投标法》规定,采用公开招标方式的,应当通过国家指定的报刊、信息网络或者其他媒介发布招标公告。原国家发展计划委于2000年印发《招标公告发布暂行办法》(国家发展计划委第4号令),依法确定中国日报、中国经济导报、中国建设报、中国采购与招标网(“三报一网”)为发布招标公告的媒介。2017年底,国家发展改革委印发《招标公告和公示信息发布管理办法》(国家发展改革委第10号令),依法确定招标项目应当发布在“中国招标投标公共服务平台”或者项目所在地省级电子招标投标公共服务平台上,并且规定,“中国招标投标公共服务平台”应当汇总公开全国招标公告和公示信息。这些媒体和网站积累了大量的项目信息,数据非常权威。

通过对比数据获取难度、数量和质量,本文最终选择了招标投标公共服务平台作为数据源。

2.2 确定分析方法

观察获得的数据,发现只有“项目名称”和“所属地区”二个字段具有分析价值,“项目名称”内容都比较长,包含了过多的信息,属于非结构化文本,如果能对每个项目名称进行交通行业项目类型、领域的提取细分,形成一个标准的结构化数据库,那么这次分析的结果会比较理想。但是这样做需要投入较多的人工去整理数据库,而且整理后的数据库可能以后也不会复用,价值较低。

所以本文尝试使用自然语言处理,通过中文分词以后,进行词频统计,来挖掘出有价值的信息。

2.3 数据采集和清洗

本文使用Python语言,采用selenium+chrome的方式、以“交通规划”为关键词采集了2个月、10 050条数据。

采集到的数据有二个问题,一是存在大量“交通规划”不相关数据;二是数据存在重复现象,主要原因是招投标不同阶段发布信息,以及汇总其他平台信息产生的。清洗后数据剩下4 653条。保留“项目名称”和“所属地区”字段,删除其他字段后进行分析。

2.4 数据分析

对中文文本进行分词是一个自然语言处理的基础性工作,国内已经开发出很多中文分词工具,本文使用了结巴分词,其算法主要有三点。

(1)基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)。

(2)采用了动态规划查找最大概率路径,找出基于词频的最大切分组合。

(3)对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法。

分词工具提供了停用词和自定义词库功能。本文用“停用词”功能把不关注的词剔除词频统计,如“重点”、“地区”等,以及没有意义的单字词“导”、“则”等,使用自定义词库功能加入专业名词,如“综合交通规划”和“导则”等。在分析中,本文通过梳理部分招投标项目信息,定义了100个自定义词。通过应用分词工具的这两个功能,本文得到和交通相关的词语的词频统计。部分结果见表1。

表1 词频统计部分结果

2.5 数据可视化

数据可视化,是关于数据视觉表现形式的科学技术研究。数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息。词频分析最常用的可视化方法是词云图,词云图对文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使浏览者只要一眼扫过文本就可以领略文本的主旨。本文采用Wordcloud实现词云图。效果见图1。

图1 词频统计结果的矩形词云图

词云图还可以通过背景图片定义形状,使可视化效果更加生动。效果见图2。

图2 词频统计结果的马形词云图

数据分析是核心,可视化只是表象,但是可视化是最终面对受众的环节,直接影响到受众对分析成果的认知和接受程度,所以非常有必要重视可视化的工作。

3 结 论

结合数据和图表,大致可以看出交通领域关注的热点。我们可以做出如下结论:在交通这个行业,“交通”、“规划”、“道路”、“设计”是主流,“街道”、“绿化”是人民群众对美好生活的向往,“轨道交通”的热潮方兴未艾,伴着大数据的浪潮,“信息”(化)越来越受到重视,“户户通”改善农村交通条件,让偏远地区的农民走出来,与外面的世界对接,经过多年的快速发展,我们国家开始从增量转向存量发展,关注“公交”、设施“升级”、道路“硬化”,这些提质增效的项目,但是仍然能看出来,“开发区”依然是我们建设发展的重要手段。

猜你喜欢
词频分词云图
基于词频分析法的社区公园归属感营建要素研究
园林科技(2021年3期)2022-01-19 03:17:48
成都云图控股股份有限公司
中国农资(2019年44期)2019-12-03 03:10:46
结巴分词在词云中的应用
智富时代(2019年6期)2019-07-24 10:33:16
黄强先生作品《雨后松云图》
名家名作(2017年3期)2017-09-15 11:13:37
值得重视的分词的特殊用法
基于TV-L1分解的红外云图超分辨率算法
词频,一部隐秘的历史
云图青石板
云存储中支持词频和用户喜好的密文模糊检索
以关键词词频法透视《大学图书馆学报》学术研究特色
图书馆论坛(2014年8期)2014-03-11 18:47:59