区块链与企业网络国家政策数据的可视化分析

2024-06-15 10:13孙国强赵欢王芝芝
经济师 2024年5期
关键词:词频分词云图

孙国强 赵欢 王芝芝

摘 要:文章采用Python网络爬虫技术在中国政府网采集区块链与企业网络相关数据,使用Jieba库实现分词、去停用词及高频词统计,并绘制高频词条形图,基于TfidfVectorizer库获取分词权重,实现可视化。通过文本挖掘方式获取基于区块链与企业网络相关国家政策新闻的关键词,从而整体把握政策核心内容与潜在联系,为相关人员进一步研究奠定基础。

关键词:爬虫 中国政府网 区块链 企业网络 文本挖掘

中图分类号:F062.4  文献标识码:A

文章编号:1004-4914(2024)05-011-03

一、引言

随着科学技术和网络空间的发展,作为比特币的底层技术,区块链已被广泛应用到各个领域中,成为当前研究的热点。区块链被我国的“十三五”规划作为三项重大任务和重点工程之一,而且在国内,阿里巴巴、腾讯、华为等大型企业纷纷着手区块链技术的应用研究使之落地。尽管区块链技术应用领域颇为广泛,但区块链和企业合作网络结合起来的研究却鲜有学者提及并探究其相关影响。企业发展一直以来受到融资难、融资贵、融资慢等问题的阻碍和制约,尤其是中小企业深受影响。正是由于具备过程可信和去中心化的特点,区块链才能在多利益主体参与的场景下以低成本的方式构建信任基础,目标是重塑社会信用体系。区块链具有“不可篡改、分布式记账、智能合约、透明可溯”等技术属性,可从根本上解决企业网络信息转移和价值交换过程中的搭便车行为,从而降低交易的成本和风险,是解决企业合作问题的有效手段。本文基于Python语言,在中国政府网爬取基于区块链和企业合作网络这一主题的政策新闻并绘制词云图。词云图是通过字体的大小凸显文本中出现频率较高的关键词,可在频数统计的基础上更加美观地展示数据。通过对国家政策关键词进行数据可视化,可以动态把握趋势,为学者进一步研究指明方向。

二、国家政策数据爬取

(一)相关技术

re模块,匹配字符串的模块,唯python独有。正则表达式是对字符串进行模糊匹配,提取所需的字符串部分。该模块基于正则表达式可以实现很多功能,对所有语言通用。

wordcloud库,是第三方库,用于展示词云图。以词语为基本单位,词语的词频越高,在词云图中显示越大。

jieba库,是一款优秀的Python第三方中文分词库,它的库语料以人民日报为基础,冗余度比较低,用于实现分词,返回中文文本分词后的列表变量,支持三种分词模式:精确模式、全模式、搜索引擎模式。精确模式是尽可能把一个句子按照最为可能的分词结果最为准确地分割开来,这样获得的分词结果通常更接近句子原意。本文使用精确分词模式来对国家政策做文本分析。

(二)网页源码抓取

本文通过中国政府网网址进行目标数据的爬取。从中国政府网的政策点击进去,再点高级搜索,然后在搜索栏输入搜索词“区块链与企业网络”,就可以发现有16份中央有关文件和35份国务院文件。将搜索词“区块链”替换成与其意思相近的词语如“智能合约”和“共识机制”。同理,将“企业网络”替换成“企业合作网络”“经济合作”“产业联盟”“集群”“创新网络”“供应链”“模块化网络”与“企业间合作”。之后将两类词语两两组合后进行搜索,整理后统计共有444份政策文件。具体情况见表1。

本文目标网址http://sousuo.gov.cn/a.htm?t=zhengce。通过该网址进入政策的高级搜索页面,输入搜索词“区块链与企业网络”。通过分析URL发现q=后面即为搜索的词语。相应的网址页面可借助Python找到,然后就可以抓取网页源码,再提取关键信息。通过网页右击点检查,就可以看到源代码,继而进行相关的一系列操作。

(三)BeautifulSoup解析网页数据

BeautifulSoup模块用于解析html和xml文档中的内容,相比正则表达式,其更好的利用了html这种结构性文档的树状结构,解析起来更加方便。解析的第一步是构建一个BeautifulSoup对象,通过点号操作符,可以直接访问文档中的特定标签。本文通过解析代码,获取所有p标签里面的内容即可获取新闻文本。

(四)数据处理

Python中迄今为止最好的中文分词组件是Jieba分词器,可很好地协助使用者完成潜在主题发现和主题词获取等任务,特别适用于中文文本分类。故而,本文采用Jieba分词器进行政策新闻文本数据的一系列处理。

首先,通过Pandas库的read_excel()方法导入爬取下来的链接即444个URL;其次,循环遍历URL访问对应内容,通过BeautifulSoup中soup.find_all('p')获取网页源代码所有p标签的内容,即所有段落对应的内容,同时采用正则表达式进行数据清洗,如用re.sub('<.*?>','',paragraphs[i])清洗掉所有‘<>里面的内容;再次,将处理后的每篇政策新闻放到一个字符串里面,444篇新闻就是444个字符串,把这些字符串放到一个列表con_list444里面;而后,通过Jieba库的jieba.cut()方法实现对新闻文本的分词操作,获取长度大于等于3且小于等于4的分词结果;之后,采用sklearn中的TfidfVectorizer方法获取分词权重;再之后,采用for循环,通过jieba.del_word(word)手动删除意义不大的词,如平方公里、符合条件等;最后,通过collections模块的 Counter()方法获取top100的关键词及权重。

三、高频词统计与数据可视化

完成数据采集和数据处理后,调出并应用WordCloud库和 Jieba库来实现高频词统计和数据可视化。同时借助collections模块中的Counter()方法来实现词频统计,分别统计两个字、三个字和四个字分词的top20,词频统计结果如表2。

(一)分词TF—IDF权重统计

TF—IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。本文对444篇基于区块链与企业合作网络相关主题的政策新闻进行Jieba分词,然后通过Python采用TF—IDF算法进行分词的权重统计,之后将分词权重降序排列,剔除停用词后其结果如表3。

(二)高频词条形图制作

基于词频统计结果来制作水平条形图,可以获得更加明了清晰的词频统计效果,让人耳目一新。接着,调用matplotlib 模块的子模块pyplot的barh()方法来绘制水平条形图。对三个字和四个字分词分别绘制词频条形图结果如图1和图2。

(三)WordCloud词云图绘制

词云图是一种数据可视化图表,视觉冲击性很强。通过对文本中大量无实际意义的低频词汇进行过滤、并对出现频率较高的“关键词”予以不同颜色和大小进行视觉效果上的突出。本文使用wordcloud库和imageio融合图形图片绘制词云图展示444份基于区块链与企业合作网络相关搜索词的政策新闻文本的关键词。三字以上排名前130的分词对应的词云图绘制结果如图3。

四、结论

基于区块链与企业合作网络相关政策的词云结果显示:综合来看,相关实践重在“试验区”和“示范区”;“人工智能”“互联网”和“信息化”排列靠前,与当今时代发展保持一致;“创新”“改革”“制度”“资源”“管理”和“政策”是重要着力方点;“现代化”“服务化”“数字化”“智能化”“标准化”和“市场化”是重要向;“基础设施”“公共服务”“生态环境”“知识产权”“自由贸易”“交通运输”“网络安全”“服务平台”“科技成果”“管理制度”“外商投资”和“科研院所”是硬实力;“技术”“关键技术”“技术创新”“核心技术”和“创新能力”成分说明创新技术的重要性;“高质量”与新时代我国社会的主要矛盾相吻合。

本文通过爬取中国政府网的政策新闻文本,进一步证明了网络规则的规范性。爬虫可以方便地获取数据,拥有广阔的应用前景。相较于传统数据,中国政府网的政策新闻具有更清晰的指向性以及更强的前瞻性,本文通过对政策新闻的文本挖掘来探索隐藏在大量数据背后的关键词信息。本实验结果显示,通过爬虫、正则化数据清洗和数据可视化等步骤后,获得的高频词条形图和政策新闻词云图结果较好地呈现了新闻的指向与发展焦点,这对于把握未来发展走向具有一定的现实意义。

[基金项目:国家自然科学基金项目“企业网络权力的形成机理、配置效率及其对合作行为的影响研究”(71872014);山西省基础研究(自由探索)项目“区块链与战略性新兴产业集群深度融合研究”(202303021211141)。]

参考文献:

[1] 王君宇,吴清烈,曹卉宇.国内区块链典型应用研究综述[J].科技与经济,2019,32(05):1-6.

[2] 王莉,段婷,董珺.区块链与企业网络融合:机遇、挑战与对策[J].经济问题,2021(04):23-30.

[3] 宋华,杨雨东,陶铮.区块链在企业融资中的应用:文献综述与知识框架[J].南开管理评论,2022,25(02):34-46.

[4] 曾诗钦,霍如,黄韬,等.区块链技术研究综述:原理、进展与应用[J].通信学报,2020,41(01):134-151.

[5] 李晓娣,原媛,黄鲁成.政策工具视角下我国养老产业政策量化研究[J].情报杂志,2021,40(04):147-154.

[6] 黎曦.基于网络爬虫的论坛数据分析系统的设计与实现[D].华中科技大学,2019.

[7] 汪言.基于Python的词云生成及优化研究——以“十四五”规划为例[J].电脑知识与技术,2021,17(19):23-28.

(作者单位:孙国强,赵欢,山西财经大学管理科学与工程学院 山西太原 030006;王芝芝,山西省科技成果转移转化促进与数据监测中心 山西太原 030001)

[作者简介:孙国强,博士,山西财经大学管理科学与工程学院教授,研究方向为组织创新与网络治理;赵欢,硕士,研究方向为组织创新与网络治理;王芝芝,山西省科技成果转移转化促进与数据监测中心副研究员,研究方向为政府信息化。]

(责编:贾伟)

猜你喜欢
词频分词云图
基于词频分析法的社区公园归属感营建要素研究
分词在英语教学中的妙用
成都云图控股股份有限公司
结巴分词在词云中的应用
结巴分词在词云中的应用
黄强先生作品《雨后松云图》
基于TV-L1分解的红外云图超分辨率算法
词频,一部隐秘的历史
云图青石板
云存储中支持词频和用户喜好的密文模糊检索