基于改进TextRank算法的大数据语义智能分析

2023-07-27 01:59宋静静宁玉富张岳
科技风 2023年20期
关键词:语义分析

宋静静 宁玉富 张岳

摘 要:随着时代的发展,信息也变得与时俱进,我们进入了一个信息爆炸的新时代。从浩瀚的信息中快速准确地获取自身最需要的信息变得非常困难。由此本项目基于文本分析做相关的研究,采用改进的TextRank算法,研究大数据语义智能分析来解决人工对关键信息摘要出现的一系列问题。

关键词:TextRank算法;文本抽取;语义分析

Big Data Semantic Intelligence Based on Improved TextRank Algorithm

Song Jingjing Ning Yufu Zhang Yue

Shandong Youth University of Political Science ShandongJinan 250103

Abstract:With the development of The Times,information has become advancing with The Times,and we have entered a new era of information explosion.It is very difficult to quickly and accurately from the vast amount of information.Therefore,this project conducts related research based on text analysis,and adopts the improved TextRank algorithm to study the semantic intelligent analysis of big data to solve a series of artificial problems in the summary of key information.

Keywords:TextRank algorithm;text extraction;semantic analysis

随着互联网的快速发展,各种媒体以及网络平台线上迅速发展,使线上文本材料的出现以一种指数状态迅速增长,这就是文本摘要提取的技术,这种技术就是利用机器学习等研究建立模型,以及运用计算机强大的处理信息能力,不断提取与挖掘关键词语与所需信息,然后运用代码的强大思维程序,通过现代化技术,提取与整合所需内容。

1 研究现状

文本提取技术的问世,是为了解决因信息超载而引起的一系列问题。近几年,由于网络的迅速发展,“信息爆炸”[1]对这项技术的需求也越来越大。目前,国内外学者对文本摘要技术进行了较为全面的探讨,并得出了许多结论。国内外对文本摘要技术的研究主要集中在多目标群体算法和并行算法上,以减少计算速度和提高运算速度。20世纪50年代后期,卢恩[2]通过对词汇频率的统计运算,获得了一种自动化的文摘。此后为了适应现实生活中的各种需求,国内外学者都在尝试各种方法来实现文本摘要。基于发展的现状来看,目前研究重点体现在神经网络、机器学习以及无监督学习等方面。

2 研究的目的及意义

2.1 研究目的

近几年,全球的信息资源更加多元,互联网技术的发展日益加强,因此,如何准确、便捷、自动地获取关键信息就显得尤为重要。要有效地解决人们在关键信息摘要中所遇到的一系列问题,就必须进行文本信息的自动摘要技术的研究。这种技术可以快速地抽取出文本的关键性信息,并能很好地理解文章的中心思想,从而极大地提高读者的获取和使用效率。

(1)运用改进TextRank算法进行模型建立,并对模型进行评价,最后进行数据的可视化处理与展示,进一步直观明了地体现出本平台的语义智能分析[3]功能。

(2)通过对算法的优化改进,提高算法的精确性,实现对文本核心关键词、关键句的精准提取,以达到有效提取辩题以及辩论内容的核心观点的目的。

2.2 研究意义

在网络上,如何快速、高效地获得所需要的信息是非常必要的,而文本信息的自动提取技术能够很好地解决这一问题。文本信息的自动提取技术可以减少用户的信息负担,加快用户的阅读速度,节约人力和财力,在信息检索、舆情分析、内容审查等方面都有很好的应用前景。

对文本摘要抽取技术进行探讨和研究,不仅在理论上有很大的价值,而且在实际应用中也有一定的应用价值。首先,这种技术可以方便地获得信息,提高使用效率和传播速度,特別是对于某些具有学术价值的文字资料,这项技术的开发与推广效果更大。此外,在分析和研究的同时,还可以开发出一种或两种以上的算法,并将其有机地结合起来,从而提高其精度。

3 数据采集

数据采集就是通过一系列技术获取数据的过程。本设计采用视频转换文字来获取所需要的数据。随着社会节奏的快速发展以及高新技术的迅速提升,数据出现的类型也越来越多样,人们对数据要求的形式越来越丰富。对于普通的数据,通过Python语言可以实现网络爬虫对所需数据的获取。对本设计来说,将其视频文件转换为文字数据较为便捷的方法就是通过市面上存在的语音识别应用软件,将其视频转换为文字。本设计主要使用的就是科大讯飞公司旗下的软件,进行语音识别,将视频文件进行实时语音转写,将音频流数据实时转换成文字流数据的结果。

数据采集要经历各种转换还要经过不断的信息调试、采集样本、量化、编码转换[4]、传输数据等各种步驟。目前主要有通过接口获取和编译网页获取,本项目数据获取两种抓取方式都有使用。本项目要分析的文本来源于视频,而视频数据将从一些视频网站爬取。锁定数据源后准备爬取数据,首先要先获取视频的基本信息,包括视频的名称、封面以及视频的属性列表等信息。

首先,本项目需要的是可以具有情感分析支撑的文本,而此文本就是来源于视频的字幕之中,由于视频是一个动态的,画像字幕变化也很快,为了解决这一问题,我们将对视频进行分帧取字,即将视频拆分为多个图像,再逐帧截取字幕部分图像范围,利用cv库通过cv2.cvtColor使得图像灰度化,再利用cv2.threshold进行二值化。进行到这里就需要借助pytesseract,将图像上的Tesseract OCR运行结果返回到字符串。

4 数据预处理

确保数据的有效性需要进行数据清洗等操作即为数据预处理,通常问题数据会有以下几种情况:

(1)数据缺失:数据的属性值为空。

(2)数据不一致:数据的属性或取值前后不一。

(3)数据冗余:数据的数量或属性的数目超出当前数据分析的需要。

(4)数据重复:数据集中存在多次相同的数据。

(5)离群点:与数据集中的一般数据具有较大差异的数据。

研究人员进行数据分析、数据挖掘时,质量较低的数据会对其产生错误引导或者其他不良结果。所以对数据进行数据预处理非常重要。常规的数据预处理的主要步骤如下:

4.1 数据清洗

将“脏”数据变成“干净”数据就是对数据进行了数据清洗的操作。数据存在的缺失情况或异常情况是数据清洗过程中要解决的主要问题。处理数据缺失值较为常用的方法是对缺失的数据进行删除或替换。

4.2 数据集成

将多个数据源合并成一个数据综合全面的数据集,以便后续研究工作的顺利进行,这种数据处理方式称之为数据集成。在进行数据集成时,应注意不同数据源之间会出现同名异义、异名同义、数据冗余等问题。

4.3 数据归约

数据归约,指的是研究人员在充分理解项目的挖掘任务、数据属性的前提下,提取数据的有效特征,全力缩减数据集中包含的数据规模,极大程度对数据进行精简。该过程包括特征归约(将不重要或无意义的数据特征删除,重组数据特征)、样本归约(在考虑实际项目的存储要求、计算成本、估计量等相关因素的前提下,在数据集中选择一个具有代表性的样本子集)、特征值归约(将特征值进行离散,使其区分为不同区间,简化数据描述)。

4.4 数据变换

为满足数据挖掘与分析的需求,对数据进行形式转换即为数据变换。简单函数变换、规范化等方法是研究人员进行数据变换的主流方法。将数据通过一系列数学方式,如平方、取对数等方法变换成具有正态分布特征的数据即为简单函数变换。规范化是指通过一系列规范化方法等实现对数据剔除变量量纲的影响。

在这一步骤上,用到了具体的工具库。jieba库是一款Python中文分词库,它具有三种类型:精确型、全型和搜索引擎型,本系统根据视频转换文本,将文本进行jieba分词,将数据进行中文分词,其中包括对词性的识别、词性的标注以及对词语的切分。将中文分词后的数据文件进行文本过滤,得到最终所需的有效的文本数据。

数据预处理主要是针对中文文本数据进行分词处理。中文分词比英文分词复杂,并且因为中文的发展博大精深,在不同的语句和语态下所表达的意思也不同,因此若分词不当,会出现歧义或对数据分析不准确的情况。现阶段中文分词技术的主流方法有以下几种:

(1)基于字符串匹配的分词:将需要进行分析的文本数据与词典内含词条进行匹配识别。

(2)基于理解的分词:对文本数据进行分词时,先进行语法和语义分析,通过算法实现模拟人类对句子的识别,合理识别词与句所表达的含义。

(3)基于统计的分词:统计文本数据中的字与字之间、词与词之间连续组合出现的频率,设置频率参数,超过某个固定的频率参数后,可以合理认定字与字之间有效组成一个词语。

5 模型建立与数据分析

由PageRank得到一种改进算法,称为TextRank,其是一种对图像文本用于关键词抽取的排序算法,最开始它是谷歌的网页重要性排序算法PageRank算法演变而来的一种改进式算法。

TextRank算法的中心是把文本看作一个词的网络库,连接各个网格的连线表示各个词之间的语义关系。最开始的PageRank算法主要是根据网页之间的关系搭建一种网络,TextRank算法则通过改进之后通过词语间的共性搭建相关内容;PageRank算法与TextRank算法构造的网络中的边的区别是有权边的有向和无向。

5.1 TankRank算法优化

本文针对中文文本摘要任务,基于TextRank算法进行优化,改进主要体现在:把TFIDF算法引入TextRank算法中结合G1赋权法对不同的属性加之以不同的权重。然后从初始值开始不断代换,进行TextRank的具体计算。

5.2 单词抽取

本项目的智能语义分析首先要对数据文本进行拆分,TextRank4ZH是TextRank算法的一部分,它主要针对的是中文文本。在TextRank4ZH库中TextRank4Keyword、TextRank4Sentence等在处理文本数据时,会将文本拆分成四种不同的列表形式。

通过对TankRank算法不断优化后可以利用TextRank4ZH进行不断拆分,由文本拆分為句子,再由句子拆分为词语,经过不断拆分实现不断分词,得到单词形式的数据,最后,我们将利用.words_no_stop_words进行分析与保留。该方法实际是在分句、分词、去除停用词的基础上,去除了其他词性的单词,保留了指定词性的单词。

6 可视化展示

数据可视化是用视觉的表达将信息以一种更直观的方式表达出来。将分析得到的结果通过图形、图表等形式展示出来的一个过程。相较于千篇一律的数字表格来说,人们的目光更容易被颜色以及图案所吸引。

关于数据可视化我们首先做了一个词云的展示图,通过最简单直观的手段对辩手双方的关键词进行展示,通过词云可视化展示我们首先可以确定辩手对于肯定与否定的语气态度,比如“就”“就是”等果断的词语,可以表现出辩手坚决的态度与立场。通过可视化展示充分体现关键词抽取与语义分析的结果与情感效应。图形语法的三个组成结构见下图所示。

图形语法的组成结构图

结语

本项目主要基于文本分析做相关的研究,通过对TextRank算法不断更新改进,结合其他优良算法来全面完善,最终可以通过不断分词来感受正反两方辩手的不同观点与不同立场,最后通过词云的可视化展示,更加强烈而直观地感受到语义不同所代表的立场不同。

在本项目的研究与分析过程中,我们发现仍有很多发展和完善的空间。在不断改进算法的过程中,我们发现可以结合情感的分析,如果后期可以添加语义情感智能分析的功能就更完美了。由于时间原因,没有设计好一个很好的前端页面展示出来,只是做了一个简单的可视化作为结果呈现,因此将前端平台的展示作为一个可发展的未来展望,希望不断突破、完善本项目。

参考文献:

[1]孟薇薇.信息爆炸时代的新概念——大数据[J].商品与质量,2012,9(9).

[2]张静.自动标引技术的回顾与展望[J].现代情报, 2009,29(04):221225.

[3]王盼盼.协同过滤推荐算法及应用研究[D].西北大学,2019.

[4]刘再行,刘毅,郜洵.人工智能语义分析技术在用户研究中的应用[J].包装工程艺术版,2020,41(18):5359.

[5]房旋.基于Hadoop的推荐系统设计与实现[D].南京邮电大学,2016.

[6]刘旸.视音频素材的编码转换[J].电视字幕.特技与动画,2004(7):3638.

[7]Bradski G.openCV库[J].Dobb博士的期刊:面向专业程序员的软件工具,2000,25(11):120123.

项目:1.山东青年政治学院校级科研项目——大数据背景下基于不确定理论的旅游评论情感分类方法研究(项目编号2021yyxyb04);2.山东青年政治学院校级科研项目——红色旅游个性化推荐研究与应用(项目编号:xxpyyyxyb05)

作者简介:宋静静(1999— ),女,汉族,山东淄博人,学士,研究方向:大数据与云计算;宁玉富(1967— ),男,汉族,山东济南人,博士,教授,研究方向:不确定决策、大数据智能决策;张岳(1988— ),男,硕士,讲师,研究方向:大数据、数据挖掘、大数据智能决策。

猜你喜欢
语义分析
浅谈现代汉语三音节惯用语
现代日语“结構”一词的语义及其汉译分析
基于正则表达式度量算法的智能评分设计
辽河流域水环境管理技术库构建方法
基于交叉配血的多账户识别模型研究
基于LDA模型的95598热点业务工单挖掘分析
从认知语义学的角度来看多义动词“あげる”
中文短文本语法语义相似度算法
高校图书馆大数据时代数据建设及功能转型探析