基于Python的技术文本分析在技术传播中的探索与应用
——以新型LED光源荧光显微镜技术文本为例

2022-03-16 17:43阮俊斌葛奕辰杨颢仪
科教导刊·电子版 2022年5期
关键词:词频语料显微镜

王 珺 阮俊斌 葛奕辰 杨颢仪

(上海健康医学院 上海 201318)

1 技术文本分析

基于Python的文本分析技术可以看作是语料库语言学研究的技术拓展。语料库语言学首先以真实语言使用中的语言事实为研究对象,再借助计算机技术和统计学方法,对语言数据进行定性定量的描写和概括,从而挖掘语言运用中的规律[1]。文本分析技术现在已经比较成熟的运用在语料库语言学的数据处理和分析之中。现在运用比较普遍的有文本降噪与词频分析、词性标记与分析、语篇词汇密度、词长分布等,当然还有基于无监督的、有监督的学习模型的文本情感分析等等。本文下面介绍的相关代码技术基于 python3.8.2(64-bit),编辑平台为 Anaconda2020.07自带的Spyder平台。

2 技术文本分析

2.1 词频分析运用

词频分析大致可以分为单个词、二连词以及多连词的词频分析,其中单个词的词频对于技术写作的帮助有待研究,本文主要介绍三连词的词频分析,语料来自斯坦福大学整理的某影片长短影片共计1000条。从实际的技术文本语料中整理提取数据,得到该地区的用语习惯或者规律。虽然不同国家地区语言习惯自然是不同的,但是只要有足够大的地区匹配语料作为数据分析的基础,我们能够比较直观的观察结果,基于Python的NLP支持多种语言的处理与分析,可以满足各种语言的数据挖掘要求。在不改变真实性和科学性的情况下,当我们在技术写作的过程中,有意识地融入分析用于习惯之后的用词,可以在一定程度上让技术文本更加符合该地区的用于习惯。换而言之,可以让比较呆板的技术文本更加接地气,更加为目标用户所接受,从而提高技术传播的效率。

2.2 词性分析运用

2.2.1 词性分析理论

首先,词性是指根据的词的特点划分词类的依据。它是语言中词的语法分类之一,在语言学上有着重要的地位。根据所表示的实际意义以及语法结构,词性可以分为实词和虚词;按照是否吸收其它词性来分类,词性能分为开放词类和闭合词类。其中实词有名词、动词、形容词、数量词、代词等,虚词则有副词、介词、连词、助词、叹词、拟声词等等。需要注意的是,汉语中的许多词的词性在不同的语境中都会发生变化;英语中会根据语境变化的则是词义。其次,词性分析简单来说就是一个给每个词指定一个词类或者词汇类别标记的过程。现下主流的词性分析方法是利用语料库对于词性的规定以及特殊的统计法来得出文本中各词汇的词性。但正如上文所言,由于如汉语等语言中某类词的词性会根据某种条件变化而变化,所以我们在做词性分析时,如果确要追求准确性,那就不能只依靠现成的算法。然而,不同语种间的准确语言转换并非现在人工或者计算机技术能够实现的,我们所能做的只有尽量多地收集该语种的语料库,并在对文章进行降噪后才进行词性分析的处理。因为,越是庞大的语料库,就能意味着有越是庞大的词汇量来贴合文本中的词汇,而越是准确地去使用停用词,就能越是能除掉不需要的部分,提取出更为精简的信息。

2.2.2 词性分析应用

自然语言处理是利用人类交流所使用的自然语言与机器进行交互通讯的技术,是人工智能与搜索引擎的基础步骤之一。这一技术在信息检索和技术传播中占有举足轻重的作用。为了能够将传播技术较为准确地在传播方与被传播方之间进行语言转换从而达成信息的共享,必须保证自然语言处理过程的正确性、快速性及稳定性。在现有的自然语言处理技术中,通过词性标注是自然语言处理词法分析中一种较为成熟的技术。在Python算法中,词性分析的简要处理步骤为去停用词(即降噪处理)、分词、取词根、词性标注以及最后的数据处理。Python语言本身具有清晰简洁、易于读取的特点,故而在运行时速度快且步骤较为简单,并直接在相应文档中生成运算结果。值得注意的是,通过Python计算后所得出的词性数据相加所得数据为13287字,比原文的11500字多出了1787字,这可能是由于对于词性的界定不准确所造成的。由于同一个英语单词可能包含有不同的词性与词意,所以只有正确且唯一标注了文章中所有的单词词性,才不会在数据处理时出现差错。就算是只有个位数的数据误差也会影响到后续的自然语言处理过程,进而影响被传播者对于技术的理解。那么,如果我们想要将词性分析应用于技术传播,就必须确保一个单词对应一个词性。在不造成歧义地进行技术传播的前提之下,用户才能在进行信息检索时也能够准确检索到需要的内容并获取有效信息。[2]

2.3 特征文本与情感分析

特征文本指的是文本包含某一或者多个具体特征的文本集合,对特征文本进行自然语言的处理很可能能够得到该特征下的文本数据。其中的关键就是“特征”。比如文本均包含某一固定词汇、比如文本含有某些特定情感特征等等。本文介绍的特征文本的提取就是第一种──包含某一固定词汇。众所周知,在进行情感分析之前一般都需要构建语料库,而爬取评论作为语料数据基础则是常见的选择[3]。当有了一定的预料基础之后,需要从中提取特征文本,这也是情感分析过程的第二个常见步骤。若一个词作为技术文本的情感分析特征词,那么这个词首先是──instruction book(当然其他能够指代产品技术文本的词汇也可以作为特征词)。确定了特征词之后,我们就可以进行文本的提取了,这个过程难度不大,简单来讲就是对集合文本分句然后遍历,这样可以得到我们需要的包含特征词的相关语料,从而进行下一步的分析。其次,在选择了常用的 TextBlob和snownlp的情感分析工具进行分析处理之后,应当得到两部分关于技术文本的数据,一部分是积极的,另一部分则是消极的。有了这样一份数据,我们就能开始使用它进行我们技术写作的指导工作了,当然对这些数据我们其实能够进一步处理,参考词频分析,可以进一步得到关于技术文本哪一块的内容为消费者最为关注的部分,从而有选择地进行分析。从消费者对技术文本的消极评价,能够直观了解技术文本那些地方需要改进,结合词频频率分析,就明白处理技术文本中消费者所关注的难题。

3 新型LED光源荧光显微镜技术文本设计构思

首先,用Python文本分析技术,寻找与荧光成像技术相关的文本进行文本词频、词性分析,提炼技术文本的内在词性占比以及用词规律,发掘以LED灯为激发光源的新型荧光显微镜,来取代传统的汞灯荧光显微镜,设计表述为精准的荧光显微方法及提高检测精度方式。其次,通过对于产品的评价说明,凭借Python技术提取特征词,进而关注基于目前主流的高压汞灯荧光显微镜的准确度有待提升、使用寿命不长以及造价高灯等问题的产品评论进行情感分析,将开发新型的以LED为发射光源的荧光显微镜来取代传统的高压汞灯显微镜的技术优势显现出来,以完善产品在技术传播过程中的可行性。其中要表明技术关键说明利用LED作为检测光源的节能效果和清晰度;LED的环保及有可持续性发展意义。此外,在制作技术文本时,关注其他技术文本中提取、降噪、分词、词性分析的运算结果,可利用最优关键词制作图例,强调自主设计的荧光激发模块,是根据高量子效率的染料进行荧光波长的优化设计,使被检荧光信号亮度更强,信号点更加突出,并极大的降低背景噪声,提高检测信号的对比度,从而提高检测准确率的功能。

4 结语

本文从多连词词频到词性分析再到情感分析进行技术协作的辅助与指导,在国内目前也是一种比较新颖的尝试,不过具体的对于融入基于Python工具的文本分析技术为以开发新型LED光源荧光显微镜的技术文本的提供了思路。但鉴于Python工具的升级换代,亦可能影响技术文本写作的方式和方法,值得进一步研究与探索。

猜你喜欢
词频语料显微镜
基于词频分析法的社区公园归属感营建要素研究
显微镜
显微镜下看沙
基于语料调查的“连……都(也)……”出现的语义背景分析
华语电影作为真实语料在翻译教学中的应用
词频,一部隐秘的历史
云存储中支持词频和用户喜好的密文模糊检索
显微镜下的奇妙微生物
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法