刘 锐河南省郑州市消防支队信息通信科,河南郑州 450001
基于大数据的消防产品评价系统
刘 锐
河南省郑州市消防支队信息通信科,河南郑州 450001
目前,大数据的应用已经渗透到各个领域,但在消防部队仍处于初级阶段,如何有效应用大数据技术为消防部队服务,利用现有的海量数据和自然语言处理技术,建立有效的关系模型,分析现有数据之间存在的关系,预测未来事物的发展趋势,为消防灭火救援、消防防火执法、消防部队管理、消防装备采购等方面提供辅助决策。在这篇文章中研究和讨论是利用计算机自然语言处理技术对相关消防产品的海量评论数据进行挖掘,判断出这些评价信息的褒贬倾向和强度。经过测试,正确率可达到89%,如果抛除一些无倾向性的信息,正确率可达到94.5%。
消防;大数据;自然语言处理;辅助决策;褒贬倾向和强度
随着网络数据的不断增加,在网络上关于消防产品的信息也不断增多。大数据的处理在消防上的应用也越来越广泛。一些消防类产品会有成百上千的评论文章,在这些评论中会有用户对相关消防产品的评价信息。当用户在了解某个消防产品或者厂家需要了解需求的时候,这些信息就显得尤为重要。但面对这些海量的信息,如果使用人工阅读和判断就显得较为困难,会耗费大量的人力和物力,也很难做出准确的决定。面对这些问题,利用计算机处理海量数据的优势,对评价信息做出判断是最方便快捷的应用。在这篇文章中研究和讨论是利用计算机自然语言处理技术对相关消防产品的海量评论数据进行挖掘,判断出这些评价信息的褒贬倾向和强度。经过测试,正确率可达到89%,如果抛除一些无倾向性的信息,正确率可达到94.5%。
在对相关产品进行评价之前,需要建立相关的基础资源,如影响元素数据表、组合元素、产品数据表、词义倾向性数据表、相关特征数据、清除元素、特殊元素等等。
1.1影响元素数据表
一段评论或文章中的某些词本身并不具有褒贬倾向性的意义,但是它对句子的褒贬程度会产生一定的影响力,例如程度副词或否定副词等词语,起到了增强、减弱和否定等作用,在此我们会对这些元素用不同的符号进行标注表示不同的影响程度。
一些影响元素需要和褒贬词有一定的间隔限制才会影响到句子的褒贬程度。例如,“AT消防车外部的电子液位显示器绝对是为了让消防员更便捷的掌握消防车液位量而设计的。”其中“便捷”是对AT消防车的评价,但影响元素“绝对”并不能增强评论人员对AT消防车的感情色彩。我们规定影响元素必须与褒贬词紧邻或者之间由“那么、这么、是、得”等词间隔时才会起作用。
还存在一些情况,如“一七消防车的器材箱门没有一丝的瑕疵”,“瑕疵”是贬义的,加上了“没有”就起到了否定的作用。
1.2组合元素
一些词语虽然本身并没有什么意义,但如果与另一些词搭配使用时就会带有倾向性的意义,例如“性价比高”“噪声低”,其中“高”“低”本身无褒贬性,但与前面的词语搭配使用就具有了褒贬性。
1.3产品数据表
本文研究的主要是对一些消防产品进行评价,被评价的消防产品就是产品数据。例如一七消防车、大力水泵、海洋王头灯等。系统分析一个品牌消防产品的不同形式的全部信息,即将一个产品的所有相关信息都映射到它本身。
1.4词义倾向性数据表
一个信息的倾向性主要是由褒贬词决定的,对这些词汇的提取工作是最基础也是最重要的。可以根据词汇的褒贬程度再进行细分,可将其划分为加强褒、褒、加强贬和贬,用“+、-、*、~”来表示。
在判断一个词的褒贬倾向性的时候要考虑到领域、词性等因素,一个词放在某个句子时是褒义的,但放在另一个句子是可能就会是贬义的,因为我们研究的是基于消防产品的评价,所以我们只考虑在消防领域中的表达意义。当然也需要考虑词性的问题,当一个词为形容词时它可能表示的是贬义,但为动词时就表示褒义,所以这就需要利用自然语言处理的分词技术对语料进行提前的标注。
1.5相关特征数据
相关特征数据即对每一个消防产品都有一个特征数据表,特征数据表的每一个信息都是该产品的一部分。例如一个4G图像传输设备的特征数据表中有电池、摄像头、连接线等等。
1.6清除元素
一些词本身是有意义的,但如果与另一些词搭配使用就会失去意义,如“用这样的方法改装消防车是否成功有待在实战中进一步验证”,“成功”是褒义的,但与“是否”搭配后就失去了意义。所以我们会把这样的句子做清除处理。
1.7特殊元素
一些词语与褒义词连用就会形成贬义,如“过”字的出现,对于这些组合我们也要考虑到并做出处理。
2.1功能
收集大量的消防产品评价信息,对其进行分词,并对相关产品及特征进行评价,给出详细的评分。
2.2流程
输入信息库数据,利用自然语言处理分词技术进行分词后选择需要凭评价的产品进行测评。系统会利用前期建立的资源进行遍历,最终计算出每篇文章的得分和得分细节。
收集了1 000余篇文章进行了评价,这些文章前期已经经过了评价,但没有对相关产品和产品特征进行评价,得出实验结果为:用所有资源评价整篇文章褒贬的正确率为89%,仅用褒贬词评价整篇文章的正确率为88%,由此可以看出褒贬词对文章的褒贬性的影响是非常大的。
在用上影响元素和组合元素后正确率略微提升,但实验中发现影响元素和组合元素在判读倾向性级别和强度时是很有用的。
在实验中我们发现,系统对于一些中性的文章评价效果不好。
在这篇文章中我们研究和讨论了如何利用计算机自然语言处理技术对相关消防产品的海量评论数据进行挖掘,判断出这些评价信息的褒贬倾向和强度。系统的正确率为89%,如果抛除一些无倾向性的信息,正确率可达到94.5%。
虽然取得了良好的效果,但系统还有许多需要改进的地方:一是提升分词的正确率;二是对一些特殊语句的处理有待进一步提高;三是在处理词汇间的连词放面有待进一步改善。
目前我们已经进入了大数据时代,大数据给我们带来的好处已经随处可见,我们可以利对大数据分析和挖掘来提升我们的工作效率、增强对事物判断的准确性,消防工作更离不开大数据应用的支持,我们将不断探索和研究大数据在消防行业中的应用,让其更好地为消防事业服务。
[1]Turney P, Littman M. Measuring praise and criticism: Inference of semantic orientation from association[J]. ACM Transactions on Information Systems (TOIS), 2003, 21(4): 315-346.
[2]RWM Yuen, TYW Chan, TBY Lai, OY Kwong, BKY Tsou. Morpheme-based Derivation of bipolar semantic orientation of Chinese words. Proceedings of the 20th International Conference on Computational Linguistics (COLING-2004), 2004, pp. 1008.
[3]Wilson T, Wiebe J, Hoffmann P. Recognizing contextual polarity in phrase-level sentiment analysis[C]. In Proceedings of joint conference on Human Language Technology Conference on Empirical Methods in Natural Language Processing (HLT/ EMNLP’05), 2005: 347-354.
[4]R. Xu, K.F. Wong and Y. Xia. Opinmine-Opinion Analysis System by CUHK for NTCIR-6 Pilot Task. Proc. of NTCIR-6. 2007.
[5]B Liu, M Hu, J Cheng. Opinion Observer: Analyzing and Comparing Opinions on the Web. In: Proceedings of WWW’05, the 14th International Conference on WorldWide Web,Chiba, Japan, 2005:342-351.
F4
A
1674-6708(2016)170-0070-02
刘锐,助理工程师,河南省郑州市消防支队信息通信科,研究方向为计算机。