摘 要:本文首先介绍了计算机文本挖掘技术和网络安全问题的相关概念和现状,其次分析了计算机文本挖掘技术的工作原理,最后阐述了计算机文本挖掘技术在解决网络安全问题中的应用。
关键词:计算机文本挖掘技术;网络安全;垃圾信息;网络环境;应用
DOI:10.16640/j.cnki.37-1222/t.2018.11.119
1 计算机文本挖掘技术和网络安全的概述
1.1 计算机文本挖掘技术
1.1.1 计算机文本挖掘技术的概念
计算计文本挖掘技术简单来说就是对计算机中文本信息的处理,因此,文本挖掘技术的主要操作对象即计算机中的文本信息,这一技术在计算机的数据处理中处于非常重要的位置。详细来说,计算机文本挖掘技术就是从海量的文本信息中挖掘、识别有用的信息,是从抽象内容提取出具体、可理解信息的过程,其中海量的信息包括各类文本信息,这些文本信息应该在计算机执行文本挖掘技术之前进行人工处理,这样在执行文本挖掘技术时,会降低处理难度,提升处理的准确性和效率。
1.1.2 计算机文本挖掘技术的重要意义
通过计算机文本挖掘技术,挖掘网络中有价值、安全的信息,实现对网络信息垃圾的分类并拦截,打造一个无垃圾信息的网络环境,大大提升了网络空间的安全性。
1.2 网络安全
1.2.1 网络安全的概念
网络安全是众多信息安全事故的罪魁祸首,网络安全的受到威胁大多是由于黑客的盛行。为了防范网络风险,保护个人隐私和财产安全,及时解决网络安全问题的工作是不可或缺的,因此,为了实现对对网络安全的控制,首先我们要运用文本挖掘技术实现对垃圾信息的阻隔,规避网络安全风险。
1.2.2 造成网络安全问题的原因
首先网络安全问题的诱发原因最主要的就是系统的复杂性造成的,由于网络系统的复杂性,造成难以全面的掌控系统安全,极易产生系统的风险性。通过复杂的系统,计算机病毒极易入侵系统,造成大规模的系统风险,因此,系统的复杂性是导致计算机漏洞产生的原因之一。其实还有很多因素都会导致网络安全问题的出现,本文需要研究的网络安全类型是由于大量文本垃圾所导致的网络拥堵,用户不小心激活某一条垃圾信息,都会造成计算机防火墙系统的崩溃,从而造成网络安全问题的出现,针对该网络安全问题,针对性的措施就是实现计算机文本挖掘技术,识别有效信息,拦截垃圾信息。常见的代码设计同基础操作系统的设计缺陷原因类似,都是由于前期的系统设计问题遗留的隐患,如不能有效的避免这些设计缺陷,会加大后期计算机使用过程中的安全性较低的概率。如在代码的设计时,设计过程较为简单,缺少针对用户登录时的有效验证:不对用户输入进行全面有效的验证,可能会被攻击者利用来执行恶意代码,最常见的缓冲区溢出、注入都是利用这一方式。
有网络的地方不可避免的就会出现网络安全问题,网络安全问题是不可避免的,只要及时防范和及时补救计算机网络风险的工作到位,就可以规避风险把损失降到最小。只有充分研究造成网络风险的原因,才能从源头上把握网络风险的补救原理,以不变应万变。
1.2.3 实现网络安全重要意义
随著社会的发展和信息技术的进步 ,在这个信息化的时代下,计算机的应用频率越来越高。伴随计算机应用产生的各种软件也都不尽相同,计算机和网络的出现改变了人们传统的交流方式,人们可以不需要通过面对面的方式也可以实现在虚拟网络中的交流。信息化时代的到来催生了电商平台的发展,人们可以通过网上购物、付款的方式,实现方便快捷的线上购物。虽然网络丰富方便了我们的生活,但是网络安全问题同时会危及我们的信息、财产安全,提升网络环境的安全性,创造干净、安全的网络空间,已经成为信息化时代下我们信息工作者的重要任务,解决网络安全问题刻不容缓。
2 计算机文本挖掘技术的方法
2.1 重视文本数据来源
数据挖掘不仅要挖掘二维数据表数据 , 还要挖掘文本数据、多媒体数据和万维网数据,要重视可视化、使用可视化的方法进行的数据挖掘,同时,使用背景知识无疑会帮助在数据挖掘中建模的准确度。
2.2 邻近分类法
邻近分类法属于重要的文本分类方法之一,同时也是比较简单、易于操作的文本挖掘方法。他的工作原理即它可以组建c个分类方案,并将这些方案与即将进行文本挖掘技术的对象进行比较,通过比较发现选择出最接近的方案来定义文本的属性。在邻近分类法的操作过程中,首先要确定方案所描述的情况,对这些情况要进行特征的分类,然后才能更为快捷的提取出特征相似的地方,从而找出那两者之间更具有邻近性。临近分类方法虽然操作简单,效果也十分便捷、有限,但是它也存在着一定的缺点,那就是虽然已经对挖掘对象初步的进行了相似性的分类,但是还是有极大可能会出现不同分类下的平行、共线的情况,从而会导致挖掘结果的不准确性,造成文本挖掘操作的失败。
基于传统邻近分类法下的不同分类对象的共线问题,进行了改进,改进的主要内容包括了解贡献对象之间的明显特征,对这些极易引发共线问题的特征进行合并,尽可能的压缩特征向量的维度,保证邻近分类法的操作成功率,提高邻近分类法的准确率和算法执行速度,提升文本挖掘的效率。
3 计算机文本挖掘技术在网络安全中的应用
3.1 文本挖掘在网络新闻及舆情信息分析中的应用
网络舆情的信息已经成为非常重要的网络安全问题,网络舆情信息的泄露会导致商业机密、个人隐私等信息的泄露,严重危害了计算机用户信息和财产安全。因此,需要对网络信息即舆论情报等方面的信息进行数据挖掘,具体的技术应用包括:将网络舆情信息分析内容分为对网络舆情进行描述、对网络舆情的关联性进行分析、对网络舆情信息的真实性进行判断分析、对网络舆情的产生原因进行分析、预测和推论网络舆情信息的产生和变化趋势五个部分,同时建立网络舆情信息挖掘分析模型。
3.2 文本挖掘在专利信息分析中的应用研究
专利信息的安全也涉及到商业机密的泄露与安全问题,属于重要的财产信息,需要重点保护。因此,需要对网络信息即专利信息等方面的信息进行数据挖掘,具体的技术应用包括:登记调查专利权、挖掘专利的所有权、挖掘专利的使用及权属等,之后的步骤为确定特定技术部门的共同开发倾向、确定特定技术领域共同的开发动向、发现专利技术的种子技术以及最新研究热点等。
3.3 文本挖掘在医疗健康分析中的应用研究
中文信息的分析比较特殊,在中医药研究中可以充分体现出文本挖掘在中文信息分析应用中的优势,因此,文本挖掘在医学健康中有着较为广泛的应用,具体应用技术包括:使用文本挖掘技术探索高血压中成药、西药的用药规律;将数字信息资源进行整合、集成和使用,从而构建起专业的医学专业学科门户;采用基于敏感关键词频数统计的数据分层算法探索注射用双黄连注射液的研究现状等等。
3.4 文本挖掘在其他领域中的应用研究
除上述领域,文本挖掘在其他领域也有广泛应用和发展,如信息检索、企业市场营销、个性化推荐等。在传统的信息检索领域,文本挖掘已经具有较为成熟的应用。例如,在企业的市场营销方面,企业通过文本挖掘技术可以实现对市场大数据的挖掘,挖掘有效信息,信息的来源必然是最新的、最全面的,具备时效性,所获取到的信息同样是具有价值的、可以在同行之间提升企业竞争力的信息,可以帮助企业实现个性化发展,总而言之,通过文本挖掘技术可以实现对市场的有效调研,企业运用文本挖掘技术,使得企业市场营销的实现方便快捷,降低企业的经营成本。在个性化推荐方面,主要需求者是提供综合信息服务的网站,其面向的对象时广大的消费者,提供综合信息服务的网站通过对不同的用户进行使用记录的文本挖掘,可以和快速的找到有效信息,从而是实现精准的个性化推荐,等等。
3.5 基于新方法的文本挖掘應用研究
随着社会的发展和经济水平的提高,我国已经进入信息化时代,因此近些年,文本挖掘的方法不断得到发展和创新,顺应信息化时代的潮流,实现网络技术与具体领域的紧密和广泛的结合,随之出现的互联网+等等,是网络与具体实物的深度融合,体现在基于语义的方法、基于领域本体的方法等模型上。
4 总结
21 世纪,人类已步入信息社会时代。计算机广泛地应用于人们生活的各个方面。为了适应现代网络安全问题的要求,计算机文本挖掘技术的掌握工作显得尤为重要。一方面可以维护网络环境的安全稳定,另一方面可以有效打击网络犯罪,保护人民的个人隐私和财产的安全。因此,解决网络安全问题刻不容缓。通过计算机文本挖掘技术,挖掘网络中有价值、安全的信息,实现对网络信息垃圾的分类并拦截,打造一个无垃圾信息的网络环境,大大提升了网络空间的安全性。
参考文献:
[1]罗跃国.基于数据挖掘入侵检测模型的设计[J].西安文理学院学报(自然科学版),2010(03):112-113.
[2]朱海霞.数据挖掘在入侵检测中的应用[J].科技资讯,2009(05) :89-90.
[2]喻小光,陈维斌,陈荣鑫.一种数据规约的近似挖掘方法的实现[J].华侨大学学报(自然科学版),2008,29(03):370-374.
作者简介:邢翀(1980-),女,吉林长春人,副教授,研究方向:智能计算。