王晓雪+张家祯+郭贺+王灏
摘要: 关键词: 中图分类号: 文献标志码: A文章编号: 2095-2163(2017)06-0167-02
Abstract: With the arrival of the era of big data, people's lives and work are surrounded by massive data, and various kinds of information are also produced at the same time. And a lot of security risks are faced by big data in the process of collection, storage and use. This paper mainly discusses the big data information security issues, introduces the related technology of big data, and analyzes the techniques suitable for mining the learning behavior model.
0引言
随着大数据时代的到来,人们在通过各种方式获取信息的同时,也持续产生了各种各样的信息,如访问网站的浏览信息、电商网站的消费记录、各种登记信息等。不仅如此,科学计算、医疗卫生、金融、零售业等各行业也均有大量数据在不断产生和涌现,专家预计到2020年这一数值会超过40 ZB,因此引发了学术界和各国政府的热议与重视。本文即针对这一课题展开如下探讨论述。
1大数据作用
大数据技术目前已经被应用到各个领域,其现实作用可分为以下3类:
1)获取信息进行预测,如利用数据分析预测股票行情走势。
2)分析对象个性化特征,如对于网购客户的搜索信息分析后进行商品推荐。
3)去伪存真辨别真假,如对于论坛虚假信息进行过滤等。
2信息安全问题
研究可知,大数据的利益价值与其带来的信息安全问题同样不容忽视。而另有关于社交网络信息的分析研究表明,通过用户录入的个人信息可以发现其兴趣爱好、生活习惯、工作领域等信息。目前的保护技术仍有待改进,掌握了客户信息的企业常常认为经过匿名处理来隐藏用户标识符即可充分发挥保护作用,但事实上却并非如此,当相关信息进行相互结合处理时,部分用户信息还是会被显性识别出来。目前用户信息的收集、管理和使用等主要依托企业自律,尚待形成严密监管体系,用户也无法自行决定个人信息的使用和销毁。
当前,主要的大数据信息保护技术有匿名保护和数据水印技术。其中,匿名保护技术可用于大数据的发布时,如社交网站的发布信息为大数据的主要来源之一,利用匿名保护技術既可以隐藏用户的标识和属性,也可以将用户间关系的保护一并展开完成。而水印技术则是将标识信息嵌入至数据信息中,而且也不会影响数据使用的技术。
3数据挖掘技术
数据挖掘技术具体包括了聚类、分类、关联规则、信息检索及序列模式等内容。其中,关联规则能够找到数据间的关联关系,序列模式能够发现数据中的频繁模式,而分类、聚类技术就能够分别在规则已知和未知的情况进行数据分类,另外的信息检索技术则主要用于提升搜索引擎的搜索质量和效率。本文即以笔者所在院校的学生学习行为模式作为研究对象,将各类数据挖掘融入了学生行为的研究管理实践,并以此为核心建构科学合理教学模式。
3.1院校大数据特点分析
为发现高校学生的学习行为模式,除学生自行安排的学习时间段外,为使数据收集准确且完整,还需要增补课余时间的安排情况,该过程不可避免地涉及到学生隐私,由此可能导致数据量不足或者由于人为因素得到噪声和不完整数据。相对应地,由网络系统记录的在线学习情况的数据则要更加准确和客观,但这却要有关技术和部门的支持与配合。高校学生专业特点不同,学习行为随学期而具备了阶段性变化,因此受到现实情况限制,只收集某专业某一届学生毕业前的学习行为信息,数据会呈现局部特征明显、但普遍代表性不高的特点。综上分析可知,在某专业数据信息收集、分析,并经时间离散化等结构化预处理后,可以存储于数据库中等待数据挖掘技术的实践操作研究。
3.2数据挖掘技术应用解析
1)分类、聚类技术。如果需要通过学习行为对学生进行分类,则适合采用分类聚类技术。具体来说,分类是一种有指导的技术,可以将学生划分至预先定义的各类中,如可以将学生简单按照成绩分为两组,也可以细化成按照优、良、中、差多个级别不等。而聚类是一种无指导的技术,需要先从数据出发找到学习行为中相近的记录实现分组,分组目标事先不能确定,主要依赖数据特征识别分组,结果也需要用户自行识别和定义。
2)关联规则技术。利用关联规则技术则能够找到学生群体中影响学生成绩的行为因素,如某些学生的生活习惯为昼伏夜出,经常逃课,则必然学习成绩不良,那么推得的关联规则即为{(昼伏夜出,逃课)→成绩差},利用这一规则可以辅助教师对学生善加引导,建立和完善管理机制。
3)序列模式挖掘技术。如果需要预测学生学习行为模式,就适于利用序列模式,因其发现事件的先后顺序规律,如若有学生昼伏夜出,那么该生有可能即将逃课,最终可能影响成绩和毕业,这个模式可以描述为{昼伏夜出→逃课→成绩差}。利用如上研究模式,教师就可对学生提前施以约束与纠正,防微杜渐,避免最坏的结果发生。
除了实践积累的教学经验和心理学知识辅助,教师还需要更多先验知识来提升学生指导工作的专业性与灵活性。最好是能够利用大数据处理技术发现无意忽略或者无法发现的知识,能够辅助策略性指导的规律,因此研究建议:可以更多考虑选用序列模式挖掘技术。endprint
序列模式挖掘的代表算法有Apriori[1]、GSP[2]、PrefixSpan[3]、SPADE[4]等。这里,关于序列模式挖掘的重点算法将给出如下分析阐释。
① Apriori算法。设计策略为:首先遍历数据库找到长度为1的频繁序列模式L1,算法步骤如下:
Step 1L1集合中的序列进行两两连接,形成的候选集合放在C2中;
Step 2对于C2中的每个长度为2的序列通过数据库进行测试,如果为频繁序列则放在L2中,否则放弃。对于L2中的频繁序列按照上述连接和测试步骤而形成了递归处理流程,直至无法找到足够的频繁序列Ln进行连接为止。但因为由Ln生成Cn+1的过程中会产生大量的候选序列,尤其是C2的数量非常多,并且兼有源数据库的海量特点,对于Cn+1中每个序列都要遍历一次数据库,使得Apriori算法的缺点也尤为显著与突出。
② GSP算法和PrefixSpan算法。Srikant提出的GSP算法和Han 等提出的PrefixSpan算法都针对Apriori算法问题引入了变化与改进,GSP算法在Apriori算法的基础上附增了时间约束,并且在存储序列时采用拓扑结构辅助筛选频繁序列,缩小了搜索目标集合,GSP算法比Apriori算法运行时可快上2~20倍。而PrefixSpan算法则改变了搜索策略,利用源数据集找到L1,以L1为前缀进行投影,在生成的投影数据库中对L1进行挖掘并建立L1投影数据库,在这个过程中不会生成候选序列集合,L1连接L1便形成了频繁序列L2,但L1中每个序列均需要生成一个投影数据库,因此空间和时间上主要就是用于保存和处理投影数据库,后续的挖掘都是在新投影数据库中定义支持递归设计,搜索规模不断缩小。
③ SPADE算法。分析可知,前述算法都是基于水平格式数据库,SPADE算法则是基于垂直ID-LIST格式数据库的搜索算法,相当于将原来的搜索空间分解成基于频繁序列的不同的格,然后在每个格里进行递归挖掘。虽然搜索策略仍旧是连接-测试,但却简化了连接和测试过程。
之后,还有针对数据库更新时的增量式序列模式挖掘,能够挖掘多维信息的多维序列模式挖掘,能够增加用户参与挖掘机会的基于约束的序列模式挖掘。
对于上述算法,Apriori算法易实现但效率不理想;PrefixSpan算法虽然更加理想但不易实现,并更适宜与约束条件相结合;SPADE算法需要數据结构的配合,缺点与Apriori算法相同。经上述分析,针对学生学习行为数据具有少量且结构化的特点,选择Apriori算法,并结合一定约束条件来设计展开挖掘。
4结束语
本文主要分析了大数据产生的信息安全问题,重点阐述了数据挖掘经典算法并从中选取适合处理学生数据的算法,未来将以实现算法Apriori,并尝试添加约束提高效率,去掉用户不感兴趣的序列为研究目标,进一步系统推进相关研究。
参考文献:
[1] AGRAWAL R, SRIKANT R. Mining sequential pattern[C]//Proc.of the 11th International Conference on Data Engineering. Taipei:IEEE,1995:3-14.
[2] SRIKANT R, AGRAWAL R. Mining sequential patterns:Generalizations and performance improvements[M]//APERS P, BOUZEGHOUB M, GARDARIN G. Advances in Database Technology — EDBT' 96. EDBT 1996. Lecture Notes in Computer Science, Berlin/Heidelberg:Springer, 1996,1057:1-17.
[3] PEI Jian, HAN Jiawei, MORTAZAVIASI B, et al. Prefix Span:Mining sequential patterns eficiently by prefix-projected pattern growth[C]//2013 IEEE 29th International Conference on Data Engineering (ICDE) (2001).Heidelberg, Germany:IEEE Computer Society, 2001:215-224.
[4] ZAKI M J. SPADE: An efficient algoritm for mining frequent sequences[J]. Machine Learning, 2001,42(1):31-60.endprint