陈海洋 陈聪
【摘要】本文以计算机专业学生为研究对象,介绍利用大数据分析技术通过收集学生备考阶段相关数据,对收集的数据进行预处理,预处理过程包含数据清洗、数据规整化处理等,预处理后针对学生的备考数据构建相应的数据分析模型,分析高校学生备考、择校等的一些情况,找出当前存在的学生考研问题及可改善的地方,并提出有针对性的恰当可行的对策,为鼓励本科生考研、促进素质教育及高级人才的培养提供一定的参考依据。
【关键词】可视化;数据分析;考研
【基金项目】本文由梧州学院2019年大学生创新创业训练项目资助
中图分类号:TN92 文献标识码:A DOI:10.12246/j.issn.1673-0348.2021.011..033
伴随着高校招生规模的扩张,就业是每个毕业生必须面临的难题,随着不断的“内卷”,越来越多的大学生选择考研继续深造,为暂避就业问题,也为提高自己的竞争力,但获取相关信息较为麻烦,网络上的内容良靡不齐,对考研信息数据进行可视化分析,可提供直观、准确清晰的数据,为鼓励本科生考研、促进素质教育及高级人才的培养提供一定的参考依据。
1. 数据来源
通过网络爬虫主提取考研网数据,以百度收录的其他数据为辅,研究近五年的数据。2018年全国考研人数238万,比2010年的140.6万增加了97.4万人,平均每年增加约10万人,仅限于各专业部分考研专业学生。根据2018年全国教育事业统计,全国共有各级各类学校51.89万所,比上年增加了5128所;各级各类学历教育在校生2.76亿人,比上年增加了535.97万人;各级各类学校共有专任教师1673万人,比上年增加了46万人。全国普通本专科共招生790.99万人,比上年增长3.87%。其中,普通本科招生422.16万人,比上年增长2.78%;普通专科招生368.83万人,比上年增长5.16%。全国普通本专科共有在校生2831.03万人,比上年增长2.81%。其中,普通本科在校生1697.33万人,比上年增长2.95%;普通专科在校生1133.70万人,比上年增长2.60%。
全国共招收研究生85.80万人,比上年增长6.43%。其中,招收博士生9.55万人,硕士生76.25万人。在学研究生273.13万人,比上年增长3.47%。其中,在学博士生38.95万人,在学硕士生234.17万人。尽管每年报考研究生的人堵在不断地增加,但是随着新兴学科的兴起与发展,有些专业无论是本科、还是研究生的数量都远远不能满足需求。
2. 研究方法
主要研究通过大数据分析技术了解高校学生在考研备战有关的一些情况,通过对于这些情况的分析,提出有助于学生考研的有针对性的解决方案,减轻学生在备战过程中的压力,让学生少走弯路,主要需分析的具体内容如:学生什么时候准备考研;对报考院校的了解程度;通过什么方式了解考研信息;对考研过程及复试程序了解程度;备考过程遇到的最大的问题;学校对于同学的考研需求应给予哪方面的支持;学生的考研方向;考生考研辅导机构的选择;本科阶段的学习成绩;考生的自身心理素质(是否有毅力坚持)。
设计算法来对海量考研信息进行初步筛选,去掉无用数据信息。聚合历史数据、实时数据以及相关的外部数据通过大数据技术的充分挖掘能够为减少考生困惑,快速获取有用信息。利用数据分析软件对数据进行预处理,深度分析,使得出的结果一目了然,更直观。效果如图一所示
3 可视化设计流程
3.1 数据采集
参考CDA数据分析师,数据采集是数据分析和可视化的第一步,俗话说“巧妇难为无米之炊”,数据采集的方法和质量,很大程度上就决定了数据可视化的最终效果。数据采集的分类方法有很多,从数据的来源来看,可以分为内部数据采集和外部数据采集。
内部数据采集:指的是采集企业内部经营活动的数据,通常数据来源于业务数据库,如订单的交易情况。如果要分析用户的行为数据、APP的使用情况,还需要一部分行为日志数据,这个时候就需要用「埋点」这种方法来进行APP或Web的数据采集。
外部数据采集:指的数通过一些方法获取企业外部的一些数据,具体目的包括,获取竞品的数据、获取官方机构官网公布的一些行业数据等。获取外部数据,通常采用的数据采集方法为「网络爬虫」。
以上的两类数据采集方法得来的数据,都是二手数据。通过调查和实验采集数据,属于一手数据,在市场调研和科学研究实验中比较常用,不在此次探讨范围之内。
3.2 数据处理和变换
数据处理和数据变换,是进行数据可视化的前提条件,包括数据预处理和数据挖掘两个过程。一方面,通过前期的数据采集得到的数据,不可避免的含有噪声和误差,数据质量较低;另一方面,数据的特征、模式往往隐藏在海量的数据中,需要进一步的数据挖掘才能提取出来。常见的数据质量问题包括:数据收集错误,遗漏了数据对象,或者包含了本不应包含的其他数据对象;数据中的离群点,即不同于數据集中其他大部分数据对象特征的数据对象;存在遗漏值,数据对象的一个或多个属性值缺失,导致数据收集不全;数据不一致,收集到的数据明显不合常理,或者多个属性值之间互相矛盾。因此,对采集到的原始数据进行数据清洗和规范化,是数据可视化流程中不可缺少的一环。
数据可视化的显示空间通常是二维的,比如电脑屏幕、大屏显示器等,3D图形绘制技术解决了在二维平面显示三维物体的问题。
但是在大数据时代,我们所采集到的数据通常具有4V特性,常用降维、数据聚类和切分、抽样等统计学和机器学习中的方法进行二次处理。
3.3 可视化映射
对数据进行清洗、去噪,并按照业务目的进行数据处理之后,接下来就到了可视化映射环节。可视化映射是整个数据可视化流程的核心,是指将处理后的数据信息映射成可视化元素的过程。可视化元素由3部分组成:可视化空间+标记+视觉通道。
3.4 人机交互
可视化的目的,是为了反映数据的数值、特征和模式,以更加直观、易于理解的方式,将数据背后的信息呈现给目标用户,辅助其作出正确的决策。我们采用:滚动和缩放;颜色映射的控制;数据映射方式的控制;数据细节层次控制
3.5 用户感知
可视化的结果,只有被用户感知之后,才可以转化为知识和灵感。用户在感知过程,除了被动接受可视化的图形之外,还通过与可视化各模块之间的交互,主动获取信息。如何让用户更好的感知可视化的结果,将结果转化为有价值的信息用来指导决策,这个里面涉及到的影响因素太多了,心理学、统计学、人机交互等多个学科的知识。
4. 研究目标
完成研究项目的数据设计,利用专门的数据可视化工具对考研数据进行深度分析的研究报告,分析整合近几年众多高校的考研要求、招生人数、报考人数、录取人数等数据,便利考生获取有用信息,加强信息数据的管理,整合不同类型的信息,为科学精准有效信息提供基础保障。分析高校学生备考、择校等的一些情况,找出当前存在的学生考研问题及可改善的地方,并提出有针对性的恰当可行的对策。
5. 国内外现状动态
随着信息技术的更迭,一个大规模生产数据,共享和应用数据的时代正在开启。云计算为主要支撑的大数据时代,用信息存储、共享和挖掘手段,更加有效地将更多高速变化的终端数据存储下来,并方便人们进行分析与计算。以大数据为基础的应用场合很多,可以应对我国现代化建设面临的问题。“大数据”在各行各业中掀起变革的巨浪的同时,我们也应该在大量数据中更好地提炼、筛选、处理数据,发现数据价值,并进行整合分析,以便为需要者提供方便。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。大数据具有数量体积大,数据类型繁多,价值密度低,处理速度快的特点。
在谈谈数据可视化,由于数据分析的火热也变得火热起来,不过数据可视化并不是一个新技术,虽然说数据可视化相对数据分析来说比较简单,但是数据可视化却是一个十分重要的技术。在外国,数据可视化是一个成熟的技术,他们借助数据可视化技术,很多媒体都用可视化来提升自身的影响力。其实随着电脑技术的成熟和搜索引擎技术的发展,政府信息公开化,众包模式的兴起,人们获取和解读数据的可能性大大提高,基于数据挖掘、理解数据基础上的数据新闻可视化,成为新闻叙事手段一个新的发展方向和突破。我国数据可视化处于起步阶段。虽有独立成立的围绕可视化的相关公司,但我国可视化的发展面临着受众关注度不高、数据源开发有限、相关专业人才匮乏等问题。依旧有很长的路要走。可视化在各领域的应用都算不上是核心,但随着大数据的战略,以及各行各业对数据应用、数据分析的重视,未来一定是蓬勃发展的,但这样的发展一定是建立在数据大环境基础上的。
6. 总结
大数据技术应用考研数据分析研究通过移动互联网和大数据技术,结合当下主流的数据挖掘和数据分析技术,以及利用专门的数据可视化工具对考研数据进行深度分析。面向高校和社会的学生参与研究生报考给予一定的数据分析帮助,同时具有一定的市场延伸前景。
技术的快速发展和不断变化的认知框架正在为人类打开新的视野,促使艺术与技术相结合而产生新型的数据可视化形式。以更细化的形式表达数据,以更全维度理解数据,以更美的方式呈现数据,使可视化更加具有冲击力。
参考文献:
[1]李晓雪,许新华,盛晨.近十年我國在线教育研究的可视化分析[J].湖北师范大学学报(自然科学版),2021,41(02):59-66.
[2]姚宏.以可视化方式探索内容生产新路径[N].中国新闻出版广电报,2021-06-08(006).
[3]董汉霞,吕东锋,商乙山.面向云计算的计算机数据可视化技术研究[J].电脑编程技巧与维护,2021(05):92-93.