□何文东
高等教育信息化是教育现代化的重要形式之一,由于计算机网络技术、大数据技术在教育领域得到广泛应用,高校网站纷纷进行转型,以形象建设窗口转变为高校信息的载体,旨在为高校的内外用户提供针对性的、个性化的信息,并通过数据发掘技术来适配多元化的数据需求。在实践应用层面理论也层出不穷,本文在这一趋势下结合数据挖掘技术的发展情况及技术特性,针对其在高校网站信息的实践应用进行研究。
(一)数据发掘技术概念。数据挖掘技术一般是指在大量数据中利用算法搜索隐藏的、隐含的信息的技术,与计算机科学紧密相关,例如统计技术、在线分析技术、情报检索技术、智能学习技术、模式识别等技术。
数据挖掘技术是从大量的数据集中识别有效的、新颖的、潜在有用的过程叫做数据挖掘技术。它涉及面很广,包括机器学习、数据库、模式识别、粗糙集、模糊数学等相关技术。通过对计算机系统内的数据进行分析、分类,找到数据在运行和存储时的规律,数据挖掘技术主要包含三个步骤,目标数据、提炼规律、规律体现。第一步整理目标数据,从相关数据源中选取必要的数据整合成用于数据挖掘的数据集合;第二步是通过统计技术、在线分析技术等方法将数据集合中所蕴含的规律找出来;第三步将数据结合用户需求,借助用户可理解的形式,将规律可视化。数据挖掘技术按任务特点进行分类,主要分为关联数据分析、聚类数据分析、分类数据技术、异常数据分析、特异群组数据分析及演变数据分析等。根据数据挖掘技术处理对象差异,共有3种结构挖掘、内容挖掘、使用挖掘为常见的运用模式方式,在高校网站中也得到普遍运用,在数据挖掘过程中一般关联数据技术、分类数据技术使用较多,网站数据相对于传统数据库,具有内容庞杂、呈现复杂的特点,这就要求对每个站点都需要独立设计结构。
由于数据挖掘技术是一种综合技术,通常用在网站数据采集上,也就是通过数据技术获取网站数据,并进行初步筛选和整理,在一定程度上数据挖掘可通过归纳单个用户及众多用户的行为数据针对用户的后续行为进行预测,在一定程度上有助于数据使用者作出决策和判断,并且有助于优化网站使用者的使用体验。
(二)高校网站信息重要技术环节分析。现在高校网站技术普遍使用半结构化数据结构,半结构数据化数据模型是一种适于数据库集成的数据模型,通常适合于描述包含在两个或多个数据库中的数据,作为一种标记服务的基础模型,通常用于Web上共享信息。构建适用于半结构化数据源模型,在高校网站信息数据服务中是亟待解决的问题之一,这是数据挖掘中最重要的技术环节。
(一)关于数据的筛选及整理。数据发掘技术的应用基础是对数据进行搜集和初步筛选,需要明确的是需要研究用户的表达方式,由于表达方式的差异在通常会造成数据量的不确定性和显著差异性。因此在数据挖掘前需要针对数据做一定的预先处理,处理用户针对网站进行访问时的最初原始数据,以此保证算法能够有效提取相应数据,同时,在网站设计时就需要一并将数据预处理及数据挖掘考虑在内,从而有针对性提升数据的使用效率。
一般而言高校网站服务器具有网站日志记录功能,而这也是数据最基础、最简单、最直接的来源,具体是根据用户的访问频次、访问时长、访问习惯等相应访问数据会被网站日志记录。将网站日志充分利用并有意识的存储使用,与此同时,也需要将收集到的信息进行预处理,从而降低数据的失真程度。并且针对浏览页面及用户设定页面的访问路径进行完善。
(二)构建完整的数据挖掘模式。通过运用成熟的数据发掘算法针对高校网页流量数据分析来构建完整的数据模式。尤其是要着重挖掘时间序列相关数据,时间序列建模及时间预测是构建完整的数据模式的基础目标,针对高校网站访问量的整体趋势和访问规律特点的把握是具体数据测量的重要节点。此外,数据模式的构建需要参考整体网站的结构,在高校网站首页的访问中首页是最高频的访问页面,而且大部分高校内用户如教师、学生们因为便利性普遍将首页加载在各类浏览器的收藏夹,但是在首页的停留时间普遍较低,首页起到的是导航和分配流量的作用,这需要在构建及数据挖掘模式时充分考虑到首页的作用。
以高校网站信息在高校招生的作用为实例,建立高校招生数据虚拟仓模型时,旨在通过数据及数据挖掘优化招生决策及效率,需要利用概念模型、逻辑分析模型及物理模型构建招生系统、教务系统及学生管理、院系系统四位一体的综合数据仓,从而构建起完整的招生数据挖掘模式。
(三)选择合理的关联规则算法。仍以高校招生举例,在高校招生期间,高校网站传达出的信息在一定程度上决定了招生工作的成败。而需要大量的数据分析来佐证高校网站信息透传的有效程度,不仅要充分考虑到学生、学生家长的信息数据需求,还要给其择校择专业提供信息支持,并将挖掘出来的信息和现有的院系专业情况及社会就业前景等信息相结合给予其全面的参考,帮助高校在招生期间有的放矢地宣传招生政策,为学生及家长给予较为专业的择校择专业指导。这就需要综合运用关联规则算法,从用户提供的各种数据找出数据间的关联点,以此为起点构建图形,从而给予其可视化的数据呈现和有效信息。
(四)高校网站信息不断迭代。对于高校网站的不断优化和改进,一般在数据挖掘维度需要使用模式分析法来分析,针对已有的数据模型不断迭代,在原有的数据基础上,针对新收集的信息进行整理和统计,将新的模式融入到高校网站信息的迭代中去,用挖掘出来的数据更好地服务用户。不断了解高校网站的内部及外部用户的真实需求及使用趋势,将固有的数据挖掘模式不断扩充,完善原有的模式,并从不同的数据挖掘模式中将最有价值的模式加以利用。例如在高校招生中,研究发现高校的校外用户以某城市人群较为集中,则学校可在招生期间联合该城市政府在相关网站上采取一定的广告及媒介推介措施增加高校在当地的曝光力度,以最大限度吸引当地学生,从而实现信息的价值化。
(五)提升高校网站信息的有效性。此外还需要意识到高校网站本身是一个对外展示的窗口及教育资源平台,因此数据挖掘在高校网站自身功能的提升上也具有重要的作用。另外,数据挖掘技术要做好数据保密加密工作,同时,将学校师生纳入到其中,通过数据传输的保密性来提升高校资源的利用效率,针对例如实验数据、资源数据等进行有效保护和综合利用。
(六)数据挖掘技术在高校网站信息安全的应用。高校计算机网络病毒在传播过程中具有一定的规律性,通过数据挖掘可以获得相关数据进行分析,找到一些蛛丝马迹,从而进行处理。数据挖掘技术的应用非常复杂,需要分为多个步骤和模块来进行。创建计算机网络病毒防御系统,对数据进行筛选,从数据源和数据流中获得样本,然后寻找网络病毒的入侵特点,将找到的数据存入数据库中,进行实时记录和分析,从中找出入侵行为,防止病毒的攻击。保证数据库中的数据充足,全面收集数据和数据包。在数据库数据相互匹配时再应用。如果匹配度较低,说明数据库中存在某种新型病毒,则要将其形成新的数据病毒类别,加入数据库。数据挖掘模块是数据挖掘系统的核心部分,主要由数据挖掘算法和事件库构成。通过构建模块,采集需要的数据,再将数据整理归纳放入事件库中。然后对事件库中的数据进行深度挖掘,提升病毒防范的透明性。检测到入侵计算机网络的病毒后,还要再进一步进行防御处理,将入侵的具体情况反馈给用户。此外,后续处理模块还能够如实监控系统实时数据,向管理员发送邮件进行反馈,方便管理人员进行实时管理和处理。管理员在接到反馈后,可以分析网络病毒的类型及其特点,及时更新病毒数据库,逐渐提升计算机系统防御效果。
数据挖掘技术是实践高校网站信息化的重要举措之一,将此项技术和高校网站建设积极融合其中,并针对实践运用中出现的问题需求技术化的整套解决方案是其核心重点。高等教育信息化是教育现代化的重要形式之一,由于计算机网络技术、大数据技术在教育领域得到广泛应用,高校网站纷纷进行转型,以形象建设窗口转变为高校信息的载体,旨在为高校的内外用户提供针对性的、个性化的信息,并通过数据发掘技术来适配多元化的数据需求。在实践应用层面理论也层出不穷,本文在这一趋势下结合数据挖掘技术的发展情况及技术特性,针对其在高校网站信息的实践应用进行研究,共有五大实践应用方向:一是关于数据的筛选及整理,数据挖掘前需要针对数据做一定的预先处理,处理用户针对网站进行访问时的最初原始数据;二是构建完整的数据挖掘模式,构建完整的时间序列;三是选择合理关联规则算法,需要通盘考虑;四是有利于高校网站信息不断迭代;五是提升高校网站信息的有效性。