摘 要:本文首先分析了研究的 实践意义,接下来详细阐述了在线用户评论的相关概念,最后对基于ARIMA模型的时间序列建模以及建模实验结果等作具体分析论述,希望通过本文的分析研究,给行业内人士以借鉴和启发,同时希望为我国面向在线讨论的时间序列建模实验的分析研究献言献策。
关键词:时间序列;在线讨论;帖子;信息量;ARIMA模型
引言
2018年,教育部在《教育信息化2.0行动计划》中明确提出要“提升慕课服务,汇聚高校、企业等各方力量,推出3000门国家精品在线开放课程,达成优质的个性化学习体验,满足学习者、教学者和管理者的个性化需求”。在慕课学习平台中,在线讨论是较为常见的学习活动,通常以文本的形式呈现出来。以计算机为中介的交流理论认为,基于文本的在线讨论活动既有利于发展学习者的批判性思维,又能促进其深度学习和知识建构。而在线讨论中产生的文本数据,反映了学习者的学习投入和情感状态。因此,关注在线讨论的文本数据、挖掘并监控在线讨论中帖子的质量,既是提升慕课服务的有效途径,也是达成优质的个性化学习体验并满足学习者、教学者和管理者个性化需求的必要手段。时间序列设计是一种常见的预测方法,可用于识别或测量多种教育现象的发展态势。通过文献梳理,本研究发现从时间序列角度分析在线讨论质量的研究成果较少,其原因主要在于:①目前缺乏完备的指标来衡量在线讨论中帖子的质量,相应地也就缺少自动、智能的量化计算方法;②时间序列分析模型的构建过程比较复杂,需要研究者具备较高的数学素养。基于上述分析,本研究认为借助机器来挖掘和监控在线讨论的质量高低变化,是一个值得探索的方向。
一、实践意义
1.1有效指导电子商务生产厂商做出正确的生产决策
在线用户评论会对电子商务生产厂商的产品完善和服务改进产生重要的决策影响,本文研究内容将在线用户评论情感词和产品特征词进行时间序列维度划分,有利于直观发现不同评论时间间隔用户在意的产品内容,电子商务生产厂商可以根据在线用户评论内容,发现产品质量、外观和服务中的不足,并从时间维度,针对不同时间特征需求用户,对现有产品进行有效改进,以适应广大消费者的需求,改善用户体验,提高用户认可度,产生良好的网络口碑传播效应,有助于提高产品核心竞争力。
1.2指导电子商务企业商家进行精准销售管理
在线用户评论通过文字、图片、星级评分等行为方式主动分享所购产品的消费、使用过程体验,在评论内容中会阐述商品的特征、情感与服务感知。这些内容对电子商务企业商家具有巨大的潜在商业价值。本研究掌握了在线用户评论行为的时间特征规律,有利于对电子商务企业实践提供更好的指导,电商企业可以通过分析消费者在线用户评论行为时间特征规律,鼓励和引导消费者在充分感知和体验消费的同时能够及时地书写真实的评论内容,产生优质评论和良好的网络口碑传播效果,同时,也可以根据消费者时间序列阶段需求配置合适的企业服务资源,以便更好地为消费者服务。
二、在线用户评论的相关概念
在线用户评论在线用户评论(OnlineConsumerReview)又称为在线评论,是web2.0时代迅速兴起的一种网络口碑传播方式,通过网络平台存储和传播对所购商品进行文本评价的评论信息。在线用户评论是大数据环境下用户生成内容(UGC)的一种重要的表现形式,根据传播范围可以分为开放式在线评论和非开放式在线评论。开放式在线评论是所有阅读者都可以浏览网络评论内容,可以在所有浏览用户范围传播;而非开放式在线评论会设定浏览限制或仅限定在注册会员内查看评论文本内容。具体来讲,开放式在线评论具有代表性的如淘宝、京东等电子商务平台的在线评论信息,这种开放式在线评论对潜在消费者而言具有极高的购买参考价值,是产品口碑在互联网络环境下面向更广泛用户的深度传播,是对潜在消费者购买决策信息支持最有效的形式内容。
三、基于ARIMA模型的时间序列建模
所有帖子的信息量都被转换成时序数据集后,采用ARIMA模型进行时间序列建模,核心步骤包括:①时间序列的平稳性和白噪声检验;②ARIMA模型的参数估计与有效性检验;③ARIMA模型的预测与分析。其中,平稳性和白噪声可借助时间序列的统计工具进行检验,包括增项DF单位根(AugmentedDickey-Fuller,ADF)检验和Ljung-Box检验。
四、建模实验结果
为了判断Dts时间序列的平稳性,采用ADF检验方法进行单位根检验。Dts时间序列的ADF检验结果为:t=–0.801(p=0.423),均大于1%、5%和10%显著性水平下的临界值,说明Dts时间序列存在单位根,即Dts是非平稳时间序列,故Dts时间序列需进行差分运算处理。经过二阶差分后Dts时间序列的ADF檢验结果为:t=–4.123(p<0.01),小于1%显著性水平下的临界值,意味着经过二阶差分后的Dts时间序列具有平稳性。此外,Dts时间序列的Ljung-Box检验结果表明:Dts时间序列是非白噪声的时间序列(p<0.01)。
五、ARIMA模型的预测与分析
精确地预测在线讨论中帖子信息量的变化轨迹是几乎不可能的,更无法推测出具体的数值。但是,ARIMA模型可以预测帖子信息量的波动范围,预测的目标是对Dts时间序列上未来值的变化趋势进行预报。大多数预测值与真实值基本吻合;但真实值会出现爆发点或突发区间,即在某个时间点或时间区间上帖子信息量会出现突变,而这个突变始终在上限值的范围内——这表明ARIMA(5,2,5)模型能正确描述在线讨论中帖子信息量的未来变化趋势并给出波动范围,具有较强的预测能力。
结语
在教育大数据背景下,在线讨论中帖子的自动评价与监测是一个重要的、也极具挑战性的研究主题。一方面有利于平台管理者优化学习平台的资源调度、降低学习支持服务的成本,另一方面能够帮助教师监测在线讨论中帖子的质量。此外,本实验还促进了时间序列分析方法在教育教学中的应用。
参考文献:
[1]教育部.教育信息化2.0行动计划[OL].
作者简介:
侯永胜(1987—),对外经济贸易大学统计学院在职人员高级课程研修班学员,研究方向:大数据科学与应用。