摘要:随着现代数据采集和存储技术的进步,以曲线、曲面或任何连续体形式变化的数据越来越容易获得,这类数据统称为函数型数据。函数型数据是一种复杂类型数据集。本文主要研究函数型回归及函数型典型相关分析。
關键词:函数型数据;函数型回归;函数型典型相关分析
一、引言
随着科技日新月异的进步,各种各样的数据充斥着我们的生活,许多领域收集到函数型数据。函数型数据最显著的特征是其固有的无限维数,数据结构的无限维特征使得传统的多元统计分析方法不再适用,这给理论分析和统计计算带来巨大的挑战;另一方面,无穷维的数据结构也是丰富的潜在有用信息的来源,这给理论研究和数据应用带来了很多机会。因此,函数型数据分析越来越受到统计学研究领域的关注[1-4]。根据协变量和响应变量的类型将函数型回归模型分为三类:(1)响应变量是函数型,自变量为标量型;;(2)响应变量是标量型,自变量为函数型;;(3)响应变量和自变量都是函数型。当然,学者们也提出了函数型广义线性回归模型,。在许多实际问题中,函数型协变量和响应变量之间的线性关系的假设太过严格,缺乏灵活性,因此需考虑函数型单指标回归模型。
二、函数型分数位回归模型实例分析
分位数回归对异常值更加稳健,并且能够更好地处理数据间的异质性。
例1 分析肉块样本的光谱数据[5]。分位数回归模型:
对的一个估计量,它的预测表现可以通过分位数验证得分(QVS)来量化,的QVS定义为。估计量的QVS总是大于零的,一个估计量的QVS越小则该估计量的预测表现就越好。经计算,上述估计方法和传统的函数型线性分数位估计在分数位时的QVS,分别为23.58和30.92。即上述估计具有更高的精度。
三、典型相关分析的案例研究
典型相关分析(Canonical Correlation Analysis,CCA)是多元统计分析中研究一对有限维随机向量之间线性关系的主要工具之一。
例2 城市竞争力与城市基础设施关系。
SAS软件程序如下:
data city;
input y1-y4 x1-x6;
label y1='劳动生产率' y2='市场占有率' y3='居民人均收入' y4='经济增长率' x1='对外设施指数'
x2='对内设施指数' x3='百人电话数' x4='技术设施指数' x5='文化设施指数' x6='卫生设施指数';
cards;
45623.05 2.5 8439.0 16.27 1.03 0.42 50.0 2.15……
run;
Proc cancorr data=city all
vp=infrastructure wp=competitive;
Var x1-x6;
with y1-y4;
run;
运行后可得:变量间的相关性;典型相关系数、特征及多变量检验;基础设施和竞争力变量在4个典型方程中的标准化系数;标准化变量的冗余分析。
函数型数据分析主要是利用一些离散数据,选用合适的基函数对其进行拟合并成为函数形式,之后运用模型研究数据之间的关系,确定模型中的参数表达式或值。函数型数据分析的基本思想是将离散的在同一尺度上(例如时间、空间)记录的数据点作为分析对象,但由于测量手段的限制,人们对于此类数据的观测值往往不是连续得到。因此,对于曲线的离散值,人们如果采用传统的统计方法进行分析,就忽略了此类函数型数据的高阶光滑以及其他函数特性。由此可见,传统的离散数据分析工具不利于函数型数据中的深度信息的挖掘。
四、函数型典型相关分析的案例研究
将CCA有限维推广到无穷维函数型数据情形,称作函数型典型相关分析(Functional Canonical Correlation Analysis,FCCA)。传统的CCA无法根据面板数据对两个函数型变量进行相关分析,函数型典型相关分析解决了此类问题。下面将函数型典型相关分析方法应用于城镇居民家庭人均可支配收入与消费性支出的共变模式研究。
例3 中国城镇人均可支配收入与消费性支出关系的再认识。
利用1998年-2008年我国29个地区城镇居民家庭的人均可支配收入和人均消费性支出的面板数据[6],研究我国城镇居民家庭人均可支配收入与消费性支出的相关关系。具体步骤如下:(1)计算29个地区人均可支配收入和人均消费性支出平均曲线以及其一阶、二阶导数曲线,可知人均可支配收入的增长速度及增长速度减缓的情况;(2)根据中心化后的人均消费性支出和人均可支配收入曲线的方差协方差函数,采用二阶导数积分的平方作为乘法项来计算两者的典型变量权重函数,可得出相关性较强的典型变量的权重函数;通过上述步骤,采取描述性分析和函数型典型相关分析,可以得出我国29个地区城镇居民家庭的人均可支配收入和人均消费性支出之间有着高度的相关性。
参考文献
[1]魏玉,胡二琴,穆新宇.函数型数据视角下湖北省大气污染物特征分析[J].湖北工业大学学报,2021,36(04):105-110.
[2]黄翠翠. 函数型数据视角下的京津冀晋地区空气质量指数分析[D].广西师范大学,2021.
[3]武祺然,周力凯,孙金金,王念鸽,余群芳.浙江省空气质量变化特征研究—基于函数型数据分析[J].山东大学学报(理学版),2021,56(07):53-64.
[4]周若其,李俊林,董安强.基于函数型数据分析的股票资金流强度研究[J].太原科技大学学报,2021,42(03):232-236+241.
[5]朱汉兵.函数型回归及函数型典型相关分析的若干研究[D].华东师范大学.2019.
[6]靳刘蕊.收入与消费关系的再认识——基于函数型典型相关分析的研究[J].郑州航空工业管理学院学报,2010,28(04):20-26.
作者简介:王艳萍(1989-),女,汉,安徽太和人,硕士,讲师,宿州学院,数理统计。
基金项目:宿州学院科研平台开放课题项目(2020ykf18);省级课程思政示范课程(2020szsfkc0998);省级线上线下混合式和社会实践课程(2020xsxxkc488);省级创新创业训练项目(S202010379073X);大学生科研项目(KYLXYBXM21- 039)。