陈 慧 李政泽 傅晓明
国际中文教育是国际中文教育工作者借助各种媒介和渠道开展汉语教学、组织中华文化活动等,将汉语知识、技能与中华文化传播给国内外的中文学习者①彭增安、张梦洋:《传播学视阈下的国际中文教育主体研究》,《河南社会科学》2021年第2期。。目前,全球范围内的中文学习者规模已达2亿,其中绝大部分为缺乏中文环境的海外学习者①2018年来华学习的各类外国留学人员为492185名(http://www.moe.gov.cn/jyb_xwfb/gzdt_gzdt/s5987/201904/t20190412_377692.html),2021年中国以外正在学习中文的人数约2500万(《人民日报(海外版)》,2021年3月26日第11版)。据此测算,海外中文学习规模约为来华中文学习人数的50倍。。当前海外许多国家中文教育资源不足②吴应辉:《国际中文教育新动态、新领域与新方法》,《河南大学学报(社会科学版)》2022年第2期。,因此网络媒介可以成为弥补渠道。2020年6月,郭晶等对全球五大洲84个国家718名中文教师和767名中文学习者进行了调查,发现学生最需要的数字资源是视频或音频③郭晶、吴应辉、谷陵、周雳、侬斐、马佳楠、崔佳兴、董晓艳:《国际中文教育数字资源建设现状与展望》,《国际汉语教学研究》2021年第4期。。网络视频平台上的中文学习资源已是世界范围内普通民众接触、了解、学习中文的重要渠道之一,成为国际中文教育资源的重要组成部分,其中YouTube平台具有格外重要的地位。
YouTube平台是全球访问量第二大的网站④Alexa,“The Top 500 Sites on the Web”,https://www.alexa.com/topsites.2022年3月6日。、全球最有影响力的传播平台⑤Statista,“You Tube:Statistics and Facts”,https://www.statista.com/topics/2019/youtube/.2022年4月4日。、全球最重要的教育工具(Education Tool)和个人学习工具(Personal Learning Tool)⑥Hart,J.,“Top Tools in Learning 2021”,https://www.toptools4learning.com/pl150/.2021年9月1日。,100多个国家和地区数十亿人每天使用该平台,其中82%的用户会使用该平台学习⑦Godwin,H.T,M.Khan and P.Yellowlees,“The Educational Potential of YouTube,”Academic Psychiatry,vol.41,no.6,2017,pp.823-827.。YouTube的知识教育价值得到学界重视,有学者分析了YouTube视频的受欢迎程度以及演变⑧Cha,M.,H.Kwak,P.Rodriguez,Y.-Y.Ahn and S.Moon,“ITube,You Tube,Everybody Tubes:Analyzing the World’s Largest User Generated Content Video System,”In Proceedings of the 7th ACM International Measurement Conference(IMC’07),2017,San Diego,CA,USA.New York,NY:ACM Press.⑨Yu,H.,L.Xie and S.Sanner,“The Lifecyle of a YouTube Video:Phases,Content and Popularity,”In Proceedings of the 9th International AAAI Conference on Web and Social Media(ICWSM’15),2015,Oxford,UK.Palo Alto,CA,USA:AAAI Press.、教育潜力和情感[10]Keskin,B.,“What Do YouTube Videos Say About Public Education?”SAGE Open,no.1,2018,https://doi.org/10.1177/2158244018757831,pp.1-5.,开展关于融入本科课程的教学效果个案分析[11]Mthembu,S.and S.Roodt,“Engaging the Net Generation Via You Tube:An Academic Approach for Undergraduate Teaching,”In Proceedings of the 1st IEEE International Conference on Next Generation Computing Applications(NextComp’17),2017,Mauritius,pp.81-91.Piscataway,NJ,USA:IEEE Press.、融入英语课堂经验总结[12]Watkins,J.and M.Wilkins,“Using YouTube in the EFL Classrooms,”Language Education in Asia,vol.2,no.1,2021,pp.113-119.[13]Listiani,N.,N.Suwastini N,G.Dantes,N.Adnyani1,I.Jayantin,“YouTube as Digital Learning Resources for Teaching Bilingual Young Learners,”Advances in Social Science,Education and Humanities Research,vol.540,Proceedings of the 2nd International Conference on Technology and Educational Science (ICTES 2020),2020.、教育账号浏览状态和受欢迎程度个案研究等[14]Saurabh,S.and S.Gautam,“Modelling and Statistical Analysis of YouTube’s Educational Videos:A Channel Owner’s Perspective,”Computers&Education,vol.128,2019,pp.145-158.[15]Saurabh,S.and A.S.Sairam,“Professors—the New You’Tube stars:Education through Web 2.0 and Social Network,”International Journal ofWeb Based Communities,vol.9,no.2,2013,pp.212-232.。这些研究或侧重于YouTube视频的总体描述或使用经验,或侧重于发布者个人或企业频道研究,但尚未出现全球视野的YouTube学习资源研究。
近年有硕士毕业论文对面向印尼语母语者[16]张天诚:《基于YouTube网络视频的印尼学习者汉语偏误研究》,上海师范大学硕士学位论文,2017年。、泰语母语者[17]蔡梦琳:《泰国YouTube汉语教学频道调查分析——以Everyday Chinese和Poppy Yang为例》,四川外国语大学硕士学位论文,2021年。、韩语母语者[18]李演晧:《韩国YouTube汉语教学频道分析》,浙江大学硕士学位论文,2019年。[19]朴宝拉:《韩国YouTube汉语偏误视频教学研究》,山东大学硕士学位论文,2020年。[20]娜娜(Leenayoon):《韩国YouTube个人汉语教学频道现状分析》,华中师范大学硕士学位论文,2021年。的 YouTobe中文学习资源的初步介绍。由吴应辉团队承担的国家社科基金重大课题“汉语国际传播动态数据库建设及发展监测研究”曾对1501个YouTube中文学习视频进行了初步的形式特点统计。以YouTube平台为例,对全球范围内中文学习网络视频资源进行科学的大规模摸底调查,将有助于中文学习资源的开发和传播,推动国际中文教育事业的长远发展。目前YouTube在100多个国家和地区本地化运营,总共能用80多种语言进行视频搜索①Dean,B.,“How Many People Use YouTube in 2022,”https://backlinko.com/youtube-users.2021年9月7日。。面对多国家、多语言、多样化、海量化的视频,只有借助大数据技术才能有效挖掘资源开发和使用的规律、趋势和关系②郭晓科:《大数据》,清华大学出版社2003年版。。
在国际中文教育领域,郑艳群首次提出大数据技术应用的方向和方法。③郑艳群:《汉语教学数据挖掘的意义和方法》,《语言文字应用》2016年第4期。近年来,从宏观角度上,有学者基于人口、教育、经济等大数据研究“一带一路”沿线国家孔子学院的分布④王辉、陈阳:《基于大数据的“一带一路”沿线国家孔子学院分布研究》,《云南师范大学学报(对外汉语教学与研究版)》2019年第1期。⑤王娟、吴梦云、左秀霞:《孔子学院与中国出口规模关系的统计考察——基于“一带一路”沿线国家数据》,《统计与决策》2019年第2期。;从微观角度,有学者基于慕课大数据挖掘国际中文学习者的行为特征⑥陈歌:《基于慕课数据挖掘的中文线上学习行为研究》,《2020年对外汉语博士生论坛暨第十三届对外汉语教学研究生学术论坛论文集》,北京大学对外汉语教育学院,2020年。,基于购书平台用户反馈数据研究汉语国际教育硕士研究生教材认可度⑦陈晓霞:《基于大数据的汉语国际教育硕士教材研究——以〈汉语国际教育硕士系列教材:核心课教材〉在线评论为例》,《云南师范大学学报(对外汉语教学与研究版)》2020年第6期。。然而,目前还未有真正意义上的中文学习网络视频资源的大数据分析工作。
王春辉认为在国际中文教育领域着眼于中文国际传播的路径、评估与更为宏观的研究亟待加强。⑧王春辉:《历史大变局下的国际中文教育——语言与国家治理的视角》,《云南师范大学学报(哲学社会科学版)》2021年第2期。吴应辉认为用“全球视野比较法”对各国中文学习资源状况进行研究,是与国际中文教育事业发展和学科建设高度契合的研究方法。⑨吴应辉:《国际中文教育新动态、新领域与新方法》,《河南大学学报(社会科学版)》2022年第2期。鉴于全球视野下新兴中文学习资源在国际中文教育事业中的重要价值,本文将应用大数据技术,以YouTube为研究窗口,摸底调查并评估全球范围内国际中文学习资源的开发与使用情况,尝试回答以下问题:(1)全球视野下中文学习资源的开发有何规律和趋势?(2)全球视野下中文学习资源的形式、内容有何特征?(3)全球视野下中文学习资源使用中的用户反馈如何?
依据全球语言分布[10]国际语言学中心数据,http://www.ethnologue.com.2022年3月6日。、人口分布[11]联合国经济与社会事务部人口司数据,https://www.un.org/development/desa/pd/.2022年3月6日。、各国网络普及率[12]参考国际电信联盟数据,https://www.itu.int/en/Pages/default.aspx.,参考孔子学院分布、中文学习者分布[13]感谢国际中文教育基金会的资料支持。,推测YouTube用户可能使用什么语言发布、搜索中文学习类视频,最终确定了包括中文在内的18种搜索语言。然后用参考文献[14]陈晓霞:《基于大数据的汉语国际教育硕士教材研究——以〈汉语国际教育硕士系列教材:核心课教材〉在线评论为例》,《云南师范大学学报(对外汉语教学与研究版)》2020年第6期。[15]俞玮奇、韩进拓:《国际中文教育图书的海外出版传播对策研究——基于亚马逊网站图书的统计分析》,《科技与出版》2021年第11期。的方法,以“汉语学习”“汉语课程”为基础,制定36个搜索关键词词表。再以YouTube Data APIv3.Search[16]Google专门给YouTube开发者提供的web访问接口。参见YouTube API官网,https://developers.google.com/youtube/v3.本文所用搜索关键词都参考官方释义。为数据爬取工具,将每个关键词的搜索结果按照浏览量大小降序排列,以500为视频上限[17]根据YouTube数据爬取规则,每次搜索结果最多返回500条数据。纳入数据集。由于不同语言的网络使用状况不同,理论上每种语言将有2~1000个搜索结果。去除重复数据、干扰样本后,有些视频可以用不同语言搜出,所以按语言统计的视频数量大于实际视频数量,最终共获得8533个有效视频的相关数据(见表1)。
表1 YouTube中文学习资源搜索结果(截至2021年12月31日)
视频的原始数据共16种(部分数据如图1所示):(1)视频属性数据共11种。包括标题、简介、标签、字幕语种、音频语种、时长、外挂字幕有无、发布时间、频道名称、频道属地、视频类别等。(2)学习者反馈数据共5种。包括浏览量、点赞量、评论量、评论文本、评论情感值。由于浏览量是无遗漏的最基础、最重要的用户反馈数据,来自任何IP地址的每一次网页点击都被累加为视频浏览量;学习者在浏览视频时如果愿意表达对视频的认可,可以点击播放窗口下方的点赞图标,最后形成的点赞量即可用于评价视频的整体受欢迎程度;用户在播放窗口评论区留言的总条目为评论量;评论文本由YouTube Data API v3.comments爬取,累计1779938条。应用宾夕法尼亚大学Python-NLTK自然语言处理包为每个视频的最多前500条评论进行情感倾向赋值。赋值区间为[-1,1],情感越正面,越接近1,越负面越接近-1,绝对中立的情感倾向赋值为0,无法识别的评论默认赋值0,累加一个视频的所有评论情感值,得到该视频的“评论综合情感”指数。
图1 YouTube视频部分数据示例
如图2所示,5288个(61.97%)的搜索结果来自YouTube“教育”类别,2286个(26.79%)来自“人物和博客”类。除此之外的11.24%资源分属于其他13个类别。本文首先对数据库中5288个“教育”类别的视频进行大数据分析。若无特别说明,下文数据均基于“教育”类视频资源。
图2 YouTube中文学习资源类别分布
YouTube于2005年创立,2007年推出多语版本并启动“合作伙伴计划”,注册用户将会从其上传的视频中获得收益分成。这些措施大大激励了视频发布者。根据Statista的采样统计数据①Statista,“YouTube-Statistics&Facts,”https://www.statista.com/topics/2019/youtube,2022年4月4日。2008年、2015年7月至2019年5月的数据,2021年Statista未提供数据。(见图3中的蓝色条柱),2007年YouTube视频发布达到每分钟6小时视频容量,2007—2013年呈现较为平缓的增长态势;虽然缺失了一些年份数据,但基本可以认为2014—2020年YouTube进入第二个发展阶段,视频容量呈快速上升趋势明显,逐年攀升至2020年的500小时/分钟。
图3 YouTube整体视频容量与国际中文学习资源容量历时对比
所采集的数据统计显示,国际中文学习资源的视频容量也呈现类似趋势(见图3中的黄色条柱、图4),但前期蓄势时间更长,后期爆发更快。总体上中文学习资源的开发经历了三个阶段:(1)蓄势期(2007—2015年),发布量从个位数增长到100以上,其中2014年132个,容量从2007年的0.4小时总时长增长至2015年的23.4小时总时长;(2)高速发展期(2015—2019年),发布量增长至5倍,容量增长至12倍,其中经过2016年和2017年的高速发展,2017—2019年进入稳定期,至2019年略有下降;(3)短视频爆发期(2020—2021年),视频数量由532个增长至1424个,增长至2.68倍,而视频容量由288.5小时增至425.7小时,增长近50%,视频数量和视频容量的增幅不一,表明这两年小容量的中文学习类短视频发展迅猛。这两年正是新冠疫情导致在线学习成为主流教育形态的时期,也是短视频产业爆发期,短视频中文学习视频的开发与传播顺应了线上学习、居家学习的需要以及短视频消费的潮流。
图4 获取的YouTube中文教育视频数量分布(按年度统计)
在国际中文教育领域,国别化、语别化的精准化中文学习资源是数字资源建设的重要部分①郭晶、吴应辉、谷陵、周雳、侬斐、马佳楠、崔佳兴、董晓艳:《国际中文教育数字资源建设现状与展望》,《国际汉语教学研究》2021年第4期。。了解中文学习资源的语别分布规律和国别分布规律,是精准化资源建设的前提。
图5 中文学习资源的语别与国别分布(视频数>10)
图6 热门中文学习资源的语别分布
图7 热门中文学习资源所在频道的分布
1.语别分布
综合全部视频、热门视频(以浏览量占前80%计)的视频数量、浏览数量、频道数量和高频标签语种(见图8)的统计结果,可以按语别将中文学习资源分为六个层级。英语遥遥领先,中文位居第二;俄语、印尼/马来语、葡萄牙语处于第三阵营;越南语、泰语、法语、日语、西班牙语、德语、印地语处于第四阵营;韩语、意大利语、阿拉伯语、尼泊尔语、土耳其语等处于第五阵营;其他语言可以归为第六阵营。
图8 高频标签语种分布图(频次≥50)
与传统的国际中文教材的语别数据对照,有助于勾勒国际中文多模态教学资源的全貌。根据周小兵2017年的统计,在语别中文教材中,排名前十的是日语(37.40%)、韩语(31.96%)、英语(15.73%)、泰语(6.32%)、法语(4.77%)、越南语(1.25%)、德语(0.88%)、西班牙语(0.72%)、俄语(0.35%)、印尼/马来语(0.27%);意大利语、阿拉伯语、蒙古语、老挝语媒介语的中文教材也有问世①周小兵:《对外汉语教学入门》第3版,中山大学出版社2017年版,第167页。。两组数据对比可见,日本、韩国等中文教材丰富的国家,其网络视频资源开发和使用表现平平,而俄罗斯、巴西、越南、印尼/马来等国的中文教材有限,但网络视频资源开发使用更为普遍。
2.中文学习资源的国别分布
从国家角度看,美国、俄罗斯、巴西、越南、印尼为中文学习资源的主要产地,来自中国、韩国的资源都有少而精的特点。中国产生了一些英语媒介语资源和全中文资源,虽然视频数量和频道数量较少,但浏览量第三。韩国中文学习资源总量虽然并不多(第14位),但热门视频的数量(第5位)和浏览量(第8位)不少;欧洲整体上资源产量和浏览量都不大,法国、德国、意大利、英国为主要产地。对视频内容分析后发现,欧美更多开发和使用口语类资源,亚洲国家更多开发和使用汉字类资源。从开发者属性看,YouTube中文学习资源主要来自国际中文教育的专业机构、专业个人、业余个人,且用户关注度与开发者的专业程度、专业规模成正相关。
当前自媒体时代,理论上任何机构、个人都能成为学习资源的开发者。依据开发者与生产内容的专业匹配程度,开发者又可分为专业机构、专业个人和业余机构、业余个人两类。我们以累加浏览量前80%的185个热门视频所属的97个频道(Channel)为分析样本,从频道简介文本(Description)和视频视觉内容呈现中寻找线索,进行开发者属性的甄别。在97个频道中,有3个(3.1%)频道(TED、俄罗斯电视台、巴西电视台)分别发布了1个中文学习相关视频。这些机构作为非专业的海外电视传媒机构,也“无心插柳”打造了“爆款”的中文学习专业视频。其余94个频道(96.9%)均以国际中文教育为唯一主题。其中40个频道(41.2%)来自专业机构,30个频道(30.9%)来自专业个人,24个(24.7%)来自业余个人。由此可见,一些国际中文教育相关专业机构和专业个人已深入布局YouTube,而一些业余个人也将中文学习作为自己的视频开发目标。
图9的箱形图中,蓝色的点表示频道的订阅量,橙色的点表示频道热门视频的总浏览量。每个箱形上半部分表示占订阅量或浏览量前25%的频道,下半部分表示订阅量或浏览量后25%的频道。其分水岭表示订阅量、浏览量的中位数水平。箱形上下的水平线以外出现的点代表数据特别高或特别低的频道。频道的订阅量和浏览量是衡量频道受关注程度的主要指标。显而易见,开发者的专业程度及规模与用户关注度呈正相关,即专业机构>专业个人>业余个人。
图9 热门视频所属97个频道用户反馈
根据YouTube发布的视频时长抽样数据①Statista,“YouTube-Statistics&Facts,”https://www.statista.com/topics/2019/youtube.2022年4月4日。,一个网络视频的时长平均为11.7分钟。郭晶等对1501个中文学习相关视频标记分析后发现,时长在10分钟以内的视频占70.3%,10~30分钟的占25.6%,30分钟以上的只有4.1%。②郭晶、吴应辉、谷陵、周雳、侬斐、马佳楠、崔佳兴、董晓艳:《国际中文教育数字资源建设现状与展望》,《国际汉语教学研究》2021年第4期。根据我们采集的YouTube中文学习资源数据(见图10),其时长分布特征与以上结论一致,即大部分人对视频的注意力集中在12分钟以内,此后有下降趋势。视频越长,用户观看该视频的倾向则越弱。结合前文2020—2021年的历时分布特征,我们认为12分钟以内,尤其是10分钟以内的短视频更能满足新时代中文学习者的学习需求。
图10 YouTube中文学习资源时长分布
视频字幕对二语学习起着重要的辅助作用,如帮助大脑选择性注意、切分加工单位、形义匹配等③靳洪刚、金善娥、何文潮:《视频字幕研究及其对二语习得和教学的启示》,《世界汉语教学》2021年第1期。。外挂字幕又提供了有字幕和无字幕的自主切换,可以促进学习者检验听觉输入效果,并强化选择性注意。在5288个视频中,有222个(4.2%)视频有外挂式字幕,其他视频(95.8%)大多数配有内置字幕或无字幕。字幕外挂与浏览量正相关(详见第五节结论),因此我们建议在制作学习资源时,尽可能提供外挂式字幕以加强学习效果,同时也有助于提升视频关注度。
内容是资源的内核,内容的类型、质量根本上决定了资源的受关注程度。YouTube上的中文学习资源有哪些类型、呈现哪些整体特征,是国际中文教育事业亟须掌握的。相关文献①黄仁善:《旅游英语YouTube频道分析及学习者认识研究》,韩国淑明女子大学硕士学位论文,2019年。②饶梓欣、李倩、许鑫:《新冠肺炎疫情下公共图书馆视频内容生产与网络传播研究——以上海图书馆为例》,《图书馆杂志》2022年第1期。主要从视频标题、标签、简介等文字入手获得视频内容,考虑到标签的精确、简明,本文侧重于从标签角度勾勒YouTube中文学习资源的统计特征,并结合标题、简介探索其内容特征。
我们结合 TF-IDF③TF-IDF用来评估一个词对一段文字的重要程度。TF-IDF认为一个单词出现的文本频数越小,它区别不同类别文本的能力就越大。(term frequency-inverse document frequency)与K均值聚类算法(K-means clustering algorithm)对视频标签进行聚类。聚类结果继续经过人工干预,即借鉴扎根理论的研究方法④陈向明:《质的研究方法与社会科学研究》,教育科学出版社2000年版。,从原始标签依次向二级编码、一级编码聚类,最终形成结构化标签体系。由该标签数据可知,YouTube中文学习资源总体上主要涉及初级口语(30%)、词汇(13%)、中国(10%)、歌曲动画(9%)、汉语拼音(6.7%)、汉字识写(6.5%)、听力理解(2%)等。另外,资源、方法、自学、速成、中文母语、教师资格证、汉语国际教育专业、高校教师等标签也有一定比例。此外,明确提及的专有名词有:马云、成龙、李小龙、北京、上海、广州、深圳、广东、香港、台湾、阿里巴巴、《宝宝巴士》、《粉红小猪》等。
根据对标签体系、标题、简介的分析,我们发现YouTube中文学习资源具有以下特点:(1)初级内容为主。总体上初级内容占90%以上,中高级资源极少。语言水平决定了资源需求,资源需求决定了资源开发方向,中文学习者的金字塔状水平分布⑤张蔚、丁安琪:《第二语言学习动机减退成因的扎根理论分析》,《中国海洋大学学报(社会科学版)》2018年第3期。,势必导致这样的资源分布特征。但随着中文学习规模和质量的不断提升,未来中高级资源可能会有上升趋势。(2)专业性强。72.8%的视频资源为专业机构、专业个人打造的中文系统教程,由国际中文教育相关专业的教师通过板书或PPT讲授。(3)HSK(汉语水平考试)的导向作用明显。38.2%的视频资源标上了“HSK”标签,视频内容也在HSK等级大纲范围内设计完成,可见HSK品牌在全球范围内已深入人心,“以考促学”成为海外中文学习者的主流学习方式之一。(4)中国社会文化类内容有限。10%的视频资源在中文学习的同时介绍了中国的社会文化,但其关切点往往限于中国经济、来华旅游、中国功夫中的极少部分,而在中国传统文化、中国当代生活等方面鲜有涉猎。即使涉及中国经济,也多关注几个较发达地区、个别知名企业与企业家,视野十分有限。(5)影视歌曲类学习资源低幼化。专业制作、中文发音的经典儿童动画片和中文童谣基本囊括了YouTube的全部视听资源,其中最热门的是《宝宝巴士》《粉红小猪》等。(6)部分视频自媒体属性和社交属性鲜明。除少数视频为“内容搬运”频道外,大部分视频都为机构、团体、个人自产自播。其中,有些视频开发者为在华留学生和在华外籍工作人员。他们的视频以中文学习经验、中国旅行经历、留学生活分享为主,向YouTube全球用户展示真实有趣的中国生活,其话题性、趣味性和互动性较强。这些原创内容有着鲜明的自媒体属性和社交属性。
将标签与国别、语言分布数据进行交叉分析发现,口语类标签主要来自面向欧美的视频,而汉字类标签主要来自面向日本、韩国、越南的视频。或许欧美更重视口语学习,而汉字学习在亚洲汉字文化圈更受重视。与中国经济相关的视频主要来自韩国,而个人分享类视频主要来自欧美。这可能也说明了不同国家的中文学习者,其中文学习动机和对中国的关注点有较大差异。
在网络学习资源的自主使用中,学习者拥有更多的选择权、参与权①刘和海、潘阳:《以学习者为中心——赋权理论视角下的个性化学习实践逻辑》,《中国电化教学》2018年第8期。,其选择、浏览、评价等反馈是一种强有力的工具②邵培仁:《传播学》,高等教育出版社2000年版。,一定程度上影响了其他学习者的选择,影响资源的传播速度与效果,进而影响相关资源开发战略。对于国际中文教育事业而言,全球用户的反馈数据对于开发、评估学习资源,把握全球中文学习者的需求有着重要的导向作用。
如表2所示,YouTube中文学习资源的浏览量远大于点赞量,点赞量远大于评论量。评论综合情感整体为正数,但分值偏低(平均值0.075,中位数0)。在浏览量上,小部分YouTube中文学习资源获得了大部分浏览量,而绝大部分资源只获得很少的浏览量,马太效应十分明显(见表3)。
表2 视频浏览量、点赞量、评论量、评论综合情感分布③ 由于一些视频的数据缺失,造成各项反馈指标所基于的视频数量并不一致。
表3 视频浏览量分布
将时长、字幕等形式特征与反馈数据进行交叉分析④考虑到指标“有无字幕”为布尔值,其余五个指标数据为连续值,对有无字幕与其他五个指标计算Kendall秩相关系数,对数据为连续值的五个指标两两配对计算Pearson相关系数。相关系数为正则代表正相关,为负则为负相关,为零表示无线性相关趋势。系数的绝对值越大表明两变量之间的线性相关程度越强。***表示p<0.001;**表示p<0.01;*表示 p<0.05;.表示 p<0.10;无标注表示其他。,结果(见表4、表5)显示,时长、外挂字幕的有无与浏览量呈正相关且相关系数显著。而视频评论的综合情感指数与其他因素之间的Pearson相关系数接近于零且不显著,说明其对视频的传播效果影响不明显。
表4 时长与用户反馈的Pearson相关系数
表5 有无外挂字幕与用户反馈的Kendall秩相关系数
根据表4、表5的数据表现可知:YouTube中文学习资源的用户关注程度总体较低、差异非常大,同是学习资源,有的成为广受关注的头部(Top)资源,有的却成为门可罗雀的尾部(Tail)资源,背后的原因值得我们深入研究,总体上YouTube中文学习资源互动性弱,难以形成开发者与用户之间、用户与用户之间的互动,在满足学习者需求、吸引用户上还有更大的发展空间。
本文对全球范围内中文学习资源进行大规模摸底调查,为保证数据的全面性和代表性,我们以YouTube为调查平台,获得8533个国际中文学习资源的16类数据,并对分布在“教育”类别的5288个视频资源进行大数据分析。研究显示:从历时角度看,中文学习资源大体经历了蓄势期、高速发展期、短视频爆发期三个阶段,发展趋势和YouTube整体一致,但蓄势时间更长,爆发更快。从媒介语角度看,英语媒介语资源占绝对优势,全中文学习资源的发布量第二,俄语、印尼/马来语、葡萄牙语资源发布数量处于第三阵营,越南语、泰语、法语、日语、西班牙语、德语、印地语资源发布数量处于第四阵营,韩语、意大利语、阿拉伯语、尼泊尔语、土耳其语资源发布数量处于第五阵营。从国家角度看,美国、俄罗斯、巴西、越南、印尼为中文学习资源的主要产地;来自中国、韩国的视频数量和频道数量都不大,但浏览量相对非常高;欧洲中文学习资源产量和浏览量都不大,以法国、德国、意大利、英国为主要产地;欧美更多开发和使用口语类资源,而亚洲国家更多开发和使用汉字类资源。不同国家的中文学习者,其中文学习动机和对中国的关注点有较大的地域差异。从开发者属性看,YouTube中文学习资源主要来自国际中文教育的专业机构,其次是专业个人,再其次是业余个人,且用户关注度与开发者的专业程度、专业规模成正比。从形式和内容看,以12分钟尤其是10分钟以内的短视频、内置字幕为主流;YouTube中文学习资源以初级教程为主,HSK的导向作用明显,影视、歌曲类资源呈现低幼化倾向;中国社会文化类内容范围较窄,但在华留学生和在华外籍工作人员开发的资源话题性、趣味性和互动性较强。从用户反馈看,大部分反馈都集中在头部(Top)视频资源上,其他大部分学习视频获得的反馈信息很少,马太效应十分明显;国际中文学习者在YouTube平台上选择中文学习资源时,其他用户的已有浏览行为和评价行为对其有着直接的影响;配备外挂字幕会一定程度提升浏览量。
以上大数据分析结论引起了我们的几点思考:
从传播学角度看,YouTube中文学习资源的开发者是中文国际化传播的把关人(Gatekeeper)。把关人的素养直接影响传播信息的质量①方建移:《传播心理学》,浙江教育出版社2016年版。。国际中文教育的专业机构、专业个人深入布局YouTube,有助于保证中文学习资源的质量和使用价值,缓解海外中文学习资源不足的现状。然而,从学习资源的内容看,在YouTube传播中文的“把关人”视野不够开阔,内容在水平、年龄、导向、话题和中国介绍上都较为狭窄单一,难以满足不同类型中文学习者的需求,难以维系中文学习兴趣和动机,容易造成对中国和中文的刻板印象。所以我们要尤其重视在华留学生和在华外籍工作人员在开发视频资源方面的独特优势,充分发挥来华留学生的“说书人”价值,改善中文难学的语言形象,改善中国在全球网络平台上的刻板狭隘形象,促进国际中文传播。视频越长,用户观看该视频的倾向则越弱,因此在国际中文教育领域要加大微短视频资源开发研究,培养更多适应未来国际中文教育市场的专业化微短视频资源开发人才。外挂字幕而非内置字幕更符合国际中文学习者需要,因此开发者应尽可能开发外挂字幕视频,以加强学习效果,同时从一定程度上提升视频关注度及浏览量。业余个人甚至专业个人入局国际中文学习频道不如专业机构成功,所以这一领域需要更多专业机构尽早布局国际视频平台,提供优质的教程、中国视听作品。欧美和亚洲汉字文化圈需要的中文学习资源不尽相同。面向欧美国家可多提供口语学习相关的资源,多重视口语教学研究,而面向亚洲汉字文化圈国家则可以提供更多汉字类的资源。从网络资源数据反观传统学习数据,我们发现英文、越南语、俄语、葡萄牙语中文教材有较大的市场,今后要重视开发这些语别的中文教材,以满足其旺盛的中文学习需求。用户浏览和反馈数据集中在头部(Top)中文学习视频资源上,因此相关研究者、开发者要重视这些资源的研究,以充分了解国际中文学习者的网络视频学习需求,提升视频资源的质量和利用率。
本研究希望有助于提升国际中文的传播效益,推动国际中文教育的创新和发展。我们将继续借助质性方法对用户评论、视频内容进行深入研究,以期获得更深入的用户反馈信息,以弥补本文在研究细节上的不足。