体育领域CiteSpace类研究信度、效度影响因素及其控制

2018-12-13 03:51霍炫伊
中国体育科技 2018年6期
关键词:参数设置信度效度

霍炫伊,石 岩



体育领域CiteSpace类研究信度、效度影响因素及其控制

霍炫伊,石 岩

山西大学 体育学院, 山西 太原 030006

基于科学研究方法理论指导,以科学测量中信度、效度的基本理论为标尺,对体育科学领域CiteSpace类文献进行梳理,借鉴心理实验中无关变量控制理论,从“研究结果影响因素”角度对CiteSpace类研究信度、效度进行探讨并分析原因,提出此类文章信度、效度控制策略,在规范CiteSpace知识图谱工具使用的同时,有效提高此类研究的信度与效度。结果表明:1)体育领域影响CiteSpace研究信度、效度的因素有:文献检索不严谨、功能设置与研究目的不匹配、图谱解读不当;2)体育科学领域CiteSpace知识图谱类研究效度失真的原因主要有方法论认识不足、研究领域不熟悉、解读结果缺乏判定标准;3)体育领域CiteSpace类研究信度、效度控制主要从“过程控制”与“结果控制”两个方面进行。过程控制包括:在文献检索部分,将控制过程前置,增加“专家访谈”与“咨询图书馆员”步骤确定检索词及检索式并实行“查全率先行”的检索策略;在参数设置部分,增加“参数设置预处理检验”步骤,根据检验结果继续调整参数设置。在结果控制中,引入“三角检验法”对研究信度进行控制,使用内容效度中的“专家效度”或“反馈法”进行研究效度控制。

CiteSpace;信度;效度;影响因素;过程控制;结果控制

1 引言

研究方法作为体育科学的认识手段,重要性不容忽视,借助体育科学研究方法,可以加深对体育科学的认识,从而进一步推动体育科学的进步[10]。知识图谱分析法是近年来活跃于体育科学领域的一种可视化方法,于2010年前后引入我国体育科学领域,至今在CNKI数据库体育类核心期刊发文70余篇。知识图谱分析(Mapping Knowledge Domains)是以科学知识为计量研究对象,依据科学学、科学计量学原则,来描述学科知识结构和前沿领域,显示学科知识发展进程与其所对应的结构关系的图形,并以此来展示学科变化的一种方法[5]。

随着可视化的浪潮,图谱绘制工具层出不穷,在体育科学领域CiteSpace工具炙手可热。然而,陈悦等(2015)指出,国内多篇应用CiteSpace工具的论文,存在“滥用”和“误用”引发此类研究信、效度失真现象[28],体育科学领域也不例外,知识图谱类研究虽呈现井喷之势,但工具使用不严谨导致研究结果“真实性”一再被质疑。任何科学研究都必须具备一定的有效性与可靠性。借鉴心理学实验中无关变量控制原理可知,影响CiteSpace类研究结果信度、效度的变量除自变量(原始数据)外,工具使用是重要无关变量。“CiteSpace工具使用”是指以CiteSpace为工具的知识图谱类研究中,包括原始文献的检索与下载、CiteSpace工具的功能操作(包括各项参数调整等)以及图谱解读的3个过程。

本研究以体育科学领域核心期刊与CSSCI收录以CiteSpace为研究工具的70篇文献为考察与分析对象,从“无关变量”角度对CiteSpace类研究信度、效度(以下简称研究信度、效度)影响因素进行探讨并分析原因,提出此类文章信度、效度控制策略。

2 体育领域CiteSpace类研究信度、效度影响因素

CiteSpace作为知识探测工具,也需符合测量工具的基本要求,即可信、有效。一种测验要准确可靠,必须控制各种无关变量,CiteSpace同理,工具在下载时未伴随有标准化的操作流程,造成不同研究者对研究工具原理以及研究目的掌握不同,所采用的检索方式便会不同,参数设置存在差异,对图谱的解读结果便会不一致,这种由于对测量工具把握标准不同所产生的不一致则会导致研究信度、效度失真[24]。信度、效度问题在CiteSpace类研究中占据着至关重要的地位,甚至可以说决定了研究命运,研究者使用工具的每一步都会影响到它[16]。

2.1 文献检索不严谨

CiteSpace是建立在大量文献输入的基础上进行分析的工具,知识可视化的质量、合理性和可靠性很大程度上依赖于所用数据的精确性和全面性[20],因此,如何设置检索表达式使得检索结果尽可能囊括全面的研究成果是需要首先考虑的问题。不当的文献检索策略得到的数据不能准确反映所研究的内容[7],即数据不准确易导致研究低信度。

梳理体育科学领域采用CiteSpace工具的知识图谱类研究,发现研究大都重后端分析而轻前端检索,即侧重形成网络后的分析,而前期的数据来源大多是进行简单说明,或是直接根据经验判断,缺乏细致、深入的研究[9]。首先,检索词选取部分,存在检索词及检索策略不严谨的情况。梳理发现,在研究中详实说明检索策略的研究者仅占少数,水XX[12]等有关《国外足球运动体能训练前沿热点与演化分析—基于科学知识图谱的可视化研究》对检索策略的表达则较为详实清晰,作者明确“体能”与“足球体能训练”两个研究主题词在外文中多种表达形式进行罗列筛选,并结合“体现足球运动体能训练的核心内容”的研究目的,反复配组与比较,确定最终检索式。其次,文献选取部分,研究者大都会对已选取的数据进行精炼处理,而软件开发者陈超美指出,无需反复对来源数据进行精炼与清洗[29],人工清洗有可能将文献中看似与研究领域无关,实际为研究“拐点”的重要文献剔除,进而影响到整体研究效度。检索词、检索式的选取是CiteSpace类研究的重要一环,原始文献对生成的图谱起着决定性的作用,对于其他一些研究方法(元分析等)都是如此,即Rubbish in,Rubbish out。

基于以上分析,已有研究中,文献检索部分主要存在检索词、检索式选择及表述不严谨问题以及文献过分清洗问题,导致原始文献不准确进而影响最终研究的信度与效度。

2.2 功能区参数设置不恰当

CiteSpace工具包括两部分的参数设置,CiteSpace工具初始界面参数设置与图谱生成后的网络可视化与编辑界面参数设置。CiteSpace工具初始界面参数设置包括时区分割、网络设置、阈值设定、网络精简等设置按钮[19]。图谱生成后的网络可视化与编辑界面参数选择包括网络叠加(Network overlays)、聚类(Clusters)、过滤(Filters)等,根据不同的需要可进一步选择图谱视图方式,如时区视图(Timezone view)、聚类视图(Cluster view)、时间线视图(Timeline view)等。阈值设定根据研究对象的不同,赋值不尽相同,而赋值不同,得到的图谱即会发生相应变化。梳理体育科学领域采用CiteSpace工具的知识图谱类研究,发现参数设置部分主要存在3类问题:

1. 功能及参数选择与研究目的不匹配,如“公共体育服务研究中”[8],研究目的为“研究热点+趋势+展望”,研究者选取了“关键词(Keyword)、主题词(Term)+作者(Author)+机构(Institution)”进行分析。李杰(2017)指出“研究热点+趋势”采用关键词(Keyword)或主题词(Term)即可,“作者(Author)+机构(Institution)”的节点组合方式无法与研究目的匹配。

2. 参数运行过程不完整,如在进行热点研究时,存在研究者选用主题词(Term)和关键词(Keyword)聚类分析。但一般聚类分析包括3个步骤,即聚类、提取聚类命名、选择算法,而其在研究中仅进行至第1步聚类,未进行后续聚类命名提取及算法选择两个步骤,聚类过程不完整。

3. 算法和裁剪方式混淆,易导致生成的图谱难以对研究领域的情况进行清晰展现、图谱杂乱无章等,读者无法通过作者提供的图谱较容易的与文中所论述的问题对应,即文中有图谱存在与否对研究影响不大。绘制图谱的要求之一是要美观并易解读[4],图谱呈现结果混乱是由于研究者对算法与裁剪方式混淆或选择不当,进而导致图谱信息过载造成的。

CiteSpace工具的功能较多,不同菜单对应不同功能,而每一个菜单及参数选择都代表不同研究目的。因此,研究者若对CiteSpace工具认识不充分、功能不熟悉,误选或错选参数可能导致研究信度低,研究结论的科学性与严谨性无法保证。

2.3 图谱解读不当

对CiteSpace图谱进行解读,有点像“看图说话”,但是,能够清楚明白而又通俗易懂地把图中的信息描述出来,让读者跟上研究者写作的思路和论述,通常并不容易。梳理体育科学领域采用CiteSpace工具的知识图谱类研究,发现采用CiteSpace工具的许多研究在图谱解读部分主要存在以下几类问题:

1. 图谱解读主观色彩强烈,如在已发表的施引文献中,究竟哪些具有更高的学术参考价值,目前只能由读者自己判断[27]、在关键节点的验证时,研究者都以自己的理解为准,未对关键节点进行专家验证以及节点文献验证等。

2.“热点”解读标准不一,如在进行热点研究时,部分研究者从关键词出现的频次探讨,部分研究者从关键词中介中心性探讨,更有研究者进行图谱聚类以寻找研究热点,如《民族传统体育研究进展的可视化研究》中,研究者根据节点大小(频次高低)来进行研究热点的解读[22],而在《足球运动体能训练前沿热点与演化可视化分析》中,研究者却使用出现频次与中介中心性结合、关键词聚类以及研究热点时区视图3种方式对研究热点进行论述[18];此外,研究者在解读“关键词频次”时,意义解读不明晰,均解读为节点出现频次,而关键词频次在不同的研究中代表不同意义,在进行合作网络分析时,关键词频次代表国家、机构及作者的发文量,而在进行主题词分析时,关键词频次代表出现频次,在作者期刊等共引分析时,关键词频次代表被引次数等。

3. 聚类解读不规范,聚类分析在不同文章中的呈现方式也有所差异,如《国际奥林匹克运动研究前沿的知识图谱分析》中,将CiteSpace 软件自动标注的颜色相同的高频关键词放在一起,目的是将研究前沿领域细分和归类,得到32个聚类[17],而《足球运动体能训练前沿热点与演化分析》中,对文献共引网络图谱进行聚类,并在文中提及由于S值为0.8338,表明研究的聚类结果合理[18]。聚类合理性解读究竟是否需要S值与Q值?自然聚类与聚类算法哪个更为科学有效?此外,还存在研究者在作图时选用了聚类功能,解读时却从关键词的频次和中介中心性进行解读,不进行聚类解读等,这些问题都影响着研究的信度与效度。

4. 图谱解读语言不规范,在知识图谱类研究中,不论是研究方法还是图谱解读都应注重表达规范,这也体现了科学研究的客观性和严谨性,有利于他人对研究数据的客观性进行检验,从而按照研究方法作进一步研究[10]。而在体育领域,有研究中研究者对图谱的呈现不保留左上角的参数设置详情,更有研究者在文中也未对参数设置进行详细呈现以及聚类合理性时指标报告缺失(仅报告Q值)等,对研究的效度有着较大的影响。

此外,CiteSpace工具的功能众多,还包括国家、机构、作者的合作分析、学科分析、主题词分析、共被引分析、时间线分析、结构变异分析等。不同的研究目的对应不同的功能选择生成不同的图谱,产生不同的解读结果,更有甚者可能出现研究者对图谱的解读产生与领域发展不同的结果结论。由此可见,研究信度、效度问题是此类研究目前面临的最大问题。

3 体育研究中CiteSpace类研究信度、效度失真的原因

3.1 方法论认识不足

方法论是指对给定领域中进行探索的一般途径的研究,主要探讨研究的基本假设、逻辑、原则、规则、程序等问题,它是指导研究的一般思想方法或哲学[10]。一般来说,它要涉及到研究主体思考问题的角度选择、研究对象范围的确定、研究途径的比较选择、研究手段的筛选和运用、研究目的的限定等。CiteSpace工具的方法论基础包括4个方面:CiteSpace工具的设计理念、CiteSpace的理论基础、CiteSpace使用流程以及CiteSpace应用功能的扩展[4]。陈悦等(2015)指出,知识可视化工具滥用及误用的原因主要是使用者对CiteSpace工具的认识不足,尤其对其方法论功能的理解较为欠缺[4]。CiteSpace工具的开发者陈超美特别强调:知识图谱更重要的是让使用者通过对图谱的绘制、生成和解读,看到知识图谱将会如何改变看世界的方式,并且使用CiteSpace的背后,需要有对库恩或类似的宏观哲学思想体系的了解,才能明白CiteSpace到底在帮用户找什么[1]。

梳理体育科学领域采用CiteSpace工具的知识图谱类研究,发现鲜有研究提及方法论功能。有研究从CiteSpace工具的定义以及知识图谱分析法较传统思辨法的优势入手展开研究,忽略方法论及方法论运用的过程。方法论的运用在知识图谱类研究中还未得到足够的认识与重视。没有方法论的支撑,研究的科学性和可靠性便会受到质疑[10]。CiteSpace作为对一个领域进行梳理的探索工具,可视化只是此类方法最显著的特征之一,对图谱背后隐藏内容的挖掘才是真正重要的部分。如若研究者对方法论的认识不足,必然造成工具功能误选、算法错用等,以致研究信度或效度失真。掌握可视化工具最直接快速的方式便是参加专题培训或专题会议,听取工具开发者以及科学及计量领域专家讲授工具方法论、开发原理、使用方法、注意事项甚至使用规范等。目前来看体育领域的研究者大都没有科学计量学基础,对工具的认知及使用仅通过书本介绍以及自己试用获得,难免会出现由于对方法论或开发原理不明确而造成的误用等现象。因此,CiteSpace工具的学习与培训至关重要,直接关系到研究者对工具方法论的理解程度以及使用规范程度,进而关系到研究信度与效度。

3.2 研究领域认识不足

对研究领域认识不足导致的研究信度、效度失真主要表现在检索词选取不规范以及图谱解读偏颇。作为对一个领域最好、最简洁的回顾方式,在以往的研究中,文献综述大都出自知名专家学者之手。这些研究者几乎都是在其领域坚持数十年之久,见证了一个领域的发生发展,因而其撰写研究综述有一定的说服力。知识图谱分析法的出现,打破了这种情况,CiteSpace工具可将一个知识领域来龙去脉的演进历程集中展现在一幅引文网络图谱上,并把图谱上作为知识基础的引文节点文献和共引聚类所表征的研究前沿自动标识出来[4]。研究者通过对生成图谱进行多种类型关键节点的解读,加之对原始文献的研读,从而了解不同研究领域的研究热点、研究脉络以及发展趋势。CiteSpace这种多元、分时、动态的引文分析可视化技术所绘制的知识图谱为文献综述类研究提供了极大的便利。当然除便利外,还带来一定的忧患。方法的便利性使得不同领域越来越多的研究者进行综述类研究,如初涉领域的研究者、跨领域研究者甚至是“科研新手”等,知识图谱的解读不是简单的“看图说话”,研究者需要有一定的研究基础以及对领域熟知程度,才能对图谱上展现出的“双高节点”(高频次、高中心性)进行更科学的解读。如若研究者是“科研新手”,对研究领域不甚了解,仅凭借方法的便利性对一个领域进行探究,则会导致研究缺乏理论导向,研究意义便有待考究。如若研究者为科研、工具“双新手”,即研究领域认识不足、工具方法论也认识不足,那么研究便无法进行。知识图谱分析法的出现固然给更多研究者提供了了解科学前沿的平台,但研究者需要根据不同的研究目的选择恰当的方法。

3.3 图谱解读缺乏判定标准

CiteSpace类研究,借助工具只能完成整体研究的一部分,即生成图谱。图谱生成后,图中各项指标,如网络整体结构、网络聚类等能多大程度上反映研究目的?也就是选用的原始数据及测量工具能多大程度上反映预测属性?缺乏相应标准的测量手段,即缺少效标。CiteSpace可生成的众多图谱类型中只有聚类解读有着标准化的效标,即CiteSpace依据网络结构和聚类的清晰度,提供了模块值(Q值)和平均轮廓值(S值)两个指标,它可以作为我们评判图谱绘制效果的一个依据[4]。一般而言,Q值在[0,1)区间内,Q>0.3就意味着划分出来的社团结构是显著的,当S值在0.7时,聚类是高效率令人信服的,若在0.5以上,聚类一般认为是合理的[4]。而其他类型的图谱(热点图、时间线视图等)需要研究者自行判定并进行解读,如转折点(Pivot node)、标志点(Landmark node)等的解读,节点大小代表总被引频次,节点越大则总被引频次越高;带有紫色外圈的节点,代表中介中心性较高。此类节点在解读时,节点的频次以及中介中心性排序高低只能说明其是否为重要节点,为何是重要节点,探究原因还需综合其引证关系并回溯原文献进行节点探析。

梳理体育科学领域采用CiteSpace工具的知识图谱类研究,发现有研究至少包括两个及以上的图谱及图谱解读过程,但仅有少量研究在文中提及解读结果控制的过程,并且有研究缺失图谱参数信息。这种仅凭个人经验对图谱进行解读,且不对解读结果信度、效度进行控制的现象是目前体育科学领域此类研究中较为严峻的问题之一。图谱解读是一项兼具科学性和建构性的工作,建构性必然会带来图谱解读的因人而异,无法强求一致[4],那么这种因人而异的解读是否与该领域发展的大方向保持一致,读者也不得而知。解读结果控制是必要的,而如何对解读结果进行信度、效度控制,是我们目前应该思考的。

总结目前体育领域内“知识图谱”分析法使用中的误用、滥用情况发现,若要避免此类情况,势必要从研究的每一个步骤来严格把控。与质性研究一致,对于实证主义来说,他们要求研究者利用标准的技术与程序、可复制的研究设计去发现或验证客观的知识,而拒绝通过意义解释或直觉所产生的认知,从而激发研究科学价值的争论,引发对结果科学性检验的浪潮。因此,“知识图谱”类研究在解读时亦不能仅停留在主观的思辨,信度、效度控制方法的引入是未来研究的必然趋势。

4 体育领域CiteSpace类研究的信度、效度控制

借鉴心理学实验中无关变量控制原理,对影响CiteSpace研究结果因素进行分析可知,影响CiteSpace类研究结果的变量,除自变量(原始数据)外,工具使用过程是重要的无关变量,对工具使用过程的控制,是保证研究结果高信度、效度的基础。

其次,CiteSpace研究不能归类为纯粹的定量研究,在生成图谱后,也需要用质性视角对图谱进行解读,因此,CiteSpace类知识图谱研究是介于定量研究与定性研究之间的一种研究类型。在此类研究中,图谱解读结果往往是最终的研究结果。研究的信度、效度不能单纯依靠量化方式对研究结果进行控制,而是需要借鉴质性研究的信度、效度控制方式,从“结果控制”思路保证此类结果高信度、高效度。

图谱解读同质性研究一样,质性研究者将有可能导致出错的因素称为“效度威胁”,正因为效度威胁的存在,效度控制十分必要[26]。现有研究中,鲜见提及对研究结果进行信度、效度控制的文章。研究者大都忽视对研究进行信度、效度的控制,仅仅通过工具的便利性,希望一步到位得出研究结果。CiteSpace是为研究者梳理出重要节点以及重要文献的工具,但是,所得到的重要节点并不能直接用作研究结果及结论。任何研究结果都必需保证具有一定的科学性与可靠性,而研究信度、效度的高低与工具使用过程控制(无关变量)及结果控制都有着极大的关联,保证CiteSpace类研究结果的有效性,势必要从工具使用的每一步着手,构建标准的“过程控制”流程图(图1)以及“结果信度、效度控制”方法。

图1 CiteSpace工具使用检验流程图

Figure1. The Test Flow Chart of CiteSpace Use

4.1 过程控制

工具使用过程的严谨性本身可以确保研究的真实性,实施“过程控制”意味着研究者可以比对标准化流程中的每一个步骤,确保不会因为工具误用而导致研究信度、效度失真。过程控制主要从文献检索和参数设置两个方面去实施,具体分解到文献检索的检索词及检索式的确定、原始文献选定、原始文献预处理3个过程;参数设置的参数选择、参数设置与处理两个过程。

4.1.1 控制一:原始文献检索与收集

原始文献的准确与否直指研究结果的导向。保证原始文献全面、准确,势必要从检索词、检索式、数据库、文献类型,甚至时间段等的选用及描述等方面严格把控(图1),而在这个阶段,保证检索词准确以及检索式完整无疑是最重要的。

原始文献准确性控制,研究者需在研究中将控制过程前移,即在检索词选取以及检索式组合之前,增加控制步骤——专家访谈。

首先,检索词的确定,体育领域应用CiteSpace工具的研究,有明显的两个分支,国内体育专题研究与国外体育专题研究,检索词的选择便也涉及到中英文两种情况,由于中西方文化差异以及中西方研究者对关键词的理解差异,导致英文关键词的选用有时难以保证外文文献的查全、查准,如在中国,“体育”一词几乎代表了整个体育科学领域的相关研究关键词,而国外“Sport”“Exercise”“Physical activity”等都是体育领域的关键词,但所代表内容却各有不同。其次,检索式组合,多数研究者在组合检索式时,全凭主观理解,对“查全、查准、查新”的检索策略不重视。研究者凭借自身的经验摸索,较少考虑到数据来源对分析结果合理性和有效性的影响问题,必然导致文献的检索不全或不准。因此,在确定检索词前增加“专家访谈”这一步骤,是对原始文献准确性的有效保障。专家的专业知识、工作经历和学术思考积淀成一座座宝贵的“知识库”,凝练其相关领域的学术经验,可为有效认知每个研究主题提供专业视角[21]。此外,还可咨询专业的图书馆员等专业检索人员等,结合专家以及专业检索人员的建议,确定最终检索词以及组合检索式。检索式组合最终确定时,还应注意检索符号的巧用,如在英文文献检索时,双引号(“”)、星号(*)等,如“Sport risk”代表“Sport”与“Risk”两个检索词必须同时以组合的形式出现在每一条检索结果的题目、摘要以及关键词3处中的任何一处,便会被选作检索结果。Sport*则代表Sport的任何形式(Sport、Sports等)出现在检索结果的题目、摘要以及关键词3处中的任何一处,均会被检索出来等。

其次,原始文献选取,陈超美(2017)在CiteSpace知识图谱类研究中建议,在原始文献选取时,无需对数据进行清洗,优先考虑查全率,如有关“再生医学”研究和“JDIS”研究中,陈超美分别通过“施引文献扩展”和“主题词综合检索”两种策略,提高检索结果的查全率。此外,数据库、文献类型、时间段等的选用,都应在文中呈现准确的检索过程,用以保证原始文献的真实性与准确性。

最后,增加步骤“原始数据预处理”,即将来源数据导入CiteSpace工具,参数设置默认,生成图谱,比对图谱结构与专家访谈内容的吻合程度,保证原始数据的完整性。

综上所述,知识图谱类研究中原始文献控制,需将控制过程前移并对数据收集的每个细节增加控制步骤:研究开始前增加专家行为(专家访谈、咨询图书馆员等)来确定检索词选用与检索式组合可以保证原始文献的准确性与全面性;原始文献选取时优先考虑查全率,可借鉴“施引文献扩展”和“主题词综合检索”两种方式进行配组与比较,用以保证来源数据的完整性与科学性;数据库、文献类型、时间段等的选用需在文中进行严格描述;最后增加“原始文献预处理”步骤,用以控制原始文献完整性。

4.1.2 控制二:功能选择与参数设置

功能与参数设置区域主要体现两个功能:是否准确体现研究目的以及图谱是否清晰美观。其中“Node Type”部分为体现研究目的区域,提供了11个节点类型,节点类型可以进行单独分析,也可复合选择进行分析。如何能准确选用合适的参数及节点匹配相应的研究目的,需要在进行各项参数选择时,对节点及参数的功能充分掌握,并明确研究目的。CiteSpace工具功能多样化,既可以做单纯的研究计量学分析[6],亦可做深层次的热点研究、脉络梳理[23]以及前沿展望[12]。研究者可根据研究目的及常用总结[8]选择合适的节点,避免功能误用与滥用。除“Node Type”外,功能与参数设置区域中的其他选项都是对图谱的呈现效果进行调整,如时区分割、算法选择、裁剪方式等参数,可以对图谱的美观性、条理性进行调整,使图谱清晰合理。并且保存图谱时,除清晰美观外,还需保证图谱的完整性、严谨性与可重复性,如是否有完整的时间条、是否保留了图谱左上角的完整参数设置详情。

值得注意的是,功能与参数区页面设置完成后,研究者应进行“参数设置预处理检验”(图1),点击按键“Go”,对生成的图谱进行简要分析,检查图谱是否杂乱不清或生成图谱中的内容是否足以体现研究目的。如若图谱混乱则需要重新进行参数设置,选择恰当裁剪算法。如若图谱体现的框架及内容无法准确体现研究目的,则需要重新考虑“Node Type”节点的选择与重组。

4.2 结果控制

对图谱解读结果的控制即为研究结果控制。图谱解读是此类研究重中之重的部分,也是最易掺杂研究者个人主观性的一部分。研究者对生成的图谱进行分析,并根据图谱内容对研究领域进行梳理,以期从知识图谱中解读领域的研究热点、发展脉络等。至于结果的科学性、可靠性如何,这就涉及到研究结果的信度与效度问题。值得一提的是,对图谱解读结果进行控制,必须建立在原始文献准确全面以及参数设置准确的基础之上(图1)。

4.2.1 研究结果信度控制

图谱解读过程类似质性研究中的“分析性叙述”,分析性叙述是质性研究的基础,为了得到客观的结论,研究者在进行质性数据分析中经常采用“三角检验法(Triangulation)”以保证信度。同理,在知识图谱类文章解读时,由于原始数据的选用优先考虑查全率,以致生成图谱包含内容较多,且CiteSpace等工具可以生成多种形式的图谱,如聚类图、时区视图等,而不同的图谱代表不同的研究目的,因此,将“三角检验法”思想引入此类研究进行信度检验十分必要。有学者认为,三角检验法是一种专家行为,采用多专家多角度的观点相互印证,以确定它们是否相互证实,其目的是为了评价资料或研究的可信度。检验时,根据共同的研究目的(如研究热点排序等)对图谱中需解读的部分先经过相关专家3人(包括研究者本人)进行划分并提取关键信息,类似质性研究中不同材料的编码一致性控制,采用平均相互同意度=n×S/(T1+T2+…+Tn)以及信度系数=(n×平均相互同意度)/[1+(n-1)×平均相互同意度]两个公式进行检验,其中S表示检验者解读一致数、T1、T2表示每人解读种类总数、n表示检验人数[16],若3人解读信度系数较高,则信度高。例如采用三角检验法对《体育运动风险研究的知识图谱分析》[11]一文进行检验,将生成的图谱呈送两位同领域专家进行内容解读,其中T1=13,T2=15,S=9,得到检验结果相互平均同意度达0.642,信度系数达0.838,信度系数较高,表明文章信度较好。

与质性研究编码一致性检验不同,质性研究编码一致性检验仅仅是对编码结果的控制,而CiteSpace类研究信度的控制不仅仅包括图谱解读结果的检验,在研究结果解读之前,专家亦要对研究进行“过程控制”。

4.2.2 研究结果效度控制

研究结果的效度控制,可采用内容效度,即研究目的(研究热点、演进脉络等)、图谱所涵盖的内容与研究领域实际的发生发展之间的相符性以及研究者对图谱解读的恰当性。而研究者想要证实解读内容能够代表研究目的,通常需要请专家学者将研究者的解读内容(热点、聚类等)与图谱进行相应的归类,并找出缺失的相关内容,然后统计专家学者与研究者初始分析之间的吻合程度,通常吻合程度在80%~85%表示内容具有代表性[13]。而“专家”指对某一门学问有专门研究或擅长某项技术的人。结合实际情况,此类研究界定与研究内容相同领域中的“教授”“学科带头人”或长期工作在此领域的研究员等作为研究中效度控制的专家。此外,还可以采用“反馈法”对研究的效度进行控制,即研究者得出初步结论后广泛地与自己的同行、同事、朋友家人交换看法,听取他们的意见。此种方法可以为研究者提供不同的看问题的角度,帮助研究者从不同层面控制研究的效度等[2]。

综上所述,解决现阶段知识图谱工具“误用、滥用”问题需要进行必要的信度、效度控制。主要从过程和结果两个角度进行控制。“过程控制”时,文献检索、参数设置应依次进行,边研究边控制,在过程中控制,前者严谨性得以保证,后者才能生效。“结果控制”即图谱解读结果控制,主要从信度、效度两个方面进行。信度控制主要采用“三角检验法”通过“三角”对研究的过程严谨性以及研究结果的可重复性进行控制。效度控制主要以“专家行为”为主要思想,采用“专家效度”以保证研究效度。

值得注意的是,除了工具“滥用”、“误用”外,还存在部分研究仅通过CiteSpace工具处理,将有关数据简单展现,或是利用工具便利以关键词无限度的撰写同质性文章。知识图谱分析是一种可视化研究方法,是认识科学的手段,知识图谱分析法是通过可视化手段呈现一个领域知识结构、规律及分布情况[7],向研究者更加直观展示一个领域的演进历程以及深层结构,帮助研究者迅速抓住该领域的核心文献、核心节点,进而深入分析,避免研究者因文献海量而无法对所研究领域产生基本认识,进而无法推动科学进步。CiteSpace是众多可视化工具的一种,是为深入分析文献而服务的,科学研究不能以研究方法为主导,而应以科学问题为核心,根据命题选方法,利用方法对问题进行深入阐释。

5 小结

1. 目前体育研究中CiteSpace工具使用存在的问题主要有文献检索不严谨、参数设置不恰当、图谱解读不当3个方面。

2. 体育科学领域CiteSpace知识图谱类研究信度、效度失真的原因主要有方法论认识不足、研究领域不熟悉、解读结果缺乏判定标准。

3. 体育科学领域CiteSpace知识图谱类研究信度、效度控制主要包括过程控制与结果控制。“过程控制”的引入是CiteSpace知识图谱类研究的必然趋势,如文献检索部分,增加“专家访谈”与“咨询图书馆员”步骤确定检索词;实行“查全率先行”的检索策略,并增加“原始数据预处理”步骤,控制原始文献的准确性与全面性。参数设置部分,明确研究目的的前提下,进行参数设置之后,增加“参数设置预处理检验”步骤,根据控制结果继续调整参数设置。结果控制,即对图谱解读结果的控制,引入“三角检验法”检验研究信度,使用 “专家效度”或“反馈法”控制研究效度。

[1] 陈超美.序言二[M]//刘则渊,陈悦,侯海燕.科学知识图谱:方法与应用[M].北京:人民出版社,2008.

[2] 陈向明.质的研究方法与社会科学研究[M].北京:教育科学出版社,2002:404.

[3] 陈瑶瑶,倪依克.2008年以来我国民族传统体育研究进展——基于CiteSpaceⅢ的计量分析[J].中国体育科技,2016,52(2):12-18.

[4] 陈悦,陈超美,刘则渊,等.CiteSpace知识图谱的方法论功能[J].科学学研究,2015,33(2):242-252.

[5] 高静美.组织变革研究:基于知识图谱与实地调研的交互验证[M].北京:科学出版社,2013.

[6] 高明,段卉,韩尚浩.基于CiteSpaceIII的国外体育教育研究计量学分析[J].体育科学,2015, 35(1):4-12.

[7] 李杰,陈超美.CiteSpace:科技文本挖掘及可视化[M].北京:首都经济贸易大学出版社,2017: 26.

[8] 李立峰,王洪彪.中国公共体育服务研究10年(2007—2016):热点、趋势与展望—基于 Cite SpaceⅢ的可视化分析[J].沈阳体育学院学报,2017,36(3):39-47.

[9] 刘敏娟,张学福.基于知识图谱的学科主题识别方法的研究[M].北京:中国农业科学技术出版社,2017:17.

[10] 石岩,孙立.体育研究中“影响因素”研究方法刍议[J].体育学刊,2014,21(4):1-6.

[11] 石岩,霍炫伊.体育运动风险研究的知识图谱分析[J].体育科学,2017,37(2): 76-86.

[12] 水祎舟,黄竹杭,耿建华.国外足球运动体能训练前沿热点与演化分析—基于科学知识图谱的可视化研究[J].体育科学, 2016, 36(1):67-78.

[13] THOMAS J R,NELSON J K,SILVERMAN S J.体力活动的研究方法[M].李红娟,花勇民,郜艳晖,译.北京:北京体育大学出版社,2016:340.

[14] 田麦久,孙志安,于仙贵,等.当代运动训练理论的研究状况及发展趋势[J].北京体育大学学报,1993.16(2):67-73.

[15] 王冰.青少年体育暴力量表的编制与施测[D].太原:山西大学, 2013.

[16] 王红艳.质的研究效度问题—“我如何判断我的判断是有效的?”[J].教育学术月刊,2010,6 (2):24-27.

[17] 王琪,胡志刚.国际奥林匹克运动研究前沿的知识图谱分析[J].西安体育学院学报,2011, 28(4):433-436.

[18] 邢聪,吴瑛,项贤林.美国运动损伤前沿研究热点与内容分析—基于科学知识图谱的可视化研究[J].体育科学,2016,36(9):66-72.

[19] 肖明.知识图谱工具使用指南[M].北京:中国铁道出版社,2014:142.

[20] 肖明,邱小花,黄界,等.知识图谱工具比较研究[J].图书馆杂志, 2012,16(10):61-69.

[21] 游茂林,石岩.什么是体育社会心理学—基于20名中、外运动心理学家学术经验的考量[J].体育科学,2015,35(2):73-80.

[22] 阳艺武.基于知识图谱的我国竞技体育后备人才培养研究热点及演化[J].上海体育学院学报,2015,39(2):73-79.

[23] 张承毅,王毅.国外篮球训练研究进展分析—基于科学知识图谱的可视化分析[J].北京体育大学学报,2016,39(8):125-132.

[24] 郑日昌.心理测量[M].长沙:湖南教育出版社,1987:66.

[25] 张毅恒,柳鸣毅.基于知识图谱的中国体育产业研究可视化分析[J].中国体育科技,2016, 52(1):24-35.

[26] 朱玉婷.质的研究中效度问题探讨—以《王小刚为什么不上学—一位辍学学生的个案调查》为例[J].理工高教研究, 2008, 27 (1):84-86.

[27] 钟镇.知识图谱分析方法的可靠性检验研究—以共词分析为例[J].科学学研究,2015,33(5): 647-653.

[28] CHEN C M.CiteSpace II: Detecting and visualizing emerging trends and transient patterns in scientific literature [J]. J Am Inf Sci Technol, 2006,57(3):359-377.

[29] CHEN C M.Science mapping: a systematic review of the literature[J]. J Data Inf Sci, 2017,2(2):1-40.

Factors Affecting the Reliability and Validity of CiteSpace Research in Sports Field and Their Control

HUO Xuan-yi, SHI Yan

Shanxi University, Taiyuan 030006, China.

Based on the theoretical guidance of the scientific research method system and the basic theory of reliability and validity in scientific measurement, learning from the theory of unrelated variable control in psychological experiments, the authors explored the reliability and validity of CiteSpace research from the perspective of "influencing factors of research results", analyzed the reasons and proposed the control strategies of these articles reliability and validity. While regulating the use of CiteSpace tool, it can effectively increase the reliability and validity of such research. The results show that 1) there were following influencing factors of CiteSpace research in sport area: the literature retrieval is not rigorous, and the function settings do not match the research purpose, and improper interpretation of knowledge map. 2) Lack of understanding of the methodology, not familiar with research areas, interpretation of the results lack determination criterion are the main reasons. 3) The reliability and validity control of the CiteSpace research in the sports field is mainly from the aspects of "process control" and "result control". In process control, part 1: literature retrieval, we need to increase the steps of "expert interview" and "consulting librarian" to determine the retrieval words and retrieval styles; part 2: parameter setting, the purpose of the study under the premise of the parameters set, add "parameter set pre-processing test" step, according to the test results continue to adjust the parameter settings. Another is results reliability and validity control: it also a test of the interpretation of the knowledge map, the triangular test is used to test the reliability of the research, the validity of the research is tested by expert evaluation or feedback method in content validity.

G80-32

A

1002-9826(2018)06-0045-07

10.16470/j.csst.201806006

2018-01-22;

2018-10-21

国家社会科学基金项目资助(18BTY051)。

霍炫伊,女,硕士,主要研究方向为体育心理学与体育风险管理,E-mail:tyhuoxuanyi@163.com。

猜你喜欢
参数设置信度效度
问卷是否可信
——基于体育核心期刊论文(2010—2018年)的系统分析
谈高效课堂下效度的提升策略
巧用模型法提高科学课堂教学的效度
逃生疏散模拟软件应用
大学生积极自我量表初步编制
蚁群算法求解TSP中的参数设置
RTK技术在放线测量中的应用
计算机辅助英语测试研究
基于STM32处理器的大棚温湿度监控系统设计
墨子论度