“可用性”研究的文献计量与引文可视化分析

2013-03-22 02:07:45杜华

中国科技资源导刊 2013年4期

关键词：可用性文献节点

杜华

（安阳师范学院教育信息技术与传媒学院，河南安阳 455000）

“可用性”研究的文献计量与引文可视化分析

杜华

（安阳师范学院教育信息技术与传媒学院，河南安阳 455000）

利用HistCite软件对可用性研究文献进行了统计分析，理清了过去30多年国际可用性研究文献的时间分布，可用性研究的活跃地区、研究机构及载文期刊；通过分析引文编年图中的核心文献，揭示了可用性研究的发展历程和演进路径，并在此过程中列举了可用性研究的热点、前沿，预测了该领域的发展趋势。

可用性；量化分析；可视化分析；引文编年图；研究热点；研究趋势；HistCite

1 引言

“可用性”概念，由上世纪80年代中期出现的“对用户友好”的口号演变而来。可用性被称为“以用户为中心进行设计”的概念，指产品对学习者来说有效、易学、高效、好记、少错和令人满意的程度，即用户能否用产品完成相应任务，效率如何，主观感受怎样。实际上，可用性是从用户角度所看到的产品质量，是交互式IT产品/系统的重要质量指标，更是产品竞争力的核心。近年来，随着多媒体计算机的快速发展和人们对软件产品质量日益关注，有关可用性的研究正逐渐成为人机交互和软件设计等领域的热点。

本文以WOS（Web of Science）数据库中的两个子库SCI-E和SSCI（SCI-E指科学引文索引扩展版，SSCI为社会科学引文索引）为文献来源，检索策略为“主题=Usability”。鉴于2013年的数据并不完整，故时间跨度设置为2013年之前的所有年份。结果共检索到符合条件的文献记录1885篇（检索日期为2013年3月19日），文献数据集出版时间分布为1982-2012年。设置输出记录方式为“全记录（包含引用的参考文献）”，将结果保存为纯文本格式。

本研究采用引文图谱可视化分析方法，借助HistCite软件实现。HistCite（History of Cite）意为引文历史，或叫引文图谱分析软件。该软件系SCI发明人、美国著名情报学家和科学计量学家尤金·加菲尔德（Eugene Gar f eld）开发，能够用图示方式展示某一领域不同文献之间的关系，可以快速绘制出一个领域的发展历史，定位出该领域的重要文献以及最新的重要文献[1]。

将生成的纯文本格式数据导入HistCite软件，对1982-2012年可用性研究领域发表文献的时间、国家、研究机构、载文期刊的分布和被引频次、引文编年图等指标进行统计分析，结果见以下各节。

2 文献发文量

（1）时间分布

按年产量统计可用性研究文献的时间分布情况，结果如图1所示。由图1可以看出，WOS中对可用性进行学术研究有记载的文献始于1982年，过去30多年以可用性为主题研究的发文量总体呈现逐年递增的趋势。1994年以前，研究文献每年发文量都在10篇以内，1994-2002年维持在百篇以内，2003-2011年差不多每年都有一百多篇，2012年达到一个高峰，有211篇的学术文献在这一年发表。研究文献量的增长在一定程度上说明大家对此研究领域的关注度越来越高。

（2）国家（地区）分布

对研究可用性的国家（地区）进行分析，可以找出该领域研究的活跃地区。在HistCite中将文献按国家统计可以发现，过去31年内以可用性为主题的1885篇研究文献分布于68个国家（地区），其中未署国家（地区）的文献达314篇，文献量排名前15的国家（地区）如表1所示（其中，TLCS：Total Local Citation Score为本数据集的总被引次数，TGLS：Total Global Citation Score为WOS中的总被引次数）。无论是发文量还是被引次数，美国都稳居第一，远超过其他国家，其发文量甚至超过其后5个国家发文量的总和，占总发文量的28.17%。英国和德国分居二、三位，它们的发文量虽然也都过百，但依然远不及美国，前15个国家发文量共计1455篇，占总发文量的77.19%。中国排第十五位，发文量和被引次数都较低。

（3）研究机构分布

图1 可用性研究文献的年度时间分布

进一步对可用性文献的研究机构进行分析，发文量靠前的如表2所示（其中未署名研究机构的有123篇）。就发文量而言，美国的马里兰大学（Maryland Univ）和加拿大的多伦多大学（Toronto Univ）旗鼓相当，美国的印第安纳大学位列第三，IBM公司紧随其后。美国的普渡大学（Purdue Univ）和丹麦的哥本哈根大学（Copenhagen Univ）并列，发文量同为17篇。美国密歇根大学（M ichigan Univ）发文量排在德克萨斯大学（Texas Univ）之后，与匹茨堡大学（Pittsburgh Univ）和荷兰的特温特大学（Twente Univ）均为14篇，3所研究机构并列。就单篇文献的被引次数（TLCS/N）而言，IBM公司最高（其TLCS值也最高），这说明IBM公司研究学者的文献得到了可用性领域内更多学者的肯定和关注，马里兰大学的TGCS值最高（其TGCS/N也最高），这说明马里兰大学学者发表的文献受到了与可用性相关研究领域最多的引用和转载。

（4）载文期刊分布

1982-2012年间共有757种期刊发表过以可用性为主题的文献，“文献量（N）≥24”的期刊共计10种，结果见表3。10种期刊合计载文量为418篇，占总量的22.18%。其中，《Behaviour & Information Technology》载文量最高，为82篇，占总发文量的4.35%，该期刊的TLCS和TGCS值也都最高，这说明在可用性研究领域，该杂志所发文献不仅发文量最大，受认可程度最高，且得到其他相关研究领域专家引用和关注最多。

3 高影响力文献统计

LCS（Local Citation Score）是某篇文献在当前数据集（也即下载的1885篇文献）中被引用次数，它反映了某文献在某领域的受关注程度，通过文献的LCS可以快速定位一个领域的经典文献。为了找出可用性研究领域的高影响力重要文献，利用HistCite的统计功能，将检索结果按LCS降序排列，其中LCS≥22的17篇文献如表4所示。其中，GCS（Global Citation Score）表示文献在WOS中的被引用次数。

表1 可用性研究文献量前15名国家分布

表2 文献量N≥14的研究机构分布

表3 文献量N≥24的载文期刊分布统计

由表4可知，在所列17篇文献中，发表在《Behaviour & Information Technology》上的有4篇，《International Journal of Human-Computer Interaction》上的文献为3篇，这在一定程度上佐证了表3中对文献载文期刊分布情况的统计分析。每一篇研究文献都有一个编号，见表4中的文献编号列，这在引文编年分析部分会用到。

4 引文编年分析

利用HistCite的Graph Maker功能，以LCS Count为条件，设定节点数（Lim it）为62（鉴于时间跨度为31年，故选择31的倍数62作为引文编年图中能出现的节点数），绘制可用性研究文献的引文编年图，以期找出可用性研究领域的核心文献、研究演进路径、热点，并对该领域的研究前沿和发展趋势作出预测，结果如图2所示。

图2 可用性研究文献引文编年图

表4 当前数据集被引频次（LCS）≥22的文献

对引文编年图的进一步分析可以发现可用性研究在1992年出现一个重要节点44。它是由美国通用电话电子公司实验室Virzi RA教授1992年8月发表在《Human Factors》上的名为《精炼可用性评估的测试阶段：多少被试者就足够了》的文章。Virzi RA教授认为，友好的用户界面设计和低廉的测试成本有助于提高产品的开发生存周期。针对可用性问题，他通过3个实验报告来说明在产品测试评估阶段需要多少被试者参与就足够了的问题，研究有3点基本发现：80%的可用性问题是由最初的4～5个被试者发现的；后面的被试者似乎越来越难给出新信息；最初的几个被试者有可能发现最严重的可用性问题[3]。由于该文献的研究成果是基于实验报告，来自产品可用性评估的实践，得出的结论自然比较有说服力，再加上其发表时间较早，故其被后来者争相引用也就不足为奇，这也致使该文的LCS值高达56，成为表4所列17篇文献中最高的。

按照时间顺序梳理，在随后的1993、1994和1995年又分别出现一个重要节点。1993年出现的节点为49号文献，该文由Kirakowski J和Corbett M共同撰写，1993年9月发表在《英国教育技术杂志》上，名为《软件可用性测量目录》。软件可用性测量目录是从用户使用满意程度及遇到的问题角度调查软件可用性的问卷，它是MUSiC（计算领域可用性标准度量项目的一部分。软件可用性测量目录由爱尔兰科克学院大学人因学研究小组开发，Jurek Kirakowski正是该研究小组的主管。SUM I采用国际标准化的50个题目问卷，针对每个题目，用户可以回答：同意、不确定、不同意。SUM I 从以下方面评价用户对软件可用性的看法：易学性，即用户觉得自己能够开始使用软件并学习新特性的安心程度；效率，即用户觉得软件辅助自己工作的功效；喜欢程度，即用户对软件的一般情绪反应，例如：是否喜欢；用户控制，即用户觉得自己控制软件（而非被软件控制）的程度；对用户的帮助，即用户觉得软件辅助自己使用的程度。SUM I要求至少要有10个用户参与测试[4]。

1994年的节点为75号研究文献。该文由Lew is JR独著，名为《可用性研究的样本量：额外注意事项》。Lew is首先回顾了1992年Virzi的研究发现，也就是上面提到的44号文献，在此基础上，他利用一个独立的可用性研究来验证Virzi的3个基本发现，结果显示第二个基本发现，也就是后面的被试者似乎越来越不容易提供新信息是完全正确的，但第一个基本发现并不完全正确，第三个基本发现根本就没有证据支持。Lew is的研究发现，随着样本量增大，收益在递减。如果32%～42%的数据存在错误，那么最初的4～5个被试者就可以发现产品存在的80%的可用性问题，但如果数据的出错率低于32%，那么要发现产品可用性问题的80%就需要超过5个被试者参与。将发现的可用性问题按严重性分类，并未发现其与被发现速率之间存在关联。研究数据显示在给定了数据出错率平均估算值的前提下，二项式概率可以为预测问题发现曲线提供一个很好的模型。最后，作者通过一个经济学模型估算了不同情况下的投资回报率，数据显示具有最大投资回报率的样本量大小范围深受测试产品数据出错率的影响[5]。

1995年的节点85号文献也是由Lew is JR独著，名为《IBM电脑可用性满意度调查表：心理测量评估与使用说明书》。在文中，作者描述了IBM当时正进行的主观可用性测量研究，该研究的焦点是用心理测量的方法开发并评估测量用户对系统可用性满意度的问卷。文章主要目标有两个：讨论IBM用于测量用户对电脑系统可用性满意度的4套问卷的心理特征；提供问卷、实施和评分说明。可用性实践者能很有信心地使用这些问卷帮助其测量用户对电脑系统可用性的满意度[6]。

1997年出现了3个重要节点，分别为154、155和156。154号文献是John BE和Marks SJ撰写的名为《追踪可用性评估方法的有效性》的文章。作者通过一个案例追踪分析了使用6种不同的可用性评估法方法预测的可用性问题，6种可用性评估方法分别是权益分析、认知过程走查法、GOMS（目标、操作、方法、选择规则）、启发式评估、用户行为标注和简单阅读说明书。案例通过比较不同方法预言的用户测试结果评定其预测能力，通过计算引起执行代码改变问题的数量评定其说服力，通过用户测试新系统的结果评定设计修改的有效性。结论是，上述可用性评估方法并不像人机交互领域想要的那样有效果[7]。该文献借鉴了之前44号和75号文献的部分结论。节点155是名为《用于建构可用性问题报告评估方法的比较》的文章。在文中，作者回顾了前几年人机交互研究提出的用于预测交互系统潜在可用性问题的几种评价方法，在此基础上对这些评估方法的有效性提出了质疑。文章指出，由于这些评估方法缺乏严密性和普遍性，因此，用它们预测的与有经验的用户通过实际测试发现的可用性问题是否一致需要特别注意。该文作者提出了一个新的可用性问题评估的报告框架，用于改善评估方法预测的与有经验用户测试发现的可用性问题的一致性，并指出了这种报告格式适用的设计研究情境[8]。节点156由节点49和65发展而来，是名为《一个被推荐的可用性指标：一种用于比较不同软件系统相对可用性的方法》的文章。该文由美国普渡大学（Purdue Univ）教授撰写。作者指出，可用性正在成为一个越来越重要的软件标准，但是当前的可用性测量方法不是难以应用就是过于依赖评估者的专业知识。文章以人类信息加工理论为基础，确定了与软件可用性有关的8个需注意的人为因素，它们分别为兼容性、一致性、适应性、易学性、最少动作、最小记忆负载、知觉限制和用户指导。普渡大学的可用性测试问卷（PUTQ）正是来自上述8个因素和人类信息加工的3阶段。一个旨在测试PUTQ有效性的实验结果表明PUTQ和用户交互满意度调查问卷（QUIS）存在高度相关。另外，PUTQ发现了在两个试验性的交互系统之间用户绩效的差异，但QUIS却未能发现[9]。

177是1998年出现的重要节点，由44和75号节点发展而来。该节点文献LCS值为49，排在所有可用性文献的第二位。名为《被损坏的商品？有关可用性评估方法比较实验的综述》，由Gray WD和Salzman MC合著。文章指出，在人机交互领域，界面设计已成为研究者和实践者的一个核心主题，但实验设计尚未引起大家足够的重视。然而，在某种程度上，对界面设计可靠与有效的指导却往往依赖于实验设计。在文中，作者通过比较检验了可用性评估方法的五个实验设计，它们都对人机交互思想和实践有着重要的影响。结果显示，实验设计中的一个很小的问题都有可能导致软件致命性的错误。实验的方法可作为一个强有力的工具，不仅可以帮助选择可用性评估方法，而且可以用于说明人机交互的其他事项。要想获得想要的结果，就需要加强并密切关注实验设计[10]。

2001年有342和343两个重要节点。342是名为《用于评价可用性评估方法的标准》的文章。在文中，作者指出，可用性是软件系统质量的重要指标，目前有关可用性评估的方法很多，但却较少有使用者能够理解每一种方法的功能和局限，哪一种方法更有效？应如何使用，又该用于什么场合等。然而，由于缺少统一标准，又无法对不同的评估方法进行可靠地评估和比较。基于此，文章对可用性评估方法的要素、比较准则和绩效衡量等进行了讨论，这些在比较可用性评估方法的研究中是非常有用的[11]。342节点文献借鉴了44、75、154、155和177号文献的研究成果。343号文献由Hertzum M和Jacobsen NE合著，名为《评估员的影响：一个关于可用性评估方法令人寒心的事实》。在文中，作者认为计算机专业人员需要强健易用的可用性评估方法帮助其系统提升计算机人工制品的可用性，但是目前使用最为广泛的3种可用性评估方法：认知过程走查法、启发式评估和出声思维研究针对相同的系统，如果是不同的人员进行评估，即使是采用同一种方法，得到可用性问题都大不一样，这充分说明在可用性问题评估过程中，评估人员对结果的影响。作者在分析了11个案例的基础上，得出以下3点结论：模糊的目标分析导致任务场景的多变性；评价过程的不清楚使得评价缺少抓手；不明确的问题界定标准使得任何事情都可能被当作可用性问题。为了尽量减少评估人员对结果的影响，最简单的方法就是要让尽可能多的人员参与到可用性的评估当中[12]。

距今最近的、LCS值又较高的节点是857。该节点文献2006年2月发表在国际人机研究杂志上，由丹麦哥本哈根大学教授Kasper Hornbaek独著，名为《可用性测量的最新实践：可用性研究面临的挑战》。文章指出，如何测量可用性是人机交互研究和用户界面评价中的一个重要问题，作者通过分析发表在人机交互核心期刊和会议上的180篇有关可用性测量论文并将其分类，回顾了有关可用性测量的最新实践，区分了与测量有关的几个问题，包括这些研究是否确实在测量可用性？测量能否覆盖足够大范围？研究者是如何推理的？结果是否达到了可用性测量的目的？在已有的研究中，对可用性测量的选择和推理大都缺乏一个有效可靠的，类似在用户界面研究中使用的对可用性权威性的解释。基于上述文献综述，作者讨论了可用性研究与如何进行可用性测量研究所面临的挑战，主要包括依据经验区分和比较可用性的主观与客观测量，集中开发和利用学习与记忆测量工具，研究长期使用与可用性，扩展使用后满意度测量的范围，验证并标准化使用的主观满意度问卷，使用微观和宏观任务及对应测量工具验证其与可用性测量的相互关系等等[13]。表4中的其他文献这里就不再一一赘述。

5 总结

（1）从引文编年图中可以看出，以“可用性”为主题的研究虽然出现时间不久，但其相关研究发展较快，并且出现了较为经典的综述性文章。

（2）近几年高被引文献表明，研究主要集中在对“可用性”评估、测量方法与标准的讨论与比较，以及不同的评估方法、样本量大小和评估人员对评估结果的影响等。

（3）目前可用性研究领域尚未形成一套最具权威性评估与测量方法及标准。不同“可用性”评估方法的适用场合、如何实施，以及与之相应的个案研究或典型实践很有可能成为未来的研究热点，而对权威性可用性评估方法、过程的提炼，对评估人员的专业培训等也极有可能成为未来研究的主要趋势之一。

[1] Garfield E. Historiographic Mapping of Know ledge Domains Literature[J]. Journal of Information Science, 2004,30(2):119-145.

[2] Gould JD, Lew is C. Designing for Usability: Key Principles and What Designers Think[J]. Communications of the Acm, 1985,28(3):300-311.

[3] Virzi RA. Re f ning the Test Phase of Usability Evaluation -How Many Subjects Is Enough[J]. Human Factors, 1992,34(4):457-468.

[4] Kirakowski J, Corbett M. Sumi-the Software Usability Measurement Inventory[J]. British Journal of Educational Technology, 1993,24(3):210-212.

[5] Lew is JR. Sample Sizes for Usability Studies-Additional Considerations[J]. Human Factors, 1994,36(2): 368-378.

[6] Lew is JR. IBM Computer Usability Satisfaction Questionnaires-Psychometric Evaluation and Instructions for Use[J]. International Journal of Human-Computer Interaction, 1995,7(1):57-78.

[7] John BE, Marks SJ. Tracking the Effectiveness of Usability Evaluation Methods[J]. Behaviour & Information Technology, 1997,16(4/5):188-202.

[8] Lavery D, Cockton G. Comparison of Evaluation Methods Using Structured Usability Problem Reports [J]. Behaviour & Information Technology, 1997, 16(4/5): 246-266.

[9] Lin HX,Choong YY.A Proposed Index of Usability: A Method for Comparing the Relative Usability of Different Software Systems[J]. Behaviour & Information Technology,1997,16(4/5):267-278.

[10] Gray WD, Salzman MC. Damaged M erchandise? A Review of Experiments That Compare Usability Evaluation Methods[J]. Human-Computer Interaction, 1998,13(3): 203-261.

[11] Hartson HR, Andre RS. Criteria for Evaluating Usability Evaluation Methods [J]. International Journal of Human-Computer Interaction, 2001,13(4):373-410.

[12] Hertzum M, Jacobsen NE. The Evaluator Effect: A Chilling Fact About Usability Evaluation Methods[J]. International Journal of Human-Computer Interaction. 2001,13(4):421-443.

[13] Hornbaek K. Current Practice in Measuring Usability: Challenges to Usability Studies and Research[J]. International Journal of Human-Computer Studies, 2006, 64(2):79-102.

Quantif cation of Usability Research Literatures and the Analysis of Citation Visualization

Du Hua
(AnYang Normal University Institute of Education Information Technology and Communication, Anyang 455000)

Firstly, this study untangles the temporal distribution, active region, research institution and publishing periodicals through quantitative analysis of past 31 years’ research literatures about usability. Then, the author makes historiographs using Histcite. Finally, the article analyses the major literature and development track of usability research, meanwhile, forecasts the development tendency in this area.

usability, quantitative analysis, visualization analysis, algorithm ic historiography, research hotspot, research trends, Histcite

G350

：ADOI：10.3772/j.issn.1674-1544.2013.04.014

研究文献引文编年图中，出现最早的节点7来自1985年（图2中的节点7，节点号与表4中

相对应）。该节点是由Gould和Lew is共同撰写的《为了可用性而设计：关键原则与设计师需要考虑的事情》。在文中，两位作者从理论和实证两个角度展开论述：在理论上，描述了生产有用且易用的计算机系统需要遵循的三条系统设计原则：提前并持续关注用户，基于实证的使用测量，迭代设计。在实证方面，作者用数据表明他们提出的设计原则并不总是依靠设计师的直觉，而是有证据支持的，并且提供了上述设计原则成功应用于实践的例子[2]。7号文献的LCS值为37，排在所有可用性研究文献的第三位。

杜华（1980- ），女，安阳师范学院讲师，研究方向：信息技术教育应用。

河南省教育厅人文社会科学2012年重点项目“中国大学视频公开课的可用性研究”（2012-ZD-003）；河南省教育厅科学技术研究重点项目“知识可视化技术支持的科普教育策略研究”（13A880020）。

2013年5月22日。