金 涛
(中国石油大学(华东) 机电工程学院, 山东 青岛 266580)
基于层次分析法和灰色关联分析的产品界面视觉评价模型构建方法
金 涛
(中国石油大学(华东) 机电工程学院, 山东 青岛 266580)
产品界面视觉化属于认知心理学, 由于受评价者个人或其他不确定因素的影响, 通过主观评测方法得到的数据缺少可靠性. 根据“客体理解层-特征感知层-度量层”的层次化建模思路, 利用改进德尔菲法构建产品界面视觉评价指标体系, 运用层次分析法和灰色关联分析确定指标的权重, 对指标及其权重进行可靠性检验, 并构建可靠度系数以减少主观因素对评价结果的影响, 最终构建起用于减少主观性影响的产品界面视觉绩效综合评价模型. 利用该模型可实现对产品界面高效评价, 并为产品界面评价质量提供了基础保证.
产品界面; 视觉元素; 层次分析法; 可靠性检验; 评价模型
产品界面视觉元素以真实情境为隐喻来表征信息. 把视觉元素解构成特征并进行有效编码, 采用自然、直观、明确的视觉编码, 可节省认知时间, 提高反应速度, 降低错误率[1].
产品界面视觉综合评价是一个包括多种组合因素的复杂过程, 评价结果受评价者主、客观多种要素的综合影响[2]. 在评价过程中, 由于评判专家的专业知识、工作经验和认知水平等的不同, 对相同评价目标往往会得到不同的评价结果, 难以作出十分一致的评价[3], 所以对各位专家的主观性评价, 特别是评判者做出的评价结果之间有很大差距时, 适当修正权重大小是很有必要的. 为克服利用单一指标对事物进行评测而导致“评价结果信度和效度低下”的现状, 一般要处理和整合反映事物的多项指标的信息, 形成一个多层次、综合性、能有效解释问题的综合指标[4]. 本文旨在建立可减少主观因素的产品界面视觉元素的多层次评价模型(visual multi-level evaluation model, 简称VMEM).
改进传统德尔菲法, 基于系统性、科学性和全面性原则构建初级评价指标体系. 首先第1轮专家征求意见改为调查负责人团队和少数权威专家进行主题商讨[5], 输出征求意见表, 再进行专家组成员的问题咨询. 通常传统德尔菲法为3~4轮, 优化后的德尔菲法为2~3轮. 基于优化德尔菲法构建VMEM评价指标体系的主要流程如图1所示.
图1 VMEM评价指标体系的建立流程Fig.1 The establishment process of VMEM evaluation index system
1.1 初步筛选指标
基于国内外视觉认知理论、可用性理论及ISO 9126、ISO 9241和ISO 13407定义的可用性维度文献, 初步建立由整体风格、图形、图标、统一性等56个指标组成的产品界面视觉元素的评价指标体系.
1.2 第1轮专家咨询
以初步评价指标体系作为咨询表进行第1轮专家评判, 专家组成员根据经验采用五阶李克特度量法评价各指标对界面视觉绩效的重要级别, 1~5分别表示重要级别为“不大”“一般”“大”“很大”和“极大”[6]. 利用以下指标对第1轮专家咨询结果进行统计分析, 部分结果如表1所示.
(1) 集中度Mi计算式为
(1)
式为:Ej为度量值;mij为给第i个评价指标打分为j的专家人数;n为指标数量;d为专家总人数.
(2) 离散度Ri计算式为
(2)
Ri表示第i个评价指标评分的分散程度, 其数值小意味专家组成员的意见较为一致.
(3) 协调度, 包括变异系数Vi与协调系数W两个参考指标, 计算式为
(3)
(4)
式中:si为第i个指标评分和与全部指标评分之和的平均值之差;Tk为修正系数,Tk∈[0.95, 1.05].Vi表示第i个指标评分的协调度, 其数值愈小说明专家意见愈一致;W表示专家组成员对整个评测指标体系评测结果的协调度, 其数值愈大说明专家意见愈一致.
表1 第1轮指标重要级别的专家打分的部分统计分析结果
1.3 第2轮专家咨询
基于第1轮专家咨询结果, 各专家重新评价各指标的重要级别, 并判断在确定各指标重要程度时的信心指数(self-confidence index, SI), 1~5分别表示为“很低”“低”“一般”“高”“很高”, 当信心指数的均值不小于3时, 专家组评价结果才有意义. 第2轮专家指标打分的部分统计分析结果如表2所示.
表2 第2轮指标重要级别的专家打分的部分统计分析结果
1.4 初级指标的筛选及可靠度验证
根据重要程度一致性和信心指数对指标进行筛选, 去除不符合条件的指标, 合并含义重复的指标, 由56个指标筛选出44个对界面视觉元素影响较大的评价指标.
根据稳定性的定义[7], 两轮专家组评价结果的均值之差D不大于1/3视为稳定[5]. 第2轮中几乎所有评价指标的离散度Ri和变异系数Vi小于第1轮, 说明第2轮专家评价结果的分散程度较小, 协调程度较高. 第2轮的信心指数均大于3, 意味专家对评价结果比较有信心. 两轮咨询结果的协调系数均有意义(p<0.01), 如表3所示.
表3 协调系数及其统计意义
1.5 VMEM指标体系的构建
这里提出“客体理解层-特征感知层-度量层”的分层建模思路, 定义双层指标体系结构和评价度量层. 专家采用分群试验把指标分为布局、菜单/导航结构、文字、颜色、图标/图形5大类理解对象作为一级指标, 第2层感知元素作为二级指标, 度量层采用五阶李克特度量法, 建立多层次评价指标体系, 如表4所示.
采用灰色关联分析(GCA)对指标进行可靠度检验, 通过对比各专家的指标评分序列与理想的参考序列的相似程度, 分析各专家评价标准的一致或差异程度. 当专家利用同一个评价指标体系评价同一个评价对象时, 若评价结果差异程度越大, 即一致性越小, 其可靠度越低, 说明评价指标体系无法有效地反映出评价对象的本质; 反之, 指标可靠度越高[8]. 以一级指标示例说明.
表4 VMEM部分指标体系
2.1 可靠度验证方法
定义: 评判专家集E={E|i∈M,M=(1, 2, …,m)},m为专家人数; 评价指标集P={Pj|j∈N,N=(1, 2, …,n)},n为评价指标数量. 得到如式(5)所示的指标序列.
(5)
按照式(6)对原始数据进行标准化处理.
(6)
(7)
按照式(8)算出各评判者对各指标的评价序列与参考序列之间的关联系数, 数值大小反映出评判者的评价分值与理想参考分值之间的相关度, 即专家判断的可靠程度, 相关度愈大, 则离散度愈小, 专家的评价一致度愈高, 说明指标的可靠度就愈高.
(8)
εi表示各指标的可靠度(见式(9)), 则一级指标体系的总可靠度ε可定义为所有指标可靠度εi之和(见式(10)). 指标的可靠度愈高, 反映出基于该指标进行评价时的专家认识一致程度愈高; 指标体系的可靠度愈高, 说明指标体系就愈能有效地反映出评价目标的本质[8].
(9)
(10)
2.2 一级指标权重建立过程
(11)
(2) 确定初始权重. 两两比较分析矩阵A可表示为特征根Ak及相对应的特征向量λk, 根据矩阵最大特征根所对应的特征向量求出指标权重, 如式(12)所示.
AkPk=λkPk
(12)
首先得出矩阵Ak的最大特征根相对应的特征向量Pkm, 标准化后最大特征根的特征向量为第k位评判者给各个指标的权重向量, 如式(13)所示. 此权重向量值是根据评判者的主观打分计算出来的, 所以对矩阵Ak进行可靠度的检验, 若达不到可靠度要求, 说明权重向量无效, 就必须重新建立两两比较分析矩阵一直到达到可靠度要求.
(13)
(14)
2.3 Friedman可靠性检验
为确保数据分析结果的一致性和有效性, 必须对评判分析矩阵进行可靠性检验. 通过Friedman检验方法来分析各个专家的评价标准是否一致. 若通过Friedman方法分析出各一级评价指标的秩无显著差异, 则表明专家的打分随意, 评价的标准不一致; 假如各个专家的评分标准是统一的, 则对某个评价指标而言会得到相同的分数, 这样就必然会导致各评价指标得分的秩存在很大差异[9].
2.3.1 可靠性系数的创建
(1) 标准化处理. 为降低随机因素的影响和解决数据量纲不同而带来的可比性问题, 通过均值化方法对评价矩阵进行标准化处理, 如式(15)所示.
(15)
(16)
(17)
(3) 得到灰色关联度. 依据层次分析法(analytic hierarchy process, AHP)理论, 每位专家对各个指标的重要性经验判断值与参考值之间的灰色关联系数[8]如式(18)所示, 建立的关联系数矩阵如式(19)所示.
(18)
(19)
为更易于对比分析评价结果, 运用灰色关联度来表征评分序列与如式(20)所示的参考序列间的关联程度, 关联程度越大说明专家判断结果越接近参考均值, 判断结果的离散程度也就越小[8].
(20)
(4) 确定可靠性系数. 定义1: 评判者所给评价结果的关联程度是评判者的可靠度, 可靠度反映出评判者在评价整个过程中产生作用的程度. 定义2: 可靠性系数是对评判者评价结果有效程度大小的定量描述, 定义为δ.
运用关联度来反映评判者所给评价结果的可靠程度, 构造评判者所给评价结果的可靠性系数, 则第k位评判专家的可靠性系数可以表示为
(21)
可靠性系数的大小反映出专家在评价过程中发
生作用的大小和评价结果的一致程度, 是人认知心理评价的定量描述. 由m位专家的可靠性系数矩阵如式(22)所示.
(22)
2.3.2 一级指标综合修正权重的建立
运用可靠性系数来修正AHP法算出的指标权重, 修正后的综合权重系数记为W=B×A, 各评价指标的综合权重向量表示成W=(W1,W2,…,Wn).
评判者做出不同的评价结果时, 可靠性系数修正的程度往往也是不同的, 这恰恰证明了可靠性系数是依靠评价结果自身来反映评判者的可靠度大小, 拥有很高的客观性[8].
采用相同方法建立二级指标体系及权重, 可构建如式(23)所示的VMEM.
(23)
式中:Sv为视觉元素的综合绩效;Xi为一级评价指标;xij为二级指标;Wi为一级指标的权重;wij为二级指标的权重.
评判者在使用VMEM进行评价时, 由于一级指标所含信息较多, 且含义过于笼统、抽象, 而二级指标的含义则比较明确, 易于评价, 但不同评判者由于内在认知不同, 其评价标准可能会不同, 从而影响评价结果的准确性和可靠性. 因此, 为了让评判者尽量采用统一的评价标准, 避免评判者对指标含义产生误解, 针对各二级指标提出相应的评价度量语(如表5所示), 为界面视觉元素的评价质量提供了基础保证.
表5 部分VMEM的度量语
本文根据“客体理解层-特征感知层-度量层”的层次化建模思路, 并综合运用改进德尔菲法、层次分析法、灰色关联分析法、Friedman检验、主观评价等方法, 对影响产品视觉评价模型结果的所有主观评价信息, 通过相应的技术手段减小甚至消除其影响, 实现对评价指标的筛选和权重确定, 最终构建了可减少主观性影响的产品界面视觉绩效综合评价模型.
[1] 傅亚强. 基于多维显示的监控作业中工作记忆与情境意识的关系研究[D]. 杭州: 浙江大学心理与行为科学系, 2010.
[2] 王海燕, 卞婷, 薛澄岐. 新一代战斗机显控界面布局设计研究[J]. 电子机械工程, 2011, 27(4): 57-61.
[3] 吴燕, 余荣军, 周晓林, 等. 火电厂主控室人机界面虚拟评价方法[J]. 心理学报, 2010, 42(3): 1-9.
[4] 杜元伟, 石方园, 杨娜. 基于证据理论/层次分析法的贝叶斯网络建模方法[J]. 计算机应用, 2015, 35(1): 140-146.
[5] 李银霞, 袁修干, 杨春信, 等. 歼击机座舱工效学综合评价指标体系的建立[J]. 航空学报, 2005, 26(2): 148-152.
[6] 郭赞, 郭定, 杨俊超, 等. 直升机座舱显示界面人机工效指标体系评估研究[J]. 电光与控制, 2011, 18(5): 67-71.
[7] OSBORNE J, COLLINS S. What “ideas-about-science” should be taught in school science? A Delphi study of the expert community [J]. Journal of Research in Science Teaching, 2003, 40(7): 692-720
[8] 夏春艳. 核电厂主控室人机界面评价方法研究[D]. 哈尔滨: 哈尔滨工程大学机电学院, 2010.
[9] 薛薇. 基于SPSS的数据分析[M]. 北京: 中国人民大学出版社, 2006.
Construction of Comprehensive Evaluation Model of Visual Performance of Product Interface and Its Reliability Test
JINTao
(School of Mechanic & Electrical Engineering, China University of Petroleum (East China), Qingdao 266580, China)
Product visual interface belongs to congnitive psychology, due to individuals or other uncertain factors, the data obtained by subjective evaluation method lacks reliability. According to the object layer-feature perception layer-Metric layer of hierarchical modeling ideas, modified Delphi method is used to construct the index system of visual performance of product interface, and analytic hierarchy process and grey correlation analysis are used to determine the index weight , and reliability test is done on index and index weight. Besides, reliability coefficient is constructed to reduce the influence of subjective factors on the evaluation results. Finally visual multi-level evaluation model is established. The model can be used to evaluate the product interface more effectively, and it provides the basic guarantee for the quality of product interface evaluation.
product interface; visual elements; analytic hierarchy process; reliability test; evaluation model
1671-0444 (2016)04-0576-06
2016-04-08
国家自然科学基金资助项目(51405514); 中央高校基本科研业务费专项资金资助项目(15CX02032A)
金 涛 (1980—),男,山东青岛人,讲师,博士,研究方向为界面可用性、产品设计、虚拟现实. E-mail:jzht126@163.com
TB 472; TB 18
A