从文本情感分析到人脸图像识别,深度学习模型已经成为许多任务采用的最新技术。然而,理解为什么某些模型比其他模型表现得更好,或者一种模型的学习如何不同于另一种模型通常很难做到,但是这对于提高模型的有效性、预测准确性和实现公平性又至关重要。比较模型功效的传统方法,如准确性、精确性和召回率,可以定量地展示这些模型的性能,但是一种模型为什么比另一种模型表现得更好的定性复杂性依旧是隐藏看不到的。
Sugeerth Murugesan等人2019年5月在《IEEE Computer Graphics and Applications》发表文章,研究采访了机器学习从业者,通过了解他们的评估和比较工作流程,从中迭代设计了一种视觉分析方法——“深度比较”,系统地比较深度学习模型的结果,以洞察模型行为,并交互地评估2个模型之间的优缺点。该工具允许用户评估模型结果,识别并比较错误分类的激活模式,将测试结果链接回特定的神经元。作者通过对2个实际案例研究进行初步评估,表明了专家可以依据此结果,对不同类型模型的有效性做出更有根据的判断,更详细地了解模型的优缺点,并全面评估模型的行为。