浅析盲人出版物中图像描述规范化的必要性

2024-04-27 15:22张倩
新阅读 2024年2期

张倩

摘要:随着社会的不断发展,各类出版物中的图像越来越多,对于视障人士而言,大量的图像会对阅听造成不便,因此要对图像进行文本描述。对盲人出版物中的图像进行文本描述是一项重要而烦琐的工作,当前这项工作缺乏统一的规范和标准,在一定程度上影响了盲人出版物的高质量发展。本文介绍了国内和国外对图像描述的研究和实践情况,并从完善视障人士阅听体验、实现出版物标准化、确保信息无障碍三个角度分析了盲人出版物中图像描述规范化的必要性。

关键词:盲人出版物  视障阅读  图像描述

随着读者对出版物的视觉需求逐渐增加,传统和新兴出版物中都开始出现越来越多的各类图像。出版机构在使用海量图像为普通读者提供生动且便利的信息时,却忽略了图像是一种不会“说话”的内容,会对视力障碍人群的阅听造成极大的不便。替代文本和图像描述是图像视觉细节的文本描述,读屏软件可以借助它们识别图片,并通过文字—语音转换功能帮助视障人士了解图像的相关信息,使他们平等地获取包含丰富图像的数字文本。具体来讲,替代文本是指用文字替代图像,对图像的内容及其所要传递的信息进行解释,以确保读者可以无障碍地使用图片,替代文本一般限制在100—250个字符,被附在图像元数据中或被添加在替代文本框中,通常只能被读屏软件读取。图像描述与替代文本类似,长度可以与替代文本相同或比替代文本更长,能够被读屏软件和所有读者读取,当替代文本无法用有限的字数完整地表达图像的内容时,图像描述可以为读者提供更加深入的图像细节。

考虑到图像描述的广泛适用性和实用性,本文将以图像描述作为主要研究对象。笔者在从事盲人有声读物脚本编辑工作的过程中发现,盲人读物中的图像呈现出数量大、类别广、风格多、信息含量高的特点,许多图像对于视障人士的学习和工作具有重要的意义,但很少能看到有作者、编辑、播音员等对这些图像进行清晰、完整、准确的描述。针对盲人读物的图像描述一直缺乏相应的规范和标准这一问题,这不仅给相关工作人员带来了一定的困扰,也制约着盲人出版物质量的提升,对实现信息无障碍的目标造成了阻碍。

我国盲人出版物图像描述的研究与实践现状

目前,中国盲文出版社作为中国唯一一家制作盲人文化产品的公益性出版机构,为视障人士出版大字版图书、盲文版图书、有声读物,以及无障碍电影。据笔者了解,现有的盲文版图书和有声读物中的图像通常视其重要程度,或省略不读,或加以简略描述,具体描述方法由描述者自行决定,缺乏统一的图像描述规范或标准供脚本撰写者参考。对于文学作品等图像仅起辅助功能的图书来说,图像简化处理对视障读者的理解影响有限,但对于以图片为主要信息载体,或者图文并重的图书来说,如果缺乏客观且精准的图像描述,会严重降低读物的内容质量,影响读者的阅听体验。比如,医学教辅图书中的人体结构等图片如果无法转换为客观、准确、细致的文字描述,会使从事按摩等医疗行业的视障人士产生理解障碍,甚至造成误解;如果将错误的医学知识应用于实践当中,后果更是不堪设想。图像描述虽然在盲人出版物中扮演着重要的角色,但相关研究数量不足。

在技术层面,图像描述是计算机视觉领域研究的一个主流方向。研究主要集中在用基于神经网络的深度学习等人工智能技术建立图像描述生成模型,实现图像描述自动化。浙江大学等高校在面向盲人的图片自动描述系统的研究及网页图片无障碍替代文本的算法设计、评估等方面取得了一些学术成果。2017年,腾讯公司的AI Lab依靠自主研发的强化学习算法在微软团队的MS COCO数据集相关的图像描述生成(使用自然语言处理和计算机视觉生成图像的文本描述)任务上超越了多家顶尖公司,跃居第一。2018年,该公司推出了为视障用户设计的QQ空间“图片语音即时描述功能”,即自动识别图片内容并“说出”文字描述。2023年,华中科技大学发布多模态大模型“Monkey”,这是一类可以同时处理和整合多种感知数据(如文本、图像、音频等)的AI架构,它能够对世界进行“观察”,尤其是对图片进行精确描述,具备极为优秀的“看图说话”能力。

建立图像描述规范不仅是我国盲人读物出版工作的迫切需求,也是完善图像描述自动化处理的重要基础,值得我们进行更多思考和探索。

国外图像描述的研究和实践现状

在国外,图像描述是一个在无障碍研究领域备受关注的主题,一些高校、研究机构、图像描述专业公司都对图像描述的规范和标准进行了研究。本文主要介绍关于图像分类、图像描述基本方法、图像描述元数据、图像描述的人工智能技术的研究,并对出版机构在图像描述实践中所采取的方法进行总结。

图像描述前的一个重要工作步骤是图像分类,不同的机构对图像采取了不同的分类方式。有些机构将图像分为柱状图、饼状图、折线图、文氏图、流程图、散点图、照片;有些机构则将图像分为绘画、图片和卡通类、化学类、图解类、关系图类、图表类、地图类、数学图类、文本类、表格类、時间线类,并在以上大类中区分更加细致的类别,如图解类图像可分为比较物体的简单图像、比较物体的复杂图像、比较不同时间发生的事件的图像。国外有机构通过先分类再描述的图像描述自动化生成过程实现了图像分类和图像描述接近一半的准确率,并计划在未来建立图像的全分类系统,并使用该分类系统创建数据集,对分类功能进行训练。

关于图像描述的基本方法,以长期关注教育教学材料中的视觉化趋势的美国佐治亚理工学院融合设计和创新中心为例,该机构总结的方法包括:以信息量大的一个概括性句子为首句;描述应先总体后具体,从总体框架开始,根据需要填充细节;使用正确的语法、拼写和标点符号;避免使用符号、缩写词和硬换行符;考虑以多种方式提供信息等。该机构指出,对图像描述文字进行编辑是一个至关重要的环节,编辑人员应当做到如下事项:使描述清晰易懂;组织信息以可预测的方式,先描述相似之处,再描述差异;使描述中立,如描述动作和表情,而不是其背后的想法和感受,删除与上下文无关的性别、年龄、种族或民族信息;减少冗余,删除不必要的短语,如“……的照片”和“图中显示”,避免重复标题或周围的文字;描述符号的含义及其作用,而非符号的形态。

图像描述的元数据也是相关从业者关注的一个领域。发布于2016年的图表语法是一种用于定义图像描述元数据的数据模型,能够储存关于不同图像的信息。它为需要建模的图像描述数据提供了结构化的标准方式,包括每个图像的多种类型的描述、教师注释、触觉图形文件提示。

图像描述的人工智能技术在国外经历了曲折的发展过程,基本实现了商用的目的。目前市面上有微软计算机视觉、谷歌云视觉API、IBM Watson视觉识别等多种图像描述自动生成工具。某国外互联网企业向盲人和视障用户推出了图片内容自动描述功能,当软件接收到图片并识别出其中的对象后,就会利用语音辅助功能告诉目标用户图中的内容。还有科技公司利用人工智能算法为应用程序Word和PowerPoint里的图片和幻灯片自动添加文字描述,并将文字转换为盲人可以听到的语音。美国科技企业还发布了具有“图像问题和答案”功能的应用程序,能为无标题图像提供上下文,可以处理图像并提供其描述,看图者还可以提出问题,更加详细地了解图像中的内容。此外,有些非营利机构开发了图像描述训练工具,例如开源项目POET,介绍了教育类图书中常见的各类图像在何种情况下需要描述及如何描述。用户可以获取最佳实践指南和实操练习,训练呈现关键的视觉内容的能力。

出版机构在图像描述实践中采用了相似的工作方法。一类机构让作者先行创作图像描述,再将图像描述作为电子书制作过程的一部分外包给具备某个领域专业知识的图像描述专家;另一类机构在图书制作周期的尾声阶段将图像描述工作外包给图像描述专家,要求内部编辑人员接受大量培训,并负责审查所有的第三方图像描述,编辑助理只负责撰写非STEM(科学、技术、工程、数学)图书修订本等少数图书中的图像描述,STEM图书或复杂材料的图像描述工作交由专家完成,不要求作者撰写图像描述;还有些独立出版公司把图像描述工作外包给供应商,部分供应商有内部团队,其他供应商则聘请不同专业领域的自由职业者。

我国盲人出版物图像描述规范化的必要性

第一,图像描述规范化是优化视障人士阅听体验的重要基础。图像作为出版物内容的基本组成部分,承载着各种显性的信息和隐性的含义,一般来说对文字内容起着重要的补充作用,需要也应当被渴望平等获取信息的视障读者“看到”,而图像描述就是视障读者用于看图的“双眼”。图像描述规范化可以帮助视障人士更加便利地了解出版物中的内容细节,从而完整地理解出版物中的所有信息,更好地享受视觉形象丰富的文化产品。相关出版机构应当借此机会进一步拓展盲人出版物的种类,提升盲人出版物的质量,用文字帮助视障人士理解视觉形象,完善他们的阅听体验,让视障人士共享社会发展的物质文明和精神文明成果,推动盲人文化事业高质量发展。

第二,图像描述规范化是出版物标准化的重要组成部分。图像描述在本质上是一种内容创作,是对视障人士等无法正常查看和认知图像的读者的补偿。西方发达国家在图像描述规范的领域已经做出了许多有益尝试,且还在不断推进该领域的工作,而我国对图像描述规范尚缺乏深刻的认识和细致的研究。图像描述规范化将成为出版物标准化的重要组成部分,助力提高我国出版物的整体质量,提升出版行业的发展水平。此外,目前图像文本描述任务中的大多数进展都基于英文数据集,缺乏中文数据集和中文语法的复杂性,造成了图像中文描述不准确、不连贯等问题,使中文读者难以获取精准有效的图像描述,开展图像描述规范化工作将有利于我国在未来参与制定图像描述相关的国际标准。

第三,图像描述规范化是实现信息无障碍的必经之路。2000年7月,在日本举行的G8会议上,《实现全球信息化社会的冲绳宪章》中首次提出了信息无障碍的理念“逾越数字鸿沟”。根据中国互联网协会的定义,信息无障碍是指任何人在任何情况下都能平等、方便、无障碍地获取、利用信息,主要包括电子和信息技术无障碍及网络无障碍两个范畴。随着时代的变化,我国的盲人出版物也在加快数字化建设,中国盲人数字图书馆网站、手机软件推出了各类电子图书、有声图书、视频资源等,为视障人士提供了便捷且多样化的信息和知识。国际标准Web内容无障碍指南2.0(WCAG 2.0)中的“可感知性”设计原则要求“为非文本内容提供替代文本,使其可以转化为人们需要的其他形式,如大字体印刷、盲文、语音、符号或更简单的语言”,但如何将各类数字出版物中的图像以一种规范的无障碍格式呈现给视障人士,是实现信息无障碍的道路上一道必须解开的难题,也必将加速信息无障碍的实现,增进全民福祉。

结语

图像描述规范化是一个跨学科的研究课题,对于提升盲人出版物质量和实现信息无障碍有着举足轻重的意义,相关盲人服务机构、出版机构、无障碍研究机构及各学科专家可以通力合作,充分调研国内外图像描述的相关情况和盲人的实际需求,借鉴国外的宝贵经验,探索出一套包含圖像描述内容、方法等的科学、实用、全面的规范体系,早日实现知识有温度、信息无障碍。

作者单位:中国盲文出版社

参考文献

[1]国家新闻出版署.世界标准日提升标准化水平 助力出版高质量发展[EB/OL].(2020-10-13)[2024-01-08].https://www.nppa.gov.cn/xxfb/tpxw/202010/t20201013_2841.html.

[2]李瑞彤.基于BERT和注意力机制的图像中文描述方法研究[D].哈尔滨:哈尔滨理工大学, 2021.

[3]中国互联网协会.全球无障碍宣传日|信息无障碍建设概览[EB/OL].(2020-05-21)[2024-01-08]. https://www.isc.org.cn/article/37539.html.

[4]人民网.信息无障碍[EB/OL].(2013-05-20)[2024-01-08]. http://wza.people.com.cn/wza2013/info.php.