陈崇贤 李海薇 侯咏淇 刘京一*
已有大量研究表明景观对身心健康有直接或间接的影响。景观能通过促进人的体力活动以提高身体健康水平;也能对人的心理健康产生直接作用,包括减缓压力、提升积极情绪与促进注意力恢复等;还有助于减少空气污染、降低噪声水平与极端气温,从而减弱环境风险对人体健康的威胁。因此,探究景观与健康之间的关系对建设健康宜居城市有重要意义。
人工智能领域中计算机视觉技术的迅猛发展为景观与人类之间关系的研究提供了新的认知视角与技术支撑。近年来,城市规划和风景园林领域涌现出大量基于图像的大规模城市环境测度的研究,也有从不同视角展开的综述研究。例如,Weichenthal等[1]综述了深度学习技术在环境暴露对健康的综合影响评估中应用的前景、挑战和数据源;Rzotkiewicz等[2]和Kang等[3]则回顾了街景图像在健康研究中的应用;最近,也有学者针对计算机视觉技术任务和算法及它们在城市分析中的应用展开了综述[4-5]。尽管计算机视觉技术在城市研究中已有大量应用和讨论,但对于它在景观与健康关系研究中的应用仍然缺乏整体认识。随着该研究领域的不断深入与拓展,非常有必要进一步对已有研究进行系统性梳理与总结。
综上,本研究通过系统梳理计算机视觉技术在景观与健康关系研究领域的应用现状及主要应用方向,分析它存在的缺陷和不足,提出未来研究展望,以期为计算机视觉技术在景观与健康关系研究中的应用提供参考。
研究文献来源于中国知网(China National Knowledge Infrastructure, CNKI)数据库与Web of Science(WOS)核心合集数据库,时间跨度为2000—2021年,检索时间为2021年8月。对“计算机视觉”“建成环境”“风景园林”“健康”等相关概念进行剖析,最终以“机器学习”“语义分割”“风景园林”“城市设计”“景观”“康复”“心理健康”“computer vision”“deep learning”“landscape architecture”“built environment”“public health”等为关键词进行检索,文献类型为期刊和会议论文。剔除与主题概念不符、重要性较低的文献,筛选得到20篇中文文献、90篇英文文献。最终,对上述110篇文献进行精读,归纳总结其研究内容、研究方法,并综述当前研究成果的进展。
计算机视觉是指基于图像建立起对物体的整体认知理解,以让机器能像人一样对物体进行视觉信息解译的科学,目标是实现人类视觉系统的任务自动化。经过几十年的发展,它目前已成为一门融合了计算机科学、应用数学、统计学、认知科学等的综合性学科,是当前人工智能领域的研究热点之一。近年来,大数据和新技术的涌现推动着计算机视觉技术在不同领域广泛应用。例如,百度、腾讯和谷歌等平台为研究者提供了大量的图像数据,这些平台已成为探索城市环境与人类关系的新数据来源;机器学习与深度学习技术在医疗影像处理、自动驾驶、人脸识别等领域展现了强大的特征学习与特征表达能力;简易的算法应用平台如TensorFlow、PyTorch、OpenCV等也推动了计算机视觉技术在城市环境研究领域的快速应用。目前,常用的计算机视觉技术任务有图像特征提取、图像分类、目标检测、语义分割、目标追踪、行为识别及图像生成七大类别(图1,表1)。总体而言,计算机视觉技术因为能够简化视觉工作流程、快速执行任务并提升结果的准确性而被广泛应用于各个领域,但同时也受到数据集和算法的限制,在复杂目标处理及稳定性等方面还存在不足。
图1 计算机视觉技术任务输出结果示例Examples of output results of computer vision technology tasks
表1 常用的计算机视觉技术任务类别Tab.1 Types of frequently-used computer vision technology tasks
环境心理学领域已有大量研究证明接触自然能产生心理健康效益[32]。景观是人们感知的对象,其信息主要来源于人类的视觉感受,因此,早期有学者从景观的视觉特征角度探究它对人的心理影响。21世纪初计算机技术的发展推动了景观视觉特征的评估从传统的主观问卷形式向客观景观要素定量分析的转变。尤其是图像特征提取、图像分类、目标检测及语义分割等技术的出现,使得不同的景观视觉信息能够从海量多源图像中被自动化解读和获取,推动了景观对人心理影响的量化研究,尤其是基于景观视觉的心理健康效益和环境感知研究在尺度规模、数据来源与指标构建等方面的发展(表2)。
表2 计算机视觉技术在探究景观对心理维度健康影响的具体应用Tab.2 Application of computer vision technology in the exploration of landscape impact on mental health
2.1.1 心理健康效益评估
在心理健康效益评估方面,早期的研究多采用较为简单的计算机图像处理技术(如Photoshop软件),这尽管为基于图像数据的心理健康效益研究奠定了基础,但也存在耗时长且效率低下的局限[33]。随着语义分割技术和SegNet、PSPNet等算法的出现,采用大规模街景图像、卫星地图及遥感图像等数据开展研究成为可能。例如一些学者基于语义分割技术获取城市或街区范围街景图像中的绿视率、视觉可步行性[42]、自然集中度[34]等指标,并探究对幸福指数[17]、抑郁、焦虑、自杀率[35-36,43]等的影响。也有学者从卫星地图或遥感图像数据中获取蓝绿空间占比、归一化植被指数等指标,从更大尺度探究景观与居民不同情绪之间的关系[34,44]。相比传统实地调查,此类图像数据通常获取便利、可操作性高,便于开展大规模研究,但受到识别分析能力的限制,形成的景观要素指标类型通常较为固定,并且存在图像大数据与健康数据获取时间不一致、与真实环境及人的体验有差异等缺陷。
2.1.2 环境感知评估
人对环境的心理感知反映了人对环境的感受和看法,从而进一步对心理健康产生间接影响[45]。计算机视觉技术可以快速识别和获取图像中不同的景观要素,从而为进一步精准测度和量化影响感知的具体因素提供了便捷途径。已有大量学者基于街景照片和众包数据,利用语义分割与图像分类技术,模拟与预测城市景观对人们的风貌认知[41]、审美感知[39]及风险感知[40]的影响,并进一步分析景观要素如绿视率、建筑、道路及色彩等与感知的关联。同时,由于该种方法的便捷、高效及客观等特点,有研究人员专门构建了用于评估城市环境包括安全、美丽、沮丧、活泼、富有和无聊等感知的Place Pulse数据集[16,37-38],该数据集和算法精度已经过大量研究的重复验证并被广泛借鉴应用。例如,Zhang等[21]使用Place Pulse 2.0数据集来训练深度卷积网络,借助城市街景图像以预测人们在北京和上海的城市感知,并结合其他多源地理大数据和空间统计学分析方法,发掘城市内不显眼但有趣、受欢迎的地方[46]。但是,由于目前能公开获取的主要是百度、腾讯及谷歌等街景图像,因此已有研究主要以城市街道为对象(图2),对其他类型如公园、居住区户外环境等关注较少。
图2 腾讯街景地图中的城市街景图像Urban streetscape images in Tencent Street View
许多研究证明景观对人体生理健康有直接或间接的影响[47-48]。一方面,景观可能会对人体产生直接的生理健康威胁,另一方面,也可以通过影响人们的体力活动对生理健康产生间接的影响。除了获取环境图像数据中对人生理产生影响的景观要素,计算机视觉技术还能够基于行为识别和目标检测等方法判断图像中人的活动强度、活动类型及活动特征等,拓展了研究方法和思路(表3)。
表3 计算机视觉技术在探究景观对生理维度健康影响的具体应用Tab.3 Application of computer vision technology in the exploration of landscape impact on physical health
2.2.1 生理健康威胁
计算机视觉技术可以基于宏观与微观的图像数据,提取景观视觉要素信息如绿视率、天空可视率、围合度、建筑、道路面积占比等,从而有助于探究这些要素与慢性非传染性疾病(如肥胖[49]、癌症[15]、糖尿病[23]等)、传染性疾病(如COVID-19[52]等)、空气污染[1]、噪声[19]、热舒适性[53]及身体伤害(如物质滥用[55]、交通事故[18])、生理功能强弱[54]等之间的联系。例如,有学者对谷歌地图进行语义分割来提取景观要素数据,从宏观尺度探讨环境与肥胖率[49]及癌症患病率[15]的关系。此外,还有许多学者结合了街景和遥感图像,利用图像特征提取技术提取与气溶胶负载相关的图像颜色来评估环境的空气污染程度[50],或探究影响空气污染的街道环境因素等[51]。近年,随着数据来源的多元化发展,不少学者开始借助互联网[52]或便携式相机[19](图3)等获取图像以展开研究。例如,Zhang等[52]基于语义分割,通过爬取链家上的居住区照片并结合其他多源传感器获取武汉市650个确诊COVID-19病例社区的绿视率、天空可视率和其他环境指标,探讨了居住区环境特征与COVID-19病毒传播的关系。但是,已有研究中的景观视觉要素信息仍存在难以全面表征不同时空下环境特征的缺陷。
图3 使用便携式相机在公园和居住区户外环境等中收集图像Image collection by portable camera in parks, residential outdoor environments, etc.
2.2.2 体力活动
定期进行户外体力活动有助于降低各种慢性生理疾病的风险,从而提升生理健康水平。然而,如何量化评估环境中景观要素对体力活动的影响是研究的关键。目前,大多数研究主要基于计算机视觉技术提取图像数据中的景观视觉要素指标,探究它与体力活动的关系。例如,Wang等[56]利用FCN-8s算法和ADE20K标注数据库对腾讯街景图像进行语义分割,提取绿视率、车行道、人行道的面积占比等数据,探讨体力活动在绿色环境与心理健康关系中的调节作用。也有学者通过提取图像数据中围合度、视觉拥挤度、视觉可步行性等指标,探究与步行[57-58]和骑行概率[59]、时长及速率等之间的关系。但上述已有研究的客观环境数据都是静态的,评价体力活动的数据偏向主观,仅描述了某一时刻的环境特征及它与体力活动的关联,与真实的环境和人的活动情况存在一定差异。因此,随着行为识别和目标检测技术的应用,一些学者也开始关注景观与客观体力活动相关指标(包括活动强度、活动类型及活动时长等)的关系[56,60-61]。例如Carlson等[27]基于行为生态影像识别模型,结合摄像机定点拍摄视频,分析不同户外环境与人的活动动作特征和强度之间的关系。
城市公共空间是居民进行社交活动的重要场所,也是居民健康与福祉的重要保障。探究社交活动与景观特征的关系有助于促进高质量公共空间的营造。反映社交活动的数据,如活动轨迹和行为,往往具有动态变化的特征。近年来,目标追踪、行为识别和目标检测等技术的发展以及图像和视频大数据方法的引入,弥补了过去研究主要采用人工定点记录耗时、费力的缺陷,实现了这一过程的自动化(表4)。
表4 计算机视觉技术在探究景观对社交维度健康影响的具体应用Tab.4 Application of computer vision technology in the exploration of landscape impact on social health
2.3.1 人群行为
在人群行为与环境的关系方面,已有研究主要通过相机、摄像机、传感器及网络数据等采集景观空间中的人群行为轨迹[10]、空间分布[63]、人流量[62]及街道活力[64]等数据,并进一步结合计算机视觉技术分析人群行为的时空规律及其影响因素。例如,胡一可等[10]利用相机、摄像机等获取研究地点的视频数据,并通过计算机视觉的目标追踪和行为识别技术获取人群行为轨迹,从而还原并分析人群在不同城市景观空间的行为模式特征[10]。除了探讨环境因素对人群行为的影响之外,还有学者更进一步借助不同计算机视觉算法探究在微观尺度的街道环境[62]、宏观尺度的城市环境[63]中影响人群行为活动的景观特征(如空间形状、边界及色彩等),并进一步预测人群的空间分布规律。以上研究中的视觉数据主要利用相机、摄像机等对场地进行定点收集获取,弥补了街景图像、遥感图像等静态、时间滞后性的缺陷,但数据获取的时间、设备及人力成本相对更高。
2.3.2 其他社交因素
人群行为是社交的客观反映,也有研究从社交的主观反映视角探讨如社会凝聚力[56]、社区组织活力[65]及社交网络[55]等其他社交因素与景观的关系。相关研究主要借助了语义分割技术对街景图像的环境要素进行提取,结合相关社交因素的问卷调查,以探讨环境要素与社交因素的关系。例如,Wang等[65]基于语义分割技术探究绿视率及归一化植被指数等街道环境特征与社区组织活力的关系。Mennis等[55]针对青少年群体,探究了居住区绿色环境与他们社交网络的关系。总体而言,目前在探究其他社交因素方面采用的计算机视觉技术及图像数据来源均较为单一。
本研究系统梳理了计算机视觉技术在景观与健康关系研究中的应用。基于综合分析,已有研究主要具有三大特点。
1)在应用技术方面,语义分割和图像分类技术已较为成熟且便于操作,在景观与健康关系研究中的应用最为广泛。目前,语义分割技术主要用于绿视率、天空可视率、围合度、建筑和道路等景观要素面积占比的提取,图像分类技术则主要用于基于环境感知的街景图像分类。
2)在应用领域方面,已有研究主要基于计算机视觉技术探究景观视觉要素与人的生理、心理及社交活动等方面的关系。在生理健康方面,已有研究主要探究慢性非传染性疾病、传染性疾病、空气污染、体力活动等与景观要素之间的关系;在心理健康方面,已有研究主要探究幸福指数、抑郁、焦虑及环境感知等与景观要素的关系;在社交活动方面,已有研究主要采用目标追踪和目标检测技术重点关注人群行为的时空规律与景观要素的关联。
3)在算法及数据方面,尽管已有大部分研究都具有数据获取快速便利、可操作性高、成本低等优点,但在算法精准度和时序数据构建方面仍存在缺陷。在算法上,虽然计算机视觉技术在简单图像的处理上可能优于人类,但对于复杂环境识别(如受光线与尺度影响时)的精度及稳定性仍有待优化。同时,由于目前大部分研究使用的算法单一,导致所提取的景观视觉指标也相对受限。在数据集上,许多研究收集的数据仅描述了某一时刻的环境或健康信息,且两者在时序上往往不匹配,与动态的真实环境和人的健康状况存在差异。此外,已有研究采用数据主要为腾讯、百度或谷歌等街景图像,具有与人行视角有差别、街道环境无法代表城市整体环境特征等的缺陷。
综上,本研究从3个方面提出未来的研究方向。
1)在技术上,为探究真实环境中人和环境之间的复杂关系捕捉更多实时动态信息,有必要优化和应用动态目标追踪及目标检测等算法,弥补现有研究以分析静态数据为主的缺陷。同时,现有采用计算机视觉技术探究景观与健康关系的研究主要侧重分析、评估和预测,而在设计过程和后评估方面的应用研究还有待拓展。例如,未来可以在设计过程中,利用GANs技术设计有利于人类健康的景观方案,而在设计后评估方面,利用多智能体强化学习技术(multi-agent reinforcement learning, MARL)使多智能体与环境、人体进行交互,学习并改善自己的策略,从而实现策略的动态调整。在应用的过程中,通过回溯算法,探究每一步涉及的数据输入、输出、模型精度等情况,从而加深理解并有助于优化算法。
2)在研究内容上,促进社会科学与计算机视觉的交叉融合,拓展景观与社会健康关系的研究。从已有研究来看,景观与社交活动之间的关系有必要进一步探讨。例如,基于社会感知计算相关理论,可以借助视觉、运动和音频等各类传感器,实时感知、识别景观中社会个体的行为、群体的交互特征,进而理解景观与社交之间的关系,为营造良好的社交环境、促进社会健康提供基础。
3)在数据集方面,需要加强构建能够全面表征特定景观时空特征的数据。由于人与环境之间的健康作用关系存在复杂的动态变化过程。因此,一方面,可以通过收集包含不同时空观测点的景观图像数据,如公园和居住区户外环境等,弥补现有研究主要基于某一时刻街景数据的缺陷;另一方面,尤其针对体力活动或社交活动的研究,可以采用视频大数据以更加真实反映人在环境中的时空变化特点。
图表来源(Sources of Figures and Tables):
图2来自腾讯街景地图(获取时间为2020年6月15日),其余图表均由作者绘制。