蒋万里, 石俊生*, 季明江
1. 云南师范大学物理与电子信息学院, 云南 昆明 650504
2. 云南省光电信息技术重点实验室, 云南 昆明 650504
光谱反射率是物体表面的固有属性, 不仅全面地记录了物体的颜色信息, 而且是物体表面材质的表示方式; 可见与近红外波段在物体反射光谱重建、 多光谱成像和遥感目标地物分类识别等领域有广泛的应用。 不同波段有不同的应用, 人眼感知的可见波段主要与颜色应用相关, 决定着自然和人造物体在不同光源下的颜色, 除了人们日常生活中建筑、 环境、 照明、 服饰、 媒体等方面, 而且涉及光源设计、 各种显示设备同色异谱, 以及颜色恒常等科学技术领域; 相关场景中物体的光谱反射率是必须获得的信息[1]。 近红外波段超出了人眼感知的范围, 但其利用越来越受到关注。
随着科技的发展, 包含可见和近红外的多光谱得到广泛应用。 在遥感应用中, 由于各波段所提供的信息不同, 光谱波段被选择性地利用。 如区分不同植被种类, 探测植物叶绿素浓度植物活力, 监测作植物健康状况及农作物长势等。 在环境保护领域中, 通过获取植物的高光谱影像来调查植物光谱反射率, 可以测量水域生物量, 可以对地下天然气的泄露进行检测[2]。 在颜色图像领域, 可以用于近红外波段图像增强可见光图像[3]、 去雾[3-4]和真彩色复原[5]等一系列应用。
建立可见与近红外光谱反射率数据库对科学研究和技术应用都非常重要。 在遥感应用领域, 美国在20世纪60年代末到70年代初建立了包含植物、 土壤、 岩石矿物和水体等4大类地物的电磁波波谱特性的数据库—地球资源信息光谱数据库。 美国地质调查局(USGS)对各种岩石类型和部分植被类型进行了较系统的光谱测量, 建立了USGS光谱数据库[6]。 包含人造材料、 涂料、 液体、 矿物质、 有机化合物、 土壤、 混合物和植被共计2 467条光谱。 约翰霍普金斯大学(JHU)建立了包含岩石、 矿物、 地球土壤、 月球土壤、 人工材料、 陨石、 植被、 水体、 雪和冰、 以及人工目标的光谱数据库。 美国喷气推进实验室(JPL)建立了160种矿物岩石在125~500, 45~152 μm和<45 μm三种波段ASTER光谱库。 该光谱库在2009年加入了来自JHU、 USGS等数据库的光谱, 共计2300多条[6]。 我国数据库的建立与研究起步较晚, 直到20世纪90年代初, 我国才建立了第一个综合性“地物波谱特性数据库”。 1998年, 国土资源部航遥中心建立了主要针对岩石矿物的地物光谱数据库(GOSDBS)[7]。 2003年—2004年期间建立了中国岩矿标准波谱库[6]。 2006年, 彭妮娜等通过测量植被、 土壤、 岩石、 水体、 人工目标和大气信息6类物体的波谱特性, 建立了大气及典型地物光学特性数据库[7]。 2013年—2014年期间通过测量建立了太湖、 巢湖、 滇池等中国典型内陆水体不同季节的光学量数据库[6]。
在颜色应用领域, 2006年Kohonen等人从光谱颜色科学的角度简要介绍了一些应用于颜色分析和表示的多种光谱数据库[8], 如: 由1 600条以1 nm为间隔、 380~780 nm波段的Munsell色卡光谱反射率数据库; 1 750条以10 nm为间隔, 400~700 nm波段的瑞典自然色系统(natural color system, NCS)数据库; 由花、 叶和各种彩色植物共计218条以5 nm为间隔、 400~700 nm波段的光谱反射率组成的自然色卡数据库等。
主成分分析(PCA)在光谱领域有广泛的应用, 如数据降维、 光谱特征提取及光谱重建等。 在颜色领域应用方面, 2014年Chen等提出了在PCA的基础上使用深度学习对高光谱图像进行分类[9]。 2016年Xiao等利用相机对人类皮肤进行光谱反射率重建[10]。 2017年Hajipour和Shams-Nateri把Munsell 色卡作为训练样本[1], Macbeth色卡作为测试样本, 使用竞争神经网络先进行分类, 再用PCA进行光谱反射率重建。 同年, Liu等以LOPEX93和ANGERS数据库为基础[11], 利用PCA重建植物叶片的光谱反射率并且检索叶片的生化成分。 2018年Otsu等基于聚类算法和PCA利用给定的光谱三刺激值进行光谱反射率重建[12]。 2019年Dadon等提出了一种新颖的基于PCA的分类方法[13], 对随机选择植物样本进行分类。 同年, Lewis D Griffin对基于PCA重建的光谱和其颜色真实性进行了评估。
近年来, 低照度彩色成像受到关注。 物体的光谱反射率是彩色成像的基础。 如果知道图像中物体的光谱反射率, 就可以计算图像在任意光源下的颜色。 为此针对每一类物体都需要一个数据库用以光谱重建。 如何将光谱反射率应用到解决低照度条件下真彩色复原一直都是国内外研究的热点。 单纯利用可见光获取低照度条件下的图像会发现因为光谱相对功率分布过低而无法分辨颜色, 加上近红外获取的图片虽然细节会提高很多, 但是图像整体会偏粉。 因此建议使用包含近红外的可见光对物体进行识别, 然后利用可见光对物体进行真彩色重建。 国内外研究光谱反射率重建大多基于色卡而非实际物体, 例如Hajipour等的实验[1]。 而Chen等的实验都是基于高光谱图像而非光谱反射率[9, 13], 在低照度条件下所获取的植被在可见光范围内的图像很难分辨出颜色。 但是如果能知道植被的光谱反射率, 就能重建任意光源条件下的真彩色图像。
各种应用研究需要不同物体的光谱反射率, 国内外已经建立了各式各样的数据库, 但目前存在的问题是: (1)在遥感领域, 数据不完整或没有公开; (2)在颜色领域, 仅仅存在标准色卡数据, 没有公开自然物体数据, 而且光谱范围在可见波段, 不包含近红外波段。 这些不足限制了数据库不同领域的研究与应用。
我们在研究低照度条件下利用近红外获得真彩色图像中, 萌生了建立自然物体光谱反射率数据库的愿望。 因而测量并建立了红边龙血树、 蓝花楹、 云南山楂等48种植物叶片从可见光到近红外波段光谱反射率数据库, 波长范围380~1 068 nm、 间隔4 nm。 分别对可见与可见到近红外两种波段范围进行了PCA, 为遥感和颜色领域应用提供数据和分析参考。
(1)实验室标准灯箱。 采用便携式地物光谱仪在户外采集自然物体时发现, 光谱反射率在近红外波段会出现很强的噪声影响测量。 为了测量更准确, 采用采集植物叶片后迅速带回实验室在标准灯箱下测量的实验方法, 如图1(a)。
图1 测量器材与测量条件
(2)照明光源选择A光源。 由于物体光谱反射率不随照明光源变化, 可以选择标准灯箱中D65, A, UV和CWF四种照明光源中的任何一种测量, 实验发现, 四种光源在可见光范围内的测量精度和重复率有较好的一致性。 但在近红外波段, A光源的测量精度和重复率效果较好。 原因是A光源的光谱功率在近红外波段呈上升趋势, 如图1(b), 而其他光源光谱功率分布在近红外波段非常小, 导致测量结果跳跃、 不稳定, 重复率差, 精度不高, 甚至是错误。
(3)测量仪器使用Photo Research公司PR-715光谱辐射亮度计, 可以测量波长范围380~1 068 nm, 4 nm为间隔的光谱反射率。
(4)测量在暗室环境中0°/45°测量条件。 光源垂直于物体, 而PR-715呈45°角, 如图1(c)。 在每种情况下, 都试图对物体进行定向, 以减少物体被测部分的镜面反射[8]。 在测量每个样品之前, 将校准的标准漫反射板放置在物体位置测量其光谱功率分布。 选择叶片中颜色均匀的部分多次测量, 当一片叶子上存在多种颜色时, 就会测量多个部位, 加上叶片的颜色多样, 因此48种植物测量了150条光谱反射率。
对于公开数据库, 国际上有专门网站可以下载使用, 也有以文件的形式提供下载使用。 我们数据库数据是采用文件“xlsx”, 同时附上植物图像和测量叶片及光谱反射系数曲线, 如图2。 保存和显示测量的光谱反射系数是没有处理的原始数据, 保留4位小数点。 对于同一植物不同叶片或同叶片颜色差距较为明显的不同部位, 分别测量其光谱反射系数。 如图2(a)是在同一季节采集的红花檵木10种不同颜色叶片的10条光谱反射系数。 因此, 48种植物得到了150条光谱反射率(数据库数据将公开提供使用)。
采集数据的叶片都来自云南省昆明市呈贡区云南师范大学和盘龙区昆明植物园。 采集时间从2020年10月30号开始到2021年6月9号截止包含春、 秋、 冬三个季节。 图3是测量的48种植物图像, 每个图像右下角是被测叶片。 从左向右, 第1行: 刺柏、 蓝花楹、 竹叶、 桃花、 荷花玉兰、 云南山楂; 第2行: 玉兰、 银杏、 龙柏、 决明、 紫绒鼠尾草、 木犀; 第3行: 木茼蒿、 榉树、 女贞、 春羽、 高山榕、 石楠; 第4行: 常春藤、 云南黄素磬、 黄杨、 火炬树、 灯笼花、 八角金盘; 第5行: 红花檵木、 四季海棠、 金边黄杨、 红边龙血树、 火棘、 胡颓子; 第6行: 高盆樱桃、 柳树、 炮仗花、 樟、 碧桃、 蔓长春藤; 第7行: 枫香树、 油菜、 天门冬、 薰衣草、 一串红、 河津樱; 第8行: 蒲苇、 金边吊兰、 尖尾芋、 幸福树、 棕桐、 槭树。
图3 48种植物和测量叶片图像
图4是48种植物叶片图像测得的光谱反射率, 共有150条谱线。 鉴于在波长两端380 和1 068 nm附近测量噪音较大, 取值400~1 000 nm波长范围。 从图4可以看出, 48种植物叶在400~680 nm波段, 光谱反射率存在一个位置和大小各不相同的反射峰, 这是因为植物体内叶绿素、 叶黄素、 叶红素和花青苷含量的不同而导致的。 在680~750 nm波段, 植物叶片的光谱反射率急剧增大, 出现一个“陡坡”, 形成植物的独有特征, 并且不同植物的光谱位置和反射率斜率基本一致。 在750~950 nm波段, 有着较高的反射率, 而且趋于平稳, 这是因为叶面反射光谱特征主要受叶内细胞结构和叶冠结构控制, 由于光在叶内散射, 光谱反射率非常高, 出现“红外高台阶”。 在975 nm附近存在一个吸收峰, 这是由于植被体内水的吸收和冠层结构所导致。 正是因为叶片的光谱反射率呈现这样一种分布, 因此在晚上拍摄植物叶片时图像会偏暗, 但是加上近红外镜头之后图像会偏亮。
图4 48种植物叶片在400~1 000 nm范围内的光谱反射率
如图5所示, 我们将不同植物颜色相近的叶片的光谱反射率放在一起, 可以发现不同植物, 颜色相近叶片的光谱反射率曲线形状基本相似。 图6是多种颜色红花檵木叶片的光谱反射率图像, 从中可以发现同一种植物不同颜色叶片的光谱反射率形状有较大的差异。
图5 不同植物相近颜色叶片的光谱反射率
图6 多种颜色红花檵木叶片
对光谱反射率数据库进行PCA分析, 通过一组本征矢来近似表示大量植物叶片的光谱反射率, 可以实现光谱数据的低重构误差。 为了能使重建的光谱反射率更好的体现出植物的生化特性, 需要在重建时加上光谱反射率的平均值。 分别对150个光谱样本在400~700和400~1 000 nm波段进行PCA分析。 表1和表2分别给出了可见波段和从可见到近红外波段150个光谱反射率的平均值和前六个主成分数据。
平均值和前三个主成分如图7所示。
表3给出前六个主成分对应贡献率及累积贡献率。 对于400~1000 nm波段, 它的第一个主成分的贡献率为71.46%, 前三个主成分的累积贡献率为94.97%, 前六个主成分的累积贡献率达到了99.42%。 而对于400~700 nm波段, 它的第一个主成分的贡献率为87.74%, 前三个主成分的累积贡献率达到了98.62%, 前六个主成分的累积贡献率达到了99.84%。 也就是说在通常情况下, 使用前三个主成分就可以描述叶片绝对大多数的特征了。 从图中也可以看出在400~700 nm波段两者的前三个主成分曲线形状有着很大的差异。
表1 150个光谱样本在可见波段400~700 nm平均值和前六个主成分数据
表2 150个光谱样本在可见到近红外波段400~1 000 nm平均值和前六个主成分数据
图7 光谱平均值和PCA前三个主成分
表3 前六个主成分对应贡献率及累积贡献率
测量并建立了红边龙血树、 蓝花楹、 云南山楂等48种植物150条叶片从可见光到近红外波段光谱的反射率数据库, 波长范围400~1 000 nm、 间隔4 nm。 分别对可见与可见到近红外两种波段范围进行了PCA研究。 结果表明: 不同植被叶片在相同色相内的光谱反射率曲线基本上有相同的波形。 即使是同一种植物, 因为体内叶绿素、 叶黄素、 叶红素和花青苷含量的不同, 波形可以出现很大的差异。 通过分析叶片光谱反射率的一阶导数和红边特征参数可以为植被的识别与分类提供基础。 PCA结果表明: 可见和可见与近红外两种波段前三个主成分的累积贡献率分别为98.62%和94.97%。 因此通过前三个主成分就能很好的重建植物叶片的光谱反射率, 并且通过色相进行分类可以有效地提高主成分的贡献率。 我们通过建立数据库并计算出植物叶片的本征矢可能对遥感领域植物的识别与分类以及颜色科学领域在不同照明条件下实现颜色再现等提供帮助。
从光谱反射率和PCA的角度分析了数据库, 通过对数据库进行不同的处理和分析, 可以应用于不同的领域。 本工作只采集了48种植物, 对于建立数据库来说还需要更多的数据, 因此后续将继续扩大数据库的内容。