ISP专题|华为: 多光谱图像颜色复制(WACV 2025)
阅读提示
潜在读者
- 图像/ISP算法(调试)工程师,研究人员
- 对计算摄影,颜色科学感兴趣的科研和技术人员
推荐时长
- 5min-30min
原文下载
本期导读

自动白平衡(AWB)和颜色校正矩阵(CCM)是相机链路(ISP)中颜色成像的关键步骤。这些步骤通过基于拍摄的照片估计场景的光源,从而调整照片中的颜色,使照片内的物体颜色接近于人眼观察到的颜色。
然而,传统基于RGB的成像系统受到一些特定场景的制约。例如,一些没有灰点的场景,它可以是大面积单色,也可以是多色,工业中统称为干扰色(如图1所示),传统基于图像的统计算法就会失效,导致偏色偏差。为了解决这个问题,多光谱摄像头提供了一个可能的解决方案,它能够采集更多的光谱信息来改善颜色校正。然而如何如何高效利用多光谱去做颜色复制,不是一件容易的事情。

为此,中科大的研究人员与华为诺亚团队联合提出了一种创新方案:使用多光谱(MSI)成像对传统ISP中的AWB+CCM过程进行end2end联合训练,直接输出最终的CIE1931 XYZ。该研究近期以论文形式发表于2025IEEE WACV会议。
技术背景
AWB算法的核心问题是如何根据拍摄的图像准确估计场景中的光源(即"白点")。从传统的基于假设的算法到现代的深度学习算法,研究者一直在尝试解决如何精确估计光源的问题。然而,在没有明显白点的场景下,传统算法难以做出准确的估计。典型的场景如图1所示的"少色场景"或大面积的单色场景,这些在工业界被统称为"干扰色"场景,传统算法几乎无法有效处理。虽然一些方法可能通过时序信息改善,但这种方法并不稳定,且对功耗有较高要求。因此,颜色复制的算法研究需要攻克这些"corner case"。
近年来,增加成像通道数成为一种有效的解决方案。通过采集更多的光谱信息,可以更好地处理干扰色场景并准确估计光源。华为去年发布的Mate70"红枫摄像头"和OPPO今年发布的"丹霞原彩"系统正是采用这种多光谱方案,旨在提升颜色复制精度。 本文提出的多光谱AWB+CCM联合优化的创新方案如下:
使用一个联合网络,对AWB和CCM进行联合优化,网络的输出不再只是传统的AWB的光源,而且包含了CCM(残差)矩阵
但是为了实现这个网络训练,它需要一些中间量,比如如何计算从多通道先转为三通道的转换矩阵T。那为了计算这个T,它采用了一个类似于传统CCM标定的方案——就是使用虚拟多光谱的数据,训练了一个网络来计算这个固定的T,以及一个coarse-CCM
最终,该方法在真实光谱数据集上取得了SOTA结果
技术路线
该方案的核心是如何从多光谱成像数据(MSI)转换为sRGB或XYZ颜色空间。过程中涉及到的步骤包括:降维、AWB、以及CCM三个主要环节。如图2所示。

具体来说:
降维。需要一个降维矩阵T——这个需要单独一个网络学习,后边说。它得到的其实是一个C*3的矩阵。
光源估计。使用一个DNN(YOLOv4)直接回归一个光源向量,此时维度是C*1,使用的是Angular Error loss。
那么如何得到3*1的光源呢?就是图中所示的Illuminance Projection,就是T和L相乘就好了
- CCM计算。使用MLP对估计的光源进行回归得到的CCM的残差res-CCM,使用的是RMSE loss。
CCM的计算是一个coarse-to-fine的过程,同T矩阵的计算一样,它也是先用另外一个网络,通过虚拟数据集计算得到了一个coarse-CCM;然后在本网络中,估计CCM的残差而不是直接估计它本身
从训练的角度讲,这样会更加容易收敛。从使用角度说,这样就可以动态生成CCM矩阵

基于以上的设计,那么现在就需要’标定’降维矩阵T和这个coarse-CCM。使用的方案如图3所示:
本质上,图3的color pipeline和图2的pipeline几乎一致,只是使用了有gt的数据。值得注意的是,这个架构光源的gt是明确的,但是CCM的gt不明确,作者使用了该网络中每个光源计算得到的CCM作为gt。
评价与启发
Pros
- 对于 AWB + CCM 的 end2end 训练,是很本质的一种做法,作者对颜色科学的理解比较深刻。
- 是 多光谱颜色复制的很好尝试。
Con
- 仍然依赖于大量训练,不然这个网络不稳定,甚至很难收敛
- 算法的有效保障来自于大量的光源、反射谱等。
- CCM 和光源估计强耦合,就会导致一旦光源估计出问题,颜色会非常难看——当然,这在传统 ISP 中也是一样存在的问题。
- 全部是使用的合成数据,实际光谱传感器表现如何?泛化性能如何?没有实验验证——工业使用时需要更高的验证。
- 论文写的有些不清楚:比如 2.3 讲到 color reproduction 时,明明是先做 CCM 后做 AWB,但是作者在 2.1 时候自己却先 AWB 后 CCM——但是关于这点作者并没有讲清楚。
- 进一步思考,先 CCM 后 AWB 如何?
启发
- 多光谱的数据集都是现成的,包括 multi-spectral-sensor、光源光谱、标准反射谱。其实可以很好仿真,但是最好,还是有真实光谱数据来验证才能检验效果。
- 本论文是优化到 D65,但是实际工业里还需要做感知色修正,比如让 2800K 的色温最终正到 3500K 而不是 6500K。这部分通常使用 lut 来调整——其实这可以把部分也整合进端到端训练。
- 本论文只用了 16 通道,它没有选择估计反射谱,而是选择适循环 RGB 系统的做法,不见得最优的,可以尝试反射谱估计路径。
- 目前真实 MSI 数据缺乏,如果能统一质量高的并且做好开源工作,是对业界的重要贡献。
一些答疑
Q1:文中提到大量概念,包括:AWB/CCM/Color matching, chromatic adaptation, von model, color constancy, color reproduction,都是什幺联系?
理解这一点并不容易。我尝试讲清楚:
视觉科学中,Color Constancy (CC) 是人类视觉系统的机制,就是看物体颜色都会自动适应回 D65 下这个机制。颜色科学的研究认为,视觉系统会通过 LMS 椒体信号的适应性调节来对照明适应。Von Kries 理论正是基于这种假设,提出 CC 可通过性体通道的比例缩放来实现,这就是最有名的一种 color adaptation 色适应模型。
由此可知,color adaptation 是 CC 实现的一种途径,语义都是在颜色科学中的。然而,这个机制并不完美,特别是在低色温下(例如 2800K 环境中,人类视觉并不能把它色适应到 D65,而是可能是 3500K 左右)。
人类的视觉感知可能与 6500K 的标准白点有较大差距。
工业中也存在"色适应调整"模块,通过 LUT 调整图像的内容,将其转换回 3800K 等其他色温。
关于这点,工业中也必须有对应的处理方案,那就是在 CCM 之后,调节一个被称为 color adaptation module 的模块,但是很显然,这是感知的误用,明显是 color inconsistency 导致的这种现象。处理方案怎么能够叫色适应呢?
不论如何,他的原理就是把被摄取在不同色温下,建立权值倾斜的色温和物理色温之间的关系,一般是用 3D Lut 来表示。
工业中,为了模拟人类这种 CC 能力,有了 AWB + CCM。请注意这里,我的写法是 AWB + CCM,而不是单独写 AWB,因为这二者加起来,才能真正把图像转移到 D65。
单独做 AWB,是达不到 CC 的,只有 AWB 后,再 CCM 才能转到 XYZ。深究一层,CCM 标定的时候,为何一定要先 white-balanced,再计算 CCM 矩阵?
因为这个过程就是模拟的先 AWB 后 CCM 的过程。假如,只做 AWB,不做 CCM,你看到的颜色依然不符合视觉感知。再反过来思考:如果先做 CCM 再做 AWB 是不是也可以?
当然可以!但是 CCM 标定的时候你就不需要 white-balanced 了,而是直接计算矩阵,因为 AWB 是在后面那个步骤实现的……
当然,后面这个 AWB 从概念上不应该是 AWB 了,而是基于的色适应。因为 CCM 之后颜色空间转换到了 XYZ。
这就是为何,标题是 Color reproduction,它包含了 AWB + CCM,模拟的是真正的 Color Constancy 过程。但是绝大部分 paper 都直接把 AWB 等同于 Color Constancy,造成了概念的混乱。
Q2:多光谱(通道)ISP 颜色校正相关论文还有哪些?
Single Pixel Spectral Color Constancy (2021 BMVC & 2023 IJCV)
本文是多光谱技术作用于颜色恒常制,尝试解决下光色问题的最早的论文。
文中通过实验分析了为何多的通道能够一定程度上解决无点场景的光源估计问题。Beyond White: Ground Truth Colors for Color Constancy Correction (2015 CVPR)
本文首次常使用一个全矩阵解决 AWB + CCM 的问题,现在分析的这篇论文应该有很多借鉴自该论文——但是现在看其中语言很多描述都不准确,比如他也直接把 AWB 当作 Color Constancy,读的时候注意概念上的明确。Auto White-Balance Correction for Mixed-Illuminant Scenes (2022 WACV)
本文是使用 RGB 小图直接融合 Multi-illu. 场景 的,没有直接和多光谱结合,但是其中融合的一些思路和处理技术,可以借鉴(比如从多光谱融合和主摄的融合/比如如果要分 patch 区域处理的话如何去融合)。Multispectral Demosaicing via Dual Cameras (2025 Arxiv)
MSI 的出现和兴起,带来了颜色复制度的提升,但是其本身也有很多问题,比如 PSNR 低,以及去马赛克的处理——和传统的 Bayer Pattern 不一样,它包含更多的通道,那就必定带来更多问题。