ISP论文解读:三星影调风格的快速调教(WACV 2026)
💡 微信公众号「ColorWorld花花世界」排版更佳,欢迎关注获取更好阅读体验
📖 阅读提示 本文非常适合做 ISP 调试、效果认知相关工作的同学阅读,这是你们未来的工作方向。
前言
在实际 ISP 工程中,影调调教始终是一项高成本、强经验依赖的工作。
一款终端通常包含多颗摄像头,不同的 sensor 与 lens,在同一套 ISP 下往往会表现出明显的影调差异。
而在产品迭代过程中,又常常要求新一代在整体风格上与前一代保持连续性。这使得影调调教不仅关乎单点效果,更直接影响多摄一致性与代际风格继承。
当前主流做法,仍然高度依赖人工调试。
问题在于,影调调教本身并非完全不可建模。
在风格目标明确的前提下,其核心其实是一个"参数搜索与映射"的问题:如何在保证稳定性的同时,快速将不同硬件条件下的输出拉回到统一的风格空间。
本文解读的这项工作,正是围绕这一工程问题展开。
作者并未尝试用学习模型替代完整 ISP,而是在保留传统 ISP 框架的前提下,将影调相关模块结构化、可学习化,从而提升风格调教在多摄与跨代场景下的效率与一致性。
▲ 图 | ISP模块AI化然后联合训练,快速高效得到不同风格图片
本文名为 Modular Neural Image Signal Processing。乍看是一篇 AI-ISP 相关工作,但这并不是重点。
在我看来,它真正想做的,是 风格调教这件事本身——在已有风格目标的情况下,如何 更快、更稳定 地完成调教。
它的基本做法是,把与风格强相关的模块(如 tone mapping、color enhancement 等)网络化,将其视为 latent feature,通过 joint loss 进行端到端学习。
从而,在不同 sensor 条件下,可以更快地把输出风格对齐。
需要说明的是,论文并不是按照我这里的工程叙事来展开的,这是我自己的总结方式。原文行文更偏学术,因为上述问题本身过于工程化。
本文发表在 WACV(时间线上大概率是 2026),团队依然是 Mbrown,作者是我们的老朋友 Afifi。他博士毕业后先后在 Google、Apple 工作,现在回到三星。
01 方法
前文提到的多摄一致性、代际风格继承以及影调调教效率问题,都可以直接从这套架构的设计中看到对应取向。
▲ 图 | Overview
整体流程可以理解为:先完成物理层面的归一化,再对影调风格进行建模。
-
输入为 RAW,首先进行降噪处理。AWB 与 CCM 默认已经完成,进入模型的图像位于线性 sRGB 空间。
通过 AWB + CCM 先统一颜色坐标系,可以显著减小不同 sensor 之间的基础差异,为后续影调对齐提供稳定起点。
-
在影调建模之前,引入 digital gain 对整体曝光进行约束。
该步骤用于避免后续影调模块在不同曝光区间下工作,有助于提升调教过程的稳定性。
-
使用 global tone mapping 建模全局亮度关系。
该模块主要决定整体亮度走势,是影调风格中最直观的组成部分。
-
使用 local tone mapping 建模局部对比结构。
该模块刻画局部层次,与全局影调共同决定画面的空间感与层次感。
-
通过 chroma net 进行色彩调教。
chroma net 预测的是图像相关的 2D Chroma LUT,在 CbCr 空间中操作,仅作用于色度,从而将色彩调教与亮度调教解耦。 论文中也提到可选的 3D LUT,用于更强烈的艺术风格,但并非默认路径。
-
通过 gamma 模块对影调进行整体收敛。
这里的 gamma 并非传统 ISP 中固定的 OETF,而是由网络预测的图像相关参数,更像是对亮度与对比度的残差修正。
-
对结果进行上采样,得到完整分辨率输出。
整体来看,这套方法并不是通过一个黑箱网络去拟合最终效果,而是将影调相关因素拆解为多个可独立建模的模块。
这种结构与真实 ISP 中"围绕具体模块进行调教"的工程逻辑是高度一致的。
小结一下
上述整个过程,对应本文的核心特色:影调风格可以被快速且稳定地调教,而这一实现是由下面两点能力决定的:
-
泛化好:使用 AWB + CCM 后的 linear sRGB 作为模型输入
这是"能调得快"的地基。输入空间先被统一,不同 sensor 的差异被前置消化,后面的风格模块才有可能复用同一套思路去对齐。我倾向认为泛化能力里有很大一部分来自这一点;剩下的来自模型本身约束强、结构不复杂,不太容易把数据集细节学死。
-
可调试:模块化是为了让问题可定位、可替换
可拆卸本质就是可 debug。影调被拆成 global / local tone、chroma、gamma 这种"对应明确感知维度"的模块后,效果不对时就能定位是亮度走势、局部对比还是色彩偏向的问题,并且可以只动相关模块,而不是整体重新训练。
02 结果
先看客观结果。
整体指标是可以的,但这里有一点需要说明。对比方法中,很多模型是把 AWB 也一起学习的;而本文默认使用的是元数据或已有 AWB 提供的增益,因此在颜色相关指标上,并不是完全公平的比较。
不过,在网络规模并不大的前提下,PSNR、SSIM 等指标能达到这样的水平,本身已经说明工程实现是扎实的。
再看主观结果,我们主要看他的影调泛化性。
它的模型直接在不适用Iphone数据的情况下,输入Iphone RAW得到的效果,和Adobe的 Project Indigo 以及Iphone直出的对比:
▲ 图 | 直接对Iphone RAW应用本文算法得到的结果
当然必须指出: 它这里的raw是iphone的,awb gains和ccm都是用的iphone raw自带的。
03 评价
Pros
-
工程价值很高,很多细节值得反复阅读。
从 AWB、denoising、tone mapping,到 RAW–JPEG 及其 inverse、exposure correction等等,几乎把 ISP 中所有重要模块都走了一遍,里面有很多被业界证明很有效的方案,比如biliteral slicing等,精度和速度都被验证有效的技术
-
影调快速调教这个问题上,本文给出了一个非常清晰、可落地的思路。
-
supplementary 内容非常多,消融实验做得很细。这一点是 Afifi 一贯的风格。
Cons
我觉得唯一有点"省事"的地方在于——AWB 直接默认是正确的,这可直接把问题简化了许多!
同样,还有对Denosing模块的处理——就直接默认随便一个降噪网络——但是这在极暗环境下显然不成立,虽然作者也表达了这不是本文scope,但是这的确是问题。
04 发散
- 未来的调试工程师,可能本质上就是算法工程师。
本文号称可 debug,但大家想想这个咋debug? 比如饱和度有问题,很可能是fix其他模块param,只针对 chroma 模块进行再训练或微调——这不就是算法工程师的日常工作?
所以,每个Tuning工程师,都应该会调网络。类似的,每个效果认知工程师,也应该会调网络——因为这个风格倾向是你们定的啊。
这印证了我之前强调的,AI时代,要提高自己的复杂度:科普 | 请让自己变得复杂
- AWB 完全可以被纳入端到端训练。
我相信作者一定尝试过,只是稳定性或泛化性还不够,但方向是清晰的。类似的,极端环境下的Denoiser,都可以plug in试试。
- 一项技术能否真正落地,很多时候取决于稳定性边界。
传统 ISP 中会有大量保护机制,比如肤色保护、chroma 限制等,而本文并未涉及,所以在网络设计时候可以考虑这些边界,让系统更加稳定。
- 该技术可以进一步封装。
比如让用户选几张自己喜欢的照片,算法通过调整风格相关参数,实现个人偏好的自适应。
很多公司都有所谓的效果认知组或美学组,试图定义自家影像风格。但美真的有统一标准吗?
如果有,且各家都有一流艺术家坐镇,那最终风格理应趋同,收敛到这个美的’ground truth’。
现实并非如此,说明至少目前,美没有标准。
在这种情况下,由厂商定义基础风格,寻求一个审美的最大公约数,同时允许一定程度的个性化,可能是一条更现实的路径。