Nature：AI进入“光学”时代，首次画出彩色梵高-新闻中心-科技有限公司

Nature：AI进入“光学”时代，首次画出彩色梵高

发布时间：2025-09-01 09:30:02

阅读量：302次

【导语】在追求高效、节能的生成式AI推理过程中，将“光”引入AIGC领域成为了一项突破性进展。加州大学洛杉矶分校的研究团队成功实现了(le)基(jī)于(yú)系(xì)统(tǒng)硬件物理定律的光学生成式模型，能够生成具有特定特征的全新图像。这一成果不仅为节能且可扩展的推理任务开辟了新路径，还展示了光学与光子学在AIGC领域的巨大潜力。相关研究已发表在权威科学期刊《Nature》上，标志着光学生成式模型正引领AI行业迈向新的发展阶段，有望为增强现实、虚拟现实等领域带来革新。

快速、节能地实现生成式 AI 的可扩展推理，是当前 AI 行业面临的最紧迫挑战之一。

今天，AI 行业发展更进一步，将“光”引入 AIGC 领域，完全基于系统硬件物理定律，首次实现了具备特定特征的全新（未见过的）图像生成。

来自加州大学洛杉矶(jī)分校的研究团队成功实现了手写数字、时尚产品、蝴蝶、人脸及艺术品（如梵高风格）的单色与多色图像光学生成，且整体性能媲美基于数字神经网络的生成式模型。

相关研究论文以“Optical generative models”为题，已发表在权威科学期刊 Nature 上。

研究团队表示，这一光学生成式模型有望为节能且可扩展的推理任务开辟新路径，进一步挖掘光学与光子学在 AIGC 领域的潜力。同时，这种光学系统与机器学习方法的融合，有望应用于增强现实（AR）和虚拟现实（VR）领域。

在一篇同期发表的新闻与观点文章中，法国国家科学研究中心 FEMTO‑ST 研究所研究员 Daniel Brunner 认为，这项成果具有重要的技术与科学意义，是迈向利用非常规物理系统构建生成式计算模型的重要一步。

在 Brunner 看来，由于光子处理信息具有天然优势，如可以同时处理整个三维体积中的数据，“光学生成式模型也有望具备生成三维图像的潜力”。

Brunner 表示，要使未来的光学生成式模型更强、更灵活，可能还需要构建“同时采用光学编码器与光学解码器的模型”，并尝试构建多层解码系统，运用更复杂的光学现象。

然而，正如 Brunner 所言，这项研究的“未来价值取决于能否实现完全落地”，但任重而道远。

“理想情况下需借助可扩展的集成电路技术，同时避免当前数字硬件编码所需耗时耗能的数据预处理环节。即便在电子学、光学物理计算及两者融合领域历经数十年研究后，这仍将是一项极具挑战性的任务。”

光学生成式模型：让光“动手画画”

近年来，生成式数字模型已经发展到能够合成多样化的高质量图像、类人的自然语言、全新的音乐作品，甚至设计出全新的蛋白质。这些新兴的生成式 AI 技术在包括大语言模型（LLM）、具身智能以及 AIGC 等应用中发挥着重要作用。

然而，随着生成式模型的成功应用，其规模也迅速扩大，对电力、内存资源的消耗日益加重，同时推理时间也显著增长。其可扩展性和碳足迹，正成为日益关注的问题。

尽管已有多种方法试图降低模型规模与能耗，并提升推理速度，但依然迫切需要新的路径，来构建高能效、可扩展的生成式 AI 模型。

在此背景下，研究团队提出了一种受扩散模型启发的光学生成式模型，其编(biān)码(mǎ)器(qì)为传统数字实现，而解码器则由光学元件构成(chéng)。

在(zài)这(zhè)一架构中，一个浅层、快速的数字编码器首先将随机噪声映射为相位图案，这些图案作为目标数据分布的光学生成种子。随后，一个联合训练的、基于自由空间传播的可重构解码器对这些种子进行全光学处理，从而生成前所未见的图像，并遵循预期的数据分布。

值得注意的是，除了浅层编码器阶段用于产生照明功率与随机种子，该光学生成式模型在图像生成的过程中几乎不消耗任何计算资源。

图｜光学生成式模型示意图。

研究团队提出了两种图像光学生成路径：快照式和迭代式。

在快照光学生成式模型中，每幅图像或输出数据的快照光学生成，可在需要时通过随机访问这些预先计算的光学生成种子之一来实现。所需图像合成完全依赖光在自由空间中的传播过程，并由一个优化后的、固定状态的衍射解码器完成。

图｜快照光学生成式模型

迭代光学生成式模型则在每一个时间步，前一步生成的带噪声图像被输入光学系统。经过波的传播后，多色信息被记录下来，用于提供给下一次光学迭代，同时加入一些预设的噪声。在最后一个时间步，图像传感器阵列记录输出强度以完成最终图像生成。当模型完成训练后，在盲推理阶段，迭代光学生成式模型会逐步从高斯噪声分布重建目标数据分布。

图｜迭代光学生成式模型

此外，研究团队还展示了如何通过在空间光调制器（SLM）上直接实现从强度到相位的转换，并结合在图像传感器平面上的光电转换。他们能够利用迭代光学生成式模型实现复杂的域映射——尽管其性能和图像多样性相比使用数字编码器的迭代光学生成式模型(xíng)有(yǒu)所(suǒ)降(jiàng)低(dī)。

光(guāng)真(zhēn)“画(huà)”出(chū)了(le)数(shù)字(zì)和梵高

为了展示快照式和多色光学生成式模型，研究人员搭建了一个基于自由空间、工作于可见光波段的硬件系统。波长为 520 nm 的激光被准直后，用以均匀照射 SLM。SLM 显示的是由浅层数字编码器处理并预先计算得到的相位图案，也就是光学生成种子。

这些编码后的相位图案通过分束器后调制光(guāng)场(chǎng)，接(jiē)着(zhe)被(bèi)另(lìng)一(yī)块(kuài) SLM 处(chù)理(lǐ)，该(gāi) SLM 作(zuò)为(wèi)固(gù)定(dìng)或(huò)静(jìng)态的解码器使用。对于每一个光学生成式模型而言，优化后的解码器表面状态是固定的，而同一套光学架构可通过切换状态，生成符合不同目标分布的图像。在快照式光学生成式模型的输出端，生成图像的光强信息由图像传感器捕获。

根据所训练的数据集，该光学生成式模型能够输出梵高风格的人物、建筑或植物图像，也可以生成 0 到 9 的手写数字图像，或是时尚配饰的图像。其中，数字和配饰图像为黑白图(tú)像(xiàng)，而(ér)梵(fàn)高(gāo)风(fēng)格(gé)的(de)图(tú)像(xiàng)则(zé)为(wèi)彩(cǎi)色(sè)图(tú)像(xiàng)。通(tōng)过(guò)一(yī)个(gè)纯(chún)粹(cuì)基(jī)于(yú)硬(yìng)件(jiàn)物(wù)理(lǐ)规(guī)律(lǜ)实(shí)现(xiàn)的(de)机(jī)器学习模型，直接生成具有特定特征的全新图像，此前尚未实现。

图｜多色光学生成式模型的数值和实验结果，用于创作绚丽的梵高风格艺术作品。与采用 1000 步迭代的教师数字扩散模型对比

当向模型输入随机种子时，虽然生成的图像各不相同，但仍属于与训练数据相同的类别。例如，使用梵高风格肖像作为训练数据的模型，会输出一系列具有梵高画风的人物图像，而不同的随机种子可以生成戴帽子或不戴帽子的人物形象。

研究人员将他们的实验结(jié)果与实验模拟结果及完全数字化的生成模型进行了比较。他们发现，输入相同的随机种子，这些模型所生成图像的质量与光学生成式模型基本相当。

光学生成，充满新机遇

研究团队通过衍射网络架构，从噪声图案中演示了快照式光学图像生成。他们的框架能够从噪声中光学生成多样化图像，展现出一种高度理想的“创造性”快照图像生成能力，超越了以往研究的范围。

此外，在不更改架构或(huò)物(wù)理(lǐ)硬(yìng)件(jiàn)的(de)前(qián)提(tí)下(xià)，仅(jǐn)通(tōng)过(guò)将(jiāng)衍(yǎn)射(shè)解(jiě)码(mǎ)器(qì)重(zhòng)新(xīn)配(pèi)置(zhì)为(wèi)新(xīn)的(de)优(yōu)化状态，就能实现适应不同数据分布的光学生成。这种光学生成式(shì)模(mó)型(xíng)的(de)灵(líng)活(huó)性(xìng)，对(duì)于(yú)边(biān)缘(yuán)计(jì)算(suàn)、增(zēng)强(qiáng)现(xiàn)实(shí)、虚(xū)拟(nǐ)现(xiàn)实(shí)显(xiǎn)示(shì)等(děng)领(lǐng)域具(jù)有(yǒu)重(zhòng)要(yào)意(yì)义(yì)，也(yě)适(shì)用(yòng)于(yú)各(gè)类(lèi)娱(yú)乐(lè)相(xiāng)关应用。

研究结果还表明，在教师扩散概率模型（DDPM）的引导下，可以对目标分布的知识进行蒸馏。通过模拟扩散过程，迭代光学生成式模型能够以自监督方式学习目标分布，避免模式崩塌，并生成比原始数据集更加多样的结果。迭代式光学生成式模型还具有去除数字编码器的潜力，可根据不同数据分布生成多样化输出。

当然，光学生成式模型仍面临一些普遍性挑战。其中之一是光学硬件(jiàn)或系统配置中可能出现的错位和物理缺陷；另一个挑战在于光调制器设备或其表面可(kě)实现的相位位深有限，而这些器件用于物理呈现生成的光学生成种子及解码层。

为应对这些挑战，可以在训练过程中直接引入相关限制条件，使数值优化系统更好地符合物理限制与本地硬件的性能条件。这一策略相较于忽略位(wèi)深(shēn)限(xiàn)制(zhì)的(de)训(xun)练(liàn)方(fāng)法(fǎ)，在(zài)性(xìng)能(néng)上(shàng)实(shí)现(xiàn)了(le)明(míng)显(xiǎn)提(tí)升(shēng)。

该(gāi)分(fēn)析(xī)中(zhōng)的(de)一(yī)个(gè)关键发(fā)现(xiàn)是(shì)，仅(jǐn)需(xū)使(shǐ)用(yòng)三(sān)个(gè)离(lí)散(sàn)相(xiāng)位水平的相对简单解码器表面，就已足以完成图像生成。这为用被动的、薄层表面替代解码器带来了可能。

基于该方法，还可以设计空间或光谱复用的光学生成式模型。光学生成式模型还可实现三维图像的体积生成，为增强现实、虚拟现实和娱乐等应用带来新机遇。

前一篇：这把“剪刀”让蜘蛛吐出了红色的荧光蛛丝...... 返回列表下一篇：复活灭绝物种1：揭秘史上最伟大的复活术科学之旅

官方网站-首页

工业网关

工业互联网平台

工业IoT平台

NEWS CENTER

Nature：AI进入“光学”时代，首次画出彩色梵高

相关新闻

中国“人造太阳”找到突破密度极限方法

听歌时身体的一个小动作，揭穿了大脑的工作真相

向章鱼“取经”，科学家3D打印出能抓蛋黄的水凝胶抓手

云平台应用案例

帮助企业低成本、高效率、专业化建立属于自己的工业互联网平台！