从“看见”到“看懂”，机器视觉如何开启新“视”界？-新闻中心-科技有限公司

从“看见”到“看懂”，机器视觉如何开启新“视”界？

发布时间：2025-10-25 20:30:03

阅读量：248次

【导语】人工智能浪潮下，深度学习颠覆机器视觉。机器视觉为机器装上“眼睛”，历经数十年发展，从简单字符识别到如今视觉导航、人机交互广泛应用。它以强大信号感知与海量数据分析能力，在电磁波谱各波段大显身手，还渗透于生活诸多场景，正从“工具箱”转变为“智能平台”，拓展能力边界。

近年来，人工智能的快速发展让多个领域发生了重要变化。作为人工智能(néng)的(de)核(hé)心(xīn)分(fēn)支(zhī)，深(shēn)度(dù)学(xué)习(xí)的(de)高(gāo)速(sù)发(fā)展(zhǎn)也(yě)对(duì)机(jī)器(qì)视(shì)觉(jué)产(chǎn)生(shēng)了(le)颠(diān)覆(fù)性(xìng)的(de)影(yǐng)响(xiǎng)。

究(jiū)竟(jìng)何(hé)为(wèi)机(jī)器(qì)视(shì)觉(jué)？机(jī)器(qì)何(hé)以(yǐ)“看(kàn)见(jiàn)”？相(xiāng)比(bǐ)人(rén)眼，机器视觉具有何种优势？又能在哪些领域发挥重要作用？

机器视觉的“前世今生”

众所周知，人类借助五种主要感官认识世界，其中获取信息的80%来自视觉。我们之所以能获取所看到的信息，其实是由物体的反射光照到人眼中，再借助眼中的光感受器将(jiāng)光(guāng)信(xìn)号转化为电信号，然后交给大脑进行处理，从而形成人类视觉。

视觉作为人类最高级别的感知对于人们而言非常重要，而在机器的世界里，视觉的重要性也不可小觑。所谓机器视觉便是为机器装上“眼睛”，用传感器来代替人眼，以电脑来代替人脑，自动处理分析图像或视频，使机器能够“看懂”环境并自主决策的技术。

事实上，机器视觉的出现可追溯至20世纪60年代。1963年，机器视觉领域出现了第一篇博士论(lùn)文《三(sān)维(wéi)实(shí)体的机器感知》，论文的作者为美国麻省理工大学的劳伦斯·吉尔曼·罗伯茨（L. G. Roberts），他利用计算机程序从数字图像中提取出立方体、楔形体、棱柱体等多面体的三维结构，并对物体形状及物体的空间关系进行描述。在这一阶段，机器视觉技术隶属于模式识别领域，主要集中(zhōng)在(zài)二(èr)维(wéi)图像的分析和识别上，最典型的应用包括文件里的字符识别、工件表面的处理、分析和解释等。

1973年，英国神经系统学家与心理学家大卫·马尔（DavidC.Marr）教授应邀在美国麻省理工大学的AI实验室领导一个研究小组，建立了一套视觉计算理论，使该领域的研究有了较为明确的体系，极大地推动了机器视觉研究的发展。令人感到惋惜的是，大卫·马尔教授因为身体原因很早便过世了，在他去世后，他带领的研究小组根据他在1973-1977年间进行的研究，整理出一本学术著作——《视觉》，这本专著的问世也标志着计算机视觉（机器视觉）成为一门独(dú)立(lì)学(xué)科(kē)，他(tā)也(yě)被(bèi)誉(yù)为(wèi)计(jì)算(suàn)机(jī)视(shì)觉(jué)领(lǐng)域的(de)“开(kāi)山(shān)鼻(bí)祖(zǔ)”。

20世(shì)纪(jì)80年(nián)代(dài)至(zhì)今(jīn)，机(jī)器(qì)视(shì)觉(jué)领(lǐng)域飞(fēi)速(sù)发(fā)展(zhǎn)。硬(yìng)件(jiàn)性(xìng)能(néng)从(cóng)早(zǎo)期(qī)集成(chéng)电(diàn)路计(jì)算(suàn)机(jī)发(fā)展到GPU等高性能芯片，数据资源从早期少量手写数字数据到如今的海量图像数据。同时，机器视觉领域的算法也实现了持续优化，从基于规则的算法发展到基于深度学习的算法，而在应用领域方面，早期简单的字符识别已是过去式，如今已能够实现视觉导航与人机交互。由此可见，机器视觉在近40多年间，在多个方面都展现出了长足的进步。

伴随着近些年AI领域的崛起，深度学习在计算机视觉领域出现了崭新突破，标志着机器视觉进入了AI驱动的(de)新(xīn)时(shí)代(dài)。

复(fù)杂(zá)的(de)机(jī)器(qì)视(shì)觉(jué)系(xì)统(tǒng)

与(yǔ)人(rén)眼(yǎn)类(lèi)似(shì)，若(ruò)想(xiǎng)使(shǐ)机(jī)器(qì)拥(yōng)有(yǒu)获(huò)取(qǔ)并(bìng)处(chù)理(lǐ)信(xìn)息(xi)的(de)能(néng)力(lì)，也(yě)需(xū)要(yào)一(yī)套(tào)完(wán)整(zhěng)的(de)体(tǐ)系(xì)，包(bāo)括(kuò)图(tú)像(xiàng)采集系统、视觉信息处理软件、显示器、处理器单元、机械控制软件，以及执行机构。

实际运行过程中，先由图像采集系统获取视觉（图像）信息，类似用照相机拍摄一张照片，然后(hòu)将(jiāng)图(tú)像(xiàng)传(chuán)给(gěi)视(shì)觉(jué)信(xìn)息(xi)处(chù)理(lǐ)软(ruǎn)件(jiàn)，进(jìn)行(xíng)图(tú)像(xiàng)的(de)分(fēn)析(xī)与(yǔ)决(jué)策(cè)，而(ér)这(zhè)些(xiē)工(gōng)作(zuò)由(yóu)处(chù)理(lǐ)器(qì)单(dān)元来执行操作，其就像机器的“大脑”，负责视觉算法运行，显示器则负责呈现视觉算法的运行结果(guǒ)。同(tóng)样(yàng)，也(yě)可(kě)以(yǐ)将(jiāng)决(jué)策(cè)结(jié)果(guǒ)传(chuán)给(gěi)机(jī)械(xiè)控(kòng)制(zhì)软(ruǎn)件(jiàn)，它(tā)会(huì)根(gēn)据(jù)决(jué)策(cè)指(zhǐ)导(dǎo)运(yùn)动(dòng)或(huò)操(cāo)作(zuò)，随(suí)后(hòu)交(jiāo)由(yóu)执(zhí)行机构根据控制信息完成相应操作。

随着机器视觉领域的不断发展，领域内的研(yán)究(jiū)内(nèi)容(róng)也(yě)愈(yù)加(jiā)广(guǎng)泛(fàn)。机(jī)器(qì)视(shì)觉(jué)领(lǐng)域的(de)研(yán)究(jiū)人(rén)员(yuán)常(cháng)会(huì)选(xuǎn)取(qǔ)其(qí)中部分细分领域进行(xíng)深(shēn)入(rù)研(yán)究(jiū)，如(rú)图(tú)像(xiàng)分(fēn)类(lèi)、目(mù)标(biāo)检(jiǎn)测(cè)与(yǔ)识(shi)别(bié)、图(tú)像(xiàng)语(yǔ)义(yì)分(fēn)割(gē)、目(mù)标(biāo)跟(gēn)踪(zōng)、立(lì)体(tǐ)视(shì)觉(jué)与(yǔ)三(sān)维(wéi)重(zhòng)建(jiàn)、视(shì)频(pín)理(lǐ)解(jiě)与(yǔ)行(xíng)为分析、医学影像分析、三维理解与视觉导航等。

和人类视觉相比，机器视觉拥有超强的信号感知能力和对海量数据的快速分析能力，系统稳定性高且不知疲倦，因而常被应用于不同领域。

在整个电磁波谱“大显身手”

尽管是一个只有几十年发展史的新兴学科，机器视觉却已经在(zài)图(tú)像(xiàng)处(chù)理(lǐ)领(lǐng)域彰(zhāng)显(xiǎn)出(chū)庞大力量。目前，机器视觉系统处理的最主要的数据来源是电磁波谱成像，此外还包括声波、超声波等。在整个电磁波谱上，几乎所有的电磁波都可以成像，因而人们利用不同的传感器去形成数字图像数据，再利用图像处理或机器视觉技术完成工业生产、医疗诊断等科学探索的视觉任务。

在电磁波谱的最左端是波长最短、能量最强的伽马射线，它的图像主要应用于核医学和天文图像中。医院里，人们有时会见到正电子发射计算机断层显(xiǎn)像(xiàng)设备（PET），其被用于骨骼病变的定位。检查时，将放射性同位素注射到人体内，这些同位素会发生衰变，同时发出伽马射线，再利用伽马射线检测仪收集放射线产生图像。如果人体存在病变或肿瘤，该部位吸收的放射性元素就会更多，放射出来的伽马射线(xiàn)更强，因此会在图像里呈现很亮的状态，医生就能够根据图像亮度的分布进行诊断。

与伽马射线相邻的是大家相对熟悉的X射线，其被广泛应用于医学、天文、工业图像等。医学检查中的CT——计算机X射线断层摄影仪器，便是运用了X射线，其穿透人体时，能使人体组织在荧屏上或胶片上形成影像。基于X射线的穿透性、荧光效应和感光效应，以及人体组织之间的密度和厚度的差别，医生能够根据图像的颜色进行诊断。以下图头部CT图像为例，骨骼密度最高，因此吸收的X射线最多，因而在图像上呈现白色；肌肉和液体密度中等，所以吸收中等强度的X射线而呈现灰色，如大脑组织与眼球；气体和脂肪密度最低，所以吸收的X射线最少，因而在图像中显现为黑色或深灰色。

此外，紫外波段、可见光、红外波段、微波波段、无线电波段均可被机器视觉系统处理。其中，紫外波段应用于工业检测、显微方法、生物成像、天文观测等；可见光广泛应用于显微方法、天文学、遥感、工业检测等领域；红外波段广泛应用于显微方法、天文学、遥感、工业等领域；微波图像的典型应用则是星载雷达；无线电波段则主要应用于医学和天文学，在医学领域，主要用于核磁共振图像（MRI），其与CT相比，图像更为清晰，对于软组织成像的效果更佳。

身边的机器视觉

除医学领域的影像学检查之外，生活中也处处存在着机器视觉的痕迹。旅游中拍摄风景照时，人们常会发现照片中的颜色相比肉眼看到的实景更为鲜艳，鲜花绿草更为明艳，灰蒙蒙的天空在照片中呈现出湛蓝的美，这些便是机器视觉中的图像增强技术在默默助力。

驾驶车辆进入停车场时，入口处常能快速进行车牌自动识别，进而准确掌握车辆进场时间，这一目标的实现也依赖于机器视觉。为实现车牌号码的精准识别，先由相机拍摄车辆照片再对车牌位置进行定位，随后对字符进行分割，比对样本库，从而对每个字符进行识别，最后便能准确输出结果。

识别景与物之余，机器视觉对于人脸识别的应用更是司空见惯。在火车进站、身份认证、人脸支付等领域已实现了诸多应用。目前，人脸识别系统主要分为两类技术路线，其一是二维人脸识别，即通过相机拍摄一幅可见光的二维照片，在图片上进行一些特征点的定位和提取，然后在数据库中进行比对，进而输出最相似的面容对应的姓名。这种方式的优势在于可以直接使用普通摄像头，成本较低，但比较容易被照片或视频“欺骗”。

另一种是三维人脸识别，需要使用三维结构光相机，其中的红外发射器能够投影出一些规则图案的点阵，再将其投影在人的脸部，而红外相机则对投影之后的人脸进(jìn)行(xíng)拍(pāi)摄(shè)，进而得到点阵的图案。由于人脸凹凸不平，所以原本设计规则的点阵在拍摄之后会发生形变，通过比较前后两个图案的变形情况，便可得到人脸的三维模型，从(cóng)而(ér)在(zài)后端的数据库进行模型比对并输出结果。相比二维人脸识别，这种识别方式准确度更高。

近来关注度较高的“文本生成图像”也与机器视觉密不可分。作为一个高度融合的跨学科领(lǐng)域，其(qí)被称为“生成式视觉”或“视觉内容生成”。“生成式视觉”旨在生成、编辑、增强图像，利用自然语言处理（NLP）技术理解文本提示词的含义，属于计算机视觉与NLP的(de)学(xué)科(kē)交(jiāo)叉(chā)。

此(cǐ)外(wài)，交(jiāo)通(tōng)领域的自动驾驶与辅助驾驶，航天遥感(gǎn)领(lǐng)域的(de)地(de)球(qiú)人(rén)造(zào)卫(wèi)星(xīng)、气象观测、植被覆盖率监测、城市规划分析、地物变化监测、地震救援、数字地球，深空探测领域的探月工程等，都离不开机器视觉的“鼎力支持”。

近些年，人工智能领域飞速发展，将机器视觉从一个解决特定问题的“工具箱”，转变为一个具备强大“自动学习能力”的、能够解决通用问题的“智能平台”，不仅极大地提升了机器视觉的性能上限，也拓展了机器视觉的能力和应用边界，让人们深刻体会到科技不是冰冷的代码，而是人类探索未知的“眼睛”。

撰文：记者廖迈伦

采访专家：袁丁，北京航空航天大学宇航学院教授

本文封面图片来自版权图库，转载使用可能引发版权纠纷

前一篇：浙里科技前研⑥ | 压缩时空，“一眼千年”不是梦返回列表下一篇：量子计算机是怎样“攒”出来的？