官方网站-首页官方网站-首页

新闻中心

NEWS CENTER

新闻中心 媒体报道 从“看见”到“看懂”,机器视觉如何开启新“视”界?

从“看见”到“看懂”,机器视觉如何开启新“视”界?

发布时间:2025-10-25 20:30:03

阅读量:248次

【导语】人工智能浪潮下,深度学习颠覆机器视觉。机器视觉为机器装上“眼睛”,历经数十年发展,从简单字符识别到如今视觉导航、人机交互广泛应用。它以强大信号感知与海量数据分析能力,在电磁波谱各波段大显身手,还渗透于生活诸多场景,正从“工具箱”转变为“智能平台”,拓展能力边界。

近年来,人工智能的快速发展让多个领域发生了重要变化。作为人工智能(néng)的(de)核(hé)心(xīn)分(fēn)支(zhī),深(shēn)度(dù)学(xué)习(xí)的(de)高(gāo)速(sù)发(fā)展(zhǎn)也(yě)对(duì)机(jī)器(qì)视(shì)觉(jué)产(chǎn)生(shēng)了(le)颠(diān)覆(fù)性(xìng)的(de)影(yǐng)响(xiǎng)。

究(jiū)竟(jìng)何(hé)为(wèi)机(jī)器(qì)视(shì)觉(jué)?机(jī)器(qì)何(hé)以(yǐ)“看(kàn)见(jiàn)”?相(xiāng)比(bǐ)人(rén)眼,机器视觉具有何种优势?又能在哪些领域发挥重要作用?

机器视觉的“前世今生”

众所周知,人类借助五种主要感官认识世界,其中获取信息的80%来自视觉。我们之所以能获取所看到的信息,其实是由物体的反射光照到人眼中,再借助眼中的光感受器将(jiāng)光(guāng)信(xìn)号转化为电信号,然后交给大脑进行处理,从而形成人类视觉。

视觉作为人类最高级别的感知对于人们而言非常重要,而在机器的世界里,视觉的重要性也不可小觑。所谓机器视觉便是为机器装上“眼睛”,用传感器来代替人眼,以电脑来代替人脑,自动处理分析图像或视频,使机器能够“看懂”环境并自主决策的技术。

事实上,机器视觉的出现可追溯至20世纪60年代。1963年,机器视觉领域出现了第一篇博士论(lùn)文《三(sān)维(wéi)实(shí)体的机器感知》,论文的作者为美国麻省理工大学的劳伦斯·吉尔曼·罗伯茨(L. G. Roberts),他利用计算机程序从数字图像中提取出立方体、楔形体、棱柱体等多面体的三维结构,并对物体形状及物体的空间关系进行描述。在这一阶段,机器视觉技术隶属于模式识别领域,主要集中(zhōng)在(zài)二(èr)维(wéi)图像的分析和识别上,最典型的应用包括文件里的字符识别、工件表面的处理、分析和解释等。

1973年,英国神经系统学家与心理学家大卫·马尔(DavidC.Marr)教授应邀在美国麻省理工大学的AI实验室领导一个研究小组,建立了一套视觉计算理论,使该领域的研究有了较为明确的体系,极大地推动了机器视觉研究的发展。令人感到惋惜的是,大卫·马尔教授因为身体原因很早便过世了,在他去世后,他带领的研究小组根据他在1973-1977年间进行的研究,整理出一本学术著作——《视觉》,这本专著的问世也标志着计算机视觉(机器视觉)成为一门独(dú)立(lì)学(xué)科(kē),他(tā)也(yě)被(bèi)誉(yù)为(wèi)计(jì)算(suàn)机(jī)视(shì)觉(jué)领(lǐng)域的(de)“开(kāi)山(shān)鼻(bí)祖(zǔ)”。

20世(shì)纪(jì)80年(nián)代(dài)至(zhì)今(jīn),机(jī)器(qì)视(shì)觉(jué)领(lǐng)域飞(fēi)速(sù)发(fā)展(zhǎn)。硬(yìng)件(jiàn)性(xìng)能(néng)从(cóng)早(zǎo)期(qī)集成(chéng)电(diàn)路计(jì)算(suàn)机(jī)发(fā)展到GPU等高性能芯片,数据资源从早期少量手写数字数据到如今的海量图像数据。同时,机器视觉领域的算法也实现了持续优化,从基于规则的算法发展到基于深度学习的算法,而在应用领域方面,早期简单的字符识别已是过去式,如今已能够实现视觉导航与人机交互。由此可见,机器视觉在近40多年间,在多个方面都展现出了长足的进步。

伴随着近些年AI领域的崛起,深度学习在计算机视觉领域出现了崭新突破,标志着机器视觉进入了AI驱动的(de)新(xīn)时(shí)代(dài)。

复(fù)杂(zá)的(de)机(jī)器(qì)视(shì)觉(jué)系(xì)统(tǒng)

与(yǔ)人(rén)眼(yǎn)类(lèi)似(shì),若(ruò)想(xiǎng)使(shǐ)机(jī)器(qì)拥(yōng)有(yǒu)获(huò)取(qǔ)并(bìng)处(chù)理(lǐ)信(xìn)息(xi)的(de)能(néng)力(lì),也(yě)需(xū)要(yào)一(yī)套(tào)完(wán)整(zhěng)的(de)体(tǐ)系(xì),包(bāo)括(kuò)图(tú)像(xiàng)采集系统、视觉信息处理软件、显示器、处理器单元、机械控制软件,以及执行机构。

实际运行过程中,先由图像采集系统获取视觉(图像)信息,类似用照相机拍摄一张照片,然后(hòu)将(jiāng)图(tú)像(xiàng)传(chuán)给(gěi)视(shì)觉(jué)信(xìn)息(xi)处(chù)理(lǐ)软(ruǎn)件(jiàn),进(jìn)行(xíng)图(tú)像(xiàng)的(de)分(fēn)析(xī)与(yǔ)决(jué)策(cè),而(ér)这(zhè)些(xiē)工(gōng)作(zuò)由(yóu)处(chù)理(lǐ)器(qì)单(dān)元来执行操作,其就像机器的“大脑”,负责视觉算法运行,显示器则负责呈现视觉算法的运行结果(guǒ)。同(tóng)样(yàng),也(yě)可(kě)以(yǐ)将(jiāng)决(jué)策(cè)结(jié)果(guǒ)传(chuán)给(gěi)机(jī)械(xiè)控(kòng)制(zhì)软(ruǎn)件(jiàn),它(tā)会(huì)根(gēn)据(jù)决(jué)策(cè)指(zhǐ)导(dǎo)运(yùn)动(dòng)或(huò)操(cāo)作(zuò),随(suí)后(hòu)交(jiāo)由(yóu)执(zhí)行机构根据控制信息完成相应操作。

随着机器视觉领域的不断发展,领域内的研(yán)究(jiū)内(nèi)容(róng)也(yě)愈(yù)加(jiā)广(guǎng)泛(fàn)。机(jī)器(qì)视(shì)觉(jué)领(lǐng)域的(de)研(yán)究(jiū)人(rén)员(yuán)常(cháng)会(huì)选(xuǎn)取(qǔ)其(qí)中部分细分领域进行(xíng)深(shēn)入(rù)研(yán)究(jiū),如(rú)图(tú)像(xiàng)分(fēn)类(lèi)、目(mù)标(biāo)检(jiǎn)测(cè)与(yǔ)识(shi)别(bié)、图(tú)像(xiàng)语(yǔ)义(yì)分(fēn)割(gē)、目(mù)标(biāo)跟(gēn)踪(zōng)、立(lì)体(tǐ)视(shì)觉(jué)与(yǔ)三(sān)维(wéi)重(zhòng)建(jiàn)、视(shì)频(pín)理(lǐ)解(jiě)与(yǔ)行(xíng)为分析、医学影像分析、三维理解与视觉导航等。

和人类视觉相比,机器视觉拥有超强的信号感知能力和对海量数据的快速分析能力,系统稳定性高且不知疲倦,因而常被应用于不同领域。

在整个电磁波谱“大显身手”

尽管是一个只有几十年发展史的新兴学科,机器视觉却已经在(zài)图(tú)像(xiàng)处(chù)理(lǐ)领(lǐng)域彰(zhāng)显(xiǎn)出(chū)庞大力量。目前,机器视觉系统处理的最主要的数据来源是电磁波谱成像,此外还包括声波、超声波等。在整个电磁波谱上,几乎所有的电磁波都可以成像,因而人们利用不同的传感器去形成数字图像数据,再利用图像处理或机器视觉技术完成工业生产、医疗诊断等科学探索的视觉任务。

在电磁波谱的最左端是波长最短、能量最强的伽马射线,它的图像主要应用于核医学和天文图像中。医院里,人们有时会见到正电子发射计算机断层显(xiǎn)像(xiàng)设备(PET),其被用于骨骼病变的定位。检查时,将放射性同位素注射到人体内,这些同位素会发生衰变,同时发出伽马射线,再利用伽马射线检测仪收集放射线产生图像。如果人体存在病变或肿瘤,该部位吸收的放射性元素就会更多,放射出来的伽马射线(xiàn)更强,因此会在图像里呈现很亮的状态,医生就能够根据图像亮度的分布进行诊断。

与伽马射线相邻的是大家相对熟悉的X射线,其被广泛应用于医学、天文、工业图像等。医学检查中的CT——计算机X射线断层摄影仪器,便是运用了X射线,其穿透人体时,能使人体组织在荧屏上或胶片上形成影像。基于X射线的穿透性、荧光效应和感光效应,以及人体组织之间的密度和厚度的差别,医生能够根据图像的颜色进行诊断。以下图头部CT图像为例,骨骼密度最高,因此吸收的X射线最多,因而在图像上呈现白色;肌肉和液体密度中等,所以吸收中等强度的X射线而呈现灰色,如大脑组织与眼球;气体和脂肪密度最低,所以吸收的X射线最少,因而在图像中显现为黑色或深灰色。


此外,紫外波段、可见光、红外波段、微波波段、无线电波段均可被机器视觉系统处理。其中,紫外波段应用于工业检测、显微方法、生物成像、天文观测等;可见光广泛应用于显微方法、天文学、遥感、工业检测等领域;红外波段广泛应用于显微方法、天文学、遥感、工业等领域;微波图像的典型应用则是星载雷达;无线电波段则主要应用于医学和天文学,在医学领域,主要用于核磁共振图像(MRI),其与CT相比,图像更为清晰,对于软组织成像的效果更佳。

身边的机器视觉

除医学领域的影像学检查之外,生活中也处处存在着机器视觉的痕迹。旅游中拍摄风景照时,人们常会发现照片中的颜色相比肉眼看到的实景更为鲜艳,鲜花绿草更为明艳,灰蒙蒙的天空在照片中呈现出湛蓝的美,这些便是机器视觉中的图像增强技术在默默助力。

驾驶车辆进入停车场时,入口处常能快速进行车牌自动识别,进而准确掌握车辆进场时间,这一目标的实现也依赖于机器视觉。为实现车牌号码的精准识别,先由相机拍摄车辆照片再对车牌位置进行定位,随后对字符进行分割,比对样本库,从而对每个字符进行识别,最后便能准确输出结果。

识别景与物之余,机器视觉对于人脸识别的应用更是司空见惯。在火车进站、身份认证、人脸支付等领域已实现了诸多应用。目前,人脸识别系统主要分为两类技术路线,其一是二维人脸识别,即通过相机拍摄一幅可见光的二维照片,在图片上进行一些特征点的定位和提取,然后在数据库中进行比对,进而输出最相似的面容对应的姓名。这种方式的优势在于可以直接使用普通摄像头,成本较低,但比较容易被照片或视频“欺骗”。

另一种是三维人脸识别,需要使用三维结构光相机,其中的红外发射器能够投影出一些规则图案的点阵,再将其投影在人的脸部,而红外相机则对投影之后的人脸进(jìn)行(xíng)拍(pāi)摄(shè),进而得到点阵的图案。由于人脸凹凸不平,所以原本设计规则的点阵在拍摄之后会发生形变,通过比较前后两个图案的变形情况,便可得到人脸的三维模型,从(cóng)而(ér)在(zài)后端的数据库进行模型比对并输出结果。相比二维人脸识别,这种识别方式准确度更高。

近来关注度较高的“文本生成图像”也与机器视觉密不可分。作为一个高度融合的跨学科领(lǐng)域,其(qí)被称为“生成式视觉”或“视觉内容生成”。“生成式视觉”旨在生成、编辑、增强图像,利用自然语言处理(NLP)技术理解文本提示词的含义,属于计算机视觉与NLP的(de)学(xué)科(kē)交(jiāo)叉(chā)。

此(cǐ)外(wài),交(jiāo)通(tōng)领域的自动驾驶与辅助驾驶,航天遥感(gǎn)领(lǐng)域的(de)地(de)球(qiú)人(rén)造(zào)卫(wèi)星(xīng)、气象观测、植被覆盖率监测、城市规划分析、地物变化监测、地震救援、数字地球,深空探测领域的探月工程等,都离不开机器视觉的“鼎力支持”。

近些年,人工智能领域飞速发展,将机器视觉从一个解决特定问题的“工具箱”,转变为一个具备强大“自动学习能力”的、能够解决通用问题的“智能平台”,不仅极大地提升了机器视觉的性能上限,也拓展了机器视觉的能力和应用边界,让人们深刻体会到科技不是冰冷的代码,而是人类探索未知的“眼睛”。

撰文:记者 廖迈伦

采访专家:袁丁,北京航空航天大学宇航学院教授

本文封面图片来自版权图库,转载使用可能引发版权纠纷

前一篇:浙里科技前研⑥ | 压缩时空,“一眼千年”不是梦 返回列表 下一篇:量子计算机是怎样“攒”出来的?

相关新闻

中国“人造太阳”找到突破密度极限方法

2026-01-04

中国“人造太阳”找到突破密度极限方法

听歌时身体的一个小动作,揭穿了大脑的工作真相

2026-01-04

听歌时身体的一个小动作,揭穿了大脑的工作真相

向章鱼“取经”,科学家3D打印出能抓蛋黄的水凝胶抓手

2026-01-03

向章鱼“取经”,科学家3D打印出能抓蛋黄的水凝胶抓手

云平台应用案例

帮助企业低成本、高效率、专业化建立属于自己的工业互联网平台!

立即咨询