●周栋梁 贺浩
近期,第二十届中国国际社会公共安全博览会在深圳举办。博览会现场,各类人工智能视觉设备集中亮相。
其中,既有能自动识别异常、及时报警的视频监控系统,又有具备图像分析功能的AI视觉模型,还有能在空中巡逻的无人机管控设备。
这些设备中,不少已经投入实际生活。在某养老中心,AI视觉模型帮助工作人员识别老人的行动,当老人摔倒时会自动发出警报。
如今,随着人工智能、计算机科学、图像处理等技术的发展,机器摄像头在记录画面的基础上,还慢慢具备了理解图像和视频内容的能力。
这种能力,被称作“机器视觉”。从“看得见”到“看得懂”,“机器视觉”的变化,让人们感受到机器“看世界”的新方式。
那么,这种让机器具备“理解力”的视觉技术,究竟是怎么做到的?“机器视觉”未来会给社会生活带来哪些改变?其发展前景如何?
从如何识别图像说起
机器视觉识别图像的过程,和人眼十分相似。
一个完整的机器视觉系统,通常包括图像采集、图像处理和决策控制3个环节,覆盖了从“看见”到“理解”再到“行动”的全过程。
首先是图像采集环节。就像人眼看见物体一样,由工业相机、镜头、光源和图像传感器等组成的图像采集环节,是机器视觉技术进行识别的首要步骤——捕捉清晰的图像。
近年来,随着CMOS高动态图像传感器和高速快门的应用,即使在高速运动或昏暗环境中,机器也能拍到清晰画面。
其次,捕捉到清晰的图像后,机器视觉技术开始进行图像处理与分析。
在这一环节,系统会把拍下的图像转化为数字信息,随后通过算法分析这些数字信息。
借助卷积神经网络或者Transformer等网络模型,机器视觉技术使机器不仅能分辨图像中物体的形状和颜色,还能理解物体之间的关系。例如,在工厂生产线上,机器视觉系统能识别出哪个产品有裂纹,判断速度可达到毫秒级,精度也远超人工检测。
最后是决策控制环节。此时,机器视觉系统将上一环节识别的结果反馈给控制装置,帮助机器完成分拣、调整或报警等动作,如机器视觉系统能指导机械臂准确抓取物品、根据车流量自动调节红绿灯时间等。
近年来,深度学习技术快速发展,给机器视觉系统带来了颠覆性的影响,使其发展为能够自动学习图像特征、识别图像内容的智能系统。
一定程度上说,机器视觉的发展历程,是人工智能技术从“能感知”升级到“能理解”的缩影。它的发展,离不开计算机、光学和卷积神经网络等技术的进步。
机器视觉的问世,最早可以追溯到20世纪60年代。
当时,美国麻省理工学院科学家拉里·罗伯茨首次提出“计算机视觉”概念,并尝试用几何模型重建三维物体形状。这一研究被视为机器视觉技术发展的起点,机器从此开始学习“睁眼看世界”。
到了20世纪70年代,随着计算机性能的进步和图像传感技术的发展,世界各地科研机构都开始致力于研究如何让计算机“看清楚”图像。
其中,美国卡内基梅隆大学的机器人研究所和麻省理工学院的视觉神经团队,研究推出多种算法,使计算机能从二维照片中重建三维空间结构,推动了机器视觉技术的发展。虽然这时的技术发展有限,但已经能让机器人识别出几何图形,判断物体边缘和方向。
此后,随着计算机算力的提升和数据资源的积累,机器视觉技术在21世纪后迎来了重大跨越。
2012年,加拿大多伦多大学杰弗里·辛顿团队在ImageNet图像识别比赛中推出“深度卷积神经网络”。与以往相比,其识别准确率大幅提高,这标志着依靠深度学习算法推动的机器视觉时代正式到来。
通俗地说,“深度卷积神经网络”能让机器像人一样逐层分析图像:先看图像轮廓,再识别颜色和形状,最后理解图像全局内容。美国斯坦福大学随后建立了一个名为ImageNet的巨型图像数据库,该数据库收集了上千万张带标签的图片,帮助机器“边看边学”,提高其对复杂场景的识别精度。
5年前,视觉Transformer技术的出现,使机器视觉技术从过去的“局部识别”升级为“整体理解”,机器视觉迎来了新的发展阶段。
视觉Transformer技术让机器既能“盯着一个点看”,也能“放眼全局”,从整张图片中找出各部分之间的联系,在多种视觉任务中表现更好。
正如人们所见,这些年各类视觉大模型快速发展,为机器视觉发展开辟了更广的应用空间。从卷积神经网络到视觉Transformer技术,从帮助安防系统快速锁定异常情况,到帮助智能制造设备在复杂环境中保持精准判断,机器视觉的每一次技术突破,都让人工智能的“眼睛”更聪明、更灵活。
融入生活的“第二视觉”
试想一下,在一条忙碌的生产线上,机械臂能精准抓取传送带上移动的零件并进行组装,所有动作流利顺畅。
“精准抓取”的实现,离不开机械臂上的机器视觉系统。机器视觉系统让机械臂拥有动态视觉,在传送带不停歇的情况下,完成对零件的抓取和组装。
凭借能在恶劣环境下持续工作、发现人眼无法察觉的细微差异等优点,如今,机器视觉系统不仅仅是简单处理数据的工具,还逐渐成为理解和分析世界的重要伙伴,使生活中常见的许多智能摄像头、无人机和巡检设备,不必依赖远程服务器就能“即拍即算”,在社会生活的多个领域中发挥重要作用。
——让城市管理更安全高效。在一些人群密度较大的地铁站和公交枢纽,机器视觉技术使道路摄像头、无人巡检车和车载视觉终端相互配合,实时识别车辆、行人和信号灯,提前预警交通拥堵情况,实现交通流量的智能调控。
——在工业制造领域提高检测效率和准确率。无论是人类肉眼难以辨别的手机屏幕上的划痕,还是锂电池表面的微小凹坑,又或是纺织品上的微小污渍和汽车零部件表面的裂纹,机器视觉系统都可以在极短时间内发现上述问题,提高工业制造领域的检测效率和准确率。
——成为医生的好帮手。在医疗领域,机器视觉系统能帮助医生更快发现病变区域。手术机器人依靠高精度机器视觉系统进行微创操作,让手术创口更小、恢复更快。目前,许多医院已使用AI影像分析设备,将其应用在肺结节检测、骨折识别等方面,大幅提高了工作效率,减轻了医生负担。
不过,虽然机器视觉技术已经开始走进工厂、医院和城市管理等多个领域,但想要让它发挥更大作用,仍有一些问题需要解决。遇到光线太暗、下雨、起雾或画面被遮挡的现实环境,可能让系统“看不清”,进而影响其判断;训练一个能力强的视觉模型需要大量数据和高性能设备,背后是较高的成本……因此,让机器视觉系统更稳定、更省成本,将是科研人员未来继续突破的方向。
从“看到世界”迈向“理解世界”
前不久,Ubicept公司推出一套计算机视觉工具包,即使在低光或高速运动条件下,机器视觉系统也能捕捉完整的运动过程。据悉,该系统通过分析画面事物之间的关系,形成对环境的整体把握。
不能否认的是,机器视觉如今正在不断突破人类感知能力的边界。随着模型算法、计算硬件和感知终端不断升级,机器视觉系统正从特定场景中的拍摄工具,逐渐成长为参与判断和协同工作的智能系统。
首先,机器视觉系统将向“大模型”和“通用化”方向发展。
过去的视觉系统多用于单一场景,而未来的视觉大模型能够从海量、多类型数据中提取共性规律,具备由“专用”向“一专多能”转变的能力,有望在不同领域间实现知识共享和灵活应用。
其次,“跨模态融合”或将成为提升视觉理解能力的重要方向。
随着低功耗芯片和边缘计算的发展,视觉计算能力正从“云端”走向“身边”,这意味着未来的视觉系统将不再只依赖图像本身,而是与语言、声音、触觉等多种感知信息结合,让机器能从多个维度理解复杂环境。例如,智能检测系统能“看懂”产品外观、“听懂”机械运行声音,发现潜在故障;在无人机械应用领域,视觉系统能够帮助无人车在复杂路况下自动识别地形障碍并避障、识别信号灯,规划安全行驶路线。
第三,未来的机器视觉系统或将在本地设备中直接完成处理。
边缘计算技术的发展正将智能化从遥远的云服务器,搬到现场的摄像头和传感器中。这样的好处显而易见:视觉设备不仅可以减少依赖远程服务器,保护了数据隐私,还节省了带宽成本,提高反应速度和系统稳定性。这一特点,特别适合高速生产的工业场景和自动驾驶等需要实时反应的领域。
总体来看,未来的机器视觉系统不仅“看到世界”,还能“理解世界”。随着该技术的不断成熟,一个更加智能、安全、有序的社会运行方式也将随之到来。可以预见,当机器真正具备“洞察力”,当视觉与认知深度融合,人类社会将迈入由感知驱动的智能新时代。到那时,机器视觉不仅是融入生活的“第二视觉”,更是推动科技进步和社会发展的“智慧之窗”。据《解放军报》